]> git.saurik.com Git - wxWidgets.git/blobdiff - src/common/strconv.cpp
don't use -q option with egrep, Solaris doesn't have it (bug 517145)
[wxWidgets.git] / src / common / strconv.cpp
index 41e50679a59771c8da6f33c5fd791546aae1cf42..c8207ca44e4fa48f52ecd9ecb4942c7fdc323565 100644 (file)
   #pragma hdrstop
 #endif
 
+#ifndef WX_PRECOMP
+    #include "wx/intl.h"
+    #include "wx/log.h"
+#endif // WX_PRECOMP
+
 #ifdef __WXMSW__
-  #include "wx/msw/private.h"
+    #include "wx/msw/private.h"
 #endif
 
 #include <errno.h>
 #include <string.h>
 #include <stdlib.h>
 
-
-#include "wx/debug.h"
 #include "wx/strconv.h"
-#include "wx/intl.h"
-#include "wx/log.h"
 
 // ----------------------------------------------------------------------------
 // globals
 // ----------------------------------------------------------------------------
 
-WXDLLEXPORT_DATA(wxMBConv *) wxConvCurrent = &wxConvLibc;
+#if wxUSE_WCHAR_T
+    WXDLLEXPORT_DATA(wxMBConv) wxConvLibc;
+    WXDLLEXPORT_DATA(wxCSConv) wxConvLocal((const wxChar *)NULL);
+#else
+    // stand-ins in absence of wchar_t
+    WXDLLEXPORT_DATA(wxMBConv) wxConvLibc, wxConvFile;
+#endif // wxUSE_WCHAR_T
 
+WXDLLEXPORT_DATA(wxMBConv *) wxConvCurrent = &wxConvLibc;
 
-// ============================================================================
-// implementation
-// ============================================================================
+// ----------------------------------------------------------------------------
+// headers
+// ----------------------------------------------------------------------------
 
 #if wxUSE_WCHAR_T
 
 #ifdef __SALFORDC__
-  #include <clib.h>
+    #include <clib.h>
 #endif
 
-#ifdef HAVE_ICONV_H
-  #include <iconv.h>
+#ifdef HAVE_ICONV
+    #include <iconv.h>
 #endif
 
-#ifdef __WXMSW__
-  #include <windows.h>
-#endif
+#include "wx/encconv.h"
+#include "wx/fontmap.h"
+
+// ----------------------------------------------------------------------------
+// macros
+// ----------------------------------------------------------------------------
 
 #define BSWAP_UCS4(str, len) { unsigned _c; for (_c=0; _c<len; _c++) str[_c]=wxUINT32_SWAP_ALWAYS(str[_c]); }
 #define BSWAP_UTF16(str, len) { unsigned _c; for (_c=0; _c<len; _c++) str[_c]=wxUINT16_SWAP_ALWAYS(str[_c]); }
@@ -99,6 +110,13 @@ WXDLLEXPORT_DATA(wxMBConv *) wxConvCurrent = &wxConvLibc;
     #error "Weird sizeof(wchar_t): please report your platform details to wx-users mailing list"
 #endif
 
+// ============================================================================
+// implementation
+// ============================================================================
+
+// ----------------------------------------------------------------------------
+// UTF-16 en/decoding
+// ----------------------------------------------------------------------------
 
 #ifdef WC_UTF16
 
@@ -106,7 +124,7 @@ static size_t encode_utf16(wxUint32 input, wchar_t *output)
 {
     if (input<=0xffff)
     {
-        if (output) *output++ = input;
+        if (output) *output++ = (wchar_t) input;
         return 1;
     }
     else if (input>=0x110000)
@@ -117,8 +135,8 @@ static size_t encode_utf16(wxUint32 input, wchar_t *output)
     {
         if (output)
         {
-            *output++ = (input >> 10)+0xd7c0;
-            *output++ = (input&0x3ff)+0xdc00;
+            *output++ = (wchar_t) ((input >> 10)+0xd7c0);
+            *output++ = (wchar_t) ((input&0x3ff)+0xdc00);
         }
         return 2;
     }
@@ -149,8 +167,6 @@ static size_t decode_utf16(const wchar_t* input, wxUint32& output)
 // wxMBConv
 // ----------------------------------------------------------------------------
 
-WXDLLEXPORT_DATA(wxMBConv) wxConvLibc;
-
 size_t wxMBConv::MB2WC(wchar_t *buf, const char *psz, size_t n) const
 {
     return wxMB2WC(buf, psz, n);
@@ -341,11 +357,11 @@ size_t wxMBConvUTF8::MB2WC(wchar_t *buf, const char *psz, size_t n) const
                 if (buf)
                     buf += pa;
                 len += pa;
-#else
+#else // !WC_UTF16
                 if (buf)
                     *buf++ = res;
                 len++;
-#endif
+#endif // WC_UTF16/!WC_UTF16
             }
         }
     }
@@ -373,7 +389,7 @@ size_t wxMBConvUTF8::WC2MB(char *buf, const wchar_t *psz, size_t n) const
         {
             // plain ASCII char
             if (buf)
-                *buf++ = cc;
+                *buf++ = (char) cc;
             len++;
         }
 
@@ -382,9 +398,9 @@ size_t wxMBConvUTF8::WC2MB(char *buf, const wchar_t *psz, size_t n) const
             len += cnt + 1;
             if (buf)
             {
-                *buf++ = (-128 >> cnt) | ((cc >> (cnt * 6)) & (0x3f >> cnt));
+                *buf++ = (char) ((-128 >> cnt) | ((cc >> (cnt * 6)) & (0x3f >> cnt)));
                 while (cnt--)
-                    *buf++ = 0x80 | ((cc >> (cnt * 6)) & 0x3f);
+                    *buf++ = (char) (0x80 | ((cc >> (cnt * 6)) & 0x3f));
             }
         }
     }
@@ -393,110 +409,6 @@ size_t wxMBConvUTF8::WC2MB(char *buf, const wchar_t *psz, size_t n) const
     return len;
 }
 
-// ----------------------------------------------------------------------------
-// specified character set
-// ----------------------------------------------------------------------------
-
-WXDLLEXPORT_DATA(wxCSConv) wxConvLocal((const wxChar *)NULL);
-
-#include "wx/encconv.h"
-#include "wx/fontmap.h"
-
-// TODO: add some tables here
-// - perhaps common encodings to common codepages (for Win32)
-// - perhaps common encodings to objects ("UTF8" -> wxConvUTF8)
-// - move wxEncodingConverter meat in here
-
-#if defined(__WIN32__) && !defined(__WXMICROWIN__)
-
-#if wxUSE_GUI
-
-// VZ: the new version of wxCharsetToCodepage() is more politically correct
-//     and should work on other Windows versions as well but the old version is
-//     still needed for !wxUSE_FONTMAP || !wxUSE_GUI case
-
-extern long wxEncodingToCodepage(wxFontEncoding encoding)
-{
-    // translate encoding into the Windows CHARSET
-    wxNativeEncodingInfo natveEncInfo;
-    if ( !wxGetNativeFontEncoding(encoding, &natveEncInfo) )
-        return -1;
-
-    // translate CHARSET to code page
-    CHARSETINFO csetInfo;
-    if ( !::TranslateCharsetInfo((DWORD *)(DWORD)natveEncInfo.charset,
-                                 &csetInfo,
-                                 TCI_SRCCHARSET) )
-    {
-        wxLogLastError(_T("TranslateCharsetInfo(TCI_SRCCHARSET)"));
-
-        return -1;
-    }
-
-    return csetInfo.ciACP;
-}
-
-#if wxUSE_FONTMAP
-
-extern long wxCharsetToCodepage(const wxChar *name)
-{
-    // first get the font encoding for this charset
-    if ( !name )
-        return -1;
-
-    wxFontEncoding enc = wxTheFontMapper->CharsetToEncoding(name, FALSE);
-    if ( enc == wxFONTENCODING_SYSTEM )
-        return -1;
-
-    // the use the helper function
-    return wxEncodingToCodepage(enc);
-}
-
-#endif // wxUSE_FONTMAP
-
-#endif // wxUSE_GUI
-
-// include old wxCharsetToCodepage() by OK if needed
-#if !wxUSE_GUI || !wxUSE_FONTMAP
-
-#include "wx/msw/registry.h"
-
-// this should work if Internet Exploiter is installed
-extern long wxCharsetToCodepage(const wxChar *name)
-{
-    if (!name)
-        return GetACP();
-
-    long CP=-1;
-
-    wxString cn(name);
-    do {
-        wxString path(wxT("MIME\\Database\\Charset\\"));
-        path += cn;
-        wxRegKey key(wxRegKey::HKCR, path);
-
-        if (!key.Exists()) break;
-
-        // two cases: either there's an AliasForCharset string,
-        // or there are Codepage and InternetEncoding dwords.
-        // The InternetEncoding gives us the actual encoding,
-        // the Codepage just says which Windows character set to
-        // use when displaying the data.
-        if (key.HasValue(wxT("InternetEncoding")) &&
-            key.QueryValue(wxT("InternetEncoding"), &CP)) break;
-
-        // no encoding, see if it's an alias
-        if (!key.HasValue(wxT("AliasForCharset")) ||
-            !key.QueryValue(wxT("AliasForCharset"), cn)) break;
-    } while (1);
-
-    return CP;
-}
-
-#endif // !wxUSE_GUI || !wxUSE_FONTMAP
-
-#endif // Win32
-
 // ============================================================================
 // wxCharacterSet and derived classes
 // ============================================================================
@@ -508,16 +420,11 @@ extern long wxCharsetToCodepage(const wxChar *name)
 class wxCharacterSet
 {
 public:
-    wxCharacterSet(const wxChar*name)
-        : cname(name) {}
-    virtual ~wxCharacterSet()
-        {}
-    virtual size_t MB2WC(wchar_t *buf, const char *psz, size_t n)
-        { return (size_t)-1; }
-    virtual size_t WC2MB(char *buf, const wchar_t *psz, size_t n)
-        { return (size_t)-1; }
-    virtual bool usable()
-        { return FALSE; }
+    wxCharacterSet(const wxChar*name) : cname(name) {}
+    virtual ~wxCharacterSet() {}
+    virtual size_t MB2WC(wchar_t *buf, const char *psz, size_t n) = 0;
+    virtual size_t WC2MB(char *buf, const wchar_t *psz, size_t n) = 0;
+    virtual bool usable() const = 0;
 public:
     const wxChar*cname;
 };
@@ -538,7 +445,7 @@ public:
     size_t WC2MB(char *buf, const wchar_t *psz, size_t n)
         { return work ? work->WC2MB(buf,psz,n) : (size_t)-1; }
 
-    bool usable()
+    bool usable() const
         { return work!=NULL; }
 public:
     wxMBConv*work;
@@ -549,7 +456,7 @@ public:
 // The classes doing conversion using the iconv_xxx() functions
 // ============================================================================
 
-#ifdef HAVE_ICONV_H
+#ifdef HAVE_ICONV
 
 // VS: glibc 2.1.3 is broken in that iconv() conversion to/from UCS4 fails with E2BIG
 //     if output buffer is _exactly_ as big as needed. Such case is (unless there's
@@ -565,11 +472,7 @@ public:
 #define ICONV_FAILED(cres, bufLeft)  (cres == (size_t)-1)
 #endif
 
-#ifdef WX_ICONV_TAKES_CHAR
-    #define ICONV_CHAR_CAST(x)  (char **)x
-#else
-    #define ICONV_CHAR_CAST(x)  (const char **)x
-#endif
+#define ICONV_CHAR_CAST(x)  ((ICONV_CONST char **)(x))
 
 // ----------------------------------------------------------------------------
 // IC_CharSet: encapsulates an iconv character set
@@ -600,10 +503,11 @@ private:
 
     // true if the wide char encoding we use (i.e. ms_wcCharsetName) has
     // different endian-ness than the native one
-    static bool ms_wcNeedsSwap = FALSE;
+    static bool ms_wcNeedsSwap;
 };
 
 const char *IC_CharSet::ms_wcCharsetName = NULL;
+bool IC_CharSet::ms_wcNeedsSwap = FALSE;
 
 IC_CharSet::IC_CharSet(const wxChar *name)
           : wxCharacterSet(name)
@@ -663,7 +567,11 @@ IC_CharSet::IC_CharSet(const wxChar *name)
             else
             {
                 ms_wcCharsetName = NULL;
-                wxLogError(_("Impossible to convert to/from charset '%s'."), name);
+
+                // VS: we must not output an error here, since wxWindows will safely
+                //     fall back to using wxEncodingConverter.
+                wxLogTrace(wxT("strconv"), wxT("Impossible to convert to/from charset '%s' with iconv, falling back to wxEncodingConverter."), name);
+                //wxLogError(
             }
         }
         wxLogTrace(wxT("strconv"), wxT("wchar_t charset is '%s', needs swap: %i"), ms_wcCharsetName, ms_wcNeedsSwap);
@@ -678,6 +586,10 @@ IC_CharSet::IC_CharSet(const wxChar *name)
     {
         w2m = iconv_open(wxConvLibc.cWX2MB(name), ms_wcCharsetName);
     }
+    else
+    {
+        w2m = (iconv_t)-1;
+    }
 }
 
 IC_CharSet::~IC_CharSet()
@@ -800,13 +712,16 @@ size_t IC_CharSet::WC2MB(char *buf, const wchar_t *psz, size_t n)
     return res;
 }
 
-#endif // HAVE_ICONV_H
+#endif // HAVE_ICONV
 
 // ============================================================================
 // Win32 conversion classes
 // ============================================================================
 
 #if defined(__WIN32__) && !defined(__WXMICROWIN__)
+
+extern long wxCharsetToCodepage(const wxChar *charset); // from utils.cpp
+
 class CP_CharSet : public wxCharacterSet
 {
 public:
@@ -834,7 +749,7 @@ public:
         return len ? (buf ? len : len-1) : (size_t)-1;
     }
 
-    bool usable()
+    bool usable() const
         { return m_CodePage != -1; }
 
 public:
@@ -858,11 +773,12 @@ public:
     {
         if (name)
             enc = wxTheFontMapper->CharsetToEncoding(name, FALSE);
-        m2w.Init(enc, wxFONTENCODING_UNICODE);
-        w2m.Init(wxFONTENCODING_UNICODE, enc);
+
+        m_ok = m2w.Init(enc, wxFONTENCODING_UNICODE) &&
+               w2m.Init(wxFONTENCODING_UNICODE, enc);
     }
 
-    size_t MB2WC(wchar_t *buf, const char *psz, size_t n)
+    size_t MB2WC(wchar_t *buf, const char *psz, size_t WXUNUSED(n))
     {
         size_t inbuf = strlen(psz);
         if (buf)
@@ -870,7 +786,7 @@ public:
         return inbuf;
     }
 
-    size_t WC2MB(char *buf, const wchar_t *psz, size_t n)
+    size_t WC2MB(char *buf, const wchar_t *psz, size_t WXUNUSED(n))
     {
 #if ( defined(__BORLANDC__) && (__BORLANDC__ > 0x530) ) \
     || ( defined(__MWERKS__) && defined(__WXMSW__) )
@@ -884,12 +800,14 @@ public:
         return inbuf;
     }
 
-    bool usable()
-        { return (enc!=wxFONTENCODING_SYSTEM) && (enc!=wxFONTENCODING_DEFAULT); }
+    bool usable() const { return m_ok; }
 
 public:
     wxFontEncoding enc;
     wxEncodingConverter m2w, w2m;
+
+    // were we initialized successfully?
+    bool m_ok;
 };
 
 #endif // wxUSE_FONTMAP
@@ -901,46 +819,67 @@ public:
 
 static wxCharacterSet *wxGetCharacterSet(const wxChar *name)
 {
-    wxCharacterSet *cset = NULL;
-    if (name)
+    // check for the special case of ASCII charset
+#if wxUSE_FONTMAP
+    if ( wxTheFontMapper->CharsetToEncoding(name) == wxFONTENCODING_DEFAULT )
+#else // wxUSE_FONTMAP
+    if ( !name )
+#endif // wxUSE_FONTMAP/!wxUSE_FONTMAP
     {
-        if (wxStricmp(name, wxT("UTF8")) == 0 || wxStricmp(name, wxT("UTF-8")) == 0)
-        {
-            cset = new ID_CharSet(name, &wxConvUTF8);
-        }
-        else
-        {
-#ifdef HAVE_ICONV_H
-            cset = new IC_CharSet(name); // may not take NULL
-#endif
-        }
+        // don't convert at all
+        return NULL;
     }
 
-    if (cset && cset->usable())
-        return cset;
+    // the test above must have taken care of this case
+    wxCHECK_MSG( name, NULL, _T("NULL name must be wxFONTENCODING_DEFAULT") );
+
+    wxCharacterSet *cset;
+
+    if ( wxStricmp(name, wxT("UTF8")) == 0 || wxStricmp(name, wxT("UTF-8")) == 0)
+    {
+        cset = new ID_CharSet(name, &wxConvUTF8);
+    }
+    else
+    {
+#ifdef HAVE_ICONV
+        cset = new IC_CharSet(name);
+#else // !HAVE_ICONV
+        cset = NULL;
+#endif // HAVE_ICONV/!HAVE_ICONV
+    }
 
-    if (cset)
+    // it can only be NULL in this case
+#ifndef HAVE_ICONV
+    if ( cset )
+#endif // !HAVE_ICONV
     {
+        if ( cset->usable() )
+            return cset;
+
         delete cset;
         cset = NULL;
     }
 
 #if defined(__WIN32__) && !defined(__WXMICROWIN__)
-    cset = new CP_CharSet(name); // may take NULL
-    if (cset->usable())
+    cset = new CP_CharSet(name);
+    if ( cset->usable() )
         return cset;
 
     delete cset;
+    cset = NULL;
 #endif // __WIN32__
 
 #if wxUSE_FONTMAP
     cset = new EC_CharSet(name);
-    if (cset->usable())
+    if ( cset->usable() )
         return cset;
-#endif // wxUSE_FONTMAP
 
     delete cset;
-    wxLogError(_("Unknown encoding '%s'!"), name);
+    cset = NULL;
+#endif // wxUSE_FONTMAP
+
+    wxLogError(_("Cannot convert from encoding '%s'!"), name);
+
     return NULL;
 }
 
@@ -1031,69 +970,6 @@ size_t wxCSConv::WC2MB(char *buf, const wchar_t *psz, size_t n) const
     return len;
 }
 
-// VZ: are the classes below used at all??
-#if 0
-
-#ifdef HAVE_ICONV_H
-
-class IC_CharSetConverter
-{
-public:
-    IC_CharSetConverter(IC_CharSet *from, IC_CharSet *to)
-    {
-        cnv = iconv_open(wxConvLibc.cWX2MB(to->cname),
-                         wxConvLibc.cWX2MB(from->cname));
-    }
-
-    ~IC_CharSetConverter()
-    {
-        if (cnv != (iconv_t)-1)
-            iconv_close(cnv);
-    }
-
-    size_t Convert(char *buf, const char *psz, size_t n)
-    {
-        size_t inbuf = strlen(psz);
-        size_t outbuf = n;
-        size_t res = iconv( cnv, ICONV_CHAR_CAST(&psz), &inbuf, &buf, &outbuf );
-        if (res == (size_t)-1)
-            return (size_t)-1;
-        return (n - outbuf);
-    }
-
-public:
-    iconv_t cnv;
-};
-
-#endif // HAVE_ICONV_H
-
-class EC_CharSetConverter
-{
-public:
-    EC_CharSetConverter(EC_CharSet* from,EC_CharSet* to)
-        { cnv.Init(from->enc,to->enc); }
-
-    size_t Convert(char* buf, const char* psz, size_t n)
-    {
-        size_t inbuf = strlen(psz);
-        if (buf) cnv.Convert(psz,buf);
-        return inbuf;
-    }
-
-public:
-    wxEncodingConverter cnv;
-};
-
-#endif // 0
-
-#else // !wxUSE_WCHAR_T
-
-// ----------------------------------------------------------------------------
-// stand-ins in absence of wchar_t
-// ----------------------------------------------------------------------------
-
-WXDLLEXPORT_DATA(wxMBConv) wxConvLibc, wxConvFile;
-
 #endif // wxUSE_WCHAR_T