]> git.saurik.com Git - wxWidgets.git/blobdiff - src/common/textfile.cpp
added find performance test (see #9870) and the possibility to set the number of...
[wxWidgets.git] / src / common / textfile.cpp
index 4887c4e50780beb5fd32a41529c156d354a8d3b5..79d837f6319ccc8e87ee574410c795b78c29b8cc 100644 (file)
@@ -35,6 +35,7 @@
 
 #include "wx/textfile.h"
 #include "wx/filename.h"
+#include "wx/buffer.h"
 
 // ============================================================================
 // wxTextFile class implementation
@@ -85,122 +86,205 @@ bool wxTextFile::OnClose()
 }
 
 
-bool wxTextFile::OnRead(wxMBConv& conv)
+bool wxTextFile::OnRead(const wxMBConv& conv)
 {
-    // file should be opened and we must be in it's beginning
-    wxASSERT( m_file.IsOpened() &&
-                (m_file.GetKind() != wxFILE_KIND_DISK || m_file.Tell() == 0) );
+    // file should be opened
+    wxASSERT_MSG( m_file.IsOpened(), _T("can't read closed file") );
+
+    // read the entire file in memory: this is not the most efficient thing to
+    // do it but there is no good way to avoid it in Unicode build because if
+    // we read the file block by block we can't convert each block to Unicode
+    // separately (the last multibyte char in the block might be only partially
+    // read and so the conversion would fail) and, as the file contents is kept
+    // in memory by wxTextFile anyhow, it shouldn't be a big problem to read
+    // the file entirely
+    size_t bufSize = 0;
+
+    // number of bytes to (try to) read from disk at once
+    static const size_t BLOCK_SIZE = 4096;
+
+    wxCharBuffer buf;
+
+    // first determine if the file is seekable or not and so whether we can
+    // determine its length in advance
+    wxFileOffset fileLength;
+    {
+        wxLogNull logNull;
+        fileLength = m_file.Length();
+    }
 
-    static const size_t BUF_SIZE = 1024;
-#if wxUSE_UNICODE
-    static const size_t NUL_SIZE = 4;
-#else
-    static const size_t NUL_SIZE = 1;
-#endif
+    // some non-seekable files under /proc under Linux pretend that they're
+    // seekable but always return 0; others do return an error
+    const bool seekable = fileLength != wxInvalidOffset && fileLength != 0;
+    if ( seekable )
+    {
+        // we know the required length, so set the buffer size in advance
+        bufSize = fileLength;
+        if ( !buf.extend(bufSize) )
+            return false;
 
-    char buf[BUF_SIZE + NUL_SIZE];
-    wxChar chLast = '\0';
-    wxString str;
+        // if the file is seekable, also check that we're at its beginning
+        wxASSERT_MSG( m_file.Tell() == 0, _T("should be at start of file") );
 
-    for ( ;; )
-    {
-        // leave space for trailing NUL
-        ssize_t nRead = m_file.Read(buf, BUF_SIZE);
+        char *dst = buf.data();
+        for ( size_t nRemaining = bufSize; nRemaining > 0; )
+        {
+            size_t nToRead = BLOCK_SIZE;
+
+            // the file size could have changed, avoid overflowing the buffer
+            // even if it did
+            if ( nToRead > nRemaining )
+                nToRead = nRemaining;
+
+            ssize_t nRead = m_file.Read(dst, nToRead);
+
+            if ( nRead == wxInvalidOffset )
+            {
+                // read error (error message already given in wxFile::Read)
+                return false;
+            }
 
-        if ( nRead == wxInvalidOffset )
+            if ( nRead == 0 )
+            {
+                // this file can't be empty because we checked for this above
+                // so this must be the end of file
+                break;
+            }
+
+            dst += nRead;
+            nRemaining -= nRead;
+        }
+
+        wxASSERT_MSG( dst - buf.data() == (wxFileOffset)bufSize,
+                      _T("logic error") );
+    }
+    else // file is not seekable
+    {
+        char block[BLOCK_SIZE];
+        for ( ;; )
         {
-            // read error (error message already given in wxFile::Read)
-            return false;
+            ssize_t nRead = m_file.Read(block, WXSIZEOF(block));
+
+            if ( nRead == wxInvalidOffset )
+            {
+                // read error (error message already given in wxFile::Read)
+                return false;
+            }
+
+            if ( nRead == 0 )
+            {
+                // if no bytes have been read, presumably this is a
+                // valid-but-empty file
+                if ( bufSize == 0 )
+                    return true;
+
+                // otherwise we've finished reading the file
+                break;
+            }
+
+            // extend the buffer for new data
+            if ( !buf.extend(bufSize + nRead) )
+                return false;
+
+            // and append it to the buffer
+            memcpy(buf.data() + bufSize, block, nRead);
+            bufSize += nRead;
         }
+    }
 
-        if ( nRead == 0 )
-            break;
+    const wxString str(buf, conv, bufSize);
 
+    // there's no risk of this happening in ANSI build
 #if wxUSE_UNICODE
-        // we have to properly NUL-terminate the string for any encoding it may
-        // use -- 4 NULs should be enough for everyone (this is why we add 4
-        // extra bytes to the buffer)
-        buf[nRead] =
-        buf[nRead + 1] =
-        buf[nRead + 2] =
-        buf[nRead + 3] = '\0';
-
-        // append to the remains of the last block, don't overwrite
-        wxString strbuf(buf, conv);
-        if ( strbuf.empty() )
-        {
-            // conversion failed
-            return false;
-        }
+    if ( bufSize > 4 && str.empty() )
+    {
+        wxLogError(_("Failed to convert file \"%s\" to Unicode."), GetName());
+        return false;
+    }
+#endif // wxUSE_UNICODE
+
+    // we don't need this memory any more
+    buf.reset();
 
-        str += strbuf;
-#else // ANSI
-        wxUnusedVar(conv);
-        buf[nRead] = '\0';
-        str += buf;
-#endif // wxUSE_UNICODE/!wxUSE_UNICODE
 
+    // now break the buffer in lines
 
-        // the beginning of the current line, changes inside the loop
-        const wxChar *lineStart = str.begin();
-        const wxChar * const end = str.end();
-        for ( const wxChar *p = lineStart; p != end; p++ )
+    // last processed character, we need to know if it was a CR or not
+    wxChar chLast = '\0';
+
+    // the beginning of the current line, changes inside the loop
+    wxString::const_iterator lineStart = str.begin();
+    const wxString::const_iterator end = str.end();
+    for ( wxString::const_iterator p = lineStart; p != end; p++ )
+    {
+        const wxChar ch = *p;
+        switch ( ch )
         {
-            const wxChar ch = *p;
-            switch ( ch )
-            {
-                case '\n':
-                    // could be a DOS or Unix EOL
-                    if ( chLast == '\r' )
+            case '\n':
+                // could be a DOS or Unix EOL
+                if ( chLast == '\r' )
+                {
+                    if ( p - 1 >= lineStart )
                     {
                         AddLine(wxString(lineStart, p - 1), wxTextFileType_Dos);
                     }
-                    else // bare '\n', Unix style
+                    else
                     {
-                        AddLine(wxString(lineStart, p), wxTextFileType_Unix);
+                        // there were two line endings, so add an empty line:
+                        AddLine(wxEmptyString, wxTextFileType_Dos);
                     }
-
+                }
+                else // bare '\n', Unix style
+                {
+                    AddLine(wxString(lineStart, p), wxTextFileType_Unix);
+                }
+
+                lineStart = p + 1;
+                break;
+
+            case '\r':
+                if ( chLast == '\r' )
+                {
+                    // Mac empty line
+                    AddLine(wxEmptyString, wxTextFileType_Mac);
                     lineStart = p + 1;
-                    break;
-
-                case '\r':
-                    if ( chLast == '\r' )
+                }
+                //else: we don't know what this is yet -- could be a Mac EOL or
+                //      start of DOS EOL so wait for next char
+                break;
+
+            default:
+                if ( chLast == '\r' )
+                {
+                    // Mac line termination
+                    if ( p - 1 >= lineStart )
                     {
-                        // Mac empty line
-                        AddLine(wxEmptyString, wxTextFileType_Mac);
-                        lineStart = p + 1;
+                        AddLine(wxString(lineStart, p - 1), wxTextFileType_Mac);
                     }
-                    //else: we don't what this is yet -- could be a Mac EOL or
-                    //      start of DOS EOL so wait for next char
-                    break;
-
-                default:
-                    if ( chLast == '\r' )
+                    else
                     {
-                        // Mac line termination
-                        AddLine(wxString(lineStart, p - 1), wxTextFileType_Mac);
-                        lineStart = p;
+                        // there were two line endings, so add an empty line:
+                        AddLine(wxEmptyString, wxTextFileType_Mac);
                     }
-            }
-
-            chLast = ch;
+                    lineStart = p;
+                }
         }
 
-        // remove the part we already processed
-        str.erase(0, lineStart - str.begin());
+        chLast = ch;
     }
 
     // anything in the last line?
-    if ( !str.empty() )
+    if ( lineStart != end )
     {
-        AddLine(str, wxTextFileType_None); // no line terminator
+        // add unterminated last line
+        AddLine(wxString(lineStart, end), wxTextFileType_None);
     }
 
     return true;
 }
 
 
-bool wxTextFile::OnWrite(wxTextFileType typeNew, wxMBConv& conv)
+bool wxTextFile::OnWrite(wxTextFileType typeNew, const wxMBConv& conv)
 {
     wxFileName fn = m_strBufferName;
 
@@ -230,4 +314,3 @@ bool wxTextFile::OnWrite(wxTextFileType typeNew, wxMBConv& conv)
 }
 
 #endif // wxUSE_TEXTFILE
-