* Replace wfMungeToUtf8 and do_html_entity_decode with a single function
[lhc/web/wiklou.git] / includes / GlobalFunctions.php
index cb51682..af86f71 100644 (file)
@@ -79,55 +79,6 @@ if ( !function_exists( 'mb_substr' ) ) {
        }
 }
 
-/**
- * html_entity_decode exists in PHP 4.3.0+ but is FATALLY BROKEN even then,
- * with no UTF-8 support.
- *
- * @param string $string String having html entities
- * @param $quote_style
- * @param string $charset Encoding set to use (default 'ISO-8859-1')
- */
-function do_html_entity_decode( $string, $quote_style=ENT_COMPAT, $charset='ISO-8859-1' ) {
-       $fname = 'do_html_entity_decode';
-       wfProfileIn( $fname );
-       
-       static $trans;
-       static $savedCharset;
-       static $regexp;
-       if( !isset( $trans ) || $savedCharset != $charset ) {
-               $trans = array_flip( get_html_translation_table( HTML_ENTITIES, $quote_style ) );
-               $savedCharset = $charset;
-               
-               # Note - mixing latin1 named entities and unicode numbered
-               # ones will result in a bad link.
-               if( strcasecmp( 'utf-8', $charset ) == 0 ) {
-                       $trans = array_map( 'utf8_encode', $trans );
-               }
-               
-               /**
-                * Most links will _not_ contain these fun guys,
-                * and on long pages with many links we can get
-                * called a lot.
-                *
-                * A regular expression search is faster than
-                * a strtr or str_replace with a hundred-ish
-                * entries, though it may be slower to actually
-                * replace things.
-                *
-                * They all look like '&xxxx;'...
-                */
-               foreach( $trans as $key => $val ) {
-                       $snip[] = substr( $key, 1, -1 );
-               }
-               $regexp = '/(&(?:' . implode( '|', $snip ) . ');)/e';
-       }
-
-       $out = preg_replace( $regexp, '$trans["$1"]', $string );
-       wfProfileOut( $fname );
-       return $out;
-}
-
-
 /**
  * Where as we got a random seed
  * @var bool $wgTotalViews
@@ -161,7 +112,7 @@ function wfRandom() {
        # The maximum random value is "only" 2^31-1, so get two random
        # values to reduce the chance of dupes
        $max = mt_getrandmax();
-       $rand = number_format( mt_rand() * mt_rand()
+       $rand = number_format( (mt_rand() * $max + mt_rand())
                / $max / $max, 12, '.', '' );
        return $rand;
 }
@@ -181,64 +132,6 @@ function wfUrlencode ( $s ) {
        return $s;
 }
 
-/**
- * Return the UTF-8 sequence for a given Unicode code point.
- * Currently doesn't work for values outside the Basic Multilingual Plane.
- *
- * @param string $codepoint UTF-8 code point.
- * @return string HTML UTF-8 Entitie such as 'Ӓ'.
- */
-function wfUtf8Sequence( $codepoint ) {
-       if($codepoint <         0x80) return chr($codepoint);
-       if($codepoint <    0x800) return chr($codepoint >>      6 & 0x3f | 0xc0) .
-                                                                        chr($codepoint           & 0x3f | 0x80);
-       if($codepoint <  0x10000) return chr($codepoint >> 12 & 0x0f | 0xe0) .
-                                                                        chr($codepoint >>      6 & 0x3f | 0x80) .
-                                                                        chr($codepoint           & 0x3f | 0x80);
-       if($codepoint < 0x110000) return chr($codepoint >> 18 & 0x07 | 0xf0) .
-                                                                        chr($codepoint >> 12 & 0x3f | 0x80) .
-                                                                        chr($codepoint >>      6 & 0x3f | 0x80) .
-                                                                        chr($codepoint           & 0x3f | 0x80);
-
-       # There should be no assigned code points outside this range, but...
-       return "&#$codepoint;";
-}
-
-/**
- * Converts numeric character entities to UTF-8
- *
- * @param string $string String to convert.
- * @return string Converted string.
- */
-function wfMungeToUtf8( $string ) {
-       global $wgInputEncoding; # This is debatable
-       #$string = iconv($wgInputEncoding, "UTF-8", $string);
-       $string = preg_replace ( '/&#0*([0-9]+);/e', 'wfUtf8Sequence($1)', $string );
-       $string = preg_replace ( '/&#x([0-9a-f]+);/ie', 'wfUtf8Sequence(0x$1)', $string );
-       # Should also do named entities here
-       return $string;
-}
-
-/**
- * Converts a single UTF-8 character into the corresponding HTML character
- * entity (for use with preg_replace_callback)
- *
- * @param array $matches
- *
- */
-function wfUtf8Entity( $matches ) {
-       $codepoint = utf8ToCodepoint( $matches[0] );
-       return "&#$codepoint;";
-}
-
-/**
- * Converts all multi-byte characters in a UTF-8 string into the appropriate
- * character entity
- */
-function wfUtf8ToHTML($string) {
-       return preg_replace_callback( '/[\\xc0-\\xfd][\\x80-\\xbf]*/', 'wfUtf8Entity', $string );
-}
-
 /**
  * Sends a line to the debug log if enabled or, optionally, to a comment in output.
  * In normal operation this is a NOP.
@@ -264,7 +157,10 @@ function wfDebug( $text, $logonly = false ) {
                $wgOut->debug( $text );
        }
        if ( '' != $wgDebugLogFile && !$wgProfileOnly ) {
-               error_log( $text, 3, $wgDebugLogFile );
+               # Strip unprintables; they can switch terminal modes when binary data
+               # gets dumped, which is pretty annoying.
+               $text = preg_replace( '![\x00-\x08\x0b\x0c\x0e-\x1f]!', ' ', $text );
+               @error_log( $text, 3, $wgDebugLogFile );
        }
 }
 
@@ -330,7 +226,9 @@ function wfReadOnly() {
 
 
 /**
- * Get a message from anywhere, for the UI elements
+ * Get a message from anywhere, for the current user language
+ *
+ * @param string 
  */
 function wfMsg( $key ) {
        $args = func_get_args();
@@ -339,7 +237,7 @@ function wfMsg( $key ) {
 }
 
 /**
- * Get a message from anywhere, for the content
+ * Get a message from anywhere, for the current global language
  */
 function wfMsgForContent( $key ) {
        global $wgForceUIMsgAsContentMsg;
@@ -411,6 +309,10 @@ function wfMsgReal( $key, $args, $useDB, $forContent=false ) {
                        $message = $wgParser->transformMsg($message, $wgMsgParserOptions);
                }
        }
+       
+       # Fix windows line-endings
+       # Some messages are split with explode("\n", $msg)
+       $message = str_replace( "\r", '', $message );
 
        # Replace arguments
        if( count( $args ) ) {
@@ -467,43 +369,64 @@ function wfErrorExit() {
 function wfDebugDieBacktrace( $msg = '' ) {
        global $wgCommandLineMode;
 
-       if ( function_exists( 'debug_backtrace' ) ) {
+       $backtrace = wfBacktrace();
+       if ( $backtrace !== false ) {
                if ( $wgCommandLineMode ) {
-                       $msg .= "\nBacktrace:\n";
+                       $msg .= "\nBacktrace:\n$backtrace";
                } else {
-                       $msg .= "\n<p>Backtrace:</p>\n<ul>\n";
-               }
-               $backtrace = debug_backtrace();
-               foreach( $backtrace as $call ) {
-                       if( isset( $call['file'] ) ) {
-                               $f = explode( DIRECTORY_SEPARATOR, $call['file'] );
-                               $file = $f[count($f)-1];
-                       } else {
-                               $file = '-';
-                       }
-                       if( isset( $call['line'] ) ) {
-                               $line = $call['line'];
-                       } else {
-                               $line = '-';
-                       }
-                       if ( $wgCommandLineMode ) {
-                               $msg .= "$file line $line calls ";
-                       } else {
-                               $msg .= '<li>' . $file . ' line ' . $line . ' calls ';
-                       }
-                       if( !empty( $call['class'] ) ) $msg .= $call['class'] . '::';
-                       $msg .= $call['function'] . '()';
-
-                       if ( $wgCommandLineMode ) {
-                               $msg .= "\n";
-                       } else {
-                               $msg .= "</li>\n";
-                       }
+                       $msg .= "\n<p>Backtrace:</p>\n$backtrace";
                }
         }
         die( $msg );
 }
 
+function wfBacktrace() {
+       global $wgCommandLineMode;
+       if ( !function_exists( 'debug_backtrace' ) ) {
+               return false;
+       }
+       
+       if ( $wgCommandLineMode ) {
+               $msg = '';
+       } else {
+               $msg = "<ul>\n";
+       }
+       $backtrace = debug_backtrace();
+       foreach( $backtrace as $call ) {
+               if( isset( $call['file'] ) ) {
+                       $f = explode( DIRECTORY_SEPARATOR, $call['file'] );
+                       $file = $f[count($f)-1];
+               } else {
+                       $file = '-';
+               }
+               if( isset( $call['line'] ) ) {
+                       $line = $call['line'];
+               } else {
+                       $line = '-';
+               }
+               if ( $wgCommandLineMode ) {
+                       $msg .= "$file line $line calls ";
+               } else {
+                       $msg .= '<li>' . $file . ' line ' . $line . ' calls ';
+               }
+               if( !empty( $call['class'] ) ) $msg .= $call['class'] . '::';
+               $msg .= $call['function'] . '()';
+
+               if ( $wgCommandLineMode ) {
+                       $msg .= "\n";
+               } else {
+                       $msg .= "</li>\n";
+               }
+       }
+       if ( $wgCommandLineMode ) {
+               $msg .= "\n";
+       } else {
+               $msg .= "</ul>\n";
+       }
+
+       return $msg;
+}
+
 
 /* Some generic result counters, pulled out of SearchEngine */
 
@@ -652,6 +575,30 @@ function wfQuotedPrintable( $string, $charset = '' ) {
        return $out;
 }
 
+/**
+ * Returns an escaped string suitable for inclusion in a string literal
+ * for JavaScript source code.
+ * Illegal control characters are assumed not to be present.
+ *
+ * @param string $string
+ * @return string
+ */
+function wfEscapeJsString( $string ) {
+       // See ECMA 262 section 7.8.4 for string literal format
+       $pairs = array(
+               "\\" => "\\\\",
+               "\"" => "\\\"",
+               "\'" => "\\\'",
+               "\n" => "\\n",
+               "\r" => "\\r",
+               
+               # To avoid closing the element or CDATA section
+               "<" => "\\x3c",
+               ">" => "\\x3e",
+       );
+       return strtr( $string, $pairs );
+}
+
 /**
  * @todo document
  * @return float
@@ -767,7 +714,7 @@ function wfMerge( $old, $mine, $yours, &$result ){
        }
 
        # Make temporary files
-       $td = '/tmp/';
+       $td = wfTempDir();
        $oldtextFile = fopen( $oldtextName = tempnam( $td, 'merge-old-' ), 'w' );
        $mytextFile = fopen( $mytextName = tempnam( $td, 'merge-mine-' ), 'w' );
        $yourtextFile = fopen( $yourtextName = tempnam( $td, 'merge-your-' ), 'w' );
@@ -830,8 +777,14 @@ function wfHttpError( $code, $label, $desc ) {
        header( "Status: $code $label" );
        $wgOut->sendCacheControl();
 
-       header( 'Content-type: text/plain' );
-       print $desc."\n";
+       header( 'Content-type: text/html' );
+       print "<html><head><title>" .
+               htmlspecialchars( $label ) . 
+               "</title></head><body><h1>" . 
+               htmlspecialchars( $label ) .
+               "</h1><p>" .
+               htmlspecialchars( $desc ) .
+               "</p></body></html>\n";
 }
 
 /**
@@ -988,23 +941,53 @@ function wfRestoreWarnings() {
 
 # Autodetect, convert and provide timestamps of various types
 
-/** Standard unix timestamp (number of seconds since 1 Jan 1970) */
-define('TS_UNIX',0);
-/** MediaWiki concatenated string timestamp (yyyymmddhhmmss) */
-define('TS_MW',1);     
-/** Standard database timestamp (yyyy-mm-dd hh:mm:ss) */
-define('TS_DB',2);
-/** For HTTP and e-mail headers -- output only */
-define('TS_RFC2822', 3 );
+/** 
+ * Unix time - the number of seconds since 1970-01-01 00:00:00 UTC
+ */
+define('TS_UNIX', 0);
 
 /**
- * @todo document
+ * MediaWiki concatenated string timestamp (YYYYMMDDHHMMSS)
+ */
+define('TS_MW', 1);
+
+/**
+ * MySQL DATETIME (YYYY-MM-DD HH:MM:SS)
+ */
+define('TS_DB', 2);
+
+/**
+ * RFC 2822 format, for E-mail and HTTP headers
+ */
+define('TS_RFC2822', 3);
+
+/**
+ * An Exif timestamp (YYYY:MM:DD HH:MM:SS)
+ *
+ * @link http://exif.org/Exif2-2.PDF The Exif 2.2 spec, see page 28 for the
+ *       DateTime tag and page 36 for the DateTimeOriginal and
+ *       DateTimeDigitized tags.
+ */
+define('TS_EXIF', 4);
+
+
+/**
+ * @param mixed $outputtype A timestamp in one of the supported formats, the
+ *                          function will autodetect which format is supplied
+                            and act accordingly.
+ * @return string Time in the format specified in $outputtype
  */
 function wfTimestamp($outputtype=TS_UNIX,$ts=0) {
-       if (preg_match("/^(\d{4})\-(\d\d)\-(\d\d) (\d\d):(\d\d):(\d\d)$/",$ts,$da)) {
+       if ($ts==0) { 
+               $uts=time(); 
+       } elseif (preg_match("/^(\d{4})\-(\d\d)\-(\d\d) (\d\d):(\d\d):(\d\d)$/",$ts,$da)) {
                # TS_DB
                $uts=gmmktime((int)$da[4],(int)$da[5],(int)$da[6],
                            (int)$da[2],(int)$da[3],(int)$da[1]);
+       } elseif (preg_match("/^(\d{4}):(\d\d):(\d\d) (\d\d):(\d\d):(\d\d)$/",$ts,$da)) {
+               # TS_EXIF
+               $uts=gmmktime((int)$da[4],(int)$da[5],(int)$da[6],
+                       (int)$da[2],(int)$da[3],(int)$da[1]);
        } elseif (preg_match("/^(\d{4})(\d\d)(\d\d)(\d\d)(\d\d)(\d\d)$/",$ts,$da)) {
                # TS_MW
                $uts=gmmktime((int)$da[4],(int)$da[5],(int)$da[6],
@@ -1018,7 +1001,6 @@ function wfTimestamp($outputtype=TS_UNIX,$ts=0) {
                $uts = 0;
        }
 
-       if ($ts==0) { $uts=time(); }
                
        switch($outputtype) {
                case TS_UNIX:
@@ -1027,6 +1009,9 @@ function wfTimestamp($outputtype=TS_UNIX,$ts=0) {
                        return gmdate( 'YmdHis', $uts );
                case TS_DB:
                        return gmdate( 'Y-m-d H:i:s', $uts );
+               // This shouldn't ever be used, but is included for completeness
+               case TS_EXIF:
+                       return gmdate(  'Y:m:d H:i:s', $uts );
                case TS_RFC2822:
                        return gmdate( 'D, d M Y H:i:s', $uts ) . ' GMT';
                default:
@@ -1034,6 +1019,21 @@ function wfTimestamp($outputtype=TS_UNIX,$ts=0) {
        }
 }
 
+/**
+ * Return a formatted timestamp, or null if input is null.
+ * For dealing with nullable timestamp columns in the database.
+ * @param int $outputtype
+ * @param string $ts
+ * @return string
+ */
+function wfTimestampOrNull( $outputtype = TS_UNIX, $ts = null ) {
+       if( is_null( $ts ) ) {
+               return null;
+       } else {
+               return wfTimestamp( $outputtype, $ts );
+       }
+}
+
 /**
  * Check where as the operating system is Windows
  *
@@ -1110,4 +1110,91 @@ function wfElement( $element, $attribs = array(), $contents = '') {
        return $out;
 }
 
+/**
+ * Format an XML element as with wfElement(), but run text through the
+ * UtfNormal::cleanUp() validator first to ensure that no invalid UTF-8
+ * is passed.
+ *
+ * @param string $element
+ * @param array $attribs Name=>value pairs. Values will be escaped.
+ * @param bool $contents NULL to make an open tag only; '' for a contentless closed tag (default)
+ * @return string
+ */
+function wfElementClean( $element, $attribs = array(), $contents = '') {
+       if( $attribs ) {
+               $attribs = array_map( array( 'UtfNormal', 'cleanUp' ), $attribs );
+       }
+       return wfElement( $element, $attribs, UtfNormal::cleanUp( $contents ) );
+}
+
+/** Global singleton instance of MimeMagic. This is initialized on demand,
+* please always use the wfGetMimeMagic() function to get the instance.
+* 
+* @private
+*/
+$wgMimeMagic= NULL;
+
+/** Factory functions for the global MimeMagic object.
+* This function always returns the same singleton instance of MimeMagic.
+* That objects will be instantiated on the first call to this function.
+* If needed, the MimeMagic.php file is automatically included by this function.
+* @return MimeMagic the global MimeMagic objects.
+*/
+function &wfGetMimeMagic() {
+       global $wgMimeMagic;
+       
+       if (!is_null($wgMimeMagic)) {
+               return $wgMimeMagic;
+       }
+
+       if (!class_exists("MimeMagic")) {
+               #include on demand
+               require_once("MimeMagic.php");
+       }
+       
+       $wgMimeMagic= new MimeMagic();
+       
+       return $wgMimeMagic;
+}
+
+
+/**
+ * Tries to get the system directory for temporary files.
+ * The TMPDIR, TMP, and TEMP environment variables are checked in sequence,
+ * and if none are set /tmp is returned as the generic Unix default.
+ *
+ * NOTE: When possible, use the tempfile() function to create temporary
+ * files to avoid race conditions on file creation, etc.
+ *
+ * @return string
+ */
+function wfTempDir() {
+       foreach( array( 'TMPDIR', 'TMP', 'TEMP' ) as $var ) {
+               $tmp = getenv( 'TMPDIR' );
+               if( $tmp && file_exists( $tmp ) && is_dir( $tmp ) && is_writable( $tmp ) ) {
+                       return $tmp;
+               }
+       }
+       # Hope this is Unix of some kind!
+       return '/tmp';
+}
+
+/**
+ * Make directory, and make all parent directories if they don't exist
+ */
+function wfMkdirParents( $fullDir, $mode ) {
+       $parts = explode( '/', $fullDir );
+       $path = '';
+       $success = false;
+       foreach ( $parts as $dir ) {
+               $path .= $dir . '/';
+               if ( !is_dir( $path ) ) {
+                       if ( !mkdir( $path, $mode ) ) {
+                               return false;
+                       }
+               }
+       }
+       return true;
+}
+
 ?>