Follow-up to r51279
[lhc/web/wiklou.git] / maintenance / refreshLinks.inc
index 48d9971..b7d531c 100644 (file)
@@ -1,16 +1,14 @@
 <?php
 /**
  * @todo document
- * @addtogroup Maintenance
+ * @file
+ * @ingroup Maintenance
  */
 
-/** */
-define( "REPORTING_INTERVAL", 100 );
-#define( "REPORTING_INTERVAL", 1 );
-
 function refreshLinks( $start, $newOnly = false, $maxLag = false, $end = 0, $redirectsOnly = false, $oldRedirectsOnly = false ) {
        global $wgUser, $wgParser, $wgUseTidy;
 
+       $reportingInterval = 100;
        $fname = 'refreshLinks';
        $dbr = wfGetDB( DB_SLAVE );
        $start = intval( $start );
@@ -19,7 +17,9 @@ function refreshLinks( $start, $newOnly = false, $maxLag = false, $end = 0, $red
        $wgUser->setOption('math', MW_MATH_SOURCE);
 
        # Don't generate extension images (e.g. Timeline)
-       $wgParser->clearTagHooks();
+       if( method_exists( $wgParser, "clearTagHooks" ) ) {
+               $wgParser->clearTagHooks();
+       }
 
        # Don't use HTML tidy
        $wgUseTidy = false;
@@ -41,7 +41,7 @@ function refreshLinks( $start, $newOnly = false, $maxLag = false, $end = 0, $red
                print "Refreshing $num old redirects from $start...\n";
 
                while( $row = $dbr->fetchObject( $res ) ) {
-                       if ( !( ++$i % REPORTING_INTERVAL ) ) {
+                       if ( !( ++$i % $reportingInterval ) ) {
                                print "$i\n";
                                wfWaitForSlaves( $maxLag );
                        }
@@ -61,7 +61,7 @@ function refreshLinks( $start, $newOnly = false, $maxLag = false, $end = 0, $red
 
                $i = 0;
                while ( $row = $dbr->fetchObject( $res ) ) {
-                       if ( !( ++$i % REPORTING_INTERVAL ) ) {
+                       if ( !( ++$i % $reportingInterval ) ) {
                                print "$i\n";
                                wfWaitForSlaves( $maxLag );
                        }
@@ -79,7 +79,7 @@ function refreshLinks( $start, $newOnly = false, $maxLag = false, $end = 0, $red
 
                for ($id = $start; $id <= $end; $id++) {
 
-                       if ( !($id % REPORTING_INTERVAL) ) {
+                       if ( !($id % $reportingInterval) ) {
                                print "$id\n";
                                wfWaitForSlaves( $maxLag );
                        }
@@ -112,13 +112,13 @@ function fixRedirect( $id ){
 
 function fixLinksFromArticle( $id ) {
        global $wgTitle, $wgParser;
-       
+
        $wgTitle = Title::newFromID( $id );
        $dbw = wfGetDB( DB_MASTER );
 
        $linkCache =& LinkCache::singleton();
        $linkCache->clear();
-       
+
        if ( is_null( $wgTitle ) ) {
                return;
        }
@@ -136,41 +136,67 @@ function fixLinksFromArticle( $id ) {
        $dbw->immediateCommit();
 }
 
-function deleteLinksFromNonexistent( $maxLag = 0 ) {
-       $fname = 'deleteLinksFromNonexistent';
-
+/*
+ * Removes non-existing links from pages from pagelinks, imagelinks,
+ * categorylinks, templatelinks and externallinks tables.
+ *
+ * @param $maxLag
+ * @param $batchSize The size of deletion batches
+ *
+ * @author Merlijn van Deen <valhallasw@arctus.nl>
+ */
+function deleteLinksFromNonexistent( $maxLag = 0, $batchSize = 100 ) {
        wfWaitForSlaves( $maxLag );
-
+       
        $dbw = wfGetDB( DB_MASTER );
 
-       $linksTables = array(
+       $lb = wfGetLBFactory()->newMainLB();
+       $dbr = $lb->getConnection( DB_SLAVE );
+       $dbr->bufferResults( false );
+       
+       $linksTables = array( // table name => page_id field
                'pagelinks' => 'pl_from',
                'imagelinks' => 'il_from',
                'categorylinks' => 'cl_from',
                'templatelinks' => 'tl_from',
                'externallinks' => 'el_from',
        );
-
-       $page = $dbw->tableName( 'page' );
-
-
+       
        foreach ( $linksTables as $table => $field ) {
-               if ( !$dbw->ping() ) {
-                       print "DB disconnected, reconnecting...";
-                       while ( !$dbw->ping() ) {
-                               print ".";
-                               sleep(10);
+               print "Retrieving illegal entries from $table... ";
+               
+               // SELECT DISTINCT( $field ) FROM $table LEFT JOIN page ON $field=page_id WHERE page_id IS NULL;
+               $results = $dbr->select( array( $table, 'page' ),
+                             $field,
+                             array('page_id' => null ),
+                             __METHOD__,
+                             'DISTINCT',
+                             array( 'page' => array( 'LEFT JOIN', "$field=page_id"))
+               );
+               
+               $counter = 0;
+               $list = array();
+               print "0..";
+               
+               foreach( $results as $row ) {
+                       $counter++;
+                       $list[] = $row->$field;
+                       if ( ( $counter % $batchSize ) == 0 ) {
+                               wfWaitForSlaves(5);
+                               $dbw->delete( $table, array( $field => $list ), __METHOD__ );
+                               
+                               print $counter . "..";
+                               $list = array();
                        }
-                       print "\n";
                }
-
-               $pTable = $dbw->tableName( $table );
-               $sql = "DELETE $pTable FROM $pTable LEFT JOIN $page ON page_id=$field WHERE page_id IS NULL";
-
-               print "Deleting $table from non-existent articles...";
-               $dbw->query( $sql, $fname );
-               print " fixed " .$dbw->affectedRows() . " row(s)\n";
+               
+               print $counter;
+               if (count($list) > 0) {
+                       $dbw->delete( $table, array( $field => $list ), __METHOD__ );
+               }
+               
+               print "\n";
        }
+       
+       $lb->closeAll();
 }
-
-?>