Russian grammar updates
authorAmir E. Aharoni <amir.aharoni@mail.huji.ac.il>
Mon, 11 Feb 2013 05:09:41 +0000 (10:39 +0530)
committerSiebrand Mazeland <s.mazeland@xs4all.nl>
Mon, 11 Feb 2013 06:15:13 +0000 (07:15 +0100)
* Replace == with ===
* Add support for the prepositional case
* Add support for Wikidata
* Add tests

Change-Id: Ic02bfb9ce88e93775036f3d15921cedca602237c

languages/classes/LanguageRu.php
tests/phpunit/languages/LanguageRuTest.php

index 6407e15..11b42cf 100644 (file)
@@ -44,43 +44,61 @@ class LanguageRu extends Language {
                        return $wgGrammarForms['ru'][$case][$word];
                }
 
-               # These rules are not perfect, but they are currently only used for site names so it doesn't
+               # These rules are not perfect, but they are currently only used for Wikimedia site names so it doesn't
                # matter if they are wrong sometimes. Just add a special case for your site name if necessary.
 
-               # join and array_slice instead mb_substr
-               $ar = array();
-               preg_match_all( '/./us', $word, $ar );
-               if ( !preg_match( "/[a-zA-Z_]/us", $word ) )
+               # substr doesn't support Unicode and mb_substr has issues,
+               # so break it to characters using preg_match_all and then use array_slice and join
+               $chars = array();
+               preg_match_all( '/./us', $word, $chars );
+               if ( !preg_match( "/[a-zA-Z_]/us", $word ) ) {
                        switch ( $case ) {
                                case 'genitive': # родительный падеж
-                                       if ( ( join( '', array_slice( $ar[0], -4 ) ) == 'вики' ) || ( join( '', array_slice( $ar[0], -4 ) ) == 'Вики' ) )
-                                               { }
-                                       elseif ( join( '', array_slice( $ar[0], -1 ) ) == 'ь' )
-                                               $word = join( '', array_slice( $ar[0], 0, -1 ) ) . 'я';
-                                       elseif ( join( '', array_slice( $ar[0], -2 ) ) == 'ия' )
-                                               $word = join( '', array_slice( $ar[0], 0, -2 ) ) . 'ии';
-                                       elseif ( join( '', array_slice( $ar[0], -2 ) ) == 'ка' )
-                                               $word = join( '', array_slice( $ar[0], 0, -2 ) ) . 'ки';
-                                       elseif ( join( '', array_slice( $ar[0], -2 ) ) == 'ти' )
-                                               $word = join( '', array_slice( $ar[0], 0, -2 ) ) . 'тей';
-                                       elseif ( join( '', array_slice( $ar[0], -2 ) ) == 'ды' )
-                                               $word = join( '', array_slice( $ar[0], 0, -2 ) ) . 'дов';
-                                       elseif ( join( '', array_slice( $ar[0], -3 ) ) == 'ник' )
-                                               $word = join( '', array_slice( $ar[0], 0, -3 ) ) . 'ника';
+                                       if ( join( '', array_slice( $chars[0], -1 ) ) === 'ь' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -1 ) ) . 'я';
+                                       } elseif ( join( '', array_slice( $chars[0], -2 ) ) === 'ия' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -2 ) ) . 'ии';
+                                       } elseif ( join( '', array_slice( $chars[0], -2 ) ) === 'ка' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -2 ) ) . 'ки';
+                                       } elseif ( join( '', array_slice( $chars[0], -2 ) ) === 'ти' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -2 ) ) . 'тей';
+                                       } elseif ( join( '', array_slice( $chars[0], -2 ) ) === 'ды' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -2 ) ) . 'дов';
+                                       } elseif ( join( '', array_slice( $chars[0], -3 ) ) === 'ник' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -3 ) ) . 'ника';
+                                       } elseif ( join( '', array_slice( $chars[0], -3 ) ) === 'ные' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -3 ) ) . 'ных';
+                                       }
                                        break;
-                               case 'dative':  # дательный падеж
+                               case 'dative': # дательный падеж
                                        # stub
                                        break;
                                case 'accusative': # винительный падеж
                                        # stub
                                        break;
-                               case 'instrumental':  # творительный падеж
+                               case 'instrumental': # творительный падеж
                                        # stub
                                        break;
                                case 'prepositional': # предложный падеж
-                                       # stub
+                                       if ( join( '', array_slice( $chars[0], -1 ) ) === 'ь' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -1 ) ) . 'е';
+                                       } elseif ( join( '', array_slice( $chars[0], -2 ) ) === 'ия' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -2 ) ) . 'ии';
+                                       } elseif ( join( '', array_slice( $chars[0], -2 ) ) === 'ка' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -2 ) ) . 'ке';
+                                       } elseif ( join( '', array_slice( $chars[0], -2 ) ) === 'ти' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -2 ) ) . 'тях';
+                                       } elseif ( join( '', array_slice( $chars[0], -2 ) ) === 'ды' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -2 ) ) . 'дах';
+                                       } elseif ( join( '', array_slice( $chars[0], -3 ) ) === 'ник' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -3 ) ) . 'нике';
+                                       } elseif ( join( '', array_slice( $chars[0], -3 ) ) === 'ные' ) {
+                                               $word = join( '', array_slice( $chars[0], 0, -3 ) ) . 'ных';
+                                       }
                                        break;
                        }
+               }
+
                return $word;
        }
 
@@ -104,28 +122,35 @@ class LanguageRu extends Language {
         * @return string
         */
        function convertPlural( $count, $forms ) {
-               if ( !count( $forms ) ) { return ''; }
+               if ( !count( $forms ) ) {
+                       return '';
+               }
 
                // If the actual number is not mentioned in the expression, then just two forms are enough:
-               // singular for $count == 1
-               // plural   for $count != 1
+               // singular for $count === 1
+               // plural   for $count !== 1
                // For example, "This user belongs to {{PLURAL:$1|one group|several groups}}."
-               if ( count( $forms ) === 2 ) return $count == 1 ? $forms[0] : $forms[1];
+               if ( count( $forms ) === 2 ) {
+                       return $count === 1 ? $forms[0] : $forms[1];
+               }
 
                // @todo FIXME: CLDR defines 4 plural forms. Form with decimals missing.
                // See http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/language_plural_rules.html#ru
                $forms = $this->preConvertPlural( $forms, 3 );
 
-               if ( $count > 10 && floor( ( $count % 100 ) / 10 ) == 1 ) {
+               if ( $count > 10 && (int)floor( ( $count % 100 ) / 10 ) === 1 ) {
                        return $forms[2];
-               } else {
-                       switch ( $count % 10 ) {
-                               case 1:  return $forms[0];
-                               case 2:
-                               case 3:
-                               case 4:  return $forms[1];
-                               default: return $forms[2];
-                       }
+               }
+
+               switch ( $count % 10 ) {
+                       case 1:
+                               return $forms[0];
+                       case 2:
+                       case 3:
+                       case 4:
+                               return $forms[1];
+                       default:
+                               return $forms[2];
                }
        }
 
index f545a13..0792f75 100644 (file)
@@ -16,7 +16,7 @@ class LanguageRuTest extends LanguageClassesTestCase {
        }
 
        function providePluralFourForms() {
-               return array (
+               return array(
                        array( 'one', 1 ),
                        array( 'many', 11 ),
                        array( 'one', 91 ),
@@ -30,17 +30,49 @@ class LanguageRuTest extends LanguageClassesTestCase {
                        array( 'many', 120 ),
                );
        }
+
        /** @dataProvider providePluralTwoForms */
        function testPluralTwoForms( $result, $value ) {
-               $forms =  array( 'one', 'several' );
+               $forms = array( 'one', 'several' );
                $this->assertEquals( $result, $this->getLang()->convertPlural( $value, $forms ) );
        }
+
        function providePluralTwoForms() {
-               return array (
+               return array(
                        array( 'one', 1 ),
                        array( 'several', 11 ),
                        array( 'several', 91 ),
                        array( 'several', 121 ),
                );
        }
+
+       /** @dataProvider providerGrammar */
+       function testGrammar( $result, $word, $case ) {
+               $this->assertEquals( $result, $this->getLang()->convertGrammar( $word, $case ) );
+       }
+
+       function providerGrammar() {
+               return array(
+                       array(
+                               'Википедии',
+                               'Википедия',
+                               'genitive',
+                       ),
+                       array(
+                               'Викитеки',
+                               'Викитека',
+                               'genitive',
+                       ),
+                       array(
+                               'Викитеке',
+                               'Викитека',
+                               'prepositional',
+                       ),
+                       array(
+                               'Викиданных',
+                               'Викиданные',
+                               'prepositional',
+                       ),
+               );
+       }
 }