]> git.saurik.com Git - apple/icu.git/blobdiff - icuSources/test/testdata/rbbitst.txt
ICU-531.30.tar.gz
[apple/icu.git] / icuSources / test / testdata / rbbitst.txt
index 4905719970b2728425899eec09c12fa0debea5b4..7e10d0c18eda428b9a8dad5e9419a73858d8d870 100644 (file)
@@ -1,4 +1,4 @@
-# Copyright (c) 2001-2013 International Business Machines
+# Copyright (c) 2001-2014 International Business Machines
 # Corporation and others. All Rights Reserved.
 #
 # RBBI Test Data
@@ -33,8 +33,9 @@
 
 
 #   Temp debugging tests 
+<word>
+<data>•Isn't<200></data>
 <char>
-<data>•\U00010020•\U00010000\u0301•x•</data>
 <data>•\U00010020•\U00010000\N{COMBINING MACRON}•</data>
 
 ########################################################################################
 <data>•芽キャベツ<400>芽キャベツ<400></data>
 
 # more Japanese tests
-# TODO: Currently, U+30FC and other characters (script=common) in the Hiragana
-# and the Katakana block are not treated correctly. Enable this later.
+# TODO: some script=common characters in the Hiragana and the Katakana block may not be treated correctly
+# (was formerly true for U+30FC); need to check and fix if so.
 #<data>•どー<400>せ<400>日本語<400>を<400>勉強<400>する<400>理由<400>について<400> •て<400>こと<400>は<400>我<400>でも<400>知<400>ら<400>も<400>い<400>こと<400>なん<400>だ<400>。•</data>
 <data>•日本語<400>を<400>勉強<400>する<400>理由<400>について<400> •て<400>こと<400>は<400>我<400>でも<400>知<400>ら<400>も<400>い<400>こと<400>なん<400>だ<400>。•</data>
 
@@ -566,6 +567,14 @@ What is the proper use of the abbreviation pp.? •Yes, I am definatelly 12" tal
 <data>•\u114d\u31f3•\ube44\u002d•\u0362\u24e2\u276e\u2014\u205f\ufe16•\uc877•\u0fd0\u000a<100>\u20a3•</data>
 <data>•\u080a\u215b\U0001d7d3\u002c•\u2025\U000e012e•\u02df\u118d\u0029\ua8d6\u0085<100>\u6cc4\u2024\u202f\ufffc•</data>
  
+# Test for #10176 (in root)
+<line>
+<data>•abc/•s •def•</data>
+<data>•abc/\u05D9 •def•</data>
+<data>•\u05E7\u05D7/\u05D9 •\u05DE\u05E2\u05D9\u05DC•</data>
+<data>•\u05D3\u05E8\u05D5\u05E9\u05D9\u05DD •\u05E9\u05D7\u05E7\u05E0\u05D9\u05DD/\u05D9\u05D5\u05EA•</data>
+
+
 
 ########################################################################################
 #
@@ -584,7 +593,9 @@ What is the proper use of the abbreviation pp.? •Yes, I am definatelly 12" tal
 <data>•123  •Start •with •a •number.•</data>
 
 <data>•'•start •with •a •case-•ignorable •cha'r'a'cter•</data>
-
+<data>•'  '' •start •with •case-•ignorable & •case-•insensitive •cha'r'a'cter•</data>
+<data>•  ''•aaa' •bbb '•ccc' '•ddd''' '''•eee   '''•fff'''   •ggg  ''•</data>
+# Note: apostrophe is case-ignorable. space is not cased.
 
 ##########################################################################################
 #
@@ -677,7 +688,35 @@ Bangkok)•</data>
 \u0e22\u0e07•\
 \u0e43\u0e2b\u0e21\u0e48•</data>
 
+# Test for #10296
+<line>
+<data>•ใช•มั้ย•</data>
+<data>•มั๊ยล่ะ•ที่รัก•</data>
+
+# Test for #10593
+<line>
+<data>•เล่น•ผ่าน•ทาง•บลูทูธ•บน•อุปกรณ์•</data>
+
+# Test for city names #10691
+<line>
+<data>•ไป•ที่•ซานฟรานซิสโก•</data>
+
+# Test for #10630, #10631
+<line>
+<data>•แท็ก•แอปพลิเคชัน•เป็น•พิเศษ•</data>
 
+##########################################################################################
+#
+#   Lao Tests
+#
+##########################################################################################
+<locale en>
+# Basic check for #7647
+<line>
+<data>•ສະບາຍດີ•</data>
+<data>•ດີ•ຂອບໃຈ•</data>
+<data>•ເຈົ້າ•ເວົ້າ•ພາສາ•ອັງກິດ•ໄດ້•ບໍ່•</data>
+<data>•ກະລຸນາ•ເວົ້າ•ຊ້າ•ໆ•</data>
 
 ##########################################################################################
 #
@@ -758,9 +797,21 @@ Bangkok)•</data>
 <word>
 <data>•私<400>達<400>に<400>一<400>〇<400>〇〇<400>の<400>コンピュータ<400>が<400>ある<400>。<0>奈々<400>は<400>ワード<400>で<400>ある<400>。•</data>
 
+# Test for #10176 (in ja)
+<line>
+<data>•abc/•s •def•</data>
+<data>•abc/\u05D9 •def•</data>
+<data>•\u05E7\u05D7/\u05D9 •\u05DE\u05E2\u05D9\u05DC•</data>
+<data>•\u05D3\u05E8\u05D5\u05E9\u05D9\u05DD •\u05E9\u05D7\u05E7\u05E0\u05D9\u05DD/\u05D9\u05D5\u05EA•</data>
+
+
 <locale root>
 <word>
 <data>•私<400>達<400>に<400>一<400>〇<400>〇〇<400>の<400>コンピュータ<400>が<400>ある<400>。<0>奈々<400>は<400>ワード<400>で<400>ある<400>。•</data>
+# The following test is for #10300
+<data>•例えば<400>オーストラリア<400>。•</data>
+# The following test is for #10571
+<data>•一部<400>の<400>地域<400>では<400>、<0>ブラジル<400>、<0>インドネシア<400>、<0>オーストリア<400>、<0>ニュージーランド<400>で<400>ある<400>。•</data>
 
 # UBreakIteratorType UBRK_SENTENCE, Locale "el"
 # Add break after Greek question mark (cldrbug #2069).
@@ -783,11 +834,14 @@ Bangkok)•</data>
 <word>
 <data>•Can't<200> •have<200> •breaks<200> •in<200> •xx:yy<200> •or<200> •struct.field<200> \
 •for<200> •CS<200>-•types<200>.•</data>
+<data>•\uFF92\uFF76\uFF9E<400> •</data>
 
 <locale en_US_POSIX>
 <word>
 <data>•Can't<200> •have<200> •breaks<200> •in<200> •xx<200>:•yy<200> •or<200> •struct<200>.•field<200> \
 •for<200> •CS<200>-•types<200>.•</data>
+<data>•\u06c9<200>\uc799\ufffa•</data>
+<data>•\uFF92\uFF76\uFF9E<400> •</data>
 
 
 # UBreakIteratorType UBRK_CHARACTER, Locale "th"
@@ -825,3 +879,10 @@ Bangkok)•</data>
 
 <data>•abc •- •def    •abc •-def    •abc- •def   •</data>   # With ASCII hyphen
 <data>•abc •‐ •def    •abc •‐def    •abc‐ •def   •</data>   # With Unicode u2010 hyphen
+
+# Test for #10176 (in fi)
+<line>
+<data>•abc/•s •def•</data>
+<data>•abc/\u05D9 •def•</data>
+<data>•\u05E7\u05D7/\u05D9 •\u05DE\u05E2\u05D9\u05DC•</data>
+<data>•\u05D3\u05E8\u05D5\u05E9\u05D9\u05DD •\u05E9\u05D7\u05E7\u05E0\u05D9\u05DD/\u05D9\u05D5\u05EA•</data>