]> git.saurik.com Git - apple/icu.git/blobdiff - icuSources/data/translit/Hiragana_Katakana.txt
ICU-461.18.tar.gz
[apple/icu.git] / icuSources / data / translit / Hiragana_Katakana.txt
index 019a342b1d2bab31ea4e6d513ba07a9eecc57d7e..761bf5dd38a73865f8e30a3b12a6aabd99c84085 100644 (file)
-#--------------------------------------------------------------------\r
-# Copyright (c) 1999-2004, International Business Machines\r
-# Corporation and others. All Rights Reserved.\r
-#--------------------------------------------------------------------\r
-\r
-# note: a global filter is more efficient, but MUST include all source chars\r
-:: [\u0000-\u007E \u3001\u3002 \u3099-\u309C \u30A1-\u30FC \uFF61-\uFF9Fー[:Hiragana:] [:Katakana:] [:nonspacing mark:]] ;\r
-:: NFKC ();\r
-\r
-# Hiragana-Katakana\r
-\r
-# This is largely a one-to-one mapping, but it has a\r
-# few kinks:\r
-\r
-# 1. The Katakana va/vi/ve/vo (30F7-30FA) have no\r
-# Hiragana equivalents.  We use Hiragana wa/wi/we/wo\r
-# (308F-3092) with a voicing mark (3099), which is\r
-# semantically equivalent.  However, this is a non-\r
-# roundtripping transformation.\r
-\r
-# 2. The Katakana small ka/ke (30F5,30F6) have no\r
-# Hiragana equiavlents.  We convert them to normal\r
-# Hiragana ka/ke (304B,3051).  This is a one-way\r
-# information-losing transformation and precludes\r
-# round-tripping of 30F5 and 30F6.\r
-\r
-# 3. The combining marks 3099-309C are in the Hiragana\r
-# block, but they apply to Katakana as well, so we\r
-# leave them untouched.\r
-\r
-# 4. The Katakana prolonged sound mark 30FC doubles the\r
-# preceding vowel.  This is a one-way information-\r
-# losing transformation from Katakana to Hiragana.\r
-\r
-# 5. The Katakana middle dot separates words in foreign\r
-# expressions; we leave this unmodified.\r
-\r
-# The above points preclude successful round-trip\r
-# transformations of arbitrary input text.  However,\r
-# they provide naturalistic results that should conform\r
-# to user expectations.\r
-\r
-\r
-# Combining equivalents va/vi/ve/vo\r
-わ゙ <> ヷ;\r
-ゐ゙ <> ヸ;\r
-ゑ゙ <> ヹ;\r
-を゙ <> ヺ;\r
-\r
-# One-to-one mappings, main block\r
-# 3041:3094 <> 30A1:30F4\r
-# 309D,E <> 30FD,E\r
-ぁ <> ァ;\r
-あ <> ア;\r
-ぃ <> ィ;\r
-い <> イ;\r
-ぅ <> ゥ;\r
-う <> ウ;\r
-ぇ <> ェ;\r
-え <> エ;\r
-ぉ <> ォ;\r
-お <> オ;\r
-か <> カ;\r
-が <> ガ;\r
-き <> キ;\r
-ぎ <> ギ;\r
-く <> ク;\r
-ぐ <> グ;\r
-け <> ケ;\r
-げ <> ゲ;\r
-こ <> コ;\r
-ご <> ゴ;\r
-さ <> サ;\r
-ざ <> ザ;\r
-し <> シ;\r
-じ <> ジ;\r
-す <> ス;\r
-ず <> ズ;\r
-せ <> セ;\r
-ぜ <> ゼ;\r
-そ <> ソ;\r
-ぞ <> ゾ;\r
-た <> タ;\r
-だ <> ダ;\r
-ち <> チ;\r
-ぢ <> ヂ;\r
-っ <> ッ;\r
-つ <> ツ;\r
-づ <> ヅ;\r
-て <> テ;\r
-で <> デ;\r
-と <> ト;\r
-ど <> ド;\r
-な <> ナ;\r
-に <> ニ;\r
-ぬ <> ヌ;\r
-ね <> ネ;\r
-の <> ノ;\r
-は <> ハ;\r
-ば <> バ;\r
-ぱ <> パ;\r
-ひ <> ヒ;\r
-び <> ビ;\r
-ぴ <> ピ;\r
-ふ <> フ;\r
-ぶ <> ブ;\r
-ぷ <> プ;\r
-へ <> ヘ;\r
-べ <> ベ;\r
-ぺ <> ペ;\r
-ほ <> ホ;\r
-ぼ <> ボ;\r
-ぽ <> ポ;\r
-ま <> マ;\r
-み <> ミ;\r
-む <> ム;\r
-め <> メ;\r
-も <> モ;\r
-ゃ <> ャ;\r
-や <> ヤ;\r
-ゅ <> ュ;\r
-ゆ <> ユ;\r
-ょ <> ョ;\r
-よ <> ヨ;\r
-ら <> ラ;\r
-り <> リ;\r
-る <> ル;\r
-れ <> レ;\r
-ろ <> ロ;\r
-ゎ <> ヮ;\r
-わ <> ワ;\r
-ゐ <> ヰ;\r
-ゑ <> ヱ;\r
-を <> ヲ;\r
-ん <> ン;\r
-ゔ <> ヴ;\r
-ゝ <> ヽ;\r
-ゞ <> ヾ;\r
-\r
-# One-way Katakana-Hiragana xform of small K ka/ke to\r
-# normal H ka/ke.\r
-か < ヵ;\r
-け < ヶ;\r
-\r
-# Katakana followed by a prolonged sound mark 30FC has\r
-# its final vowel doubled.  This is a Katakana-Hiragana\r
-# one-way information-losing transformation.  We\r
-# include the small Katakana (e.g., small A 3041) and\r
-# do not distinguish them from their large\r
-# counterparts.  It doesn't make sense to double a\r
-# small counterpart vowel as a small Hiragana vowel, so\r
-# we don't do so.  In natural text this should never\r
-# occur anyway.  If a 30FC is seen without a preceding\r
-# vowel sound (e.g., after n 30F3) we do not change it.\r
-\r
-### $long = ー;\r
-\r
-# The following categories are Hiragana, not Katakana\r
-# as might be expected, since by the time we get to the\r
-# 30FC, the preceding character will have already been\r
-# transformed to Hiragana.\r
-\r
-# {The following mechanically generated from the\r
-# Unicode 3.0 data:}\r
-\r
-$xa = [ \\r
-ぁ あ か が さ ざ \\r
-た だ な は ば ぱ \\r
-ま ゃ や ら ゎ わ \\r
-];\r
-\r
-$xi = [ \\r
-ぃ い き ぎ し じ \\r
-ち ぢ に ひ び ぴ \\r
-み り ゐ \\r
-];\r
-\r
-$xu = [ \\r
-ぅ う く ぐ す ず \\r
-っ つ づ ぬ ふ ぶ \\r
-ぷ む ゅ ゆ る ゔ \\r
-];\r
-\r
-$xe = [ \\r
-ぇ え け げ せ ぜ \\r
-て で ね へ べ ぺ \\r
-め れ ゑ \\r
-];\r
-\r
-$xo = [ \\r
-ぉ お こ ご そ ぞ \\r
-と ど の ほ ぼ ぽ \\r
-も ょ よ ろ を \\r
-];\r
-\r
-あ < $xa {ー};\r
-い < $xi {ー};\r
-う < $xu {ー};\r
-え < $xe {ー};\r
-お < $xo {ー};\r
-\r
-:: (NFKC) ;\r
-\r
-# note: a global filter is more efficient, but MUST include all source chars!!\r
-:: ([\u0000-\u007E \u3001\u3002 \u3099-\u309C \u30A1-\u30FC \uFF61-\uFF9Fー[:Hiragana:] [:Katakana:] [:nonspacing mark:]]);\r
-\r
-# eof\r
+# ***************************************************************************
+# *
+# *  Copyright (C) 2004-2010, International Business Machines
+# *  Corporation; Unicode, Inc.; and others.  All Rights Reserved.
+# *
+# ***************************************************************************
+# File: Hiragana_Katakana.txt
+# Generated from CLDR 
+#
+:: [\u0000-\u007E 、。 \u3099-゜ ァ-ー 。-゚ー[:Hiragana:] [:Katakana:] [:nonspacing mark:]] ;
+:: NFKC ();
+わ\u3099 ↔ ヷ;
+ゐ\u3099 ↔ ヸ;
+ゑ\u3099 ↔ ヹ;
+を\u3099 ↔ ヺ;
+ぁ ↔ ァ;
+あ ↔ ア;
+ぃ ↔ ィ;
+い ↔ イ;
+ぅ ↔ ゥ;
+う ↔ ウ;
+ぇ ↔ ェ;
+え ↔ エ;
+ぉ ↔ ォ;
+お ↔ オ;
+か ↔ カ;
+が ↔ ガ;
+き ↔ キ;
+ぎ ↔ ギ;
+く ↔ ク;
+ぐ ↔ グ;
+け ↔ ケ;
+げ ↔ ゲ;
+こ ↔ コ;
+ご ↔ ゴ;
+さ ↔ サ;
+ざ ↔ ザ;
+し ↔ シ;
+じ ↔ ジ;
+す ↔ ス;
+ず ↔ ズ;
+せ ↔ セ;
+ぜ ↔ ゼ;
+そ ↔ ソ;
+ぞ ↔ ゾ;
+た ↔ タ;
+だ ↔ ダ;
+ち ↔ チ;
+ぢ ↔ ヂ;
+っ ↔ ッ;
+つ ↔ ツ;
+づ ↔ ヅ;
+て ↔ テ;
+で ↔ デ;
+と ↔ ト;
+ど ↔ ド;
+な ↔ ナ;
+に ↔ ニ;
+ぬ ↔ ヌ;
+ね ↔ ネ;
+の ↔ ノ;
+は ↔ ハ;
+ば ↔ バ;
+ぱ ↔ パ;
+ひ ↔ ヒ;
+び ↔ ビ;
+ぴ ↔ ピ;
+ふ ↔ フ;
+ぶ ↔ ブ;
+ぷ ↔ プ;
+へ ↔ ヘ;
+べ ↔ ベ;
+ぺ ↔ ペ;
+ほ ↔ ホ;
+ぼ ↔ ボ;
+ぽ ↔ ポ;
+ま ↔ マ;
+み ↔ ミ;
+む ↔ ム;
+め ↔ メ;
+も ↔ モ;
+ゃ ↔ ャ;
+や ↔ ヤ;
+ゅ ↔ ュ;
+ゆ ↔ ユ;
+ょ ↔ ョ;
+よ ↔ ヨ;
+ら ↔ ラ;
+り ↔ リ;
+る ↔ ル;
+れ ↔ レ;
+ろ ↔ ロ;
+ゎ ↔ ヮ;
+わ ↔ ワ;
+ゐ ↔ ヰ;
+ゑ ↔ ヱ;
+を ↔ ヲ;
+ん ↔ ン;
+ゔ ↔ ヴ;
+ゝ ↔ ヽ;
+ゞ ↔ ヾ;
+か ← ヵ;
+け ← ヶ;
+$xa = [ \
+ぁ あ か が さ ざ \
+た だ な は ば ぱ \
+ま ゃ や ら ゎ わ \
+];
+$xi = [ \
+ぃ い き ぎ し じ \
+ち ぢ に ひ び ぴ \
+み り ゐ \
+];
+$xu = [ \
+ぅ う く ぐ す ず \
+っ つ づ ぬ ふ ぶ \
+ぷ む ゅ ゆ る ゔ \
+];
+$xe = [ \
+ぇ え け げ せ ぜ \
+て で ね へ べ ぺ \
+め れ ゑ \
+];
+$xo = [ \
+ぉ お こ ご そ ぞ \
+と ど の ほ ぼ ぽ \
+も ょ よ ろ を \
+];
+あ ← $xa {ー};
+い ← $xi {ー};
+う ← $xu {ー};
+え ← $xe {ー};
+お ← $xo {ー};
+:: (NFKC) ;
+:: ([\u0000-\u007E 、。 \u3099-゜ ァ-ー 。-゚ー[:Hiragana:] [:Katakana:] [:nonspacing mark:]]);