]> git.saurik.com Git - apple/icu.git/blame - icuSources/data/translit/es_FONIPA_zh.txt
ICU-66108.tar.gz
[apple/icu.git] / icuSources / data / translit / es_FONIPA_zh.txt
CommitLineData
f3c0d7a5
A
1# © 2016 and later: Unicode, Inc. and others.
2# License & terms of use: http://www.unicode.org/copyright.html#License
3#
729e4ab9 4# File: es_FONIPA_zh.txt
f3c0d7a5 5# Generated from CLDR
729e4ab9 6#
2ca993e8
A
7
8# Tranforms Spanish to Mandarin Chinese. The input Spanish string must be in
9# phonemic IPA transcription (es_FONIPA); the output is in Simplified Chinese.
729e4ab9 10$word_boundary = [-\ $];
51004dcb 11$vowel = [aeijouw]; # Vowels and glides
729e4ab9 12$not_vowel = [^$vowel];
2ca993e8 13# First pass: Collapse phonetic distinctions not preserved in Mandarin.
729e4ab9
A
14ð → | d;
15ɣ → | g;
16ŋ → | n;
17θ → | s;
18ɾ → | r;
19ff → f ;
20kk → k ;
21mm → m ;
22nn → n ;
23pp → p ;
24tt → t ;
25tʧ → ʧ ;
26aa → a ;
27oi\u032F → oi ;
28oo → o ;
29uu → u ;
30[^dgktx] { ei\u032F → e ;
31[^-\ .$] { eu\u032F → eu ;
32[^-\ .$] { ou\u032F → o;
51004dcb
A
33[^j] { ui → wi ;
34[^$word_boundary] { m } [bp] → n; # GB/T 17693.5-2009, 5.3.2
35s[θs] → s; # GB/T 17693.5-2009, 5.3.4
36[^ʧ] { jo → io; # GB/T 17693.5-2009 表 1, 注 7
729e4ab9 37::Null;
51004dcb 38j } an $not_vowel → i ; # GB/T 17693.5-2009 表 1, 注 8
2ca993e8
A
39# GB/T 17693.5-2009 表 1, 注 8 also says that <uai> should be treated as if
40# it was <u> plus <ai>. This is not borne out by the observed data, which
41# suggests that <ua> plus <i> is the more appropriate choice in some
42# situations.
729e4ab9
A
43[g.$] { wai\u032F → wai ;
44wai\u032F → uai\u032F ;
45[g.$] { wau\u032F → wau ;
46wau\u032F → uau\u032F ;
47jau\u032F → iau\u032F ;
2ca993e8 48# Even though "ao" is not a diphthong in Spanish, Mandarin treats it as one.
51004dcb 49[^jw] { ao } [^n] → au\u032F ;
729e4ab9 50[^jw] { ao } n $vowel → au\u032F ;
2ca993e8
A
51# Main pass: Phoneme to Hanzi conversion.
52# This generally follows GB/T 17693.5-2009 表 1, unless otherwise noted.
729e4ab9
A
53::Null;
54'.' → ;
55ai\u032F → 艾 ;
56an } $not_vowel → 安 ;
57au\u032F → 奥 ;
58a → 阿 ;
59bai\u032F → 拜 ;
60ban } $not_vowel → 班 ;
61bau\u032F → 包 ;
62ba → 巴 ;
63ben } $not_vowel → 本 ;
64be → 贝 ;
65bin } $not_vowel → 宾 ;
66bi → 比 ;
67bja → 比亚 ;
68bjen } $not_vowel → 比恩 ;
69bje → 别 ;
70bju → 比乌 ;
71bon } $not_vowel → 邦 ;
72bo → 博 ;
73bun } $not_vowel → 本 ;
74bu → 布 ;
75bwan } $not_vowel → 布安 ;
76bwa → 布阿 ;
51004dcb 77bwen } $not_vowel → 布恩 ; # Should be be 本, per GB/T 17693.5-2009 表 1.
729e4ab9 78bwe → 布埃 ;
51004dcb 79bwin } $not_vowel → 布因 ; # Nonstandard, but fits observed data.
729e4ab9
A
80bwi → 布伊 ;
81bwo → 博 ;
82b → 布 ;
83βai\u032F → 瓦伊 ;
84βan } $not_vowel → 万 ;
85βau\u032F → 沃 ;
86βa → 瓦 ;
87βen } $not_vowel → 文 ;
88βe → 韦 ;
89βin } $not_vowel → 温 ;
90βi → 维 ;
91βja → 维亚 ;
92βjen } $not_vowel → 维恩 ;
93βje → 维耶 ;
94βju → 维乌 ;
95βon } $not_vowel → 翁 ;
96βo → 沃 ;
97βun } $not_vowel → 文 ;
98βu → 武 ;
99βwan } $not_vowel → 万 ;
100βwa → 瓦 ;
101βwen } $not_vowel → 文 ;
102βwe → 武埃 ;
103βwi → 维 ;
104βwo → 沃 ;
105β → 夫 ;
106dai\u032F → 代 ;
107dan } $not_vowel → 丹 ;
108dau\u032F → 道 ;
109da → 达 ;
110dei\u032F → 代 ;
111den } $not_vowel → 登 ;
112de → 德 ;
113din } $not_vowel → 丁 ;
114di → 迪 ;
115dja → 迪亚 ;
116djen } $not_vowel → 迪恩 ;
117dje → 迭 ;
118dju → 迪乌 ;
119don } $not_vowel → 东 ;
120do → 多 ;
121dun } $not_vowel → 敦 ;
122du → 杜 ;
123dwan } $not_vowel → 端 ;
124dwa → 杜阿 ;
125dwen } $not_vowel → 敦 ;
126dwe → 杜埃 ;
127dwi → 杜伊 ;
128dwo → 多 ;
129d } $word_boundary → ;
130d → 德 ;
131ei\u032F → 埃 ;
132en } $not_vowel → 恩 ;
133eu\u032F → 欧 ;
134e → 埃 ;
135fai\u032F → 法伊 ;
136fan } $not_vowel → 凡 ;
137fau\u032F → 福 ;
138fa → 法 ;
139fe → 费 ;
140fin } $not_vowel → 芬 ;
141fi → 菲 ;
142fja → 菲亚 ;
143fjen } $not_vowel → 菲恩 ;
144fje → 菲耶 ;
145fju → 菲乌 ;
146fon } $not_vowel → 丰 ;
147fo → 福 ;
148fun } $not_vowel → 丰 ;
149fu → 富 ;
150fwan } $not_vowel → 富安 ;
151fwa → 富阿 ;
152fwen } $not_vowel → 丰 ;
153fwe → 富埃 ;
154fwi → 富伊 ;
155fwo → 福 ;
2ca993e8
A
156# The choice of 弗 vs. 夫 sounds simple according to the GB/T standard, but the
157# data suggest otherwise. Ideally, 弗 should occur at the beginning of a
158# morpheme (e.g. in "villafranca" 比利亚弗兰卡) and 夫 everywhere else. Since
159# we don't have morpheme boundaries, we'll fudge it by writing 夫 at the end of
160# a word and 弗 everywhere else.
729e4ab9
A
161f } $word_boundary → 夫 ;
162f → 弗 ;
163gai\u032F → 盖 ;
164gan } $not_vowel → 甘 ;
165gau\u032F → 高 ;
166ga → 加 ;
167gei\u032F → 盖 ;
168gen } $not_vowel → 根 ;
169ge → 格 ;
170gin } $not_vowel → 金 ;
171gi → 吉 ;
172gja → 吉亚 ;
173gjen } $not_vowel → 吉恩 ;
174gje → 吉耶 ;
175gju → 吉乌 ;
176gon } $not_vowel → 贡 ;
177go → 戈 ;
178gun } $not_vowel → 贡 ;
179gu → 古 ;
51004dcb 180gwan } [$] → 古安 ; # Nonstandard, but fits observed data.
729e4ab9
A
181gwan } $not_vowel → 关 ;
182gwa → 瓜 ;
183gwen } $not_vowel → 古恩 ;
184gwe → 圭 ;
185gwi → 圭 ;
186gwo → 果 ;
187g → 格 ;
188in } $not_vowel → 因 ;
189i → 伊 ;
190ʝai\u032F → 亚伊 ;
191ʝan } $not_vowel → 扬 ;
192ʝau\u032F → 尧 ;
193ʝa → 亚 ;
194ʝen } $not_vowel → 延 ;
195ʝe → 耶 ;
196ʝin } $not_vowel → 因 ;
197ʝi → 伊 ;
198ʝon } $not_vowel → 永 ;
199ʝo → 约 ;
200ʝun } $not_vowel → 云 ;
201ʝu → 尤 ;
202ʝwan } $not_vowel → 元 ;
203ʝwa → 尤阿 ;
204ʝwen } $not_vowel → 云 ;
205ʝwe → 尤埃 ;
206ʝwi → 尤伊 ;
207ʝwo → 约 ;
208ʝ → 伊 ;
209kai\u032F → 凯 ;
210kan } $not_vowel → 坎 ;
211kau\u032F → 考 ;
212ka → 卡 ;
213kei\u032F → 凯 ;
214ken } $not_vowel → 肯 ;
215ke → 克 ;
216kin } $not_vowel → 金 ;
217ki → 基 ;
218kja → 基亚 ;
219kjen } $not_vowel → 基恩 ;
220kje → 基耶 ;
221kju → 基乌 ;
222kon } $not_vowel → 孔 ;
223ko → 科 ;
224kun } $not_vowel → 昆 ;
225ku → 库 ;
226kwan } $not_vowel → 宽 ;
227kwa → 夸 ;
228kwen } $not_vowel → 昆 ;
229kwe → 库埃 ;
230kwin } $not_vowel → 昆 ;
231kwi → 奎 ;
232kwo → 阔 ;
233k → 克 ;
234lae } [^n] → 莱 ;
235lai\u032F → 莱 ;
236lan } $not_vowel → 兰 ;
237lau\u032F → 劳 ;
238la → 拉 ;
239len } $not_vowel → 伦 ;
240le → 莱 ;
241lin } $not_vowel → 林 ;
242li → 利 ;
243lja → 利亚 ;
244ljen } $not_vowel → 连 ;
245lje → 列 ;
246lju → 柳 ;
247lon } $not_vowel → 隆 ;
248lo → 洛 ;
249lun } $not_vowel → 伦 ;
250lu → 卢 ;
251lwan } $not_vowel → 卢安 ;
252lwa → 卢阿 ;
253lwen } $not_vowel → 伦 ;
254lwe → 卢埃 ;
255lwi → 卢伊 ;
256lwo → 洛 ;
257l → 尔 ;
258ʎan } $not_vowel → 良 ;
259ʎau\u032F → 廖 ;
260ʎa → 利亚 ;
261ʎen } $not_vowel → 连 ;
262ʎe → 列 ;
263ʎin } $not_vowel → 林 ;
264ʎi → 利 ;
265ʎon } $not_vowel → 利翁 ;
266ʎo → 略 ;
267ʎu → 柳 ;
268ʎwan } $not_vowel → 柳安 ;
269ʎwa → 柳阿 ;
270ʎwen } $not_vowel → 柳恩 ;
271ʎwe → 柳埃 ;
272ʎwi → 柳伊 ;
273ʎwo → 略 ;
274ʎ → 尔 ;
275mai\u032F → 迈 ;
276man } $not_vowel → 曼 ;
277martin → 马丁 ;
278mau\u032F → 毛 ;
279ma → 马 ;
280men } $not_vowel → 门 ;
281me → 梅 ;
282min } $not_vowel → 明 ;
283mi → 米 ;
284mja → 米亚 ;
285mjen } $not_vowel → 缅 ;
286mje → 米耶 ;
287mju → 缪 ;
288mon } $not_vowel → 蒙 ;
289mo → 莫 ;
290mun } $not_vowel → 蒙 ;
291mu → 穆 ;
292mwan } $not_vowel → 穆安 ;
293mwa → 穆阿 ;
294mwen } $not_vowel → 门 ;
295mwe → 穆埃 ;
51004dcb 296mwin } $not_vowel → 穆因 ; # Nonstandard, but fits observed data.
729e4ab9
A
297mwi → 穆伊 ;
298mwo → 莫 ;
299m → 姆 ;
300nai\u032F → 奈 ;
301nan } $not_vowel → 南 ;
302nau\u032F → 瑙 ;
303na → 纳 ;
304nen } $not_vowel → 嫩 ;
305ne → 内 ;
306nin } $not_vowel → 宁 ;
307ni → 尼 ;
308nja → 尼亚 ;
309njen } $not_vowel → 年 ;
310nje → 涅 ;
311nju → 纽 ;
312non } $not_vowel → 农 ;
313no → 诺 ;
314nun } $not_vowel → 嫩 ;
315nu → 努 ;
316nwan } $not_vowel → 努安 ;
317nwa → 努阿 ;
318nwen } $not_vowel → 农 ;
319nwe → 努埃 ;
320nwi → 努伊 ;
321nwo → 诺 ;
322n → 恩 ;
323ɲan } $not_vowel → 尼扬 ;
324ɲau\u032F → 尼奥 ;
325ɲa → 尼亚 ;
326ɲen } $not_vowel → 年 ;
327ɲe → 涅 ;
328ɲin } $not_vowel → 宁 ;
329ɲi → 尼 ;
330ɲon } $not_vowel → 尼翁 ;
331ɲo → 尼奥 ;
332ɲu → 纽 ;
333ɲwan } $not_vowel → 纽安 ;
334ɲwa → 纽阿 ;
335ɲwen } $not_vowel → 纽恩 ;
336ɲwe → 纽埃 ;
337ɲwi → 纽伊 ;
338ɲwo → 尼奥 ;
339on } $not_vowel → 翁 ;
340ou\u032F → 欧 ;
341o → 奥 ;
342pai\u032F → 派 ;
343pan } $not_vowel → 潘 ;
344pau\u032F → 保 ;
345pa → 帕 ;
346pen } $not_vowel → 彭 ;
347pe → 佩 ;
348pin } $not_vowel → 平 ;
349pi → 皮 ;
350pja → 皮亚 ;
351pjen } $not_vowel → 皮恩 ;
352pje → 彼 ;
353pju → 皮乌 ;
354pon } $not_vowel → 蓬 ;
355po → 波 ;
356pun } $not_vowel → 蓬 ;
357pu → 普 ;
358pwan } $not_vowel → 普安 ;
359pwa → 普阿 ;
360pwen } $not_vowel → 蓬 ;
361pwe → 普埃 ;
362pwi → 普伊 ;
363pwo → 波 ;
364p → 普 ;
365rai\u032F → 赖 ;
366ran } $not_vowel → 兰 ;
367rau\u032F → 劳 ;
368ra → 拉 ;
369ren } $not_vowel → 伦 ;
370re → 雷 ;
371rin } $not_vowel → 林 ;
372ri → 里 ;
373rja → 里亚 ;
374rjen } $not_vowel → 连 ;
375rje → 列 ;
376rju → 留 ;
377ron } $not_vowel → 龙 ;
378ro → 罗 ;
379run } $not_vowel → 伦 ;
380ru → 鲁 ;
381rwan } $not_vowel → 鲁安 ;
382rwa → 鲁阿 ;
383rwen } $not_vowel → 伦 ;
384rwe → 鲁埃 ;
385rwi → 鲁伊 ;
386rwo → 罗 ;
387r → R ;
388sai\u032F → 赛 ;
389san } $not_vowel → 桑 ;
390sau\u032F → 绍 ;
391sa → 萨 ;
392sen } $not_vowel → 森 ;
393se → 塞 ;
394sin } $not_vowel → 辛 ;
395si → 西 ;
396sja → 西亚 ;
397sjen } $not_vowel → 先 ;
398sje → 谢 ;
399sju → 休 ;
400son } $not_vowel → 松 ;
401so → 索 ;
402sun } $not_vowel → 孙 ;
403su → 苏 ;
404swan } $not_vowel → 苏安 ;
405swa → 苏阿 ;
406swen } $not_vowel → 孙 ;
407swe → 苏埃 ;
408swi → 绥 ;
409swo → 索 ;
410s → 斯 ;
411tai\u032F → 泰 ;
412tan } $not_vowel → 坦 ;
413tau\u032F → 陶 ;
414ta → 塔 ;
415tei\u032F → 泰 ;
416ten } $not_vowel → 滕 ;
417te → 特 ;
418tin } $not_vowel → 廷 ;
419ti → 蒂 ;
420tja → 蒂亚 ;
421tjen } $not_vowel → 蒂恩 ;
422tje → 铁 ;
423tju → 蒂乌 ;
424ton } $not_vowel → 通 ;
425to → 托 ;
2ca993e8
A
426# The rules for /ts/ (tz in the orthography) are nonstandard and derived
427# entirely from the observed data. They apply mostly to native toponyms
428# in Mexico.
729e4ab9
A
429tsa → 察 ;
430tsen } $not_vowel → 岑 ;
431tse → 采 ;
432tsin } $not_vowel → 钦 ;
433tsi → 齐 ;
434tso → 措 ;
435tsun } $not_vowel → 聪 ;
436tsu → 楚 ;
437ts → 茨 ;
438tun } $not_vowel → 通 ;
439tu → 图 ;
51004dcb 440twan } $not_vowel → 图安 ;
729e4ab9
A
441twa → 图阿 ;
442twen } $not_vowel → 通 ;
443twe → 图埃 ;
444twi → 图伊 ;
445two → 托 ;
446t → 特 ;
447ʧai\u032F → 柴 ;
448ʧan } $not_vowel → 钱 ;
449ʧau\u032F → 乔 ;
450ʧa → 查 ;
451ʧen } $not_vowel → 琴 ;
452ʧe → 切 ;
453ʧin } $not_vowel → 钦 ;
454ʧi → 奇 ;
455ʧjan } $not_vowel → 钱 ;
456ʧja → 恰 ;
457ʧjen } $not_vowel → 钱 ;
458ʧje → 切 ;
459ʧjon } $not_vowel → 琼 ;
460ʧju → 丘 ;
461ʧon } $not_vowel → 琼 ;
462ʧo → 乔 ;
51004dcb 463ʧun } $not_vowel → 琼 ; # Should be 春, per GB/T 17693.5-2009 表 1.
729e4ab9
A
464ʧu → 丘 ;
465ʧwan } $not_vowel → 丘安 ;
466ʧwa → 丘阿 ;
467ʧwen } $not_vowel → 琼 ;
468ʧwe → 丘埃 ;
469ʧwi → 崔 ;
470ʧwo → 乔 ;
471ʧ → 奇 ;
472un } $not_vowel → 温 ;
473u → 乌 ;
474wan } $not_vowel → 万 ;
475wa → 瓦 ;
476wen } $not_vowel → 温 ;
477we → 韦 ;
478win } $not_vowel → 温 ;
479wi → 维 ;
51004dcb 480won } $not_vowel → 翁 ; # Unseen.
729e4ab9
A
481wo → 沃 ;
482xai\u032F → 海 ;
483xan } $not_vowel → 汉 ;
484xau\u032F → 豪 ;
485xa → 哈 ;
486xei\u032F → 黑 ;
487xen } $not_vowel → 亨 ;
488xe → 赫 ;
489xin } $not_vowel → 欣 ;
490xi → 希 ;
491xja → 希亚 ;
492xjen } $not_vowel → 希恩 ;
493xje → 希耶 ;
494xju → 休 ;
495xon } $not_vowel → 洪 ;
496xo → 霍 ;
497xun } $not_vowel → 洪 ;
498xu → 胡 ;
499xwan } $not_vowel → 胡安 ;
500xwa → 华 ;
501xwen } $not_vowel → 洪 ;
502xwe → 胡埃 ;
503xwi → 惠 ;
504xwo → 霍 ;
505x → 赫 ;
2ca993e8
A
506# 尔 simplification pass. The idea is to drop most occurences of 尔
507# corresponding to <r> (not to <l> or <ll>) from a word if there is another /l/
508# sound nearby. There is a vague pattern like this in the data, but the details
509# remain to be determined. At the moment, this does nothing, it just puts 尔 in
510# for every <r> in a syllable coda.
729e4ab9
A
511::Null;
512$r = [R利拉];
2ca993e8
A
513#
514#
515# R } . $r → ;
516# R } .. $r → ;
517# R } ... $r → ;
518# R } .... $r → ;
729e4ab9 519R → 尔 ;
2ca993e8
A
520# Dong-nan-xi-hai pass. Per GB/T 17693.5-2009 表 1, 注 4, replace confusing
521# characters at the beginning and end of a word.
729e4ab9
A
522::Null;
523$word_boundary { 东 → 栋 ;
524$word_boundary { 南 → 楠 ;
525$word_boundary { 西 → 锡 ;
526海 } $word_boundary → 亥 ;
527::NFC;
2ca993e8 528