中文電腦輸入法文化雜譚

一、緣起

早在清末民初,中國積弱,列強橫行之際,知識分子便總結漢字的缺點是「三多五難」,「三多」是字數多、筆劃多、讀音多;「五難」是難認、難讀、難記、難寫、難用。漢字形體多達數萬,常用也有幾千,不花個八年十年,怎能逐一熟識?漢字形音背離,一字多音、一音多字,若非寒窗苦讀,怎能一一讀出?漢字筆劃繁多,較諸拼音文字,豈非龜兔賽跑?漢字書面語手口不一,文法混亂,邏輯不確,典故繁多,怎能用得輕鬆?無怪知識蔚為特權,文盲橫屍遍野!

緣英美富強,舉世正途拉丁,拼音成了語言文字進化的必然趨勢;文法、嚴謹與邏輯思辨則理所當然是工業化、現代化的進步之母。

魯迅嘗謂「漢字不滅,中國必亡」,善哉!包袱沉重如此,何不速速丟棄?胡適則推行「我手寫我口」,蓋時人好用典故、砌疊文句、矯飾辭藻,而思想空泛、言之無物、人人八股,故謂文字當通俗易懂,以闡釋觀點、表達思想為重,然而昨非今是,今天白話文竟然一字一語,講什麼寫什麼。此外,為求相容阿拉伯數字與西文,而有直寫變橫寫,右左變左右;為求「精確」而有新式標點符號,「妳」「它」創造,「們」「被」浮濫;為求表音清楚,利於學習,而有注音符號的發明和國語的統一。

脫漢之潮日本如是,甚至比中國要早。日文早有假名,拼音易如反掌,無奈日音變化太少,同音字太多,只得勉而留之。然而難學難寫實在茲事體大,於是自1923年始,簡化運動斷斷續續推行,筆劃少好寫,気転発関画;字數少好學,編輯變編集,綜合變總合,理智變理知。至今日本通行1945個「常用漢字」,多次調整的「人名用漢字」目前約1000個。

國民政府時代,改革呼聲依舊四起,錢玄同先生於1935年抱病起草了《第一批簡體字表》,錄324字,本於社會通行的俗字,述而不作地減省常用字筆劃,如气无万个从。結果公布後反對聲浪四起,戴季陶甚至「為漢字請命」,向蔣介石當場下跪,於是次年暫緩推行。

國共分裂後,共方拉聲更張,據此於1958年定下漢語拼音。但拉丁化不得躁進,遂以逐步簡化為之。1964年的《簡化字總表》便大刀闊斧,只求簡單,結構美感不要,同音假借、會意自創、普通話類推樣樣皆來,比方面麵干乾、惊颜长开,共2235字,但偏旁類推往往無所適從。1977年又公布《第二次漢字簡化方案(草案)》,即「二簡字」,道首變刀,原泉成元,盯釘成丁,帮邦预予傅付停仃稀希蕭肖歉欠蛋旦。為了這248規定字和605討論字,全國一片混亂,人人文盲。實驗失敗,1986年中共廢除二簡,重發《簡化字總表》規範漢字,至今不渝。而拉丁化之呼聲,早已不知何處。

至於韓、越放棄了漢字教育,改採拼音。馬、新則採用了大陸標準。

簡化漢字並非失敗,即便推行繁體字的台灣,手書仍充斥各式俗寫簡寫,只差不能忍受書上螢幕上面目猙獰的、形體僵硬的簡化的印刷的白紙黑字罷了。

1973年巴西,朱邦復先生就職於某文化公司,一朝同儕來了份翻譯手稿,曰急件速理,走前又說今晚上市,朱只當語言誤會,奉命辦理,聯絡各部。只見全體動員,打字的打字,校對的校對,美工的美工,製版的製版,印刷的印刷,裝訂的裝訂。十二小時後,卡車卡車的印刷書便衝進他的眼廉。

語言誤會何在?當知鉛字排版廠房極大,生產成本高昂,資源耗費甚鉅,工人訓練費時,尋字困難無比,排字效率低落,如有缺字還得另刻。初排三個月,再校再排,一年上市便該額手稱慶,一日上市絕對天方夜譚,肯定是葡語不熟,聽錯了罷!誰知西方打字機發達,只需幾十字母,便可運指如飛,還要怪打字太快,機器卡住,特製個QWERTY鍵盤拗手。漢字洋文,竟是一日一載之遙,三多五難實在要加五:印刷難難難難難!

有感於此,他矢志救亡圖存,回到台灣,他認為應由漢字的結構分析做起,再以有限字鍵輸出。仿會意與形聲造字原則,把漢字分成「字首」與「字身」,字首係歸類,字身係描述,猶生物二名法之屬名種名。剪下無數的字典、報章,排列組合,歸納分析,再加以平均分配、編碼,遂成「形意檢字法」,並申請專利。

工作之際聽聞「電腦」,乃覺電腦資訊必定改造世界,政府行政不能缺,圖書館必備,資料查找不可少,印刷也需要。編碼既成,總得應用,於是他訪遍各家電腦公司與電機系教授,誰知竟異口同聲曰:中文電腦不可行,不妨趁此棄漢,「英語即將成為國際語,英文是世界上最理想的文字,我們要生存、進步,就該全面放棄漢字,大家說英語!」

求助無門,只得自重,幸因緣際會,朱氏於1979年得接觸電腦,於是自學程式語言,首次將形意檢字法用於輸入,即「形意輸入法」。蔣緯國將軍以其功媲倉頡,重名為「倉頡輸入法」。

然而朱氏系統未被採用,業界渾然未知中文電腦是何方神聖。他於是自立公司,多面合作,陸續推出【天龍中文電腦】、【中文漢卡】、【中文打字機】,放棄倉頡輸入法專利後又發展【聚珍大字庫】、【聚珍中文整合系統】、【微軟中文視窗系統3.0】等等。

「中文電腦之父」努力有了成果,90年代中文電腦終於興起,微軟看上了,以強大的手腕獨佔市場,國產軟體與作業系統全面敗陣。

二、困境

中文電腦勃興,可以一日一書,中國人便從此過著幸福快樂的日子?革命尚未成功,同志仍須努力,中文電腦限制仍多,說起來是五個盤根錯節:缺字、編碼、排序、輸入法、空間。

缺字由來已久,五大碼(Big5)僅收13000多字,於是山沒有峯,絲沒有綫,游錫方方土,酵素作酉每。為因應需求,有組字、有造字,有小字圖,有擴充字集,有新編碼系統。可惜未經統一,好端端的文件換台電腦就面目全非;若要上網搜尋,谷歌雅虎遇上「亂碼」恐怕也愛莫能助。

萬國碼(Unicode)雖擴充許多,然而至今Windows XP系統的字體,尚不足23000字。若要加字,還得向外國「電腦專家」申請。明知不夠,怎不未雨綢繆?只怪人性好逸惡勞,每個漢字要一筆一筆地描,編碼要一字一字地編,誰願意為使用率不到0.1%的罕用字勞心費神?再者,早期電腦空間不過數十到數百KB,只好節衣縮食,刖足適屨。

排序也茲事體大。眾所周知,拼音文字查起字典輕而易舉,中文字典則是繁文縟節,總得一番翻前覆後,終於發現此字未收。科學書籍末尾的名詞索引,恐怕排版的人排得半死,使用的人還找到頭暈,最好去翻原文書。

電腦排序通常依照內碼,內碼怎麼編排?部首歸類很條理,但有多少人知道命是口部,丘是一部,煩不是頁部,變不是攵部,甚至书是乙部,丽是丶部?筆劃直覺許多,可惜數來麻煩,效率低落,不小心就錯,同筆劃字多如繁星,甚至不同國家數法不同。於是資料夾下檔案一百,英文輕輕鬆鬆地找,中文氣喘吁吁地爬。

當今電腦內碼仍以筆劃為主,基本堪用,偶爾缺字就造一個,位於何處?須知中文字集有字面之分。「粘」在「鐵」後面,因為粘是罕用字,和常用字的鐵不能一概而論;再如「发」置「籲」後,蓋因簡體字和繁體字字面不同;同理,先來後到不同字面,使用者造字另一字面……難怪無論是中文網頁或國產軟體,總得為檔案立個英文別名。

最大的漢字集CNS11643收字高達76067,如何輸入?牛「仔」褲、「法」國、「癌」症、「睪」丸、「哈」巴狗、……十年前的標準讀音已強迫作古,十年後不知為何?教育部、微軟、老百姓,誰說的算?而即便語言專家,會唸的恐怕也捉襟見肘,何妨試試國文老師:乂、丌、丼、囟、孖、泵、頞、嬲、醪、蠿、龘、……。

再如科學新字胜羥羧巰,狀聲字呣欸誒喲,閩字嘸阮佮囝,梵字唵吽誐佉,粵字冇啲睇啱,日字辻畑峠気,複音字浬瓩嗧圕,……漢字方言多、讀音雜,尚有非北京話,何從注音?即便心中有聲,「力」音選字151,倘若字集八萬,不知700字從何找起?

資訊就是力量。科學可以,請學好英文;電腦可以,請學會英文。

三、倉頡

朱邦復認為,漢字具備六大「基因」:字形、字音、字義、字碼、字序、字辨。前三者耳熟能詳,後三者則是資訊時代的必然需求。

他將漢字分析出600字首和9000字身,均分至各個鍵位,歸納出如下的「倉頡字母」:日月金木水火土,斜點交叉縱橫鉤(竹戈十大中一弓),人心手口,側並仰紐方卜(尸廿山女田卜)。這些字母可和英文字母一一對應:ABCDEFG,HIJKLMN,OPQR,STUVWY(X[難]和Z留作特殊用途),正是中文的序號。

將文字拆成編碼以供排序、檢索,即是「倉頡檢字法」,應用之一便是電腦輸入,即「倉頡輸入法」。其規則首先是將字碼變形,衍生出「輔助字形」,作為拆字的基本單位(字根)。如水→氵,戈(點)→丶,廿→艹,田(方)→囗。倉頡輸入法的字根共有一百多。

第二,判斷漢字結構,不能切割者為「整體字」;能切割者,取其最左、最上、或最外者定為「字首」,其餘定為「字身」。如「好」可切成「女」、「子」,「女」是字首,剩下的「子」是字身。字身若可再切,同理可切成「次字首」與「次字身」。

第三,依左而右、上而下、外而內的視覺順序取碼。整體字取4碼(不足則全取,超過則123尾。餘類推)。其餘各型為:字首2、字身3;字首2,次字首2、次字身1;字首2,次字首1、次字身2。

如此即可見字拆碼,如「未」拆為「十木」;「沖」拆為「水.中」;「掛」拆為「手.土土.卜」;「國」拆為「田.戈.口一」。以之為內碼,便可有效地排序和編碼漢字。

麻煩的是異字重碼,必須極力避開。倉頡輸入法依推出時間分一代至六代,微軟內建的是三代的修改,現今推廣的是五代,最新的六代重名為「蒼頡檢字法」,目前尚未公開,僅留供合作單位使用。五代的重碼藉由前加「X」避開,若超過五碼則去尾,如「態」編碼為「IPP」,「庇」為「XIPP」,「忒」為「XXIPP」。六代則後加1~5避開,如「IPP」、「IPP1」、「IPP2」。倉頡內碼是一碼5位元;一字為5碼加7個識別位元,共32位元;亦有壓縮成16位元,以增進傳輸效率者。

朱氏系統內含【向量字形產生器】,可處理輸入的倉頡碼,並據之組成字形。由於倉頡碼有字首、字身之分,該系統將字首與字身的繪圖指令分別儲存,再處理少數例外,如此便毋須一字一圖,可大幅減省空間、增進效率。此外將無字空間加以規則處理,便能組出無數新字。

朱氏於1995年更新的漢字字形產生器,僅佔160 KB,可產生已存在字6萬以上,並可組成新字近1000萬,如「阝川」、「鳥賤」。速度也相當驚人,在450 MHz的電腦上,每秒可產生及顯示16x16之字型46000個。可產生的字體尚有明、黑、圓、宋、楷、隸等,大小變化任意,筆劃粗細任意,筆劃填充任意。反觀當今系統字集,新細明體合細明體,不到23000字,即佔用8.6 MB;標楷體字數相同,佔5.1 MB;即便1500字的英文字體Times New Roman,也要400 KB。朱氏系統若廣泛採用,大概一切電腦、手機、醫學儀器,以至各式電子產品,均無缺字之虞。

將組字過程反轉,即為辨識。先把點陣圖轉為向量,再辨識其中的倉頡字形,即得倉頡碼,也就是內碼。如此點陣辨識或向量手寫辨識皆可實現。

至此,字形、字碼、字序、字辨問題一應料理。而前述中文電腦的五大困境:缺字、編碼、排序、輸入法、空間,也悉數解決。這是1995年以前的事。

四、思維

朱邦復認為,漢字一字一音,最適合語音辨識,因此正積極發展。倉頡系統採取形聲字的「本音」,如詣取旨音、曇取雲音,音變則另建資料庫。而英文連斷字都有困難,例如「I Scream」和「Ice cream」發音相同。

但中文的與眾不同在於「字義」。人人皆知block障,pre前,dog狗,何以如此?古人如此。何以古人如此?……中文卻本質意象,個個有憑有據。江者,水之工也,是為大川;河者,水可通也,是為暢流水道。滑者,水流骨(硬物)上,平順無摩擦也。思者,田心,耕耘於心,想也。信者,人之言,古之「消息」「函件」,言者須「無誤」,聽者須「不疑」也。

或云某某純粹形聲,某某實屬訛傳,某某穿鑿附會。然而聲音思維豈風馬牛不相及?古人為文可如此客觀考據?學者今云說文「武」、「信」錯解,改是不改?求千秋萬世客觀事實乎?通古今文人心之所嚮乎?

代表行走的「彳」和代表停止的「止」合成「辵」,表示忽走忽停。「車」和「辵」合成「連」,「道上之車,一輛接著一輛」,表示「相互接續」,又引申定義為「陸軍編制」。連再組合成詞,所以「連任」表示「接續地任」,「連忙」表示「接續地忙」。「素」是糸(絲)上有光澤,表示本色(白色)的絲,所以代表本質、白色。如此「元素」、「素來」、「素色」、「抗生素」、「茹素」、……皆可推知。而獨體的象形文彳止水糸,則不妨翻翻古籍,以明瞭起源為何。

梵語拉丁,變形數倍於英語;蒙滿粵閩,語法詞序也迥異北京。古時民族眾多,方言複雜,一字多義和各式倒裝由此而生。書面語能被「約定俗成」,被熟記、流傳、共用,必須符合各家主觀感受。

除外來語、部分假借字、純形聲字以外,常識、感覺與聯想緊繫了中文,從獨文到字,從字到詞,從詞到句,從句到章,從章到書,從書到人,到千千萬萬的成語、典故。錫銀銅鉛鐵、江河滑湯油並非孤立,星笙性甦產、晲倪鬩霓齯互相關係,汽車、卡車、火車、公車、貨車分類井然,車輪、車架、車軌、車站、車主概念清晰。文而字,字而詞,始於「零件」,逐次組合,貫之以一,死記何須?如此不僅能靈活運用、精煉文章,更能輕鬆學習,「學中文只消三個月。」這便是朱氏《字易》與《基因字典》。

中文句法依循因果,自然多,定義少,宛如紙上動畫,與電影「蒙太奇」手法如出一轍。第一幕男女約會,第二幕她打他一掌,第三幕他獨自啜泣,只須畫面幕幕,便可想而知。朱邦復設計了一套【圖文系統】,只須輸入中文,便可合成動畫,當然相關的模型、名物還得事先製成,較著名的成品是【記承天寺夜遊】(見文末參考連結)。他認為此套系統可大大減低成本,揚言「傾銷一億套,一套1美金,連盜版都不怕!」網路動畫的傳輸效率有如鴨步鵝行,此系統若舉世採用,片子1G成了文字十K,時空效率豈止提升百千?

看一個字,便浮現無數聯想期待;看一個句,和前文產生綿密交織;看一個段,和已知常識相互印證。前後貫通、融為一體,言外之意豐富,漢字滋乳人類常識,章句躍著縷縷思維,對此分析、內觀,便知人如何想、如何悟。

析出蘊藏的章法、思路,套用於電腦,便可理解人類語言。今日「人工智慧」仍為西方主流,文法嚴謹,運算線性,速度有限,常識缺乏,應用範圍侷限。人工智慧瓶頸仍多,如何建置數之不盡的常識、知識庫?如何分析?如何運算?如何高速運算?

朱氏系統以易經的二分原則,將漢字逐層分類、分析,得出了「概念結構」。以「逃」字為例,先分主觀、客觀,得1(主觀)。主觀分成認識、行為,得1(行為)。行為分生存、社會,得0(生存)。生存分官能、體能、動作、生活,得01(體能)。體能再分八類,得011(追動)。前述的主觀、客觀、認識、行為等等,自然是由眾多漢字歸結而成。11001011即是「逃」的分類字元,再加上1個區別字元和2個定義字元,如此區區32位元,便能包羅萬象,以簡御繁,空間極省,速度極快。

「逃」參照「辵」、「兆」,便衍出無數聯想,在高速系統下,一面向後取文,一面交織運算,01便微妙微肖地擬人思考。「思考」結果可作多種輸出,若符合人類所想,彷彿便有心智能力,即是成功的「人工智能」(不等於「人工智慧」)。輸出方式之一便是動畫,亦即【圖文系統】,假以時日電腦或可和人類閒話家常。另外,理解也是語音輸入或語音操作的必備條件,機器若不理解,何從正確選字、無誤執行?

以往認為知識必須精確、邏輯、嚴謹、條列、切割,才適合學習傳播;然而要靈活運用,記憶仍不可或缺。有些人開始同意,比起綱舉目張的科學,村婦講的故事更印象深刻。心理學研究指出,漢字較諸拼音,大腦活化部位更廣,有「開發右腦」和「形象思維」之功。以往認為形象思維原始、落後,遠不如邏輯、線性思維;近來卻認為形象思維創造力更大,處理複雜事物的能力更強,著名的愛因斯坦即是這樣的科學家。數學家解題、推公式,多半先靠感覺,嚴密的推導往往只是說服你我的說辭。

何為思維的本質?何為智慧?如何能深專業之究竟,博天地之大道?

五、各家

繼倉頡以後,注音和各種輸入法紛紛出籠。放棄專利而內建於主流系統的有【大易(1988)】、【行列(1992)】。注音的人工智慧版如【新注音】、【新酷音】、【自然】;傳統倉頡的改良版如【自由倉頡】、【快速倉頡】、【易頡】、【亂倉打鳥】、【大新倉頡(2001)】;其他原創如【輕鬆(1993)】、【嘸蝦米(1989)】、【華象(1987)】、……不勝枚舉。中文輸入法已超過百種,著實百家爭鳴。

嘸蝦米輸入法以英文為字碼,形音義對映字根,例如哈是OAO,粉是MBD(米八刀),轟是CCC(C=Car=車);拆碼只須123尾,毋須字首字身。由於可練習英打,加上字根有趣,許多人為之著迷。她有ワサビ(WaSaBi),也能红卫兵;可以ㄅㄆㄇ,也能㊣◆★;一碼對八七,二碼寸不夕,簡根俞並易、即是曼周幸。由於商利誘因,教師、打字選手一一入夥,比賽成績優異,職校相繼選用。

行列也釋出專利,系統內含。她用科學的鍵盤定位,使盲打得以速成。首先定義十種基本筆形:1一,2└,3〡,4十,5┐,6丶,7ㄇ,8八\,9/,0口。其次定位字根,例如「大」首筆是橫,對應1行(QAZ行);末筆是捺,對應下列(1-4為上,0或無為中,5-9為下),便得鍵位「Z」。接著依筆順拆字取碼,例如「景」→「日〦口小」→[01 61 0- 38]→[0^6^0-3v](PY;C)。行列編碼123尾,符號表[2^1]~[2^0],簡碼一級[1^2]、二級[7^3v1]、……,其速度曾達215字/分,超過嘸蝦米的209字/分。不知是推廣不力或刻板印象,行列目前仍是小眾。

免費的輕鬆輸入法所求不同,她只要易學、輕鬆,不求盲打、神速。輕鬆字根只有75,取碼只要頭尾,「等」是「竹寸」,「想」為「木心」,簡單易學。然而選字太多,於是掛上超大詞庫,「總統」四鍵,「原子筆」三鍵,「柳暗花明」四鍵,「經濟建設委員會」四鍵。其實專業領域亦有詞庫輸入,比方中醫健保系統,輸入「ㄙㄨㄊ」就能輸出「四物湯」。

各家紛紛主張「易學」、「快速」、「多功能」,免不了還要暗示長江後浪推前浪。大新倉頡又為繼起新秀,她簡化了傳統倉頡的拆碼規則,並把最常用的字設計成最少的碼數,擺在最好按的鍵位,又輔以助憶口訣,如一碼字:「國民與大會,不可以有不法的行為;這對成年人,在家業中,是大來發的一年。」商人再度獲勝,大新倉頡成功地易學神速,創下記錄227字/分。大新育了更多師資,養了更多打字快手,設計了更豐富的彩色書籍、互動軟體和教學影片;加上符號鍵盤、打繁出簡、注音查詢等強大功能;還有網上試用版無限免費安裝、購買者隨處可用等商業手法,於是小學、國中、高中職紛紛跳槽,甚至推廣到倉頡已盛的港澳地區。

注音、拼音依舊永垂不朽,國小就會和我手寫我口畢竟誘人。然而中文同音字屢見不鮮,選字甚為不便,各式自動選詞相應出爐。如今無法盲打依舊牽制效率,校對選詞依舊傷眼煩心;而語言能力每況愈下,不會寫字和錯字別字逐年攀升,更是文化界的老生常談。有人以注音輸入法「正確發音」有限,常用字得記「輸入音」,不常用字無從輸入,故曰注音「字根最多」,確言之成理。

倉頡檢字法難學、難用、速度不快,一向是眾矢之的,尤以規則繁多且「不合習慣」為最。比方「目」不拆「月一」而拆「月凵」,乃為保留字形特微。「貧」不拆「分.貝」而拆「八.刀.貝」,比照「箬」拆法,乃為規則一貫。「車」被支解為「十田十」,乃為視覺辨識方便,亦考量人人筆順不一。

而在朱氏系統下,倉頡的「標準字形」嚴格,沒有容錯(一字多拆),標點符號以內碼輸入(如前引號"「"是YYYAB或ZXCD),蓋因依碼組字、字集無限,且倉頡即是內碼。可惜換了平台便虎落平陽,主流系統喜舊厭新,獨鍾三代,字型不符、編碼錯誤又屢見不鮮,新手求助無門,往往敗興而歸。

雖未採為內碼,仍有系統使用倉頡。如【中文全字庫】可據以查字;【漢字構形資料庫】以倉頡和注音為部件外字的唯二輸入法;【漢文庫典】則以倉頡系統為基,找字、排序皆是倉頡。倉頡處理漢字確實殊勝,字首字身獨一無二,重碼最少,變化最豐,能拆碼最多漢字,且有統一的排序準則。而就現實面言,倉頡應用最廣,電子辭典也有她的身影。

少了好的中文系統,許多人也意識缺字不便。中央研究院設計了【漢字構形資料庫】,此系統以「構字式」表達缺字,再配合程式將構字式轉成對應的字集,或轉成圖片,如此交換碼便不致混亂。例如「碼」是「石-碼」(原「橫連」為造字,此以"-"代之),在程式中輸入「石」或「馬」均可尋得此字。此系統的字集甚至包含甲骨文、金文、小篆文等,因此查找古字、罕用字、缺字、異體字、簡化字均相當方便,實為文字學者的研究利器。

另一套系統是【易符無限組字編輯器】,採遞迴向量組字,例如「俎」是「=∥人人且」(以=∥代替原表橫連、直連的符號),程式能合成缺字,可達真正無限;某程度來說,組字使字集得以縮小,輸入法的選字問題也得以疏解。此程式極為輕巧,只約2.7 MB,未來潛力無窮。

實際上,倉頡還沒征服缺字。雖用32位元,仍有理論上限;雖能組字千萬,缺字依舊人工;如有重碼,還得設法避開;若重碼過五……?朱氏系統實在太鶴立雞群,程式當做藝術,組合語言獨尊,時空效率斤斤計較;專家說程式太複雜、例外太繁多,業界說商機太小,民間說倉頡太難……結果落得自彈自唱。

未來中文電腦能否缺字零、編碼一、排序好、搜尋快、輸入易、空間省、今古字型多,甚或更進階的功能,確實還有待努力。

六、展望

隨著經濟的發展,教育的普及,中國文盲不再九成;隨著科技的發達,電腦的進步,中文印刷不再龜速。華人笑顏漸開,漢字落後論逐漸銷聲匿跡。

舉世國際英語,以其易學、好用、嚴謹、科學、進步。是耶非耶,不妨論論。

或曰「漢語太難學,不可能作為世界語。」大陸人今云:「與大多語言相比,漢語實在簡單無比。英語有十二种時態,有不定詞、分詞、冠詞,有陳述、祈使、條件、虛擬句法,有复雜無比、迂回難解的獨立子句、名詞形容詞副詞字句;而法語、德語、西班牙語、俄語、拉丁語,一個單詞的格位、性別、單复數、人稱、不規則變形還可能多達七八十种。相比之下,漢語沒有語法,不受規則束縛,真是教人痛快。

「外國人普遍的學習体會是:漢語容易漢字難,通常几個月便能開口說話,書面語則不易過关。中國人卻恰恰相反,『英字』易如反掌——不就26個字母么;『英語』則難于登天——十几年下來還開不了口,要么張嘴就錯。漢語的『書寫系統』難學,英語的『說話系統』卻耗時更甚。既然跨文化交際首先以及主要是口頭上的,而漢語恰恰又具有『語易文難』以及『語文分離』的特征,這不就是一种速成的國際通用語嗎?」

再曰「書面語夠難學吧?」陸人云:「漢語也有拼音,完全可以在几個月內會讀會寫,但中國人只把它當做漢字的音標、識字的工具、小孩儿的把戲。漢字的确難學,卻有一勞永逸的神效。通常小學畢業,讀書看報便無問題。任何新概念、新术語,都能用舊字拼裝組合。

「英語何嘗不想拼裝組合?但是像inflammation of kidney實在長得不象話,只好借些外語詞根簡化成nephritis,結果拼出的是全新的詞,除了少數內行,多數人不得其解,搞得老百姓連四面体、頸動脈、滲透作用、裸子植物、精神分裂症、變阻器、訂單、……這些基本東西都不會講,難怪專家到處都是。

「英語的辭彙量滾雪球地暴漲,單詞也越來越長,于是有了縮寫詞,而縮寫詞很快也超出記憶,需要編輯辭典以備查詢。英語單詞已破百万,縮寫詞也有數千,還分分秒秒、無窮無盡地增加!据專家估計,受過良好教育的人,平均辭彙量為23000;莎士比亞据說不過30000,這差異對閱讀意味著什么,也就可想而知。相比之下,常用漢字1000覆蓋率92%,1500字95%,2000字98%,3000字99%,日常使用的不過約7000字(繁簡差異不大)。漢字确有『致盲』的可能,拼音文字卻使知識份子淪為『半文盲』,西方人不得不『活到老學到老』,終生與詞典為伍。有時查了半天,发現orchid不過是個花名,該多么令人喪氣?」

再曰「漢字容易忘記,比方就有大學教授不會寫打噴嚏的『嚏』。」陸人云:「那是因為疏于練習,美國人不也常忘記或拼錯receive、bargain?就算拼出來了,各門各派的念法也不一样。英語发音和拼詞實在太不規則,何不改革改革?比方ropes改成rowps,robes改成rowbz,roses改成rowziz;或干脆全部改用國際音標,那不就精确無比?」

再曰「漢字筆劃繁多,使用大大不便。」陸人云:「漢字雖多些書寫之累,卻省去大量記憶之苦。一兩個“blepharoplasty”和『眼瞼整容术』,或許看不出優劣,甚覺前者容易,后者累贅;一旦多至成千上万,便高下立見。考量到使用便利,語言學者們早就參考過古代俗字草書,再依形聲原則簡化了漢字。現在的漢字不只具備表意功能,還有形聲的好學和易寫的方便。尤其有了計算機以后,一筆一划的書寫之累都可不必,但是簡化字讓屏幕呈字不再模糊不清,印刷墨水也大大簡省。普通話、漢語拼音和簡化字可說是世界上最先進的語言文字。」

再曰「英語縮寫詞較中文方便許多,你看全世界都在用。」陸人云:「那是他們不懂。英語縮寫詞信息量比中文低得多,不只難懂難記易搞混,发音也沒比較短,比方ppm就有至少十种解釋。中共是中國共產党的縮寫,英文的縮寫卻是CCP;SARS中文只用非典;其他象高干、流腦、乙肝、……都是中文縮寫詞。要不為了世界通用,CPU完全可以叫央元,DNA完全可以叫主核酸;未來蛋白質甚至可以造個字『旦白』,互聯网可以寫成『互网』。英語字母二十六,中文漢字好几千,誰能用二個字表達最多縮寫?

「你要嫌筆划太多,搞英語那套也未嘗不可,像GB2312就是『國標』的縮寫,HSK即是『漢語水平考試』,SX是山西,BJ是北京。代號全世界都用,不是英語的專利,像整數代號Z就來自德語,eg. i.e. etc. Q.E.D都來自拉丁語,元素符號Na、K不是英語,物理學的θ、λ、τ、μ也和英語無干。」

再曰「中文不精確、不科學,不能做學問。」陸人云:「這也是胡說八道。中國小孩的數學水平是有口皆碑,中文九九乘法的背誦速度是世界最快,中國的火箭照样可以精确升空,中國的原子彈照样可以精确爆炸。中國人在每個領域都有專家,沒听說哪位因中文「不精确」而搞不好研究,可見重要的是邏輯思維的訓練,而不是語言文字的革命。英語科技文獻可以全面漢化,只要詞語統一、條理就行;不過逐句翻譯的文本不貼近中國人的思想習慣,所以我們的國家教材都是召集各領域的專家從新編寫,學生從小學到大學讀的都是中文。而台灣、香港人除了喜歡溜几個單詞儿炫耀炫耀,終究是個漢底子,純粹用英語思考、討論、寫論文的又有多少?

「而且中文的信息效率是世界第一,眼睛一掠就知道意思,英文還要在腦子里先轉成聲音才能理解;英語发音又臭又長,漢語发音短小輕快,所以用中文做學問更能提高思考速度。一般英語文長是中文的1.4倍,若是論語之類的文言文,更要4到5倍,你說這是不是浪費紙張、浪費墨水?」

再曰「電腦處理漢字不方便,你看漢字不能編程!」陸人云:「那要怪計算機太蠢,操不起高級的漢字。語言文字本來就不是為了機器而发明,日文かな一音節一假名,是不是符號太多?諺文(韓文한글)是音節方塊字,由字母二維組成;天城文(印度文字देवनागरी)字母往主音的上下前后附加,是不是太無謂?阿拉伯文字母لغة عربية有單用、詞首、詞中、詞尾不同寫法,母音通常不標,還要從右往左寫,計算機處理起來不也麻煩得要死?──這也突顯方塊字的優勢,什么方向都行,書脊不用側頭,表格也不用轉書──即便是最線性的拉丁Latin、希腊Ελληνικό、西里爾(俄文Кирилли́ческий)字母,由於單詞長短不一,要首尾對齊或不斷詞換行,也得花一番心思。

「數學公式麻煩,可是哪本書印成x=(-b+sqrt(pow(b,2)–4*a*c))/(2*a)?電腦繪圖麻煩,難道要全面手繪?可見是工具進步來適應需求,而不是需求降低去適應工具。你看二十年前大家還在廢漢,誰曉得現在漢字輸入、儲存和傳送速度都超越了拼音文字?編程确實還沒全面漢化,但用中文拼音也是完全可行,只要大伙儿愿意。再過十年、二十年,誰又知道漢字編程不會超英趕美?計算機的发展趨勢是從10101100走向copy *.* d:\指令介面,再走向GUI圖形介面,而漢字不正是千年GUI么?」

有趣的是,早年揚言打倒孔家店,廢棄傳統,全盤西化的人,正操著簡化字和白到不行的白話文,一股腦兒為漢語漢字和孔老夫子辯護。而驕傲正體中文,自居文化正統,國學程度好、英語能力強、學術地位高的專家學者,竟不知身在何處?選修中文的歐美學生與日俱增,三歲的美國小孩被送去補習中文,二十一世紀的炎黃子孫何去何從?你我任重道遠。

參考資料

一、相關文章

二、倉頡系統及朱邦復的理論

三、缺字及相關電腦技術

四、輸入法

(2011/12/24 二修)

留言

這個網誌中的熱門文章

Windows 批次檔令人崩潰的特殊字元處理

中文與英文的比較

為什麼 Mercurial 沒有比 Git 更好