簡繁秘書-簡繁轉換暨校對程式

(進入簡繁秘書

隨著技術的進步,簡繁轉換軟體多如繁星,似乎毋庸介紹亦無須研發。然而簡繁轉換正確率之瓶頸一直無法突破,簡體轉繁體尤為明顯,從「字」的層次上說,「幹」擾、頭「發」、乙「醜」等怪詞層出不窮;從「詞」的層次上說,「小明帶了一台計算機去考試」,天曉得他實際上帶的是「电脑」還是「计算机」?更有不可能判斷的句子如對照表「簡繁轉換常見錯字:干[干幹乾榦]、叶[葉叶]」……繁轉簡的問題少得多,但偶爾還是會發生,比如「乾隆」不是「干隆」,「原著」不是「原着」,「癥結」也不是「症结」。

顯然,在真正的人工智慧出來以前,簡繁轉換永遠不完美,只要對「正確」有所要求,事後人工校對絕對不可避免。因此,本程式的想法也很簡單──用機器輔助人工校對。亦即先用程式轉換,但把「所有轉換過」或「所有轉換過可能出錯(一對多)」的地方上色,並允許使用者逐一校對、選字,如此可省下很多校對時間,至少可以保證在run過一遍後,不再有任何簡繁轉換上的錯誤。

由於「人工校對」之需求,加上javascript有一定的限制(無法存取本機資源),本程式目前只實作了轉換純文字內容的功能──而且本文也不能太大,否則雖然可以轉,但瀏覽器會頓到讓你忍無可忍。

轉換技術上,本程式提供了最起碼、最常見的字庫、詞庫對照表,完全開放,也允許使用者自行修改(本機使用的話),期待藉此拋磚引玉,有更多高手能夠在此基礎上開發更好用的轉換工具。

在開發此程式前,作者亦整理了數個常見的簡繁對照表,及相關參考資料,這裡一併附上。

留言

這個網誌中的熱門文章

Windows 批次檔令人崩潰的特殊字元處理

中文與英文的比較

為什麼 Mercurial 沒有比 Git 更好