近來有一個小小的 peronal project, 主要是針對某個特定範疇的,結果必須顯示繁體。
可是因為 project 本身範疇,不論在香港或台灣的文中數據都比國內少。所以要是以收集數據簡易度來說,還是 crawl 國內網站 data 比較方便。
可是問題來了,如何 crawl 後把國內簡體文本數據轉換成繁體呢?
要知道數據大小是以GB為單位,總不能手動去 google translate copy & paste 吧!?
Google Translate 不能用,可是 Google Search 給到我答案呀!
輕輕一找,找到了一個叫 Open Chinese Convert (OpenCC, 開放中文轉換) 的 opensource project 。它是一個中文簡繁轉換開源項目,支持詞彙級別的轉換、異體字轉換和地區習慣用詞轉換(中國大陸、臺灣、香港、日本新字體)。不提供普通話與粵語的轉換。
Github Repo: https://github.com/BYVoid/OpenCC
Python Usage:
from opencc import OpenCC
cc = OpenCC('s2t') # convert from Simplified Chinese to Traditional Chinese
# can also set conversion by calling set_conversion
# cc.set_conversion('s2tw')
to_convert = '開放中文轉換'
converted = cc.convert(to_convert)
Output: 开放中文转换

你若有興趣可到它的 Web Demo 去了解一下。
Web API: https://opencc.byvoid.com/