[問題] 將日文字轉成羅馬字

看板Python作者yodxxxd (yodxxxd)時間12年前 (2013/11/30 13:57)推噓0(0推 0噓 6→)

留言6則, 2人參與討論串1/1

最近在設計python程式處理文字資料的時候，有個需求。要將一串日文轉換成羅馬字，包含「漢字」、「平假名」、「片假名」例如：「冗談じゃね」轉成「joudanjane」在網路找到了兩個package： 1、romkan （https://pypi.python.org/pypi/romkan）它能將假名轉成羅馬字，但漢字就不行了，不符合需求 2、jProcessing （https://pypi.python.org/pypi/jProcessing）看功能感覺是符合需求的，但使用上出現問題。它還需要「Cabocha」這個package。因為我用MacOS，所以使用homebrew安裝：「brew install cabocha」接著就下載jProcessing的原始檔，並執行「sudo python setup.py install」然後開始按照document的範例打，但這時問題來了： (1)使用pypi上面的jProcessing-0.1.tar.gz檔案安裝後，執行範例的程式，會出現： >>> from jNlp.jConvert import * >>> input_sentence = u'気象庁が２１日午前４時４８分、発表した天気概況に' >>> print ' '.join(tokenizedRomaji(input_sentence)) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "build/bdist.macosx-10.9-intel/egg/jNlp/jConvert.py", line 42, in tokenizedRomaji File "build/bdist.macosx-10.9-intel/egg/jNlp/jTokenize.py", line 54, in jReads File "<string>", line 124, in XML cElementTree.ParseError: not well-formed (invalid token): line 1, column 9 >>> (2)而用git clone git://github.com/kevincobain2000/jProcessing.git的檔案安裝，執行範例的程式，會出現： >>> from jNlp.jConvert import * Traceback (most recent call last): File "<stdin>", line 1, in <module> File "build/bdist.macosx-10.9-intel/egg/jNlp/jConvert.py", line 4, in <module> ImportError: cannot import name jReads >>> 一直google相關問題也找不到解法不知板友們有沒有什麼建議，謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.136.22.61