Re: [問題] 請問 tag 和斷字的問題?

看板Google (谷歌Google)作者 (遺憾太常。)時間19年前 (2006/08/14 01:56), 編輯推噓4(404)
留言8則, 3人參與, 最新討論串4/4 (看更多)
2-gram的衍生當然就是n-gram,看用多少字做indexing, 這是業界比較常用的方法; 機率模型在NLP裡最常用的大概還是HMM, Hidden Markov Model,然後用大量的corpus去train你的model, 因為不同的文章,比如新聞報導或者blog,所使用的字詞不同, 甚至不同人使用的字詞也不同,這可以讓你更接近「真實」的分析。 HMM使用的時機在英文的NLP裡很多, 比如說 "a red brick wall", 要怎麼分析red/brick/wall的POS,就可以使用HMM來做training。 中文比較麻煩的是根本不知道字詞是怎麼被「正確」的斷字, 甚至會有之前那位版友所提供的例子裡「正確」的「誤讀」狀況產生, 所以要分析起來會更辛苦。 --- 之前我記得UPenn有做一個類似的分析, 不過不是用HMM, 是真的找便宜耐操的研究生去分析一卡車corpus, 然後去得到這類的機率。 --- 我覺得現在講的東西已經太專業了,如果原po有興趣, 最好還是想辦法去學校修NLP的課, 另外補充,原po在tagging那邊提出的search, 通常我們會以vertical search視之。 ※ 編輯: Baudelaire 來自: 24.6.214.146 (08/14 02:10)

08/15 03:46, , 1F
謝謝。NLP=自然語言處理?vertical search可以舉例嗎?謝謝。
08/15 03:46, 1F

08/15 13:10, , 2F
NLP=Natural Language Processing
08/15 13:10, 2F

08/15 13:12, , 3F
vertical search是相較於單純文本的search來說的
08/15 13:12, 3F

08/15 13:12, , 4F
詳細狀況我不能講太多,因為我在Yahoo!就是做這個
08/15 13:12, 4F

08/16 23:12, , 6F
總之非常的謝謝你。我會繼續努力的自我摸索。
08/16 23:12, 6F

08/17 04:14, , 7F
不會,加油 :)
08/17 04:14, 7F

08/17 23:48, , 8F
推!
08/17 23:48, 8F
文章代碼(AID): #14tsV71u (Google)
文章代碼(AID): #14tsV71u (Google)