[問題] 關於TAGS

看板Prob_Solve (計算數學 Problem Solving)作者 (ptt不是丁丁知識+)時間17年前 (2007/12/11 02:19), 編輯推噓3(305)
留言8則, 2人參與, 最新討論串1/1
※ [本文轉錄自 Programming 看板] 作者: slalala (ptt不是丁丁知識+) 看板: Programming 標題: [問題] 關於TAGS 時間: Tue Dec 11 02:18:39 2007 我寫程式的能力只是幼稚園小班 頂多應付論文的小程式 我想請問一下 最近看到一些留言版程式都開始有"TAGS"的功能 會顯示高詞頻(TF)的關鍵字 請問這是對全文做N- GRAM嗎?? 還是另有小技巧? 我很喜歡思考程式的邏輯~_~ 我的想法是- 將全文用2~N的長度, 將鄰近的字擷取成一個詞, 然後到最後會出現很多長度2~N不等的關鍵字, 最後做TF的計算,最後顯示前面幾組關鍵字。 (附註: 純n gram我已經寫過了 只是想知道有沒有更佳的作法 ) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.59.146.157 ※ 編輯: slalala 來自: 61.59.146.157 (12/11 02:23)

12/11 02:32, , 1F
tf-idf ?
12/11 02:32, 1F

12/11 02:33, , 2F
另外你還要定義無效字吧, 不然你會看到一堆 "然後" "因為"
12/11 02:33, 2F

12/11 23:21, , 3F
所以的確是用N-GRAM? 無效詞彙可以靠字典檔學習而來!
12/11 23:21, 3F

12/11 23:22, , 4F
IDF可用來尋找"所謂的無效字"
12/11 23:22, 4F

12/13 15:45, , 5F
不過我猜想 tags 也有可能是 author 自己下的?
12/13 15:45, 5F

12/13 15:45, , 6F
因為 tf-idf 感覺他很不準
12/13 15:45, 6F

12/14 00:04, , 7F
要看全文的內容吧 另外單篇文章 不會有IDF
12/14 00:04, 7F

12/14 11:03, , 8F
是呀 是要用全部來看呀 @@
12/14 11:03, 8F
文章代碼(AID): #17NOCy7M (Prob_Solve)
文章代碼(AID): #17NOCy7M (Prob_Solve)