[情報] 新手向kaggle自辦競賽 ptt推噓文預測

看板DataScience作者 (赤城我老婆)時間3年前 (2021/02/05 20:25), 3年前編輯推噓9(9020)
留言29則, 8人參與, 3年前最新討論串1/1
如題 最近在學NLP 所以爬了ptt八卦版的問卦 準備做推噓文的預測 不過自己玩有點無聊 所以把dataset整理好放到kaggle上 開個小競賽 有興趣的人可以一起玩玩看 期限是一個月 https://www.kaggle.com/c/ptt-gossiping-push-down-predict/ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.94.234 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1612527945.A.1FE.html

02/05 20:55, 3年前 , 1F
推推
02/05 20:55, 1F

02/05 21:25, 3年前 , 2F
有趣....
02/05 21:25, 2F

02/06 11:25, 3年前 , 3F
XD
02/06 11:25, 3F

02/06 23:23, 3年前 , 4F
have fun!
02/06 23:23, 4F

02/07 02:30, 3年前 , 5F
還在念博士時有做過用PTT文章預測投票票數的,當時結果很
02/07 02:30, 5F

02/07 02:31, 3年前 , 6F
神奇地好。不過預測推噓文,直覺上要好會需要用手段補充外
02/07 02:31, 6F

02/07 02:31, 3年前 , 7F
在背景知識
02/07 02:31, 7F

02/07 02:32, 3年前 , 8F
總之這題目確實挺有趣的
02/07 02:32, 8F

02/07 02:33, 3年前 , 9F
另外,其實我認為發文作者是其中一個鑑別力很強的feature
02/07 02:33, 9F

02/07 02:33, 3年前 , 10F
,這邊沒有提供XD
02/07 02:33, 10F
之前是怕作者這個feature太強 好像應該要加的 ※ 編輯: jack1218 (223.137.94.234 臺灣), 02/07/2021 12:45:52

02/07 21:41, 3年前 , 11F
顏色正確就推爆
02/07 21:41, 11F

02/08 02:35, 3年前 , 12F
蠻有趣的
02/08 02:35, 12F

02/08 12:37, 3年前 , 13F
光從發文作者就可以判斷的case應該要被當outliers吧
02/08 12:37, 13F

02/14 21:59, 3年前 , 14F
提供作者有個重點是可以查詢上站次數跟文章次數,而這兩項
02/14 21:59, 14F

02/14 21:59, 3年前 , 15F
我認為是很重要的特徵
02/14 21:59, 15F

02/14 22:00, 3年前 , 16F
舉一個已經有實用經驗的例子,Youtube的自動判斷機制在接
02/14 22:00, 16F

02/14 22:01, 3年前 , 17F
到影片舉報時,他們研究發現最有辨別能力的特徵就是發該影
02/14 22:01, 17F

02/14 22:01, 3年前 , 18F
片的使用者是否是很新的帳號,若是則大機率真的是問題影片
02/14 22:01, 18F

02/14 22:02, 3年前 , 19F
而針對PTT,我個人的觀察是去看 文章篇數/上站次數 這個比
02/14 22:02, 19F

02/14 22:02, 3年前 , 20F
值,對於文章是不是廢文的機率也有高辨識度
02/14 22:02, 20F

02/14 22:03, 3年前 , 21F
若這個比值達到1以上,越高就越可能是廢文
02/14 22:03, 21F

02/14 22:03, 3年前 , 22F
但如果比值大約在0.5前後,則相對用心發文的機率較高
02/14 22:03, 22F

02/14 22:04, 3年前 , 23F
比值若很接近0(也就是發文很少上站很多),又會反過來變
02/14 22:04, 23F

02/14 22:05, 3年前 , 24F
成內容不足的機率提升,但狀況相對比值高於1的輕微
02/14 22:05, 24F

02/14 22:08, 3年前 , 25F
另外取得作者還有一項判斷依據,就是有些人可能在特定版面
02/14 22:08, 25F

02/14 22:09, 3年前 , 26F
容易被噓但在別的特定版面容易被推,先不提所謂政治傾向,
02/14 22:09, 26F

02/14 22:11, 3年前 , 27F
那種在棒球版是大師但在遊戲版是廢文王的情況
02/14 22:11, 27F

02/14 22:12, 3年前 , 28F
也是很常見,所以使用者名稱搭配文章發表版面會是一組可能
02/14 22:12, 28F

02/14 22:12, 3年前 , 29F
不錯的特徵
02/14 22:12, 29F
文章代碼(AID): #1W7Jb97- (DataScience)
文章代碼(AID): #1W7Jb97- (DataScience)