[問題] 文本分類加入非文本內容特徵

看板DataScience作者 (【積π】)時間5年前 (2019/10/16 21:34), 編輯推噓5(5021)
留言26則, 6人參與, 5年前最新討論串1/1
想請問各位版上的大大 做E-mail文本分類時 郵件內容可使用自然語言處理 若想加入寄件人、收件人等 非郵件內容文字的特徵 該如何操作... 可以給點關鍵字或給點指點 感謝各位先進 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.138.103 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1571232863.A.907.html

10/16 23:15, 5年前 , 1F
最簡單粗暴的方法就你把全部的特徵都拼接起來,全部餵入
10/16 23:15, 1F

10/16 23:15, 5年前 , 2F
一起train,第二種方法就訓練三個以上的模型,一個做內
10/16 23:15, 2F

10/16 23:15, 5年前 , 3F
文分類,其他模型就各自訓練各自的特徵分類,最後在做en
10/16 23:15, 3F

10/16 23:15, 5年前 , 4F
semble
10/16 23:15, 4F

10/24 18:05, 5年前 , 5F
你的寄件人和收件人,上面有什麼跡象顯示它們是有用
10/24 18:05, 5F

10/24 18:05, 5年前 , 6F
的feature?
10/24 18:05, 6F

10/24 18:10, 5年前 , 7F
如果mail 小老鼠後面跟的字會有意義像是.com 或是.gov
10/24 18:10, 7F

10/24 18:10, 5年前 , 8F
會建議也可以對這些做segmentation,再用train好的英
10/24 18:10, 8F

10/24 18:10, 5年前 , 9F
文語言模型(web 文本train的)去抓feature
10/24 18:10, 9F

10/24 18:21, 5年前 , 10F
基本上其他非信件本文的內容,第一步是對每個材料去
10/24 18:21, 10F

10/24 18:21, 5年前 , 11F
思考如何量化,像是時間的格式、不同的寄信收件地址是
10/24 18:21, 11F

10/24 18:21, 5年前 , 12F
否進行編號、圖片則要用像素表示
10/24 18:21, 12F

10/24 18:21, 5年前 , 13F
然後再來就是每個材料適合的處理方式,時間的連續性可
10/24 18:21, 13F

10/24 18:21, 5年前 , 14F
以讓它獨立成為一個feature、地址的表示法可以像前面
10/24 18:21, 14F

10/24 18:21, 5年前 , 15F
說的視同文本取特徵、也可以當作不同的item 取one-hot
10/24 18:21, 15F

10/24 18:21, 5年前 , 16F
、圖片也是先接個cnn變成向量
10/24 18:21, 16F

10/24 18:24, 5年前 , 17F
至於模型的訓練選擇就如同1樓講的那樣,可以用多個模
10/24 18:24, 17F

10/24 18:24, 5年前 , 18F
型一起預測,也可以暴力concat這些特徵,每份郵件都
10/24 18:24, 18F

10/24 18:24, 5年前 , 19F
表示成一個向量後直接丟ML套件來分類也沒什麼不行
10/24 18:24, 19F

10/24 20:38, 5年前 , 20F
統統送進去,只用label 指點方向
10/24 20:38, 20F

11/07 21:43, 5年前 , 21F
修成聯合模型多輸入即可
11/07 21:43, 21F

11/12 11:58, 5年前 , 22F
先用bert把文本弄成embedding再concat其他東西再塞
11/12 11:58, 22F

11/12 11:58, 5年前 , 23F
進一個classifier?
11/12 11:58, 23F

11/24 19:42, 5年前 , 24F
concatenate的model1 model2可以不同features嗎
11/24 19:42, 24F

11/25 13:42, 5年前 , 25F
concatenate出來的model3 是跟model1 model2同時一起tra
11/25 13:42, 25F

11/25 13:42, 5年前 , 26F
in嗎?
11/25 13:42, 26F
文章代碼(AID): #1TfnnVa7 (DataScience)
文章代碼(AID): #1TfnnVa7 (DataScience)