[問題] 利用Test的data部分來幫助訓練模型合理
問題類別:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...)
ML
問題內容:
如題,想請問大家對於利用Test set的data部分(沒用到labels)來幫助
建立or訓練模型是不是合理的?
以NLP來舉兩種情境:
情境1:
假設今天我有一些Product review,裡面的Test set包含有
sentences及labels (binary sentiment)。
如果利用Train set + Test set的所有sentences來建立TF-IDF feature,
並依照此TF-IDF feature來訓練classification model
訓練model時僅有用到Train set的labels(並沒有用到test set的labels),
這樣學術上是可接受的嗎?
情境2:
同樣是情境1的Product review data。假設今天我在訓練model的時候,
透過某種方法在訓練時增加在training set裡相似於test sentences的
那些sentences的權重,並減少在training set裡不相似於
test sentences的那些sentences的權重
(比如利用transformer embedding計算相似度,沒利用到test labels),
這樣學術上是可接受的嗎?
謝謝。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.161.44.2 (新加坡)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1657786378.A.846.html
※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:13:29
※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:14:52
推
07/14 16:53,
2年前
, 1F
07/14 16:53, 1F
→
07/14 18:34,
2年前
, 2F
07/14 18:34, 2F
→
07/15 03:51,
2年前
, 3F
07/15 03:51, 3F
→
07/15 21:41,
2年前
, 4F
07/15 21:41, 4F
推
07/16 02:19,
2年前
, 5F
07/16 02:19, 5F
→
07/17 02:27,
2年前
, 6F
07/17 02:27, 6F
→
07/17 21:01,
2年前
, 7F
07/17 21:01, 7F
→
07/18 22:25,
2年前
, 8F
07/18 22:25, 8F
→
07/18 22:26,
2年前
, 9F
07/18 22:26, 9F
→
07/18 22:27,
2年前
, 10F
07/18 22:27, 10F
→
07/18 22:27,
2年前
, 11F
07/18 22:27, 11F
推
07/20 19:01,
2年前
, 12F
07/20 19:01, 12F
→
07/20 19:01,
2年前
, 13F
07/20 19:01, 13F
→
07/20 19:01,
2年前
, 14F
07/20 19:01, 14F
推
08/14 07:59,
2年前
, 15F
08/14 07:59, 15F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章