PTT數位生活區 / DataScience

[問題] 標記的圖片數據集,樣本個體之間差異性太小

看板DataScience作者ruthertw (督人無數就是我)時間4年前 (2022/05/23 00:21)推噓6(6推 0噓 35→)

留言41則, 8人參與討論串1/1

由專業人士標記的數據集, 他們當初深怕樣本之間差異性太大, (不知為何?) 刻意挑選了類似的母樣本. 結果, 導致他們在母樣本上標記出的圖片數據集, 樣本個體之間差異性太小. 隨便拿一個模型學習, 不進行data augumentation, test accuracy都能輕鬆超過95% 進行data augumentation後, 有些模型可達到99% 指導教授也同意我的結論, 覺得這樣只是訓練出一個在單一條件下獨斷的分類器, 不能寫什麼研究論述. 想要求專業人士多找些不類似的母樣本, 請他們標記. 他們覺得好累好煩, 標記好花時間, 拼命拒絕, 反問應該有什麼方法能解決這個問題? 我原先提出Few-Shot,Zero-Shot,GAN類,...的模型概念, 建議先嘗試看看輸出結果會如何. 後來在報告後, 雖然這些專家沒提出什麼進一步的想法. 但我突然發現不對, test accuracy還是會回到原來的問題, 樣本個體之間差異性太小. 怎麼驗證都會有好的結果. 想請問有什麼方法可以解決這個本質上的問題? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.51.13 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1653236464.A.B9A.html

推

05/23 00:30, 4年前 , 1^F

05/23 00:30, 1^F

→

05/23 03:29, 4年前 , 2^F

05/23 03:29, 2^F

→

05/23 03:29, 4年前 , 3^F

05/23 03:29, 3^F

→

05/23 03:31, 4年前 , 4^F

05/23 03:31, 4^F

→

05/23 03:31, 4年前 , 5^F

05/23 03:31, 5^F

→

05/23 12:57, 4年前 , 6^F

05/23 12:57, 6^F

推

05/23 21:06, 4年前 , 7^F

05/23 21:06, 7^F

→

05/24 00:10, 4年前 , 8^F

05/24 00:10, 8^F

→

05/24 02:20, 4年前 , 9^F

05/24 02:20, 9^F

→

05/24 02:20, 4年前 , 10^F

05/24 02:20, 10^F

→

05/24 02:21, 4年前 , 11^F

05/24 02:21, 11^F

→

05/24 02:23, 4年前 , 12^F

05/24 02:23, 12^F

→

05/24 02:26, 4年前 , 13^F

05/24 02:26, 13^F

推

05/24 12:06, 4年前 , 14^F

05/24 12:06, 14^F

→

05/24 12:08, 4年前 , 15^F

05/24 12:08, 15^F

→

05/24 12:08, 4年前 , 16^F

05/24 12:08, 16^F

推

05/24 15:23, 4年前 , 17^F

05/24 15:23, 17^F

→

05/24 15:24, 4年前 , 18^F

05/24 15:24, 18^F

→

05/24 19:40, 4年前 , 19^F

05/24 19:40, 19^F

→

05/24 19:40, 4年前 , 20^F

05/24 19:40, 20^F

推

05/25 02:02, 4年前 , 21^F

05/25 02:02, 21^F

→

05/25 02:03, 4年前 , 22^F

05/25 02:03, 22^F

→

05/25 02:03, 4年前 , 23^F

05/25 02:03, 23^F

→

05/26 00:58, 4年前 , 24^F

05/26 00:58, 24^F

→

05/26 04:22, 4年前 , 25^F

05/26 04:22, 25^F

→

05/26 04:24, 4年前 , 26^F

05/26 04:24, 26^F

→

05/26 04:24, 4年前 , 27^F

05/26 04:24, 27^F

推

05/26 04:28, 4年前 , 28^F

05/26 04:28, 28^F

→

05/26 08:28, 4年前 , 29^F

05/26 08:28, 29^F

→

05/26 08:31, 4年前 , 30^F

05/26 08:31, 30^F

→

05/26 08:53, 4年前 , 31^F

05/26 08:53, 31^F

→

05/26 08:54, 4年前 , 32^F

05/26 08:54, 32^F

→

05/26 08:54, 4年前 , 33^F

05/26 08:54, 33^F

→

05/26 08:56, 4年前 , 34^F

05/26 08:56, 34^F

→

05/26 08:56, 4年前 , 35^F

05/26 08:56, 35^F

→

05/26 08:56, 4年前 , 36^F

05/26 08:56, 36^F

→

05/26 13:25, 4年前 , 37^F

05/26 13:25, 37^F

→

05/31 20:01, 4年前 , 38^F

05/31 20:01, 38^F

→

05/31 20:47, 4年前 , 39^F

05/31 20:47, 39^F

→

06/04 20:21, 4年前 , 40^F

06/04 20:21, 40^F

→

06/05 12:20, 4年前 , 41^F

06/05 12:20, 41^F

※ 編輯: ruthertw (180.217.243.20 臺灣), 08/19/2022 15:51:10

‣ 返回看板[ DataScience ] 研討

‣ 更多 ruthertw 的文章

文章代碼(AID): #1YYcBmkQ (DataScience)

DataScience 近期熱門文章

3

17

[討論] 請問有真正把AI運用到工作、投資、或賺

[ DataScience ]

7月前, 11/26

6

17

[討論] 各位會買相關書籍來看嗎?

[ DataScience ]

8月前, 10/31

3

10

[問題] 請問想看CV相關討論適合去何處

[ DataScience ]

9月前, 10/17

2

6

[問題] 文字探勘的特徵選取問題

[ DataScience ]

1年前, 07/01

1

9

[問題] 請問kaggle有商業方案嗎? 它每週gpu的限

[ DataScience ]

1年前, 02/26

4

4

[徵才] 美國Amazon暑期實習生

[ DataScience ]

1年前, 01/23

1

6

[問題] 請教大家有推薦的GPU租用服務嗎?

[ DataScience ]

1年前, 12/20

3

8

[討論] 如何計算兩個不同欄的相似度？

[ DataScience ]

1年前, 09/07

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

8

30

[請益] 人體工學椅推薦

[ PC_Shopping ]

2小時前, 07/22

1

30

[菜單] 90K遊戲機

[ PC_Shopping ]

4小時前, 07/21

15

38

[開箱] MSI Claw 8 EX AI+ Launch Pack搶鮮看

[ PC_Shopping ]

8小時前, 07/21

9

23

9小時前, 07/21

4

12

[問題] 提升串流音樂品質的優先順序？

9小時前, 07/21

2

13

[菜單] 40K文書機

[ PC_Shopping ]

10小時前, 07/21

5

16

[賣/雙北/自取] ROG4090 DDR5 32X2 7800X3D

[ HardwareSale ]

10小時前, 07/21

27

93

[討論] 迷你 Type C 快充"充電頭" 推薦

10小時前, 07/21

更多即時熱門文章 >>

‣ 返回看板[ DataScience ] 研討

‣ 更多 ruthertw 的文章

文章代碼(AID): #1YYcBmkQ (DataScience)