[情報] 手寫數字資料集

看板DataScience作者 (魯蛇王)時間6年前 (2018/05/18 11:11), 編輯推噓1(107)
留言8則, 5人參與, 6年前最新討論串1/1
[關鍵字]: 手寫數字資料集 [出處]: 自己 [重點摘要]: https://github.com/jikker/-2-digit-handwritten-number-data 自己蒐集的手寫數字資料 目前已有13萬張圖片 MNIST的資料太漂亮了,不是真實世界會遇到的資料, (雜訊處理的很好) 用MNIST來跑只是好看而已,辨識度99%,拿來套在真實世界, 有時連70%都達不到,這是我自己蒐集的手寫數字資料, 大概有20個人左右的筆跡,持續增加中,分享給大家使用, 會有一些雜訊,但是我辨識的目標就是很容易有雜訊, 所以乾脆把雜訊也丟進去,讓他自行產生抗體 XD 我目前的模型 辨識度約可達到 92%~95% (訓練完,在這個資料集內隨機取樣辨識) 如果有大大用這些資料跑出更好的辨識度 拜託告訴我 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.87.162.162 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1526613112.A.233.html

05/18 13:11, 6年前 , 1F
傳統的DIP就可以處理"雜訊" 這年頭都直接灌進CNN不預處理
05/18 13:11, 1F

05/18 13:11, 6年前 , 2F
的就是了
05/18 13:11, 2F

05/18 13:46, 6年前 , 3F
我所謂的"雜訊" 是 手寫文字超出格子 造成下一格會多一筆
05/18 13:46, 3F

05/18 13:49, 6年前 , 4F
05/18 13:49, 4F

05/18 13:50, 6年前 , 5F
請問這種的DIP要怎麼處理比較好?
05/18 13:50, 5F

05/18 19:11, 6年前 , 6F
SVHN也很多這種的,就不理他
05/18 19:11, 6F

05/18 21:19, 6年前 , 7F
Autoencoder不是可以降噪 那個套下去看看啊
05/18 21:19, 7F

05/19 22:18, 6年前 , 8F
感謝分享
05/19 22:18, 8F
文章代碼(AID): #1Q_aHu8p (DataScience)
文章代碼(AID): #1Q_aHu8p (DataScience)