Re: [問題] 取得大量數據的管道?
看板DataScience作者Equalmusic (Cosmajoonitist)時間5年前 (2019/01/23 11:49)推噓13(13推 0噓 0→)留言13則, 13人參與討論串2/2 (看更多)
※ 引述《dharma (達)》之銘言:
: 一般人能拿到的大數據資料
: 除了股市、政府公開資訊(例如氣象)
: 還有自己爬蟲爬網頁
: 之外可能還有什麼門路取得大量有品質的數據?
: 且不用花什麼錢的
: 一般人指的是沒有身在什麼學術/研究單位
: 或相關的職場單位
: thanks
數據的類別很多,你可能要先描述一下你需要什麼數據
幾個比較有名的門路
政府數據:
美國(現在下架了只能下載 archive)
https://www.data.gov/
台灣
https://data.moi.gov.tw/MoiOD/default/Index.aspx
圖像數據:
最有名的 ImageNet
http://www.image-net.org/
做 Segmentation 的 Coco
http://cocodataset.org/
各種類型的數據:
Kaggle 不解釋
https://www.kaggle.com/
Google Dataset Search
https://toolbox.google.com/datasetsearch
微軟研究院數據集
https://msropendata.com/
數據領域的 The Pirate Bay:
Paper 跟數據集都能搜
http://academictorrents.com/
二次元美少女數據集:
不美不負責
https://github.com/jayleicn/animeGAN
最完整的數據收錄名單:
Awesome 系列數據集
https://github.com/awesomedata/awesome-public-datasets
主要還是看你想做什麼領域
現在越來越多會議或是期刊都要求使用開源數據集
所以其實你想找什麼數據集就多看看那個領域大家都用什麼數據集就好了
這樣可以省去很多清洗的時間
--
「但如果你在懼怯中,只想尋求愛的恬靜和愛的愉悅,
那麼不如遮掩著你的裸體,避開愛的打穀場,進入那無季節的世界,
在那兒你會歡笑,但非全心的笑,你會哭泣,卻非盡情的哭。」
- Kahlil Gibran
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.186.9.86
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1548215380.A.14F.html
※ 編輯: Equalmusic (118.186.9.86), 01/23/2019 11:53:49
※ 編輯: Equalmusic (118.186.9.86), 01/23/2019 11:54:07
※ 編輯: Equalmusic (118.186.9.86), 01/23/2019 11:54:52
推
01/23 14:00,
5年前
, 1F
01/23 14:00, 1F
推
01/23 14:52,
5年前
, 2F
01/23 14:52, 2F
推
01/23 21:00,
5年前
, 3F
01/23 21:00, 3F
推
01/24 20:42,
5年前
, 4F
01/24 20:42, 4F
推
01/25 16:57,
5年前
, 5F
01/25 16:57, 5F
推
01/30 07:36,
5年前
, 6F
01/30 07:36, 6F
推
02/05 18:49,
5年前
, 7F
02/05 18:49, 7F
推
02/08 17:15,
5年前
, 8F
02/08 17:15, 8F
推
02/11 09:42,
5年前
, 9F
02/11 09:42, 9F
推
02/12 14:42,
5年前
, 10F
02/12 14:42, 10F
推
02/12 19:41,
5年前
, 11F
02/12 19:41, 11F
推
02/21 19:36,
5年前
, 12F
02/21 19:36, 12F
推
03/01 20:43, , 13F
03/01 20:43, 13F
討論串 (同標題文章)
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章