[心得] Music Demixing Challenge 2021 A組銅牌

看板DataScience作者 (十年魔乃粉)時間3年前 (2021/11/15 15:31), 編輯推噓6(604)
留言10則, 6人參與, 3年前最新討論串1/1
安安~小弟十年魔乃粉辣,毫久沒在這發文惹 其實這個比賽已經結束好幾個月,不過上週還有辦後續的工作坊 小弟因此還得去報告一下poster,總算結束了可以來分享點心得和過程XD 比賽網址 https://www.aicrowd.com/challenges/music-demixing-challenge-ismir-2021 是個Sony出資在AIcrowd這個平台上辦的AI競賽 題目是音樂的聲源分離,要把一首曲子分成鼓、貝斯、人聲、其他(不屬於以上三類)的 四個獨立音檔 參賽分成兩組別 A組限制使用musdb18這個2018年的一次類似比賽提供的dataset,B組則沒有任何限制 而主辦方的目的其實是想藉由這樣自由參加的形式,在音樂聲源分離這領域做一些follow up research,sony方的四位主辦也都是相關的學者 詳情可以參考比賽結束後的review paper https://arxiv.org/abs/2108.13559 自己以前的研究題目跟MIR相關,所以聲源分離也略知一二,但沒有自己實際做過XD 就想藉著這次比賽學點經驗,也沒有想要得名什麼的,畢竟參加者真的很多妖魔鬼怪 於是從五月初開始一個人奮鬥 最初的想法是先試試各種不同模型再決定方向 所以前期幾乎都在寫training pipeline, dataloader等,讓之後抽換模型能夠更容易 等到codebase開發的差不多,成功試過第一個baseline model後 覺得自己一個人力量有限,計算資源也不夠(我只有一張3070 QQ),就開始徵人組隊 後來形成了個5~6人的小隊,大部分都是朋友或以前的同事,有接觸過音訊領域的為主 其中很榮幸找到nnAudio的作者Kin-Wai加入,貢獻了龐大的算力(V100 x4) 他也是final model的第二作者 因為我們都不是聲源分離的專長,所以主要開發方向就是從主辦提供的baseline開始改 看改了之後能提昇多少 組別只參加A組,畢竟收集資料絕對拼不過大公司QQ 期間我們不斷survey相關paper,討論有沒有能改進的地方 很幸運的是,小隊成員幾乎不是PhD,就是PhD student或master 所以有時候討論內容會深到小弟只能在旁邊默默不出聲XD 現在回頭看很多討論串都想保存下來當未來的研究方向 雖然陣容堅強,但開發過程也不是一路順遂 中間也曾有一個月幾乎毫無進度,只能等model training完畢的時候 而在改良了各種模型後,排名一直卡在10~14這個區間 也觀察到在這區間大家的分數都非常接近,很可能是修改baseline的極限就在這邊 到了比賽最後一週,實在是沒招了,就想說乾脆把之前開發的三個模型合在一起算了 結果分數一舉加了0.5 SDR,躍升到了第四 至此到比賽結束,我們都在瘋狂的調整模型輸出的加總比例,但還是無法突破第三名 好在主辦方的規則有說若沒有open source將失去領獎資格 而第三名的印度人自動放棄,所以我們就莫名其妙的遞補到了銅牌XDDDD B組也有相同的情況,第一名的AudioShake也放棄open source (一家美國的新創,分數高的可怕,擺明來秀肌肉) 能撈到銅牌,除了幸運,實在很難說我們的模型有什麼特別的novelty 因為銀牌的韓國大學的Woosung用的是他PhD時開發的模型改良版 而金牌是facebook(x)Meta(o)的research scientist Alexandre Défossez 得獎的模型也是他PhD時的作品,這個領域的SOTA---Demucs,的噁心改良版 (我有在研討會聽他的talk,他只靠一個人,試了各種噁心東西XD) 有趣的是,字節跳動的團隊也有參賽,但分數剛好只差我們一點ww 比賽結果發表的線上錄影 https://youtu.be/TntPVZ4ajIk
(我超緊張英文講得很破請包含>///<,尤其AIcrowd協辦的印度人英文我幾乎聽不懂qq) 比賽結束後,主辦也辦了一個附屬在今年ISMIR的聲源分離workshop https://mdx-workshop.github.io/ 邀請有參賽的組別來報告自己的模型 所以我們也跟著寫了一篇不到三頁的paper,在poster section做分享 如果對模型的細節有興趣,可以參考看看 https://mdx-workshop.github.io/proceedings/chinyun.pdf 而第一次參加ISMIR還是線上研討會的經驗,篇幅值得再寫一篇,我有空再來分享好了 如果想嘗試小弟開發的模型,可以直接從github上面拿來用 https://github.com/yoyololicon/danna-sep 想重現我們的training結果的話 https://github.com/yoyololicon/music-demixing-challenge-ismir-2021-entry 大概醬,有其他想知道的細節,可以推文,我盡量回答~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.32.97 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1636961499.A.D96.html

11/15 20:50, 3年前 , 1F
11/15 20:50, 1F

11/15 20:51, 3年前 , 2F
好奇問,能不能簡介一下 SDR 的概念是什麼 XD
11/15 20:51, 2F

11/15 20:56, 3年前 , 3F
就是ground truth 數值跟誤差值的比例
11/15 20:56, 3F

11/15 20:56, 3年前 , 4F
越高越好
11/15 20:56, 4F

11/15 20:59, 3年前 , 5F
原來如此 XD
11/15 20:59, 5F

11/17 15:52, 3年前 , 6F
ensemble modeling很強大的
11/17 15:52, 6F

11/17 17:46, 3年前 , 7F
其實最後前三名都有做model blending 似乎不意外
11/17 17:46, 7F

11/19 19:23, 3年前 , 8F
推推
11/19 19:23, 8F

11/20 00:33, 3年前 , 9F
感謝分享
11/20 00:33, 9F

11/21 01:29, 3年前 , 10F
謝謝分享,少數得獎的分享者
11/21 01:29, 10F
文章代碼(AID): #1XaWpRsM (DataScience)
文章代碼(AID): #1XaWpRsM (DataScience)