[發案] mediawiki 家教
發案人:本人
聯絡方式:站內信+LINE
所在地區:台北
有效時間:徵到為止
專案說明:
目標: 建立一個 offline wikipedia ,只須包含 zhwiki data
預期結果:建立一個 mediawiki server,資料庫用 mysql,開發環境 rhel
目前狀態:已建立了一個 mediawiki server,會從 mediawiki dump data
下載 pages-articles.xml,把下載的 xml data 用 mwdumper 轉換成 sql file 後
塞入資料庫,mysql 使用 master-slave 來進行讀寫分離
目前遇到幾個問題,看了文件後還是不知如何處理:
對於 mediawiki dump data:
- 想了解資料之間的關係,xml dump file 和 sql dump file 所包含的資料有
何不同?不同 table 所含的資料 (text, revision, page, pagelinks,
page_restrictions, ...) 的之間的關聯性?
- 在不用 mwdumper 的話,該如何去把資料塞入資料庫?
- 對於 mwdumper ,由於該工具不再更新了,是否有其他工具也可以取代他,做
到把 xml data 轉換成 sql data
對於 mysql:
- 對於資料庫有基本概念,大致理解 master-slave 運作原理,為了加速 slave
塞入資料的速度,讓 slave db 可以 multithread 處理資料,但不確定現在
的參數是否恰當,若 parallel worker 太少,塞入資料一陣子可能會遇到
lost connection 的問題,worker 太多則記憶體可能會撐不住
由於自己研究感到瓶頸了,希望可以找其他人教學指導
預算:一小時 1000,+LINE後詳談
接案者要求:熟悉 mediawiki、mysql、PHP、docker
附註:上課地點可線上,也可實體約在台北捷運沿線的咖啡廳,確切時間地點可再討論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.219.120 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/CodeJob/M.1667664963.A.046.html
※ 編輯: rc840327 (122.116.219.120 臺灣), 11/06/2022 01:23:44
CodeJob 近期熱門文章
PTT數位生活區 即時熱門文章