Re: [問題] 行與列

看板CSSE (電腦科學及軟體工程)作者 (會長繞跑了)時間19年前 (2006/08/18 10:26), 編輯推噓2(201)
留言3則, 1人參與, 最新討論串3/5 (看更多)
如果以關聯式資料庫的觀點來看 column之間的關係是FD(functional dependence)的關係 用一種粗糙的白話文來解釋 也就是個體屬性間的關係 而row之間對應的是個體之間的關係 因此你存的如果是一筆一筆的資料 是應該以row方式來存的 當然 妳也可以把gene的feature視為是gene的屬性 但在ER model的觀點來看 到最後轉成關聯式資料庫上面的column 他的屬性一定會表示成feature1, feature2, .... featureN這種方式 屬性一定為N個個數 也就是說 如果你的屬性不定個數 在ER上面會將feature獨立出來變成一個個體(或是多值屬性) 而feature與gene個體之間有一對多的關係(多值屬性處理方式跟個體一樣) 這種情況feature就會被獨立出來成一個表格了 而不是被放在column上面 另外一方面 有關於生物資訊的data 一般來說 處理生物資訊的data 可以分成兩種方式 flat-file based & DBMS based 在MySQL部分 emsemble有提供出schema & data 可以參考看看他們定出來的schema 他們的data也很完整 說不定連你自己的data都不用抓了 (不過你的資料可能是跟cancer有關的 這部份他們就比較缺乏) 如果用flat file的話 例如以ncbi提供出來gene的資料 可以利用bioperl去存取這些資料 裡面提供非常多的API 舉凡抓feature這些功能都有 bioperl相關的程式還包含了biojava..等等 ※ 引述《micklin (mick)》之銘言: : 最近在處理基因序列, 資料的儲存一直讓我很頭痛, : 在傳統資料處理時, 我都把column對應到feature, 把row當成一筆資料. : 但是現在的問題是MySQL不能處理2000個column (colon dataset), : 更別說另一個五萬多個基因的dataset了. : 轉成文字模式再用UltraEdit處理, 在4096個字元後就強迫斷行了 = = : 雖然可以自己用程式接起來就是了.... : 所以我的問題是, : 在處理行與列的時候有沒有什麼不同呢? : 為什麼我們平常處理文字檔或資料庫的時候, : 會偏好row很多而不是column很多? : 是檔案結構的問題還是什麼地方的限制呢? : 謝謝回答. -- http://www.im.tv/vlog/personal.asp?FID=&Memid=254442 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.109.169.200 ※ 編輯: seagal 來自: 140.109.169.200 (08/18 10:46) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 10:47) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 11:52) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 11:55) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 14:17)

08/18 16:25, , 1F
謝謝您的回答
08/18 16:25, 1F

08/18 16:43, , 2F
目前的資料是未公開的cancer基因資料, 所以沒辦法用您建
08/18 16:43, 2F

08/18 16:43, , 3F
議的方法去做....
08/18 16:43, 3F
※ 編輯: seagal 來自: 140.109.169.200 (09/22 09:36)
文章代碼(AID): #14vILLTm (CSSE)
討論串 (同標題文章)
本文引述了以下文章的的內容:
1
5
完整討論串 (本文為第 3 之 5 篇):
1
1
0
1
2
3
0
1
1
5
文章代碼(AID): #14vILLTm (CSSE)