Re: [請益] 字串部分比對篩選

看板Perl作者 (DungDung)時間12年前 (2012/12/07 15:57), 編輯推噓2(201)
留言3則, 2人參與, 最新討論串1/1
※ 引述《killerjackal (比利養了一隻狗叫比利)》之銘言: : 現在手邊有兩個檔案 : 檔案的格式都差不多長一樣 : >xxxxxxx(title)xxxxxxxxx : stringstringstringstring...... : A檔案格式如下: : >UniqueRead1_count1 : CTCGCCGTCGCAAACCCAAGCTGTCT : >UniqueRead2_count1 : CTCGCCTGGCTGTGGTTCTTCTAACA : >UniqueRead3_count1 : CTCGCCTGCTAAGCGTTGAGATCATC : B檔案如下: : >UniqueRead1_count1 : CTCGCCCCCCCAAAAAAAACAAAAACGCCTCATACGAGATTATCAATTAGCTAAGTTGGTAATGTG : >UniqueRead2_count1 : CTCGCCGCCAGTAACATTCATTTACGTTTTATCATATATTTGATTTCTTGCTTTTATTCCATTTAT : >UniqueRead3_count1 : CTCGCCTCCTATTCTTCCCGCCACTTCTTGCTTGACCAACAACCTCAGCTCTCATCACTCACCTGG : 目的是要看A檔案出現的內容是否也在B檔案中出現過 : 意思就是說如果A檔案的第一筆資料(資料內容) : >UniqueRead1_count1(此為資料名稱) : CTCGCCGTCGCAAACCCAAGCTGTCT (此為資料內容) 各位高手 我遇到類似問題,不過是要去除相同資料 主要問題爲 檢查title 只要相同,連同strings不保留 也就是 以A為主的資料 要檢查出裡面是否包含B資料中含title的資料 而C存取A不包含B的剩餘資料 有想過是使用 sort 與 雜湊 請問該如何著手撰寫程式 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 113.61.134.176

12/07 17:29, , 1F
如果是序列檔案的話可以用Bioperl模組處理
12/07 17:29, 1F

12/08 09:08, , 2F
如果要移除重復序列 還是用降identity的軟體比較保險喔
12/08 09:08, 2F

12/10 17:52, , 3F
原PO消失了!?
12/10 17:52, 3F
看過Bioperl 稍微複雜了 後來還是用BLAST去除相似序列... 謝謝兩位提供意見^^ ※ 編輯: aattsat 來自: 113.61.134.176 (12/22 11:24)
文章代碼(AID): #1GmQ5dHH (Perl)
文章代碼(AID): #1GmQ5dHH (Perl)