Re: [問題] 請問有關擷取資料的問題?

看板Python作者 (...)時間17年前 (2008/06/18 20:19), 編輯推噓1(107)
留言8則, 3人參與, 最新討論串5/6 (看更多)
不好意思再問一下中文解碼的問題 因為我要處理的data是從某個文字檔(.txt)抓下來的 而這個.txt檔裡面是包括許多中文字串的資料 我在輸入以下程式的時候 #-*- coding:big5 -*- f=open('XXX.txt','rU').read() print f 這是沒有問題的 其中的中文字串都可以完整show出來 但是當我要對其中f(文字檔)做一些處理的時候(例如tokenize或是擷取資料出來) 就會出現unicode的問題 想請問一下為什麼都只能在print的時候中文字串可以顯示 但是寫其他程式碼處理的時候就不行呢@@ 請問有沒有什麼解決辦法呢 謝謝!!! ※ 引述《gasolin (小g)》之銘言: : ※ 引述《clara830 (...)》之銘言: : : 不好意思再請教一個進階的問題.... : : 假設我現在有一個list是這樣: : : text = ['ABCD:from XXX X 12(V) XXX', 'EF:XXX XX', 'GH: from XXX XX 345(V) XX'] : : 比如說我現在想要讓程式判斷 : : : 如果裡面有包含'from'的話 : : 就把其中冒號前面的字串找出來 以及找出其中(V)前面的字串 : : 以這個例子來說的話 也就是希望擷取出 [(ABCD, 12), (GH, 345)] : : 好像有點複雜.....不知道這有辦法寫出來嗎? : : 現在好像還想不到怎麼解決 : 跟前面的回答基本一樣 : store = [] : text = [....] : for i in text: : if 'from' in i: : seg = i.split(':') : first_param = seg[0] : second_param = seg[1].split('(V)')[0] : store.append((first_param, second_param)) : print store -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.122.210.35 ※ 編輯: clara830 來自: 140.122.210.35 (06/18 22:23)

06/19 03:07, , 1F
不曉得你是如何做處理的
06/19 03:07, 1F

06/19 03:08, , 2F
yungyuc大的152篇有很多encoding的觀念可以參考
06/19 03:08, 2F

06/19 10:31, , 3F
謝謝~~不過我現在那些字串都是在.TXT檔裡面
06/19 10:31, 3F

06/19 10:32, , 4F
跟前面講的好像不太一樣.....
06/19 10:32, 4F

06/19 10:34, , 5F
難道我要把.txt裡面的全部文字全部用複製貼上過去嗎?
06/19 10:34, 5F

06/19 10:35, , 6F
想請問有沒有辦法直接對.TXT檔案做處理的.....@@
06/19 10:35, 6F

06/19 17:00, , 7F
你文字檔是何種編碼?程式碼貼個片段出來看看吧
06/19 17:00, 7F

06/19 20:36, , 8F
已想到解決方式 感謝: )
06/19 20:36, 8F
文章代碼(AID): #18MFr0ia (Python)
文章代碼(AID): #18MFr0ia (Python)