Re: [問題] 請問有關擷取資料的問題?
不好意思再問一下中文解碼的問題
因為我要處理的data是從某個文字檔(.txt)抓下來的
而這個.txt檔裡面是包括許多中文字串的資料
我在輸入以下程式的時候
#-*- coding:big5 -*-
f=open('XXX.txt','rU').read()
print f
這是沒有問題的 其中的中文字串都可以完整show出來
但是當我要對其中f(文字檔)做一些處理的時候(例如tokenize或是擷取資料出來)
就會出現unicode的問題
想請問一下為什麼都只能在print的時候中文字串可以顯示
但是寫其他程式碼處理的時候就不行呢@@
請問有沒有什麼解決辦法呢 謝謝!!!
※ 引述《gasolin (小g)》之銘言:
: ※ 引述《clara830 (...)》之銘言:
: : 不好意思再請教一個進階的問題....
: : 假設我現在有一個list是這樣:
: : text = ['ABCD:from XXX X 12(V) XXX', 'EF:XXX XX', 'GH: from XXX XX 345(V) XX']
: : 比如說我現在想要讓程式判斷 :
: : 如果裡面有包含'from'的話
: : 就把其中冒號前面的字串找出來 以及找出其中(V)前面的字串
: : 以這個例子來說的話 也就是希望擷取出 [(ABCD, 12), (GH, 345)]
: : 好像有點複雜.....不知道這有辦法寫出來嗎?
: : 現在好像還想不到怎麼解決
: 跟前面的回答基本一樣
: store = []
: text = [....]
: for i in text:
: if 'from' in i:
: seg = i.split(':')
: first_param = seg[0]
: second_param = seg[1].split('(V)')[0]
: store.append((first_param, second_param))
: print store
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.122.210.35
※ 編輯: clara830 來自: 140.122.210.35 (06/18 22:23)
→
06/19 03:07, , 1F
06/19 03:07, 1F
→
06/19 03:08, , 2F
06/19 03:08, 2F
→
06/19 10:31, , 3F
06/19 10:31, 3F
→
06/19 10:32, , 4F
06/19 10:32, 4F
→
06/19 10:34, , 5F
06/19 10:34, 5F
→
06/19 10:35, , 6F
06/19 10:35, 6F
推
06/19 17:00, , 7F
06/19 17:00, 7F
→
06/19 20:36, , 8F
06/19 20:36, 8F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 5 之 6 篇):
Python 近期熱門文章
PTT數位生活區 即時熱門文章