[問題] 讀取會議文件遇到問題

看板Python作者TZULIU (消費券收購商)時間7年前 (2019/01/30 12:08)推噓11(11推 0噓 13→)

留言24則, 7人參與討論串1/1

我打算分析100多個會議文件，範例如下：https://tinyurl.com/yalydvd8 但在分析之前，我想先將文件轉成資料儲存，資料中的每一行，第一個數值是發言者，第二個數值是發言者的發言內容。例如：["張三","我今天早上吃了一碗滷肉飯，超好吃的。"] 我目前的進度如下： Name = [] sentence = [] file = open('會議文件','r') for line in file: if line.find(':') != -1: tokens = line.split(":") Name.append(tokens[0]) else: sentence.append(line + " ") 我現在想不通該怎麼樣把得到的發言者姓名和內容放在一起，然後再繼續找下一個發言者和發言內容。還請各位高手幫忙解惑，謝謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 168.150.122.93 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1548821321.A.461.html ※ 編輯: TZULIU (168.150.122.93), 01/30/2019 12:17:39 ※ 編輯: TZULIU (168.150.122.93), 01/30/2019 12:19:54

推

lajji

01/30 12:20, 7年前 , 1^F

01/30 12:20, 1^F

推

TitanEric

01/30 13:27, 7年前 , 2^F

01/30 13:27, 2^F

→

TitanEric

01/30 13:28, 7年前 , 3^F

01/30 13:28, 3^F

→

TitanEric

01/30 13:28, 7年前 , 4^F

01/30 13:28, 4^F

兩位高手的建議因為文件結構應該無法運行，把冒號當分隔符取出發言者沒問題，但是發言內容可能會有很多行。假設我資料的第一行是「小明：」，然後接下來的八行都是小明發言的內容，然後再下一行（第十行）是「小華：」，然後接下來的五行都是小華的發言內容，我的問題是，我應該怎樣讓電腦知道，在讀完第九行之後，創建一個list如["小明","八行內容"]，然後再讀取剩下的六行，然後在最後創立一個 list為["小華","五行內容"]。謝謝！ ※ 編輯: TZULIU (168.150.122.93), 01/30/2019 14:21:08

推

highpower

01/30 15:08, 7年前 , 5^F

01/30 15:08, 5^F

推

yangs0618

01/30 19:01, 7年前 , 6^F

01/30 19:01, 6^F

推

yangs0618

01/30 19:03, 7年前 , 7^F

01/30 19:03, 7^F

→

yangs0618

01/30 19:04, 7年前 , 8^F

01/30 19:04, 8^F

推

TitanEric

01/31 00:48, 7年前 , 9^F

01/31 00:48, 9^F

→

nini200

01/31 01:29, 7年前 , 10^F

01/31 01:29, 10^F

推

nini200

01/31 05:18, 7年前 , 11^F

01/31 05:18, 11^F

→

nini200

01/31 05:19, 7年前 , 12^F

01/31 05:19, 12^F

→

nini200

01/31 05:21, 7年前 , 13^F

01/31 05:21, 13^F

→

nini200

01/31 05:24, 7年前 , 14^F

01/31 05:24, 14^F

→

nini200

01/31 05:28, 7年前 , 15^F

01/31 05:28, 15^F

→

nini200

01/31 05:29, 7年前 , 16^F

01/31 05:29, 16^F

→

nini200

01/31 05:37, 7年前 , 17^F

01/31 05:37, 17^F

推

jasonfghx

01/31 09:50, 7年前 , 18^F

01/31 09:50, 18^F

感謝各位先進的幫忙，我昨晚和今天早上又想了一下加問了一下朋友，以下是我現在的作法（有點笨但是對於我這種非高手比較容易理解）： ##先讀取文件的每一行並建立一個list ##同時也創建一個index file = open('文件', 'r') All_lines = [] Names = [] length = 0 #Read all lines in the text file for line in file: if "Column" not in line: line = re.sub(r"(\d+\.?)", "", line) line = line.strip() if not line: continue else: All_lines.append(line.strip()) length += 1 else: continue ##以新建的list作為新文件並且抓取發言者及其發言並結何為一sub list for i in range(length): temp = [] if All_lines[i].find(':') != -1: #Split the name #Let's split the line into an array called "tokens" using the ":" as a separator: tokens = All_lines[i].split(":") #and let's extract the data: temp.append(tokens[0]) j = i + 1 while j < length and All_lines[j].find(':') == -1: #All_lines[j] = re.sub(r" ", "", All_lines[j]) temp.append(All_lines[j].strip()) j += 1 Names.append(temp) 還請各位高手賜教，謝謝！ ※ 編輯: TZULIU (168.150.122.93), 01/31/2019 13:45:20

推

nini200

01/31 21:12, 7年前 , 19^F

01/31 21:12, 19^F

推

lemon651

02/01 11:02, 7年前 , 20^F

02/01 11:02, 20^F

→

lemon651

02/01 11:02, 7年前 , 21^F

02/01 11:02, 21^F