[問題] Sequential Pattern Mining 問題

看板Python作者時間11月前 (2024/01/09 12:45), 11月前編輯推噓0(0011)
留言11則, 3人參與, 11月前最新討論串1/1
如下面簡易數字 客戶1於 2021_2 重複購買 產品A 3次 並於 2022_2 購買 產品B 1次 請問這樣在 Python 裡面做資料整理時 是要做成哪一種? 1. <{A},{A},{A},{B}> 2. <{A},{B}> MemberID 產品 Year_Month 1 A 2021_2 1 A 2021_2 1 A 2021_2 2 C 2022_10 3 B 2022_1 4 C 2023_1 1 B 2022_2 2 C 2023_1 謝謝各位 -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.125.101.58 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1704775546.A.41D.html

01/09 13:15, 11月前 , 1F
你的資料服務的對象是你後續的處理機制,要整理成什麼形式
01/09 13:15, 1F

01/09 13:16, 11月前 , 2F
是看你後續要做什麼,不是看使用的是哪一種語言。
01/09 13:16, 2F

01/09 13:18, 11月前 , 3F
比如 (2) 的格式看不出客戶 1 購買了 A 幾次,如果用途是要
01/09 13:18, 3F

01/09 13:18, 11月前 , 4F
看哪些商品有被購買,而不重視購買次數,那就 (2) 就足夠了
01/09 13:18, 4F

01/09 13:19, 11月前 , 5F
,而 (1) 的格式既保留了購買次數也保留了商品,甚至先後。
01/09 13:19, 5F

01/09 13:20, 11月前 , 6F
有時候先後次序不重要,你也可以用 {'A': 3, 'B': 1} 呀
01/09 13:20, 6F
感謝你特地回覆!! 其實我主要是想看敝司的產品購買先後行為,並結合RFM 看哪些會員是忠誠顧客且未來有可能會購買新一代產品。 因為我們產品是高單價,大部分會員都只購買一次或兩次居多 很少數才會每一代新產品出來都做購買 ; 或是重複購買 主要是想確認業界習慣用哪一種方式解讀 如果都沒差的話,應該是(2)就可以沒錯! 不然 (1) 做出來會像這樣 https://imgur.com/frYfHb5.jpg
另外有個問題想順便請問: 為什麼 support加起來會超過1? 照理講 support 是資料集內所有的交易次數的佔比 應該加總不會超過1才對!? 一直百思不得其解... 謝謝 ※ 編輯: icqmsn (114.37.168.110 臺灣), 01/09/2024 23:06:01

01/10 09:21, 11月前 , 7F
不是都沒差,而是商業邏輯有沒有要考慮順序先後
01/10 09:21, 7F

01/10 09:22, 11月前 , 8F
加起來不是一,有沒有重複算,分母有一樣嗎
01/10 09:22, 8F

01/10 12:39, 11月前 , 9F
回L大:有的,順序很重要!這樣才能預估下一代產品有多少人
01/10 12:39, 9F

01/10 12:39, 11月前 , 10F
會再購買!
01/10 12:39, 10F

01/10 12:45, 11月前 , 11F
計算方式我是使用 CSPADE 演算法,不知道哪邊可再細調 @@
01/10 12:45, 11F
文章代碼(AID): #1bdCzwGT (Python)
文章代碼(AID): #1bdCzwGT (Python)