[問題] 符合條件後,將下一行的資料利用

看板R_Language作者 (khkh)時間2年前 (2022/11/21 18:54), 2年前編輯推噓5(5017)
留言22則, 7人參與, 2年前最新討論串1/1
[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 我有一組資料,如下圖左。 每個Product跟Sku會進行N次測試,但我只想要留都成功的組合。 如Product1 & M,測試了3次,但我只想要留Product1 M 2022/10/25 23:18這筆。 而Product2 & S,最後一筆的Result1 & Result2有NG的狀況, 所以我要借用前一個OK的那筆。 最後整理結果如下圖右。 我目前的想法不是用group_by,而是從for 迴圈去逐row看是否NG, 如果NG再看下一row是否為同一product和sku, 如果是的話,便將下一row的值貼上此row。 但不知道有沒有比較好的做法。 https://imgur.com/z7FPje9
=============================================================== 簡單來說我想要組合同一個product & sku下的結果, 如前所述的product2 & S,11:58的result 3 & 4有OK,所以要保留, 但result 1&2的NG就要取用9:48的結果。 我一開始也想嘗試用group_by, 但是group_by(product, sku)後, 我目前僅會列出根據時間的最後一筆(arrange後summarise_all(last)), 而不知道怎麼把group_by後的結果作上述的組合動作。 [環境敘述]: Windows R-4.0.3 [關鍵字]: dplyr summarise row -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.23.35.151 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1669028059.A.66F.html ※ 編輯: bedroom0204 (211.23.35.151 臺灣), 11/21/2022 18:56:30

11/21 21:47, 2年前 , 1F
有點看不太懂,但是整體來說是不管有幾筆資料,只要其中
11/21 21:47, 1F

11/21 21:47, 2年前 , 2F
一筆資料的results 1有OK的結果,就是OK。 不知道我這樣
11/21 21:47, 2F

11/21 21:47, 2年前 , 3F
理解是否對?
11/21 21:47, 3F

11/21 22:10, 2年前 , 4F
不用group_by有什麼特殊考量嗎?迴圈應該會比較慢
11/21 22:10, 4F

11/22 08:47, 2年前 , 5F
因為你的邏輯有順序問題,建議用SQL的window clause
11/22 08:47, 5F

11/22 08:48, 2年前 , 6F
R我目前不知道有沒有window clause的替代品
11/22 08:48, 6F

11/22 09:47, 2年前 , 7F
沒有順序問題吧,最終結果不就只是看有OK就取OK.
11/22 09:47, 7F
對,沒有順序問題,只要同一個product&sku的result1-4分別有出現過OK,就取OK, 如果該組合沒有其他資料,或是過去都NG,就維持最後一筆的結果。 ※ 編輯: bedroom0204 (211.23.35.151 臺灣), 11/22/2022 14:40:03

11/22 18:09, 2年前 , 8F
看起來可以拆分兩部分作業, 在每組product, sku找出
11/22 18:09, 8F

11/22 18:09, 2年前 , 9F
一個符合你要求的date, 再找出result1-4的適合值, 最
11/22 18:09, 9F

11/22 18:09, 2年前 , 10F
後再merge起來
11/22 18:09, 10F

11/22 18:13, 2年前 , 11F
第一部份, 先把ok/ng轉換成1/0,逐row加起來(ok_cnt),
11/22 18:13, 11F

11/22 18:13, 2年前 , 12F
每組product,sku依ok_cnt大至小排序, date早到晚排
11/22 18:13, 12F

11/22 18:13, 2年前 , 13F
序, 再取出每組第一個row, 就會是所求的date
11/22 18:13, 13F

11/22 18:15, 2年前 , 14F
第二部分, 每組product, sku找出max(result1)到max(r
11/22 18:15, 14F

11/22 18:15, 2年前 , 15F
esult4)
11/22 18:15, 15F

11/22 18:19, 2年前 , 16F
最後用product,sku作為key去merge兩個部分, 應該就是
11/22 18:19, 16F

11/22 18:19, 2年前 , 17F
你要的結果, btw我前面的date排序好像講反了
11/22 18:19, 17F

11/23 11:02, 2年前 , 18F
參考 data.table,也一併說明做法了。
11/23 11:02, 18F

11/23 11:02, 2年前 , 19F

11/25 11:18, 2年前 , 20F
既然 日期時間(Date) 這個欄位都是採最新的一筆資料
11/25 11:18, 20F

11/25 11:20, 2年前 , 21F
那用 排序 + group + long/wide date 應該就可以解決了
11/25 11:20, 21F

11/25 11:21, 2年前 , 22F
文章代碼(AID): #1ZUrZRPl (R_Language)
文章代碼(AID): #1ZUrZRPl (R_Language)