Pandas Groupโดย Unique Multiple Columns

ฉันมีดาต้าเฟรม

import pandas as pd
df = pd.DataFrame(           
{'number': [0,0,0,1,1,2,2,2,2], 'id1': [100,100,100,300,400,700,700,800,700], 'id2': [100,100,200,500,600,700,800,900,1000]})

   id1   id2  number
0  100   100       0
1  100   100       0
2  100   200       0
3  300   500       1
4  400   600       1
5  700   700       2
6  700   800       2
7  800   900       2
8  700  1000       2

(นี่แสดงถึง dataframe ที่ใหญ่กว่ามากที่ฉันทำงานกับ ~ ล้านแถว)

ฉันสามารถใช้ groupby().unique กับหนึ่งคอลัมน์ได้:

df.groupby(['number'])['id1'].unique()

number
0         [100]
1    [300, 400]
2    [700, 800]
Name: id1, dtype: object

df.groupby(['number'])['id2'].unique()

number
0               [100, 200]
1               [500, 600]
2    [700, 800, 900, 1000]
Name: id2, dtype: object

ฉันต้องการทำสิ่งที่ไม่ซ้ำกันบนทั้งสองคอลัมน์พร้อมกันเพื่อเรียงลำดับใน dataframe:

number
0               [100, 200]
1     [300, 400, 500, 600]
2    [700, 800, 900, 1000]

เมื่อฉันลองทำเช่นนี้กับทั้งสองคอลัมน์ ฉันได้รับข้อผิดพลาด:

pd.Data.Frame(df.groupby(['number'])['id1', 'id2'].unique())

Traceback (most recent call last):
  File "C:\Python34\lib\site-packages\IPython\core\interactiveshell.py", line 2885, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-15-bfc6026e241e>", line 9, in <module>
    df.groupby(['number'])['id1', 'id2'].unique()
  File "C:\Python34\lib\site-packages\pandas\core\groupby.py", line 498, in __getattr__
    (type(self).__name__, attr))
AttributeError: 'DataFrameGroupBy' object has no attribute 'unique'

ทำอะไร? ควรใช้หลายดัชนีหรือไม่

แก้ไข: นอกจากนี้ยังสามารถรับผลลัพธ์ดังต่อไปนี้:

Chuck 22.11.2017 แหล่งที่มา

คำตอบ (1)

arrow_upward
9
arrow_downward

คุณสามารถเลือกคอลัมน์ทั้งหมดได้ด้วย []:

s = (df.groupby(['number'])['id1', 'id2']
       .apply(lambda x: pd.unique(x.values.ravel()).tolist()))

print (s)
number
0               [100, 200]
1     [300, 500, 400, 600]
2    [700, 800, 900, 1000]
dtype: object

Or:

s2 = (df.groupby(['number'])['id1', 'id2']
        .apply(lambda x: np.unique(x.values.ravel()).tolist()))
print (s2)
number
0               [100, 200]
1     [300, 400, 500, 600]
2    [700, 800, 900, 1000]
dtype: object

แก้ไข:

หากต้องการเอาต์พุตเป็นคอลัมน์ ขั้นแรกให้ปรับรูปร่างใหม่โดย stack จากนั้น drop_duplicates:

df1 = (df.set_index('number')[['id1', 'id2']]
         .stack()
         .reset_index(level=1, drop=True)
         .reset_index(name='a')
         .drop_duplicates())
print (df1)
    number     a
0        0   100
5        0   200
6        1   300
7        1   500
8        1   400
9        1   600
10       2   700
13       2   800
15       2   900
17       2  1000

jezrael 22.11.2017

comment

คำตอบที่ยอดเยี่ยม Jez ขอบคุณ! เป็นไปได้ไหมที่จะขยายรายการเหล่านั้นให้ดูเหมือนการแก้ไขของฉัน - Chuck; 22.11.2017

comment

ฉันเพิ่มวิธีแก้ปัญหาที่ดีกว่าสำหรับมัน - jezrael; 22.11.2017

comment

สมบูรณ์แบบ - ขอบคุณ :) - Chuck; 22.11.2017

Pandas Groupโดย Unique Multiple Columns

คำตอบ (1)

คำถามในหัวข้อ