Perkenalan
Jika Anda sedang bekerja atau pernah mengerjakan tugas ilmu data apa pun maka Anda pasti menggunakan panda. Jadi, pandas adalah perpustakaan yang membantu melakukan penyerapan dan transformasi data.
Kode Panda
Untuk contoh ini, saya mengambil dataset penjualan bahan makanan supermarket yang berisi informasi tentang produk, penjualan, diskon, keuntungan, dll.
Impor kumpulan data
df = pd.read_csv('./sample_data/Supermart Grocery Sales - Retail Analytics Dataset.csv')
Daftar kolom
df.columns Index(['Order ID', 'Customer Name', 'Category', 'Sub Category', 'City', 'Order Date', 'Region', 'Sales', 'Discount', 'Profit', 'State'], dtype='object')
Dapatkan Info Tanggal Pemesanan seperti tanggal pertama dan terakhir
df['Order Date'].describe() count 9994 mean 2017-04-30 05:17:08.056834048 min 2015-01-03 00:00:00 25% 2016-05-23 00:00:00 50% 2017-06-26 00:00:00 75% 2018-05-14 00:00:00 max 2018-12-30 00:00:00 Name: Order Date, dtype: object
Rata-rata penjualan per tahun
df['year'] = df['Order Date'].apply(lambda x: x.year) df.groupby('year')['Sales'].mean() year 2015 1493.025088 2016 1489.990010 2017 1496.680325 2018 1502.871981 Name: Sales, dtype: float64
Semua eksplorasi sederhana ini mengharuskan Anda menulis beberapa kode dan melakukan pembersihan untuk mendapatkan hasil yang diinginkan.
Panda AI
Memperkenalkan perpustakaan baru untuk memanfaatkan panda hanya dengan menggunakan bahasa alami dengan bantuan LLM. Ini adalah tautan github.
Sekarang mari kita mencobanya.
from pandasai.llm.openai import OpenAI llm = OpenAI("OPENAI_API_KEY") pandas_ai = PandasAI(llm)
Tanggal pemesanan pertama.
pandas_ai.run( df, "What is the first order date?", ) The first order date was on January 3rd, 2015 at midnight.
Tanggal pemesanan terakhir.
pandas_ai.run( df, "What is the latest order date?", ) The latest date you can place an order is December 30th, 2018 at midnight.
Penjualan rata-rata tahunan.
pandas_ai.run( df, "year wise average sale", ) On average, the sales for each year were as follows: in 2015 it was $1493.03, in 2016 it was $1489.99, in 2017 it was $1496.68, and in 2018 it was $1502.87
Ubahlah menjadi grafik.
pandas_ai.run( df, "plot year wise average sale", )
Kesimpulan
Sangat mudah, bukan? Ini semua tentang penggunaan LLM dalam panda. Pada artikel ini, kami melakukan perbandingan singkat antara perpustakaan pandas dan pandas-ai. Ini akan menghemat banyak waktu selama manipulasi data dan tugas eksplorasi.
Catatan untuk Pembaca —Apakah Anda penggemar pemrograman, AI, atau pembelajaran mesin? Maka Anda akan menyukai blog saya di Medium! Saya rutin memposting topik ini dan berbagi wawasan saya tentang tren dan alat terkini dalam ilmu data. Jika menurut Anda konten saya bermanfaat, silakan sukai dan ikuti blog saya. Dan jika Anda ingin menunjukkan dukungan ekstra, Anda dapat memberikan tip dengan mengklik tombol di bawah. Terima kasih atas waktu dan dukungan Anda!