Введение
Если вы работаете или работали над какой-либо задачей по науке о данных, то вы определенно использовали pandas. Итак, pandas — это библиотека, которая помогает выполнять прием и преобразование данных.
Код Панды
Для этого примера я взял набор данных о продажах в супермаркетах, который содержит информацию о продуктах, продажах, скидках, прибыли и т. д.
Импорт набора данных
df = pd.read_csv('./sample_data/Supermart Grocery Sales - Retail Analytics Dataset.csv')
Список столбцов
df.columns Index(['Order ID', 'Customer Name', 'Category', 'Sub Category', 'City', 'Order Date', 'Region', 'Sales', 'Discount', 'Profit', 'State'], dtype='object')
Получите информацию о дате заказа, например, первую и последнюю дату
df['Order Date'].describe() count 9994 mean 2017-04-30 05:17:08.056834048 min 2015-01-03 00:00:00 25% 2016-05-23 00:00:00 50% 2017-06-26 00:00:00 75% 2018-05-14 00:00:00 max 2018-12-30 00:00:00 Name: Order Date, dtype: object
Средний объем продаж в год
df['year'] = df['Order Date'].apply(lambda x: x.year) df.groupby('year')['Sales'].mean() year 2015 1493.025088 2016 1489.990010 2017 1496.680325 2018 1502.871981 Name: Sales, dtype: float64
Все эти простые исследования требовали от вас написания некоторого кода и некоторой очистки, чтобы получить желаемый результат.
Панды ИИ
Представляем новую библиотеку для использования панд с использованием только естественного языка с помощью LLM. Вот ссылка на гитхаб.
Теперь давайте попробуем.
from pandasai.llm.openai import OpenAI llm = OpenAI("OPENAI_API_KEY") pandas_ai = PandasAI(llm)
Дата первого заказа.
pandas_ai.run( df, "What is the first order date?", ) The first order date was on January 3rd, 2015 at midnight.
Дата последнего заказа.
pandas_ai.run( df, "What is the latest order date?", ) The latest date you can place an order is December 30th, 2018 at midnight.
Среднегодовой объем продаж.
pandas_ai.run( df, "year wise average sale", ) On average, the sales for each year were as follows: in 2015 it was $1493.03, in 2016 it was $1489.99, in 2017 it was $1496.68, and in 2018 it was $1502.87
Превратите его в график.
pandas_ai.run( df, "plot year wise average sale", )
Заключение
Супер легко, правда? Это было все об использовании LLM в пандах. В этой статье мы провели быстрое сравнение библиотек pandas и pandas-ai. Это сэкономит много времени при обработке данных и задачах исследования.
Примечание для читателей.Вы увлекаетесь программированием, искусственным интеллектом или машинным обучением? Тогда вам понравится мой блог на Medium! Я регулярно публикую публикации на эти темы и делюсь своим мнением о последних тенденциях и инструментах в науке о данных. Если вы найдете мой контент полезным, ставьте лайк и следите за моим блогом. И если вы хотите оказать дополнительную поддержку, вы можете дать чаевые, нажав кнопку ниже. Спасибо за ваше время и поддержку!