Введение

Если вы работаете или работали над какой-либо задачей по науке о данных, то вы определенно использовали pandas. Итак, pandas — это библиотека, которая помогает выполнять прием и преобразование данных.

Код Панды

Для этого примера я взял набор данных о продажах в супермаркетах, который содержит информацию о продуктах, продажах, скидках, прибыли и т. д.

Импорт набора данных

df = pd.read_csv('./sample_data/Supermart Grocery Sales - Retail Analytics Dataset.csv')

Список столбцов

df.columns
Index(['Order ID', 'Customer Name', 'Category', 'Sub Category', 'City',
       'Order Date', 'Region', 'Sales', 'Discount', 'Profit', 'State'],
      dtype='object')

Получите информацию о дате заказа, например, первую и последнюю дату

df['Order Date'].describe()
count                             9994
mean     2017-04-30 05:17:08.056834048
min                2015-01-03 00:00:00
25%                2016-05-23 00:00:00
50%                2017-06-26 00:00:00
75%                2018-05-14 00:00:00
max                2018-12-30 00:00:00
Name: Order Date, dtype: object

Средний объем продаж в год

df['year'] = df['Order Date'].apply(lambda x: x.year)
df.groupby('year')['Sales'].mean()
year
2015    1493.025088
2016    1489.990010
2017    1496.680325
2018    1502.871981
Name: Sales, dtype: float64

Все эти простые исследования требовали от вас написания некоторого кода и некоторой очистки, чтобы получить желаемый результат.

Панды ИИ

Представляем новую библиотеку для использования панд с использованием только естественного языка с помощью LLM. Вот ссылка на гитхаб.

Теперь давайте попробуем.

from pandasai.llm.openai import OpenAI
llm = OpenAI("OPENAI_API_KEY")
pandas_ai = PandasAI(llm)

Дата первого заказа.

pandas_ai.run(
    df,
    "What is the first order date?",
)
The first order date was on January 3rd, 2015 at midnight.

Дата последнего заказа.

pandas_ai.run(
    df,
    "What is the latest order date?",
)
The latest date you can place an order is December 30th, 2018 at midnight.

Среднегодовой объем продаж.

pandas_ai.run(
    df,
    "year wise average sale",
)
On average, the sales for each year were as follows: 
in 2015 it was $1493.03, 
in 2016 it was $1489.99, 
in 2017 it was $1496.68, 
and in 2018 it was $1502.87

Превратите его в график.

pandas_ai.run(
    df,
    "plot year wise average sale",
)

Заключение

Супер легко, правда? Это было все об использовании LLM в пандах. В этой статье мы провели быстрое сравнение библиотек pandas и pandas-ai. Это сэкономит много времени при обработке данных и задачах исследования.

Примечание для читателей.Вы увлекаетесь программированием, искусственным интеллектом или машинным обучением? Тогда вам понравится мой блог на Medium! Я регулярно публикую публикации на эти темы и делюсь своим мнением о последних тенденциях и инструментах в науке о данных. Если вы найдете мой контент полезным, ставьте лайк и следите за моим блогом. И если вы хотите оказать дополнительную поддержку, вы можете дать чаевые, нажав кнопку ниже. Спасибо за ваше время и поддержку!

лист ожидания. СТАНЬТЕ ПИСАТЕЛЕМ на MLearning.ai. Твоя машина, Твой ИИ