Публикации по теме 'pandas'


23 фрагмента Python Pandas, которые сэкономят вам время
Если вы хотите сэкономить время с кодом Python Pandas, ознакомьтесь с этими 23 фрагментами кода, которые помогут вам получить максимальную отдачу от ваших данных. Python стал самым популярным языком программирования в мире и очень универсален. Pandas — это библиотека Python, используемая для анализа данных. Он предлагает различные методы анализа данных и предоставляет высокоуровневый интерфейс для фреймов данных…

ML/Обучение с учителем/Классификация KNN [K-ближайших соседей]
Машинное обучение и анализ данных с помощью Python[18] Метод ближайшего соседа измеряет расстояние. Структура позади него — евклидово расстояние. import pandas as pd import matplotlib.pyplot as plt original_data=pd.read_csv("C:/Users/Şebnem\Desktop/tutorials/cancer_data.csv") data=original_data.copy() M=data[data["diagnosis"]=="M"] B=data[data["diagnosis"]=="B"]..

Объяснение внутреннего устройства панд
Объяснение модели данных pandas и ее преимуществ Введение pandas позволяет вам выбирать между различными типами массивов для представления данных вашего фрейма данных. Исторически сложилось так, что большинство фреймов данных поддерживаются массивами NumPy. Pandas 2.0 представила возможность использовать массивы PyArrow в качестве формата хранения. Кроме того, существует промежуточный слой между этими массивами и вашим фреймом данных, Block и BlockManager . Мы посмотрим,..

Панды получают чайники для чайников
Краткий обзор горячего кодирования с помощью Pandas в Python3 Введение: В этой статье мы познакомим вас с концепцией быстрого кодирования с использованием Pandas, популярной библиотеки обработки данных в Python. В частности, мы будем использовать функцию get_dummies() для создания фиктивных переменных для категориальных данных в файле bikeshare.csv…

Pandas для анализа текстовых данных: использование средства доступа str для очистки и обработки текстовых данных
Текстовые данные являются одним из наиболее распространенных типов данных, используемых в анализе данных и машинном обучении. Однако текстовые данные часто беспорядочны и требуют очистки и предварительной обработки, прежде чем их можно будет эффективно проанализировать. Pandas, мощная библиотека анализа данных на Python, предоставляет удобный метод доступа str, который помогает очищать текстовые данные и управлять ими.

Искусство очистки данных неправильного формата с помощью Pandas
Данные — это топливо, питающее двигатель машинного обучения. Таким образом, важно иметь чистые и отформатированные данные, прежде чем можно будет применять какие-либо алгоритмы машинного обучения. К счастью, Pandas, популярная библиотека с открытым исходным кодом для обработки и анализа данных, позволяет легко очищать данные от неправильных форматов. В этой статье мы обсудим процесс очистки данных неправильного формата с помощью Pandas. Первым шагом очистки данных является выявление..

Вопросы по теме 'pandas'

Изменение подмножества строк в кадре данных pandas
Предположим, у меня есть DataFrame pandas с двумя столбцами, A и B. Я хотел бы изменить этот DataFrame (или создать копию), чтобы B всегда был NaN, когда A равно 0. Как мне этого добиться? Я пробовал следующее df['A'==0]['B'] = np.nan и...
157480 просмотров
schedule 26.11.2023

как выполнить внутреннее или внешнее соединение DataFrames с Pandas по неупрощенному критерию
Учитывая два фрейма данных, как показано ниже: >>> import pandas as pd >>> df_a = pd.DataFrame([{"a": 1, "b": 4}, {"a": 2, "b": 5}, {"a": 3, "b": 6}]) >>> df_b = pd.DataFrame([{"c": 2, "d": 7}, {"c": 3, "d": 8}])...
12827 просмотров
schedule 26.11.2023

Создание сводной статистики из счетчиков трафика с временными метками
Я собираю информацию о трафике для особого случая использования, когда у меня есть ок. каждые 10 минут (но не точно) значение счетчика трафика с отметкой времени, например: 11:45 100 11:56 110 12:05 120 12:18 130 ... Это данные, которые у...
423 просмотров
schedule 14.12.2023

Синхронизация данных в Python (или Excel)
Я часто использую Python (и иногда Excel) для обработки и сравнения тестовых данных между несколькими экспериментами. В некоторых случаях данные могут быть не синхронизированы, что затрудняет прямое сравнение. Например, типичная спецификация теста...
1332 просмотров
schedule 04.01.2024

Как использовать объекты python pandas groupby или .DataFrameGroupBy для создания уникального списка комбинаций
Есть ли более эффективный способ использования объекта pandas groupby или pandas.core.groupby.DataFrameGroupBy для создания уникального списка, серии или фрейма данных, где мне нужны уникальные комбинации 2 из N столбцов. Например, если у меня есть...
2272 просмотров
schedule 26.12.2023

Преобразование pandas.tslib.Timestamp в datetime python
У меня есть временной ряд df . Я извлек индексы и хочу преобразовать их каждый в datetime . Как вы собираетесь это делать? Я пытался использовать pandas.to_datetime(x) , но он не преобразуется, когда я проверяю после использования type()
80358 просмотров
schedule 04.12.2023

Python pandas to_sql «добавить»
Я пытаюсь отправлять ежемесячные данные в базу данных MySQL, используя команду Python pandas to_sql. Моя программа запускает данные за один месяц, и я хочу добавить новые данные в существующую базу данных. Однако Python выдает мне ошибку:...
10634 просмотров
schedule 10.11.2023

Ошибка gcc во время сборки pandas на AWS Elastic Beanstalk
Получение следующей ошибки при попытке установить Pandas (0.16.0), которая находится в моем файле requirements.txt, на экземпляре AWS Elastic Beanstalk EC2: building 'pandas.msgpack' extension gcc -pthread -fno-strict-aliasing -O2 -g -pipe...
4876 просмотров

Ошибка при копировании составного объекта, состоящего в основном из pandas.DataFrame
Я пытаюсь использовать composition с pandas.DataFrame следующим образом, но при попытке скопировать объект возникают ошибки. import numpy as np import pandas as pd import copy class Foo(object): """ Foo is composed mostly of a...
653 просмотров
schedule 17.12.2023

Объединить столбцы и создать новый столбец с пандами
У меня есть кадр данных pandas со следующими столбцами: Наименование товара Количество товаров, проданных в Нью-Йорке (допустим, 100) Количество товаров, проданных в Калифорнии (допустим, 50) Выглядит так: Product New York...
790 просмотров
schedule 17.01.2024

Изменить значение, если в Pandas достигается последовательный номер определенного условия
Я бы изменил значение определенных значений DataFrame только в том случае, если определенное условие выполняется n количество раз подряд. Пример: df = pd.DataFrame(np.random.randn(15, 3)) df.iloc[4:8,0]=40 df.iloc[12,0]=-40...
1035 просмотров
schedule 02.01.2024

pandas hasnan () в серии выдает «TypeError: объект 'numpy.bool_' не вызывается
В моих тестах у меня есть метод check_nulls для проверки определенных столбцов на наличие нулей. def check_nulls(self, name, column_list): """ Ensure that the table given has no nulls in any of the listed columns @param name...
971 просмотров
schedule 03.01.2024

ValueError: установка элемента массива с последовательностью. для панд
У меня есть Pandas dataframe по имени output . Основная проблема заключается в том, что я хотел бы установить определенную строку, столбец в dataframe в список, используя функцию ix , и я получаю ValueError: setting an array element with a...
23955 просмотров
schedule 13.12.2023

Равенство Pandas DataFrame — нумерация индексов
Имеет ли значение нумерация индексов при проверке равенства кадров данных? У меня есть 2 идентичных фрейма данных с точно такими же данными и столбцами. Единственное отличие состоит в том, что номера индексов для каждой строки разные, и методы...
1844 просмотров
schedule 17.01.2024

Pandas: логическое индексирование с синтаксисом «элемент в списке»
Скажем, у меня есть DataFrame со столбцом с именем col1. Если я хочу получить все строки, где col1 == ‘a’, я могу сделать это с помощью: df[df.col1 == ‘a’] Если мне нужны строки, где col1 — это «a» или «b», я могу сделать: df[(df.col1 ==...
3218 просмотров
schedule 05.01.2024

Преобразование и создание столбцов во фрейме данных с использованием python
Я работаю над созданием скрипта Python, который вычисляет статистику d, используя данные из файла CSV, но данные в CSV необходимо манипулировать, чтобы можно было вычислить d. Мой вопрос: какой код мне нужно использовать для преобразования данных во...
59 просмотров
schedule 17.01.2024

Сортировать строки в столбце и печатать график
У меня есть кадр данных, но все строки дублируются, и когда я пытаюсь распечатать график, он содержит дублированный столбец. Я пытаюсь удалить его, но тогда мой график печатается неправильно. Мой csv находится здесь . Кадр данных common_users :...
123 просмотров
schedule 22.01.2024

Операции с кадром данных pandas между значениями определенных столбцов/строк
Новичок в пандах, я пытаюсь управлять некоторыми операциями с кадрами данных с пандами, где у меня есть 4 столбца в мультииндексном кадре данных и где мне нужен дополнительный столбец, где значение в этом столбце будет равно значению в одной строке,...
1476 просмотров
schedule 27.10.2023

python pandas groupby и вычитание столбцов из разных групп
У меня есть датафрейм df1 pid stat h1 h2 h3 h4 h5 h6 ... h20 1 a 3.2 3.5 6.2 7.1 1.2 2.3 ... 3.2 1 b 3.3 1.5 4.2 7.7 4.2...
799 просмотров
schedule 10.12.2023

Создавайте кадры данных из уникальных пар значений путем фильтрации по нескольким столбцам.
Я хочу фильтровать значения по нескольким столбцам, создавая кадры данных для уникальных комбинаций значений. Любая помощь будет оценена по достоинству. Вот мой код, который терпит неудачу (учитывая dataframe df): dd = defaultdict(dict)...
462 просмотров
schedule 10.12.2023