Публикации по теме 'pandas'
23 фрагмента Python Pandas, которые сэкономят вам время
Если вы хотите сэкономить время с кодом Python Pandas, ознакомьтесь с этими 23 фрагментами кода, которые помогут вам получить максимальную отдачу от ваших данных.
Python стал самым популярным языком программирования в мире и очень универсален. Pandas — это библиотека Python, используемая для анализа данных. Он предлагает различные методы анализа данных и предоставляет высокоуровневый интерфейс для фреймов данных…
ML/Обучение с учителем/Классификация KNN [K-ближайших соседей]
Машинное обучение и анализ данных с помощью Python[18]
Метод ближайшего соседа измеряет расстояние. Структура позади него — евклидово расстояние.
import pandas as pd
import matplotlib.pyplot as plt
original_data=pd.read_csv("C:/Users/Şebnem\Desktop/tutorials/cancer_data.csv")
data=original_data.copy()
M=data[data["diagnosis"]=="M"]
B=data[data["diagnosis"]=="B"]..
Объяснение внутреннего устройства панд
Объяснение модели данных pandas и ее преимуществ
Введение
pandas позволяет вам выбирать между различными типами массивов для представления данных вашего фрейма данных. Исторически сложилось так, что большинство фреймов данных поддерживаются массивами NumPy. Pandas 2.0 представила возможность использовать массивы PyArrow в качестве формата хранения. Кроме того, существует промежуточный слой между этими массивами и вашим фреймом данных, Block и BlockManager . Мы посмотрим,..
Панды получают чайники для чайников
Краткий обзор горячего кодирования с помощью Pandas в Python3
Введение:
В этой статье мы познакомим вас с концепцией быстрого кодирования с использованием Pandas, популярной библиотеки обработки данных в Python. В частности, мы будем использовать функцию get_dummies() для создания фиктивных переменных для категориальных данных в файле bikeshare.csv…
Pandas для анализа текстовых данных: использование средства доступа str для очистки и обработки текстовых данных
Текстовые данные являются одним из наиболее распространенных типов данных, используемых в анализе данных и машинном обучении. Однако текстовые данные часто беспорядочны и требуют очистки и предварительной обработки, прежде чем их можно будет эффективно проанализировать. Pandas, мощная библиотека анализа данных на Python, предоставляет удобный метод доступа str, который помогает очищать текстовые данные и управлять ими.
Искусство очистки данных неправильного формата с помощью Pandas
Данные — это топливо, питающее двигатель машинного обучения. Таким образом, важно иметь чистые и отформатированные данные, прежде чем можно будет применять какие-либо алгоритмы машинного обучения. К счастью, Pandas, популярная библиотека с открытым исходным кодом для обработки и анализа данных, позволяет легко очищать данные от неправильных форматов. В этой статье мы обсудим процесс очистки данных неправильного формата с помощью Pandas.
Первым шагом очистки данных является выявление..
Вопросы по теме 'pandas'
Изменение подмножества строк в кадре данных pandas
Предположим, у меня есть DataFrame pandas с двумя столбцами, A и B. Я хотел бы изменить этот DataFrame (или создать копию), чтобы B всегда был NaN, когда A равно 0. Как мне этого добиться?
Я пробовал следующее
df['A'==0]['B'] = np.nan
и...
157480 просмотров
schedule
26.11.2023
как выполнить внутреннее или внешнее соединение DataFrames с Pandas по неупрощенному критерию
Учитывая два фрейма данных, как показано ниже:
>>> import pandas as pd
>>> df_a = pd.DataFrame([{"a": 1, "b": 4}, {"a": 2, "b": 5}, {"a": 3, "b": 6}])
>>> df_b = pd.DataFrame([{"c": 2, "d": 7}, {"c": 3, "d": 8}])...
12827 просмотров
schedule
26.11.2023
Создание сводной статистики из счетчиков трафика с временными метками
Я собираю информацию о трафике для особого случая использования, когда у меня есть ок. каждые 10 минут (но не точно) значение счетчика трафика с отметкой времени, например:
11:45 100
11:56 110
12:05 120
12:18 130
...
Это данные, которые у...
423 просмотров
schedule
14.12.2023
Синхронизация данных в Python (или Excel)
Я часто использую Python (и иногда Excel) для обработки и сравнения тестовых данных между несколькими экспериментами. В некоторых случаях данные могут быть не синхронизированы, что затрудняет прямое сравнение. Например, типичная спецификация теста...
1332 просмотров
schedule
04.01.2024
Как использовать объекты python pandas groupby или .DataFrameGroupBy для создания уникального списка комбинаций
Есть ли более эффективный способ использования объекта pandas groupby или pandas.core.groupby.DataFrameGroupBy для создания уникального списка, серии или фрейма данных, где мне нужны уникальные комбинации 2 из N столбцов. Например, если у меня есть...
2272 просмотров
schedule
26.12.2023
Преобразование pandas.tslib.Timestamp в datetime python
У меня есть временной ряд df . Я извлек индексы и хочу преобразовать их каждый в datetime . Как вы собираетесь это делать? Я пытался использовать pandas.to_datetime(x) , но он не преобразуется, когда я проверяю после использования type()
80358 просмотров
schedule
04.12.2023
Python pandas to_sql «добавить»
Я пытаюсь отправлять ежемесячные данные в базу данных MySQL, используя команду Python pandas to_sql. Моя программа запускает данные за один месяц, и я хочу добавить новые данные в существующую базу данных. Однако Python выдает мне ошибку:...
10634 просмотров
schedule
10.11.2023
Ошибка gcc во время сборки pandas на AWS Elastic Beanstalk
Получение следующей ошибки при попытке установить Pandas (0.16.0), которая находится в моем файле requirements.txt, на экземпляре AWS Elastic Beanstalk EC2:
building 'pandas.msgpack' extension
gcc -pthread -fno-strict-aliasing -O2 -g -pipe...
4876 просмотров
schedule
01.01.2024
Ошибка при копировании составного объекта, состоящего в основном из pandas.DataFrame
Я пытаюсь использовать composition с pandas.DataFrame следующим образом, но при попытке скопировать объект возникают ошибки.
import numpy as np
import pandas as pd
import copy
class Foo(object):
"""
Foo is composed mostly of a...
653 просмотров
schedule
17.12.2023
Объединить столбцы и создать новый столбец с пандами
У меня есть кадр данных pandas со следующими столбцами:
Наименование товара
Количество товаров, проданных в Нью-Йорке (допустим, 100)
Количество товаров, проданных в Калифорнии (допустим, 50)
Выглядит так:
Product New York...
790 просмотров
schedule
17.01.2024
Изменить значение, если в Pandas достигается последовательный номер определенного условия
Я бы изменил значение определенных значений DataFrame только в том случае, если определенное условие выполняется n количество раз подряд.
Пример:
df = pd.DataFrame(np.random.randn(15, 3))
df.iloc[4:8,0]=40
df.iloc[12,0]=-40...
1035 просмотров
schedule
02.01.2024
pandas hasnan () в серии выдает «TypeError: объект 'numpy.bool_' не вызывается
В моих тестах у меня есть метод check_nulls для проверки определенных столбцов на наличие нулей.
def check_nulls(self, name, column_list):
""" Ensure that the table given has no nulls in any of the listed columns
@param name...
971 просмотров
schedule
03.01.2024
ValueError: установка элемента массива с последовательностью. для панд
У меня есть Pandas dataframe по имени output . Основная проблема заключается в том, что я хотел бы установить определенную строку, столбец в dataframe в список, используя функцию ix , и я получаю ValueError: setting an array element with a...
23955 просмотров
schedule
13.12.2023
Равенство Pandas DataFrame — нумерация индексов
Имеет ли значение нумерация индексов при проверке равенства кадров данных? У меня есть 2 идентичных фрейма данных с точно такими же данными и столбцами. Единственное отличие состоит в том, что номера индексов для каждой строки разные, и методы...
1844 просмотров
schedule
17.01.2024
Pandas: логическое индексирование с синтаксисом «элемент в списке»
Скажем, у меня есть DataFrame со столбцом с именем col1. Если я хочу получить все строки, где col1 == ‘a’, я могу сделать это с помощью:
df[df.col1 == ‘a’]
Если мне нужны строки, где col1 — это «a» или «b», я могу сделать:
df[(df.col1 ==...
3218 просмотров
schedule
05.01.2024
Преобразование и создание столбцов во фрейме данных с использованием python
Я работаю над созданием скрипта Python, который вычисляет статистику d, используя данные из файла CSV, но данные в CSV необходимо манипулировать, чтобы можно было вычислить d. Мой вопрос: какой код мне нужно использовать для преобразования данных во...
59 просмотров
schedule
17.01.2024
Сортировать строки в столбце и печатать график
У меня есть кадр данных, но все строки дублируются, и когда я пытаюсь распечатать график, он содержит дублированный столбец. Я пытаюсь удалить его, но тогда мой график печатается неправильно. Мой csv находится здесь .
Кадр данных common_users :...
123 просмотров
schedule
22.01.2024
Операции с кадром данных pandas между значениями определенных столбцов/строк
Новичок в пандах, я пытаюсь управлять некоторыми операциями с кадрами данных с пандами, где у меня есть 4 столбца в мультииндексном кадре данных и где мне нужен дополнительный столбец, где значение в этом столбце будет равно значению в одной строке,...
1476 просмотров
schedule
27.10.2023
python pandas groupby и вычитание столбцов из разных групп
У меня есть датафрейм df1
pid stat h1 h2 h3 h4 h5 h6 ... h20
1 a 3.2 3.5 6.2 7.1 1.2 2.3 ... 3.2
1 b 3.3 1.5 4.2 7.7 4.2...
799 просмотров
schedule
10.12.2023
Создавайте кадры данных из уникальных пар значений путем фильтрации по нескольким столбцам.
Я хочу фильтровать значения по нескольким столбцам, создавая кадры данных для уникальных комбинаций значений. Любая помощь будет оценена по достоинству.
Вот мой код, который терпит неудачу (учитывая dataframe df):
dd = defaultdict(dict)...
462 просмотров
schedule
10.12.2023