Публикации по тегам scikit-learn

Публикации по теме 'scikit-learn'

Как обрабатывать категориальные значения в науке о данных

В процессе построения модели машинного обучения предварительная обработка данных является одним из наиболее важных этапов. Обработка категориальных значений играет здесь важную роль. Категориальные переменные — это переменные, представляющие различные категории, такие как пол, цвет или тип продукта. В машинном обучении большинству алгоритмов требуется числовой ввод, а это означает, что категориальные переменные должны быть преобразованы в числовую форму, прежде чем их можно будет..

Учимся на наших ошибках 📈

Учимся на наших ошибках 📈 Как Python, scikit-learn, Logistic Regression и Looker объединились, чтобы помочь нашим менеджерам по продажам найти «иголку в стоге сена». Это небольшая статья, предназначенная как для аналитиков продаж, так и для практиков, которые, возможно, хотят изучить потенциальное использование машинного обучения в своих рабочих процессах. Здесь вы найдете фрагменты кода, примеры и уроки, которые я извлек из внедрения модели классификации в наши процессы продаж,..

Scikit Learn (для начинающих) - Часть 2

Это вторая часть серии Scikit-learn, которая выглядит следующим образом: Часть 1 - Введение Часть 2 - Обучение с учителем в Scikit-Learn (эта статья) Часть 3 - Обучение без учителя в Scikit-Learn Ссылка на первую часть: https://medium.com/@deepanshugaur1998/scikit-learn-part-1-introduction-fa05b19b76f1 Ссылка на третью часть: https://medium.com/@deepanshugaur1998/scikit-learn-beginners-part-3-6fb05798acb1 Обучение с учителем в Scikit-Learn И снова здравствуйте ! Резюме к..

Вопросы по теме 'scikit-learn'

OneHotEncoder со строковыми категориальными значениями

У меня есть следующая матрица numpy: M = [ ['a', 5, 0.2, ''], ['a', 2, 1.3, 'as'], ['b', 1, 2.3, 'as'], ] M = np.array(M) Я хочу закодировать категориальные значения ( 'a', 'b', '', 'as' ). Я попытался закодировать его с помощью...

8653 просмотров

python scikit-learn

21.12.2023

Как спроецировать новую точку на новую основу, используя атрибут 'components_' PCA из пакета sklearn.decomposition?

У меня есть некоторые точки данных с 3 координатами, и с помощью функции PCA я преобразовал их в точки, имеющие 2 координаты, сделав это. import numpy as np from sklearn.decomposition import PCA X = np.array([[-1, -1, -3], [-2, -1, -1], [-3, -2,...

476 просмотров

scikit-learn

10.12.2023

Как использовать adaboost с другим базовым оценщиком в scikit-learn?

Я хочу использовать adaboost с несколькими базовыми оценщиками для регрессии в обучении scikit, но я не нахожу ни одного класса, который может это сделать. Есть ли способ сделать это, кроме изменения исходного кода?

14014 просмотров

python machine-learning scikit-learn ensemble-learning adaboost

02.12.2023

Проблема с памятью LabelEncoder() scikit-learn

У меня есть train pandas df с 20 миллионами строк и test pandas df с примерно 10 миллионами строк. В обоих df есть столбцы, к которым я хочу применить LabelEncoder(), но я продолжаю получать Memory Error на своем ноутбуке и даже на экземпляре...

382 просмотров

python pandas scikit-learn

16.11.2023

Sklearn - GridSearchCV с v_measure_score НЕ то же самое

Я пытаюсь использовать GridSearchCV с v_measure_score и сравнить результат с другим методом БЕЗ GridSearchCV . Наилучший показатель v_measure_score по циклу for составляет 0,69816019299 с процентилем 27 ; лучший показатель GridSearchCV...

145 просмотров

scikit-learn grid-search

09.01.2024

Как выполнить F-тест для сравнения вложенных линейных моделей в Python?

Я хочу сравнить две вложенные линейные модели, назовем их m01 и m02, где m01 — сокращенная модель, а m02 — полная модель. Я хочу провести простой F-тест, чтобы увидеть, добавляет ли полная модель значительную полезность по сравнению с сокращенной...

6382 просмотров

python statsmodels scikit-learn linear-regression

24.10.2023

Мини-пакетное обучение классификатора scikit-learn, где я предоставляю мини-пакеты

У меня очень большой набор данных, который не может быть загружен в память. Я хочу использовать этот набор данных в качестве обучающего набора классификатора scikit-learn - например, LogisticRegression . Есть ли возможность выполнить...

8475 просмотров

python bigdata scikit-learn

24.12.2023

Использование LabelEncoder sklearn в столбце фрейма данных

Если у меня есть фрейм данных, скажем, df, и если df["levels"] = pd.Series(["low", "low", "med", "low", "med", "high"]) Есть ли способ изменить это на: df["levels"] = pd.Series([0,0,1,0,1,2]) Я пробовал использовать...

1192 просмотров

python pandas scikit-learn data-mining

03.12.2023

sk-learn: ошибка fit() принимает 2 позиционных аргумента, но 3 были заданы в FeatureUnion

Я использовал sk-learn в python для подбора моделей и преобразования input_data через модели. Я использую FeatureUnion для объединения CountVectorizer и TfidfEmbeddingVectorizer. Можно использовать только CountVectorizer или только...

1893 просмотров

scikit-learn

30.10.2023

Получение очень низкой точности при обучении набора данных по словарю слов для сентиментального анализа

Я загрузил .txt, который содержит 1000 слов, где каждому слову присвоена метка, указывающая на положительное или отрицательное значение. Чем меньше значение, тем больше положительных эмоций оно представляет. Это выглядит как :- bad,-1 sucks,-2...

56 просмотров

python machine-learning sentiment-analysis scikit-learn

17.12.2023

Нахождение среднеквадратичной ошибки для линейной регрессии в python (с обучением scikit)

Я пытаюсь выполнить простую линейную регрессию в python, где переменная x — это количество слов в описании проекта, а значение y — скорость финансирования в днях. Я немного смущен, так как среднеквадратическая ошибка (RMSE) составляет 13,77 для...

6512 просмотров

python scikit-learn linear-regression mse

07.11.2023

sklearn категориальная кластеризация данных

Я использую функцию sklearn и агломеративной кластеризации. У меня смешанные данные, которые включают как числовые, так и номинальные столбцы данных. В моих номинальных столбцах есть такие значения, как «Утро», «После полудня», «Вечер», «Ночь»....

13002 просмотров

python cluster-analysis scikit-learn

31.10.2023

Scikit-learn с расчетом различных результатов

Я использовал sudo apt-get install python-numpy python-scipy python-matplotlib python-sklearn для установки scikit-learn на rPi3, но была применена старая версия! Эта установленная старая версия (v. 0.18) давала выходные результаты, полностью...

34 просмотров

python scikit-learn

14.12.2023

Как извлечь данные в строках на основе значений нескольких столбцов?

Я хочу извлечь данные из строк на основе значений нескольких столбцов, и мой код не работает. Я хочу создать новый набор данных только с теми строками, которые удовлетворяют условиям на основе значений столбцов. Например. I10.I15=1 и C03=1 и...

219 просмотров

python rows extract scikit-learn multiple-columns

01.12.2023

Сортировка метки K-средних от низкого к высокому на основе данных

У меня есть ряд данных "давление". Я выполнил 3 кластера K-средних с помощью scikit. Мне нужна метка, которая назначает кластер каждого данных для сортировки от низкого к высокому, поэтому значения «низкого давления» имеют более низкую метку (0), а...

50 просмотров

python cluster-analysis scikit-learn k-means

28.10.2023

XGBoost получает важность функции в виде списка столбцов вместо графика

Мне интересно, можем ли вы получить важность функции в виде списка столбцов вместо графика. Это то, что у меня есть xg_reg = xgb.train(params=params, dtrain=data_dmatrix, num_boost_round=10) import matplotlib.pyplot as plt...

50 просмотров

machine-learning scikit-learn xgboost

14.01.2024

Обязательно ли устанавливать значение загрязнения для изолированного леса в Python?

Я собираюсь построить модель для выявления аномалий в моем наборе данных. Я много исследовал и выяснил, что изоляционный лес лучше всего подходит для этого. В моем наборе данных у меня нет меток (это означает, что набор данных содержит только...

866 просмотров

python scikit-learn outliers anomaly-detection

21.12.2023

Повышение точности SVM с линейным ядром

Я использую машины опорных векторов (SVM) с «линейным» ядром для мультиклассификации. Однако точность очень низкая. Можно ли повысить точность? import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np from...

144 просмотров

python machine-learning scikit-learn svm

30.12.2023

вычисление ROC AUC со случайным лесом

Я использую классификатор случайного леса в задаче с несколькими классами. rf = RandomForestClassifier(() rf.fit(train_X, train_y) А затем для предсказания: pred = rf.predict(test_X) Итак, я хочу вычислить roc_auc_score так:...

27 просмотров

scikit-learn random-forest roc auc

29.12.2023