Публикации по теме 'scikit-learn'


Как обрабатывать категориальные значения в науке о данных
В процессе построения модели машинного обучения предварительная обработка данных является одним из наиболее важных этапов. Обработка категориальных значений играет здесь важную роль. Категориальные переменные — это переменные, представляющие различные категории, такие как пол, цвет или тип продукта. В машинном обучении большинству алгоритмов требуется числовой ввод, а это означает, что категориальные переменные должны быть преобразованы в числовую форму, прежде чем их можно будет..

Учимся на наших ошибках 📈
Учимся на наших ошибках 📈 Как Python, scikit-learn, Logistic Regression и Looker объединились, чтобы помочь нашим менеджерам по продажам найти «иголку в стоге сена». Это небольшая статья, предназначенная как для аналитиков продаж, так и для практиков, которые, возможно, хотят изучить потенциальное использование машинного обучения в своих рабочих процессах. Здесь вы найдете фрагменты кода, примеры и уроки, которые я извлек из внедрения модели классификации в наши процессы продаж,..

Scikit Learn (для начинающих) - Часть 2
Это вторая часть серии Scikit-learn, которая выглядит следующим образом: Часть 1 - Введение Часть 2 - Обучение с учителем в Scikit-Learn (эта статья) Часть 3 - Обучение без учителя в Scikit-Learn Ссылка на первую часть: https://medium.com/@deepanshugaur1998/scikit-learn-part-1-introduction-fa05b19b76f1 Ссылка на третью часть: https://medium.com/@deepanshugaur1998/scikit-learn-beginners-part-3-6fb05798acb1 Обучение с учителем в Scikit-Learn И снова здравствуйте ! Резюме к..

Вопросы по теме 'scikit-learn'

OneHotEncoder со строковыми категориальными значениями
У меня есть следующая матрица numpy: M = [ ['a', 5, 0.2, ''], ['a', 2, 1.3, 'as'], ['b', 1, 2.3, 'as'], ] M = np.array(M) Я хочу закодировать категориальные значения ( 'a', 'b', '', 'as' ). Я попытался закодировать его с помощью...
8653 просмотров
schedule 21.12.2023

Как спроецировать новую точку на новую основу, используя атрибут 'components_' PCA из пакета sklearn.decomposition?
У меня есть некоторые точки данных с 3 координатами, и с помощью функции PCA я преобразовал их в точки, имеющие 2 координаты, сделав это. import numpy as np from sklearn.decomposition import PCA X = np.array([[-1, -1, -3], [-2, -1, -1], [-3, -2,...
476 просмотров
schedule 10.12.2023

Как использовать adaboost с другим базовым оценщиком в scikit-learn?
Я хочу использовать adaboost с несколькими базовыми оценщиками для регрессии в обучении scikit, но я не нахожу ни одного класса, который может это сделать. Есть ли способ сделать это, кроме изменения исходного кода?
14014 просмотров

Проблема с памятью LabelEncoder() scikit-learn
У меня есть train pandas df с 20 миллионами строк и test pandas df с примерно 10 миллионами строк. В обоих df есть столбцы, к которым я хочу применить LabelEncoder(), но я продолжаю получать Memory Error на своем ноутбуке и даже на экземпляре...
382 просмотров
schedule 16.11.2023

Sklearn - GridSearchCV с v_measure_score НЕ то же самое
Я пытаюсь использовать GridSearchCV с v_measure_score и сравнить результат с другим методом БЕЗ GridSearchCV . Наилучший показатель v_measure_score по циклу for составляет 0,69816019299 с процентилем 27 ; лучший показатель GridSearchCV...
145 просмотров
schedule 09.01.2024

Как выполнить F-тест для сравнения вложенных линейных моделей в Python?
Я хочу сравнить две вложенные линейные модели, назовем их m01 и m02, где m01 — сокращенная модель, а m02 — полная модель. Я хочу провести простой F-тест, чтобы увидеть, добавляет ли полная модель значительную полезность по сравнению с сокращенной...
6382 просмотров

Мини-пакетное обучение классификатора scikit-learn, где я предоставляю мини-пакеты
У меня очень большой набор данных, который не может быть загружен в память. Я хочу использовать этот набор данных в качестве обучающего набора классификатора scikit-learn - например, LogisticRegression . Есть ли возможность выполнить...
8475 просмотров
schedule 24.12.2023

Использование LabelEncoder sklearn в столбце фрейма данных
Если у меня есть фрейм данных, скажем, df, и если df["levels"] = pd.Series(["low", "low", "med", "low", "med", "high"]) Есть ли способ изменить это на: df["levels"] = pd.Series([0,0,1,0,1,2]) Я пробовал использовать...
1192 просмотров
schedule 03.12.2023

sk-learn: ошибка fit() принимает 2 позиционных аргумента, но 3 были заданы в FeatureUnion
Я использовал sk-learn в python для подбора моделей и преобразования input_data через модели. Я использую FeatureUnion для объединения CountVectorizer и TfidfEmbeddingVectorizer. Можно использовать только CountVectorizer или только...
1893 просмотров
schedule 30.10.2023

Получение очень низкой точности при обучении набора данных по словарю слов для сентиментального анализа
Я загрузил .txt, который содержит 1000 слов, где каждому слову присвоена метка, указывающая на положительное или отрицательное значение. Чем меньше значение, тем больше положительных эмоций оно представляет. Это выглядит как :- bad,-1 sucks,-2...
56 просмотров

Нахождение среднеквадратичной ошибки для линейной регрессии в python (с обучением scikit)
Я пытаюсь выполнить простую линейную регрессию в python, где переменная x — это количество слов в описании проекта, а значение y — скорость финансирования в днях. Я немного смущен, так как среднеквадратическая ошибка (RMSE) составляет 13,77 для...
6512 просмотров

sklearn категориальная кластеризация данных
Я использую функцию sklearn и агломеративной кластеризации. У меня смешанные данные, которые включают как числовые, так и номинальные столбцы данных. В моих номинальных столбцах есть такие значения, как «Утро», «После полудня», «Вечер», «Ночь»....
13002 просмотров
schedule 31.10.2023

Scikit-learn с расчетом различных результатов
Я использовал sudo apt-get install python-numpy python-scipy python-matplotlib python-sklearn для установки scikit-learn на rPi3, но была применена старая версия! Эта установленная старая версия (v. 0.18) давала выходные результаты, полностью...
34 просмотров
schedule 14.12.2023

Как извлечь данные в строках на основе значений нескольких столбцов?
Я хочу извлечь данные из строк на основе значений нескольких столбцов, и мой код не работает. Я хочу создать новый набор данных только с теми строками, которые удовлетворяют условиям на основе значений столбцов. Например. I10.I15=1 и C03=1 и...
219 просмотров

Сортировка метки K-средних от низкого к высокому на основе данных
У меня есть ряд данных "давление". Я выполнил 3 кластера K-средних с помощью scikit. Мне нужна метка, которая назначает кластер каждого данных для сортировки от низкого к высокому, поэтому значения «низкого давления» имеют более низкую метку (0), а...
50 просмотров

XGBoost получает важность функции в виде списка столбцов вместо графика
Мне интересно, можем ли вы получить важность функции в виде списка столбцов вместо графика. Это то, что у меня есть xg_reg = xgb.train(params=params, dtrain=data_dmatrix, num_boost_round=10) import matplotlib.pyplot as plt...
50 просмотров
schedule 14.01.2024

Обязательно ли устанавливать значение загрязнения для изолированного леса в Python?
Я собираюсь построить модель для выявления аномалий в моем наборе данных. Я много исследовал и выяснил, что изоляционный лес лучше всего подходит для этого. В моем наборе данных у меня нет меток (это означает, что набор данных содержит только...
866 просмотров

Повышение точности SVM с линейным ядром
Я использую машины опорных векторов (SVM) с «линейным» ядром для мультиклассификации. Однако точность очень низкая. Можно ли повысить точность? import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np from...
144 просмотров
schedule 30.12.2023

вычисление ROC AUC со случайным лесом
Я использую классификатор случайного леса в задаче с несколькими классами. rf = RandomForestClassifier(() rf.fit(train_X, train_y) А затем для предсказания: pred = rf.predict(test_X) Итак, я хочу вычислить roc_auc_score так:...
27 просмотров
schedule 29.12.2023