Publikasi tentang topik tersebut 'scikit-learn'
Bagaimana menangani Nilai Kategoris dalam Ilmu Data
Dalam proses pembuatan model pembelajaran mesin, pra-pemrosesan data adalah salah satu langkah paling penting. Menangani nilai-nilai kategoris memainkan peran utama di sana.
Variabel kategori adalah variabel yang mewakili berbagai kategori, seperti jenis kelamin, warna kulit, atau jenis produk. Dalam pembelajaran mesin, sebagian besar algoritme memerlukan masukan numerik, yang berarti variabel kategori harus diubah menjadi bentuk numerik sebelum dapat digunakan sebagai masukan ke..
Belajar Dari Kesalahan Kita π
Belajar Dari Kesalahan Kita π
Bagaimana Python, scikit-learn, Regresi Logistik, dan Looker bersatu untuk membantu manajer penjualan kami menemukan 'jarum di tumpukan jerami'.
Ini adalah artikel pendek yang ditujukan untuk analis dan praktisi penjualan yang mungkin ingin mengeksplorasi potensi penggunaan ML dalam alur kerja mereka. Ada cuplikan kode, contoh, dan pelajaran yang saya pelajari dari menyematkan model klasifikasi ke dalam proses penjualan kami di sini Qubit .
Konteks..
Scikit Learn (Pemula) β Bagian 2
Ini adalah bagian kedua dari seri Scikit-learn, yaitu sebagai berikut:
Bagian 1 β Pendahuluan Bagian 2 β Pembelajaran yang Diawasi di Scikit-Learn (artikel ini) Bagian 3 β Pembelajaran Tanpa Pengawasan di Scikit-Learn
Tautan ke bagian satu : https://medium.com/@deepanshugaur1998/scikit-learn-part-1-introduction-fa05b19b76f1
Tautan ke bagian ketiga : https://medium.com/@deepanshugaur1998/scikit-learn-beginners-part-3-6fb05798acb1
Pembelajaran yang Diawasi Dalam Scikit-Learn..
Pertanyaan tentang topik tersebut 'scikit-learn'
OneHotEncoder dengan nilai kategoris string
Saya memiliki matriks numpy berikut:
M = [
['a', 5, 0.2, ''],
['a', 2, 1.3, 'as'],
['b', 1, 2.3, 'as'],
]
M = np.array(M)
Saya ingin menyandikan nilai kategorikal ( 'a', 'b', '', 'as' ). Saya mencoba menyandikannya menggunakan...
8653 dilihat
schedule
21.12.2023
Bagaimana cara memproyeksikan titik baru ke basis baru menggunakan atribut 'components_' PCA dari paket sklearn.decomposition?
Saya memiliki beberapa titik data dengan 3 koordinat dan menggunakan fungsi PCA saya mengubahnya menjadi titik yang memiliki 2 koordinat dengan melakukan ini
import numpy as np
from sklearn.decomposition import PCA
X = np.array([[-1, -1, -3], [-2,...
476 dilihat
schedule
10.12.2023
Bagaimana cara menggunakan adaboost dengan estimator dasar yang berbeda di scikit-learn?
Saya ingin menggunakan adaboost dengan beberapa estimator dasar untuk regresi dalam pembelajaran scikit, tetapi saya tidak menemukan kelas mana pun yang dapat melakukannya. Apakah ada cara untuk melakukan hal ini selain mengubah kode sumber?
14014 dilihat
schedule
02.12.2023
masalah memori LabelEncoder() scikit-learn
Saya memiliki train pandas df dengan 20 juta baris dan test pandas df dengan sekitar 10 juta baris.
Ada kolom di kedua df yang ingin saya terapkan LabelEncoder(), tetapi saya terus mendapatkan Memory Error di laptop saya dan bahkan pada...
382 dilihat
schedule
16.11.2023
Sklearn - GridSearchCV dengan v_measure_score TIDAK sama
Saya mencoba menggunakan GridSearchCV dengan v_measure_score dan membandingkan hasilnya dengan metode lain TANPA GridSearchCV .
Skor terbaik v_measure_score menurut for-loop adalah 0,69816019299 dengan persentil 27 ; skor terbaik...
145 dilihat
schedule
09.01.2024
Bagaimana cara melakukan uji F untuk membandingkan model linier bersarang dengan Python?
Saya ingin membandingkan dua model linier bersarang, sebut saja m01, dan m02 dengan m01 adalah model tereduksi dan m02 adalah model lengkap. Saya ingin melakukan uji F sederhana untuk melihat apakah model lengkap menambahkan utilitas yang signifikan...
6382 dilihat
schedule
24.10.2023
Pelatihan batch mini dari pengklasifikasi scikit-learn tempat saya menyediakan batch mini
Saya memiliki kumpulan data yang sangat besar yang tidak dapat dimuat ke dalam memori.
Saya ingin menggunakan kumpulan data ini sebagai kumpulan pelatihan pengklasifikasi scikit-learn - misalnya LogisticRegression .
Apakah ada kemungkinan untuk...
8475 dilihat
schedule
24.12.2023
Menggunakan LabelEncoder sklearn pada kolom kerangka data
Jika saya memiliki kerangka data, ucapkan df, dan jika
df["levels"] = pd.Series(["low", "low", "med", "low", "med", "high"])
Apakah ada cara untuk mengubahnya menjadi:
df["levels"] = pd.Series([0,0,1,0,1,2])
Saya sudah mencoba...
1192 dilihat
schedule
03.12.2023
sk-learn: Kesalahan fit() membutuhkan 2 argumen posisi tetapi 3 diberikan di FeatureUnion
Saya menggunakan sk-learn dengan python untuk menyesuaikan model dan mengubah input_data melalui model.
Saya menggunakan FeatureUnion untuk menggabungkan CountVectorizer dan TfidfEmbeddingVectorizer.
Boleh saja menggunakan CountVectorizer...
1893 dilihat
schedule
30.10.2023
Mendapatkan akurasi yang sangat rendah saat melatih kumpulan data kamus kata untuk analisis sentimental
Saya telah mengunduh .txt yang berisi 1000 kata dengan setiap kata diberi label yang menunjukkan nilai positif atau negatif. Semakin kecil nilainya, semakin banyak sentimen -ve yang diwakilinya. Sepertinya :-
bad,-1
sucks,-2
too good,2
amazing,3...
56 dilihat
schedule
17.12.2023
Menemukan kesalahan kuadrat rata-rata untuk regresi linier dengan python (dengan scikit learn)
Saya mencoba melakukan regresi linier sederhana dengan python dengan variabel x adalah jumlah kata dari deskripsi proyek dan nilai y adalah kecepatan pendanaan dalam beberapa hari.
Saya agak bingung karena root mean square error (RMSE) adalah 13,77...
6512 dilihat
schedule
07.11.2023
pengelompokan data kategorikal sklearn
Saya menggunakan fungsi pengelompokan sklearn dan aglomeratif. Saya memiliki data campuran yang mencakup kolom data numerik dan nominal. Kolom nominal saya memiliki nilai seperti "Pagi", "Siang", "Malam", "Malam". Jika saya mengubah data nominal...
13002 dilihat
schedule
31.10.2023
Scikit-belajar dengan perhitungan keluaran berbeda
Saya menggunakan Sudo apt-get install python-numpy python-scipy python-matplotlib python-sklearn untuk instalasi scikit-learn di rPi3 tetapi versi lama telah diterapkan!
Versi lama yang diinstal ini (v. 0.18) mendapatkan hasil keluaran yang...
34 dilihat
schedule
14.12.2023
Bagaimana cara mengekstrak data dalam baris berdasarkan nilai beberapa kolom?
Saya ingin mengekstrak data dari baris berdasarkan beberapa nilai kolom dan kode saya sepertinya tidak berfungsi.
Saya ingin membuat kumpulan data baru hanya dengan baris-baris yang memenuhi kondisi berdasarkan nilai kolom. Misalnya. I10.I15=1...
219 dilihat
schedule
01.12.2023
Urutkan label K-means dari rendah ke tinggi berdasarkan data
Saya memiliki serangkaian data "tekanan". Saya melakukan 3 cluster K-means dengan scikit. Saya memerlukan label yang menetapkan cluster setiap data untuk diurutkan dari rendah ke tinggi, sehingga nilai 'tekanan rendah' ββmemiliki label lebih rendah...
50 dilihat
schedule
28.10.2023
XGBoost mendapatkan fitur penting sebagai daftar kolom, bukan plot
Saya ingin tahu apakah Anda bisa mendapatkan fitur penting sebagai daftar kolom, bukan plot. Inilah yang saya punya
xg_reg = xgb.train(params=params, dtrain=data_dmatrix, num_boost_round=10)
import matplotlib.pyplot as plt...
50 dilihat
schedule
14.01.2024
Apakah wajib menetapkan nilai kontaminasi untuk hutan isolasi dengan python?
Saya akan membuat model untuk mengidentifikasi anomali dalam kumpulan data saya. Saya banyak meneliti dan menemukan bahwa hutan isolasi adalah yang terbaik. Di dataset saya, saya tidak memiliki label apa pun (artinya dataset hanya berisi variabel...
866 dilihat
schedule
21.12.2023
Tingkatkan akurasi untuk SVM dengan kernel linier
Saya menggunakan Support Vector Machines (SVM) dengan kernel 'linier' untuk multiklasifikasi. Namun akurasinya sangat rendah. Apakah mungkin untuk meningkatkan akurasi?
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns...
144 dilihat
schedule
30.12.2023
menghitung ROC AUC dengan hutan acak
Saya menggunakan pengklasifikasi hutan acak dalam masalah multi kelas.
rf = RandomForestClassifier(()
rf.fit(train_X, train_y)
Dan kemudian untuk prediksi:
pred = rf.predict(test_X)
Jadi saya ingin menghitung roc_auc_score seperti ini:...
27 dilihat
schedule
29.12.2023