Publikasi tentang topik tersebut 'scikit-learn'


Bagaimana menangani Nilai Kategoris dalam Ilmu Data
Dalam proses pembuatan model pembelajaran mesin, pra-pemrosesan data adalah salah satu langkah paling penting. Menangani nilai-nilai kategoris memainkan peran utama di sana. Variabel kategori adalah variabel yang mewakili berbagai kategori, seperti jenis kelamin, warna kulit, atau jenis produk. Dalam pembelajaran mesin, sebagian besar algoritme memerlukan masukan numerik, yang berarti variabel kategori harus diubah menjadi bentuk numerik sebelum dapat digunakan sebagai masukan ke..

Belajar Dari Kesalahan Kita πŸ“ˆ
Belajar Dari Kesalahan Kita πŸ“ˆ Bagaimana Python, scikit-learn, Regresi Logistik, dan Looker bersatu untuk membantu manajer penjualan kami menemukan 'jarum di tumpukan jerami'. Ini adalah artikel pendek yang ditujukan untuk analis dan praktisi penjualan yang mungkin ingin mengeksplorasi potensi penggunaan ML dalam alur kerja mereka. Ada cuplikan kode, contoh, dan pelajaran yang saya pelajari dari menyematkan model klasifikasi ke dalam proses penjualan kami di sini Qubit . Konteks..

Scikit Learn (Pemula) β€” Bagian 2
Ini adalah bagian kedua dari seri Scikit-learn, yaitu sebagai berikut: Bagian 1 β€” Pendahuluan Bagian 2 β€” Pembelajaran yang Diawasi di Scikit-Learn (artikel ini) Bagian 3 β€” Pembelajaran Tanpa Pengawasan di Scikit-Learn Tautan ke bagian satu : https://medium.com/@deepanshugaur1998/scikit-learn-part-1-introduction-fa05b19b76f1 Tautan ke bagian ketiga : https://medium.com/@deepanshugaur1998/scikit-learn-beginners-part-3-6fb05798acb1 Pembelajaran yang Diawasi Dalam Scikit-Learn..

Pertanyaan tentang topik tersebut 'scikit-learn'

OneHotEncoder dengan nilai kategoris string
Saya memiliki matriks numpy berikut: M = [ ['a', 5, 0.2, ''], ['a', 2, 1.3, 'as'], ['b', 1, 2.3, 'as'], ] M = np.array(M) Saya ingin menyandikan nilai kategorikal ( 'a', 'b', '', 'as' ). Saya mencoba menyandikannya menggunakan...
8653 dilihat
schedule 21.12.2023

Bagaimana cara memproyeksikan titik baru ke basis baru menggunakan atribut 'components_' PCA dari paket sklearn.decomposition?
Saya memiliki beberapa titik data dengan 3 koordinat dan menggunakan fungsi PCA saya mengubahnya menjadi titik yang memiliki 2 koordinat dengan melakukan ini import numpy as np from sklearn.decomposition import PCA X = np.array([[-1, -1, -3], [-2,...
476 dilihat
schedule 10.12.2023

Bagaimana cara menggunakan adaboost dengan estimator dasar yang berbeda di scikit-learn?
Saya ingin menggunakan adaboost dengan beberapa estimator dasar untuk regresi dalam pembelajaran scikit, tetapi saya tidak menemukan kelas mana pun yang dapat melakukannya. Apakah ada cara untuk melakukan hal ini selain mengubah kode sumber?
14014 dilihat

masalah memori LabelEncoder() scikit-learn
Saya memiliki train pandas df dengan 20 juta baris dan test pandas df dengan sekitar 10 juta baris. Ada kolom di kedua df yang ingin saya terapkan LabelEncoder(), tetapi saya terus mendapatkan Memory Error di laptop saya dan bahkan pada...
382 dilihat
schedule 16.11.2023

Sklearn - GridSearchCV dengan v_measure_score TIDAK sama
Saya mencoba menggunakan GridSearchCV dengan v_measure_score dan membandingkan hasilnya dengan metode lain TANPA GridSearchCV . Skor terbaik v_measure_score menurut for-loop adalah 0,69816019299 dengan persentil 27 ; skor terbaik...
145 dilihat
schedule 09.01.2024

Bagaimana cara melakukan uji F untuk membandingkan model linier bersarang dengan Python?
Saya ingin membandingkan dua model linier bersarang, sebut saja m01, dan m02 dengan m01 adalah model tereduksi dan m02 adalah model lengkap. Saya ingin melakukan uji F sederhana untuk melihat apakah model lengkap menambahkan utilitas yang signifikan...
6382 dilihat

Pelatihan batch mini dari pengklasifikasi scikit-learn tempat saya menyediakan batch mini
Saya memiliki kumpulan data yang sangat besar yang tidak dapat dimuat ke dalam memori. Saya ingin menggunakan kumpulan data ini sebagai kumpulan pelatihan pengklasifikasi scikit-learn - misalnya LogisticRegression . Apakah ada kemungkinan untuk...
8475 dilihat
schedule 24.12.2023

Menggunakan LabelEncoder sklearn pada kolom kerangka data
Jika saya memiliki kerangka data, ucapkan df, dan jika df["levels"] = pd.Series(["low", "low", "med", "low", "med", "high"]) Apakah ada cara untuk mengubahnya menjadi: df["levels"] = pd.Series([0,0,1,0,1,2]) Saya sudah mencoba...
1192 dilihat
schedule 03.12.2023

sk-learn: Kesalahan fit() membutuhkan 2 argumen posisi tetapi 3 diberikan di FeatureUnion
Saya menggunakan sk-learn dengan python untuk menyesuaikan model dan mengubah input_data melalui model. Saya menggunakan FeatureUnion untuk menggabungkan CountVectorizer dan TfidfEmbeddingVectorizer. Boleh saja menggunakan CountVectorizer...
1893 dilihat
schedule 30.10.2023

Mendapatkan akurasi yang sangat rendah saat melatih kumpulan data kamus kata untuk analisis sentimental
Saya telah mengunduh .txt yang berisi 1000 kata dengan setiap kata diberi label yang menunjukkan nilai positif atau negatif. Semakin kecil nilainya, semakin banyak sentimen -ve yang diwakilinya. Sepertinya :- bad,-1 sucks,-2 too good,2 amazing,3...
56 dilihat

Menemukan kesalahan kuadrat rata-rata untuk regresi linier dengan python (dengan scikit learn)
Saya mencoba melakukan regresi linier sederhana dengan python dengan variabel x adalah jumlah kata dari deskripsi proyek dan nilai y adalah kecepatan pendanaan dalam beberapa hari. Saya agak bingung karena root mean square error (RMSE) adalah 13,77...
6512 dilihat

pengelompokan data kategorikal sklearn
Saya menggunakan fungsi pengelompokan sklearn dan aglomeratif. Saya memiliki data campuran yang mencakup kolom data numerik dan nominal. Kolom nominal saya memiliki nilai seperti "Pagi", "Siang", "Malam", "Malam". Jika saya mengubah data nominal...
13002 dilihat
schedule 31.10.2023

Scikit-belajar dengan perhitungan keluaran berbeda
Saya menggunakan Sudo apt-get install python-numpy python-scipy python-matplotlib python-sklearn untuk instalasi scikit-learn di rPi3 tetapi versi lama telah diterapkan! Versi lama yang diinstal ini (v. 0.18) mendapatkan hasil keluaran yang...
34 dilihat
schedule 14.12.2023

Bagaimana cara mengekstrak data dalam baris berdasarkan nilai beberapa kolom?
Saya ingin mengekstrak data dari baris berdasarkan beberapa nilai kolom dan kode saya sepertinya tidak berfungsi. Saya ingin membuat kumpulan data baru hanya dengan baris-baris yang memenuhi kondisi berdasarkan nilai kolom. Misalnya. I10.I15=1...
219 dilihat

Urutkan label K-means dari rendah ke tinggi berdasarkan data
Saya memiliki serangkaian data "tekanan". Saya melakukan 3 cluster K-means dengan scikit. Saya memerlukan label yang menetapkan cluster setiap data untuk diurutkan dari rendah ke tinggi, sehingga nilai 'tekanan rendah' ​​memiliki label lebih rendah...
50 dilihat

XGBoost mendapatkan fitur penting sebagai daftar kolom, bukan plot
Saya ingin tahu apakah Anda bisa mendapatkan fitur penting sebagai daftar kolom, bukan plot. Inilah yang saya punya xg_reg = xgb.train(params=params, dtrain=data_dmatrix, num_boost_round=10) import matplotlib.pyplot as plt...
50 dilihat
schedule 14.01.2024

Apakah wajib menetapkan nilai kontaminasi untuk hutan isolasi dengan python?
Saya akan membuat model untuk mengidentifikasi anomali dalam kumpulan data saya. Saya banyak meneliti dan menemukan bahwa hutan isolasi adalah yang terbaik. Di dataset saya, saya tidak memiliki label apa pun (artinya dataset hanya berisi variabel...
866 dilihat

Tingkatkan akurasi untuk SVM dengan kernel linier
Saya menggunakan Support Vector Machines (SVM) dengan kernel 'linier' untuk multiklasifikasi. Namun akurasinya sangat rendah. Apakah mungkin untuk meningkatkan akurasi? import pandas as pd import matplotlib.pyplot as plt import seaborn as sns...
144 dilihat
schedule 30.12.2023

menghitung ROC AUC dengan hutan acak
Saya menggunakan pengklasifikasi hutan acak dalam masalah multi kelas. rf = RandomForestClassifier(() rf.fit(train_X, train_y) Dan kemudian untuk prediksi: pred = rf.predict(test_X) Jadi saya ingin menghitung roc_auc_score seperti ini:...
27 dilihat
schedule 29.12.2023