สิ่งพิมพ์ตามแท็ก scikit-learn

สิ่งตีพิมพ์ในหัวข้อ 'scikit-learn'

วิธีจัดการกับค่าหมวดหมู่ใน Data Science

ในกระบวนการสร้างโมเดล Machine Learning การประมวลผลข้อมูลล่วงหน้าถือเป็นขั้นตอนที่สำคัญที่สุดขั้นตอนหนึ่ง การจัดการค่าที่เป็นหมวดหมู่มีบทบาทสำคัญ ตัวแปรหมวดหมู่คือตัวแปรที่แสดงถึงหมวดหมู่ต่างๆ เช่น เพศ สี หรือประเภทของผลิตภัณฑ์ ในการเรียนรู้ของเครื่อง อัลกอริธึมส่วนใหญ่ต้องการอินพุตที่เป็นตัวเลข ซึ่งหมายความว่าตัวแปรหมวดหมู่จะต้องถูกแปลงเป็นรูปแบบตัวเลขก่อนจึงจะสามารถใช้เป็นอินพุตของอัลกอริธึมได้ กระบวนการนี้เรียกว่าการเข้ารหัส การใช้ SK-learn..

เรียนรู้จากความผิดพลาดของเรา 📈

เรียนรู้จากความผิดพลาดของเรา 📈 Python, scikit-learn, Logistic Regression และ Looker มารวมกันเพื่อช่วยผู้จัดการฝ่ายขายของเราค้นหา 'เข็มในกองหญ้า' ได้อย่างไร นี่เป็นบทความสั้นที่มุ่งเป้าไปที่นักวิเคราะห์การขายและผู้ปฏิบัติงานที่อาจต้องการสำรวจศักยภาพการใช้งาน ML ในขั้นตอนการทำงานของตน มีข้อมูลโค้ด ตัวอย่าง และบทเรียนที่ฉันได้เรียนรู้จากการฝังโมเดลการจัดหมวดหมู่ในกระบวนการขายของเราที่นี่ Qubit บริบท ที่ Qubit เราใช้ Salesforce เป็นเครื่องมือ CRM หลักของเรา..

Scikit Learn (ผู้เริ่มต้น) — ตอนที่ 2

นี่เป็นส่วนที่ 2 ของชุด Scikit-learn ซึ่งมีดังต่อไปนี้ ส่วนที่ 1 — บทนำ ส่วนที่ 2 — การเรียนรู้ภายใต้การดูแลใน Scikit-Learn (บทความนี้) ส่วนที่ 3 — การเรียนรู้แบบไม่มีผู้ดูแลใน Scikit-Learn ลิงก์ไปยังส่วนที่หนึ่ง : https://medium.com/@deepanshugaur1998/scikit-learn-part-1-introduction-fa05b19b76f1 ลิงก์ไปยังส่วนที่สาม : https://medium.com/@deepanshugaur1998/scikit-learn-beginners-part-3-6fb05798acb1 การเรียนรู้ภายใต้การดูแลใน Scikit-Learn สวัสดีอีกครั้ง !..

คำถามในหัวข้อ 'scikit-learn'

OneHotEncoder ที่มีค่าหมวดหมู่สตริง

ฉันมีเมทริกซ์จำนวนต่อไปนี้: M = [ ['a', 5, 0.2, ''], ['a', 2, 1.3, 'as'], ['b', 1, 2.3, 'as'], ] M = np.array(M) ฉันต้องการเข้ารหัสค่าหมวดหมู่ ( 'a', 'b', '', 'as' ) ฉันพยายามเข้ารหัสโดยใช้ OneHotEncoder...

8653 มุมมอง

python scikit-learn

21.12.2023

จะฉายจุดใหม่เป็นพื้นฐานใหม่โดยใช้แอตทริบิวต์ 'components_' ของ PCA จากแพ็คเกจ sklearn.decomposition ได้อย่างไร

ฉันมีจุดข้อมูลบางจุดที่มี 3 พิกัดและใช้ฟังก์ชัน PCA ฉันแปลงเป็นจุดที่มี 2 พิกัดโดยทำสิ่งนี้ import numpy as np from sklearn.decomposition import PCA X = np.array([[-1, -1, -3], [-2, -1, -1], [-3, -2, -2], [1, 1, 1], [2, 1, 5], [3, 2, 6]]) #data...

476 มุมมอง

scikit-learn

10.12.2023

จะใช้ adaboost กับตัวประมาณค่าฐานต่าง ๆ ใน scikit-learn ได้อย่างไร

ฉันต้องการใช้ adaboost กับตัวประมาณค่าฐานหลายตัวสำหรับการถดถอยในการเรียนรู้ scikit แต่ฉันไม่พบคลาสใดที่สามารถทำได้ มีวิธีใดบ้างที่จะทำสิ่งนี้ยกเว้นการเปลี่ยนซอร์สโค้ด?

14014 มุมมอง

python machine-learning scikit-learn ensemble-learning adaboost

02.12.2023

ปัญหาหน่วยความจำ LabelEncoder() ของ scikit-learn

ฉันมี train pandas df ที่มี 20 ล้านแถวและ test pandas df ที่มีประมาณ 10 ล้านแถว มีคอลัมน์ใน df ทั้งสองคอลัมน์ที่ฉันต้องการใช้ LabelEncoder() แต่ฉันได้รับ Memory Error บนแล็ปท็อปของฉันและแม้แต่ในอินสแตนซ์ AWS RAM ขนาด 64 กิ๊ก...

382 มุมมอง

python pandas scikit-learn

16.11.2023

Sklearn - GridSearchCV พร้อม v_measure_score ไม่เหมือนกัน

ฉันกำลังพยายามใช้ GridSearchCV กับ v_measure_score และเปรียบเทียบผลลัพธ์ กับวิธีอื่น WITHOUT GridSearchCV คะแนนที่ดีที่สุดของ v_measure_score ตาม for-loop คือ 0.69816019299 โดยมี เปอร์เซ็นไทล์ 27 ; คะแนนที่ดีที่สุดของ GridSearchCV คือ...

145 มุมมอง

scikit-learn grid-search

09.01.2024

ฉันจะทำ F-test เพื่อเปรียบเทียบโมเดลเชิงเส้นแบบซ้อนใน Python ได้อย่างไร

ฉันต้องการเปรียบเทียบโมเดลเชิงเส้นสองแบบที่ซ้อนกัน เรียกว่า m01 และ m02 โดยที่ m01 เป็นโมเดลรีดิวซ์ และ m02 เป็นโมเดลเต็ม ฉันต้องการทำการทดสอบ F แบบง่ายๆ เพื่อดูว่ารุ่นเต็มเพิ่มประโยชน์ใช้สอยที่สำคัญมากกว่ารุ่นที่ลดลงหรือไม่ นี่เป็นเรื่องง่ายมากใน...

6382 มุมมอง

python statsmodels scikit-learn linear-regression

24.10.2023

การฝึกอบรมชุดย่อยของตัวแยกประเภท scikit-learn โดยที่ฉันจัดเตรียมชุดย่อยไว้

ฉันมีชุดข้อมูลขนาดใหญ่มากที่ไม่สามารถโหลดลงในหน่วยความจำได้ ฉันต้องการใช้ชุดข้อมูลนี้เป็นชุดการฝึกอบรมของตัวแยกประเภท scikit-learn เช่น LogisticRegression มีความเป็นไปได้ที่จะทำการฝึกอบรมชุดย่อยของตัวแยกประเภท scikit-learn...

8475 มุมมอง

python bigdata scikit-learn

24.12.2023

การใช้ LabelEncoder ของ sklearn บนคอลัมน์ของ dataframe

ถ้าฉันมี dataframe ให้พูดว่า df และถ้า df["levels"] = pd.Series(["low", "low", "med", "low", "med", "high"]) มีวิธีการเปลี่ยนแปลงสิ่งนี้ให้เป็น: df["levels"] = pd.Series([0,0,1,0,1,2]) ฉันได้ลองใช้ preprocessing.LabelEncoder()...

1192 มุมมอง

python pandas scikit-learn data-mining

03.12.2023

sk-learn: ข้อผิดพลาดของ fit() รับอาร์กิวเมนต์ตำแหน่ง 2 รายการ แต่ได้รับ 3 รายการใน FeatureUnion

ฉันใช้ sk-learn ใน python เพื่อให้พอดีกับโมเดลและแปลง input_data ผ่านโมเดล ฉันใช้ FeatureUnion เพื่อรวม CountVectorizer และ TfidfEmbeddingVectorizer คุณสามารถใช้เฉพาะ CountVectorizer หรือ TfidfEmbeddingVectorizer เท่านั้นก็ได้...

1893 มุมมอง

scikit-learn

30.10.2023

ได้รับความแม่นยำต่ำมากขณะฝึกชุดข้อมูลในพจนานุกรมคำศัพท์เพื่อการวิเคราะห์เชิงอารมณ์

ฉันได้ดาวน์โหลด .txt ซึ่งมีคำศัพท์มากกว่า 1,000 คำ โดยแต่ละคำจะมีป้ายกำกับระบุค่าบวกหรือค่าลบ ยิ่งค่าน้อยกว่า แสดงว่าคำนั้นแสดงถึงความรู้สึกมากกว่า ดูเหมือนว่า :- bad,-1 sucks,-2 too good,2 amazing,3 terrible,-2 ... ฉันตั้งชื่อคอลัมน์แรกเป็น...

56 มุมมอง

python machine-learning sentiment-analysis scikit-learn

17.12.2023

การค้นหาค่าคลาดเคลื่อนกำลังสองเฉลี่ยสำหรับการถดถอยเชิงเส้นในหลาม (ด้วยการเรียนรู้ scikit)

ฉันกำลังพยายามทำการถดถอยเชิงเส้นอย่างง่ายในหลามโดยตัวแปร x คือการนับจำนวนคำของคำอธิบายโครงการและค่า y คือความเร็วในการระดมทุนในหน่วยวัน ฉันสับสนเล็กน้อยเนื่องจากค่าความผิดพลาดรูทเฉลี่ยกำลังสอง (RMSE) คือ 13.77 สำหรับการทดสอบและ 13.88...

6512 มุมมอง

python scikit-learn linear-regression mse

07.11.2023

การจัดกลุ่มข้อมูลเชิงหมวดหมู่ sklearn

ฉันใช้ฟังก์ชันการจัดกลุ่ม sklearn และ agglomerative ฉันมีข้อมูลแบบผสมซึ่งรวมถึงคอลัมน์ข้อมูลทั้งตัวเลขและระบุ คอลัมน์ที่ระบุของฉันมีค่าเช่น "เช้า" "บ่าย" "เย็น" "กลางคืน" ถ้าฉันแปลงข้อมูลที่ระบุเป็นตัวเลขโดยกำหนดค่าจำนวนเต็มเช่น 0,1,2,3;...

13002 มุมมอง

python cluster-analysis scikit-learn

31.10.2023

Scikit เรียนรู้พร้อมการคำนวณผลลัพธ์ที่แตกต่างกัน

ฉันใช้ sudo apt-get install python-numpy python-scipy python-matplotlib python-sklearn สำหรับการติดตั้ง scikit-learn บน rPi3 แต่ใช้เวอร์ชันเก่า! เวอร์ชันเก่าที่ติดตั้ง (v. 0.18) ได้ผลลัพธ์ผลลัพธ์ที่แตกต่างจากอัลกอริธึมเดียวกัน...

34 มุมมอง

python scikit-learn

14.12.2023

จะแยกข้อมูลเป็นแถวตามค่าหลายคอลัมน์ได้อย่างไร

ฉันต้องการดึงข้อมูลจากแถวตามค่าคอลัมน์หลายค่า และดูเหมือนว่าโค้ดของฉันจะใช้ไม่ได้ ฉันต้องการสร้างชุดข้อมูลใหม่ที่มีเฉพาะแถวที่ตรงตามเงื่อนไขตามค่าของคอลัมน์ เช่น. I10.I15=1 และ C03=1 และ C10=1 และ D80.D89=0...

219 มุมมอง

python rows extract scikit-learn multiple-columns

01.12.2023

จัดเรียงป้ายกำกับ K-means จากต่ำไปสูงตามข้อมูล

ฉันมีชุดข้อมูล "ความดัน" ฉันทำ K-mean 3 กลุ่มด้วย scikit ฉันต้องการป้ายกำกับที่กำหนดคลัสเตอร์ของแต่ละข้อมูลให้เรียงลำดับจากต่ำไปสูง ดังนั้นค่า 'ความดันต่ำ' จึงมีป้ายกำกับต่ำกว่า (0) และค่าความดันสูงสุดจะมีป้ายกำกับสูงสุด (2) ฉันกำหนดป้ายกำกับให้กับ...

50 มุมมอง

python cluster-analysis scikit-learn k-means

28.10.2023

XGBoost รับความสำคัญของคุณลักษณะเป็นรายการคอลัมน์แทนการลงจุด

ฉันสงสัยว่าคุณจะได้รับความสำคัญของฟีเจอร์เป็นรายการคอลัมน์แทนที่จะเป็นพล็อตหรือไม่ นี่คือสิ่งที่ฉันมี xg_reg = xgb.train(params=params, dtrain=data_dmatrix, num_boost_round=10) import matplotlib.pyplot as plt xgb.plot_importance(xg_reg)...

50 มุมมอง

machine-learning scikit-learn xgboost

14.01.2024

จำเป็นต้องตั้งค่าการปนเปื้อนสำหรับฟอเรสต์แยกใน python หรือไม่

ฉันจะสร้างแบบจำลองเพื่อระบุความผิดปกติในชุดข้อมูลของฉัน ฉันค้นคว้ามามากมายและพบว่าป่าโดดเดี่ยวเป็นป่าที่ดีที่สุด ในชุดข้อมูลของฉัน ฉันไม่มีป้ายกำกับใดๆ (ซึ่งหมายความว่าชุดข้อมูลจะมีเฉพาะตัวแปรอธิบายเท่านั้น)...

866 มุมมอง

python scikit-learn outliers anomaly-detection

21.12.2023

เพิ่มความแม่นยำสำหรับ SVM ด้วยเคอร์เนลเชิงเส้น

ฉันใช้ Support Vector Machines (SVM) กับเคอร์เนล 'เชิงเส้น' สำหรับการจำแนกหลายประเภท อย่างไรก็ตามความแม่นยำยังต่ำมาก เป็นไปได้ไหมที่จะเพิ่มความแม่นยำ? import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np...

144 มุมมอง

python machine-learning scikit-learn svm

30.12.2023

คำนวณ ROC AUC ด้วยฟอเรสต์แบบสุ่ม

ฉันใช้ตัวแยกประเภทฟอเรสต์แบบสุ่มในปัญหาหลายคลาส rf = RandomForestClassifier(() rf.fit(train_X, train_y) แล้วสำหรับการทำนาย: pred = rf.predict(test_X) ดังนั้นฉันต้องการคำนวณ roc_auc_score ดังนี้: roc_value = roc_auc_score(test_y,...

27 มุมมอง

scikit-learn random-forest roc auc

29.12.2023