สิ่งตีพิมพ์ในหัวข้อ 'scikit-learn'


วิธีจัดการกับค่าหมวดหมู่ใน Data Science
ในกระบวนการสร้างโมเดล Machine Learning การประมวลผลข้อมูลล่วงหน้าถือเป็นขั้นตอนที่สำคัญที่สุดขั้นตอนหนึ่ง การจัดการค่าที่เป็นหมวดหมู่มีบทบาทสำคัญ ตัวแปรหมวดหมู่คือตัวแปรที่แสดงถึงหมวดหมู่ต่างๆ เช่น เพศ สี หรือประเภทของผลิตภัณฑ์ ในการเรียนรู้ของเครื่อง อัลกอริธึมส่วนใหญ่ต้องการอินพุตที่เป็นตัวเลข ซึ่งหมายความว่าตัวแปรหมวดหมู่จะต้องถูกแปลงเป็นรูปแบบตัวเลขก่อนจึงจะสามารถใช้เป็นอินพุตของอัลกอริธึมได้ กระบวนการนี้เรียกว่าการเข้ารหัส การใช้ SK-learn..

เรียนรู้จากความผิดพลาดของเรา 📈
เรียนรู้จากความผิดพลาดของเรา 📈 Python, scikit-learn, Logistic Regression และ Looker มารวมกันเพื่อช่วยผู้จัดการฝ่ายขายของเราค้นหา 'เข็มในกองหญ้า' ได้อย่างไร นี่เป็นบทความสั้นที่มุ่งเป้าไปที่นักวิเคราะห์การขายและผู้ปฏิบัติงานที่อาจต้องการสำรวจศักยภาพการใช้งาน ML ในขั้นตอนการทำงานของตน มีข้อมูลโค้ด ตัวอย่าง และบทเรียนที่ฉันได้เรียนรู้จากการฝังโมเดลการจัดหมวดหมู่ในกระบวนการขายของเราที่นี่ Qubit บริบท ที่ Qubit เราใช้ Salesforce เป็นเครื่องมือ CRM หลักของเรา..

Scikit Learn (ผู้เริ่มต้น) — ตอนที่ 2
นี่เป็นส่วนที่ 2 ของชุด Scikit-learn ซึ่งมีดังต่อไปนี้ ส่วนที่ 1 — บทนำ ส่วนที่ 2 — การเรียนรู้ภายใต้การดูแลใน Scikit-Learn (บทความนี้) ส่วนที่ 3 — การเรียนรู้แบบไม่มีผู้ดูแลใน Scikit-Learn ลิงก์ไปยังส่วนที่หนึ่ง : https://medium.com/@deepanshugaur1998/scikit-learn-part-1-introduction-fa05b19b76f1 ลิงก์ไปยังส่วนที่สาม : https://medium.com/@deepanshugaur1998/scikit-learn-beginners-part-3-6fb05798acb1 การเรียนรู้ภายใต้การดูแลใน Scikit-Learn สวัสดีอีกครั้ง !..

คำถามในหัวข้อ 'scikit-learn'

OneHotEncoder ที่มีค่าหมวดหมู่สตริง
ฉันมีเมทริกซ์จำนวนต่อไปนี้: M = [ ['a', 5, 0.2, ''], ['a', 2, 1.3, 'as'], ['b', 1, 2.3, 'as'], ] M = np.array(M) ฉันต้องการเข้ารหัสค่าหมวดหมู่ ( 'a', 'b', '', 'as' ) ฉันพยายามเข้ารหัสโดยใช้ OneHotEncoder...
8653 มุมมอง
schedule 21.12.2023

จะฉายจุดใหม่เป็นพื้นฐานใหม่โดยใช้แอตทริบิวต์ 'components_' ของ PCA จากแพ็คเกจ sklearn.decomposition ได้อย่างไร
ฉันมีจุดข้อมูลบางจุดที่มี 3 พิกัดและใช้ฟังก์ชัน PCA ฉันแปลงเป็นจุดที่มี 2 พิกัดโดยทำสิ่งนี้ import numpy as np from sklearn.decomposition import PCA X = np.array([[-1, -1, -3], [-2, -1, -1], [-3, -2, -2], [1, 1, 1], [2, 1, 5], [3, 2, 6]]) #data...
476 มุมมอง
schedule 10.12.2023

จะใช้ adaboost กับตัวประมาณค่าฐานต่าง ๆ ใน scikit-learn ได้อย่างไร
ฉันต้องการใช้ adaboost กับตัวประมาณค่าฐานหลายตัวสำหรับการถดถอยในการเรียนรู้ scikit แต่ฉันไม่พบคลาสใดที่สามารถทำได้ มีวิธีใดบ้างที่จะทำสิ่งนี้ยกเว้นการเปลี่ยนซอร์สโค้ด?
14014 มุมมอง

ปัญหาหน่วยความจำ LabelEncoder() ของ scikit-learn
ฉันมี train pandas df ที่มี 20 ล้านแถวและ test pandas df ที่มีประมาณ 10 ล้านแถว มีคอลัมน์ใน df ทั้งสองคอลัมน์ที่ฉันต้องการใช้ LabelEncoder() แต่ฉันได้รับ Memory Error บนแล็ปท็อปของฉันและแม้แต่ในอินสแตนซ์ AWS RAM ขนาด 64 กิ๊ก...
382 มุมมอง
schedule 16.11.2023

Sklearn - GridSearchCV พร้อม v_measure_score ไม่เหมือนกัน
ฉันกำลังพยายามใช้ GridSearchCV กับ v_measure_score และเปรียบเทียบผลลัพธ์ กับวิธีอื่น WITHOUT GridSearchCV คะแนนที่ดีที่สุดของ v_measure_score ตาม for-loop คือ 0.69816019299 โดยมี เปอร์เซ็นไทล์ 27 ; คะแนนที่ดีที่สุดของ GridSearchCV คือ...
145 มุมมอง
schedule 09.01.2024

ฉันจะทำ F-test เพื่อเปรียบเทียบโมเดลเชิงเส้นแบบซ้อนใน Python ได้อย่างไร
ฉันต้องการเปรียบเทียบโมเดลเชิงเส้นสองแบบที่ซ้อนกัน เรียกว่า m01 และ m02 โดยที่ m01 เป็นโมเดลรีดิวซ์ และ m02 เป็นโมเดลเต็ม ฉันต้องการทำการทดสอบ F แบบง่ายๆ เพื่อดูว่ารุ่นเต็มเพิ่มประโยชน์ใช้สอยที่สำคัญมากกว่ารุ่นที่ลดลงหรือไม่ นี่เป็นเรื่องง่ายมากใน...
6382 มุมมอง

การฝึกอบรมชุดย่อยของตัวแยกประเภท scikit-learn โดยที่ฉันจัดเตรียมชุดย่อยไว้
ฉันมีชุดข้อมูลขนาดใหญ่มากที่ไม่สามารถโหลดลงในหน่วยความจำได้ ฉันต้องการใช้ชุดข้อมูลนี้เป็นชุดการฝึกอบรมของตัวแยกประเภท scikit-learn เช่น LogisticRegression มีความเป็นไปได้ที่จะทำการฝึกอบรมชุดย่อยของตัวแยกประเภท scikit-learn...
8475 มุมมอง
schedule 24.12.2023

การใช้ LabelEncoder ของ sklearn บนคอลัมน์ของ dataframe
ถ้าฉันมี dataframe ให้พูดว่า df และถ้า df["levels"] = pd.Series(["low", "low", "med", "low", "med", "high"]) มีวิธีการเปลี่ยนแปลงสิ่งนี้ให้เป็น: df["levels"] = pd.Series([0,0,1,0,1,2]) ฉันได้ลองใช้ preprocessing.LabelEncoder()...
1192 มุมมอง
schedule 03.12.2023

sk-learn: ข้อผิดพลาดของ fit() รับอาร์กิวเมนต์ตำแหน่ง 2 รายการ แต่ได้รับ 3 รายการใน FeatureUnion
ฉันใช้ sk-learn ใน python เพื่อให้พอดีกับโมเดลและแปลง input_data ผ่านโมเดล ฉันใช้ FeatureUnion เพื่อรวม CountVectorizer และ TfidfEmbeddingVectorizer คุณสามารถใช้เฉพาะ CountVectorizer หรือ TfidfEmbeddingVectorizer เท่านั้นก็ได้...
1893 มุมมอง
schedule 30.10.2023

ได้รับความแม่นยำต่ำมากขณะฝึกชุดข้อมูลในพจนานุกรมคำศัพท์เพื่อการวิเคราะห์เชิงอารมณ์
ฉันได้ดาวน์โหลด .txt ซึ่งมีคำศัพท์มากกว่า 1,000 คำ โดยแต่ละคำจะมีป้ายกำกับระบุค่าบวกหรือค่าลบ ยิ่งค่าน้อยกว่า แสดงว่าคำนั้นแสดงถึงความรู้สึกมากกว่า ดูเหมือนว่า :- bad,-1 sucks,-2 too good,2 amazing,3 terrible,-2 ... ฉันตั้งชื่อคอลัมน์แรกเป็น...
56 มุมมอง

การค้นหาค่าคลาดเคลื่อนกำลังสองเฉลี่ยสำหรับการถดถอยเชิงเส้นในหลาม (ด้วยการเรียนรู้ scikit)
ฉันกำลังพยายามทำการถดถอยเชิงเส้นอย่างง่ายในหลามโดยตัวแปร x คือการนับจำนวนคำของคำอธิบายโครงการและค่า y คือความเร็วในการระดมทุนในหน่วยวัน ฉันสับสนเล็กน้อยเนื่องจากค่าความผิดพลาดรูทเฉลี่ยกำลังสอง (RMSE) คือ 13.77 สำหรับการทดสอบและ 13.88...
6512 มุมมอง

การจัดกลุ่มข้อมูลเชิงหมวดหมู่ sklearn
ฉันใช้ฟังก์ชันการจัดกลุ่ม sklearn และ agglomerative ฉันมีข้อมูลแบบผสมซึ่งรวมถึงคอลัมน์ข้อมูลทั้งตัวเลขและระบุ คอลัมน์ที่ระบุของฉันมีค่าเช่น "เช้า" "บ่าย" "เย็น" "กลางคืน" ถ้าฉันแปลงข้อมูลที่ระบุเป็นตัวเลขโดยกำหนดค่าจำนวนเต็มเช่น 0,1,2,3;...
13002 มุมมอง
schedule 31.10.2023

Scikit เรียนรู้พร้อมการคำนวณผลลัพธ์ที่แตกต่างกัน
ฉันใช้ sudo apt-get install python-numpy python-scipy python-matplotlib python-sklearn สำหรับการติดตั้ง scikit-learn บน rPi3 แต่ใช้เวอร์ชันเก่า! เวอร์ชันเก่าที่ติดตั้ง (v. 0.18) ได้ผลลัพธ์ผลลัพธ์ที่แตกต่างจากอัลกอริธึมเดียวกัน...
34 มุมมอง
schedule 14.12.2023

จะแยกข้อมูลเป็นแถวตามค่าหลายคอลัมน์ได้อย่างไร
ฉันต้องการดึงข้อมูลจากแถวตามค่าคอลัมน์หลายค่า และดูเหมือนว่าโค้ดของฉันจะใช้ไม่ได้ ฉันต้องการสร้างชุดข้อมูลใหม่ที่มีเฉพาะแถวที่ตรงตามเงื่อนไขตามค่าของคอลัมน์ เช่น. I10.I15=1 และ C03=1 และ C10=1 และ D80.D89=0...
219 มุมมอง

จัดเรียงป้ายกำกับ K-means จากต่ำไปสูงตามข้อมูล
ฉันมีชุดข้อมูล "ความดัน" ฉันทำ K-mean 3 กลุ่มด้วย scikit ฉันต้องการป้ายกำกับที่กำหนดคลัสเตอร์ของแต่ละข้อมูลให้เรียงลำดับจากต่ำไปสูง ดังนั้นค่า 'ความดันต่ำ' จึงมีป้ายกำกับต่ำกว่า (0) และค่าความดันสูงสุดจะมีป้ายกำกับสูงสุด (2) ฉันกำหนดป้ายกำกับให้กับ...
50 มุมมอง

XGBoost รับความสำคัญของคุณลักษณะเป็นรายการคอลัมน์แทนการลงจุด
ฉันสงสัยว่าคุณจะได้รับความสำคัญของฟีเจอร์เป็นรายการคอลัมน์แทนที่จะเป็นพล็อตหรือไม่ นี่คือสิ่งที่ฉันมี xg_reg = xgb.train(params=params, dtrain=data_dmatrix, num_boost_round=10) import matplotlib.pyplot as plt xgb.plot_importance(xg_reg)...
50 มุมมอง
schedule 14.01.2024

จำเป็นต้องตั้งค่าการปนเปื้อนสำหรับฟอเรสต์แยกใน python หรือไม่
ฉันจะสร้างแบบจำลองเพื่อระบุความผิดปกติในชุดข้อมูลของฉัน ฉันค้นคว้ามามากมายและพบว่าป่าโดดเดี่ยวเป็นป่าที่ดีที่สุด ในชุดข้อมูลของฉัน ฉันไม่มีป้ายกำกับใดๆ (ซึ่งหมายความว่าชุดข้อมูลจะมีเฉพาะตัวแปรอธิบายเท่านั้น)...
866 มุมมอง

เพิ่มความแม่นยำสำหรับ SVM ด้วยเคอร์เนลเชิงเส้น
ฉันใช้ Support Vector Machines (SVM) กับเคอร์เนล 'เชิงเส้น' สำหรับการจำแนกหลายประเภท อย่างไรก็ตามความแม่นยำยังต่ำมาก เป็นไปได้ไหมที่จะเพิ่มความแม่นยำ? import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np...
144 มุมมอง
schedule 30.12.2023

คำนวณ ROC AUC ด้วยฟอเรสต์แบบสุ่ม
ฉันใช้ตัวแยกประเภทฟอเรสต์แบบสุ่มในปัญหาหลายคลาส rf = RandomForestClassifier(() rf.fit(train_X, train_y) แล้วสำหรับการทำนาย: pred = rf.predict(test_X) ดังนั้นฉันต้องการคำนวณ roc_auc_score ดังนี้: roc_value = roc_auc_score(test_y,...
27 มุมมอง
schedule 29.12.2023