สิ่งตีพิมพ์ในหัวข้อ 'scikit-learn'
วิธีจัดการกับค่าหมวดหมู่ใน Data Science
ในกระบวนการสร้างโมเดล Machine Learning การประมวลผลข้อมูลล่วงหน้าถือเป็นขั้นตอนที่สำคัญที่สุดขั้นตอนหนึ่ง การจัดการค่าที่เป็นหมวดหมู่มีบทบาทสำคัญ
ตัวแปรหมวดหมู่คือตัวแปรที่แสดงถึงหมวดหมู่ต่างๆ เช่น เพศ สี หรือประเภทของผลิตภัณฑ์ ในการเรียนรู้ของเครื่อง อัลกอริธึมส่วนใหญ่ต้องการอินพุตที่เป็นตัวเลข ซึ่งหมายความว่าตัวแปรหมวดหมู่จะต้องถูกแปลงเป็นรูปแบบตัวเลขก่อนจึงจะสามารถใช้เป็นอินพุตของอัลกอริธึมได้ กระบวนการนี้เรียกว่าการเข้ารหัส
การใช้ SK-learn..
เรียนรู้จากความผิดพลาดของเรา 📈
เรียนรู้จากความผิดพลาดของเรา 📈
Python, scikit-learn, Logistic Regression และ Looker มารวมกันเพื่อช่วยผู้จัดการฝ่ายขายของเราค้นหา 'เข็มในกองหญ้า' ได้อย่างไร
นี่เป็นบทความสั้นที่มุ่งเป้าไปที่นักวิเคราะห์การขายและผู้ปฏิบัติงานที่อาจต้องการสำรวจศักยภาพการใช้งาน ML ในขั้นตอนการทำงานของตน มีข้อมูลโค้ด ตัวอย่าง และบทเรียนที่ฉันได้เรียนรู้จากการฝังโมเดลการจัดหมวดหมู่ในกระบวนการขายของเราที่นี่ Qubit
บริบท
ที่ Qubit เราใช้ Salesforce เป็นเครื่องมือ CRM หลักของเรา..
Scikit Learn (ผู้เริ่มต้น) — ตอนที่ 2
นี่เป็นส่วนที่ 2 ของชุด Scikit-learn ซึ่งมีดังต่อไปนี้
ส่วนที่ 1 — บทนำ ส่วนที่ 2 — การเรียนรู้ภายใต้การดูแลใน Scikit-Learn (บทความนี้) ส่วนที่ 3 — การเรียนรู้แบบไม่มีผู้ดูแลใน Scikit-Learn
ลิงก์ไปยังส่วนที่หนึ่ง : https://medium.com/@deepanshugaur1998/scikit-learn-part-1-introduction-fa05b19b76f1
ลิงก์ไปยังส่วนที่สาม : https://medium.com/@deepanshugaur1998/scikit-learn-beginners-part-3-6fb05798acb1
การเรียนรู้ภายใต้การดูแลใน Scikit-Learn
สวัสดีอีกครั้ง !..
คำถามในหัวข้อ 'scikit-learn'
OneHotEncoder ที่มีค่าหมวดหมู่สตริง
ฉันมีเมทริกซ์จำนวนต่อไปนี้:
M = [
['a', 5, 0.2, ''],
['a', 2, 1.3, 'as'],
['b', 1, 2.3, 'as'],
]
M = np.array(M)
ฉันต้องการเข้ารหัสค่าหมวดหมู่ ( 'a', 'b', '', 'as' ) ฉันพยายามเข้ารหัสโดยใช้ OneHotEncoder...
8653 มุมมอง
schedule
21.12.2023
จะฉายจุดใหม่เป็นพื้นฐานใหม่โดยใช้แอตทริบิวต์ 'components_' ของ PCA จากแพ็คเกจ sklearn.decomposition ได้อย่างไร
ฉันมีจุดข้อมูลบางจุดที่มี 3 พิกัดและใช้ฟังก์ชัน PCA ฉันแปลงเป็นจุดที่มี 2 พิกัดโดยทำสิ่งนี้
import numpy as np
from sklearn.decomposition import PCA
X = np.array([[-1, -1, -3], [-2, -1, -1], [-3, -2, -2], [1, 1, 1], [2, 1, 5], [3, 2, 6]]) #data...
476 มุมมอง
schedule
10.12.2023
จะใช้ adaboost กับตัวประมาณค่าฐานต่าง ๆ ใน scikit-learn ได้อย่างไร
ฉันต้องการใช้ adaboost กับตัวประมาณค่าฐานหลายตัวสำหรับการถดถอยในการเรียนรู้ scikit แต่ฉันไม่พบคลาสใดที่สามารถทำได้ มีวิธีใดบ้างที่จะทำสิ่งนี้ยกเว้นการเปลี่ยนซอร์สโค้ด?
14014 มุมมอง
schedule
02.12.2023
ปัญหาหน่วยความจำ LabelEncoder() ของ scikit-learn
ฉันมี train pandas df ที่มี 20 ล้านแถวและ test pandas df ที่มีประมาณ 10 ล้านแถว
มีคอลัมน์ใน df ทั้งสองคอลัมน์ที่ฉันต้องการใช้ LabelEncoder() แต่ฉันได้รับ Memory Error บนแล็ปท็อปของฉันและแม้แต่ในอินสแตนซ์ AWS RAM ขนาด 64 กิ๊ก...
382 มุมมอง
schedule
16.11.2023
Sklearn - GridSearchCV พร้อม v_measure_score ไม่เหมือนกัน
ฉันกำลังพยายามใช้ GridSearchCV กับ v_measure_score และเปรียบเทียบผลลัพธ์ กับวิธีอื่น WITHOUT GridSearchCV
คะแนนที่ดีที่สุดของ v_measure_score ตาม for-loop คือ 0.69816019299 โดยมี เปอร์เซ็นไทล์ 27 ; คะแนนที่ดีที่สุดของ GridSearchCV คือ...
145 มุมมอง
schedule
09.01.2024
ฉันจะทำ F-test เพื่อเปรียบเทียบโมเดลเชิงเส้นแบบซ้อนใน Python ได้อย่างไร
ฉันต้องการเปรียบเทียบโมเดลเชิงเส้นสองแบบที่ซ้อนกัน เรียกว่า m01 และ m02 โดยที่ m01 เป็นโมเดลรีดิวซ์ และ m02 เป็นโมเดลเต็ม ฉันต้องการทำการทดสอบ F แบบง่ายๆ เพื่อดูว่ารุ่นเต็มเพิ่มประโยชน์ใช้สอยที่สำคัญมากกว่ารุ่นที่ลดลงหรือไม่
นี่เป็นเรื่องง่ายมากใน...
6382 มุมมอง
schedule
24.10.2023
การฝึกอบรมชุดย่อยของตัวแยกประเภท scikit-learn โดยที่ฉันจัดเตรียมชุดย่อยไว้
ฉันมีชุดข้อมูลขนาดใหญ่มากที่ไม่สามารถโหลดลงในหน่วยความจำได้
ฉันต้องการใช้ชุดข้อมูลนี้เป็นชุดการฝึกอบรมของตัวแยกประเภท scikit-learn เช่น LogisticRegression
มีความเป็นไปได้ที่จะทำการฝึกอบรมชุดย่อยของตัวแยกประเภท scikit-learn...
8475 มุมมอง
schedule
24.12.2023
การใช้ LabelEncoder ของ sklearn บนคอลัมน์ของ dataframe
ถ้าฉันมี dataframe ให้พูดว่า df และถ้า
df["levels"] = pd.Series(["low", "low", "med", "low", "med", "high"])
มีวิธีการเปลี่ยนแปลงสิ่งนี้ให้เป็น:
df["levels"] = pd.Series([0,0,1,0,1,2])
ฉันได้ลองใช้ preprocessing.LabelEncoder()...
1192 มุมมอง
schedule
03.12.2023
sk-learn: ข้อผิดพลาดของ fit() รับอาร์กิวเมนต์ตำแหน่ง 2 รายการ แต่ได้รับ 3 รายการใน FeatureUnion
ฉันใช้ sk-learn ใน python เพื่อให้พอดีกับโมเดลและแปลง input_data ผ่านโมเดล
ฉันใช้ FeatureUnion เพื่อรวม CountVectorizer และ TfidfEmbeddingVectorizer
คุณสามารถใช้เฉพาะ CountVectorizer หรือ TfidfEmbeddingVectorizer เท่านั้นก็ได้...
1893 มุมมอง
schedule
30.10.2023
ได้รับความแม่นยำต่ำมากขณะฝึกชุดข้อมูลในพจนานุกรมคำศัพท์เพื่อการวิเคราะห์เชิงอารมณ์
ฉันได้ดาวน์โหลด .txt ซึ่งมีคำศัพท์มากกว่า 1,000 คำ โดยแต่ละคำจะมีป้ายกำกับระบุค่าบวกหรือค่าลบ ยิ่งค่าน้อยกว่า แสดงว่าคำนั้นแสดงถึงความรู้สึกมากกว่า ดูเหมือนว่า :-
bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...
ฉันตั้งชื่อคอลัมน์แรกเป็น...
56 มุมมอง
schedule
17.12.2023
การค้นหาค่าคลาดเคลื่อนกำลังสองเฉลี่ยสำหรับการถดถอยเชิงเส้นในหลาม (ด้วยการเรียนรู้ scikit)
ฉันกำลังพยายามทำการถดถอยเชิงเส้นอย่างง่ายในหลามโดยตัวแปร x คือการนับจำนวนคำของคำอธิบายโครงการและค่า y คือความเร็วในการระดมทุนในหน่วยวัน
ฉันสับสนเล็กน้อยเนื่องจากค่าความผิดพลาดรูทเฉลี่ยกำลังสอง (RMSE) คือ 13.77 สำหรับการทดสอบและ 13.88...
6512 มุมมอง
schedule
07.11.2023
การจัดกลุ่มข้อมูลเชิงหมวดหมู่ sklearn
ฉันใช้ฟังก์ชันการจัดกลุ่ม sklearn และ agglomerative ฉันมีข้อมูลแบบผสมซึ่งรวมถึงคอลัมน์ข้อมูลทั้งตัวเลขและระบุ คอลัมน์ที่ระบุของฉันมีค่าเช่น "เช้า" "บ่าย" "เย็น" "กลางคืน" ถ้าฉันแปลงข้อมูลที่ระบุเป็นตัวเลขโดยกำหนดค่าจำนวนเต็มเช่น 0,1,2,3;...
13002 มุมมอง
schedule
31.10.2023
Scikit เรียนรู้พร้อมการคำนวณผลลัพธ์ที่แตกต่างกัน
ฉันใช้ sudo apt-get install python-numpy python-scipy python-matplotlib python-sklearn สำหรับการติดตั้ง scikit-learn บน rPi3 แต่ใช้เวอร์ชันเก่า!
เวอร์ชันเก่าที่ติดตั้ง (v. 0.18) ได้ผลลัพธ์ผลลัพธ์ที่แตกต่างจากอัลกอริธึมเดียวกัน...
34 มุมมอง
schedule
14.12.2023
จะแยกข้อมูลเป็นแถวตามค่าหลายคอลัมน์ได้อย่างไร
ฉันต้องการดึงข้อมูลจากแถวตามค่าคอลัมน์หลายค่า และดูเหมือนว่าโค้ดของฉันจะใช้ไม่ได้
ฉันต้องการสร้างชุดข้อมูลใหม่ที่มีเฉพาะแถวที่ตรงตามเงื่อนไขตามค่าของคอลัมน์ เช่น. I10.I15=1 และ C03=1 และ C10=1 และ D80.D89=0...
219 มุมมอง
schedule
01.12.2023
จัดเรียงป้ายกำกับ K-means จากต่ำไปสูงตามข้อมูล
ฉันมีชุดข้อมูล "ความดัน" ฉันทำ K-mean 3 กลุ่มด้วย scikit ฉันต้องการป้ายกำกับที่กำหนดคลัสเตอร์ของแต่ละข้อมูลให้เรียงลำดับจากต่ำไปสูง ดังนั้นค่า 'ความดันต่ำ' จึงมีป้ายกำกับต่ำกว่า (0) และค่าความดันสูงสุดจะมีป้ายกำกับสูงสุด (2) ฉันกำหนดป้ายกำกับให้กับ...
50 มุมมอง
schedule
28.10.2023
XGBoost รับความสำคัญของคุณลักษณะเป็นรายการคอลัมน์แทนการลงจุด
ฉันสงสัยว่าคุณจะได้รับความสำคัญของฟีเจอร์เป็นรายการคอลัมน์แทนที่จะเป็นพล็อตหรือไม่ นี่คือสิ่งที่ฉันมี
xg_reg = xgb.train(params=params, dtrain=data_dmatrix, num_boost_round=10)
import matplotlib.pyplot as plt
xgb.plot_importance(xg_reg)...
50 มุมมอง
schedule
14.01.2024
จำเป็นต้องตั้งค่าการปนเปื้อนสำหรับฟอเรสต์แยกใน python หรือไม่
ฉันจะสร้างแบบจำลองเพื่อระบุความผิดปกติในชุดข้อมูลของฉัน ฉันค้นคว้ามามากมายและพบว่าป่าโดดเดี่ยวเป็นป่าที่ดีที่สุด ในชุดข้อมูลของฉัน ฉันไม่มีป้ายกำกับใดๆ (ซึ่งหมายความว่าชุดข้อมูลจะมีเฉพาะตัวแปรอธิบายเท่านั้น)...
866 มุมมอง
schedule
21.12.2023
เพิ่มความแม่นยำสำหรับ SVM ด้วยเคอร์เนลเชิงเส้น
ฉันใช้ Support Vector Machines (SVM) กับเคอร์เนล 'เชิงเส้น' สำหรับการจำแนกหลายประเภท อย่างไรก็ตามความแม่นยำยังต่ำมาก เป็นไปได้ไหมที่จะเพิ่มความแม่นยำ?
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np...
144 มุมมอง
schedule
30.12.2023
คำนวณ ROC AUC ด้วยฟอเรสต์แบบสุ่ม
ฉันใช้ตัวแยกประเภทฟอเรสต์แบบสุ่มในปัญหาหลายคลาส
rf = RandomForestClassifier(()
rf.fit(train_X, train_y)
แล้วสำหรับการทำนาย:
pred = rf.predict(test_X)
ดังนั้นฉันต้องการคำนวณ roc_auc_score ดังนี้:
roc_value = roc_auc_score(test_y,...
27 มุมมอง
schedule
29.12.2023