ฉันได้ดาวน์โหลด .txt ซึ่งมีคำศัพท์มากกว่า 1,000 คำ โดยแต่ละคำจะมีป้ายกำกับระบุค่าบวกหรือค่าลบ ยิ่งค่าน้อยกว่า แสดงว่าคำนั้นแสดงถึงความรู้สึกมากกว่า ดูเหมือนว่า :-
bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...
ฉันตั้งชื่อคอลัมน์แรกเป็น word
และคอลัมน์ที่สอง column
เป็นป้ายกำกับ ฉันกำลังฝึกมันโดยใช้:-
vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)
ตอนนี้ ปัญหาคือเนื่องจากแต่ละคำมีอยู่เพียงครั้งเดียว ดังนั้นจึงไม่มีเหตุผลที่จะคาดเดาป้ายกำกับของคำในส่วนที่ไม่ได้รับการฝึกอบรม เนื่องจากคำในส่วนที่ไม่ได้รับการฝึกอบรมไม่มีความสัมพันธ์กับคำในส่วนที่ไม่ได้รับการฝึกอบรม อย่างที่คาดไว้ ฉันได้รับ low accuracy
ค่อนข้างมาก แล้วคุณจะใช้พจนานุกรมคำศัพท์ที่กำหนดไว้ล่วงหน้าเพื่อวิเคราะห์ความรู้สึกได้อย่างไร