ได้รับความแม่นยำต่ำมากขณะฝึกชุดข้อมูลในพจนานุกรมคำศัพท์เพื่อการวิเคราะห์เชิงอารมณ์

ฉันได้ดาวน์โหลด .txt ซึ่งมีคำศัพท์มากกว่า 1,000 คำ โดยแต่ละคำจะมีป้ายกำกับระบุค่าบวกหรือค่าลบ ยิ่งค่าน้อยกว่า แสดงว่าคำนั้นแสดงถึงความรู้สึกมากกว่า ดูเหมือนว่า :-

bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...

ฉันตั้งชื่อคอลัมน์แรกเป็น word และคอลัมน์ที่สอง column เป็นป้ายกำกับ ฉันกำลังฝึกมันโดยใช้:-

vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)

ตอนนี้ ปัญหาคือเนื่องจากแต่ละคำมีอยู่เพียงครั้งเดียว ดังนั้นจึงไม่มีเหตุผลที่จะคาดเดาป้ายกำกับของคำในส่วนที่ไม่ได้รับการฝึกอบรม เนื่องจากคำในส่วนที่ไม่ได้รับการฝึกอบรมไม่มีความสัมพันธ์กับคำในส่วนที่ไม่ได้รับการฝึกอบรม อย่างที่คาดไว้ ฉันได้รับ low accuracy ค่อนข้างมาก แล้วคุณจะใช้พจนานุกรมคำศัพท์ที่กำหนดไว้ล่วงหน้าเพื่อวิเคราะห์ความรู้สึกได้อย่างไร


person Devansh Singh    schedule 21.04.2018    source แหล่งที่มา
comment
คุณจะต้องมีอัลกอริธึมที่ใช้วัดว่าคำนั้นเกี่ยวข้องกับคำอื่นอย่างไร นี่เป็นการอ่านที่ดี: stackoverflow.com/questions/21979970/   -  person âńōŋŷXmoůŜ    schedule 21.04.2018
comment
คุณช่วยอธิบายรายละเอียดหน่อยได้ไหม word2vec จะช่วยเชื่อมโยงคำหนึ่งคำในชุดการฝึกอบรมกับอีกคำหนึ่งในชุดการทดสอบได้อย่างไร   -  person Devansh Singh    schedule 21.04.2018
comment
ระยะทางของคำจะให้ค่าตัวเลขว่าคำเกี่ยวข้องกับคำที่กำหนดอย่างไร จำนวนนี้จะใกล้กับ 1 หากมีความสัมพันธ์กันอย่างใกล้ชิด และหากไม่สัมพันธ์กันก็จะใกล้ศูนย์ จากนั้นคุณจะพบคำในพจนานุกรมของคุณซึ่งมีความเกี่ยวข้องอย่างมากกับข้อมูลที่ไม่ได้รับการฝึกฝนของคุณ   -  person âńōŋŷXmoůŜ    schedule 21.04.2018