Mendapatkan akurasi yang sangat rendah saat melatih kumpulan data kamus kata untuk analisis sentimental

Saya telah mengunduh .txt yang berisi 1000 kata dengan setiap kata diberi label yang menunjukkan nilai positif atau negatif. Semakin kecil nilainya, semakin banyak sentimen -ve yang diwakilinya. Sepertinya :-

bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...

Saya menamai kolom pertama sebagai word dan kolom kedua column sebagai label. Saya melatihnya menggunakan :-

vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)

Sekarang, masalahnya adalah karena setiap kata hanya muncul satu kali, maka sama sekali tidak masuk akal untuk memprediksi label sebuah kata di bagian yang tidak dilatih karena kata di bagian yang tidak dilatih tidak ada hubungannya dengan kata-kata di bagian yang dilatih. Jadi, seperti yang diharapkan, saya mendapatkan cukup low accuracy. Jadi, bagaimana Anda bisa menggunakan kamus kata yang telah ditentukan sebelumnya untuk analisis sentimen?


person Devansh Singh    schedule 21.04.2018    source sumber
comment
Anda memerlukan algoritme yang mengukur bagaimana sebuah kata terkait dengan kata lain. ini bacaan yang bagus: judul stackoverflow.com/questions/21979970/   -  person âńōŋŷXmoůŜ    schedule 21.04.2018
comment
Bisakah Anda menjelaskannya? Bagaimana word2vec membantu menghubungkan satu kata di set pelatihan dengan kata lain di set pengujian?   -  person Devansh Singh    schedule 21.04.2018
comment
jarak kata akan memberi Anda nilai numerik bagaimana sebuah kata dikaitkan dengan kata tertentu. angka ini mendekati 1 jika berkerabat dekat dan mendekati nol jika tidak berkerabat dekat. maka Anda dapat menemukan kata dalam kamus Anda yang sangat terkait dengan data Anda yang tidak terlatih.   -  person âńōŋŷXmoůŜ    schedule 21.04.2018