Mendapatkan akurasi yang sangat rendah saat melatih kumpulan data kamus kata untuk analisis sentimental

Saya telah mengunduh .txt yang berisi 1000 kata dengan setiap kata diberi label yang menunjukkan nilai positif atau negatif. Semakin kecil nilainya, semakin banyak sentimen -ve yang diwakilinya. Sepertinya :-

bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...

Saya menamai kolom pertama sebagai word dan kolom kedua column sebagai label. Saya melatihnya menggunakan :-

vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)

Sekarang, masalahnya adalah karena setiap kata hanya muncul satu kali, maka sama sekali tidak masuk akal untuk memprediksi label sebuah kata di bagian yang tidak dilatih karena kata di bagian yang tidak dilatih tidak ada hubungannya dengan kata-kata di bagian yang dilatih. Jadi, seperti yang diharapkan, saya mendapatkan cukup low accuracy. Jadi, bagaimana Anda bisa menggunakan kamus kata yang telah ditentukan sebelumnya untuk analisis sentimen?

Devansh Singh 21.04.2018 sumber

comment

Anda memerlukan algoritme yang mengukur bagaimana sebuah kata terkait dengan kata lain. ini bacaan yang bagus: judul stackoverflow.com/questions/21979970/ - âńōŋŷXmoůŜ 21.04.2018

comment

Bisakah Anda menjelaskannya? Bagaimana word2vec membantu menghubungkan satu kata di set pelatihan dengan kata lain di set pengujian? - Devansh Singh 21.04.2018

comment

jarak kata akan memberi Anda nilai numerik bagaimana sebuah kata dikaitkan dengan kata tertentu. angka ini mendekati 1 jika berkerabat dekat dan mendekati nol jika tidak berkerabat dekat. maka Anda dapat menemukan kata dalam kamus Anda yang sangat terkait dengan data Anda yang tidak terlatih. - âńōŋŷXmoůŜ 21.04.2018

Mendapatkan akurasi yang sangat rendah saat melatih kumpulan data kamus kata untuk analisis sentimental

Pertanyaan tentang topik tersebut