Saya telah mengunduh .txt yang berisi 1000 kata dengan setiap kata diberi label yang menunjukkan nilai positif atau negatif. Semakin kecil nilainya, semakin banyak sentimen -ve yang diwakilinya. Sepertinya :-
bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...
Saya menamai kolom pertama sebagai word
dan kolom kedua column
sebagai label. Saya melatihnya menggunakan :-
vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)
Sekarang, masalahnya adalah karena setiap kata hanya muncul satu kali, maka sama sekali tidak masuk akal untuk memprediksi label sebuah kata di bagian yang tidak dilatih karena kata di bagian yang tidak dilatih tidak ada hubungannya dengan kata-kata di bagian yang dilatih. Jadi, seperti yang diharapkan, saya mendapatkan cukup low accuracy
. Jadi, bagaimana Anda bisa menggunakan kamus kata yang telah ditentukan sebelumnya untuk analisis sentimen?