Я загрузил .txt, который содержит 1000 слов, где каждому слову присвоена метка, указывающая на положительное или отрицательное значение. Чем меньше значение, тем больше положительных эмоций оно представляет. Это выглядит как :-
bad,-1
sucks,-2
too good,2
amazing,3
terrible,-2
...
Я назвал первый столбец word
, а второй column
меткой. Я тренирую его, используя: -
vectorizer = TfidfVectorizer(use_idf = True, lowercase=False,strip_accents='ascii', stop_words=stop_words)
y = test_df['label']
X = vectorizer.fit_transform(test_df['word'])
X_train, X_test, y_train, y_test = train_test_split(X, y)
Теперь проблема в том, что, поскольку каждое слово присутствует только один раз, поэтому нет абсолютно никакого смысла предсказывать метку слова в необученной части, поскольку слово в необученной части не имеет отношения к словам в обученной части. Итак, как и ожидалось, я получаю довольно low accuracy
. Итак, как вы собираетесь использовать предопределенные словари слов для анализа настроений?