У меня нет большого опыта работы с Python, но я хочу выполнить некоторую аналитику данных с помощью корпуса, поэтому я делаю эту часть в NLTK Python.
Я хочу просмотреть весь корпус и сделать словарь, содержащий каждое слово, которое появляется в наборе данных корпуса. Я хочу иметь возможность затем искать слово в этом словаре и находить, сколько раз это слово появлялось в качестве части речи (тега). Так, например, если бы я искал «собака», я мог бы найти 100 тегов существительных и 5 тегов глаголов и т. д.
Конечная цель состоит в том, чтобы сохранить этот файл извне как .txt или что-то в этом роде и загрузить его в другую программу, чтобы проверить вероятность того, что слово является тегом.
Сделал бы я это с помощью Counter и ngrams?