Метод классификации текста для этого сценария

Я совершенно новичок в алгоритмах машинного обучения, и у меня есть быстрый вопрос относительно классификации набора данных.

В настоящее время существуют обучающие данные, состоящие из двух столбцов «Сообщение» и «Идентификатор».

Сообщение — типичное сообщение, извлеченное из журнала, содержащее метку времени и некоторый текст. Идентификатор — следует классифицировать категорию на основе содержимого сообщения.

Данные для обучения были подготовлены путем извлечения определенной категории из инструмента и соответствующей маркировки.

Теперь тестовые данные содержат только сообщение, и я пытаюсь получить соответствующую категорию.

Какой подход наиболее полезен в этом сценарии? Это контролируемое или неконтролируемое обучение?

У меня есть обученный набор данных, и я пытаюсь предсказать категорию для тестовых данных.

Заранее спасибо, Адам

Community 30.08.2017 источник

Ответы (3)

arrow_upward
2
arrow_downward

Если ваши метки точны, вы можете классифицировать с помощью ANN, SVM и т. Д. Но метки не точны, вам нужно кластеризовать данные в отношении функций, которые у вас есть в данных. K-средние или ближайший сосед могут быть отправной точкой для кластеризации.

Dr. X 30.08.2017

comment

Спасибо доктор Гик !! Насколько я понимаю, поскольку это неконтролируемое обучение, K означает или ближайший сосед, которые предлагаются для контролируемого обучения, верно? - ; 30.08.2017

comment

Нет. A) вы находитесь под наблюдением, а не без присмотра, B) kmeans не контролируется, kNN контролируется, вы смешиваете вещи и C) ни один из них не является многообещающим кандидатом, они, как правило, работают довольно плохо. - Has QUIT--Anony-Mousse; 17.09.2017

arrow_upward
0
arrow_downward

Это контролируемое обучение и проблема классификации.

Однако очевидно, что у вас нет столбца метки (предполагаемое значение) для вашего набора тестов. Таким образом, вы не можете рассчитать меры ошибок (такие как частота ложных срабатываний, точность и т. д.) для этого набора тестов.

Однако вы можете разделить набор размеченных обучающих данных, который у вас есть, на меньший обучающий набор и проверочный набор. Разделите его 70%/30%, возможно. Затем создайте модель прогнозирования из меньшего набора обучающих данных, состоящего из 70 %. Затем настройте его на своем наборе проверки 30%. Когда точность будет достаточно хорошей, примените ее к своему набору тестов, чтобы получить/предсказать недостающие значения.

Какие методики/алгоритмы использовать — это другой вопрос. Вы не даете достаточно информации, чтобы ответить на этот вопрос. И даже если вы это сделали, вам все равно нужно настроить модель самостоятельно.

knb 03.09.2017

arrow_upward
0
arrow_downward

У вас есть метки для прогнозирования и обучающие данные.

Так что по определению это контролируемая проблема.

Попробуйте любой классификатор для текста, например NB, kNN, SVM, ANN, RF,...

Трудно предсказать, что лучше всего сработает с вашими данными. Вам придется попробовать и оценить несколько.

Has QUIT--Anony-Mousse 31.08.2017

Метод классификации текста для этого сценария

Ответы (3)

Вопросы по теме