Метод классификации текста для этого сценария

Я совершенно новичок в алгоритмах машинного обучения, и у меня есть быстрый вопрос относительно классификации набора данных.

В настоящее время существуют обучающие данные, состоящие из двух столбцов «Сообщение» и «Идентификатор».

Сообщение — типичное сообщение, извлеченное из журнала, содержащее метку времени и некоторый текст. Идентификатор — следует классифицировать категорию на основе содержимого сообщения.

Данные для обучения были подготовлены путем извлечения определенной категории из инструмента и соответствующей маркировки.

Теперь тестовые данные содержат только сообщение, и я пытаюсь получить соответствующую категорию.

Какой подход наиболее полезен в этом сценарии? Это контролируемое или неконтролируемое обучение?

У меня есть обученный набор данных, и я пытаюсь предсказать категорию для тестовых данных.

Заранее спасибо, Адам


person Community    schedule 30.08.2017    source источник


Ответы (3)


Если ваши метки точны, вы можете классифицировать с помощью ANN, SVM и т. Д. Но метки не точны, вам нужно кластеризовать данные в отношении функций, которые у вас есть в данных. K-средние или ближайший сосед могут быть отправной точкой для кластеризации.

person Dr. X    schedule 30.08.2017
comment
Спасибо доктор Гик !! Насколько я понимаю, поскольку это неконтролируемое обучение, K означает или ближайший сосед, которые предлагаются для контролируемого обучения, верно? - person ; 30.08.2017
comment
Нет. A) вы находитесь под наблюдением, а не без присмотра, B) kmeans не контролируется, kNN контролируется, вы смешиваете вещи и C) ни один из них не является многообещающим кандидатом, они, как правило, работают довольно плохо. - person Has QUIT--Anony-Mousse; 17.09.2017

Это контролируемое обучение и проблема классификации.

Однако очевидно, что у вас нет столбца метки (предполагаемое значение) для вашего набора тестов. Таким образом, вы не можете рассчитать меры ошибок (такие как частота ложных срабатываний, точность и т. д.) для этого набора тестов.

Однако вы можете разделить набор размеченных обучающих данных, который у вас есть, на меньший обучающий набор и проверочный набор. Разделите его 70%/30%, возможно. Затем создайте модель прогнозирования из меньшего набора обучающих данных, состоящего из 70 %. Затем настройте его на своем наборе проверки 30%. Когда точность будет достаточно хорошей, примените ее к своему набору тестов, чтобы получить/предсказать недостающие значения.

Какие методики/алгоритмы использовать — это другой вопрос. Вы не даете достаточно информации, чтобы ответить на этот вопрос. И даже если вы это сделали, вам все равно нужно настроить модель самостоятельно.

person knb    schedule 03.09.2017

У вас есть метки для прогнозирования и обучающие данные.

Так что по определению это контролируемая проблема.

Попробуйте любой классификатор для текста, например NB, kNN, SVM, ANN, RF,...

Трудно предсказать, что лучше всего сработает с вашими данными. Вам придется попробовать и оценить несколько.

person Has QUIT--Anony-Mousse    schedule 31.08.2017