Я совершенно новичок в алгоритмах машинного обучения, и у меня есть быстрый вопрос относительно классификации набора данных.
В настоящее время существуют обучающие данные, состоящие из двух столбцов «Сообщение» и «Идентификатор».
Сообщение — типичное сообщение, извлеченное из журнала, содержащее метку времени и некоторый текст. Идентификатор — следует классифицировать категорию на основе содержимого сообщения.
Данные для обучения были подготовлены путем извлечения определенной категории из инструмента и соответствующей маркировки.
Теперь тестовые данные содержат только сообщение, и я пытаюсь получить соответствующую категорию.
Какой подход наиболее полезен в этом сценарии? Это контролируемое или неконтролируемое обучение?
У меня есть обученный набор данных, и я пытаюсь предсказать категорию для тестовых данных.
Заранее спасибо, Адам