Разберите метатег и получите HTML-контент из тела с помощью Tika

Я разбираю файлы с помощью замечательной библиотеки Apache Tika. Я хочу извлечь метатеги с помощью собственного синтаксического анализатора, а затем получить содержимое только из тега <body> в формате HTML и сохранить его в базе данных.

Я пробовал это сейчас в течение нескольких часов/дней :-(, но не могу найти решение:

  • Когда я использую ToHTMLContentHandler после тега <body>, я получаю исключения с недопустимым пространством имен без тега <html>.
  • BodyContentHandler просто возвращает основной текст без тегов HTML.
  • Похоже, что tika-app использует TransformerHandler для получения HTML (я никогда раньше не слышал о таких обработчиках). Могу ли я использовать это, чтобы просто получить HTML из тега <body> и самостоятельно проанализировать метатеги? Это лучший способ, чем использовать ToHTMLContentHandler?

person Sonson123    schedule 25.02.2013    source источник


Ответы (1)


Проверьте, не помогут ли вам следующие ссылки.

Обнаружение контента, метаданные и контент Извлечение с помощью Apache Tika

Анализ HTML с помощью Apache Tika

person Div Tiwari    schedule 19.03.2013
comment
Спасибо, я не знал этих интересных статей, но они не решают мою проблему. Я закончил использовать TransformerHandler, который работает также после тега <body>, когда я подделываю элемент <html>-start. - person Sonson123; 19.03.2013
comment
Рад вот этому! Если у вас есть решение для вашего вопроса, вы можете опубликовать его здесь и пометить эту тему как «Отвечено». Таким образом, другие с подобным вопросом могут получить ссылку здесь. - person Div Tiwari; 26.03.2013
comment
Трудно опубликовать общую версию моего решения, и это просто хак. Если у кого-то еще есть аналогичная проблема, я бы посоветовал ему посмотреть источник tika-app и узнать больше об обработке XSLT. - person Sonson123; 26.03.2013