Разберите метатег и получите HTML-контент из тела с помощью Tika

Я разбираю файлы с помощью замечательной библиотеки Apache Tika. Я хочу извлечь метатеги с помощью собственного синтаксического анализатора, а затем получить содержимое только из тега <body> в формате HTML и сохранить его в базе данных.

Я пробовал это сейчас в течение нескольких часов/дней :-(, но не могу найти решение:

Когда я использую ToHTMLContentHandler после тега <body>, я получаю исключения с недопустимым пространством имен без тега <html>.
BodyContentHandler просто возвращает основной текст без тегов HTML.
Похоже, что tika-app использует TransformerHandler для получения HTML (я никогда раньше не слышал о таких обработчиках). Могу ли я использовать это, чтобы просто получить HTML из тега <body> и самостоятельно проанализировать метатеги? Это лучший способ, чем использовать ToHTMLContentHandler?

java xml-parsing apache-tika

Sonson123 25.02.2013 источник

Ответы (1)

arrow_upward
2
arrow_downward

Проверьте, не помогут ли вам следующие ссылки.

Обнаружение контента, метаданные и контент Извлечение с помощью Apache Tika

Анализ HTML с помощью Apache Tika

Div Tiwari 19.03.2013

comment

Спасибо, я не знал этих интересных статей, но они не решают мою проблему. Я закончил использовать TransformerHandler, который работает также после тега <body>, когда я подделываю элемент <html>-start. - Sonson123; 19.03.2013

comment

Рад вот этому! Если у вас есть решение для вашего вопроса, вы можете опубликовать его здесь и пометить эту тему как «Отвечено». Таким образом, другие с подобным вопросом могут получить ссылку здесь. - Div Tiwari; 26.03.2013

comment

Трудно опубликовать общую версию моего решения, и это просто хак. Если у кого-то еще есть аналогичная проблема, я бы посоветовал ему посмотреть источник tika-app и узнать больше об обработке XSLT. - Sonson123; 26.03.2013

Разберите метатег и получите HTML-контент из тела с помощью Tika

Ответы (1)

Вопросы по теме