Я разбираю файлы с помощью замечательной библиотеки Apache Tika. Я хочу извлечь метатеги с помощью собственного синтаксического анализатора, а затем получить содержимое только из тега <body>
в формате HTML и сохранить его в базе данных.
Я пробовал это сейчас в течение нескольких часов/дней :-(, но не могу найти решение:
- Когда я использую
ToHTMLContentHandler
после тега<body>
, я получаю исключения с недопустимым пространством имен без тега<html>
. BodyContentHandler
просто возвращает основной текст без тегов HTML.- Похоже, что
tika-app
используетTransformerHandler
для получения HTML (я никогда раньше не слышал о таких обработчиках). Могу ли я использовать это, чтобы просто получить HTML из тега<body>
и самостоятельно проанализировать метатеги? Это лучший способ, чем использоватьToHTMLContentHandler
?