Saya mengurai file dengan perpustakaan Apache Tika yang hebat. Saya ingin mengekstrak metatag dengan parser saya sendiri dan kemudian mendapatkan konten hanya dari tag <body>
sebagai HTML dan menyimpannya dalam database.
Saya telah mencobanya sekarang selama berjam-jam/hari :-(, tetapi tidak dapat menemukan solusi:
- Ketika saya menggunakan
ToHTMLContentHandler
setelah tag<body>
saya mendapatkan pengecualian dengan namespace yang tidak valid tanpa tag<html>
. BodyContentHandler
hanya mengembalikan teks isi tanpa tag HTML.tika-app
sepertinya menggunakanTransformerHandler
untuk mendapatkan HTML (Saya belum pernah mendengar penangan semacam ini sebelumnya.) Bisakah saya menggunakan ini untuk mendapatkan HTML dari tag<body>
dan mengurai sendiri tag meta? Apakah ini cara yang lebih baik daripada menggunakanToHTMLContentHandler
?