Parsing meta tag dan dapatkan konten HTML dari badan dengan Tika

Saya mengurai file dengan perpustakaan Apache Tika yang hebat. Saya ingin mengekstrak metatag dengan parser saya sendiri dan kemudian mendapatkan konten hanya dari tag <body> sebagai HTML dan menyimpannya dalam database.

Saya telah mencobanya sekarang selama berjam-jam/hari :-(, tetapi tidak dapat menemukan solusi:

Ketika saya menggunakan ToHTMLContentHandler setelah tag <body> saya mendapatkan pengecualian dengan namespace yang tidak valid tanpa tag <html>.
BodyContentHandler hanya mengembalikan teks isi tanpa tag HTML.
tika-app sepertinya menggunakan TransformerHandler untuk mendapatkan HTML (Saya belum pernah mendengar penangan semacam ini sebelumnya.) Bisakah saya menggunakan ini untuk mendapatkan HTML dari tag <body> dan mengurai sendiri tag meta? Apakah ini cara yang lebih baik daripada menggunakan ToHTMLContentHandler?

java xml-parsing apache-tika

Sonson123 25.02.2013 sumber

Jawaban (1)

arrow_upward
2
arrow_downward

Periksa untuk melihat apakah tautan berikut sedikit membantu Anda..

Deteksi Konten, Metadata, dan Konten Ekstraksi dengan Apache Tika

Mengurai HTML dengan Apache Tika

Div Tiwari 19.03.2013

comment

Terima kasih, saya tidak mengetahui artikel menarik ini, tetapi artikel tersebut tidak menyelesaikan masalah saya. Saya akhirnya menggunakan TransformerHandler yang juga berfungsi setelah tag <body> ketika saya memalsukan elemen <html>-start. - Sonson123; 19.03.2013

comment

Senang di sini itu! Jika Anda punya solusi untuk pertanyaan Anda, Anda dapat mempostingnya di sini dan menandai thread ini sebagai 'Terjawab'. Jadi, orang lain yang memiliki pertanyaan serupa bisa mendapatkan referensi dari sini. - Div Tiwari; 26.03.2013

comment

Sulit untuk memposting versi umum dari solusi saya dan itu hanya peretasan. Jika ada orang lain yang memiliki masalah serupa, saya akan menyarankan dia untuk melihat sumber tika-app dan membaca lebih lanjut tentang pemrosesan XSLT. - Sonson123; 26.03.2013

Parsing meta tag dan dapatkan konten HTML dari badan dengan Tika

Jawaban (1)

Pertanyaan tentang topik tersebut