Parsing meta tag dan dapatkan konten HTML dari badan dengan Tika

Saya mengurai file dengan perpustakaan Apache Tika yang hebat. Saya ingin mengekstrak metatag dengan parser saya sendiri dan kemudian mendapatkan konten hanya dari tag <body> sebagai HTML dan menyimpannya dalam database.

Saya telah mencobanya sekarang selama berjam-jam/hari :-(, tetapi tidak dapat menemukan solusi:

  • Ketika saya menggunakan ToHTMLContentHandler setelah tag <body> saya mendapatkan pengecualian dengan namespace yang tidak valid tanpa tag <html>.
  • BodyContentHandler hanya mengembalikan teks isi tanpa tag HTML.
  • tika-app sepertinya menggunakan TransformerHandler untuk mendapatkan HTML (Saya belum pernah mendengar penangan semacam ini sebelumnya.) Bisakah saya menggunakan ini untuk mendapatkan HTML dari tag <body> dan mengurai sendiri tag meta? Apakah ini cara yang lebih baik daripada menggunakan ToHTMLContentHandler?

person Sonson123    schedule 25.02.2013    source sumber


Jawaban (1)


Periksa untuk melihat apakah tautan berikut sedikit membantu Anda..

Deteksi Konten, Metadata, dan Konten Ekstraksi dengan Apache Tika

Mengurai HTML dengan Apache Tika

person Div Tiwari    schedule 19.03.2013
comment
Terima kasih, saya tidak mengetahui artikel menarik ini, tetapi artikel tersebut tidak menyelesaikan masalah saya. Saya akhirnya menggunakan TransformerHandler yang juga berfungsi setelah tag <body> ketika saya memalsukan elemen <html>-start. - person Sonson123; 19.03.2013
comment
Senang di sini itu! Jika Anda punya solusi untuk pertanyaan Anda, Anda dapat mempostingnya di sini dan menandai thread ini sebagai 'Terjawab'. Jadi, orang lain yang memiliki pertanyaan serupa bisa mendapatkan referensi dari sini. - person Div Tiwari; 26.03.2013
comment
Sulit untuk memposting versi umum dari solusi saya dan itu hanya peretasan. Jika ada orang lain yang memiliki masalah serupa, saya akan menyarankan dia untuk melihat sumber tika-app dan membaca lebih lanjut tentang pemrosesan XSLT. - person Sonson123; 26.03.2013