ฉันแยกวิเคราะห์ไฟล์ด้วยไลบรารี Apache Tika ที่ยอดเยี่ยม ฉันต้องการแยกเมตาแท็กด้วยตัวแยกวิเคราะห์ของตัวเอง จากนั้นรับเนื้อหาจากแท็ก <body>
เป็น HTML เท่านั้น และจัดเก็บไว้ในฐานข้อมูล
ฉันได้ลองสิ่งนี้เป็นเวลาหลายชั่วโมง / วัน :-( แต่ไม่สามารถหาวิธีแก้ไขได้:
- เมื่อฉันใช้
ToHTMLContentHandler
หลัง แท็ก<body>
ฉันจะได้รับข้อยกเว้นด้วยเนมสเปซที่ไม่ถูกต้องโดยไม่มีแท็ก<html>
BodyContentHandler
ส่งคืนข้อความเนื้อหาโดยไม่มีแท็ก HTML- ดูเหมือนว่า
tika-app
จะใช้TransformerHandler
เพื่อรับ HTML (ฉันไม่เคยได้ยินเกี่ยวกับตัวจัดการประเภทนี้มาก่อน) ฉันสามารถใช้สิ่งนี้เพื่อรับ HTML จากแท็ก<body>
และแยกวิเคราะห์เมตาแท็กด้วยตัวเองได้หรือไม่ นี่เป็นวิธีที่ดีกว่าการใช้ToHTMLContentHandler
หรือไม่