แยกวิเคราะห์เมตาแท็กและรับเนื้อหา HTML จากเนื้อหาด้วย Tika

ฉันแยกวิเคราะห์ไฟล์ด้วยไลบรารี Apache Tika ที่ยอดเยี่ยม ฉันต้องการแยกเมตาแท็กด้วยตัวแยกวิเคราะห์ของตัวเอง จากนั้นรับเนื้อหาจากแท็ก <body> เป็น HTML เท่านั้น และจัดเก็บไว้ในฐานข้อมูล

ฉันได้ลองสิ่งนี้เป็นเวลาหลายชั่วโมง / วัน :-( แต่ไม่สามารถหาวิธีแก้ไขได้:

เมื่อฉันใช้ ToHTMLContentHandler หลัง แท็ก <body> ฉันจะได้รับข้อยกเว้นด้วยเนมสเปซที่ไม่ถูกต้องโดยไม่มีแท็ก <html>
BodyContentHandler ส่งคืนข้อความเนื้อหาโดยไม่มีแท็ก HTML
ดูเหมือนว่า tika-app จะใช้ TransformerHandler เพื่อรับ HTML (ฉันไม่เคยได้ยินเกี่ยวกับตัวจัดการประเภทนี้มาก่อน) ฉันสามารถใช้สิ่งนี้เพื่อรับ HTML จากแท็ก <body> และแยกวิเคราะห์เมตาแท็กด้วยตัวเองได้หรือไม่ นี่เป็นวิธีที่ดีกว่าการใช้ ToHTMLContentHandler หรือไม่

java xml-parsing apache-tika

Sonson123 25.02.2013 แหล่งที่มา

คำตอบ (1)

arrow_upward
2
arrow_downward

ตรวจสอบดูว่าลิงก์ต่อไปนี้ช่วยคุณได้หรือไม่ ..

การตรวจจับเนื้อหา ข้อมูลเมตา และเนื้อหา การสกัดด้วย Apache Tika

แยกวิเคราะห์ HTML ด้วย Apache Tika

Div Tiwari 19.03.2013

comment

ขอบคุณ ฉันไม่รู้บทความที่น่าสนใจเหล่านี้ แต่ไม่ได้แก้ปัญหาของฉัน ฉันสิ้นสุดการใช้ TransformerHandler ซึ่งใช้งานได้หลังแท็ก <body> เมื่อฉันแกล้งทำเป็นองค์ประกอบ <html>-start - Sonson123; 19.03.2013

comment

ดีใจที่ได้มาที่นี่! หากคุณมีวิธีแก้ปัญหาสำหรับคำถามของคุณ คุณสามารถโพสต์ไว้ที่นี่และทำเครื่องหมายกระทู้นี้ว่า 'ตอบแล้ว' ดังนั้น คนอื่นๆ ที่มีคำถามคล้ายกันสามารถรับข้อมูลอ้างอิงได้จากที่นี่ - Div Tiwari; 26.03.2013

comment

เป็นการยากที่จะโพสต์เวอร์ชันทั่วไปของโซลูชันของฉัน และเป็นเพียงการแฮ็กเท่านั้น หากใครมีปัญหาที่คล้ายกัน ฉันขอแนะนำให้เขาดูแหล่งที่มาของ tika-app และอ่านเพิ่มเติมเกี่ยวกับการประมวลผล XSLT - Sonson123; 26.03.2013

แยกวิเคราะห์เมตาแท็กและรับเนื้อหา HTML จากเนื้อหาด้วย Tika

คำตอบ (1)

คำถามในหัวข้อ