แยกวิเคราะห์เมตาแท็กและรับเนื้อหา HTML จากเนื้อหาด้วย Tika

ฉันแยกวิเคราะห์ไฟล์ด้วยไลบรารี Apache Tika ที่ยอดเยี่ยม ฉันต้องการแยกเมตาแท็กด้วยตัวแยกวิเคราะห์ของตัวเอง จากนั้นรับเนื้อหาจากแท็ก <body> เป็น HTML เท่านั้น และจัดเก็บไว้ในฐานข้อมูล

ฉันได้ลองสิ่งนี้เป็นเวลาหลายชั่วโมง / วัน :-( แต่ไม่สามารถหาวิธีแก้ไขได้:

  • เมื่อฉันใช้ ToHTMLContentHandler หลัง แท็ก <body> ฉันจะได้รับข้อยกเว้นด้วยเนมสเปซที่ไม่ถูกต้องโดยไม่มีแท็ก <html>
  • BodyContentHandler ส่งคืนข้อความเนื้อหาโดยไม่มีแท็ก HTML
  • ดูเหมือนว่า tika-app จะใช้ TransformerHandler เพื่อรับ HTML (ฉันไม่เคยได้ยินเกี่ยวกับตัวจัดการประเภทนี้มาก่อน) ฉันสามารถใช้สิ่งนี้เพื่อรับ HTML จากแท็ก <body> และแยกวิเคราะห์เมตาแท็กด้วยตัวเองได้หรือไม่ นี่เป็นวิธีที่ดีกว่าการใช้ ToHTMLContentHandler หรือไม่

person Sonson123    schedule 25.02.2013    source แหล่งที่มา


คำตอบ (1)


ตรวจสอบดูว่าลิงก์ต่อไปนี้ช่วยคุณได้หรือไม่ ..

การตรวจจับเนื้อหา ข้อมูลเมตา และเนื้อหา การสกัดด้วย Apache Tika

แยกวิเคราะห์ HTML ด้วย Apache Tika

person Div Tiwari    schedule 19.03.2013
comment
ขอบคุณ ฉันไม่รู้บทความที่น่าสนใจเหล่านี้ แต่ไม่ได้แก้ปัญหาของฉัน ฉันสิ้นสุดการใช้ TransformerHandler ซึ่งใช้งานได้หลังแท็ก <body> เมื่อฉันแกล้งทำเป็นองค์ประกอบ <html>-start - person Sonson123; 19.03.2013
comment
ดีใจที่ได้มาที่นี่! หากคุณมีวิธีแก้ปัญหาสำหรับคำถามของคุณ คุณสามารถโพสต์ไว้ที่นี่และทำเครื่องหมายกระทู้นี้ว่า 'ตอบแล้ว' ดังนั้น คนอื่นๆ ที่มีคำถามคล้ายกันสามารถรับข้อมูลอ้างอิงได้จากที่นี่ - person Div Tiwari; 26.03.2013
comment
เป็นการยากที่จะโพสต์เวอร์ชันทั่วไปของโซลูชันของฉัน และเป็นเพียงการแฮ็กเท่านั้น หากใครมีปัญหาที่คล้ายกัน ฉันขอแนะนำให้เขาดูแหล่งที่มาของ tika-app และอ่านเพิ่มเติมเกี่ยวกับการประมวลผล XSLT - person Sonson123; 26.03.2013