1. Easter2.0: การปรับปรุงโมเดล Convolutional สำหรับการรู้จำข้อความที่เขียนด้วยลายมือ (arXiv)

ผู้แต่ง : Kartik Chaudhary, Raghav Bali

บทคัดย่อ: Convolutional Neural Networks (CNN) ได้แสดงให้เห็นผลลัพธ์ที่น่าหวังสำหรับงาน Handwriting Text Recognition (HTR) แต่ยังคงตามหลัง Recurrent Neural Networks (RNNs)/Transformer based models ในแง่ของประสิทธิภาพ ในบทความนี้ เราเสนอสถาปัตยกรรมที่ใช้ CNN ซึ่งเชื่อมช่องว่างนี้ งานของเรา Easter2.0 ประกอบด้วยเลเยอร์ 1D Convolution, Batch Normalization, ReLU, Dropout, การเชื่อมต่อ Dense Residual, โมดูล Squeeze-and-Excitation และใช้ประโยชน์จากการสูญเสีย Connectionist Temporal Classification (CTC) นอกเหนือจากสถาปัตยกรรม Easter2.0 แล้ว เรายังเสนอเทคนิคการเพิ่มข้อมูลที่เรียบง่ายและมีประสิทธิภาพ 'การปูกระเบื้องและการทุจริต (TACO)' ที่เกี่ยวข้องกับงาน HTR/OCR งานของเราบรรลุผลลัพธ์ที่ล้ำสมัยบนฐานข้อมูลการเขียนด้วยลายมือ IAM เมื่อฝึกฝนโดยใช้เฉพาะข้อมูลการฝึกอบรมที่เปิดเผยต่อสาธารณะเท่านั้น ในการทดลองของเรา เรายังนำเสนอผลกระทบของการเพิ่ม TACO และ Squeeze-and-Excitation (SE) ต่อความแม่นยำในการรู้จำข้อความ เรายังแสดงให้เห็นอีกว่า Easter2.0 เหมาะสำหรับงานการเรียนรู้แบบไม่กี่ช็อต และทำงานได้ดีกว่าวิธีการที่ดีที่สุดในปัจจุบัน รวมถึง Transformers เมื่อได้รับการฝึกฝนกับข้อมูลที่มีคำอธิบายประกอบจำนวนจำกัด รหัสและรุ่นสามารถดูได้ที่: https://github.com/kartikgill/Easter2

2. การรู้จำข้อความที่เขียนด้วยลายมือแบบโอเพ่นซอร์สบนต้นฉบับยุคกลางโดยใช้แบบจำลองผสมและการปรับแต่งเฉพาะเอกสาร (arXiv)

ผู้แต่ง : Christian Reul, Stefan Tomasek, Florian Langhanki, Uwe Springmann

บทคัดย่อ : บทความนี้เกี่ยวข้องกับงานการรู้จำข้อความที่เขียนด้วยลายมือ (HTR) ที่ใช้งานได้จริงและโอเพ่นซอร์สในต้นฉบับยุคกลางของเยอรมัน เรารายงานความพยายามของเราในการสร้างโมเดลการจดจำแบบผสมซึ่งสามารถนำไปใช้ได้ทันทีโดยไม่ต้องมีการฝึกอบรมเฉพาะเอกสารเพิ่มเติม แต่ยังทำหน้าที่เป็นจุดเริ่มต้นสำหรับการปรับแต่งโดยการฝึกโมเดลใหม่บนข้อความที่ถอดเสียงไม่กี่หน้า ( ความจริงพื้นฐาน) เพื่อฝึกแบบจำลองแบบผสม เราได้รวบรวมต้นฉบับจำนวน 35 ฉบับและประมาณ บรรทัดข้อความ 12.5,000 บรรทัดสำหรับสไตล์การเขียนด้วยลายมือสองรูปแบบที่ใช้กันอย่างแพร่หลาย ได้แก่ แบบกอธิคและแบบ Bastarda การประเมินแบบจำลองแบบผสมทันทีกับต้นฉบับที่มองไม่เห็นสี่ฉบับส่งผลให้อัตราความผิดพลาดของอักขระ (CER) โดยเฉลี่ยอยู่ที่ 6.22% หลังจากการฝึกอบรมในวันที่ 2, 4 และ 32 หน้าในที่สุด CER ก็ลดลงเหลือ 3.27%, 2.58% และ 1.65% ตามลำดับ ในขณะที่การจดจำและการฝึกโมเดลในโดเมน (โมเดล Bastarda ไปจนถึงวัสดุ Bastarda, Gothic ถึง Gothic) ให้ผลลัพธ์ที่ดีที่สุดอย่างไม่น่าแปลกใจ แต่การปรับแต่งโมเดลนอกโดเมนอย่างละเอียดให้เป็นสคริปต์ที่มองไม่เห็นยังคงแสดงให้เห็นว่าเหนือกว่าการฝึกตั้งแต่เริ่มต้น โมเดลแบบผสมใหม่ของเราได้รับการเผยแพร่สู่ชุมชนอย่างเปิดเผย