1. Easter2.0: Meningkatkan model konvolusional untuk pengenalan teks tulisan tangan (arXiv)

Penulis : Kartik Chaudhary, Raghav Bali

Abstrak : Convolutional Neural Networks (CNN) telah menunjukkan hasil yang menjanjikan untuk tugas Pengenalan Teks Tulisan Tangan (HTR) tetapi mereka masih tertinggal dari model berbasis Recurrent Neural Networks (RNNs)/Transformer dalam hal kinerja. Dalam makalah ini, kami mengusulkan arsitektur berbasis CNN yang menjembatani kesenjangan ini. Pekerjaan kami, Easter2.0, terdiri dari beberapa lapisan Konvolusi 1D, Normalisasi Batch, ReLU, Dropout, koneksi Residu Padat, modul Squeeze-and-Exitation dan memanfaatkan kerugian Connectionist Temporal Classification (CTC). Selain arsitektur Easter2.0, kami mengusulkan teknik augmentasi data yang sederhana dan efektif ‘Tiling and Corruption (TACO)’ yang relevan untuk tugas HTR/OCR. Pekerjaan kami mencapai hasil mutakhir pada database tulisan tangan IAM ketika dilatih hanya menggunakan data pelatihan yang tersedia untuk umum. Dalam eksperimen kami, kami juga menyajikan dampak augmentasi TACO dan Squeeze-and-Exitation (SE) terhadap akurasi pengenalan teks. Kami selanjutnya menunjukkan bahwa Easter2.0 cocok untuk tugas pembelajaran beberapa kali dan mengungguli metode terbaik saat ini termasuk Transformers ketika dilatih pada data beranotasi dalam jumlah terbatas. Kode dan model tersedia di: https://github.com/kartikgill/Easter2

2. Pengenalan Teks Tulisan Tangan Sumber Terbuka pada Naskah Abad Pertengahan menggunakan Model Campuran dan Penyempurnaan Khusus Dokumen (arXiv)

Penulis : Christian Reul, Stefan Tomasek, Florian Langhanki, Uwe Springmann

Abstrak : Tulisan ini membahas tentang tugas praktikal dan open source Pengenalan Teks Tulisan Tangan (HTR) pada naskah abad pertengahan Jerman. Kami melaporkan upaya kami untuk membangun model pengenalan campuran yang dapat diterapkan langsung tanpa pelatihan khusus dokumen lebih lanjut, namun juga berfungsi sebagai titik awal untuk penyempurnaan dengan melatih model baru pada beberapa halaman teks yang ditranskripsi ( kebenaran dasar). Untuk melatih model campuran kami mengumpulkan korpus yang terdiri dari 35 manuskrip dan ca. Baris teks 12,5 ribu untuk dua gaya tulisan tangan yang banyak digunakan, kursif Gotik dan Bastarda. Mengevaluasi model campuran secara out-of-the-box pada empat naskah yang belum terlihat menghasilkan rata-rata Tingkat Kesalahan Karakter (CER) sebesar 6,22%. Setelah pelatihan pada 2, 4 dan akhirnya 32 halaman, CER turun masing-masing menjadi 3,27%, 2,58%, dan 1,65%. Meskipun pengenalan dan pelatihan model dalam domain (model Bastarda ke materi Bastarda, Gotik ke Gotik) secara mengejutkan memberikan hasil terbaik, menyempurnakan model di luar domain ke skrip yang tidak terlihat masih terbukti lebih unggul daripada pelatihan dari awal. Model campuran baru kami telah tersedia secara terbuka untuk komunitas.