Bangun kosakata khusus untuk meningkatkan transkripsi Anda

Amazon Transcribe adalah salah satu penawaran pembelajaran mesin Amazon Web Services (AWS). Anda memasukkan audio atau video; Transkripsikan mengubahnya menjadi teks, memungkinkan Anda mengidentifikasi bahasa yang digunakan dan jumlah penutur dalam prosesnya. Anda kemudian dapat mengambil transkripsi ini dan melakukan banyak hal dengannya, termasuk pencarian, analitik, subtitle, terjemahan, atau bahkan memasukkannya kembali ke “Amazon Polly” untuk membacakan transkripsi Anda kembali kepada Anda.

Tes Transkrip Amazon saya

Saat memulai tugas Transkrip, Anda akan diminta memilih bahasa yang digunakan — atau meminta Transkrip mendeteksinya secara otomatis untuk Anda.

Rekaman saya dalam bahasa Inggris, tapi saya punya dua pertanyaan:

  1. Seberapa baikkah ia menangkap kata-kata dan frasa asing yang kadang-kadang digunakan dalam bahasa Inggris sehari-hari?
  2. Seberapa baik ia menangkap jargon teknis?

Untuk tujuan ini, saya merekam diri saya membaca teks berikut:

Hi my name is Amanda and I'm going to test out AWS Transcribe.
Here are a few foreign words and phrases that pop up in English:

quid pro quo
ad nauseum
c'est la vie
laissez faire
doppelganger
schadenfreude
shinkansen
tatami

Now, here are few tech words:

JSON
gif
git commit
s3
JWT
OAuth
DevOps
ec2

Untuk konteks lebih lanjut, saya adalah penutur asli bahasa Inggris, dengan aksen Amerika Midwestern yang cukup netral.

Selain itu, tidak ada rima atau alasan pada kata dan frasa yang saya pilih, selain itulah kata-kata dan frasa pertama yang terlintas dalam pikiran!

Bagaimana cara Transkrip melakukannya?

Sejujurnya, saya terkejut, tapi sebenarnya tidak terlalu bagus, setidaknya membaca transkripsinya:

Menggunakan Kosakata Khusus

Salah satu fitur Transkrip adalah memungkinkan Anda menggunakan kosakata khusus untuk meningkatkan akurasi transaksi.

Menggunakan Daftar Kosakata

Daftar Kosakata kurang kuat dibandingkan Kosakata Tabel, namun sangat mudah untuk dibuat.

Untuk membuat file ini, Anda cukup membuat daftar semua kata khusus Anda. Perhatikan bahwa hanya karakter tertentu yang diperbolehkan (spasi tidak disertakan, harus menggunakan tanda hubung).
Berikut Daftar Kosakata yang saya berikan:

quid-pro-quo
ad-nauseum
c'est-la-vie
laissez-faire
doppelganger
schadenfreude
shinkasen
tatami
JSON
gif
git-commit
JWT
OAuth
DevOps
EC-Two
s-Three

Keluaran

Saya kemudian menjalankan ulang pekerjaan transkripsi saya, menyesuaikannya untuk menggunakan Vocab baru saya:

Dan inilah transkripsi yang saya dapatkan kembali:

Itu tidak sempurna, tapi lebih baik!

Menggunakan Kosakata Tabel

Tabel Kosakata jauh lebih kuat, dan oleh karena itu merupakan cara yang disarankan untuk membuat kosakata. Berbeda dengan daftar kosakata, kosakata tersebut harus disimpan dalam ember s3.

Tabel Kosakata berisi empat kolom:

  1. Phrase — Ini pada dasarnya adalah masukan yang sama dengan Daftar Kosakata.
  2. SoundsLike— Ini adalah kolom opsional yang dapat Anda gunakan untuk “membunyikan” frasa Anda. Saya mencoba yang terbaik untuk membuat kolom ini untuk setiap entri.
  3. IPA — Ini adalah kolom opsional lainnya yang menggunakan karakter dalam Alfabet Fonetik Internasional. Karena saya tidak tahu harus mulai dari mana, saya biarkan kolom ini kosong. Perlu diperhatikan bahwa Anda tidak dapat memberikan keduanya SoundsLike dan IPA .
  4. DisplayAs — Terakhir, frasa yang Anda inginkan dalam transkripsi akan terlihat seperti ini. Hal ini penting untuk frasa yang saya tidakinginkan menggunakan tanda hubung, atau untuk frasa dan akronim yang dapat berisi angka (s3, ec2, dll.).

Ada sejumlah aturan lain tentang bagaimana tabel diformat, yang dapat dirujuk di sini. Meski agak sulit dibaca, berikut yang saya masukan untuk Tabel Kosakata saya:

Phrase SoundsLike IPA DisplayAs
quid-pro-quo quid-pro-quo  quid pro quo
ad-nauseum ad-naws-e-um  ad naseum
c'est-la-vie say-la-vee  c'est la vie
laissez-faire la-zay-fair  laissez-faire
doppelganger dop-el-gang-er  doppelganger
schadenfreude shaa-dun-froy-duh  schadenfreude
shinkasen shin-ka-sen  shinkasen
tatami ta-ta-mi  tatami
JSON jason  JSON
gif jiff  gif
git-commit get-commit  git commit
JWT jot  JWT
OAuth o-auth  OAuth
DevOps dev-ops  DevOps
EC-Two ee-cee-two  EC2
s-Three ess-three  S3

Menjalankan pekerjaan transkripsi dengan Tabel Kosakata ini menghasilkan output berikut:

Masih ada beberapa hal yang tidak didapatkannya (AWS, salah satunya, benar-benar mengejutkan saya — saya tidak memasukkannya ke dalam salah satu kosa kata tersebut, namun menurut saya ia tidak memerlukannya!) namun secara keseluruhan hal ini sangat bermanfaat. pekerjaan yang lebih baik dan menampilkan frasa dalam format yang lebih mudah dibaca berkat kolom DisplayAs!

Peringatan…dan Pengujian Tambahan

Pada titik ini, Anda mungkin berpikir: Siapa yang baru saja merekam dirinya mengucapkan daftar kata? Bukankah lebih baik jika Anda menggunakan kata-kata itu dalam sebuah kalimat?

Ini benar. Rekaman kami biasanya lebih dari sekadar daftar kata-kata, dan untuk itu, saya mengubah rekaman asli saya menjadi sebagai berikut:

Hi my name is Amanda and I'm going to test out AWS Transcribe.

* I'll return the favor, quid pro quo.
* The management team had discussed the new policy ad nauseum.
* That's an unfortunate situation but, c'est la vie.
* Her laissez-faire attitude was affecting her work.
* I accidentally said hello to my friend's doppelganger.
* Her failure gave me a sense of schadenfreude.
* We rode the shinkansen from Tokyo to Kyoto.
* The floors were covered in tatami mats.

Now, here are few tech words:

* Please structure the data as JSON.
* She sent a funny gif to her friends.
* I ran a git commit with my changes.
* Upload your results to an s3 bucket.
* A JSON web token is otherwise known as a JWT.
* Obtain OAuth credentials.
* The DevOps team was running an important test.
* I need to boot a new ec2 instance.

Dan beginilah transkripsinya muncul kembali, tanpa satu pun kosakata saya yang dipilih:

Dan inilah cara transkripsi kembali dengan Tabel Kosakata saya (yang berkinerja lebih baik dari keduanya) yang digunakan:

Bahkan tanpa kosakata Tabel, menggunakan kata-kata dalam kalimat membuat transkripsi jauh lebih baik dibandingkan. hanya membaca daftar kata.

Tanpa menjadi ahli pembelajaran mesin atau mengetahui cara kerja Transkrip, saya yakin model dasarnya mungkin menggunakan kesadaran konteks untuk membantunya memutuskan kata yang didengarnya. tatami mats mungkin merupakan frasa yang lebih sering digunakan daripada to Tommy mats .

Kesimpulan

Saya telah mencoba mempelajari lebih lanjut tentang penawaran pembelajaran mesin AWS, dan meskipun pengujian saya di sini hanyalah eksperimen yang menyenangkan, jelas bahwa Amazon Transcribe dapat menjadi alat yang kuat dan mudah digunakan, dan menyediakannya dengan kosakata khusus dapat membantu. membantu menjadikannya lebih kuat.

Saya harap artikel ini bermanfaat bagi Anda! Saya ingin tahu — untuk apa Anda menggunakan Amazon Transcribe?

Konten lainnya di PlainEnglish.io.

Daftar ke buletin mingguan gratis kami. Ikuti kami di "Twitter", "LinkedIn", "YouTube", dan "Discord" .

Tertarik untuk meningkatkan skala startup perangkat lunak Anda? Lihat "Sirkuit".