การแปลงเสียงของคุณเป็นข้อความด้วย Amazon Transcribe

สร้างคำศัพท์ที่กำหนดเองเพื่อปรับปรุงการถอดเสียงของคุณ

Amazon Transcribe เป็นหนึ่งในข้อเสนอแมชชีนเลิร์นนิงของ Amazon Web Services (AWS) คุณป้อนข้อมูลเสียงหรือวิดีโอ Transcribe จะแปลงเป็นข้อความ ทำให้คุณสามารถระบุภาษาที่ใช้และจำนวนผู้พูดในกระบวนการได้ จากนั้น คุณสามารถนำการถอดเสียงนี้และทำสิ่งต่างๆ ได้หลายอย่าง รวมถึงการค้นหา การวิเคราะห์ คำบรรยาย การแปล หรือแม้แต่ป้อนกลับเข้าไปใน "Amazon Polly" เพื่ออ่านการถอดเสียงของคุณกลับมาให้คุณ

การทดสอบการถอดเสียง Amazon ของฉัน

เมื่อคุณเริ่มงาน Transcribe ระบบจะขอให้คุณเลือกภาษาที่กำลังพูด หรือให้ Transcribe ตรวจพบภาษานั้นให้คุณโดยอัตโนมัติ

การบันทึกของฉันเป็นภาษาอังกฤษ แต่ฉันมีคำถามสองข้อ:

สามารถเข้าใจคำและวลีภาษาต่างประเทศที่บางครั้งนำมาสู่ภาษาอังกฤษในชีวิตประจำวันได้ดีแค่ไหน?
มันเข้าใจศัพท์เฉพาะทางเทคนิคได้ดีแค่ไหน?

ด้วยเหตุนี้ ฉันจึงบันทึกตัวเองโดยอ่านข้อความต่อไปนี้:

Hi my name is Amanda and I'm going to test out AWS Transcribe.
Here are a few foreign words and phrases that pop up in English:

quid pro quo
ad nauseum
c'est la vie
laissez faire
doppelganger
schadenfreude
shinkansen
tatami

Now, here are few tech words:

JSON
gif
git commit
s3
JWT
OAuth
DevOps
ec2

เพื่อให้เข้าใจง่ายขึ้น ฉันเป็นเจ้าของภาษาอังกฤษและมีสำเนียงอเมริกันมิดเวสต์ที่เป็นกลางพอสมควร

นอกจากนี้ คำและวลีที่ฉันเลือกไม่มีสัมผัสหรือเหตุผลใดๆ เลย นอกจากคำและวลีแรกที่เข้ามาในใจ!

Transcribe ทำอย่างไร?

จริงๆ แล้วฉันรู้สึกประหลาดใจ แต่มันก็ไม่ได้ดีขนาดนั้นจริงๆ อย่างน้อยก็เมื่อได้อ่านบทถอดเสียง:

การใช้คำศัพท์ที่กำหนดเอง

หนึ่งในคุณสมบัติของ Transcribe คือให้คุณใช้คำศัพท์ที่กำหนดเองเพื่อปรับปรุงความแม่นยำของธุรกรรม

การใช้รายการคำศัพท์

รายการคำศัพท์มีพลังน้อยกว่าคำศัพท์ตาราง แต่สร้างได้ง่ายมาก

หากต้องการสร้างไฟล์นี้ คุณเพียงแค่สร้างรายการคำที่คุณกำหนดเองทั้งหมด โปรดทราบว่า อนุญาตให้ใช้อักขระบางตัวเท่านั้น (ไม่รวมช่องว่าง ต้องใช้เครื่องหมายขีดกลางแทน)
นี่คือรายการคำศัพท์ที่ฉันให้ไว้:

quid-pro-quo
ad-nauseum
c'est-la-vie
laissez-faire
doppelganger
schadenfreude
shinkasen
tatami
JSON
gif
git-commit
JWT
OAuth
DevOps
EC-Two
s-Three

เอาท์พุต

จากนั้น ฉันรันงานถอดเสียงใหม่ โดยปรับแต่งให้ใช้คำศัพท์ใหม่:

และนี่คือข้อความถอดเสียงที่ฉันได้รับกลับมา:

มันไม่สมบูรณ์แบบ แต่ดีกว่า!

การใช้คำศัพท์ตาราง

คำศัพท์ตารางมีประสิทธิภาพมากกว่ามาก และดังนั้นจึงเป็นวิธีที่แนะนำในการสร้างคำศัพท์ ต่างจากคำศัพท์ในรายการตรงที่ต้องจัดเก็บไว้ในบัคเก็ต s3

คำศัพท์ตารางประกอบด้วยสี่คอลัมน์:

Phrase — โดยพื้นฐานแล้วนี่เป็นอินพุตเดียวกับรายการคำศัพท์
SoundsLike— นี่คือคอลัมน์เสริมที่คุณสามารถใช้เพื่อ "ออกเสียง" วลีของคุณ ฉันพยายามอย่างดีที่สุดเพื่อสร้างคอลัมน์นี้สำหรับทุกๆ รายการ
IPA — นี่เป็นอีกคอลัมน์ทางเลือกที่ใช้อักขระใน "International Phonetic Alphabet" เนื่องจากฉันไม่รู้ว่าจะเริ่มต้นอย่างไร ฉันจึงเว้นคอลัมน์นี้ว่างไว้ โปรดทราบว่าคุณไม่สามารถระบุ ทั้ง SoundsLike และ IPA
DisplayAs — สุดท้ายนี้ คุณต้องการให้วลีของคุณมีลักษณะเช่นนี้ในการถอดเสียง นี่เป็นสิ่งสำคัญสำหรับวลีที่ฉันไม่ต้องการต้องการให้มียัติภังค์อยู่ หรือสำหรับวลีและตัวย่อที่อาจมีตัวเลข (s3, ec2 ฯลฯ)

มีกฎอื่นๆ อีกหลายข้อเกี่ยวกับวิธีการจัดรูปแบบตาราง ซึ่งสามารถอ้างอิงได้ "ที่นี่" แม้ว่าจะอ่านยากเล็กน้อย แต่นี่คือสิ่งที่ฉันป้อนสำหรับคำศัพท์ตารางของฉัน:

Phrase SoundsLike IPA DisplayAs
quid-pro-quo quid-pro-quo  quid pro quo
ad-nauseum ad-naws-e-um  ad naseum
c'est-la-vie say-la-vee  c'est la vie
laissez-faire la-zay-fair  laissez-faire
doppelganger dop-el-gang-er  doppelganger
schadenfreude shaa-dun-froy-duh  schadenfreude
shinkasen shin-ka-sen  shinkasen
tatami ta-ta-mi  tatami
JSON jason  JSON
gif jiff  gif
git-commit get-commit  git commit
JWT jot  JWT
OAuth o-auth  OAuth
DevOps dev-ops  DevOps
EC-Two ee-cee-two  EC2
s-Three ess-three  S3

การรันงานการถอดเสียงด้วย Table Vocabulary นี้ให้ผลลัพธ์ดังต่อไปนี้:

ยังมีบางสิ่งที่ไม่ได้รับ (อย่างแรกคือ AWS ทำให้ฉันประหลาดใจมาก — ฉันไม่ได้รวมมันไว้ในคำศัพท์ใดคำหนึ่ง แต่ฉันไม่คิดว่ามันจะต้องใช้มัน!) แต่โดยรวมแล้วมันก็ทำได้มาก ทำงานได้ดีขึ้นและแสดงวลีในรูปแบบที่อ่านง่ายกว่ามากด้วยคอลัมน์ DisplayAs!

ข้อแม้…และการทดสอบเพิ่มเติม

ณ จุดนี้ คุณอาจกำลังคิดว่า: ใครเป็นคนบันทึกตัวเองโดยพูดรายการคำศัพท์? จะดีกว่าไหมหากคุณใช้คำเหล่านั้นในประโยค

นี่เป็นเรื่องจริง การบันทึกของเรามักจะเป็นมากกว่ารายการคำศัพท์ และด้วยเหตุนี้ ฉันจึงปรับปรุงการบันทึกต้นฉบับของฉันให้มีดังต่อไปนี้:

Hi my name is Amanda and I'm going to test out AWS Transcribe.

* I'll return the favor, quid pro quo.
* The management team had discussed the new policy ad nauseum.
* That's an unfortunate situation but, c'est la vie.
* Her laissez-faire attitude was affecting her work.
* I accidentally said hello to my friend's doppelganger.
* Her failure gave me a sense of schadenfreude.
* We rode the shinkansen from Tokyo to Kyoto.
* The floors were covered in tatami mats.

Now, here are few tech words:

* Please structure the data as JSON.
* She sent a funny gif to her friends.
* I ran a git commit with my changes.
* Upload your results to an s3 bucket.
* A JSON web token is otherwise known as a JWT.
* Obtain OAuth credentials.
* The DevOps team was running an important test.
* I need to boot a new ec2 instance.

และนี่คือวิธีที่การถอดเสียงกลับมา โดยไม่ได้เลือกคำศัพท์ใดเลย:

และนี่คือวิธีที่การถอดเสียงกลับมาพร้อมกับ Table Vocabulary ของฉัน (ที่มีประสิทธิภาพดีกว่าของทั้งสอง) ที่ใช้งานอยู่:

แม้ว่าจะไม่มีคำศัพท์ตาราง การใช้คำในประโยคทำให้การถอดเสียงดีขึ้นมาก เทียบกับการอ่านรายการคำศัพท์

ฉันเชื่อว่าโมเดลพื้นฐานอาจใช้การรับรู้บริบทเพื่อช่วยตัดสินใจเกี่ยวกับคำศัพท์ที่ได้ยิน โดยไม่ได้เป็นผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงหรือรู้ว่า Transcribe ทำงานอย่างไร tatami mats อาจเป็นวลีที่ใช้บ่อยกว่า to Tommy mats

บทสรุป

ฉันพยายามเรียนรู้เพิ่มเติมเกี่ยวกับข้อเสนอแมชชีนเลิร์นนิงของ AWS และแม้ว่าการทดสอบของฉันที่นี่เป็นเพียงการทดลองที่สนุกสนาน แต่ก็ชัดเจนว่า Amazon Transcribe สามารถเป็นเครื่องมือที่ทรงพลังและใช้งานง่าย และการจัดเตรียมคำศัพท์แบบกำหนดเองให้กับมันได้ ช่วยทำให้มีพลังมากยิ่งขึ้น

ฉันหวังว่าคุณจะพบว่าบทความนี้มีประโยชน์! ฉันอยากรู้ว่า — คุณใช้ Amazon Transcribe เพื่ออะไร

เนื้อหาเพิ่มเติมได้ที่ PlainEnglish.io.

ลงทะเบียนเพื่อรับ จดหมายข่าวรายสัปดาห์ฟรี ของเรา ติดตามเราบน Twitter, LinkedIn, YouTube และ Discord .

สนใจที่จะขยายขนาดการเริ่มต้นซอฟต์แวร์ของคุณหรือไม่ ลองดูที่ วงจร