สร้างคำศัพท์ที่กำหนดเองเพื่อปรับปรุงการถอดเสียงของคุณ
Amazon Transcribe เป็นหนึ่งในข้อเสนอแมชชีนเลิร์นนิงของ Amazon Web Services (AWS) คุณป้อนข้อมูลเสียงหรือวิดีโอ Transcribe จะแปลงเป็นข้อความ ทำให้คุณสามารถระบุภาษาที่ใช้และจำนวนผู้พูดในกระบวนการได้ จากนั้น คุณสามารถนำการถอดเสียงนี้และทำสิ่งต่างๆ ได้หลายอย่าง รวมถึงการค้นหา การวิเคราะห์ คำบรรยาย การแปล หรือแม้แต่ป้อนกลับเข้าไปใน "Amazon Polly" เพื่ออ่านการถอดเสียงของคุณกลับมาให้คุณ
การทดสอบการถอดเสียง Amazon ของฉัน
เมื่อคุณเริ่มงาน Transcribe ระบบจะขอให้คุณเลือกภาษาที่กำลังพูด หรือให้ Transcribe ตรวจพบภาษานั้นให้คุณโดยอัตโนมัติ
การบันทึกของฉันเป็นภาษาอังกฤษ แต่ฉันมีคำถามสองข้อ:
- สามารถเข้าใจคำและวลีภาษาต่างประเทศที่บางครั้งนำมาสู่ภาษาอังกฤษในชีวิตประจำวันได้ดีแค่ไหน?
- มันเข้าใจศัพท์เฉพาะทางเทคนิคได้ดีแค่ไหน?
ด้วยเหตุนี้ ฉันจึงบันทึกตัวเองโดยอ่านข้อความต่อไปนี้:
Hi my name is Amanda and I'm going to test out AWS Transcribe. Here are a few foreign words and phrases that pop up in English: quid pro quo ad nauseum c'est la vie laissez faire doppelganger schadenfreude shinkansen tatami Now, here are few tech words: JSON gif git commit s3 JWT OAuth DevOps ec2
เพื่อให้เข้าใจง่ายขึ้น ฉันเป็นเจ้าของภาษาอังกฤษและมีสำเนียงอเมริกันมิดเวสต์ที่เป็นกลางพอสมควร
นอกจากนี้ คำและวลีที่ฉันเลือกไม่มีสัมผัสหรือเหตุผลใดๆ เลย นอกจากคำและวลีแรกที่เข้ามาในใจ!
Transcribe ทำอย่างไร?
จริงๆ แล้วฉันรู้สึกประหลาดใจ แต่มันก็ไม่ได้ดีขนาดนั้นจริงๆ อย่างน้อยก็เมื่อได้อ่านบทถอดเสียง:
การใช้คำศัพท์ที่กำหนดเอง
หนึ่งในคุณสมบัติของ Transcribe คือให้คุณใช้คำศัพท์ที่กำหนดเองเพื่อปรับปรุงความแม่นยำของธุรกรรม
การใช้รายการคำศัพท์
รายการคำศัพท์มีพลังน้อยกว่าคำศัพท์ตาราง แต่สร้างได้ง่ายมาก
หากต้องการสร้างไฟล์นี้ คุณเพียงแค่สร้างรายการคำที่คุณกำหนดเองทั้งหมด โปรดทราบว่า อนุญาตให้ใช้อักขระบางตัวเท่านั้น (ไม่รวมช่องว่าง ต้องใช้เครื่องหมายขีดกลางแทน)
นี่คือรายการคำศัพท์ที่ฉันให้ไว้:
quid-pro-quo ad-nauseum c'est-la-vie laissez-faire doppelganger schadenfreude shinkasen tatami JSON gif git-commit JWT OAuth DevOps EC-Two s-Three
เอาท์พุต
จากนั้น ฉันรันงานถอดเสียงใหม่ โดยปรับแต่งให้ใช้คำศัพท์ใหม่:
และนี่คือข้อความถอดเสียงที่ฉันได้รับกลับมา:
มันไม่สมบูรณ์แบบ แต่ดีกว่า!
การใช้คำศัพท์ตาราง
คำศัพท์ตารางมีประสิทธิภาพมากกว่ามาก และดังนั้นจึงเป็นวิธีที่แนะนำในการสร้างคำศัพท์ ต่างจากคำศัพท์ในรายการตรงที่ต้องจัดเก็บไว้ในบัคเก็ต s3
คำศัพท์ตารางประกอบด้วยสี่คอลัมน์:
Phrase
— โดยพื้นฐานแล้วนี่เป็นอินพุตเดียวกับรายการคำศัพท์SoundsLike
— นี่คือคอลัมน์เสริมที่คุณสามารถใช้เพื่อ "ออกเสียง" วลีของคุณ ฉันพยายามอย่างดีที่สุดเพื่อสร้างคอลัมน์นี้สำหรับทุกๆ รายการIPA
— นี่เป็นอีกคอลัมน์ทางเลือกที่ใช้อักขระใน "International Phonetic Alphabet" เนื่องจากฉันไม่รู้ว่าจะเริ่มต้นอย่างไร ฉันจึงเว้นคอลัมน์นี้ว่างไว้ โปรดทราบว่าคุณไม่สามารถระบุ ทั้งSoundsLike
และIPA
DisplayAs
— สุดท้ายนี้ คุณต้องการให้วลีของคุณมีลักษณะเช่นนี้ในการถอดเสียง นี่เป็นสิ่งสำคัญสำหรับวลีที่ฉันไม่ต้องการต้องการให้มียัติภังค์อยู่ หรือสำหรับวลีและตัวย่อที่อาจมีตัวเลข (s3, ec2 ฯลฯ)
มีกฎอื่นๆ อีกหลายข้อเกี่ยวกับวิธีการจัดรูปแบบตาราง ซึ่งสามารถอ้างอิงได้ "ที่นี่" แม้ว่าจะอ่านยากเล็กน้อย แต่นี่คือสิ่งที่ฉันป้อนสำหรับคำศัพท์ตารางของฉัน:
Phrase SoundsLike IPA DisplayAs quid-pro-quo quid-pro-quo quid pro quo ad-nauseum ad-naws-e-um ad naseum c'est-la-vie say-la-vee c'est la vie laissez-faire la-zay-fair laissez-faire doppelganger dop-el-gang-er doppelganger schadenfreude shaa-dun-froy-duh schadenfreude shinkasen shin-ka-sen shinkasen tatami ta-ta-mi tatami JSON jason JSON gif jiff gif git-commit get-commit git commit JWT jot JWT OAuth o-auth OAuth DevOps dev-ops DevOps EC-Two ee-cee-two EC2 s-Three ess-three S3
การรันงานการถอดเสียงด้วย Table Vocabulary นี้ให้ผลลัพธ์ดังต่อไปนี้:
ยังมีบางสิ่งที่ไม่ได้รับ (อย่างแรกคือ AWS ทำให้ฉันประหลาดใจมาก — ฉันไม่ได้รวมมันไว้ในคำศัพท์ใดคำหนึ่ง แต่ฉันไม่คิดว่ามันจะต้องใช้มัน!) แต่โดยรวมแล้วมันก็ทำได้มาก ทำงานได้ดีขึ้นและแสดงวลีในรูปแบบที่อ่านง่ายกว่ามากด้วยคอลัมน์ DisplayAs
!
ข้อแม้…และการทดสอบเพิ่มเติม
ณ จุดนี้ คุณอาจกำลังคิดว่า: ใครเป็นคนบันทึกตัวเองโดยพูดรายการคำศัพท์? จะดีกว่าไหมหากคุณใช้คำเหล่านั้นในประโยค
นี่เป็นเรื่องจริง การบันทึกของเรามักจะเป็นมากกว่ารายการคำศัพท์ และด้วยเหตุนี้ ฉันจึงปรับปรุงการบันทึกต้นฉบับของฉันให้มีดังต่อไปนี้:
Hi my name is Amanda and I'm going to test out AWS Transcribe. * I'll return the favor, quid pro quo. * The management team had discussed the new policy ad nauseum. * That's an unfortunate situation but, c'est la vie. * Her laissez-faire attitude was affecting her work. * I accidentally said hello to my friend's doppelganger. * Her failure gave me a sense of schadenfreude. * We rode the shinkansen from Tokyo to Kyoto. * The floors were covered in tatami mats. Now, here are few tech words: * Please structure the data as JSON. * She sent a funny gif to her friends. * I ran a git commit with my changes. * Upload your results to an s3 bucket. * A JSON web token is otherwise known as a JWT. * Obtain OAuth credentials. * The DevOps team was running an important test. * I need to boot a new ec2 instance.
และนี่คือวิธีที่การถอดเสียงกลับมา โดยไม่ได้เลือกคำศัพท์ใดเลย:
และนี่คือวิธีที่การถอดเสียงกลับมาพร้อมกับ Table Vocabulary ของฉัน (ที่มีประสิทธิภาพดีกว่าของทั้งสอง) ที่ใช้งานอยู่:
แม้ว่าจะไม่มีคำศัพท์ตาราง การใช้คำในประโยคทำให้การถอดเสียงดีขึ้นมาก เทียบกับการอ่านรายการคำศัพท์
ฉันเชื่อว่าโมเดลพื้นฐานอาจใช้การรับรู้บริบทเพื่อช่วยตัดสินใจเกี่ยวกับคำศัพท์ที่ได้ยิน โดยไม่ได้เป็นผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงหรือรู้ว่า Transcribe ทำงานอย่างไร tatami mats
อาจเป็นวลีที่ใช้บ่อยกว่า to Tommy mats
บทสรุป
ฉันพยายามเรียนรู้เพิ่มเติมเกี่ยวกับข้อเสนอแมชชีนเลิร์นนิงของ AWS และแม้ว่าการทดสอบของฉันที่นี่เป็นเพียงการทดลองที่สนุกสนาน แต่ก็ชัดเจนว่า Amazon Transcribe สามารถเป็นเครื่องมือที่ทรงพลังและใช้งานง่าย และการจัดเตรียมคำศัพท์แบบกำหนดเองให้กับมันได้ ช่วยทำให้มีพลังมากยิ่งขึ้น
ฉันหวังว่าคุณจะพบว่าบทความนี้มีประโยชน์! ฉันอยากรู้ว่า — คุณใช้ Amazon Transcribe เพื่ออะไร
เนื้อหาเพิ่มเติมได้ที่ PlainEnglish.io.
ลงทะเบียนเพื่อรับ จดหมายข่าวรายสัปดาห์ฟรี ของเรา ติดตามเราบน Twitter, LinkedIn, YouTube และ Discord .
สนใจที่จะขยายขนาดการเริ่มต้นซอฟต์แวร์ของคุณหรือไม่ ลองดูที่ วงจร