ฉันไม่เข้าใจว่าเวกเตอร์คำเกี่ยวข้องอย่างไรในกระบวนการฝึกอบรมกับ doc2vec ในโหมด DBOW (dm=0
) ฉันรู้ว่ามันถูกปิดใช้งานโดยค่าเริ่มต้นด้วย dbow_words=0
แต่จะเกิดอะไรขึ้นเมื่อเราตั้งค่า dbow_words
เป็น 1
ในความเข้าใจของฉันเกี่ยวกับ DBOW คำในบริบทจะถูกทำนายโดยตรงจากเวกเตอร์ย่อหน้า ดังนั้นพารามิเตอร์เดียวของโมเดลคือเวกเตอร์ย่อหน้า N
p
มิติ บวกกับพารามิเตอร์ของตัวแยกประเภท
แต่แหล่งข้อมูลหลายแห่งบอกเป็นนัยว่าเป็นไปได้ในโหมด DBOW เพื่อฝึกเวกเตอร์คำและเอกสารร่วมกัน ตัวอย่างเช่น:
- ส่วนที่ 5 ของ การประเมินเชิงประจักษ์ของ doc2vec พร้อมข้อมูลเชิงลึกเชิงปฏิบัติในการสร้างการฝังเอกสาร
- คำตอบ SO นี้: วิธีใช้ Gensim doc2vec พร้อมเวกเตอร์คำที่ผ่านการฝึกอบรมมาแล้วใช่ไหม
แล้ววิธีนี้ทำอย่างไร? การชี้แจงใด ๆ จะได้รับการชื่นชมอย่างมาก!
หมายเหตุ: สำหรับ DM เวกเตอร์ย่อหน้าจะถูกเฉลี่ย/ต่อด้วยเวกเตอร์คำเพื่อคาดเดาคำเป้าหมาย ในกรณีดังกล่าว จะเห็นได้ชัดว่าเวกเตอร์คำได้รับการฝึกฝนไปพร้อมกับเวกเตอร์เอกสาร และมีพารามิเตอร์ N*p + M*q + classifier
(โดยที่ M
คือขนาดคำศัพท์และ q
พื้นที่เวกเตอร์สลัว)