Saya tidak mengerti bagaimana vektor kata terlibat sama sekali dalam proses pelatihan dengan doc2vec dalam mode DBOW (dm=0
). Saya tahu ini dinonaktifkan secara default dengan dbow_words=0
. Namun apa yang terjadi jika kita menyetel dbow_words
ke 1?
Dalam pemahaman saya tentang DBOW, kata konteks diprediksi langsung dari vektor paragraf. Jadi satu-satunya parameter model adalah vektor paragraf berdimensi N
p
ditambah parameter pengklasifikasi.
Namun berbagai sumber mengisyaratkan bahwa dalam mode DBOW dimungkinkan untuk melatih bersama vektor kata dan dokumen. Contohnya:
- bagian 5 dari Evaluasi Empiris doc2vec dengan Wawasan Praktis dalam Pembuatan Penyematan Dokumen
- jawaban SO ini: Cara menggunakan Gensim doc2vec dengan vektor kata terlatih?
Jadi, bagaimana cara melakukannya? Klarifikasi apa pun akan sangat kami hargai!
Catatan: untuk DM, vektor paragraf dirata-rata/digabungkan dengan vektor kata untuk memprediksi kata target. Dalam hal ini, jelas bahwa vektor kata dilatih secara bersamaan dengan vektor dokumen. Dan ada N*p + M*q + classifier
parameter (di mana M
adalah ukuran kosakata dan q
ruang vektor kata redup).