มีตัวอย่าง Convolution1D https://github.com/fchollet/keras/blob/master/examples/imdb_cnn.py โดยไม่มี word2vec
ขณะนี้ฉันกำลังใช้ gensim เพื่อฝึกโมเดล word2vec
ฉันต้องการใช้ word2vec และ keras cnn (2D ไม่ใช่ 1D) เพื่อทำการจำแนกเอกสาร (ข้อความภาษาจีน) ฉันเรียนรู้ขั้นตอนพื้นฐานของการจัดหมวดหมู่ข้อความใน CNN และต้องการทดสอบ
ตัวอย่างเช่น (ขั้นตอนที่ฉันจินตนาการ):
ใช้ชุดข้อความ Tokenized แบบ Cinese ที่ดีในการฝึกโมเดล word2vec
model = gensim.models.Word2Vec(new_sentences, workers=10, size=200, min_count=2)
โทเค็นชุดข้อมูลประโยคของฉันเป็นชุดข้อมูลรายการคำ (ประโยคที่ยาวที่สุดมีมากกว่า 8,000 คำ สั้นที่สุดคือน้อยกว่า 50)
1 ['你们', '好', '今天', '天气', '真', '好'] 2 ['嗯', '对的'] ... 9999 ['好', '就', '这样']
ใช้วิธีการแปลงชุดข้อมูลรายการคำเป็นชุดข้อมูล word2vec
แปลงทุกคำในทุกประโยคให้เป็น vec โดยโมเดลที่ผ่านการฝึกอบรม
1 [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]] 2 [[word2vec size=200], [word2vec size=200]] ... 9999 [[word2vec size=200], [word2vec size=200], [word2vec size=200]]
แผ่นชุดข้อมูล word2vec (ขนาด = 200 อาร์เรย์ศูนย์)
1 [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]] 2 [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]] .... 9999 [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]]
ไปที่ CNN (โดยใช้ Convolution2D)
ฉันค้นหามานาน แต่ไม่พบวิธีทำขั้นตอนที่ 3 (หลังจากขั้นตอนที่ 3 การตั้งค่าพารามิเตอร์และเลเยอร์ในขั้นตอนที่ 5 ก็ยากที่จะเข้าใจเช่นกัน)