Ada contoh Convolution1D https://github.com/fchollet/keras/blob/master/examples/imdb_cnn.py tanpa word2vec.
Saat ini saya menggunakan gensim untuk melatih model word2vec.
Saya ingin menggunakan Word2vec dan keras cnn(2D bukan 1D) untuk melakukan klasifikasi dokumen (Teks Cina). Saya mempelajari aliran dasar klasifikasi teks di cnn dan ingin melakukan tes.
Misalnya (langkah-langkah yang saya bayangkan):
Gunakan Kumpulan Teks Tokenisasi Cinese yang bagus untuk melatih model word2vec
model = gensim.models.Word2Vec(new_sentences, workers=10, size=200, min_count=2)
Tokenisasi kumpulan data kalimat saya ke kumpulan data daftar kata (kalimat terpanjang memiliki lebih dari 8000 kata, kalimat terpendek kurang dari 50)
1 ['你们', '好', '今天', '天气', '真', '好'] 2 ['嗯', '对的'] ... 9999 ['好', '就', '这样']
Gunakan metode untuk mengubah kumpulan data daftar kata menjadi kumpulan data word2vec
ubah setiap kata dalam setiap kalimat menjadi vec dengan model terlatih.
1 [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]] 2 [[word2vec size=200], [word2vec size=200]] ... 9999 [[word2vec size=200], [word2vec size=200], [word2vec size=200]]
Kumpulan data pad word2vec (dengan ukuran=200 array nol)
1 [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]] 2 [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]] .... 9999 [[word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200], [word2vec size=200]]
buka CNN (menggunakan Convolution2D)
Saya mencari untuk waktu yang lama, tetapi tidak dapat menemukan cara untuk melakukan langkah 3 (setelah langkah 3, pengaturan parameter dan lapisan pada langkah 5 juga sulit untuk dipahami).