Teknik Klasifikasi Teks untuk skenario ini

Saya benar-benar baru dalam algoritme Pembelajaran Mesin dan saya memiliki pertanyaan singkat sehubungan dengan Klasifikasi kumpulan data.

Saat ini terdapat data latih yang terdiri dari dua kolom Pesan dan Pengidentifikasi.

Pesan - Pesan umum yang diekstraksi dari Log yang berisi stempel waktu dan beberapa teks Pengidentifikasi - Harus mengklasifikasikan kategori berdasarkan konten pesan.

Data pelatihan disiapkan dengan mengekstraksi kategori tertentu dari alat dan memberi label yang sesuai.

Sekarang data pengujian hanya berisi pesan dan saya mencoba mendapatkan Kategori yang sesuai.

Pendekatan mana yang paling membantu dalam skenario ini? Apakah Pembelajaran yang Diawasi atau Tanpa Pengawasan?

Saya memiliki kumpulan data terlatih dan saya mencoba memprediksi Kategori untuk Data Uji.

Terima kasih sebelumnya, Adam


person Community    schedule 30.08.2017    source sumber


Jawaban (3)


Jika label Anda tepat maka Anda dapat mengklasifikasikan menggunakan ANN, SVM, dll. Namun label tidak tepat, Anda harus mengelompokkan data sehubungan dengan fitur yang Anda miliki dalam data. K-means atau tetangga terdekat dapat menjadi titik awal clustering.

person Dr. X    schedule 30.08.2017
comment
Terima kasih Dr. Geek!! Sesuai pemahaman saya karena ini adalah pembelajaran tanpa pengawasan, K berarti atau Tetangga Terdekat yang disarankan daripada pembelajaran yang diawasi kan ?? - person ; 30.08.2017
comment
Tidak. A) Anda diawasi, bukan tanpa pengawasan, B) kmeans tidak diawasi, kNN diawasi, Anda mencampuradukkan banyak hal, dan C) keduanya bukan kandidat yang menjanjikan, kinerja mereka cenderung buruk. - person Has QUIT--Anony-Mousse; 17.09.2017

Ini adalah pembelajaran yang diawasi, dan masalah klasifikasi.

Namun, jelas Anda tidak memiliki kolom label (nilai yang akan diprediksi) untuk set pengujian Anda. Oleh karena itu, Anda tidak dapat menghitung ukuran kesalahan (seperti Tingkat Positif Palsu, Akurasi, dll) untuk set pengujian tersebut.

Namun, Anda dapat membagi kumpulan data pelatihan berlabel yang memiliki Anda miliki menjadi kumpulan pelatihan yang lebih kecil dan kumpulan validasi. Bagilah menjadi 70%/30%, mungkin. Kemudian buat model prediksi dari kumpulan data pelatihan Anda yang lebih kecil, yaitu 70%. Kemudian sesuaikan pada set validasi 30% Anda. Jika akurasinya cukup baik, terapkan pada set pengujian Anda untuk mendapatkan/memprediksi nilai yang hilang.

Teknik/algoritma mana yang digunakan adalah pertanyaan yang berbeda. Anda tidak memberikan informasi yang cukup untuk menjawabnya. Dan meskipun demikian, Anda masih perlu menyetel sendiri modelnya.

person knb    schedule 03.09.2017

Anda memiliki label untuk diprediksi, dan data pelatihan.

Jadi menurut definisi ini adalah masalah yang diawasi.

Coba pengklasifikasi teks apa pun, seperti NB, kNN, SVM, ANN, RF, ...

Sulit untuk memprediksi mana yang paling sesuai dengan data Anda. Anda harus mencoba dan mengevaluasi beberapa.

person Has QUIT--Anony-Mousse    schedule 31.08.2017