LDA, USE, Kalimat-BERT, PCA, UMAP, dan HDBSCAN

Ada dua pendekatan pembelajaran tanpa pengawasan untuk memahami apa yang dibicarakan dalam teks pendek: pemodelan topik dan pengelompokan embeddings.

Pemodelan Topik

Pemodelan Topik digunakan untuk menemukan topik laten dalam kumpulan dokumen. Algoritme pemodelan topik yang sangat umum adalah "LDA" (Latent Dirichlet Allocation). Perhatikan bahwa hyperparameter algoritma LDA adalah jumlah topik yang dapat ditemukan, yang dapat dioptimalkan dengan memaksimalkan/meminimalkan metrik yang sesuai, seperti metrik koherensi. LDA digunakan oleh Airbnb untuk tujuan ini.

Namun, maksud sering kali lebih spesifik dibandingkan topik, oleh karena itu pengelompokan penyematan dapat menjadi alternatif yang berguna.

Pengelompokan penyematan

Maksud dapat diidentifikasi dengan menemukan kelompok yang tepat dan sempit. Hal ini biasanya dilakukan dalam tiga langkah:

  1. Dapatkan pengkodean dari setiap dokumen. “Universal Sentence Encoder” (USE) dan “Sentence-BERT” dari Google adalah pembuat enkode kalimat yang populer untuk tujuan ini.
  2. Kurangi dimensi penyematan. Anda dapat menggunakan teknik seperti PCA dan UMAP. Langkah ini telah diamati untuk meningkatkan hasil pengelompokan pada langkah berikutnya.
  3. Kelompokkan embeddingsnya. Biasanya digunakan “algoritma pengelompokan berbasis kepadatan”, seperti “HDBSCAN”.

Kumpulan data

Tim PolyAI menerbitkan kumpulan data perbankan yang berisi 10.000+ pesan yang mencakup 77 maksud, yang dapat Anda gunakan untuk menguji algoritme Anda. Pertimbangkan bahwa dalam dunia nyata Anda akan menghadapi tantangan tambahan, seperti mengidentifikasi pesan mana dari setiap percakapan yang berisi maksudnya. https://github.com/PolyAI-LDN/task-special-datasets.

Sulit untuk menemukan kumpulan data publik lainnya karena data dunia nyata perlu dianonimkan.

Contoh kode

Tetap ikuti perkembangan cerita terbaru tentang penerapan Natural Language Processing dan bergabunglah dengan komunitas NLPlanet di LinkedIn, Twitter, Facebook, dan Telegram.