Ada banyak masalah menarik dan lebih ilmiah dalam Natural Language Processing, tapi hari ini saya di sini hanya untuk berbagi pendapat dengan Anda.

Awan kata sangat jelek.

Kadang-kadang rasanya seperti orang-orang memasukkan data besar mereka yang indah ke dalam generator kata cloud, menempelkannya ke papan bristol dan datang terlambat 2 jam ke pameran sains.

Saya baru saja menutup browser saya untuk membaca artikel yang mungkin bagus karena kata-kata RAKSASA mereka mulai meneriaki saya. “ILMU DATA”, “PEMBELAJARAN MESIN”, “ANALITIK KONTEN”! Saya sudah membaca judulnya, saya melihat hashtagnya… Apakah gambar itu benar-benar memiliki nilai tambah? Apakah itu menyampaikan informasi penting kepada pembaca?

Inilah mengapa saya merasa sangat kuat terhadap mereka. Makna bahasa tidak hanya hidup di dalam kata kunci.

Isi kata kata benda, kata sifat, kata kerja penting. Bukan berarti kata henti penentu preposisi dihilangkan.

Jika Anda harus membaca ulang dua kalimat terakhir, Anda mungkin menyadari bahwa penggunaan kata-kata berhenti (seperti 'the', 'of', 'should'), selain kata kunci, juga diperlukan. Misalnya, kalimat “Menjadi atau tidak menjadi”, meskipun agak kuno, seluruhnya terdiri dari kata-kata berhenti.

Berikut mungkin contoh yang lebih baik tentang kesalahan penghapusan kata berhenti, dari perspektif Pengoptimalan Mesin Telusur (SEO) untuk url artikel:

  • https://www. …./tumbuh-dengan-gangguan-pendengaran →/tumbuh-gangguan pendengaran
  • /dunia-gangguan-pendengaran-→/dunia-gangguan-pendengaran-
  • /apa-itu-gangguan pendengaran →/apa-gangguan pendengaran

(sumber: Master Media Online)

Atau, berikut beberapa tweet topikal kemarin, tanpa stopword:

  • “Maaf dengar Malcolm Young, pemain bagus.”
  • "Tandai Batu nak."
  • “Alex Trebek pembawa acara permainan pedesaan yang layak.”

Dan bagaimana jika manusia memiliki ungkapan-ungkapan aneh yang sebenarnya sering kita gunakan tanpa kita sadari?

  • “dia memukul…paku…kepala”
  • "…kulit kacang"
  • “dia benar-benar… bermain bola hari ini”

Penghapusan kata berhenti mengurangi waktu pemrosesan. Itu membuat analisis bahasa jauh lebih efisien (untuk komputer!). Namun jika Anda pernah membuat cloud kata yang mengambil kata kunci yang sama sekali tidak relevan (seperti cloud kata dari Mark Stone yang memiliki kata “anak laki-laki” di dalamnya), Anda mungkin setuju bahwa frekuensi kata kunci atau “sekantong kata” tidak bisa. menjadi analisis yang berdiri sendiri.

Visualisasi data bahasa harus memiliki beberapa komponen kategorisasi (lihat: pembelajaran mesin yang bagus).

Kita semua bersalah karenanya. Saya telah menyelesaikan satu atau dua kata cloud dalam waktu saya. Tapi kita tidak membutuhkan awan kata lagi. Kami lebih baik dari itu! Saya ingin menyajikan 3 alternatif yang menurut saya jauh lebih menarik (dan informatif!) daripada hashtag yang diagungkan ini.

Diagram Sankey

“Robin Weis, seorang desainer UX, menggambarkan pola tangisannya selama satu setengah tahun. »Dia ingin mendapatkan pemahaman yang lebih baik tentang emosinya. Dengan membuat diagram sankey dia dapat menunjukkan klasifikasi setiap tangisan untuk mengamati tren.

Berikut cara kerja diagram sankey. Mereka memvisualisasikan aliran dari satu set nilai ke nilai lainnya. Mereka berfungsi dengan baik untuk data kategorikal multivariat hierarki. Koneksi tersebut disebut tautan dan, seperti struktur pohon, hal-hal yang dihubungkan disebut node (sumber: Google Charts).

Weis menemukan bahwa perpisahan dan hubungan adalah akar dari 63% total tangisannya. Dia mengkategorikan tangisannya berdasarkan alasannya. Dalam kasus putus cinta, dia mengidentifikasi perselingkuhan, kehilangan, berusaha mewujudkannya, dan mengatur reaksi orang lain. Dari sana, dia menggunakan kata sifat untuk menyaring emosi di balik alasan dia merasa menangis. Baca artikel selengkapnya di sini.

Ini adalah cara organik dan sangat unik untuk menampilkan analisis kata kunci, dengan kumpulan data kecil dan mungkin tanpa pembelajaran mesin yang canggih. Misalnya saja, analisis sentimen.

Himpunan Paralel

Himpunan paralel juga menunjukkan aliran data. Jason Davies, seorang pengembang perangkat lunak lepas dari Inggris membuat visualisasi para penyintas Titanic (“data oleh Robert J. Dawson”). "Buka di sini untuk versi interaktif." “Kodenya juga tersedia di sini.”

Tampaknya menakutkan (dan menghipnotis) pada awalnya, tetapi inilah yang ditunjukkan oleh grafik ini.

  1. Proporsi relatif penyintas perempuan jauh lebih besar dibandingkan dengan penyintas laki-laki. (Baris 1, berwarna biru)
  2. Sekitar separuh anak-anak di kapal selamat. (Baris 2 paling kiri)
  3. Sekilas kita dapat melihat bahwa data tersebut berkorelasi dengan pendekatan “perempuan dan anak-anak yang utama” selama evakuasi.

Bagaimana Davies mengatakan untuk membaca grafik:

“Untuk setiap dimensi (Bertahan, Jenis Kelamin, Usia, dan Kelas), bilah horizontal ditampilkan untuk setiap kategori yang memungkinkan. Lebar bilah menunjukkan jumlah mutlak kecocokan untuk kategori tersebut.

“Dimulai dari dimensi pertama (Survived), masing-masing kategorinya dihubungkan ke sejumlah kategori di dimensi berikutnya, menunjukkan bagaimana kategori tersebut dibagi lagi. Pembagian ini diulangi secara rekursif, menghasilkan pohon “pita”.

Jadi, kumpulan paralel menyediakan cara untuk secara bersamaan memvisualisasikan beragam jenis data dan dengan cepat dapat menarik kesimpulan darinya. Jika Anda memiliki data yang merupakan gabungan informasi demografis dan informasi linguistik, maka mudah untuk menjawab pertanyaan “siapa mengatakan apa”. Ini sedikit lebih menarik daripada "tidak ada yang mengatakan sepatah kata pun tentang apa".

Peta Klaster

Saya menemukan visualisasi menakjubkan dari komentar yang dikirimkan ke Komisi Komunikasi Federal sehubungan dengan opini tentang netralitas internet. Sebuah firma analisis data di San Francisco bernama Quid melakukan"pemodelan topik" pada hampir 250.000 kiriman. Ini bukan prestasi kecil. Anda mungkin memerlukan sedikit pembelajaran mendalam di sini. Dan pendanaan. Dan para jenius dari SF.

(Singkatnya, ada topik yang berbeda untuk setiap cluster, dan proporsi tanggapan ditampilkan dalam warna abu-abu. Cluster yang lebih kompak tidak terlalu menimbulkan kontroversi. Cluster yang lebih dekat dengan cluster lain menunjukkan korelasi antar topik. Seperti disebutkan di atas, cluster periferal kurang penting dalam percakapan secara keseluruhan namun diasumsikan lebih unik.

Oleh karena itu, alangkah baiknya jika kita melihat lebih dalam metodologinya, hanya untuk melihat bagaimana cara mengambil jalan pintas. Sebagai orang luar, sepertinya ini adalah algoritma pembelajaran mesin tanpa pengawasan, mungkin K-means, yang biasanya berarti mempartisi observasi ke dalam sejumlah cluster tertentu. Atau saya tidak akan terkejut jika ini adalah semacam klasifikasi Bayesian, yang berfungsi dengan baik untuk data bahasa. Tampaknya kekuatan terbesarnya juga merupakan kelemahan terbesarnya — ini adalah analisis yang sangat berpendirian keras.

Tidak semua orang bisa melakukan pembelajaran mesin. Dan yakinlah bahwa saya sama sekali tidak ingin mengabaikan fakta bahwa untuk beralih dari pengumpulan data ke gambaran yang bagus, diperlukan waktu berminggu-minggu untuk membersihkan data, memutar tabel, dan mempertanyakan segalanya. Namun ide dalam ilmu data tetap sama. Klasifikasikan data Anda. Gambarkan garis tren. Lakukan secara manual jika perlu. Buatlah asumsi, sarankan korelasi, atau jangan lakukan analisis sama sekali.

Jangan biarkan data mencoba berbicara sendiri. Kelompokkan awan Anda.