#0to1 di NLP. Episode-1: Pengenalan dan perpustakaan NLP

Apa itu Bahasa Alami?

Bahasa alami hanyalah bahasa manusia seperti Inggris, Prancis, dll., sedangkan bahasa komputer mencakup C, Python, dan banyak lainnya. Bahasa mesin telah dibuat untuk penggunaan tertentu dibandingkan dengan bahasa alami yang telah berkembang selama bertahun-tahun sesuai kenyamanan. Meskipun bahasa alami mengikuti aturan tata bahasa tertentu, namun tidak dibatasi oleh aturan tertentu, bahasa alami mengandung bahasa gaul, sarkasme, singkatan modern, dll. Bahasa alami dapat dalam bentuk apa pun seperti teks, ucapan, dan bahkan bahasa isyarat.
Bahasa alami perlu diproses agar mesin dapat memahaminya, oleh karena itu NLP.

Pemrosesan Bahasa Alami

NLP (Natural Language Processing) dalam istilah yang paling sederhana adalah interaksi antara komputer dan manusia menggunakan bahasa alami. Secara luas hal ini dapat didefinisikan sebagai pembangunan alat komputasi untuk manipulasi otomatis bahasa alami seperti ucapan dan teks. Tujuan akhir dari NLP adalah untuk membaca, menguraikan, memahami, dan memahami bahasa manusia dengan cara yang berharga dan melakukan operasi yang berguna dengan bahasa seperti terjemahan, chatbots, menjawab pertanyaan, meringkas teks, ucapan ke teks dan sebaliknya teks. pidato, analisis sentimen, dll.

Secara umum, kami menggunakan Pemrosesan Bahasa Alami dalam arti luas untuk mencakup segala jenis manipulasi komputer terhadap bahasa alami. Pada satu sisi, hal ini bisa dilakukan dengan cara yang sederhana seperti menghitung frekuensi kata untuk membandingkan gaya penulisan yang berbeda. Di sisi lain, NLP melibatkan “pemahaman” ucapan manusia secara utuh, setidaknya sejauh kemampuan memberikan respons yang berguna terhadap ucapan tersebut. Ini adalah istilah kolektif yang mengacu pada pemrosesan komputasi otomatis bahasa manusia. Hal ini mencakup algoritme yang mengambil teks buatan manusia sebagai masukan dan algoritme yang menghasilkan teks yang tampak alami sebagai keluaran.

Data terstruktur dan tidak terstruktur

Perbedaan utama antara data terstruktur dan tidak terstruktur adalah data terstruktur biasanya hadir dalam format tabel yaitu dapat ditampilkan dalam baris, kolom, dan database relasional. Bisa juga berupa angka, tanggal, ID, dll. Sedangkan data tidak terstruktur tidak dapat ditampilkan dalam baris, kolom, dan database relasional. File audio, email, file pengolah kata, sekelompok artikel semuanya termasuk dalam kategori tidak terstruktur.

Data terstruktur lebih disukai dalam tugas-tugas seperti klasifikasi teks dan terjemahan mesin yang memerlukan data berlabel, dan dalam tugas-tugas seperti model QA dan model bahasa, data tidak terstruktur lebih disukai.

Tantangan dalam NLP

Bahasa alami sulit dipelajari dan sangat ambigu. Untuk sekadar memahami tingkat kesulitan, rata-rata manusia dewasa memerlukan waktu sekitar 6–7 bulan untuk mempelajari bahasa yang diharapkan dapat dipelajari oleh mesin dalam sekali jalan. Bahkan setelah dipelajari, bahasanya selalu berkembang, mendeteksi arti sebenarnya dari kalimat tersebut sungguh sulit, bagaimana melakukan analisis sentimen pada ulasan sarkastik. Meskipun bahasa tersebut memiliki aturan tertentu, data mentah belum tentu mengikuti aturan tersebut. Bahasa milenial memiliki bahasa slang dan singkatan yang terbukti sangat merepotkan saat mengolah bahasa alami.

Satu hal yang tidak ingin kami lakukan di sini adalah melewatkan konsep dasar NLP dan langsung beralih ke Klasifikasi Teks dan Peringkasan Teks. Dalam seri ini, kami akan mencoba membahas topik sebanyak mungkin termasuk:

Pra-pemrosesan Teks
Jaringan Syaraf
Penyematan Kata Bebas Konteks
Transformator
Penyematan Kata Berbasis Konteks
Peringkasan Teks
Klasifikasi Teks
modul QA
Tolok Ukur LEM

Satu dekade yang lalu, hanya ahli dengan pengetahuan statistik, pembelajaran mesin, dan konsep linguistik yang dapat melakukan tugas-tugas berat NLP, tetapi dalam beberapa tahun terakhir berkat berbagai perpustakaan NLP, penyelesaian masalah NLP menjadi jauh lebih mudah. Pada artikel ini, kita akan melihat perpustakaan NLP paling populer. Perbandingannya dilakukan pada artikel-artikel berikutnya berdasarkan tugas yang mendasari artikel tersebut. Jadi mari kita mulai.

Perpustakaan NLP Terkemuka

Ada banyak perpustakaan NLP di luar sana tetapi ini adalah beberapa perpustakaan yang layak untuk disebutkan. Seseorang tidak perlu mempelajari semua perpustakaan secara detail tetapi harus mengetahui kelebihan dan kekurangannya.

NLTK:Perangkat alat bahasa alami mungkin merupakan pustaka NLP paling terkenal dengan lebih dari 50 corpora dan leksikon, 9 stemmer, dan lusinan algoritme yang dapat dipilih. NLTK menyediakan antarmuka yang mudah digunakan untuk lebih dari 50 corpora dan sumber daya leksikal. Beberapa kelemahan yang perlu diperhatikan adalah lambat dibandingkan perpustakaan lain dan juga agak rumit untuk dipelajari dan diterapkan.
spaCy:Spacy dikenal sebagai perpustakaan tercanggih, hanya menyediakan algoritme terbaik sehingga menghindari tekanan dalam memilih di antara algoritme. Ini dirancang secara eksplisit untuk penggunaan produksi — memungkinkan Anda mengembangkan aplikasi yang memproses dan memahami teks dalam jumlah besar. Saat diterapkan di Cython, Spacy sangat cepat. Ini dapat mendukung tokenisasi untuk lebih dari 49 bahasa.
Stanford CoreNLP:Stanford CoreNLP adalah rangkaian alat analisis alami yang siap produksi. Karena CoreNLP ditulis dalam Java, maka Java harus diinstal pada perangkat Anda. Namun, ia menawarkan antarmuka pemrograman untuk banyak bahasa pemrograman populer, termasuk Python. Perpustakaan menyediakan fungsionalitas yang luas juga sangat cepat dan akurat. Oleh karena itu banyak organisasi menggunakan CoreNLP untuk produksi.
TextBlob:TextBlob dibangun di atas NLTK dan paket lain yang dikenal sebagai Pattern. Ini adalah antarmuka yang mudah digunakan ke perpustakaan NLTK. Ini didasarkan pada NLTK dan Pattern dan menyediakan API yang sangat mudah untuk semua tugas NLP yang umum (dan beberapa yang kurang umum). Meskipun TextBlob tidak memberikan sesuatu yang baru atau menarik, namun hal ini membuat bekerja dengan teks menjadi sangat menyenangkan dan menghilangkan banyak hambatan. Perpustakaan menyediakan fungsi bawaan untuk klasifikasi teks dan analisis sentimen.
Gensim:Gensim adalah pustaka Python yang dirancang khusus untuk “pemodelan topik, pengindeksan dokumen, dan pengambilan kesamaan dengan corpora besar.” Semua algoritma di Gensim tidak bergantung pada memori, w.r.t., ukuran corpus, dan karenanya, itu dapat memproses input yang lebih besar dari RAM. Meskipun bawaannya adalah python murni, Gensim cepat dan hemat memori.

Ini adalah pengenalan dasar tentang NLP dan perpustakaan yang menyediakan fungsionalitas NLP. Artikel selanjutnya akan mendalami lebih dalam topik yang menjadi dasar artikel tersebut.

Jadi, mari kita mulai perjalanan NLP kita!