1. ChatGPT itu menyenangkan, tapi tidak lucu! Humor masih menantang Model Bahasa Besar (arXiv)

Penulis : Sophie Jentzsch, Kristian Kersting

Abstrak : Humor merupakan aspek sentral dalam komunikasi manusia yang sejauh ini belum terpecahkan oleh agen buatan. Model bahasa besar (LLM) semakin mampu menangkap informasi implisit dan kontekstual. Khususnya, ChatGPT OpenAI baru-baru ini mendapatkan perhatian publik yang sangat besar. Model berbasis GPT3 hampir terlihat berkomunikasi pada tingkat manusia dan bahkan dapat menceritakan lelucon. Humor adalah komponen penting dalam komunikasi manusia. Tapi apakah ChatGPT benar-benar lucu? Kami menguji selera humor ChatGPT. Dalam serangkaian eksperimen eksplorasi seputar lelucon, misalnya pembuatan, penjelasan, dan deteksi, kami berupaya memahami kemampuan ChatGPT untuk memahami dan mereproduksi humor manusia. Karena modelnya sendiri tidak dapat diakses, kami menerapkan eksperimen berbasis cepat. Bukti empiris kami menunjukkan bahwa lelucon bukanlah sesuatu yang dikodekan secara pasti, namun sebagian besar juga bukan hal baru yang dihasilkan oleh model tersebut. Lebih dari 90% dari 1008 lelucon yang dihasilkan adalah 25 Lelucon yang sama. Sistem ini secara akurat menjelaskan lelucon yang valid tetapi juga memberikan penjelasan fiktif untuk lelucon yang tidak valid. Karakteristik khas lelucon dapat menyesatkan ChatGPT dalam klasifikasi lelucon. ChatGPT belum memecahkan masalah humor komputasional, namun ini bisa menjadi lompatan besar menuju mesin “lucu”.

2. Evaluasi ChatGPT pada Tugas Biomedis: Perbandingan Zero-Shot dengan Transformator Generatif yang Diselaraskan dengan Baik (arXiv)

Penulis : Evaluasi ChatGPT pada Tugas Biomedis: Perbandingan Zero-Shot dengan Transformator Generatif yang Diselaraskan dengan Baik

Abstrak : ChatGPT adalah model bahasa besar yang dikembangkan oleh OpenAI. Meskipun kinerjanya mengesankan dalam berbagai tugas, belum ada penelitian sebelumnya yang menyelidiki kemampuannya dalam domain biomedis. Untuk mencapai tujuan ini, makalah ini bertujuan untuk mengevaluasi kinerja ChatGPT pada berbagai tugas benchmark biomedis, seperti ekstraksi relasi, klasifikasi dokumen, menjawab pertanyaan, dan peringkasan. Sejauh pengetahuan kami, ini adalah karya pertama yang melakukan evaluasi ekstensif terhadap ChatGPT dalam domain biomedis. Menariknya, berdasarkan evaluasi kami, kami menemukan bahwa dalam kumpulan data biomedis yang memiliki kumpulan pelatihan lebih kecil, ChatGPT zero-shot bahkan mengungguli model transformator generatif yang canggih, seperti BioGPT dan BioBART. Hal ini menunjukkan bahwa pra-pelatihan ChatGPT tentang corpora teks besar menjadikannya cukup terspesialisasi bahkan dalam domain biomedis. Temuan kami menunjukkan bahwa ChatGPT berpotensi menjadi alat yang berharga untuk berbagai tugas dalam domain biomedis yang kekurangan data beranotasi besar.