Aerosolve: Pembelajaran mesin untuk manusia

Oleh “Hector Yee” dan “Bar Ifrach”

Pernahkah Anda bertanya-tanya bagaimana cara kerja tips harga Airbnb untuk tuan rumah?

Dalam fitur penetapan harga dinamis ini, kami menunjukkan kemungkinan tuan rumah mendapatkan pemesanan (hijau untuk peluang lebih tinggi, merah untuk peluang lebih rendah), atau perkiraan permintaan, dan memungkinkan mereka dengan mudah menentukan harga tempat mereka secara dinamis hanya dengan mengklik tombol .

Banyak fitur yang digunakan untuk memprediksi permintaan suatu listing, di antaranya musim, fitur unik dari suatu listing, dan harga. Fitur-fitur ini berinteraksi dengan cara yang kompleks dan dapat menghasilkan model pembelajaran mesin yang sulit diinterpretasikan. Jadi kami mulai membuat paket untuk menghasilkan model pembelajaran mesin yang memfasilitasi interpretasi dan pemahaman. Ini berguna bagi kami, pengembang, dan juga bagi pengguna kami; interpretasi tersebut mencerminkan penjelasan yang kami berikan kepada tuan rumah tentang mengapa permintaan yang mereka hadapi mungkin lebih tinggi atau lebih rendah dari yang mereka perkirakan.

Memperkenalkan Aerosolve: paket pembelajaran mesin yang dibuat untuk manusia.

Kami beroperasi dengan keyakinan bahwa memungkinkan manusia untuk bermitra dengan mesin secara simbiosis melampaui kemampuan manusia atau mesin saja.

Sejak awal proyek, kami berfokus pada peningkatan pemahaman
kumpulan data dengan membantu orang dalam menafsirkan data yang kompleks dengan model yang mudah dipahami. Alih-alih menyembunyikan makna di balik banyak lapisan kompleksitas model, model Aerosolve memaparkan data pada pemahaman.

Misalnya, kita dapat dengan mudah menentukan korelasi negatif antara harga suatu listing di pasar dan permintaan listingan hanya dengan melihat gambar di bawah. Daripada meneruskan fitur melalui banyak lapisan transformasi non-linier yang tersembunyi, kami membuat model menjadi sangat luas, dengan setiap variabel atau kombinasi variabel dimodelkan secara eksplisit menggunakan fungsi aditif. Hal ini membuat model mudah diinterpretasikan sambil tetap mempertahankan banyak kapasitas untuk dipelajari.

Garis merah mengkodekan keyakinan umum sebelum melihat data, atau sebelumnya. Dalam hal ini kita umumnya percaya bahwa permintaan menurun seiring dengan kenaikan harga. Kami dapat menginformasikan model keyakinan kami sebelumnya pada Aerosolve dengan menambahkannya ke file konfigurasi teks sederhana selama pelatihan. Kurva hitam adalah keyakinan model setelah belajar dari miliaran titik data. Ini mengoreksi asumsi apa pun dari orang yang bekerja dengan model dengan data pasar aktual, sekaligus memungkinkan manusia untuk memberikan masukan terhadap keyakinan awal mereka tentang suatu variabel.

Kami juga sangat berhati-hati dalam memodelkan lingkungan tinggal unik di seluruh dunia dengan membuat algoritme yang secara otomatis menghasilkan lingkungan tinggal lokal berdasarkan lokasi tempat Airbnb berada. Ini berbeda dari “poligon lingkungan” buatan tangan dalam dua hal. Pertama, data tersebut dihasilkan secara otomatis sehingga kami dapat membangunnya dengan cepat untuk pasar baru yang baru saja terbuka. Kedua, mereka dibangun secara hierarkis, sehingga kami dapat dengan cepat mengumpulkan statistik berbentuk titik (misalnya tampilan daftar) atau poligonal (misalnya kotak pencarian) dengan cara yang terukur.

Hirarki juga memungkinkan kita meminjam kekuatan statistik dari lingkungan induk karena lingkungan tersebut sepenuhnya berisi lingkungan anak. Lingkungan yang dibangun dengan pohon Kd ini tidak terlihat oleh pengguna tetapi digunakan untuk menghitung fitur lokal untuk model pembelajaran mesin. Pada gambar di bawah, kami mendemonstrasikan kemampuan struktur Kd-tree untuk secara otomatis membuat lingkungan lokal. Perhatikan kehati-hatian yang kami lakukan dalam memberi tahu algoritme bahwa algoritma tersebut tidak boleh melintasi perairan yang luas. Bahkan Treasure Island mempunyai lingkungannya sendiri. Agar tidak terjadi perubahan mendadak di sepanjang batas lingkungan, kami berupaya memuluskan informasi lingkungan secara multi-skala. Anda dapat membaca lebih lanjut, dan melihat secara visual, penghalusan semacam ini di Demo Impresionisme Gambar Aerosolve di Github.

Karena setiap tempat memiliki keunikan tersendiri, kami membuat algoritma analisis gambar ke dalam Aerosolve untuk memperhitungkan detail dan perhatian tuan rumah dalam mendekorasi rumah mereka. Kami melatih model Aerosolve pada dua jenis data pelatihan. Di sebelah kiri kami telah melatih model berdasarkan skor yang diberikan oleh fotografer profesional dan di sebelah kanan model dilatih tentang pemesanan organik. Para fotografer profesional cenderung lebih menyukai gambar ruang tamu yang penuh hiasan dan terang benderang, sedangkan para tamu tampaknya lebih menyukai warna-warna hangat dan kamar tidur yang nyaman.

Kami mempertimbangkan banyak hal lain dalam menghitung permintaan, beberapa di antaranya mencakup peristiwa lokal. Misalnya pada gambar di bawah ini kita dapat mendeteksi peningkatan permintaan tempat menginap di Austin selama festival SXSW dan mungkin dapat meminta tuan rumah untuk mempertimbangkan membuka rumah mereka selama periode permintaan tinggi.

Beberapa fitur, seperti permintaan musiman, secara alami cenderung meningkat. Fitur lain, seperti jumlah ulasan, secara umum tidak boleh menunjukkan ketajaman yang sama. Kami memuluskan fitur yang lebih halus ini menggunakan spline polinomial kubik sambil mempertahankan ketajaman titik akhir menggunakan fungsi Dirac delta. Misalnya dalam hubungan antara jumlah ulasan dan 3 bintang (dari lima), terdapat diskontinuitas besar antara tidak ada ulasan dan satu ulasan.

Terakhir, setelah semua transformasi dan pemulusan fitur, semua data ini disusun menjadi model penetapan harga dengan ratusan ribu parameter yang berinteraksi untuk menyediakan dasbor bagi tuan rumah untuk mengetahui kemungkinan mendapatkan pemesanan dengan harga tertentu.

Silakan periksa Aerosolve di Github. Ada beberapa demo yang dapat Anda temukan tentang cara menerapkan Aerosolve untuk pemodelan Anda sendiri seperti mengajarkan algoritma cara melukis dengan gaya lukisan pointillism. Ada juga demo prediksi pendapatan berdasarkan data sensus AS yang bisa Anda lihat juga.

Lihat semua proyek sumber terbuka kami di airbnb.io dan ikuti kami di Twitter: @AirbnbEng + @AirbnbData

Awalnya diterbitkan di nerds.airbnb.com pada tanggal 4 Juni 2015.