Tom Joshi

Lab Jaringan Nirkabel & Seluler Kolombia

[email protected]

Semester ini saya melakukan penelitian di Columbia Wireless & Mobile Networking Lab. Laboratorium ini terlibat dalam Project Cosmos Universitas Columbia. Project Cosmos merupakan kolaborasi antara Columbia, Rutgers, NYU, IBM, New York City, dan beberapa mitra lainnya untuk mengembangkan dan menguji teknologi Smart City. Proyek saya, Edge Augment Reality, adalah bagian dari upaya Project Cosmos untuk mengembangkan Smart Intersection. Tujuannya adalah untuk mengembangkan perangkat lunak dan infrastruktur jaringan untuk menempatkan kamera di persimpangan dan mampu mendeteksi dan mengklasifikasikan objek (misalnya mobil dan pejalan kaki). Tidak semua pemrosesan ini dapat terjadi pada perangkat seluler karena perangkat seluler tersebut memiliki keterbatasan komputasi [1]. Saya sedang mengembangkan aplikasi Android dan perangkat lunak jaringan yang dapat menerima aliran video dari kamera perangkat seluler Android dan kemudian menjalankan model pembelajaran mendalam klasifikasi dan deteksi baik di perangkat lokal atau dari jarak jauh. Pemrosesan jarak jauh akan mencakup segala jenis mesin virtual seperti pada komputer pribadi atau mesin cloud. Eksperimen cluster kamera dan arsitektur edge/cloud ini akan diuji di testbed kamera Project Cosmos di persimpangan dekat kampus Columbia. Tujuan utama pertama adalah mengembangkan aplikasi Android yang dapat mengambil aliran video dan mengirim data ke perangkat jarak jauh atau menganalisis video secara lokal. Ini adalah tahap proyek saat ini. Tujuan utama kedua dari proyek ini adalah mengembangkan pengukuran untuk memahami kapan memproses video dari jarak jauh atau lokal berdasarkan kondisi jaringan, kualitas video, dan masa pakai baterai. Untuk melakukan hal ini, kita harus mengembangkan model matematis untuk menganalisis semua variabel yang relevan dan mencoba memilih variabel jarak jauh atau lokal.

Ada beberapa konsep kunci yang berkaitan dengan penyelesaian masalah Augmented Reality. Pertama, sumber latensi terbesar adalah latensi jaringan, bukan komputasi gambar seperti klasifikasi dan deteksi [1]. Oleh karena itu, banyak keputusan mengenai desain perangkat lunak terutama berkaitan dengan optimasi jaringan daripada optimasi komputasi. Salah satu cara untuk mengoptimalkan komunikasi jaringan adalah dengan menyadari adanya perbedaan signifikan antara memperlakukan data masuk sebagai beberapa gambar versus memperlakukannya sebagai aliran video. Namun asumsi yang salah ini akan meningkatkan masalah latensi karena kompresi video tidak digunakan. Ada juga trade-off antara latensi dan akurasi. Ketika tingkat akurasi yang diperlukan meningkat, panjang latensi akan meningkat. Properti ini mungkin baik-baik saja karena terkadang pengguna rela mengorbankan latensi demi tingkat akurasi yang lebih tinggi seperti dalam aplikasi autentikasi.

Ada beberapa tindakan yang dapat kita ambil untuk mengurangi tekanan pada mesin lokal dan menjalankan model komputasi yang tidak terlalu intensif pada perangkat lokal. Misalnya, kita dapat menggunakan jaringan saraf yang dioptimalkan untuk perangkat seluler [2].Banyak model yang telah dibuat di masa lalu dibuat dengan tujuan utama untuk memaksimalkan akurasi, seringkali dengan mengorbankan latensi dan kekompakan. Namun, ada aplikasi pembelajaran mendalam seperti robotika atau augmented reality yang tujuannya adalah mengoptimalkan akurasi dan latensi tergantung pada situasi tertentu. Arsitektur MobileNet mengoptimalkan aplikasi praktis. Model yang lebih kecil tidak hanya menurunkan intensitas komputasi, namun juga mengurangi regularisasi dan augmentasi data karena model tersebut tidak terlalu rentan terhadap overfitting. Pendekatan lain untuk menyederhanakan model pembelajaran mendalam adalah dengan menerapkan distilasi model dimana jaringan yang lebih kecil meniru perilaku aktivasi jaringan yang lebih besar [3]. Caching juga dapat digunakan untuk mempercepat pengenalan objek. Banyak pekerjaan pengenalan objek merupakan pengulangan pekerjaan serupa di masa lalu dan di aplikasi lain [4]. Lai dkk. mengusulkan kerangka kerja kooperatif sehingga vektor dapat dikirim ke suatu sistem dan jika sistem mengenali pekerjaan ini dari masa lalu, sistem akan segera mengembalikan hasil sebelumnya. Namun, jika tugas tersebut tidak dikenali, maka tugas tersebut akan dikirim ke mesin virtual lain. Caching sangat berguna di Persimpangan Cerdas, di mana pendeteksian mobil dan pejalan kaki merupakan tugas yang berulang.

Kemampuan untuk mendistribusikan komputasi antara perangkat lokal dan jarak jauh memiliki implikasi yang lebih besar di luar Smart City. Menganalisis streaming video pada perangkat yang lebih kecil dapat diterapkan dalam pengalaman berbelanja [1], membantu tunanetra, atau meningkatkan otentikasi pengguna (yaitu otentikasi untuk memasuki mobil Anda).

Referensi

[1] RAN, X., CHEN, H., ZHU, X., LIU, Z., DAN CHEN, J. DeepKeputusan: Kedalaman seluler

kerangka pembelajaran untuk analisis video edge. Dalam Proc. IEEE INFOCOM'18 (2018).

[2] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, dan Hartwig Adam. 2017. Mobilenets: Jaringan saraf konvolusional yang efisien untuk aplikasi visi seluler. arXiv pracetak arXiv:1704.04861 (2017).

[3] Geoffrey Hinton, Oriol Vinyals, dan Jeffrey Dean. 2015. Menyaring Pengetahuan dalam Jaringan Syaraf Tiruan. Dalam Lokakarya Pembelajaran Mendalam dan Representasi NIPS. «http://arxiv.org/abs/1503.02531»

[4] Z. Lai, Y. Cui, Z. Wang, dan X. Hu, “Immersion on the Edge: A Cooperative Framework for Mobile Immersive Computing,” di Proc. Konferensi Poster dan Demo ACM SIGCOMM 2018 (SIGCOMM 2018), 2018, hlm.39–41.

[5] Junchen Jiang, Yuhao Zhou, Ganesh Ananthanarayanan, Yuanchao Shu, Andrew A. Chien. 2019. Kamera Jaringan Adalah Cluster Big Data Baru. Pada Lokakarya 2019 tentang Topik Hangat dalam Analisis Video dan Tepi Cerdas (HotEdgeVideo’19), 21 Oktober 2019, Los Cabos, Meksiko. ACM, New York, NY, AS, 8 halaman. «https://doi.org/10.1145/» 3349614.3356026

Edge Augmented Reality: Membangun Persimpangan Cerdas