Том Джоши

Том Джоши

Колумбийская лаборатория беспроводных и мобильных сетей

В этом семестре я провожу исследование в лаборатории беспроводных и мобильных сетей Колумбийского университета. Лаборатория участвует в проекте «Космос» Колумбийского университета. Project Cosmos — это сотрудничество между Columbia, Rutgers, NYU, IBM, New York City и несколькими другими партнерами для разработки и тестирования технологии Smart City. Мой проект Edge Augment Reality является частью проекта Cosmos по разработке умного перекрестка. Цель состоит в том, чтобы разработать программное обеспечение и сетевую инфраструктуру, чтобы разместить камеры на перекрестке и иметь возможность обнаруживать и классифицировать объекты (например, автомобили и пешеходы). Не вся эта обработка может происходить на мобильном устройстве, потому что эти мобильные устройства ограничены вычислительными возможностями [1]. Я разрабатываю приложение для Android и сетевое программное обеспечение, которое может получать видеопоток с камеры мобильного устройства Android, а затем запускать модели глубокого обучения для классификации и обнаружения либо на локальном устройстве, либо удаленно. Удаленная обработка будет включать любую виртуальную машину, например персональный компьютер или облачную машину. Эксперименты с этим кластером камер и граничной/облачной архитектурой будут протестированы на испытательном стенде камер Project Cosmos на перекрестке возле кампуса Колумбийского университета. Первая основная цель — разработать приложение для Android, которое может принимать видеопотоки и отправлять данные на удаленное устройство или анализировать видео локально. Это текущий этап проекта. Вторая основная цель проекта — разработать измерения, чтобы понять, когда обрабатывать видео удаленно или локально, в зависимости от состояния сети, качества видео и времени автономной работы. Для этого нам придется разработать математическую модель для анализа всех соответствующих переменных и попытаться выбрать удаленные или локальные.

Есть несколько ключевых концепций, относящихся к решению проблемы дополненной реальности. Во-первых, самым большим источником задержки является сетевая задержка, а не вычисление изображений, такое как классификация и обнаружение [1]. Поэтому многие решения, касающиеся дизайна программного обеспечения, в первую очередь связаны с оптимизацией сети, а не с оптимизацией вычислений. Одним из способов оптимизации сетевого взаимодействия является осознание существенной разницы между обработкой входящих данных как нескольких изображений и обработкой их как видеопотока. Однако это ложное предположение усугубит проблемы с задержками, поскольку сжатие видео не используется. Существует также компромисс между задержкой и точностью. По мере увеличения требуемого уровня точности продолжительность задержки будет увеличиваться. Это свойство может быть приемлемым, поскольку иногда пользователи готовы пожертвовать задержкой ради более высокого уровня точности, например, в приложениях для проверки подлинности.

Есть некоторые действия, которые мы можем предпринять, чтобы уменьшить нагрузку на локальный компьютер и запускать менее ресурсоемкие модели на локальном устройстве. Например, мы можем использовать нейронную сеть, оптимизированную для мобильных устройств [2].Многие из моделей, которые были построены в прошлом, были построены с основной целью максимизации точности, часто за счет латентность и компактность. Однако существуют приложения глубокого обучения, такие как робототехника или дополненная реальность, целью которых является оптимизация как точности, так и задержки в зависимости от конкретной ситуации. Архитектура MobileNet оптимизирована для практических приложений. Меньшие модели не только снижают вычислительную интенсивность, но также допускают меньшую регуляризацию и увеличение данных, поскольку они менее склонны к переоснащению. Другой подход к упрощению моделей глубокого обучения заключается в реализации дистилляции модели, при которой меньшая сеть имитирует поведение активации более крупной сети [3]. Кэширование также можно использовать для ускорения распознавания объектов. Многие задания по распознаванию объектов являются повторениями аналогичных заданий в прошлом и в других приложениях [4]. Лай и др. предложить совместную структуру, чтобы вектор можно было отправить в систему, и если система распознала это задание из прошлого, она быстро вернула предыдущий результат. Однако, если задание не было распознано, оно будет отправлено на другую виртуальную машину. Кэширование особенно полезно на интеллектуальных перекрестках, где обнаружение автомобилей и пешеходов является повторяющейся задачей.

Возможность распределения вычислений между локальным и удаленным устройством имеет большее значение за пределами умного города. Анализ видеопотоков на устройствах меньшего размера можно реализовать при совершении покупок [1], помочь слабовидящим или улучшить аутентификацию пользователя (т. е. аутентификацию при входе в машину).

использованная литература

[1] RAN, X., CHEN, H., ZHU, X., LIU, Z., AND CHEN, J. DeepDecision: мобильная глубокая

обучающая среда для периферийной видеоаналитики. В проц. IEEE INFOCOM’18 (2018).

[2] Эндрю Г. Ховард, Мэнлонг Чжу, Бо Чен, Дмитрий Калениченко, Вейджун Ван, Тобиас Вейанд, Марко Андреетто и Хартвиг Адам. 2017. Mobilenets: эффективные сверточные нейронные сети для приложений мобильного зрения. Препринт arXiv arXiv: 1704.04861 (2017).

[3] Джеффри Хинтон, Ориол Виньялс и Джеффри Дин. 2015. Извлечение знаний в нейронной сети. На семинаре NIPS по глубокому обучению и репрезентативному обучению. «http://arxiv.org/abs/1503.02531»

[4] Z. Lai, Y. Cui, Z. Wang и X. Hu, Погружение на грани: совместная структура для мобильных иммерсивных вычислений, в Proc. Конференция ACM SIGCOMM 2018 по плакатам и демонстрациям (SIGCOMM 2018), 2018 г., стр. 39–41.

[5] Цзюньчен Цзян, Юхао Чжоу, Ганеш Анантанараянан, Юаньчао Шу, Эндрю А. Чиен. 2019. Сетевые камеры — новые кластеры больших данных. Семинар 2019 г. по актуальным темам видеоаналитики и интеллектуальных периферийных устройств (HotEdgeVideo’19), 21 октября 2019 г., Лос-Кабос, Мексика. ACM, Нью-Йорк, штат Нью-Йорк, США, 8 страниц. «https://doi.org/10.1145/» 3349614.3356026

Дополненная реальность Edge: создание умного перекрестка

Том Джоши

Вопросы по теме