Как Torch 7 загружает очень большие наборы данных, которые не помещаются в памяти?

У меня есть очень большие наборы данных, которые я хочу загрузить в Torch. Но я не могу полностью загрузить их в память, пока не запущу алгоритм обучения.

Что я должен сделать, чтобы максимизировать производительность?


person user2173168    schedule 05.10.2015    source источник
comment
Сможете ли вы работать с подмножеством исходного набора данных?   -  person Tim Biegeleisen    schedule 05.10.2015
comment
Да, но не будет ли это слишком медленным? Каждый раз для мини-пакета приходится ждать медленного ввода-вывода. Буфер поможет?   -  person user2173168    schedule 05.10.2015
comment
Я не слишком знаком с Torch. Такие инструменты, как R и MATLAB, работают в памяти. Таким образом, есть штраф за чтение в наборах данных, но после этого все идет гладко.   -  person Tim Biegeleisen    schedule 05.10.2015
comment
Что ты в итоге сделал?   -  person Morteza Shahriari Nia    schedule 13.05.2017


Ответы (1)


Взгляните на imagenet-multiGPU.torch пример кода полного стека. Он содержит загрузчик данных (dataset.lua), способный сэмплировать пакет изображений за раз, что предотвращает предварительную загрузку всего в память:

local inputs, labels = trainLoader:sample(opt.batchSize)

(подробнее см. train.lua)

person deltheil    schedule 05.10.2015