Память и время в тензорных операциях python

Цель Моя цель — рассчитать тензор по формуле, которую вы можете увидеть ниже. Индексы i, j, k, l проходят от 0 до 40, а p, m, x от 0 до 80.

Подход Tensordot Это суммирование просто сокращает 6 индексов огромного тензора. Я попытался сделать это с помощью тензорной точки, которая позволяет выполнять такие вычисления, но тогда моя проблема заключается в памяти, даже если я делаю одну тензорную точку, а затем другую. (Я работаю в colab, поэтому у меня есть 12 ГБ ОЗУ)

Подход с вложенными циклами Но есть некоторые дополнительные симметрии, управляющие матрицей B, то есть единственные ненулевые элементы B{ijpx} таковы, что i+j= p+x. Поэтому я смог написать p и m как функцию x (p=i+j-x, m=k+l-x), а затем я сделал 5 петель именно для i,j,k,l,x, но с другой стороны проблема со временем, так как расчет занимает 136 секунд, и я хочу повторить его много раз.

Временная цель в подходе с вложенным циклом Сокращение времени в десять раз было бы удовлетворительным, но если бы было возможно уменьшить его в 100 раз, этого было бы более чем достаточно.

Есть ли у вас какие-либо идеи по решению проблемы с памятью или сокращению времени? Как вы справляетесь с такими суммами с дополнительными ограничениями?

(Примечание: матрица A симметрична, и я пока не использовал этот факт. Симметрий больше нет.)

Вот код вложенного цикла:

for i in range (0,40):
  for j in range (0,40):
    for k in range (0,40):
      for l in range (0,40):
            Sum=0
            for x in range (0,80):
              p=i+j-x
              m=k+l-x
              if p>=0 and p<80 and m>=0 and m<80:
                Sum += A[p,m]*B[i,j,p,x]*B[k,l,m,x]
            T[i,j,k,l]= Sum

И код для подхода с тензорной точкой:

P=np.tensordot(A,B,axes=((0),(2)))
T=np.tensordot(P,B,axes=((0,3),(2,3)))

Michal 29.01.2019 источник

comment

Можете ли вы показать свои попытки с tensordot и с вложенными циклами, чтобы мы лучше поняли проблему? - jdehesa 29.01.2019

comment

Также вы пробовали использовать tf.einsum? Как 2_. Не уверен, что это должно иметь какое-либо значение с тензордом, но может попробовать. - jdehesa 29.01.2019

comment

Также вам нужно это в TensorFlow или NumPy? Похоже, ваш код — NumPy, но теги включают TensorFlow. - jdehesa 29.01.2019

comment

Я работаю в NumPy, извините за вводящий в заблуждение тег. Я немного обновил вопрос. И нет, я не пробовал подход tf.einsum. - Michal 29.01.2019

comment

Хорошо, спасибо за обновление. То же самое и в NumPy, t = np.einsum('pm,ijpx,klmx->ijkl', a, b, b). - jdehesa 29.01.2019

comment

Просто чтобы уточнить, что einsum намного, намного длиннее вложенного цикла, потому что он не использует дополнительное ограничение. После более чем 5 минут ожидания я убил процесс. - Michal 29.01.2019

Ответы (1)

arrow_upward
2
arrow_downward

Numba может быть вашим лучшим выбором здесь. Я собрал эту функцию на основе вашего кода. Я немного изменил его, чтобы избежать ненужных итераций и блока if:

import numpy as np
import numba as nb

@nb.njit(parallel=True)
def my_formula_nb(A, B):
    di, dj, dx, _ = B.shape
    T = np.zeros((di, dj, di, dj), dtype=A.dtype)
    for i in nb.prange (di):
        for j in nb.prange (dj):
            for k in nb.prange (di):
                for l in nb.prange (dj):
                    sum = 0
                    x_start = max(0, i + j - dx + 1, k + l - dx + 1)
                    x_end = min(dx, i + j + 1, k + l + 1)
                    for x in range(x_start, x_end):
                        p = i + j - x
                        m = k + l - x
                        sum += A[p, m] * B[i, j, p, x] * B[k, l, m, x]
                    T[i, j, k, l] = sum
    return T

Давайте посмотрим на это в действии:

import numpy as np

def make_problem(di, dj, dx):
    a = np.random.rand(dx, dx)
    a = a + a.T
    b = np.random.rand(di, dj, dx, dx)
    b_ind = np.indices(b.shape)
    b_mask = b_ind[0] + b_ind[1] != b_ind[2] + b_ind[3]
    b[b_mask] = 0
    return a, b

# Generate a problem
np.random.seed(100)
a, b = make_problem(15, 20, 25)
# Solve with Numba function
t1 = my_formula_nb(a, b)
# Solve with einsum
t2 = np.einsum('pm,ijpx,klmx->ijkl', a, b, b)
# Check result
print(np.allclose(t1, t2))
# True

# Benchmark (IPython)
%timeit np.einsum('pm,ijpx,klmx->ijkl', a, b, b)
# 4.5 s ± 39.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit my_formula_nb(a, b)
# 6.06 ms ± 20.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

Как видите, решение Numba примерно на три порядка быстрее, и оно не должно занимать больше памяти, чем необходимо.

jdehesa 29.01.2019

comment

Большое спасибо!! :) Ваш код работает блестяще. Время было уменьшено в 100 раз, что является моим раем. Я только что отредактировал строку di, dj, dx, _ = B.shape, чтобы она была di, dj, dx, _ = (40,40,80,80), поскольку предполагается, что выходной тензор имеет все размеры размера 40. - Michal; 29.01.2019

Память и время в тензорных операциях python

Ответы (1)

Вопросы по теме