Histogram numpy pada array multidimensi

diberi np.array bentuk (n_days, n_lat, n_lon), saya ingin menghitung histogram dengan bin tetap untuk setiap sel lat-lon (yaitu distribusi nilai harian).

Solusi sederhana untuk masalah ini adalah dengan mengulang sel dan memanggil np.histogram untuk setiap sel ::

bins = np.linspace(0, 1.0, 10)
B = np.rand(n_days, n_lat, n_lon)
H = np.zeros((n_bins, n_lat, n_lon), dtype=np.int32)
for lat in range(n_lat):
    for lon in range(n_lon):
        H[:, lat, lon] = np.histogram(A[:, lat, lon], bins=bins)[0]
# note: code not tested

tapi ini cukup lambat. Apakah ada solusi yang lebih efisien yang tidak melibatkan perulangan?

Saya memeriksa np.searchsorted untuk mendapatkan indeks bin untuk setiap nilai di B dan kemudian menggunakan pengindeksan mewah untuk memperbarui H::

bin_indices = bins.searchsorted(B)
H[bin_indices.ravel(), idx[0], idx[1]] += 1  # where idx is a index grid given by np.indices
# note: code not tested

tetapi ini tidak berhasil karena operator tambah yang ada (+=) tampaknya tidak mendukung beberapa pembaruan pada sel yang sama.

terima kasih, Petrus


person Peter Prettenhofer    schedule 17.09.2013    source sumber
comment
sepertinya github.com/numpy/numpy/pull/2821 menangani pengindeksan mewah dan masalah di tempat. Alasan mengapa numpy tidak mengizinkan banyak pembaruan adalah karena a[idx] += 1 tidak akan sama dengan a[idx] = a[idx] + 1 .   -  person Peter Prettenhofer    schedule 17.09.2013
comment
Gunakan np.histogram2d dengan argumen kata kunci weights.   -  person Jaime    schedule 17.09.2013
comment
@Jaime bagaimana cara menggunakan weights? Saya tidak ingin melakukan histogram 2d.   -  person Peter Prettenhofer    schedule 19.09.2013
comment
Ada juga fungsi np.histogramdd.   -  person Jaime    schedule 19.09.2013


Jawaban (2)


Anda dapat menggunakan numpy.apply_along_axis untuk menghilangkan loop.

hist, bin_edges = apply_along_axis(lambda x: histogram(x, bins=bins), 0, B)
person Greg Whittier    schedule 18.09.2013
comment
@PeterPrettenhofer baru saja memperbaiki kesalahan ketik. lambda memiliki huruf yang dialihkan. Semoga ini berhasil untuk Anda. - person Greg Whittier; 19.09.2013

Mungkin ini berhasil?:

import numpy as np
n_days=31
n_lat=10
n_lon=10
n_bins=10
bins = np.linspace(0, 1.0, n_bins)
B = np.random.rand(n_days, n_lat, n_lon)


# flatten to 1D
C=np.reshape(B,n_days*n_lat*n_lon)
# use digitize to get the index of the bin to which the numbers belong
D=np.digitize(C,bins)-1
# reshape the results back to the original shape
result=np.reshape(D,(n_days, n_lat, n_lon))
person Raphael Roth    schedule 17.09.2013
comment
ini memberi saya pada dasarnya sama dengan bins.searchsorted(B), sebuah array berbentuk (n_days, n_lat, n_lon) tetapi bagian yang sulit adalah bagaimana mengubahnya menjadi (n_bins, n_lat, n_lon). - person Peter Prettenhofer; 17.09.2013