Saya sangat pemula dalam pemrosesan ucapan. Saya sebenarnya mencoba melakukan Pengurangan Kebisingan. Saya menggunakan Metode Pengurangan Spektral. Saat melakukannya, di banyak makalah teori dan algoritme, dikatakan untuk mengambil bingkai sinyal audio.
Untuk itu, saya mengambil panjang 20ms untuk setiap frame yaitu untuk Frekuensi Sampling = 16KHz, saya akan mengakhiri setiap frame dengan 16KHz * 20ms = 320 sampel/frame.
windowed_frame = frame .* hamming(length(frame));
complex_spec = fft(windowed_frame,512);
mag_spec = abs(complex_spec);
phase_spec = angle(complex_spec);
Sekarang, untuk sinyal noise dikatakan:
Asumsikan beberapa frame awal non-ucapan sebagai noise.
Jadi, untuk mendapatkan perkiraan kebisingan, katanya
Ambil mean dari 3 frame pertama atau lebih.
Dan setiap frame memiliki panjang 320 sampel. Sekarang, apa yang dimaksud dengan mengambil mean/rata-rata dari 3 bingkai pertama tersebut?
3 frame berisi total 3*320 = 960 sampel. Apakah ini menunjukkan, untuk mengartikan 960 nilai tersebut? Tapi itu hanya akan menghasilkan nilai tunggal. Tapi saya memerlukan ukuran berjendela yaitu noise_estimate berukuran 20 ms.
Ada Bantuan?