So sánh trực tiếp giữa hai mẫu tiếng nói

Điều này tương đương với vấn đề tìm kiếm khoảng cách cực tiểu trong lưới giữa hai mẫu. Được liên kết với mọi cặp (i, j) là một khoảng cách d(i, j) giữa hai

véctơ tiếng nói xi và yi. Để tìm đường dẫn tối ưu giữa điểm bắt đầu (1, 1) và điểm

cuối (N, M) từ trái sang phải, chúng ta cần tính khoảng cách chồng chất D(N, M).

Chúng ta có thể liệt kê tất cả khả năng khoảng cách chồng chất từ (1, 1) đến (N, M) và xác định mẫu có khoảng cách cực tiểu. Khi có M khả năng di chuyển cho mỗi

bước từ trái sang phải trong hình trên, tất cả đường có khả năng từ (1, 1) đến (N, M) sẽ theo cấp số mũ. Nguyên tắc lập trình động có thể giảm mạnh lượng tính tốn bằng cách tránh sự liệt kê của các dãy mà không thể tối ưu. Khi đường tối ưu tương tự sau đó mỗi bước phải dựa trên bước trước đó, khoảng cách cực tiểu D(i, j) phải

thỏa mãn biểu thức sau:

D(i, j) = mink [D(i-1, k)+d(k, j)] (3.3)

Công thức (3.3) cho biết ta chỉ cần xem xét và giữ lại chỉ bước đi tốt nhất đối với mỗi cặp mặc dù có thể có M khả năng bước đi. Sự đệ qui cho phép tìm kiếm đường dẫn tối ưu để được tiến hành gia tăng từ trái qua phải. Về bản chất, lập trình động giao phó giải pháp đệ quy cho vấn đề con của chính nó. Q trình tính tốn bắt nguồn từ vấn đề con (D(i-1, k)) đến vấn đề con lớn hơn (D(i, j)). Chúng ta có thể xác định yj ăn khớp nhất với xi và lưu lại chỉ mục trong bảng con trỏ lùi B(i, j) là

chúng ta đã đi qua. Đường dẫn tối ưu nhất có thế lần ngược lại sau khi đường dẫn tối ưu đã được xác định.

3.1.2.2. Ước lượng HMM - Thuật toán tiến:

Toán tử tiến ∝𝑡 (𝑖) là xác suất của chuỗi quan sát từng phần X = (X1, X2,…,

Xt) và trạng thái quan sát Si tại thời điểm t với điều kiện cho HMM 𝜆.

∝𝑡 (𝑖) = 𝑃(𝑋1𝑋2… 𝑋𝑡, 𝑞𝑡 = 𝑠𝑖|𝜆)

Thuật toán tiến:

Bước 1: Khởi tạo

∝𝑡 (𝑖) = 𝜋𝑖𝑏𝑖(𝑋1) 1 ≤ i ≤ N Bước 2: Qui nạp ∝𝑡 (𝑖) = [∑𝑁 ∝𝑡−1 (𝑖)𝑎𝑖𝑗 𝑖=1 ]𝑏𝑗(𝑋𝑡) 2 ≤ t ≤ T; 1 ≤ j ≤ N Bước 3: Kết thúc 𝑃(𝐗|𝚽) = ∑𝑁 ∝𝑇 (𝑖)

𝑖=1 nếu được yêu cầu để kết thúc trạng thái sau cùng, 𝑃(𝐗|𝚽) = ∝𝑇 (𝑠𝐹)

Ta có thể dễ dàng biết được độ phức tạp của thuật toán tiến là O(N2T) tốt

hơn so với độ phức tạp cấp số mũ. Đó là bởi vì chúng ta có thể sử dụng tồn bộ các phần xác suất đã tính tốn cho hiệu quả được cải tiến.

So sánh trực tiếp giữa hai mẫu tiếng nói

Biến đổi Fourier thời gian ngắn:

Phân tích Fourier thời gian ngắn: