Lập trình động và DTW:

Khái niệm lập trình động còn được biết như DTW (Dynamic Time Warping)

trong nhận dạng tiếng nói, được sử dụng rộng rãi để dẫn suất toàn diện tình trạng không phân biệt rõ giữa hai mẫu tiếng nói. Phương pháp DTW có thể làm lệch hai mẫu tiếng nói (x1,x2,…, xN) và (y1, y2, …, yM) trong chiều thời gian để giảm bớt tình trạng không rõ như minh họa trong hình dưới:

Hình 3.2. So sánh trực tiếp giữa hai mẫu tiếng nói X=(x1,x2,… xN) và Y=(y1, y2, …yM)

Điều này tương đương với vấn đề tìm kiếm khoảng cách cực tiểu trong lưới giữa hai mẫu. Được liên kết với mọi cặp (i, j) là một khoảng cách d(i, j) giữa hai véctơ tiếng nói xi và yi. Để tìm đường dẫn tối ưu giữa điểm bắt đầu (1, 1) và điểm cuối (N, M) từ trái sang phải, chúng ta cần tính khoảng cách chồng chất D(N, M). Chúng ta có thể liệt kê tất cả khả năng khoảng cách chồng chất từ (1, 1) đến (N, M) và xác định mẫu có khoảng cách cực tiểu. Khi có M khả năng di chuyển cho mỗi bước từ trái sang phải trong hình trên, tất cả đường có khả năng từ (1, 1) đến (N, M) sẽ theo cấp số mũ. Nguyên tắc lập trình động có thể giảm mạnh lượng tính toán bằng cách tránh sự liệt kê của các dãy mà không thể tối ưu. Khi đường tối ưu tương tự sau đó mỗi bước phải dựa trên bước trước đó, khoảng cách cực tiểu D(i, j) phải thỏa mãn biểu thức sau:

D(i, j) = mink [D(i-1, k)+d(k, j)] (3.3) Công thức (3.3) cho biết ta chỉ cần xem xét và giữ lại chỉ bước đi tốt nhất đối với mỗi cặp mặc dù có thể có M khả năng bước đi. Sự đệ qui cho phép tìm kiếm đường dẫn tối ưu để được tiến hành gia tăng từ trái qua phải. Về bản chất, lập trình động giao phó giải pháp đệ quy cho vấn đề con của chính nó. Quá trình tính toán bắt nguồn từ vấn đề con (D(i-1, k)) đến vấn đề con lớn hơn (D(i, j)). Chúng ta có thể xác định yj ăn khớp nhất với xi và lưu lại chỉ mục trong bảng con trỏ lùi B(i, j) là chúng ta đã đi qua. Đường dẫn tối ưu nhất có thế lần ngược lại sau khi đường dẫn tối ưu đã được xác định.

Các phương pháp cửa sổ:

Phân tích Fourier thời gian ngắn: