- Mở đầu
3.5 Kết hợp từ điển Lexicon vào mơ hình HMM
3.5.1 Thuật tốn Quy Hoạch Động (Dynamic programming):
Thuật ngữ lập trình động được đề xuất bởi Richard Bellman năm 1940, sau đĩ năm 1953 ơng tinh chế nĩ trong một ý nghĩa hiện đại và cĩ quyết định lớn hơn với phương pháp qui hoạch động cịn gọi là lập trình qui hoạch động.
Trong ngành khoa học máy tính và tốn học, lập trình qui hoạch động là một phương pháp để giải các bài tốn phức tạp bằng cách chia chúng thành các bài tốn con đơn giản và kết hợp tối ưu các bài tốn con. Như vậy ý tưởng của lập trình qui hoạch động là giải quyết các phần khác nhau của các bài tốn con gối lên nhau và các cấu trúc con tối ưu, sau đĩ kết hợp chúng lại để cĩ một giải pháp tổng thể nhằm làm giảm thời gian chạy của bài tốn. Lập trình qui hoạch động được ứng dụng trong các bài tốn như: tìm đường đi ngắn nhất, bài tốn sắp xếp, bài tốn người bán hàng, bài tốn di truyền sinh học,…với nhiều thuật tốn qui hoạch động khác nhau. Trong phạm vi nhận dạng tiếng nĩi, lập trình qui hoạch động là kỹ thuật tìm đường đi với chi phí nhỏ nhất thơng qua một đồ thị tìm kiếm. Chúng ta cĩ thể dùng lập trình qui hoạch động để tìm sự liên kết tốt nhất cho một chuỗi vector đặc trưng với mơ hình các từ (liên kết với chọn từ cĩ mật độ xác suất cao nhất).
Sự phát triển của kỹ thuật lập trình động cụ thể là thuật tốn DTW (Dynamic time wraping) [Kruskal, Liberman 1983], đây là thuật tốn quan trọng nhất được áp dụng trong nhận dạng tiếng nĩi. Cách đơn giản và hiệu quả nhất để nhận dạng một
từ riêng biệt là so sánh nĩ với các từ mẫu và xác định sự phù hợp tốt nhất. Mục tiêu này là phức tạp bởi một số yếu tố. Trước tiên là các mẫu khác nhau của một từ cho trước sẽ cĩ khoảng các thời gian khác nhau. Điều này cĩ thể được loại bỏ bằng cách làm đơn giản, bình thường các mẫu và tất cả các từ đều cĩ khoảng thời gian bằng nhau. Tuy nhiên tốc độ của tiếng nĩi là khơng đều trong khi nĩi. Nĩi cách khác, hàm liên kết giữa một mẫu so sánh và mẫu tiếng nĩi cĩ thể là phi tuyến. Thuật tốn DTW là một phương pháp cĩ hiệu quả cho việc tìm kiếm sự liên kết tối ưu này khơng tuyến tính.
DTW là một thể hiện của lớp tổng quát của các thuật tốn được gọi là lập trình qui hoạch động. Thời gian và độ phức tạp của thuật tốn là tuyến tính với khoảng thời gian của mẫu cần nhận dạng và qui mơ kích thước của từ vựng. Thuật tốn dùng để đo lường sự giống nhau giữa hai chuỗi mà cĩ thể thay đổi theo thời gian hay tốc độ được sử dụng trong bối cảnh Mơ hình HMM. Thuật tốn DTW được áp dụng trong nhận dạng tiếng nĩi để xử lý tiếng nĩi được nĩi với các tốc độ khác nhau.
+ Mơ tả bài tốn: Bài tốn DTW bắt đầu như sau: cho 2 chuỗi X và Y (vector), cĩ chiều dài |X| và |Y|.
X = x1, x2, x3, ..,x|X| Y = y1, y2, y3, ..,y|Y| Đặt đặt đường đi biến dạng W: W = w1, w2, w3, ..,wk
max(|X|, |Y|) ≤ K < |X| + |Y|, với K là độ dài của W và phần tử thứ K là: Wk = (i, j)
Với i là chỉ số trong chuỗi X và j là chỉ số trong chuỗi Y. Chuỗi âm tiết W phải bắt đầu tại w1 = (1, 1) và kết thúc tại điểm cuối wk =(|X|, |Y|). Điều này bảo đảm rằng mỗi chỉ số trong 2 chuỗi đều được sử dụng trong đường biến dạng. Đây cũng là một trong các ràng buộc khi xây dựng đường biến dạng rằng i và j phải tăng tuần tự, điều này lý giải tại sao những đường đại diện cho đường biến dạng trong hình III.8 là khơng chồng lấp lên nhau.
wk = (i, j), wk+1 = (i', j') i≤ i' ≤ i + 1, j ≤ j' ≤ j + 1
Đường đi biến dạng tối ưu là đường đi biến dạng cĩ khoảng cách cực tiểu (nhỏ nhất), với khoảng cách của đường đi biến dạng W là:
∑= = =k K k kj ki w w Dist W Dist 1 ) , ( ) (
Dist(W) là khoảng cách (khoảng cách Euclidean) của đường đi biến dạng W, và Dist(wki, wkj) là khoảng cách giữa hai điểm được đánh chỉ số (một điểm từ X và một điểm từ Y) trong phần tử thứ k của đường đi biến dạng.
Chúng ta cĩ thể thấy rằng hàm cực tiểu Dist(W) là tương tự như thuật tốn xác định đường đi ngắn nhất Forward. Do đĩ nĩ thể chuyển từ bài tốn Forward sang Backward và cĩ thể làm mẫu như một hệ thống trạng thái hữu hạn.
Thuật tốn DTW tiêu chuẩn (standard DTW):
Mơ hình lập trình động được dùng để tìm khoảng cách nhỏ nhất của đường đi biến dạng. Gọi D là ma trận chi phí hai chiều |X| x |Y|, giá trị D(i, j) là khoảng cách nhỏ nhất giữa hai chuỗi X và Y. Hai trục tọa độ của ma trận D trong hình III.9 đại diện cho thời gian.
1. Điều kiện ban đầu:
D(1,1) =0
2. Lặp lại:
D(i, j) = Dist(i, j) + min[D(i-1, j), D(i, j-1), D(i-1, j-1)]
Cuối cùng, thuật tốn dừng tại điểm D(|X|, |Y|), và chúng ta cĩ thể dễ dàng lần ngược để cĩ đường đi biến dạng tối ưu W. Thuật tốn DTW cĩ độ phức tạp đa thức, khi các chuỗi X, Y là lớn thì cĩ hai vấn đề bất tiện: cần sử dụng nhiều bộ nhớ và phải thực hiện số lượng lớn các tính tốn khoảng cách.
Thuật tốn DTW tiêu chuẩn là cơ sở ban đầu cho sự xuất hiện nhiều thuật tốn cải tiến khác sau này. Lưu ý rằng, cĩ thể dùng một lưới điểm để mơ tả quá trình tìm đường đi.
Thuật tốn DTW hữu ích trong bài tốn nhận dạng từ cơ lập trong một từ điển giới hạn, nĩ cĩ độ phức tạp đa thức O(n2v), với n là chiều dài chuỗi, v là số từ cĩ trong từ điển. Đối với bài tốn nhận dạng từ vựng lớn thì thuật tốn DTW khơng thích hợp vì độ phức tạp tăng với số lượng từ lớn và rất khĩ để đánh giá các phần tử từ hai chuỗi khác nhau cĩ nhiều kênh tính năng đặc trưng riêng biệt.
Hình 3.10 Một ma trận chi phí với dấu vết đường đi biến dạng cĩ khoảng cách nhỏ nhất.
3.5.2 Lý thuyết Word Graph:
Đồ thị từ (Word Graph) là một cấu trúc đồ thị cĩ hướng chứa nhiều đường đi từ đầu đến cuối của một câu hoặc một phần của câu. Mỗi nút trong đồ thị là một từ, mỗi cạnh thể hiện sự liên kết từ và cĩ thể cĩ giá trị được tính và gán cho nĩ. Đồ thị từ cho phép chúng ta cĩ thể bắt đầu từ một từ, tìm đường đi ngắn nhất hoặc cĩ xác suất cao nhất đến một từ khác, cho đến hết câu. Chuỗi các từ đưa ra bởi bộ nhận dạng được chứa trong đồ thị từ.
Ý tưởng của đồ thị từ là tạo ra một giải pháp thay thế từ trong vùng tiếng nĩi, nơi cĩ sự mơ hồ (từ được phát âm khơng rõ ràng) ở mức cao trong việc nhận dạng âm thanh. Đồ thị từ là một mơ tả của khơng gian tìm kiếm, nĩ cĩ thể được sử dụng trong nhiều cách, bao gồm như một mơ tả trung gian cho một hệ thống nhận dạng tiếng nĩi.
Hình 3.11 Một đồ thị từ tổng quan
Chúng ta bắt đầu với bài tốn cơ bản của sự phát sinh ra đồ thị từ:
Giả thuyết rằng 1 từ w và thời điểm kết thúc t của nĩ, làm thế nào cĩ thể tìm thấy một số giới hạn các từ đứng trước nĩ cĩ khả năng nhất ?. Nhiệm vụ này là khĩ khăn vì từ w cĩ thể phụ thuộc vào từ đứng trước từ đang xem xét, nĩ dẫn đến một sự phụ thuộc lẫn nhau với các từ đứng trước.
Một số khái niệm và giải thích thuật ngữ phổ biến trong đồ thị từ:
• One-Pass và Multi-Pass: Chúng ta gọi chiến lược tìm kiếm One-pass nếu cĩ
Chiến lược tìm kiếm One-pass và Multi-Pass hầu như luơn dựa trên kỹ thuật lập trình động.
• Time-Synchronous: Một chiến lược tìm kiếm gọi là đồng bộ thời gian nếu
các giả thuyết tìm kiếm được thành lập trong một cách thức đồng bộ thơng qua chuỗi vector ngữ âm. Ý tưởng đồng bộ thời gian cĩ liên hệ chặt chẽ với chiến lược One-pass.
• Integrated Search: Chúng ta gọi một chiến lược tìm kiếm là tìm kiếm tích
hợp nếu tất cả các nguồn kiến thức là cĩ thể sử dụng. Ví dụ như mơ hình ngữ âm, mơ hình âm vị, các ràng buộc từ điển phát âm, mơ hình ngơn ngữ được khai thác trong quá trình tìm kiếm ở cùng một thời điểm, ý tưởng này được cài đặt trong chiến lược One-pass.
• Word conditioned và Time conditioned: Các mục này được qui vào cách
tìm trong khơng gian tìm kiếm, đặc biệt là trong ngữ cảnh của lập trình động. Trong một tìm kiếm Word conditioned mỗi một giả thuyết tìm kiếm là điều kiện trên từ đứng trước. Điều này ngụ ý rằng tối ưu hố trên thời điểm kết thúc chưa biết của từ đứng trước, tức là biên giới từ của đứng trước và từ đang xem xét đã sẵn sàng tiến hành trong 1 nhĩm từ đầu của thủ tục tìm kiếm. Phương pháp này là khác với phương pháp Time conditioned, với mỗi giả thuyết tìm kiếm là độc lập trên thời điểm kết thúc của từ đứng trước là được giữ lại và tối ưu hố trên các ranh giới từ chưa xác định được thực hiện như bước sau cùng của tìm kiếm.
• Single best: Chúng ta muốn nĩi về ý tưởng tìm kiếm mà nĩ xác định chuỗi
từ cĩ khả năng nhất.
• Word graph: Ý tưởng đây là tổ chức một giả thuyết cấp cao trong hình thức
của một đồ thị mà các cạnh của nĩ mơ tả các từ giả thuyết đơn. Đơi khi người ta dùng từ "word lattice" là đồng nghĩa với word graph.
• Confusion matrix: Ma trận nhầm lẫn chứa các giá trị xác suất cĩ điều kiện
của chuỗi cĩ chứa từ khơng rõ ràng để sinh ra chuỗi từ như mong đợi.
Khi dùng mơ hình ngơn ngữ bigram trong kết nối với một cây mơ tả từ vựng phát âm, chúng ta gặp bài tốn nhận dạng của giả thuyết từ w được biết chỉ khi đi đến một nút lá của cây. Vì vậy, xác suất ngơn ngữ mơ hình cĩ thể được kết hợp đầy đủ sau khi đạt đến trạng thái kết thúc từ thứ hai của bigram. Như một kết quả, chúng ta cĩ thể áp dụng xác suất mơ hình ngơn ngữ chỉ tại điểm cuối của cây. Để tạo ứng dụng của nguyên lý lập trình động cĩ thể thực hiện được, chúng ta cấu trúc khơng gian tìm kiếm như sau. Cho mỗi từ đứng trước v, chúng ta giới thiệu một bản sao riêng biệt của cây từ vựng với kết quả là trong tiến trình tìm kiếm chúng ta luơn biết từ đứng trước v khi một giả thuyết từ kết thúc w là được giả thuyết.
Hình 3.12 minh họa ý tưởng này cho một từ vựng gồm 3 từ (A, B, C), với cây từ vựng được mơ tả trong một hình thức biểu đồ đơn giản hĩa. Trong bố trí như hình 3.12, chúng ta áp dụng xác suất bigram P(w|v) khi trạng thái kết thúc của từ w với từ đứng trước v là đạt được, và sử dụng kết quả tồn bộ điểm để khởi động cây từ điển tương ứng, tức là cây cĩ từ w là cĩ từ đứng trước. Để điều khiển mơ hình nhĩm từ lặng (silence), chúng ta thêm một bản sao riêng biệt của mơ hình Silence tới mỗi cây. Hơn nữa, chúng ta cĩ một bản sao riêng biệt của cây từ điển cho từ đầu tiên trong câu, cây bản sao này được cho thêm vào silence như từ đứng trước. Cách tiếp cận này, các mơ hình bản sao silence khơng yêu cầu một xử lý đặc biệt, nhưng cĩ thể được xử lý như các từ bình thường cùa từ vựng. Tuy vậy, cĩ một ngoại lệ: tại các ranh giới từ, khơng mơ hình ngơn ngữ xác suất cho các mơ hình Silence. Như trong hình 3.12, cĩ hai kiểu của đường đi mở rộng và tái kết hợp, cụ thể là ở bên trong của các từ hoặc các cây từ vựng và ở các ranh giới từ. Bên trong một từ, chúng ta cĩ đường đậm mơ tả sự chuyển tiếp trạng thái trong Mơ hình HMM. Tại các ranh giới từ, chúng ta cĩ đường mảnh và gạch rời, nĩ mơ tả sự tái kết hợp mơ hình ngơn ngữ bigram. Giống như tái kết hợp ngữ âm, chúng cũng được thực hiện ở mỗi khung thời gian 10ms. Đường gạch rời là liên quan đến sự tái kết hợp cho các bản sao bên trong nhĩm từ lặng silence. Chúng ta phải kết hợp xác suất bigram bên trong điểm số Qv(t, s = Sw) và xác định từ đứng trước v tốt nhất. Điểm số tốt nhất
này được truyền bên trong gốc của cây từ vựng liên kết, nĩ được mơ tả bằng ký hiệu . Ký hiệu { mơ tả một từ cuối.
Hình 3.12, Tái kết hợp mơ hình ngơn ngữ bigram và sử dụng từ Sil cho một cây từ vựng (ba từ vựng A, B, C), sử dụng cây bản sao word conditioned.
Với một chỉ định số lượng của thủ tục tìm kiếm, chúng ta giả sử rằng mỗi cung của cây từ vựng được mơ tả bởi một Mơ hình HMM. Chúng ta sẽ dùng chỉ số trạng thái s trực tiếp và giả sử rằng cấu trúc từ vựng là đạt được bởi xác suất chuyển
trạng thái của Mơ hình HMM. Để trình bày cách tiếp cận lập trình động , chúng ta giới thiệu hai con số sau (Ney, 1993):
• Qv(t, s) = tổng điểm của đường đi bộ phận tốt nhất tại thời điểm kết
thúc t trong trạng thái s của cây từ vựng cho từ đứng trước v.
• Bv(t, s) = thời điểm bắt đầu của đường đi bộ phận tốt nhất tại thời điểm kết thúc t trong trạng thái s của cây từ vựng cho từ đứng trước v. Nĩi cách khác Bv(t, s) là con trỏ quay lui nĩ trỏ lui đến thời điểm bắt đầu của bản
sao cây từ vựng cho từ đứng trước v. Con trỏ quay lui này là cần thiết bởi vì nĩ định nghĩa của điểm số Qv(t, s) hàm ý rằng sự tối ưu trên thời điểm bắt đầu chưa biết của bản sao cây từ vựng cho từ đứng trước v đã được thực hiện. Cả hai con số được đánh giá bằng cách dùng lập trình động đệ qui cho Qv(t, s):
Qv(t, s) = max {q(xt, s|σ). Qv(t -1, s)}
Bv(t, s) = Bv(t – 1, σmaxv (t, s)) (3.6) Với σmaxv (t, s) là trạng thái đứng trước tốt nhất cho giả thuyết (t, s) và từ
đứng trước v. q(xt, s|σ) là tích của xác suất chuyển và phát của Mơ hình HMM
dùng cho âm tiết độc lập và phụ thuộc ngữ cảnh.
Con trỏ quay lui Bv(t, s) được truyền theo quyết định lập trình động. Khơng giống như từ đứng trước v, chỉ số w cho từ đang xem xét chỉ là cần thiết và nhận biết khi một đường đi giả thuyết đạt đến nút kết thúc của cây từ vựng: mỗi nút kết thúc của cây từ vựng được gán nhãn với từ tương ứng của từ vựng.
Việc sử dụng giá trị khởi tạo phù hợp cho σ = 0, phương trình này bao gồm tối ưu hĩa trên các ranh giới từ chưa biết. Tại các ranh giới từ, chúng ta phải tìm từ đứng trước v tốt nhất cho mỗi từ w. Ta định nghĩa:
H(w; t) := max {p(w|v).Qv(t, Sw)} (3.7)
Với trạng thái Sw biểu thị trạng thái kết thúc của từ w trong cây từ vựng. Để truyền đường đi giả thuyết bên trong cây từ vựng giả thuyết hoặc để bắt đầu tạo
chúng nếu chúng chưa tồn tại. Chúng ta phải đi tiếp qua điểm số và chỉ số thời gian trước khi xử lý các giả thuyết cho khung thời gian t:
Qv(t – 1, S = 0) = H(v; t – 1)
Bv(t -1, s = 0) = t -1 (3.8)
Thuật tốn One-pass (single best; lexical tree; bigram):
Tiến hành qua hết thời gian t từ trái sang phải
Mức ngữ âm: xử lý trạng thái của cây từ vựng
Khởi tạo: Qv(t-1, s =0) = H(v; t-1) Bv(t-1, s =0) = t-1
Liên kết thời gian (Time alignment): Q(t, s) sử dụng lập trình động. Truyền các con trỏ quay lui Bv(t, s).
Cắt các giả thuyết khơng khả năng. Dọn dẹp danh sách tính tốn
Mức cặp từ: xử lý các từ cuối
Với mỗi cặp (w; t) thực hiện
H(w; t) =maxv {p(w|v) Qv(t, Sw)} V0(w; t) = arg maxv {p(w|v) Qv(t, Sw)}
Lưu lại từ đứng trước tốt nhất v0 := v0(w; t)
Lưu lại ranh giới từ tốt nhất τ0 := Bv0(t, Sw) Thu dọn rác (Garbage collection):