Đồ thị từ (Word Graph) là một cấu trúc đồ thị cĩ hướng chứa nhiều đường đi từđầu đến cuối của một câu hoặc một phần của câu. Mỗi nút trong đồ thị là một từ, mỗi cạnh thể hiện sự liên kết từ và cĩ thể cĩ giá trị được tính và gán cho nĩ. Đồ thị từ cho phép chúng ta cĩ thể bắt đầu từ một từ, tìm đường đi ngắn nhất hoặc cĩ xác suất cao nhất đến một từ khác, cho đến hết câu. Chuỗi các từ đưa ra bởi bộ nhận dạng được chứa trong đồ thị từ.
Ý tưởng của đồ thị từ là tạo ra một giải pháp thay thế từ trong vùng tiếng nĩi, nơi cĩ sự mơ hồ (từđược phát âm khơng rõ ràng) ở mức cao trong việc nhận dạng âm thanh. Đồ thị từ là một mơ tả của khơng gian tìm kiếm, nĩ cĩ thể được sử dụng trong nhiều cách, bao gồm như một mơ tả trung gian cho một hệ thống nhận dạng tiếng nĩi.
Hình 3.11 Một đồ thị từ tổng quan
Chúng ta bắt đầu với bài tốn cơ bản của sự phát sinh ra đồ thị từ:
Giả thuyết rằng 1 từw và thời điểm kết thúc t của nĩ, làm thế nào cĩ thể tìm thấy một số giới hạn các từđứng trước nĩ cĩ khả năng nhất ?. Nhiệm vụ này là khĩ khăn vì từ w cĩ thể phụ thuộc vào từ đứng trước từđang xem xét, nĩ dẫn đến một sự phụ thuộc lẫn nhau với các từđứng trước.
Một số khái niệm và giải thích thuật ngữ phổ biến trong đồ thị từ:
• One-Pass và Multi-Pass: Chúng ta gọi chiến lược tìm kiếm One-pass nếu cĩ một lần duyệt qua câu đầu vào, tương phản với Multi-pass là nhiều lần.
Chiến lược tìm kiếm One-pass và Multi-Pass hầu như luơn dựa trên kỹ thuật lập trình động.
• Time-Synchronous: Một chiến lược tìm kiếm gọi là đồng bộ thời gian nếu các giả thuyết tìm kiếm được thành lập trong một cách thức đồng bộ thơng qua chuỗi vector ngữ âm. Ý tưởng đồng bộ thời gian cĩ liên hệ chặt chẽ với chiến lược One-pass.
• Integrated Search: Chúng ta gọi một chiến lược tìm kiếm là tìm kiếm tích hợp nếu tất cả các nguồn kiến thức là cĩ thể sử dụng. Ví dụ như mơ hình ngữ âm, mơ hình âm vị, các ràng buộc từ điển phát âm, mơ hình ngơn ngữ được khai thác trong quá trình tìm kiếm ở cùng một thời điểm, ý tưởng này được cài đặt trong chiến lược One-pass.
• Word conditioned và Time conditioned: Các mục này được qui vào cách tìm trong khơng gian tìm kiếm, đặc biệt là trong ngữ cảnh của lập trình động. Trong một tìm kiếm Word conditioned mỗi một giả thuyết tìm kiếm là điều kiện trên từ đứng trước. Điều này ngụ ý rằng tối ưu hố trên thời điểm kết thúc chưa biết của từ đứng trước, tức là biên giới từ của đứng trước và từ đang xem xét đã sẵn sàng tiến hành trong 1 nhĩm từ đầu của thủ tục tìm kiếm. Phương pháp này là khác với phương pháp Time conditioned, với mỗi giả thuyết tìm kiếm là độc lập trên thời điểm kết thúc của từ đứng trước là được giữ lại và tối ưu hố trên các ranh giới từ chưa xác định được thực hiện như bước sau cùng của tìm kiếm.
• Single best: Chúng ta muốn nĩi về ý tưởng tìm kiếm mà nĩ xác định chuỗi từ cĩ khả năng nhất.
• Word graph: Ý tưởng đây là tổ chức một giả thuyết cấp cao trong hình thức của một đồ thị mà các cạnh của nĩ mơ tả các từ giả thuyết đơn. Đơi khi người ta dùng từ "word lattice" là đồng nghĩa với word graph.
• Confusion matrix: Ma trận nhầm lẫn chứa các giá trị xác suất cĩ điều kiện của chuỗi cĩ chứa từ khơng rõ ràng để sinh ra chuỗi từ như mong đợi.
Khi dùng mơ hình ngơn ngữ bigram trong kết nối với một cây mơ tả từ vựng phát âm, chúng ta gặp bài tốn nhận dạng của giả thuyết từ w được biết chỉ khi đi đến một nút lá của cây. Vì vậy, xác suất ngơn ngữ mơ hình cĩ thểđược kết hợp đầy đủ sau khi đạt đến trạng thái kết thúc từ thứ hai của bigram. Như một kết quả, chúng ta cĩ thể áp dụng xác suất mơ hình ngơn ngữ chỉ tại điểm cuối của cây. Để tạo ứng dụng của nguyên lý lập trình động cĩ thể thực hiện được, chúng ta cấu trúc khơng gian tìm kiếm như sau. Cho mỗi từđứng trước v, chúng ta giới thiệu một bản sao riêng biệt của cây từ vựng với kết quả là trong tiến trình tìm kiếm chúng ta luơn biết từđứng trước v khi một giả thuyết từ kết thúc w là được giả thuyết.
Hình 3.12 minh họa ý tưởng này cho một từ vựng gồm 3 từ (A, B, C), với cây từ vựng được mơ tả trong một hình thức biểu đồđơn giản hĩa. Trong bố trí như hình 3.12, chúng ta áp dụng xác suất bigram P(w|v) khi trạng thái kết thúc của từw
với từđứng trước v là đạt được, và sử dụng kết quả tồn bộđiểm để khởi động cây từ điển tương ứng, tức là cây cĩ từ w là cĩ từ đứng trước. Để điều khiển mơ hình nhĩm từ lặng (silence), chúng ta thêm một bản sao riêng biệt của mơ hình Silence tới mỗi cây. Hơn nữa, chúng ta cĩ một bản sao riêng biệt của cây từđiển cho từđầu tiên trong câu, cây bản sao này được cho thêm vào silence như từđứng trước. Cách tiếp cận này, các mơ hình bản sao silence khơng yêu cầu một xử lý đặc biệt, nhưng cĩ thểđược xử lý như các từ bình thường cùa từ vựng. Tuy vậy, cĩ một ngoại lệ: tại các ranh giới từ, khơng mơ hình ngơn ngữ xác suất cho các mơ hình Silence. Như trong hình 3.12, cĩ hai kiểu của đường đi mở rộng và tái kết hợp, cụ thể là ở bên trong của các từ hoặc các cây từ vựng và ở các ranh giới từ. Bên trong một từ, chúng ta cĩ đường đậm mơ tả sự chuyển tiếp trạng thái trong Mơ hình HMM. Tại các ranh giới từ, chúng ta cĩ đường mảnh và gạch rời, nĩ mơ tả sự tái kết hợp mơ hình ngơn ngữ bigram. Giống như tái kết hợp ngữ âm, chúng cũng được thực hiện ở mỗi khung thời gian 10ms. Đường gạch rời là liên quan đến sự tái kết hợp cho các bản sao bên trong nhĩm từ lặng silence. Chúng ta phải kết hợp xác suất bigram bên trong điểm số Qv(t, s = Sw) và xác định từ đứng trước v tốt nhất. Điểm số tốt nhất
này được truyền bên trong gốc của cây từ vựng liên kết, nĩ được mơ tả bằng ký hiệu . Ký hiệu { mơ tả một từ cuối.
Hình 3.12, Tái kết hợp mơ hình ngơn ngữ bigram và sử dụng từ Sil cho một cây từ vựng (ba từ vựng A, B, C), sử dụng cây bản sao word conditioned.
Với một chỉ định số lượng của thủ tục tìm kiếm, chúng ta giả sử rằng mỗi cung của cây từ vựng được mơ tả bởi một Mơ hình HMM. Chúng ta sẽ dùng chỉ số trạng thái s trực tiếp và giả sử rằng cấu trúc từ vựng là đạt được bởi xác suất chuyển
trạng thái của Mơ hình HMM. Để trình bày cách tiếp cận lập trình động , chúng ta giới thiệu hai con số sau (Ney, 1993):
• Qv(t, s) = tổng điểm của đường đi bộ phận tốt nhất tại thời điểm kết thúc t trong trạng thái s của cây từ vựng cho từđứng trước v.
• Bv(t, s) = thời điểm bắt đầu của đường đi bộ phận tốt nhất tại thời điểm kết thúc t trong trạng thái s của cây từ vựng cho từđứng trước v. Nĩi cách khác Bv(t, s) là con trỏ quay lui nĩ trỏ lui đến thời điểm bắt đầu của bản sao cây từ vựng cho từđứng trước v. Con trỏ quay lui này là cần thiết bởi vì nĩ định nghĩa của điểm sốQv(t, s) hàm ý rằng sự tối ưu trên thời điểm bắt đầu chưa biết của bản sao cây từ vựng cho từđứng trước vđã được thực hiện. Cả hai con sốđược đánh giá bằng cách dùng lập trình động đệ qui cho Qv(t, s):
Qv(t, s) = max {q(xt, s|σ). Qv(t -1, s)} Bv(t, s) = Bv(t – 1, σmax
v (t, s)) (3.6)
Với σmax
v (t, s) là trạng thái đứng trước tốt nhất cho giả thuyết (t, s) và từ đứng trước v. q(xt, s|σ) là tích của xác suất chuyển và phát của Mơ hình HMM dùng cho âm tiết độc lập và phụ thuộc ngữ cảnh.
Con trỏ quay lui Bv(t, s)được truyền theo quyết định lập trình động. Khơng giống như từđứng trước v, chỉ sốw cho từđang xem xét chỉ là cần thiết và nhận biết khi một đường đi giả thuyết đạt đến nút kết thúc của cây từ vựng: mỗi nút kết thúc của cây từ vựng được gán nhãn với từ tương ứng của từ vựng.
Việc sử dụng giá trị khởi tạo phù hợp cho σ = 0, phương trình này bao gồm tối ưu hĩa trên các ranh giới từ chưa biết. Tại các ranh giới từ, chúng ta phải tìm từ đứng trước v tốt nhất cho mỗi từw. Ta định nghĩa:
H(w; t) := max {p(w|v).Qv(t, Sw)} (3.7) Với trạng thái Sw biểu thị trạng thái kết thúc của từ w trong cây từ vựng. Để truyền đường đi giả thuyết bên trong cây từ vựng giả thuyết hoặc để bắt đầu tạo
chúng nếu chúng chưa tồn tại. Chúng ta phải đi tiếp qua điểm số và chỉ số thời gian trước khi xử lý các giả thuyết cho khung thời gian t:
Qv(t – 1, S = 0) = H(v; t – 1)
Bv(t -1, s = 0) = t -1 (3.8)
Thuật tốn One-pass (single best; lexical tree; bigram):
Tiến hành qua hết thời gian t từ trái sang phải
Mức ngữ âm: xử lý trạng thái của cây từ vựng
Khởi tạo: Qv(t-1, s =0) = H(v; t-1) Bv(t-1, s =0) = t-1
Liên kết thời gian (Time alignment): Q(t, s) sử dụng lập trình động.
Truyền các con trỏ quay lui Bv(t, s).
Cắt các giả thuyết khơng khả năng. Dọn dẹp danh sách tính tốn Mức cặp từ: xử lý các từ cuối Với mỗi cặp (w; t) thực hiện H(w; t) =maxv {p(w|v) Qv(t, Sw)} V0(w; t) = arg maxv {p(w|v) Qv(t, Sw)} Lưu lại từđứng trước tốt nhất v0 := v0(w; t) Lưu lại ranh giới từ tốt nhất τ0 := Bv0(t, Sw) Thu dọn rác (Garbage collection):
Cho nhận dạng tiếng nĩi từ vựng lớn liên tục, Vấn đề cốt yếu là giữ lại các chi phí lưu trữ thấp như cĩ thể. Việc giảm bộ nhớ yêu cầu cho con trỏ quay lui và mảng truy xuất ngược là cần thiết, trong khi các mảng truy xuất ngược được dùng để ghi nhận quyết định về từđứng trước tốt nhất mỗi khi khởi động từ. Tại các ranh giới từ, chúng ta lưu trữ cho mỗi giả thuyết từ cuối: chỉ số từ, thời điểm kết thúc của từđứng trước, điểm số và con trỏ quay lui. Thời điểm kết thúc của từđứng trước là khơng thực sự cần thiết, nhưng nĩ hữu ích mục đích chẩn đốn. Trong lúc xử lý nhận dạng, nhiều mục giả thuyết trong mảng truy xuất ngược sẽ trở nên “lỗi thời”,
vì đường đi mở rộng của chúng quá hạn trên thời gian để tái kết hợp và cần cắt tỉa các giả thuyết này. Để gỡ bỏ hợp lệ các mục giả thuyết lỗi thời khỏi mảng truy xuất ngược, chúng ta áp dụng phương pháp Thu dọn rác hoặc cịn gọi là phương pháp dọn dẹp (purging method) như sau. Mỗi mục của mảng truy xuất ngược được mở rộng bởi thành phần thêm vào được gọi là “time stamp” (dấu thời gian) nhưđề nghị của Steinbiss (1992). Việc dùng các con trỏ quay lui của các trạng thái giả thuyết, chúng ta thực hiện một truy xuất ngược cho mỗi trạng thái giả thuyết và đánh dấu các mục truy xuất ngược đạt được ở khung thời điểm hiện tại là một dấu thời gian. Do đĩ, tất cả các mục truy xuất ngược mà cĩ dấu thời gian khác với khung thời gian hiện tại cĩ thể được dùng lại để lưu trữ giả thuyết mới. Chú ý rằng, quá trình Thu dọn rác được kiểm sốt bằng việc sử dụng các trạng thái giả thuyết và các mục truy xuất ngược đạt được. Về nguyên tắc cơ bản, quá trình Thu dọn rác này cĩ thểđược thực hiện ở mỗi khung thời gian, nhưng để giảm chi phí, nĩ cĩ đủ khả năng thực hiện trong khoảng thời gian bình thường mỗi 50 khung thời gian.
Kỹ thuật cắt tỉa và mơ hình ngơn ngữ Look-ahead:
Vì việc thực hiện tìm kiếm đầy đủ là khơng thể thực hiện, chúng ta dùng chiến lược tìm đồng bộ thời gian theo chùm (beam search) với mỗi khung thời gian chỉ giữ lại các giả thuyết cĩ khả năng nhất (Lowere & Reddy, 1980). Chiến lược cắt tỉa bao gồm 3 bước mà chúng được thực hiện mỗi khung thời gian 10ms (Steinbiss et al, 1994).
Cắt tỉa Standard beam hoặc gọi là cắt tỉa ngữ âm được dùng để giữ lại xem xét thêm chỉ khi các giả thuyết cĩ điểm gần với giả thuyết trạng thái tốt nhất. Biểu thị điểm số giả thuyết trạng thái tốt nhất bởi:
QAC (t) := max(v, s) {Qv(t, s)}
Chúng ta cắt bỏ một giả thuyết trạng thái (s, t; v) nếu:
Qv(t, s) < fAC . QAC(t)
Cắt tỉa mơ hình ngơn ngữđược áp dụng chỉ khi cây giả thuyết khởi động như sau. Tại các giả thuyết từ cuối, xác suất bigram được hợp nhất bên trong tổng điểm số tích lũy, và điểm tốt nhất cho mỗi từ đứng trước được dùng để khởi động cây giả thuyết tương ứng hoặc truyền trong cây giả thuyết đã tồn tại. Các điểm số của cây giả thuyết khởi động được đưa ra thêm vào bước cắt tỉa:
QLM(t) := maxv {Qv(t, s = 0)}
với s=0 là trạng thái khơng cĩ thật lúc khởi động. Vì thế một cây giả thuyết khởi động bị gỡ bỏ nếu:
Qv(t, s=0) < fLM . QLM(t)
với fLMlà ngưỡng cắt tỉa mơ hình ngơn ngữ.
Cắt tỉa biểu đồ (Histogram pruning) giới hạn số giả thuyết trạng thái cịn lại với một số tối đa MaxHyp. Nếu số trạng thái hoạt động là lớn hơn MaxHyp, thì chỉ cĩ các giả thuyết MaxHyp được giữ lại và các trạng thái khác bị gỡ bỏ. Phương pháp cắt tỉa này được gọi là cắt tỉa biểu đồ bởi vì chúng ta sử dụng một biểu đồđiểm số của các trạng thái hoạt động (Steinbiss et al, 1994).
Hiệu quả của các phương pháp cắt tỉa cĩ thểđược cải thiện bằng sử dụng kỹ thuật Look-ahead. Trong nghiên cứu này, tơi chỉ trình bày mơ hình ngơn ngữ unigram look-ahead (Steinbiss et al, 1994), nĩ làm việc như sau. Cho mỗi cạnh âm tiết của một cây từ vựng, chúng ta xem xét xác suất của mơ hình ngơn ngữ unigram một cách hợp lệ để thu được một ước lượng của khả năng làm thế nào chúng ta cĩ đểđạt đến một nút kết thúc từ cạnh âm tiết đã cho. Xác suất mơ hình ngơn ngữđốn trước này được kết hợp trong phương trình qui hoạch động cho tính tốn giá trị
Qv(t, s) mỗi thời điểm ranh giới âm tiết là giả thuyết. Khi đạt đến nút kết thúc, chúng ta áp dụng xác suất chính xác của mơ hình ngơn ngữ bigram sau đĩ gỡ bỏ ước tính của mơ hình ngơn ngữ unigram. Thực nghiệm chỉ ra rằng mơ hình ngơn ngữ unigram look-ahead giảm sự cố gắng tìm kiếm (Ortmanns et al, 1996).
Mở rộng đến mơ hình ngơn ngữ trigram:
Phần trước, chúng ta xem xét cách tiếp cận tìm kiếm One-pass chỉ trong ngữ cảnh của mơ hình ngơn ngữ bigram. Để mở rộng phương pháp tìm kiếm word
conditioned từ bigram đến mơ hình ngơn ngữ trigram. Chúng ta phải nắm giữ cách tính tốn cho xác suất một mơ hình ngơn ngữ trigram, nĩ được qui định trên 2 từ đứng trước nhiều hơn 1 từ trong trường hợp mơ hình ngơn ngữ bigram. Kết hợp của một trigram bên trong phương pháp tìm kiếm word conditioned yêu cầu phải tổ chức lại khơng gian tìm kiếm. Hình 3.13 minh họa khơng gian tìm kiếm cĩ dùng mơ hình trigram . Cho mỗi 2 từ(u, v), chúng ta giới thiệu bản sao riêng biệt của cây từ vựng. Trong hình 3.13, gốc của mỗi cây bản sao được gán nhãn với 2 từ. Như trong trường hợp của mơ hình ngơn ngữ bigram, cấu trúc của khơng gian tìm kiếm được định nghĩa như là cách tìm trong mạng xác suất hoặc chi phí của mỗi cạnh phụ thuộc chỉ trên chính cạnh đĩ và khơng cĩ ngoại lệ. Thuộc tính này của mạng tìm kiếm cho phép chúng ta trực tiếp áp dụng nguyên lý của lập trình động. chú ý rằng, so sánh với tổ chức khơng gian tìm kiếm bigram, kích thước của khơng gian tìm