Các mô hình Markov ẩn cơ bản, cùng với các thuật toán huấn luyện chuẩn dựa trên maximum likelihood, đã được mở rộng trong nhiều cách để đáp ứng yêu cầu của
ứng dụng cụ thể. Ở đây sẽ thảo luận một số ví dụ quan trọng. Từ các ví dụ chữ số
trong Hình 13.11 cho thấy rằng các mô hình Markov ẩn có thể là những mô hình generative khá yếu cho dữ liệu, bởi vì nhiều chữ số tổng hợp là dạng không tiêu biểu cho dữ liệu huấn luyện. Nếu mục tiêu là phân lớp chuỗi, có thể có được lợi ích đáng kể
trong việc xác định các tham số của các mô hình Markov sử dụng hàm phân biệt hơn là kỹ thuật tối đa hóa hàm hợp lý. Giả sử chúng ta có một tập các quan sát huấn luyện Xr, trong đó r = 1 ,..., R, mỗi trong số chúng được gán nhãn theo m lớp, m = 1 ,..., M.
Đối với mỗi lớp, chúng ta có một mô hình Markov ẩn riêng biệt với các tham sốθm của riêng chúng, và chúng ta xử lý các vấn đề xác định giá trị của tham số như là một vấn
đề phân loại chuẩn bằng cách tối ưu hóa:
(13.72) ∑ = R r r r X m p 1 ) | ( ln
Sử dụng định lý Bayes này có thể biểu diễn các số hạng của chuỗi xác suất liên kết với các mô hình Markov ẩn: ∑ ∑ = = ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ R r M l r l r r r r l p X p m p X p 1 1 ( | ) ( ) ) ( ) | ( ln θ θ (13.73) Trong đó p(m) là xác suất tiên nghiệm của lớp m. Tối ưu hóa hàm giá này phức
tạp hơn so với cực đại hóa hàm hợp lý (Kapadia, 1998), và đặc biệt yêu cầu tất cả các chuỗi huấn luyện được đánh giá theo từng mô hình để tính mẫu số trong (13.73). Các mô hình Markov ẩn, cùng với phương pháp huấn luyện discriminative, được sử dụng rộng rãi trong nhận dạng tiếng nói (Kapadia, 1998).
Hình 13.17: Một phần của một mô hình Markov ẩn tự hồi quy, trong đó phân phối của quan sát xn phụ thuộc vào tập con của các quan sát trước đó cũng như các trạng thái ẩn zn. Trong ví dụ này, phân bố của xn phụ thuộc vào hai quan
sát xn-1 và xn-2 trước đó
Một điểm yếu lớn của mô hình Markov ẩn là cách thức mà nó biểu diễn phân bố
thời gian mà hệ thống duy trì trong trạng thái cho trước. Để xem xét vấn đề này, lưu ý rằng xác suất một chuỗi từ một mô hình Markov ẩn sẽ trải qua chính xác T bước trong trạng thái k sau đó chuyển tiếp đến một trạng thái khác được cho bởi:
(13.74) ) ln exp( ) 1 ( ) ( ) ( T kk kk kk A T A A T p = − ∝ −
Trong nhiều ứng dụng, đây là một mô hình không thực tế. Vấn đề có thể được giải quyết lại bằng cách mô hình hóa các trạng thái trực tiếp trong đó các hệ số đường chéo Akk được thiết lập bằng 0, và mỗi trạng thái k rõ ràng liên kết với một phân bố
xác suất p(T|k). Từ quan điểm đó, khi một trạng thái k được nhập, một giá trị T đại diện cho số bước thời gian mà hệ thống sẽ vẫn ở trong trạng thái k sau đó được rút ra từ p(T|k). Mô hình này sau đó phát ra T giá trị của biến quan sát xt, thường là giảđịnh là độc lập để . Cách tiếp cận này yêu cầu một số sửa đổi đơn giản cho thủ tục tối ưu hóa EM (Rabiner, 1989).
∏=
T
t 1p(xt |k)
Một hạn chế khác của HMM chuẩn là nó không có được sự tương quan tốt giữa các biến quan sát (nghĩa là, giữa các biến được phân cách bằng các bước thời gian) vì phải được thông qua xích Markov đầu tiên của trạng thái ẩn. Một cách để địa chỉ hóa là khái quát hóa HMM đểđưa ra mô hình Markov ẩn tự hồi quy (Ephraim et al., 1989), một ví dụ được thể hiện trong Hình 13.17. Đối với các biến quan sát rời rạc, điều này tương ứng với bảng mở rộng của các xác suất có điều kiện cho phân phối. Trong trường hợp Gaussian, chúng ta có thể sử dụng Gaussian tuyến tính trong đó có phân bố điều kiện cho xn đưa ra giá trị của các quan sát trước đó, và giá trị của zn, là một Gaussian kết hợp tuyến tính của các giá trị của các biến điều kiện. Rõ ràng số các liên
kết bổ sung trong biểu đồ phải được hạn chếđể tránh một số lượng quá nhiều tham số
tự do. Trong ví dụ như trong Hình 13.17, mỗi quan sát phụ thuộc vào hai quan sát trước đó cũng như trên các trạng thái ẩn. Mặc dù đồ thị này trông có vẻ lộn xộn, chúng ta lại có thể thấy rằng trong thực tế, nó vẫn có một cấu trúc đơn giản là dùng xác suất. Cụ thể, nếu chúng ta tưởng tượng điều kiện trên zn, chúng ta thấy rằng, như với các HMM chuẩn, các giá trị của zn-1 và zn+1 là độc lập, tương ứng với các thuộc tính độc lập có điều kiện (13.5). Điều này có thể xác minh một cách dễ dàng bằng cách ghi nhận rằng mọi đường đi từ nút zn-1 đến nút zn+1 đi qua ít nhất một nút quan sát từ nút
đầu đến nút kết thúc đối với con đường đó. Kết quả là, chúng ta có thể sử dụng một phép đệ quy forward-backward ở bước E của thuật toán EM để xác định phân phối hậu nghiệm của các biến tiềm ẩn trong một thời gian tính toán tuyến tính với chiều dài của chuỗi. Tương tự như vậy, bước M có một sự sửa đổi nhỏ của các phương trình chuẩn.
Hình 13.18: Ví dụ về một mô hình Markov ẩn input-output. Trong trường hợp này, cả hai xác suất truyền và và xác suất chuyển tiếp phụ thuộc vào các giá trị
của một chuỗi quan sát u1 ,..., uN
Chúng ta đã thấy rằng HMM tự hồi quy xuất hiện như một phần mở rộng tự
nhiên của HMM chuẩn khi được xem như là một mô hình đồ họa. Trong thực tế, quan
điểm mô hình hóa xác suất đồ họa thúc đẩy sự ra đời của các cấu trúc đồ họa khác nhau dựa trên các HMM. Một ví dụ khác là mô hình Markov ẩn input-output (Bengio và Frasconi, 1995), trong đó chúng ta có một chuỗi các biến quan sát u1 ,..., uN, cùng với các biến output x1 ,..., xN, có giá trị ảnh hưởng đến phân bố của các biến tiềm ẩn hoặc các biến output, hoặc cả hai. Một ví dụ thể hiện trong hình 13.18. Điều này mở
rộng HMM trong việc học có giám sát cho dữ liệu tuần tự. Dễ dàng thấy rằng, các tính chất Markov (13.5) cho chuỗi các biến tiềm ẩn vẫn còn thỏa mãn. Để minh chứng, đơn giản là lưu ý rằng chỉ có một con đường từ nút zn-1đến nút zn+1 và chúng là đầu và cuối
đối với nút quan sát zn. Tính chất độc lập có điều kiện này một lần nữa cho phép xây 32
dựng các giải thuật học có hiệu quả về tính toán. Đặc biệt, chúng ta có thể xác định các tham sốθ của mô hình bằng cách tối đa hóa hàm hợp lý L(θ) = P(X|U,θ) trong đó U là một ma trận mà hàng có được bởi uTn. Hệ quả của tính chất độc lập có điều kiện (13,5), hàm hợp lý này có thể được tối đa hóa một cách hiệu quả sử dụng một thuật toán EM trong đó bước E liên quan đến việc đệ quy tiến và lùi.
Một biến thể của HMM xứng đáng được đề cập đến là mô hình Markov ẩn giai thừa (Ghahramani và Jordan, 1997), trong đó có nhiều chuỗi Markov độc lập là các biến ẩn và sự phân bố của các biến được quan sát tại và sự phân bố của các biến quan sát thấy tại một bước thời gian nhất định có điều kiện về trạng thái của tất cả các biến
ẩn tương ứng tại cùng thời điểm đó. Hình 13.19 chỉ ra mô hình đồ thị tương ứng.
Hình 13.19: Một mô hình Markov ẩn giai thừa bao gồm hai xích Markov của các biến tiềm ẩn. Với các biến quan sát liên tục x, có thể lựa chọn một trong
những mô hình truyền là một mật độ Gauss tuyến tính nghĩa là kết hợp tuyến tính các trạng thái của các biến tiềm ẩn tương ứng
Động lực thúc đẩy để xem xét HMM giai thừacó thểđược nhận thấy, chú ý rằng
để biểu diễn 10 bit thông tin tại một bước thời gian nhất định, HMM sẽ cần K =210 = 1024 trạng thái ẩn, trái lại, HMM giai thừa có thể dùng 10 chuỗi nhị phân ẩn. Nhược
điểm chủ yếu của HMM giai thừa là sự phức tạp trong quá trình huấn luyện chúng. Bước M của HMM giai thừa là hiển nhiên. Tuy nhiên, sự quan sát của các biến dộc lập với các chuỗi ẩn, dẫn đến khó khăn ở bước E. Điều này có thể nhận thấy trong Hình 13.19, các biến z1n và z2n được nối bằng một đường mà head-to-head tại nút xn và vì vậy chúng không phải là d - khoảng cách. Bước E chính xác đối với mô hình này không ứng với việc thực hiện đệ quy quay lui và forward theo chuỗi Markov một cách
độc lập. Điều này được xác nhận bằng cách chú ý rằng tính chất độc lập là điều kiện
chủ yếu (13.5) không thoả mãn đối với chuỗi Markov riêng lẻ như đã chỉ ra trong Hình 13.20 bằng cách sử dụng d - khoảng cách.
Hình 13.20: Ví dụ về một đường, đánh dấu bằng màu xanh lá cây, là head-to-head ở nút quan sát xn-1 và xn+1, và head-to-tail tại các nút không được quan sát z(2)n-1, z(2)n, và z(2)n+1. Vì vậy, con đường không bị chặn và do đó tính chất độc lập có điều kiện (13.5) không thỏa cho các chuỗi đơn lẻ của
mô hình HMM giai thừa. Kết quả là, không có bước E chính xác hiệu quả cho mô hình này
Bây giờ, có M chuỗi của các nút ẩn và để đơn giản giả sử rằng tất cả các biến ẩn có cùng K trạng thái. Sau đó một hướng tiếp cận sẽ kết hợp KM biến ẩn tại cùng một bước thời gian và vì thế chúng ta có thể chuyển đổi mô hình sang HMM chuẩn tương
đương có một chuỗi các biến ẩn. Một trong số các biến ẩn có KM trạng thái ẩn. Sau đó chúng ta có thể thực hiện đệ quy forward-backward trong bước E. Điều này có độ
phức tạp tính toán O(NK2M) là hàm mũ trong M số của các chuỗi ẩn và vì thế sẽ là cứng nhắc cho bất kỳ giá trị nhỏ hơn của M. Một giải pháp sẽđược dùng làm phương pháp mẫu (đã thảo luận trong chương 11). Ghahramani và Jordan (1997) khai thác các kỹ thuật suy luận variational để nhận được một thuật toán dễ vận dụng cho suy luận xấp xỉ.Điều này có thể làm được bằng cách sử dụng một biến đơn giản phân bố sau là giai thừa đầy đủđối với các biến ẩn, hoặc như một sự chọn lựa bằng cách sử
dụng hướng tiếp cận có hiệu lực hơn trong đó sự phân bố variational được mô tả bởi chuỗi Markov ẩn tương ứng với chuỗi của các biến ẩn trong mô hình gốc. Trong trường hợp sau, thuật toán variational inference gồm việc thực hiện đệ quy forward và backward theo mỗi chuỗi, và chưa có sự tương quan giữa các biến trong cùng một chuỗi.
34
Rõ ràng, có nhiều cấu trúc có xác suất có thểđược xây dựng theo các ứng dụng
35
và phân tích các cấu trúc đó, và các phương pháp variational cung cấp một framework hiệu lực đối với việc thực thi kết suy luận trong các mô hình này.
13.3. Các hệ thống động tuyến tính - Linear Dynamical Systems
Để thúc đẩy quan niệm của các hệ thống động tuyến tính, chúng ta xét một bài toán đơn giản sau. Giả sử, chúng ta muốn đo giá trị của một đại lượng chưa biết z sử
dụng bộ nhận biết nhiễu (tiếng ồn), trả về một quan sát x đại diện giá trị của z cộng với 0, nghĩa là nhiễu Gaussian. Cho một dại lượng đo đơn, chúng tôi giả sử z = x. Tuy nhiên, chúng ta có thể cải tiến ước lượng đối với z bằng cách đưa ra nhiều phép đo và tính trung bình của chúng, bởi vì các số hạng nhiễu (tiếng ồn) ngẫu nhiên sẽ có xu hướng huỷ bó các số hạng khác. Bây giờ chúng ta đưa ra tình huống phức tạp hơn, bằng cách giả sử chúng ta muốn đo một đại lượng z thay đổi theo thời gian. Chúng ta có thể đưa ra quy tắc đo lường để mong muốn tìm ra các giá trị của các quan sát 1,...,N. Nếu chúng ta lấy trung bình các đơn vị đo, thì lỗi do nhiễu ngẫu nhiên sẽ giảm, nhưng chúng ta sẽ chỉ nhận được một sựđánh giá trung bình đơn giản, trong đó chúng ta lấy trung bình qua sự thay đổi giá trị của z, do đó chúng ta giới thiệu một nguyên nhân sai số mới.
Bằng trực quan, chúng ta có thể hình dung cách làm tốt hơn một chút như sau.
Để đánh giá giá trị của ZN, chúng ta chỉ cần một vài phép đo gần đây nhất, gọi xN- L,...,xN và trung bình của chúng. Nếu nó chỉ thay đổi chậm, và mức độ nhiễu ngẫu nhiên trong bộ cảm biến là cao, nó sẽ tạo cho chúng ta cách để lựa chọn một cửa sổ
tương đối dài của các quan sát để lấy trung bình. Ngược lại, nếu tín hiệu thay đổi nhanh và mức độ nhiễu là nhỏ, thì tốt hơn hết là sử dụng xN một cách trực tiếp như đánh giá của chúng ta về zN. Có lẽ tốt hơn nếu chúng ta tạo ra một trọng số trung bình, trong đó các phép đo gần hơn sẽ tạo ra sự phân bố lớn hơn các quan sát “ít” gần.
Mặc dù các tranh luận về vấn đề này có vẻ như chính đáng, nó không cho chngs ta biết làm thế nào để tạo thành một trọng số trung bình. May mắn thay, chúng ta có thể giải quyết vấn đề này một cách có hệ thống hơn nữa bằng cách định nghĩa một mô hình xác suất, điều đó đạt được về mặt thời gian và đo đạc các quá trình, và sau đó áp dụng những suy luận và các phương pháp nghiên cứu đã được giới thiệu trong các chương trước. Ở đây, chúng ta sẽ thảo luận một cách rộng rãi bằng cách sử dụng mô hình đã biết - hệ thống động tuyến tính.
Như chúng ta đã thấy, HMM tương ứng với mô hình không gian trạng thái đã chỉ
ra trong hình 13.5, trong đó các biến ẩn là rời rạc với các phân bố xác suất phát tán tuỳ
ý. Đồ thị này mô tả một lớp rộng hơn của các phân bố xác suất, tất cả những điều này theo (13.6). Bây giờ chúng ta xem xét phần mở rộng của các phân bố khác cho các
biến ẩn. Đặc biệt, chúng ta xem xét các biến ẩn liên tục trong đó tổng của thuật toán sum-product là một số nguyên. Hình thức tổng quát của thuật toán suy luận sẽ tương tự như mô hình Markov ẩn. Chú ý rằng, mô hình Markov ẩn và hệ thống động tuyến tính được phát triển một cách độc lập. Khi cả hai hệ thống cùng biểu diễn trên các mô hình đồ thị, thì mối quan hệ sâu sắc của chúng ngay lập tức trở nên rõ ràng.
Một trong những yêu cầu chủ chốt để chúng tôi giữ lại một thuật toán hiệu quả đối với suy luận tuyến tính theo độ dài của chuỗi. Các yêu cầu này, chẳng hạn, khi chúng ta tạo một đại lượng αˆ(zn−1), biểu diễn xác suất sau của zn cho bởi các quan sát x1,…,xn và nhân cho xác suất chuyển tiếp p(zn|zn−1) và xác suất phát tán p(xn|zn), sau
đó marginalize zn−1, chúng ta đạt được một phân bố trên zn nghĩa là thành lập hàm tương tự nhưở trên αˆ(zn−1). Hay có thể nói phân bố không phức tạp hơn ở từng giai
đoạn, nhưng phải thay đổi giá trị của các tham số.
Ởđây chúng ta xét ví dụ quan trọng nhất từ góc độ thực tiễn, đó là Gaussian. Đặc biệt, chúng ta xét một mô hình không gian trạng thái Gaussian tuyến tính, vì thế các biến ẩn {zn} chính là các quan sát {xn}, là các phân bố Gaussian mà ý nghĩa của nó là