Kỹ thuật nhận dạng dựa trên mô hình Markov ẩn (HMM)

Một phần của tài liệu Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER (Trang 26)

Mô hình Markov ẩn (Hiden Markov Model - HMM) được giới thiệu vào cuối những năm 1960 và là một trong những mô hình học máy quan trọng nhất ứng dụng trong xử lý ngôn ngữ tự nhiên và nhận dạng. Mô hình này là trường hợp mở rộng của máy hữu hạn trạng thái có hướng, có trọng số. HMM thường được dùng để xử lý những sự kiện không quan sát trực tiếp được (sự kiện ẩn). HMM là một mô hình xác suất hữu hạn trạng thái theo kiểu phát sinh tiến trình bằng cách định nghĩa xác suất liên kết trên các chuỗi quan sát. Mỗi chuỗi quan sát được sinh ra bởi một chuỗi các phép chuyển trạng thái, bắt đầu từ trạng thái khởi đầu cho đến khi thu được trạng thái kết thúc. Tại mỗi trạng thái thì một phần tử của chuỗi quan sát được phát sinh ngẫu nhiên trước khi chuyển sang trạng thái tiếp theo. Các trạng thái của HMM được xem là ẩn bên trong mô hình vì tại mỗi thời điểm chỉ nhìn thấy các kí hiệu quan sát còn các trạng thái cũng như sự chuyển đổi trạng thái được vận hành ẩn bên trong mô hình. Đặc biệt, mô hình Markov ẩn đã được sử dụng rất thành công trong lĩnh vực nhận dạng tiếng

w. 1 w. 1 i i x b x b < > + ³ ì í< > + £ - î , nếu yi=1

nói [25]. Chính sự thành công này đã mở ra một hướng tiếp cận mới trong lĩnh vực nhận dạng ảnh văn bản ví dụ như nhận dạng chữ [11].

Mô hình Markov ẩn là mô hình thống kê, các thành phần của mô hình bao gồm:

· Tập N trạng thái S1, S2, ..., SN , trạng thái ở “thời điểm” t, qt = Si

· Ma trận xác suất chuyển trạng A =[ aij ], aij biểu diễn xác suất dịch chuyển từ trạng thái i tới trạng thái j, (aij ≡ P(qt+1=Sj | qt=Si) với aij ≥ 0 và ∑ 1 ∀

· Dãy gồm T quan sát O = O1O2…OT lấy trong tập các kí hiệu quan sát tập V = v1v2…vM

· Dãy các khả năng quan sát (Observation Likehood) B = bj(m ), biểu thị xác suất của quan sát vm ở thời điểm t (Ot=vm ) được sinh ra từ trạng thái ở thời điểm t, qt=Sj , bj(m) ≡ P(Ot=vm | qt=Sj), ∑ b 1

· Xác suất khởi tạo πi ≡ P(q1=Si) , trong đó ∑ π 1

Một mô hình HMM với N trạng thái {S1,...,Sn} được kí hiệu là λ=(A,B,π). Mô hình λ hoạt động khi cho chuỗi dữ liệu đầu vào O = O1O2...OT (chuỗi quan

sát)- đây là dữ liệu trích rút đặc trưng từ ảnh kí tự cần nhận dạng trong nhận dạng ảnh văn bản. Với mô hình hoạt động như vậy (thể hiện bằng lưới ở hình 2.4), chúng ta có khả năng nhận dạng tín hiệu được sinh ra từ các tiến trình ở hình lưới hoặc tiên đoán chuỗi quan sát trong tương lai gần đúng nhất khi cho trước một dãy quan sát cục bộ nào đó.

Hình 2.4. Lưới các chuỗi trạng thái, các tiến trình Markov với dãy quan sát O1, ..., OT.

Ở hình 2.4, mỗi HMM có thể sinh ra một chuỗi các kí hiệu đầu ra, các kí hiệu này quan sát được, chuỗi trạng thái sinh ra quan sát này là ẩn. Các trạng thái trong mô hình HMM được xem là bị ẩn đi.

Hai vấn đề chính của HMM để nó có thể ứng dụng trong hệ thống nhận dạng (JeffBilmes, 2002):

- Vấn đề 1: Nhận dạng. Cho chuỗi quan sát O= O1, O2, ..., OT và một mô hình HMM l. Tính xác suất P(O|l) của chuỗi O trên mô hình đó. - Vấn đề 2: Huấn luyện. Làm thế nào điều chỉnh các tham số của mô

hình l để P(O|l) cực đại, nghĩa là tối ưu hóa l.

Khi đó có thể áp dụng mô hình HMM nhận dạng ảnh kí tự, với mỗi kí tự sau khi qua khâu trích rút đặc trưng thu được vec tơ p chiều, vec tơ đặc trưng này được biến đổi thành dãy quan sát O1, O2, ..., OT.

Ưu điểm của HMM khi nhận dạng là đầu vào không cần các mẫu có số lượng các khung bằng nhau; quá trình học có thể tổng hợp tất cả các mẫu khác nhau của cùng một lớp để đưa ra mô hình chung cho các mẫu học. Hạn chế của mô hình Markov là khó để phân lớp dữ liệu vì để tính được xác suất P(Y,X) thông thường ta phải liệt kê hết các trường hợp có thể của chuỗi Y và chuỗi X. Thực tế thì chuỗi Y là hữu hạn có thể liệt kê được, còn X (các dữ liệu quan sát) là rất phong phú. Để giải quyết các vấn đề này HMM đưa ra giả thiết về sự độc lập giữa các dữ liệu quan sát: dữ liệu quan sát được tại thời điểm t chỉ phụ thuộc vào trạng thái tại thời điểm đó.

Một phần của tài liệu Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER (Trang 26)