HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYEN CHÍ THÀNH
NGHIÊN CỨU MÔ HÌNH XÁC SUÁT
CHUYEN NGANH: HE THONG THONG TIN
MA SO: 60.48.01.04
LUẬN VĂN THẠC SĨ KY THUAT
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TỪ MINH PHƯƠNG HÀ NỘI - 2015
Trang 2Luận văn được hoàn thành tại:
Người hướng dẫn khoa học:
PGS.TS Từ Minh Phương
Phản biện 1: - - - ĂcĂ E11 111111 23111 1 kg xen
Phản biện 2: c2 E3 1222301011111 1293311111110 1 kg xa
Luận văn sẽ được bảo vệ trước Hội đông châm luận văn tại Học viện Công
nghệ Bưu chính Viễn thông
Vào lúc: giờ à năm 2015
Có thê tìm hiệu luận van tại:
- Thư viện Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Việc xử lý dữ liệu dạng chuỗi (tuần tự) trong mô hình cấu trúc ngẫu nhiên cùng
với sự áp dụng rộng rãi của chúng ngày càng được chú ý nhiều hơn, trong nhiều lĩnh
vực như: ngôn ngữ, tin học, máy tính và mạng xã hội Ví dụ: Trong xử lý ngôn ngữ
tự nhiên (NLP) là việc suy luận (từng phần hoặc đầy đủ) cấu trúc ngữ pháp của câu, cấu trúc phân cấp của một dữ kiện và một dãy những đại lượng được nêu tên (như: tên
riêng, nơi ở) trong một câu
Từ các ví dụ thực tế cho thấy có các đặc tính chung đối với các tập dữ liệu z mà
chúng ta có thé quan sát và thu nhận được, việc mô hình hóa va suy luận về các mô
hình cấu trúc x từ dit liệu ngày càng được quan tâm Trong mô hình xác suất, sự suy đoán về x liên quan tới xác suất có điều kiện P(xlz) Có 2 cách tiếp cận cơ bản đối với van dé này Đầu tiên là giả định rằng những mau x cơ bản tạo ra những dữ liệu z có thé quan sát được đưa ra bởi xác suất P(z|x) Dé suy luận về x ta sử dụng định ly Bayes như sau: P(x|z) = P(x)*P(z|x)/P(z) như vậy chúng ta phải giải quyết: mô hình của
chính ban thân mau P(x) là gì? Mô hình dữ liệu tạo ra trong xác suất P@lx) là gì?.
Cách tiếp cận thứ 2 trực tiếp hơn là chúng ta mô hình hoá phân phối xác suất có điều kiện P(xlz) một cách trực tiếp mà không để ý đến xác suất P(x) Điều này rất quan trọng khi xác suất ngẫu nhiên P(zlx) là phức tạp, trong khi đó xác suất P(xlz) có thê đơn giản hơn Nó cũng loại bỏ những nguy cơ tiềm ấn trong giả định này Cách tiếp
cận này thường được gọi là những mô hình phân biệt.
Như vậy, việc áp dụng các mô hình xác suất trong việc giải quyết các bài toán dữ
liệu dạng chuỗi được đặt ra là sử dụng ra sao, thiết lập các tham số, đánh giá tính tối
ưu như thế nào đối với mỗi mô hình trong các bài toán cụ thể Luận văn sẽ tập trung vào tìm hiểu về dữ liệu dạng chuỗi; bài toán phân tích dữ liệu dạng chuỗi và các mô hình xác suất áp dụng trong bài toán phân tích dữ liệu dạng chuỗi Các mô hình được đề cập bao gồm: mô hình đồ thị, mô hình Markov ẩn (Hidden Markov Model — HMM), mô hình Maximum Entropy và mô hình Trường ngẫu nhiêu điều kiện
(Conditional Random Field — CRF).
Luan van nay duoc trinh bay trong ba chuong:
Trang 4Chương I: Tổng quan
Trong chương này trình bày tổng quan về dữ liệu dạng chuỗi: các khái niệm và đặc trưng của dữ liệu dạng chuỗi; Các vấn đề chung về bài toán học có giám sát, dữ liệu dạng chuỗi (dữ liệu tuần tự) và các vấn đề chung cần nghiên cứu trong bài toán học có giám sát với dữ liệu dạng chuỗi Ứng dụng của bài toán phân tích dữ liệu dạng
Chương II: Một số mô hình xác suất cho phân tích dữ liệu dạng chuỗi
Trong chương này cũng đề cập đến một số mô hình xác suất cho phân tích dữ
liệu dạng chuỗi Các mô hình được giới thiệu gồm: mô hình Maximum Entropy, mô
hình đồ thị, mô hình Markov ân, mô hình các trường ngẫu nhiên điều kiện (CRF).
Chương 3 Thử nghiệm đánh giá
Trong chương nay sẽ sử dụng một số mô hình được dé cập trong chương 3 dé giải quyết các bài toán cụ thé trong xử lý nhận dạng thực thé có tên (Named-entity
recognition - NER), cu thé bài toán được thử nghiệm là khai thác thông tin về thuốc
trong hồ sơ bệnh án.
Chương I TONG QUAN
Trong chương nay trình bày tổng quan về dữ liệu dang chuỗi: các khái niệm và đặc trưng của đữ liệu dạng chuỗi; Các vấn đề chung về bài toán học có giám sát, dit
liệu dạng chuối (đữ liệu tuần tự) va các van dé chung can nghiên cứu trong bài toán
học có giám sát với dữ liệu dạng chuối Ung dụng của bài toán phân tích dữ liệu
dang chuối.
1.1 Dữ liệu dạng chuỗi
Dữ liệu dạng chuỗi là một tập các phần tử được sắp thứ tự s := ai, a9, an Trong đó mỗi phan tử a; có thé là kiểu số hoặc có thé nhận giá trị rời rac Độ dài n của chuỗi là không có định, chuỗi được sắp theo thứ tự thời gian hoặc vi trí và có thể sắp đều
hoặc không [11].
Trang 5Việc xử lý dữ liệu dạng chuỗi trong mô hình câu trúc ngau nhiên cùng với sự ápdụng rộng rãi của chúng ngay càng được chú ý nhiêu hon, trong nhiêu lĩnh vực như:
ngôn ngữ, tin học, máy tính và mạng xã hội
Trong phan tiếp theo sẽ đề cập đến các van đề chung về bài toán học có giám sát, dữ liệu tuần tự (đữ liệu chuỗi) và các van đề chung cần nghiên cứu trong bài toán học có giám sát với dữ liệu tuần tự: các hàm suy hao, lựa chọn đặc trưng, hiệu năng
tính toán Một số bài toán phân loại dữ liệu dạng chuỗi và sự khác nhau khi phân loại
dữ liệu này so với phân loại dữ liệu thông thường Các mô hình xác suất có thé sử
dụng cho bài toán học có giám sát được trình bày trong chương 2.
1.2 Bài toán học có giám sát với dữ liệu dạng chuỗi
Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm phân loại có thé dự đoán một cách chính xác các lớp đối tượng mới từ dit liệu huấn luyện là các đối tượng cũ Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-to), và đầu ra mong muốn Đầu ra của một hàm có thể là một giá tri liên tục
hay có thé là dự đoán một nhãn phân loại cho một đối tượng đầu vào Nhiệm vụ của
chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bắt kì là đầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và dau ra tương ứng) Dé đạt được điều này, chương trình học phải tổng quát hóa từ các dữ liệu san có dé dự đoán được những tình huống chưa gặp phải theo một cách
hợp lí.
Có hai sự khác biệt chính giữa việc dự đoán chuỗi thời gian và nhận biết được giám sát theo tuần tự Đầu tiên trong việc nhận biết được giám sát theo tuần tự, toàn bộ
chuỗi <x¡,xa ,Xy> sẵn có trước khi chúng ta đưa ra bắt kỳ dự đoán nào về các giá tri
y, trong khi dự đoán chuỗi thời gian, chúng ta chỉ có một tiếp đầu ngữ của chuỗi tính đến thời điểm hiện tại t+1 Thứ hai, trong khi phân tích chuỗi thời gian, chúng ta có các giá trị y được quan sát thực tính đến thời điểm t, trong khi trong việc nhận biết được quan sát theo tuần tự thì chúng ta không có trước bất kỳ giá trị y nào và chúng ta
phải dự đoán chúng.
Tác vụ phụ thuộc chặt thứ hai là phân loại chuỗi Trong tác vụ này, bài toán là
đê dự đoán một nhãn đơn y mà phù hợp với một chuỗi đầu vào nguyên vẹn
Trang 6<XI,xa, ,Xr> Ví dụ, cho trước một chuỗi các hình ảnh của các ký tự viết tay, tác vụ này có thể để xác định việc nhận dạng người viết các ký tự đó (nhận dạng viết tay) Trong các loại bài toán này, mỗi vi dụ huấn luyện bao gồm một cặp (x;,y;) với x; là một
chuỗi <X¡I, Xi2, „ Xir¡ > Và mỗi y; là một nhãn lớp ( như là chứng minh nhân dân
của một người) Một bài toán tương tự phát sinh trong quá trình nhận dạng toàn bộ các
từ dựa trên việc kiểm tra chữ viết tay x; có thé là một chuỗi các chữ cái viết tay và y;
có thê là một từ như “hundred”.
Tương tự, một số phương pháp trong bài toán nhận biết được giám sát theo tuần tự đưa ra các dự đoán bằng cách quét chuỗi từ trái sang phải, và các phương pháp như
thế cũng có thể được áp dụng cho các bài toán chuỗi thời gian Tuy nhiên, các phương
pháp dé phân tích một chuỗi nguyên vẹn các giá tri x, trước khi dự đoán các nhãn y, về mặt điển hình có thể cho hiệu năng tốt hơn các bài toán nhận biết được giám sát theo
tuân tự.
1.3 Các vấn đề nghiên cứu trong bài toán nhận biết được giám sát theo tuần tự
Có ba vân dé cơ bản trong bài toán nhận biét được giám sát theo tuân tự là: cáchàm suy hao, lựa chọn đặc trưng va ảnh hưởng trong tính toán.
1.3.1 Các hàm suy hao
Trong bài toán nhận biết được giám sát theo phân lớp, phép đo mức độ thành công thông thường tỉ lệ với các điểm dữ liệu kiểm thử mới được phân loại một cách
chính xác Điều này được biết như suy hao 0/1, nghĩa là suy hao 1 được nhận cho mỗi
điểm kiểm thử không được phân loại và suy hao 0 cho mỗi điểm kiểm thử được phân loại chính xác Gần đây, các nhà nghiên cứu đã nghiên cứu các hàm suy hao không
đều Những hàm này thường được biểu diễn bởi một ma trận giá trị C(1,J), ma trận này
cung cấp giá trị của nhãn gán ¡ cho một ví dụ mà nhãn đúng của nó phải là j Trong các trường hop đó, mục đích là dé tìm ra hàm phân loại với giá trị kỳ vọng cực tiểu.
Một chiến lược dé phát triển một hàm phân loại như thé là sử dụng ham ước lược mật độ có điều kiện P(y|x) và sau đó phân loại một điểm dit liệu mới x theo công thức:
y = argmin; 3; P|x)CŒ,j) (1.3.1)
Trang 7Công thức này chọn lớp mà giá trị kỳ vọng của nó là cực tiểu.
1.3.2 Lựa chọn đặc trưng
Bat kỳ phương pháp nào đối với bài toán nhận biết được giám sát theo tuần tự phải áp dụng một dạng chia dé trị nào đó dé tách toàn bộ bài toán dự đoán y; dựa trên x, thành các bài toán nhỏ dự đoán các nhãn đầu ra riêng rẻ y¡, dựa trên một sé tap hop con các thông tin từ x; (va có lẽ các giá trị được dự đoán y;„ khác) Một trong số các bài toán chính của bài toán nhận biết được giám sát theo tuần tự là để nhận dạng tập hợp con thông tin liên quan dé đưa ra các dự đoán chính xác.
Trong bài toán nhận biệt được giám sát chuân hóa, điêu này được biệt như bai
toán lựa chọn đặc trưng, và có 4 chiến lược cơ bản dé giải quyết bài toán này.
1.3.3 Hiệu quả tính toán
Mot thách thức thứ ba trong bài toán nhận biết được giám sát theo tuần tự là dé nghiên cứu các phương pháp nhận biết và phân loại mà hiệu quả về mặt tính toán.
Chúng ta sẽ thấy rằng một số thuật toán nhận biết đã được đề xuất cho các bài toán nhận biết được giám sát theo tuần tự rất đất đỏ về mặt tính toán.
1.4 Ứng dụng của bài toán phân tích dữ liệu dạng chuỗi
Phân loại, gán nhãn dữ liệu dạng chuỗi được ứng dụng rộng rãi trong các bài
toán về nhận dạng, phân mảnh Mô hình Markov ân đã thành công trong một thời gian dài với bài toán gán nhãn cho dữ liệu dạng chuỗi Gần đây, một số mô hình có điều
kiện như Maximum Entropy Markov Model (MEMM) và Conditional Random Field
(CRF) được sử dung nhiều bởi khả năng cho phép các tính năng chồng chéo Trong đó CRF là phương pháp được chú ý nhiều nhất.
Gan nhãn cho dữ liệu dạng chuỗi được sử dụng nhiêu trong các bài toán gan
nhãn từ loại, nhận dạng hình ảnh, âm thanh hay các bài toán về dự đoán gen.
Phân loại, tách từ (phân cụm từ) là một bài toán thuộc các bài toán phân tíchhình thái (morphological analysis) trong xử lý ngôn ngữ tự nhiên Day là một bước xử
lý quan trong trong hệ thống Xử lý ngôn ngữ tự nhiên Bài toán tách từ được nghiên
cứu và được sử dụng trong nhiều ứng dụng thực tế như các hệ thống trích chọn thông
Trang 8tin, dịch máy, và tóm tắt văn bản Bài toán tách từ có thê hiểu là việc gộp một dãy liên tiếp các từ trong câu dé gán nhãn cú pháp.
1.5 Kết luận chương
Trong thời gian qua, sự quan tâm đối với lĩnh vực Trí tuệ nhân tạo nói chung và bài toán phân tích dữ liệu là rất đáng kê Nhiều công trình nghiên cứu trong và ngoài nước đã và đang sử dụng phân tích cho dữ liệu dạng chuỗi và có những ứng dụng nhất định Trong những năm gan đây, việc phân tích cho dữ liệu dạng chuỗi với dit liệu có cấu trúc thu hút được nhiều sự chú ý trong các vẫn đề về xử lý ngôn ngữ tự nhiên Mục
đích của bài toán học có cấu trúc là dự đoán được các cấu trúc phức tạp như chuỗi, cây
hay đồ thị Tuy thuộc vào kích thước của dữ liệu mà ta có thé thay bài toán học có cầu trúc là thú vị hơn so với các dữ liệu không có cấu trúc Việc học với đữ liệu không có cau trúc có thé khá nhàm chán, do các thành phan trong dữ liệu là không có liên quan
đến nhau Trong đó có nhiều phương pháp phân tích dữ liệu dạng chuỗi được sử dụng dựa trên các mô hình xác suất Trong chương tiếp theo, ta sẽ đi vào nghiên cứu một số
mô hình xác suất cho bài toán phân tích dữ liệu dạng chuỗi như mô hình MEM, Mô hình đồ thi, HMM, CRE và ứng dụng của các mô hình này trong bài toán phân tích dữ
liệu dạng chuỗi.
Chương II MOT SO MÔ HÌNH XÁC SUAT CHO PHAN
TÍCH DU LIEU DANG CHUOI
Trong chương này cũng dé cập đến một số mô hình xác suất cho phân tích dữ
liệu dạng chuối Các mô hình được giới thiệu gm: mô hình Maximum Entropy, mô hình đồ thị, mô hình Markov ẩn, mô hình các truong ngẫu nhiên điều kiện (CRF).
2.1 Mô hình Maximum Entropy
Mô hình cực đại hóa Entropy (Maximum Entropy Model — MEM) là một mô
hình dựa trên lý thuyết xác suất, được đề xuất lần đầu bởi Jaynes E.T từ năm 1957
[30,31] Trong đó, MEM giải quyết tốt ba yêu cầu chủ yếu của xử lý ngôn ngữ tự nhiên, đó là: Độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng Phần này
sẽ giới thiệu về bản chất lý thuyết, mô hình xác suất và một số mặt còn hạn chế của
MEM.
Trang 92.1.1 Khát niém MEM
Tu tưởng chính của phương pháp cực đại hóa Entropy là “ngoài vệc thỏa mãn
một số ràng buộc nào đó thi mô hình càng đồng đều càng tốt” [30] Dé rõ hơn về van dé này, thử xem xét trong trường hợp một bài toán gán nhãn từ loại gồm có 8 nhãn từ loại Giả sử chúng ta có một ràng buộc duy nhất: 80% các từ có ký tự đầu của các hình
vị viết hoa là danh từ riêng (Np) Trực quan cho thấy, nếu có một từ mà tất cả ký tự
đầu của các hình vị tạo nên nó là viết hoa thì chúng ta có thể nói có 80% khả năng từ này thuộc lớp danh từ riêng, và 20% khả năng được chia đều cho 7 lớp còn lại.
2.1.2 Nguyên lý cực dai hóa Entropy
Cực đại hóa Entropy là một nguyên lý cho phép đánh giá các phân phối xác
suât từ một tập các dữ liệu huân luyện.
Entropy là độ đo về tính đồng đều hay tính không chắc chan của một phân phối xác suất Độ đo Entropy điều kiện của một phân phối mô hình trên “một chuỗi trạng thái với điều kiện biết một chuỗi dit liệu quan sát” p(y|x) có dang sau
H(p) = —YxyB (x) * px) * log(y|x) (2.1.1)
2.1.3 Mô hình xác suất
Theo [31.34] mô hình xác suất được định nghĩa theo không gian H x T, trong đó H là tập từ có thể và ngữ cảnh từ loại, hoặc còn gọi là “lịch sử”, và T là tập các
nhãn có thể có Xác suất mô hình của lịch sử h cùng với nhãn t được định nghĩa theo
công thức 2.1.3:
p(h, t) = Ty TÚ: 9’ (2.1.3)
Trong đó, II là hằng số chuẩn hóa, {, a, œ„} là các tham số mang giá tri
dương của mô hình va {ƒ¡, , f,} chính là các đặc trưng, thỏa mãn f;(h,t) € {0, 1}
Chú ý rằng mỗi tham số a, tương ứng với một đặc trưng fj.
Trang 102.1.4 Uu điểm của mô hình Maximum Entropy
MME giải quyết tốt ba yêu cầu chủ yếu: độ chính xác, đặc trưng thiếu tri thức
và khả năng tái sử dụng.
Do Maximum Entropy có các đặc trưng về độ chính xác, thích hợp cho các đối tượng xử thô và khả năng tái sử dụng mà mô hình này được áp dụng nhiều trong các bài toán về xử lý ngôn ngữ tự nhiên.
Kỹ thuật này được áp dụng thành công vao các bài toán như: phân tích hình thai
học, gan nhãn từ loại (POS-tagger), khử nhập nhằng giới ngữ (PP-attachment), nhận diện ranh giới câu, nhận diện ranh giới mệnh đề (clause identification), phân tích cú
pháp và phân loại văn bản.
2.1.5 Hạn chế của mô hình Maximum Entropy
Mặc dùng mô hình MEM có những ưu điểm về độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng, nhưng trong một số trường hợp đặc biệt, MEM cũng như các mô hình định nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn
dé “label bias” [1] Vấn dé “label bias” là vấn đề do các trạng thái có phân phối chuyền với entropy thấp (ít đường đi ra) có xu hướng ít chú ý hơn đến quan sát hiện
tại, mô hình MEM gặp phải vấn đề này tức là không xác định được nhánh rẽ đúng, điều này sẽ có ảnh hưởng đến kết quả mà nó đạt được.
2.1.6 Kết luận
MEM giải quyết tốt ba yêu cầu chủ yếu của xử lý ngôn ngữ tự nhiên, đó là: Độ
chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng Tuy nhiên, mô hình này vẫn còn gặp phải một số vấn đề còn hạn chế cần phải khắc phục.
2.2 Mô hình đồ thị
2.2.1 Định nghĩa
Mô hình xác suất đồ thị là một mô hình xác suất sử dụng đồ thị để biểu diễn phụ thuộc có điều kiện giữa các biến ngẫu nhiên một cách trực quan Mô hình đồ thị được dùng phô biến trong nhiều ngành như xác suất (đặc biệt là xác suất bayesian) và
học máy [2].
Trang 112.2.2 Các ứng dụng của các mô hình đồ thị
Mô hình đô thị được ứng dụng nhiêu trong việc xử lý ngôn ngữ tự nhiên và là cơsở đê nghiên cứu vê các mô hình ở phân sau: mô hình Markov ân và mô hình trường
ngẫu nhiên có điều kiện CRE.
Bài toán phân loại
Bài toán phân loại hay phân lớp là bài toán dự đoán một lớp đơn với biến y được cho bởi một vector của các đặc trưng x= (x,,x¿ ,x„) Dé đơn giản, ta giả thiết các đặc trưng nay độc lập xác suất với nhau khi biết nhãn phân loại Hàm phân loại kết quả được gọi là hàm phân loại Naive Bayes Hàm này dựa trên mô hình xác suất chung có
dạng :
p(y,#) = p(y) [Tš-i p(xly) (2.2.5) Mô hình tuần tự
Hàm phân loại trình bầy ở trên chỉ cho phép dự đoán nhãn phân loại cho từng
biến riêng lẻ Với dữ liệu dạng chuỗi, nhãn phân loại của các biến trong một chuỗi
thường phụ thuộc vào nhau.
2.2.3 Kết luận
Bằng mô hình đồ thị ta có thể biểu diễn một phân phối xác suất đồng thời (probability distribution) dựa theo cau trúc của đồ thị Việc sử dụng này có nhiều ưu điểm, có thé ké ra như sau: Mô hình ngẫu nhiên có thé được biểu diễn một cách trực quan bằng hình ảnh, giúp dé tư duy và sử dụng Việc nghiên cứu tính chất của mô hình
có thé thực hiện qua làm việc trên đồ thị, qua đó nhiều tính toán, suy luận có thé thực
hiện hiệu quả hơn nhờ vào các công cụ toán học của lý thuyết đồ thị.
2.3 Mô hình Markov 4n (HMM)
Mô hình Markov an (Hidden Markov Model - HMM) là mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham sé không biết trước và nhiệm vụ là xác định các tham số ân từ các tham số quan sát được,
dựa trên sự thừa nhận này [4] Các tham số của mô hình được rút ra sau đó có thể sử
dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu Trong
Trang 12các bài toán gan nhãn, phân loại cho dữ liệu dạng chuỗi, mô hình Markov ân được ápdụng và có nhiêu thành công lớn trong các vân đê như gán nhãn từ loại và phân cụm
danh từ.
2.3.1 Giới thiệu
Mô hình Markov ấn là một công cụ thống kê mạnh mẽ cho các bài toán mô hình các chuỗi có khả năng sinh ra mà có thé được mô tả bằng một tiến trình phát sinh ngầm và một chuỗi có khả năng quan sát được Mô hình Markov ân được áp dụng trong nhiều vấn đề thú vị trong xử lý tín hiệu, và trong quá trình xử lý từ loại thông
thường, nhưng nó cũng được áp dụng thành công với các bài toán có mức NLP thấp
như gán nhãn từ loại, phân cụm danh từ và trích rút thông tin từ văn bản.
2.3.2 Định nghĩa mô hình Markov ẩn
Mô hình Markov ân có những đặc điểm sau:
- Từ 1 trạng thái có thể phat sinh hơn l1 sự kiện (hay còn được gọi là 1 quan
- Chuỗi quan sát là hàm xác suất của trạng thái.
- Chúng ta có thể tính toán xác suất của các chuỗi trạng thái khác nhau từ một
chuỗi quan sát.
Như vậy HMM vẫn phát sinh ra các quan sát Số lượng trạng thái thông thường khác số lượng quan sát Khi ở trạng thái S;, có xác suất p(o); dé phát sinh sự kiện 1, xác suất p(o); dé phát sinh sự kiện 2
Các thành phan của mô hình Markov an:
- N là số lượng trạng thái của mô hình /7,2, ,Mj là các trạng thái Ký hiệu trạng thái ở thời điểm 1 là q,.
- M là số lượng quan sát phân biệt Ta ký hiệu tập quan sát là:
V = {U\,0;, , Đụ }.
- A = (a¿} -là ma trận phân phối xác suất chuyền trạng thái, trong đó aj là xác
suất chuyên từ trang thái i ở thời điểm t sang trạng thái j ở thời điểm £+7:
Trang 13aij = P[qt= j Iqui =i] 1<ij<N
- B = {bj(k)} -ma tran phân phối xác suất các ký hiệu quan sát, trong đó bj(k) là xác suất nhận được ký hiệu quan sát vk ở trạng thái j:
bj(k) = Plor= vilq = 7] 1<k<Mj=1,2, N
- # = {ai} -ma trận phân phối trạng thái ban dau trong đó m là xác suất của mô
hình ở trạng thái i tại thời điểm ban đầu =1:
m= P[qi=i])1<i<N
Nhu vậy dé đặc ta đầy đủ một HMM cần phải có số trạng thái N của mô hình, tập V gồm M ký hiệu quan sát, ma trận xác suất chuyên trạng thái A, ma trận xác suất
các ký hiệu quan sat được B và ma trận xác suất trạng thái ban đầu z 2.3.3 Uớc lượng trong mô hình Markov an
Ta sử dung thuật toán tiến dé ước lượng trong HMM Toán tử tiến a; (i) là xác suất của chuỗi quan sát từng phần X = (X¡, X2, , X:) và trạng thái quan sát Si tại thời
điểm với điều kiện cho HMM A.
a, (i) = P(X1X2 Xt, qt = silA)
Thuật toán tiễn:
Bước 1: Khởi tạo
a, (i) = Tub¡(X:) 1<i<N
2.3.4 Giải mã trong mô hình Markov ẩn -Thuật toán Viterbi
Thuật toán tiên, trong phân trước, tính toán xác suât mà một HMM tạo ra chuỗiquan sát bằng tổng các xác suất của tất cả đường dẫn có thể, cho nên nó không cung
cấp đường dẫn tốt nhất (hoặc dãy trạng thái) Ở nhiều ứng dụng, người ta mong tìm
Trang 14được đường dẫn như vậy Tìm đường dẫn tốt nhất (dãy trạng thái) là nền móng cho
quá trình tìm kiếm trong nhận dạng tiếng nói liên tục Khi dãy trạng thái được an
(không được quan sát) trong nền tang HMM, hau hết sử dụng rộng rãi nhất tiêu chuẩn là dé tim dãy trạng thái có xác suất cao nhất được lấy trong khi tạo ra day quan sát Nói cách khác, chúng ta đang tìm kiếm day trạng thái S = (s\, s2, , sy) mà cực đại
P(S,X|®) Vấn đề này rất giống với van dé tối ưu đường dẫn trong lập trình động Hệ quả là, một kỹ thuật chính thức dựa trên lập trình động, gọi là thuật toán Viterbi, có thể được dùng để tìm dãy trạng thái tốt nhất cho HMM Thực tế, phương pháp tương tự được dùng dé đánh giá HMM mang lại cho giải pháp xấp xi gần với trường hợp đạt
được việc sử dụng thuật toán tiên mô tả ở trên.
Thuật toán Viterbi có thé được xem như thuật toán lập trình động áp dụng cho HMM hay là thuật toán tiến sửa đổi Thay vì tổng kết xác suất từ các con đường khác đến trạng thái đích, thuật toán Viterbi lấy và nhớ đường dẫn tốt nhất Đề định nghĩa
xác suất đường dẫn tốt nhất:
VC) = P(X?,Sĩ ',S, = i|®) (2.3.1) Vi(i) là xác suất có kha năng nhất của dãy trạng thái ở thời điểm 1, ma đã tao ra quan sát Xƒ (cho đến thời điểm ;) và kết thúc ở trạng thái i.
2.3.5 Uớc lượng các tham biến HMM - Thuật toán Baum-Welch
Rất quan trọng đối với ước lượng các tham biến mô hình ® = (A, B, z) để mô ta
chính xác các dãy quan sát Đây là vấn đề khó nhất, vì chưa biết phương pháp phân tích tối ưu xác suất tổ hợp của dữ liệu huấn luyện trong công thức dang đóng Thay vào đó,
van đề có thé giải quyết bằng thuật toán lặp Baum-Welch, còn được biết là thuật toán tién-lùi (forward-backward) Vấn đề học HMM là trường hợp điền hình của học không giám
sát, nơi đữ liệu là không đầy đủ vì dãy trạng thái ân.
2.3.6 Học có giám sát trong mô hình Markov an
Cho trước một tập gồm các mẫu từ một tiến trình, ta muốn ước lượng các tham số của mô hình ® = (A, B, z) mà mô tả tiến trình tốt nhất Có hai hướng tiếp cận tiêu chuẩn đề làm việc này, phụ thuộc vào dạng của các mẫu, mà ta sẽ gọi ở đây là huấn
luyện có giám sát và không có giám sát Nêu các mau huân luyện chứa cả dau vào va
Trang 15dau ra của tiên trình, ta có đê sử dụng huân luyện có giám sát băng cach xem các đâuvào là các quan sát và các đâu ra là các trạng thái, nhưng nêu các đâu vào được cung
cap trong quá trình huan luyện dữ liệu thì ta phải sử dụng huân luyện không giám sát
dé dự đoán một mô hình mà có thé tao ra các quan sát đó.
2.3.7 Kết luận
Mô hình Markov ân là một công cụ thông kê truyền thống dé mô hình các chuỗi có khả năng sinh mà có thể được mô tả bởi các chuỗi quan sát tạo ra một tiến trình ngầm bên dưới Một mô hình Markov ân học một mô hình có khả năng sinh qua các
cặp đầu vào, mỗi cặp gồm một chuỗi của các quan sát và chuỗi của các nhãn Mô hình
Markov ấn đã có được nhiều thành công trước đây, các mô hình Markov ân khó mô
hình các đa đặc trưng không độc lập Đúng ra thì, cho trước một chuỗi quan sát, ta có
thể tìm được tuyến trạng thái có khả năng nhất cho chuỗi quan sát bằng thuật toán
2.4 Mô hình các trường ngẫu nhiên điều kiện (CRF)
CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp [5, 6] CRF là mô hình dựa trên xác suất điều kiện, nó có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp Tuy vậy, khác với các mô hình xác suất khác, CRF là mô hình đồ thị vô hướng Điều này cho phép
CRE có thê định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện
biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong các mô hình đồ thị có hướng khác Bản chat “phân phối điều kiện” và “phân phối toàn cục” của CRF cho phép mô hình này khắc phục được những nhược điểm của các mô hình trước đó trong việc gán nhãn
và phân đoạn các dữ liệu dạng chuỗi mà tiêu biêu là vân dé ‘label bias’.
Phần này sẽ dua ra định nghĩa CRF, lựa chọn các “ham tiềm năng” cho các mô hình CRF, thuật toán Viterbi cải tiến dé tìm chuỗi trạng thái tốt nhất mô tả một chuỗi dữ liệu quan sát cho trước và một số phương pháp dé ước lượng các tham số cho mô
hình CRF.