Nghiên cứu mô hình xác suất cho phân tích dữ liệu dạng chuỗi

Như vậy, việc áp dụng các mô hình xác suất trong việc giải quyết các bài toán dữ liệu dạng chuỗi được đặt ra là sử dụng ra sao, thiết lập các tham số, đánh giá tính tối ưu như thế nào đố

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

NGUYEN CHÍ THÀNH

NGHIÊN CỨU MÔ HÌNH XÁC SUÁT

CHUYEN NGANH: HE THONG THONG TIN

MA SO: 60.48.01.04

LUẬN VĂN THẠC SĨ KY THUAT

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TỪ MINH PHƯƠNG

HÀ NỘI - 2015

Trang 2

Luận văn được hoàn thành tại:

Người hướng dẫn khoa học:

PGS.TS Từ Minh Phương

Phản biện 1: - - - - - ĂcĂ E11 111111 23111 1 kg xen

Phản biện 2: c2 E3 1222301011111 1293311111110 1 kg xa

Luận văn sẽ được bảo vệ trước Hội đông châm luận văn tại Học viện Công

nghệ Bưu chính Viễn thông

Vào lúc: giờ à năm 2015

Có thê tìm hiệu luận van tại:

- Thư viện Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Việc xử lý dữ liệu dạng chuỗi (tuần tự) trong mô hình cấu trúc ngẫu nhiên cùng

với sự áp dụng rộng rãi của chúng ngày càng được chú ý nhiều hơn, trong nhiều lĩnh

vực như: ngôn ngữ, tin học, máy tính và mạng xã hội Ví dụ: Trong xử lý ngôn ngữ

tự nhiên (NLP) là việc suy luận (từng phần hoặc đầy đủ) cấu trúc ngữ pháp của câu,cấu trúc phân cấp của một dữ kiện và một dãy những đại lượng được nêu tên (như: tên

riêng, nơi ở) trong một câu

Từ các ví dụ thực tế cho thấy có các đặc tính chung đối với các tập dữ liệu z mà

chúng ta có thé quan sát và thu nhận được, việc mô hình hóa va suy luận về các mô

hình cấu trúc x từ dit liệu ngày càng được quan tâm Trong mô hình xác suất, sự suyđoán về x liên quan tới xác suất có điều kiện P(xlz) Có 2 cách tiếp cận cơ bản đối vớivan dé này Đầu tiên là giả định rằng những mau x cơ bản tạo ra những dữ liệu z có théquan sát được đưa ra bởi xác suất P(z|x) Dé suy luận về x ta sử dụng định ly Bayesnhư sau: P(x|z) = P(x)*P(z|x)/P(z) như vậy chúng ta phải giải quyết: mô hình của

chính ban thân mau P(x) là gì? Mô hình dữ liệu tạo ra trong xác suất P@lx) là gì?.

Cách tiếp cận thứ 2 trực tiếp hơn là chúng ta mô hình hoá phân phối xác suất có điềukiện P(xlz) một cách trực tiếp mà không để ý đến xác suất P(x) Điều này rất quantrọng khi xác suất ngẫu nhiên P(zlx) là phức tạp, trong khi đó xác suất P(xlz) có thêđơn giản hơn Nó cũng loại bỏ những nguy cơ tiềm ấn trong giả định này Cách tiếp

cận này thường được gọi là những mô hình phân biệt.

Như vậy, việc áp dụng các mô hình xác suất trong việc giải quyết các bài toán dữ

liệu dạng chuỗi được đặt ra là sử dụng ra sao, thiết lập các tham số, đánh giá tính tối

ưu như thế nào đối với mỗi mô hình trong các bài toán cụ thể Luận văn sẽ tập trungvào tìm hiểu về dữ liệu dạng chuỗi; bài toán phân tích dữ liệu dạng chuỗi và các môhình xác suất áp dụng trong bài toán phân tích dữ liệu dạng chuỗi Các mô hình được

đề cập bao gồm: mô hình đồ thị, mô hình Markov ẩn (Hidden Markov Model —HMM), mô hình Maximum Entropy và mô hình Trường ngẫu nhiêu điều kiện

(Conditional Random Field — CRF).

Luan van nay duoc trinh bay trong ba chuong:

Trang 4

Chương I: Tổng quan

Trong chương này trình bày tổng quan về dữ liệu dạng chuỗi: các khái niệm vàđặc trưng của dữ liệu dạng chuỗi; Các vấn đề chung về bài toán học có giám sát, dữliệu dạng chuỗi (dữ liệu tuần tự) và các vấn đề chung cần nghiên cứu trong bài toánhọc có giám sát với dữ liệu dạng chuỗi Ứng dụng của bài toán phân tích dữ liệu dạng

chuỗi.

Chương II: Một số mô hình xác suất cho phân tích dữ liệu dạng chuỗi

Trong chương này cũng đề cập đến một số mô hình xác suất cho phân tích dữ

liệu dạng chuỗi Các mô hình được giới thiệu gồm: mô hình Maximum Entropy, mô

hình đồ thị, mô hình Markov ân, mô hình các trường ngẫu nhiên điều kiện (CRF)

Chương 3 Thử nghiệm đánh giá

Trong chương nay sẽ sử dụng một số mô hình được dé cập trong chương 3 dégiải quyết các bài toán cụ thé trong xử lý nhận dạng thực thé có tên (Named-entity

recognition - NER), cu thé bài toán được thử nghiệm là khai thác thông tin về thuốc

trong hồ sơ bệnh án

Chương I TONG QUAN

Trong chương nay trình bày tổng quan về dữ liệu dang chuỗi: các khái niệm vàđặc trưng của đữ liệu dạng chuỗi; Các vấn đề chung về bài toán học có giám sát, dit

liệu dạng chuối (đữ liệu tuần tự) va các van dé chung can nghiên cứu trong bài toán

học có giám sát với dữ liệu dạng chuối Ung dụng của bài toán phân tích dữ liệu

dang chuối

1.1 Dữ liệu dạng chuỗi

Dữ liệu dạng chuỗi là một tập các phần tử được sắp thứ tự s := ai, a9, an Trong

đó mỗi phan tử a; có thé là kiểu số hoặc có thé nhận giá trị rời rac Độ dài n của chuỗi

là không có định, chuỗi được sắp theo thứ tự thời gian hoặc vi trí và có thể sắp đều

hoặc không [11].

Trang 5

Việc xử lý dữ liệu dạng chuỗi trong mô hình câu trúc ngau nhiên cùng với sự áp dụng rộng rãi của chúng ngay càng được chú ý nhiêu hon, trong nhiêu lĩnh vực như:

ngôn ngữ, tin học, máy tính và mạng xã hội

Trong phan tiếp theo sẽ đề cập đến các van đề chung về bài toán học có giámsát, dữ liệu tuần tự (đữ liệu chuỗi) và các van đề chung cần nghiên cứu trong bài toánhọc có giám sát với dữ liệu tuần tự: các hàm suy hao, lựa chọn đặc trưng, hiệu năng

tính toán Một số bài toán phân loại dữ liệu dạng chuỗi và sự khác nhau khi phân loại

dữ liệu này so với phân loại dữ liệu thông thường Các mô hình xác suất có thé sử

dụng cho bài toán học có giám sát được trình bày trong chương 2.

1.2 Bài toán học có giám sát với dữ liệu dạng chuỗi

Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm phânloại có thé dự đoán một cách chính xác các lớp đối tượng mới từ dit liệu huấn luyện làcác đối tượng cũ Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thườngdạng vec-to), và đầu ra mong muốn Đầu ra của một hàm có thể là một giá tri liên tục

hay có thé là dự đoán một nhãn phân loại cho một đối tượng đầu vào Nhiệm vụ của

chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bắt kì làđầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào

và dau ra tương ứng) Dé đạt được điều này, chương trình học phải tổng quát hóa từcác dữ liệu san có dé dự đoán được những tình huống chưa gặp phải theo một cách

hợp lí.

Có hai sự khác biệt chính giữa việc dự đoán chuỗi thời gian và nhận biết đượcgiám sát theo tuần tự Đầu tiên trong việc nhận biết được giám sát theo tuần tự, toàn bộ

chuỗi <x¡,xa ,Xy> sẵn có trước khi chúng ta đưa ra bắt kỳ dự đoán nào về các giá tri

y, trong khi dự đoán chuỗi thời gian, chúng ta chỉ có một tiếp đầu ngữ của chuỗi tínhđến thời điểm hiện tại t+1 Thứ hai, trong khi phân tích chuỗi thời gian, chúng ta cócác giá trị y được quan sát thực tính đến thời điểm t, trong khi trong việc nhận biếtđược quan sát theo tuần tự thì chúng ta không có trước bất kỳ giá trị y nào và chúng ta

phải dự đoán chúng.

Tác vụ phụ thuộc chặt thứ hai là phân loại chuỗi Trong tác vụ này, bài toán là

đê dự đoán một nhãn đơn y mà phù hợp với một chuỗi đầu vào nguyên vẹn

Trang 6

<XI,xa, ,Xr> Ví dụ, cho trước một chuỗi các hình ảnh của các ký tự viết tay, tác vụnày có thể để xác định việc nhận dạng người viết các ký tự đó (nhận dạng viết tay).Trong các loại bài toán này, mỗi vi dụ huấn luyện bao gồm một cặp (x;,y;) với x; là một

chuỗi <X¡I, Xi2, „ Xir¡ > Và mỗi y; là một nhãn lớp ( như là chứng minh nhân dân

của một người) Một bài toán tương tự phát sinh trong quá trình nhận dạng toàn bộ các

từ dựa trên việc kiểm tra chữ viết tay x; có thé là một chuỗi các chữ cái viết tay và y;

có thê là một từ như “hundred”

Tương tự, một số phương pháp trong bài toán nhận biết được giám sát theo tuần

tự đưa ra các dự đoán bằng cách quét chuỗi từ trái sang phải, và các phương pháp như

thế cũng có thể được áp dụng cho các bài toán chuỗi thời gian Tuy nhiên, các phương

pháp dé phân tích một chuỗi nguyên vẹn các giá tri x, trước khi dự đoán các nhãn y, vềmặt điển hình có thể cho hiệu năng tốt hơn các bài toán nhận biết được giám sát theo

chính xác Điều này được biết như suy hao 0/1, nghĩa là suy hao 1 được nhận cho mỗi

điểm kiểm thử không được phân loại và suy hao 0 cho mỗi điểm kiểm thử được phânloại chính xác Gần đây, các nhà nghiên cứu đã nghiên cứu các hàm suy hao không

đều Những hàm này thường được biểu diễn bởi một ma trận giá trị C(1,J), ma trận này

cung cấp giá trị của nhãn gán ¡ cho một ví dụ mà nhãn đúng của nó phải là j Trongcác trường hop đó, mục đích là dé tìm ra hàm phân loại với giá trị kỳ vọng cực tiểu

Một chiến lược dé phát triển một hàm phân loại như thé là sử dụng ham ước lược mật

độ có điều kiện P(y|x) và sau đó phân loại một điểm dit liệu mới x theo công thức:

y = argmin; 3; P|x)CŒ,j) (1.3.1)

Trang 7

Công thức này chọn lớp mà giá trị kỳ vọng của nó là cực tiểu.

Trong bài toán nhận biệt được giám sát chuân hóa, điêu này được biệt như bai

toán lựa chọn đặc trưng, và có 4 chiến lược cơ bản dé giải quyết bài toán này

1.3.3 Hiệu quả tính toán

Mot thách thức thứ ba trong bài toán nhận biết được giám sát theo tuần tự là dénghiên cứu các phương pháp nhận biết và phân loại mà hiệu quả về mặt tính toán

Chúng ta sẽ thấy rằng một số thuật toán nhận biết đã được đề xuất cho các bài toánnhận biết được giám sát theo tuần tự rất đất đỏ về mặt tính toán

1.4 Ứng dụng của bài toán phân tích dữ liệu dạng chuỗi

Phân loại, gán nhãn dữ liệu dạng chuỗi được ứng dụng rộng rãi trong các bài

toán về nhận dạng, phân mảnh Mô hình Markov ân đã thành công trong một thời giandài với bài toán gán nhãn cho dữ liệu dạng chuỗi Gần đây, một số mô hình có điều

kiện như Maximum Entropy Markov Model (MEMM) và Conditional Random Field

(CRF) được sử dung nhiều bởi khả năng cho phép các tính năng chồng chéo Trong đóCRF là phương pháp được chú ý nhiều nhất

Gan nhãn cho dữ liệu dạng chuỗi được sử dụng nhiêu trong các bài toán gan

nhãn từ loại, nhận dạng hình ảnh, âm thanh hay các bài toán về dự đoán gen

Phân loại, tách từ (phân cụm từ) là một bài toán thuộc các bài toán phân tích hình thái (morphological analysis) trong xử lý ngôn ngữ tự nhiên Day là một bước xử

lý quan trong trong hệ thống Xử lý ngôn ngữ tự nhiên Bài toán tách từ được nghiên

cứu và được sử dụng trong nhiều ứng dụng thực tế như các hệ thống trích chọn thông

Trang 8

tin, dịch máy, và tóm tắt văn bản Bài toán tách từ có thê hiểu là việc gộp một dãy liêntiếp các từ trong câu dé gán nhãn cú pháp.

1.5 Kết luận chương

Trong thời gian qua, sự quan tâm đối với lĩnh vực Trí tuệ nhân tạo nói chung vàbài toán phân tích dữ liệu là rất đáng kê Nhiều công trình nghiên cứu trong và ngoàinước đã và đang sử dụng phân tích cho dữ liệu dạng chuỗi và có những ứng dụng nhấtđịnh Trong những năm gan đây, việc phân tích cho dữ liệu dạng chuỗi với dit liệu cócấu trúc thu hút được nhiều sự chú ý trong các vẫn đề về xử lý ngôn ngữ tự nhiên Mục

đích của bài toán học có cấu trúc là dự đoán được các cấu trúc phức tạp như chuỗi, cây

hay đồ thị Tuy thuộc vào kích thước của dữ liệu mà ta có thé thay bài toán học có cầutrúc là thú vị hơn so với các dữ liệu không có cấu trúc Việc học với đữ liệu không cócau trúc có thé khá nhàm chán, do các thành phan trong dữ liệu là không có liên quan

đến nhau Trong đó có nhiều phương pháp phân tích dữ liệu dạng chuỗi được sử dụngdựa trên các mô hình xác suất Trong chương tiếp theo, ta sẽ đi vào nghiên cứu một số

mô hình xác suất cho bài toán phân tích dữ liệu dạng chuỗi như mô hình MEM, Môhình đồ thi, HMM, CRE và ứng dụng của các mô hình này trong bài toán phân tích dữ

liệu dạng chuỗi.

Chương II MOT SO MÔ HÌNH XÁC SUAT CHO PHAN

TÍCH DU LIEU DANG CHUOI

Trong chương này cũng dé cập đến một số mô hình xác suất cho phân tích dữ

liệu dạng chuối Các mô hình được giới thiệu gm: mô hình Maximum Entropy, môhình đồ thị, mô hình Markov ẩn, mô hình các truong ngẫu nhiên điều kiện (CRF)

2.1 Mô hình Maximum Entropy

Mô hình cực đại hóa Entropy (Maximum Entropy Model — MEM) là một mô

hình dựa trên lý thuyết xác suất, được đề xuất lần đầu bởi Jaynes E.T từ năm 1957

[30,31] Trong đó, MEM giải quyết tốt ba yêu cầu chủ yếu của xử lý ngôn ngữ tựnhiên, đó là: Độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng Phần này

sẽ giới thiệu về bản chất lý thuyết, mô hình xác suất và một số mặt còn hạn chế của

MEM.

Trang 9

2.1.1 Khát niém MEM

Tu tưởng chính của phương pháp cực đại hóa Entropy là “ngoài vệc thỏa mãn

một số ràng buộc nào đó thi mô hình càng đồng đều càng tốt” [30] Dé rõ hơn về van

dé này, thử xem xét trong trường hợp một bài toán gán nhãn từ loại gồm có 8 nhãn từloại Giả sử chúng ta có một ràng buộc duy nhất: 80% các từ có ký tự đầu của các hình

vị viết hoa là danh từ riêng (Np) Trực quan cho thấy, nếu có một từ mà tất cả ký tự

đầu của các hình vị tạo nên nó là viết hoa thì chúng ta có thể nói có 80% khả năng từnày thuộc lớp danh từ riêng, và 20% khả năng được chia đều cho 7 lớp còn lại

2.1.2 Nguyên lý cực dai hóa Entropy

Cực đại hóa Entropy là một nguyên lý cho phép đánh giá các phân phối xác

suât từ một tập các dữ liệu huân luyện.

Entropy là độ đo về tính đồng đều hay tính không chắc chan của một phân phốixác suất Độ đo Entropy điều kiện của một phân phối mô hình trên “một chuỗi trạngthái với điều kiện biết một chuỗi dit liệu quan sát” p(y|x) có dang sau

H(p) = —YxyB (x) * px) * log(y|x) (2.1.1)

2.1.3 Mô hình xác suất

Theo [31.34] mô hình xác suất được định nghĩa theo không gian H x T, trong

đó H là tập từ có thể và ngữ cảnh từ loại, hoặc còn gọi là “lịch sử”, và T là tập các

nhãn có thể có Xác suất mô hình của lịch sử h cùng với nhãn t được định nghĩa theo

công thức 2.1.3:

fit)

p(h, t) = Ty TÚ: 9’ (2.1.3)

Trong đó, II là hằng số chuẩn hóa, {, a, œ„} là các tham số mang giá tri

dương của mô hình va {ƒ¡, , f,} chính là các đặc trưng, thỏa mãn f;(h,t) € {0, 1}

Chú ý rằng mỗi tham số a, tương ứng với một đặc trưng fj

Trang 10

2.1.4 Uu điểm của mô hình Maximum Entropy

MME giải quyết tốt ba yêu cầu chủ yếu: độ chính xác, đặc trưng thiếu tri thức

và khả năng tái sử dụng.

Do Maximum Entropy có các đặc trưng về độ chính xác, thích hợp cho các đốitượng xử thô và khả năng tái sử dụng mà mô hình này được áp dụng nhiều trong cácbài toán về xử lý ngôn ngữ tự nhiên

Kỹ thuật này được áp dụng thành công vao các bài toán như: phân tích hình thai

học, gan nhãn từ loại (POS-tagger), khử nhập nhằng giới ngữ (PP-attachment), nhậndiện ranh giới câu, nhận diện ranh giới mệnh đề (clause identification), phân tích cú

pháp và phân loại văn bản.

2.1.5 Hạn chế của mô hình Maximum Entropy

Mặc dùng mô hình MEM có những ưu điểm về độ chính xác, đặc trưng thiếu trithức và khả năng tái sử dụng, nhưng trong một số trường hợp đặc biệt, MEM cũng nhưcác mô hình định nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn

dé “label bias” [1] Vấn dé “label bias” là vấn đề do các trạng thái có phân phốichuyền với entropy thấp (ít đường đi ra) có xu hướng ít chú ý hơn đến quan sát hiện

tại, mô hình MEM gặp phải vấn đề này tức là không xác định được nhánh rẽ đúng,điều này sẽ có ảnh hưởng đến kết quả mà nó đạt được

2.1.6 Kết luận

MEM giải quyết tốt ba yêu cầu chủ yếu của xử lý ngôn ngữ tự nhiên, đó là: Độ

chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng Tuy nhiên, mô hình nàyvẫn còn gặp phải một số vấn đề còn hạn chế cần phải khắc phục

2.2 Mô hình đồ thị

2.2.1 Định nghĩa

Mô hình xác suất đồ thị là một mô hình xác suất sử dụng đồ thị để biểu diễnphụ thuộc có điều kiện giữa các biến ngẫu nhiên một cách trực quan Mô hình đồ thịđược dùng phô biến trong nhiều ngành như xác suất (đặc biệt là xác suất bayesian) và

học máy [2].

Trang 11

2.2.2 Các ứng dụng của các mô hình đồ thị

Mô hình đô thị được ứng dụng nhiêu trong việc xử lý ngôn ngữ tự nhiên và là cơ

sở đê nghiên cứu vê các mô hình ở phân sau: mô hình Markov ân và mô hình trường

ngẫu nhiên có điều kiện CRE

Bài toán phân loại

Bài toán phân loại hay phân lớp là bài toán dự đoán một lớp đơn với biến y đượccho bởi một vector của các đặc trưng x= (x,,x¿ ,x„) Dé đơn giản, ta giả thiết các đặctrưng nay độc lập xác suất với nhau khi biết nhãn phân loại Hàm phân loại kết quảđược gọi là hàm phân loại Naive Bayes Hàm này dựa trên mô hình xác suất chung có

dạng :

p(y,#) = p(y) [Tš-i p(xly) (2.2.5)

Mô hình tuần tự

Hàm phân loại trình bầy ở trên chỉ cho phép dự đoán nhãn phân loại cho từng

biến riêng lẻ Với dữ liệu dạng chuỗi, nhãn phân loại của các biến trong một chuỗi

thường phụ thuộc vào nhau.

2.2.3 Kết luận

Bằng mô hình đồ thị ta có thể biểu diễn một phân phối xác suất đồng thời(probability distribution) dựa theo cau trúc của đồ thị Việc sử dụng này có nhiều ưuđiểm, có thé ké ra như sau: Mô hình ngẫu nhiên có thé được biểu diễn một cách trựcquan bằng hình ảnh, giúp dé tư duy và sử dụng Việc nghiên cứu tính chất của mô hình

có thé thực hiện qua làm việc trên đồ thị, qua đó nhiều tính toán, suy luận có thé thực

hiện hiệu quả hơn nhờ vào các công cụ toán học của lý thuyết đồ thị

2.3 Mô hình Markov 4n (HMM)

Mô hình Markov an (Hidden Markov Model - HMM) là mô hình thống kê trong

đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham sékhông biết trước và nhiệm vụ là xác định các tham số ân từ các tham số quan sát được,

dựa trên sự thừa nhận này [4] Các tham số của mô hình được rút ra sau đó có thể sử

dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu Trong

Trang 12

thường, nhưng nó cũng được áp dụng thành công với các bài toán có mức NLP thấp

như gán nhãn từ loại, phân cụm danh từ và trích rút thông tin từ văn bản.

2.3.2 Định nghĩa mô hình Markov ẩn

Mô hình Markov ân có những đặc điểm sau:

- Từ 1 trạng thái có thể phat sinh hơn l1 sự kiện (hay còn được gọi là 1 quan

sát).

- Chuỗi quan sát là hàm xác suất của trạng thái

- Chúng ta có thể tính toán xác suất của các chuỗi trạng thái khác nhau từ một

chuỗi quan sát.

Như vậy HMM vẫn phát sinh ra các quan sát Số lượng trạng thái thông thườngkhác số lượng quan sát Khi ở trạng thái S;, có xác suất p(o); dé phát sinh sự kiện 1,xác suất p(o); dé phát sinh sự kiện 2

Các thành phan của mô hình Markov an:

- N là số lượng trạng thái của mô hình /7,2, ,Mj là các trạng thái Ký hiệutrạng thái ở thời điểm 1 là q,

- M là số lượng quan sát phân biệt Ta ký hiệu tập quan sát là:

V = {U\,0;, , Đụ }.

- A = (a¿} -là ma trận phân phối xác suất chuyền trạng thái, trong đó aj là xác

suất chuyên từ trang thái i ở thời điểm t sang trạng thái j ở thời điểm £+7:

Trang 13

aij = P[qt= j Iqui =i] 1<ij<N

- B = {bj(k)} -ma tran phân phối xác suất các ký hiệu quan sát, trong đó bj(k) làxác suất nhận được ký hiệu quan sát vk ở trạng thái j:

bj(k) = Plor= vilq = 7] 1<k<Mj=1,2, N

- # = {ai} -ma trận phân phối trạng thái ban dau trong đó m là xác suất của mô

hình ở trạng thái i tại thời điểm ban đầu =1:

m= P[qi=i])1<i<N

Nhu vậy dé đặc ta đầy đủ một HMM cần phải có số trạng thái N của mô hình,tập V gồm M ký hiệu quan sát, ma trận xác suất chuyên trạng thái A, ma trận xác suất

các ký hiệu quan sat được B và ma trận xác suất trạng thái ban đầu z.

2.3.3 Uớc lượng trong mô hình Markov an

Ta sử dung thuật toán tiến dé ước lượng trong HMM Toán tử tiến a; (i) là xácsuất của chuỗi quan sát từng phần X = (X¡, X2, , X:) và trạng thái quan sát Si tại thời

điểm với điều kiện cho HMM A

a, (i) = P(X1X2 Xt, qt = silA)

Thuật toán tiễn:

Bước 1: Khởi tạo

a, (i) = Tub¡(X:) 1<i<N

2.3.4 Giải mã trong mô hình Markov ẩn -Thuật toán Viterbi

Thuật toán tiên, trong phân trước, tính toán xác suât mà một HMM tạo ra chuỗi quan sát bằng tổng các xác suất của tất cả đường dẫn có thể, cho nên nó không cung

cấp đường dẫn tốt nhất (hoặc dãy trạng thái) Ở nhiều ứng dụng, người ta mong tìm

Trang 14

được đường dẫn như vậy Tìm đường dẫn tốt nhất (dãy trạng thái) là nền móng cho

quá trình tìm kiếm trong nhận dạng tiếng nói liên tục Khi dãy trạng thái được an

(không được quan sát) trong nền tang HMM, hau hết sử dụng rộng rãi nhất tiêu chuẩn

là dé tim dãy trạng thái có xác suất cao nhất được lấy trong khi tạo ra day quan sát.Nói cách khác, chúng ta đang tìm kiếm day trạng thái S = (s\, s2, , sy) mà cực đại

P(S,X|®) Vấn đề này rất giống với van dé tối ưu đường dẫn trong lập trình động Hệquả là, một kỹ thuật chính thức dựa trên lập trình động, gọi là thuật toán Viterbi, có thểđược dùng để tìm dãy trạng thái tốt nhất cho HMM Thực tế, phương pháp tương tựđược dùng dé đánh giá HMM mang lại cho giải pháp xấp xi gần với trường hợp đạt

được việc sử dụng thuật toán tiên mô tả ở trên.

Thuật toán Viterbi có thé được xem như thuật toán lập trình động áp dụng choHMM hay là thuật toán tiến sửa đổi Thay vì tổng kết xác suất từ các con đường khácđến trạng thái đích, thuật toán Viterbi lấy và nhớ đường dẫn tốt nhất Đề định nghĩa

xác suất đường dẫn tốt nhất:

VC) = P(X?,Sĩ ',S, = i|®) (2.3.1)Vi(i) là xác suất có kha năng nhất của dãy trạng thái ở thời điểm 1, ma đã tao raquan sát Xƒ (cho đến thời điểm ;) và kết thúc ở trạng thái i

2.3.5 Uớc lượng các tham biến HMM - Thuật toán Baum-Welch

Rất quan trọng đối với ước lượng các tham biến mô hình ® = (A, B, z) để mô ta

chính xác các dãy quan sát Đây là vấn đề khó nhất, vì chưa biết phương pháp phân tíchtối ưu xác suất tổ hợp của dữ liệu huấn luyện trong công thức dang đóng Thay vào đó,

van đề có thé giải quyết bằng thuật toán lặp Baum-Welch, còn được biết là thuật toán lùi (forward-backward) Vấn đề học HMM là trường hợp điền hình của học không giámsát, nơi đữ liệu là không đầy đủ vì dãy trạng thái ân

tién-2.3.6 Học có giám sát trong mô hình Markov an

Cho trước một tập gồm các mẫu từ một tiến trình, ta muốn ước lượng các tham

số của mô hình ® = (A, B, z) mà mô tả tiến trình tốt nhất Có hai hướng tiếp cận tiêuchuẩn đề làm việc này, phụ thuộc vào dạng của các mẫu, mà ta sẽ gọi ở đây là huấn

luyện có giám sát và không có giám sát Nêu các mau huân luyện chứa cả dau vào va

Trang 15

dau ra của tiên trình, ta có đê sử dụng huân luyện có giám sát băng cach xem các đâu vào là các quan sát và các đâu ra là các trạng thái, nhưng nêu các đâu vào được cung

cap trong quá trình huan luyện dữ liệu thì ta phải sử dụng huân luyện không giám sát

dé dự đoán một mô hình mà có thé tao ra các quan sát đó

2.3.7 Kết luận

Mô hình Markov ân là một công cụ thông kê truyền thống dé mô hình các chuỗi

có khả năng sinh mà có thể được mô tả bởi các chuỗi quan sát tạo ra một tiến trìnhngầm bên dưới Một mô hình Markov ân học một mô hình có khả năng sinh qua các

cặp đầu vào, mỗi cặp gồm một chuỗi của các quan sát và chuỗi của các nhãn Mô hình

Markov ấn đã có được nhiều thành công trước đây, các mô hình Markov ân khó mô

hình các đa đặc trưng không độc lập Đúng ra thì, cho trước một chuỗi quan sát, ta có

thể tìm được tuyến trạng thái có khả năng nhất cho chuỗi quan sát bằng thuật toán

Viterbi.

2.4 Mô hình các trường ngẫu nhiên điều kiện (CRF)

CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp [5,6] CRF là mô hình dựa trên xác suất điều kiện, nó có thể tích hợp được các thuộc tính

đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp Tuy vậy, khácvới các mô hình xác suất khác, CRF là mô hình đồ thị vô hướng Điều này cho phép

CRE có thê định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện

biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biếttrạng thái trước đó và quan sát hiện tại như trong các mô hình đồ thị có hướng khác.Bản chat “phân phối điều kiện” và “phân phối toàn cục” của CRF cho phép mô hìnhnày khắc phục được những nhược điểm của các mô hình trước đó trong việc gán nhãn

và phân đoạn các dữ liệu dạng chuỗi mà tiêu biêu là vân dé ‘label bias’.

Phần này sẽ dua ra định nghĩa CRF, lựa chọn các “ham tiềm năng” cho các môhình CRF, thuật toán Viterbi cải tiến dé tìm chuỗi trạng thái tốt nhất mô tả một chuỗi

dữ liệu quan sát cho trước và một số phương pháp dé ước lượng các tham số cho mô

hình CRF.

Tiêu đề	Nghiên cứu mô hình xác suất cho phân tích dữ liệu dạng chuỗi
Tác giả	Nguyễn Chí Thành
Người hướng dẫn	PGS.TS. Từ Minh Phương
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Hệ thống Thông tin
Thể loại	Luận văn Thạc sĩ Kỹ thuật
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	30
Dung lượng	7,08 MB