nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn

Công cụ này cũng hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ hống rút trích thông tin hướng đến ngữ nghĩa, v.v… Vấn đề gán

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trang 2

Mục lục

LỜI NÓI ĐẦU 5

Chương 1 - TỔNG QUAN 7

1.1 Bài toán gán nhãn từ loại 7

1.2 Tổng quan về cách tiếp cận giải bài toán 7

1.2.1 Quá trình gán nhãn từ loại 7

1.2.2 Ngữ liệu 8

1.2.3 Các tiếp cận giải bài toán 9

1.2.5 Gán nhãn dựa trên luật 10

1.2.6 Gán nhãn thống kê 11

1.2.7 Các từ chưa biết 12

1.3 Bài toán gán nhãn từ loại tiếng Việt 13

Chương 2 - CƠ SỞ TOÁN HỌC 15

2.1 Định lý Bayes 15

2.2 Thuật toán cực đại hóa kỳ vọng (EM) 16

2.3 Mô hình Markov ẩn 17

2.3.1 Ba bài toán cơ bản của HMM 18

2.2.2 Mô hình n-gram 23

2.4 Phân cụm 23

2.4.1 Khái niệm phân cụm 23

2.4.2 Các yêu cầu của phân cụm 24

2.4.3 Các phương pháp phân cụm 24

2.4.4 Độ đo khoảng cách 26

Trang 3

2.5 Phân tích giá trị kỳ dị 27

Chương 3 - MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN KHÔNG CÓ HƯỚNG DẪN CHO GÁN NHÃN TỪ LOẠI 30

3.1 Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng 30

3.1.1 Huấn luyện mô hình Trigram 31

3.1.2 Kết quả thử nghiệm với tiếng Anh 34

3.1.3 Các thí nghiệm cơ bản 34

3.2 Gán nhãn từ loại bằng kỹ thuật phân cụm 35

3.2.1 Suy luận gán nhãn 36

3.2.2 Suy luận dựa trên từ loại 37

3.2.3 Suy luận dựa trên loại từ và ngữ cảnh 37

3.2.4 Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh trái và phải tổng quát hoá 38

3.2.5 Các kết quả 39

3.3 Đề xuất phương pháp không hướng dẫn cho bài toán gán nhãn từ loại tiếng Việt 40

KẾT LUẬN 48

Trang 4

LỜI CẢM ƠN

Em xin chân thành cảm ơn các thầy cô giáo trong khoa Toán–Cơ–Tin học đã dạy dỗ và truyền đạt cho em rất nhiều kiến thức trong những năm học vừa qua

Đặc biệt em xin gửi lời cảm ơn tới TS Nguyễn Thị Minh Huyền đã tận tình chỉ bảo và truyền đạt những kiến thức chuyên ngành trong quá trình em thực hiện luận văn này

Cuối cùng em xin gửi những lời chúc tốt đẹp nhất tới các thầy cô giáo trong khoa, cô Nguyễn Thị Minh Huyền, gia đình và bạn bè những người đã ủng hộ em trong thời gian vừa qua

Trang 5

LỜI NÓI ĐẦU

Một trong các vấn đề nền tảng của ngôn ngữ tự nhiên là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ Mỗi từ loại tương ứng với một lớp từ giữ một vai trò ngữ pháp nhất định Nói chung, mỗi từ trong một ngôn ngữ có thể gắn với nhiều từ loại, và việc tự động

“hiểu” đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay không Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó Các công cụ gán nhãn (hay chú thích)

từ loại cho các từ trong một văn bản có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể

Xác định từ loại chính xác cho các từ trong văn bản là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên Công cụ gán nhãn từ loại có thể được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các

hệ thống dịch máy Công cụ này cũng hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ hống rút trích thông tin hướng đến ngữ nghĩa, v.v…

Vấn đề gán nhãn từ loại của nhiều ngôn ngữ đã được giải quyết tốt bằng phương pháp học máy có hướng dẫn, nghĩa là phải xây dựng một kho ngữ liệu huấn luyện lớn và/hoặc xây dựng tập luật để nhận diện từ loại Hiện nay, bài toán gán nhãn từ loại tiếng Việt cũng đã được một số nhóm nghiên cứu và giải giải quyết cũng chủ yếu bằng phương pháp học máy có hướng dẫn, nhưng việc xây dựng tập huấn luyện còn gặp nhiều khó khăn vì bản thân các nhà ngôn ngữ học vẫn còn chưa thống nhất về tập từ loại tiếng Việt nên các nhóm tự định nghĩa tập nhãn khác nhau, và các nhóm cũng tự xây dựng kho

Trang 6

dữ liệu đã gán nhãn và xây dựng tập luật khác nhau Công việc này mất rất nhiều thời gian, tiền của và công sức của các nhà nghiên cứu Một cách tiếp cận khác cho bài toán gán nhãn từ loại là sử dụng phương pháp học máy không có hướng dẫn để một mặt giải quyết vấn đề xác định bộ nhãn từ loại, mặt khác tiết kiệm công sức xây dựng tập huấn luyện Đề tài này nghiên cứu một số phương pháp gán nhãn từ loại không có hướng dẫn, trên cơ sở đó đưa

ra một quy trình giải quyết bài toán gán nhãn từ loại tiếng Việt bằng cách tiếp cận này

Cấu trúc luận văn

Cấu trúc luận văn chia làm 3 chương:

Chương I: Tổng quan

Trong chương này sẽ trình bày tổng quan về bài toán gán nhãn từ loại, các tiếp cận để giải quyết bài toán gán nhãn từ loại, so sánh các tiếp cận Chương này cũng trình bày hiện trạng cùng các phương pháp đã được dùng

để giải quyết bài toán gán nhãn từ loại cho tiếng Việt, khó khăn chưa khắc phục được

Chương II: Cơ sở toán học

Chương này sẽ trình bày các kiến thức toán học, các mô hình học máy được sử dụng trong luận văn

Chương III: Cách tiếp cận không có hướng dẫn cho bài toán gán nhãn từ loại

Chương này sẽ trình bày một số phương pháp học máy không có hướng dẫn cho bài toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải quyết bài toán gán nhãn từ loại tiếng Việt theo cách tiếp cận này

Trang 7

Chương 1 - TỔNG QUAN

1.1 Bài toán gán nhãn từ loại

Gán nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu hay là quá trình gán từng từ trong đoạn văn bản với các đánh dấu từ loại hoặc cấu trúc ngữ pháp Đây là bước cơ bản trước khi phân tích cú pháp hay các vấn đề xử lý ngôn ngữ phức tạp khác Thông thường, một từ có thể có nhiều chức năng ngữ pháp, ví dụ: trong câu “con ngựa đá đá con ngựa đá”, cùng một từ “đá” nhưng từ thứ nhất và thứ ba giữ chức năng ngữ pháp là danh

từ, nhưng từ thứ hai lại là động từ trong câu

Gán nhãn từ loại là mức thấp nhất của phân tích ngữ nghĩa

Xác định từ loại hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ thống rút trích thông tin hướng đến ngữ nghĩa, v.v

1.2 Tổng quan về cách tiếp cận giải bài toán

1.2.1 Quá trình gán nhãn từ loại

Gán nhãn từ loại là một quá trình gồm 3 bước xử lý:[2]

- Bước 1 (tiền xử lí): Phân tách xâu kí tự thành chuỗi các từ Giai đoạn này có thể phức tạp hay đơn giản tuỳ theo ngôn ngữ và từng

Trang 8

đơn vị từ vựng Chẳng hạn với tiếng Anh và tiếng Pháp, việc phân tách từ chủ yếu dựa vào ký tự trắng Tuy nhiên vẫn có những cụm từ ghép hay những cụm từ công cụ gây tranh cãi về cách xử lý Trong khi đó với tiếng Việt thì dấu trắng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép là rất cao

- Bước 2: Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có Tập nhãn này có thể thu được từ cơ sở

dữ liệu từ điển hoặc từ kho văn bản đã gán nhãn bằng tay Đối với một từ mới chưa xuất hiện trong cơ sở dữ liệu thì có thể sử dụng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại của từ đang xét

- Bước 3: Quyết định kết quả gán nhãn Giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn tiên nghiệm

1.2.2 Ngữ liệu

Để thực hiện gán nhãn từ loại ta phải có kho ngữ liệu[2], chúng có thể là:

- Từ điển và các văn phạm loại bỏ nhập nhằng

- Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây dựng bằng tay

- Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu

tố

- Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các tính toán thống kê Trong trường hợp này khó có thể

Trang 9

1.2.3 Các tiếp cận giải bài toán

Chúng ta có hai tiếp cận chính cho gán nhãn từ loại tự động:[19]

Sự khác nhau giữa hai tiếp cận thể hiện trong bảng sau:

- Lựa chọn tập văn đã gán nhãn/tập

nhãn

- Rút ra tập nhãn sử dụng dữ liệu huấn luyện chƣa gán nhãn

- Tạo ra các từ điển sử dụng tập văn

+ các tần suất từ + Các xác suất chuỗi nhãn

Tuy có nhiều sự khách nhau nhƣng chúng cũng có những điểm giống nhau là:

- Gán nhãn dữ liệu sử dụng thông tin từ điển đã xây dựng

Trang 10

- Khử nhập nhằng bằng các tiếp cận dựa vào thống kê, dựa trên luật hoặc lai các tiếp cận trên

Vì việc khử khử nhập nhằng sử dụng các tiếp cận dựa trên luật hoặc dựa trên thống kê hoặc lai các tiếp cận vậy tiếp theo ta sẽ tìm hiểu các tiếp cận nêu trên

1.2.5 Gán nhãn dựa trên luật

Bộ gán nhãn dựa trên luật sử dụng các luật được viết bằng tay để phân biệt sự nhập nhằng nhãn, ràng buộc để loại ra các nhãn không phù hợp

Gán nhãn dựa trên luật sử dụng từ điển để tìm các từ loại có thể cho các

từ, sử dụng các luật làm thành một nghĩa, ví dụ như là : det - X - n = X/adj đặc biệt là hàng trăm ràng buộc có thể được thiết kế một cách thủ công

Các tiếp cận gán nhãn dựa trên luật sử dụng thông tin ngữ cảnh để gán các nhãn cho các từ chưa biết hoặc các từ nhập nhằng Các luật này thường được biết như các luật khung ngữ cảnh Như một ví dụ, một luật khung ngữ cảnh có thể nói một vài điều: Nếu một từ chưa biết hoặc nhập nhằng X đứng sau một từ hạn định và đứng đằng trước một danh từ, nhãn của nó sẽ là một tính từ

Trong việc bổ sung cho thông tin ngữ cảnh, nhiều bộ gán nhãn sử dụng thông tin hình thái học để thêm vào quy trình khử nhập nhằng Ví dụ: Nếu một từ nhập nhằng hoặc chưa biết kết thúc với đuôi “ing” và đằng trước là một động từ thì nhãn của từ đó sẽ là một động từ (phụ thuộc vào lý thuyết ngữ pháp) V-W (ing) = W/Verb

Vài hệ thống vượt quá việc sử dụng thông tin ngữ cảnh và hình thái bằng việc xây dựng các luật gắn với các nhân tố như là sự viết bằng chữ hoa (có thể xác định như một danh từ riêng) và hệ thống dấu chấm câu Thông tin loại này nhỏ hơn hoặc lớn hơn phụ thuộc vào ngôn ngữ đang được gán nhãn

Trang 11

Các bộ gán nhãn dựa trên luật hầu hết yêu cầu huấn luyện có hướng dẫn, nhưng gần đây đã có rất nhiều quan tâm đến việc quy nạp tự động của các luật Một tiếp cận để xây dựng luật tự động là để chạy một văn bản chưa gán nhãn thông qua một bộ gán nhãn và xem cách nó thực hiện Tiếp đó một người sẽ duyệt lại đầu ra của bước 1 này và sửa tất cả các từ bị gán nhãn sai Văn bản đã được gán nhãn đúng này sẽ được đưa vào bộ gán nhãn để bộ gán nhãn học quy tắc sửa lỗi bằng cách so sánh 2 tập dữ liệu

1.2.6 Gán nhãn thống kê

Bộ gán nhãn thống kê đơn giản nhất giải quyết nhập nhằng các từ chỉ đặt

cơ sở vào xác suất mà một từ xuất hiện với một nhãn đặc biệt Nói cách khác, nhãn được gặp thường xuyên nhất trong tập huấn luyện là nhãn được gán cho một thể hiện không rõ ràng của từ đó Vấn đề với tiếp cận này là trong khi nó

có thể mang lại một nhãn hợp lệ cho một từ đưa ra, lại cũng có thể mang lại chuỗi không hợp lệ các nhãn

Một lựa chọn thay thế cho tiếp cận tần số từ là để tính toán xác suất của một chuỗi đã cho của sự xuất hiện các nhãn Điều này thỉnh thoảng gọi tắt là tiếp cận N-gram, thể hiện rằng nhãn tốt nhất cho một từ đã cho được xác định bởi xác suất mà nó xuất hiện với N nhãn trước Thuật toán phổ biến nhất thi hành tiếp cận N-gram là thuật toán Viterbi Một thuật toán tìm kiếm mà tránh

sự khai triển đa thức của một tìm kiếm theo chiều rộng bằng cách làm gọn cây tìm kiếm ở mỗi cấp độ sử dụng các ước lượng khả năng cực đại N tốt nhất (Trong đó N là số nhãn của từ theo sau)

Mức độ phức tạp tiếp theo có thể được xây dựng vào trong một bộ gán nhãn thống kê kết hợp hai tiếp cận trước sử dụng các xác suất chuỗi nhãn và các độ đo tần suất từ Điều này được biết đến như là mô hình Markov ẩn Các giả thiết cơ bản cho mô hình này như sau:

Mỗi trạng thái nhãn đem lại một từ trong câu Mỗi từ là

Trang 12

- Không tương quan với tất cả các từ khác và nhãn của chúng

- Xác suất chỉ phụ thuộc vào N nhãn đằng trước

Các bộ gán nhãn mô hình Markov ẩn và hiện có thể được thi hành sử dụng thuật toán Viterbi, và là một trong số các thuật toán hiệu quả nhất Mô hình Markov ẩn (HMM) không thể được sử dụng trong một lược đồ gán nhãn

tự động Nó tin tưởng và o các tính toán thống kê trên chuỗi đầu ra HMM không được huấn luyện một cách tự động Giải pháp cho vấn đề này không có khả năng được huấn luyện một cách tự động là sử dụng thuật toán Baum-Welch, cũng như là thuật toán tiến-lùi (Forward –Backward) Thuật toán này

sử dụng từ hơn là thông tin nhãn cho sự lặp lại xây dựng một chuỗi để cải tiến xác suất của dữ liệu huấn luyện

Một trong những vấn đề còn lại cuả các tiếp cận là: Các từ chưa biết nên được xử lý như thế nào?

1.2.7 Các từ chưa biết

Tất nhiên là các quy tắc trong các bộ gán nhãn dựa trên luật được trang

bị để giải quyết cho vấn đề này, nhưng trong các mô hình thống kê là làm thế nào để có thể tính toán xác suất mà một từ đã cho xuất hiện với một nhãn nếu

từ đó chưa biết bộ gán nhãn? Có vài giải pháp tiềm năng cho vấn đề này: Một trong những giải pháp sử dụng thông tin hình thái Trong trường hợp này, bộ gán nhãn tính toán xác suất mà một hậu tố trên một từ chưa biết xuất hiện với một nhãn đặc biệt Nếu một mô hình Markov ẩn đang được sử dụng, xác suất

mà một từ chứa đựng hậu tố mà xuất hiện với một nhãn đặc biệt trong chuỗi

đã cho được tính toán Một giải pháp khác là gán một tập các nhãn mặc định (các lớp mở đặc đặc biệt: Danh từ, tính từ, trạng từ, động từ ) cho các từ chưa biết và để giải quyết nhập nhằng sử dụng các xác suất mà các nhãn đó xuất hiện tại cuối n-gram trong câu hỏi Một xác suất khác là để tính toán xác suất

Trang 13

dẫn với xác suất cao nhất Đây không phải là giải pháp tối ưu nếu mà làm việc với một tập nhãn lớn

1.3 Bài toán gán nhãn từ loại tiếng Việt

Đối với tiếng Anh, bài toán gán nhãn từ loại đã được giải quyết khá tốt, còn hiện nay bài toán gán nhãn từ loại tiếng Việt cũng đã có rất nhiều nghiên cứu, và phương pháp khác nhau để giải quyết Tuy nhiên với tiếng Việt thì còn rất nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt còn rất nhiều tranh cãi, chưa có một chuẩn mực thống nhất

Qua khảo sát các nghiên cứu gần đây của tiếng Việt cho bài toán gán nhãn từ loại [5], có thể thấy có hai dạng tập nhãn từ loại thường được sử dụng cho các công cụ gán nhãn từ loại tiếng Việt:

 Dạng thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn “mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại Việc phân nhỏ này dựa trên nền tảng là các tiểu loại từ được nêu ra trong cuốn Ngữ pháp tiếng Việt của Ủy ban khoa học xã hội Việt Nam, xuất bản năm 1983, có bổ sung thêm một số nhãn từ loại để tránh trường hợp một từ mang cùng một lúc nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội động chỉ cảm nghĩ) Tùy thuộc vào từng loại ứng dụng xem cần thông tin cú pháp và từ vựng ở mức nào mà việc xây dựng, xác định tập nhãn từ loại sẽ dừng ở mức thô hay mịn khác nhau

Hiện nay, ở Việt Nam đã có một số tập nhãn từ loại được xây dựng, chủ yếu ở mức thô, tiêu biểu có thể kể đến bộ nhãn VnPOStag của tác giả Trần Thị Oanh gồm 14 nhãn [4], 01 nhãn không xác định và các nhãn ký hiệu đặc biệt khác; bộ VietTreeBank gồm 16 nhãn và 01 nhãn cho từ không phân loại được, … Bộ nhãn gồm nhiều nhãn nhất hiện nay được xây dựng bởi nhóm tác

Trang 14

giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag [2] gồm 48 nhãn

và 01 nhãn không xác định

 Dạng thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang Việt

Tiêu biểu cho dạng tập nhãn từ loại này là tập nhãn được sử dụng trong nghiên cứu “Gán nhãn từ loại tự động cho Tiếng Việt” [11] của nhóm tác giả Đinh Điền, tập nhãn này được xây dựng bằng cách quy chiếu từ tập nhãn tiếng Anh là Brown Corpus

Như vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang ngày càng được quan tâm nghiên cứu Tuy nhiên đây vẫn là hướng nghiên cứu đầy tiềm năng và cũng đầy thử thách, cùng với đó là việc các nghiên cứu

đã có hầu hết vẫn còn mang tính cá thể, chưa có được sự đối chiếu so sánh khách quan, và sự thống nhất về bộ nhãn giữa các nhà ngôn ngữ, đồng thời cũng chưa xây dựng được bộ nhãn đủ lớn để bài toán gán nhãn tiếng Việt có thể đạt độ chính xác rất cao Luận văn này sẽ tập trung vào việc nghiên cứu một số phương pháp học máy không có hướng dẫn được sử dụng thành công cho các ngôn ngữ khác để có thể tìm ra phương pháp giải quyết được khó khăn về việc xác định từ loại của bài toán gán nhãn tiếng Việt

Ở chương này chúng ta đã tìm hiểu tổng quan về gán nhãn từ loại cùng hiện trạng khó khăn của bài toán gán nhãn từ loại tiếng Việt Tiếp theo chúng

ta sẽ tìm hiểu cơ sở toán học để giải quyết bài toán đó bằng phương pháp học máy không có hướng dẫn

Trang 15

Chương 2 - CƠ SỞ TOÁN HỌC

Ở chương này chúng ta sẽ nhắc lại một số kiến thức cơ sở phục vụ cho các công cụ giải quyết bài toán gán nhãn từ loại bằng phương pháp học máy không có hướng dẫn Đây là các kiến thức liên quan đến xác suất (định lý Bayes), mô hình học máy (mô hình Markov ẩn, mô hình N-gram, thuật toán cực đại hóa kì vọng tìm nghiệm tối ưu cho mô hình học máy, bài toán phân cụm), phương pháp phân tích giá trị kì dị phục vụ việc giảm số chiều dữ liệu trong tính toán véc tơ

2.1 Định lý Bayes

Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên

A khi biết sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B),

và đọc là "xác suất của A nếu có B" Đại lượng này được gọi xác suất có điều kiện hay xác suất hậu nghiệm vì nó được rút ra từ giá trị được cho của B hoặc

phụ thuộc vào giá trị đó

Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:

 Xác suất xảy ra A của riêng nó, không quan tâm đến B Kí hiệu là P(A) và đọc là xác suất của A Đây được gọi là xác suất biên

duyên hay xác suất tiên nghiệm, nó là "tiên nghiệm" theo nghĩa

rằng nó không quan tâm đến bất kỳ thông tin nào về B

 Xác suất xảy ra B của riêng nó, không quan tâm đến A Kí hiệu là P(B) và đọc là "xác suất của B" Đại lượng này còn gọi là hằng số chuẩn hóa (normalising constant), vì nó luôn giống nhau, không phụ thuộc vào sự kiện A đang muốn biết

Trang 16

 Xác suất xảy ra B khi biết A xảy ra Kí hiệu là P(B|A) và đọc là

"xác suất của B nếu có A" Đại lượng này gọi là khả năng

(likelihood) xảy ra B khi biết A đã xảy ra Chú ý không nhầm lẫn giữa khả năng xảy ra A khi biết B và xác suất xảy ra A khi biết B Khi biết ba đại lượng này, xác suất của A khi biết B cho bởi công thức:

t cons g normalizin

prior likelihood

B P

A P A B P B A P

tan _

* )

(

) ( )

| ( )

|

Từ đó dẫn tới

P(A|B)P(B) P(AB) P(B|A)P(A)

2.2 Thuật toán cực đại hóa kỳ vọng (EM)

Thuật toán EM (Expectation Maximization) nhằm tìm ra sự ước lượng

về khả năng lớn nhất của các tham số trong mô hình xác suất (các mô hình phụ thuộc vào các biến ẩn chưa được quan sát), nó được xem như thuật toán dựa trên mô hình

Sau bước khởi tạo, thuật toán được chia làm hai bước xử lý: Đánh giá

dữ liệu chưa được gán nhãn (bước E) và đánh giá các tham số của mô hình, khả năng lớn nhất có thể xảy ra (bước M)

Bước E:Tính toán các giá trị dự kiến của các biến chưa biết dựa trên các ước lượng tham số hiện thời

t j j k

t i

t i i k t

k

t j t j k t

k j

P w

x P

P w

x P x

P

w P w x P x

w

) 2 )

, ,

|

, ,

| ,

, ,

| ,

i

x w P

x x w P

R

x w P

Trang 17

Lặp lại bước E và bước M cho đến khi đạt được kết quả

2.3 Mô hình Markov ẩn

Mô hình Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết trước và nhiệm vụ là xác định các tham số

ẩn từ các tham số quan sát được, dựa trên sự thừa nhận này Các tham số của

mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp,

Hình 2.3 Minh họa hoạt động của mô hình Markov ẩn

Trong đó:

xi: 1 trạng thái trong mô hình markov

Trang 18

aij = p(xj|xi): xác suất để trạng thái xj xuất hiện sau trạng thái xi

bi(oj) = p(oj|i): xác suất quan sát đƣợc oj tại trạng thái ti

( )

t i  P o o t q t s i

) ( ) ( )

(

1

1 j t N

i

ij t

Trang 19

- Khởi tạo: 1(i)  i b i(o1) 1 iN

- Xây dựng: j N i a b j o t t T j N

i

ij t

) ( ) ( )

(

1 1

P

1

) ( )

|

( )

1

1 ) ( ) (

t j o

b a

1 )

( ) ( )

P

1 1

) ( )

|

Trang 20

2.3.1.2 Bài toán 2

Cung cấp cho mô hình các tham số, tìm dãy các trạng thái (ẩn) có khả năng lớn nhất mà có thể sinh ra dãy đầu ra đã cung cấp Nghĩa là cho chuỗi quan sát O={o1,o2, ,oT} và mô hình λ = {A, B} ta phải tìm chuỗi trạng thái

ẩn Q={q1, q2 ,qT} sao cho xác suất có điểu kiện P(O|λ) là cực đại

) ,

|' ( max

arg

'



O Q P

Trang 21

Ý tưởng thuật toán tiến-lùi

1 Bắt đầu với 1 mô hình λ bất kỳ, tính toán P(O huấn luyện/ λ)

2 Đoán ra các chuyển tiếp trạng thái và đầu ra được sử dụng nhiều nhất trong tính toán P(O/λ)

3 Tăng xác suất của chúng, mà sẽ mang lại 1 mô hình mới với 1 xác suất P(O/λ) cao hơn

4 Lặp lại cho đến khi 1 giá trị cực đại đạt được

Thuật toán:

Ba tham số cần được ước lượng lại:

- Phân phối trạng thái ban đầu: i

- Xác suất chuyển tiếp: ai,j

- Xác suất đầu ra: bi(ot)

Ước lượng xác suất chuyển tiếp

Định nghĩa: t(i, j) P(q t s i,q t1 s j |O,  ) là xác suất chuyển tiếp từ trạng thái i sang trạng thái j tại thời điểm t cho trước mô hình hiện tại và các tham số

j o

b a i

j o

b a i j

i

1 1 ,

) ( ) ( ) (

) ( ) ( ) ( )

Trang 22

Bằng trực quan ta có công thức ƣớc lƣợng lại xác suất chuyển tiếp là:

Số dự kiến chuyển tiếp từ trạng thái si sang sj chia cho số

dự kiến chuyển tiếp từ trạng thái si trong O

) ' , (

) , (

j i

j i a

) (

) , (

t t

T

t t j

i

j i a





Ƣớc lƣợng xác suất trạng thái ban đầu:

- Phân phối trạng thái ban đầu i là xác suất mà si là một

i

i v o k

b

1

) (

) ( ) , ( )

Trang 23

) (

) ,

i

i v o k

b

1

) (

) ( ) , ( )

N T P T P w t P t t t

W

P

Chuối nhãn thích hợp nhất t 1 , t N được chọn để cực đại công thức trên

t 0 , t -1 , và t n+1 là các dấu bắt đầu và kết thúc chuỗi

Xác suất được ước lượng từ việc đếm tần suất quan hệ (khả năng cực đại), ví dụ:      

2 1

3 2 1 2

1 3

,

, , ,

|

t t c

t t t c t t t

Phương pháp ước lượng khả năng cực đại cho nhiều xác suất 0 trong các kết quả trigrams Để tránh có các xác suất bằng 0 này, người ta cần sử dụng thuật toán làm mịn bằng phương pháp nội suy:

t3 |,t1,t2 3 Pt3 |t1,t2 2 Pt3 |t2 1P t3

1

1 2

3   



Các hệ số  cũng được ước lượng từ dữ liệu huấn luyện

2.4 Phân cụm

2.4.1 Khái niệm phân cụm

Phân cụm (clustering) làm việc phân chia các đối tượng vào các nhóm,

sao cho các đối tượng thuộc cùng một nhóm có độ tương tự cao hơn các đối

Trang 24

tượng thuộc các nhóm khác nhau Sự tương tự được đánh giá thông qua một

độ đo khoảng cách nào đó Phân cụm là một bài toán phổ biến cho phân tích

dữ liệu thống kê, được sử dụng trong nhiều lĩnh vực sử dụng học máy hay khai phá dữ liệu như nhận dạng mẫu, phân tích ảnh,…

Phân cụm là một công cụ độc lập để xem xét phân bố dữ liệu, và làm bước tiền xử lí cho các thuật toán khác

2.4.2 Các yêu cầu của phân cụm

- Có thể thay đổi kích thước cụm

- Khả năng làm việc với các loại thuộc tính khác nhau

- Khám phá được các cụm có hình dạng bất kì

- Khả năng làm việc với dữ liệu có chứa nhiễu

- Không phụ thuộc vào thứ tự các bản ghi nhập vào

- Khả năng làm việc với dữ liệu nhiều chiều

- Có thể diễn giải và khả dụng

2.4.3 Các phương pháp phân cụm

Có rất nhiều các phương pháp phân cụm khác nhau Việc lựa chọn phương pháp nào tuỳ thuộc vào kiểu dữ liệu, mục tiêu và ứng dụng cụ thể Nhìn chung, có thể chia thành các phương pháp sau:

2.4.3.1 Phương pháp phân hoạch

Cho một cơ sở dữ liệu D chứa n đối tượng, tạo phân hoạch thành tập có

k cụm sao cho:

- Mỗi cụm chứa ít nhất một đối tượng

- Mỗi đối tượng thuộc về một cụm duy nhất

- Cho trị k, tìm phân hoạch có k cụm sao cho tối ưu hoá tiêu chuẩn phân hoạch được chọn

Trang 25

Các phương pháp phân hoạch điển hình được biết đến là means và medoids

k-Một biến thể của K-means cho phép sự chồng lặp của các phân cụm đó

là Cmeans mờ (FCM: Fuzzy C-means) Thay vì có các quan hệ thành viên kiểu nhị phân giữa các đối tượng và các phân cụm tiêu biểu, FCM cho phép các cấp độ khác nhau của cấp độ thành viên [32] Krishnapuram đã đưa ra một phiên bản đã chỉnh sửa của FCM được coi là Fuzzy C-Medoids (FCMdd) trong đó các ý nghĩa được thay bằng các ngữ cảnh Thuật toán này tương đối nhanh và có cỡ là O(n2) và có cường độ hoạt động nhanh hơn FCM

2.4.3.2 Phương pháp phân cấp

Phân cấp: Tạo phân cấp cụm chứ không phải phân hoạch các đối tượng Khác với phân hoạch, phân cấp không cần số cụm k ở đầu vào và dùng ma trận khoảng cách làm tiêu chuẩn gom cụm Trong phương pháp phân cấp có thể dùng điều kiện dừng, ví dụ như số cụm

Phân cấp cụm thường được biểu diễn dưới dạng cây các cụm, trong đó:

- Các lá của cây biểu diễn từng đối tượng

- Các nút trong biểu diễn các cụm

Có hai phương pháp tạo cây phân cấp là từ dưới lên và từ trên xuống

- Phương pháp từ dưới lên (bottom up): Ban đầu mỗi đối tượng được đặt vào một cụm riêng Trộn dần từng bước hai cụm giống nhau nhất cho đến khi chỉ còn một cụm hay thoả mãn điều kiện nào đó thì dừng

- Phương pháp từ trên xuống (top - down): Bắt đầu từ cụm lớn nhất chứa tất cả các đối tượng Chia cụm có độ phân biệt cao nhất thành các cụm nhỏ hơn và tiếp diễn cho đến khi có n cụm hoặc thoả mãn điều kiện dừng

Trang 26

2.4.3.3 Phương pháp dựa trên mật độ

Gom cụm dựa trên sự liên thông địa phương và hàm mật độ Theo phương pháp này các điểm có mật độ cao hơn sẽ ở cùng một cụm

Đặc trưng của phương pháp:

- Phát hiện ra các cụm có hình dạng bất kì

- Phát hiện nhiễu

2.4.3.4 Phương pháp dựa trên mô hình

Một mô hình giả thuyết được đưa ra cho mỗi cụm; sau đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất

2.4.4 Độ đo khoảng cách

Một bước quan trọng trong bất kỳ kỹ thuật phân cụm nào là lựa chọn một độ đo khoảng cách để xác định sự tương tự của hai phần tử Độ đo này sẽ ảnh hưởng đến hình thái của cụm, vì một phần tử nào đó có thể gần với một phần tử khác theo một độ đo khoảng cách này và xa hơn theo một độ đo khác

Ví dụ: Trong một không gian 2 chiều, khoảng cách giữa điểm (x=1,y=0) và điểm gốc (x=0,y=0) luôn luôn là 1 theo những tiêu chuẩn thông thường Nhưng khoảng cách giữa điểm (x=1,y=1) và điểm gốc (x=0,y=0) có thể là 2,

√2, hoặc 1 nếu bạn tuần tự theo tiêu chuẩn 1, tiêu chuẩn 2 hoặc khoảng cách tiêu chuẩn vô cự

Dữ liệu thống kê được biểu diễn dưới dạng một ma trận np trong đó n

là số lượng bộ dữ liệu, p là số lượng thuộc tính Mỗi phần tử xij là giá trị độ

đo dữ liệu trên thuộc tính j của bộ dữ liệu i

x11 x12 x1p

x21 x22 x2p

Định dạng
Số trang	53
Dung lượng	1,65 MB