Mơ hình phân loại NaiveBayes

Một phần của tài liệu Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt (Trang 33 - 37)

Chương 3 Mơ hình học máy cho bài tốn đối sánh văn bản

3.2. Mơ hình phân loại NaiveBayes

Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của A nếu cĩ B". Đại lượng này được gọi xác suất cĩ điều kiện hay xác suất hậu nghiệm vì nĩ được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đĩ. Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:

Xác suất xảy ra A của riêng nĩ, khơng quan tâm đến B. Kí hiệu là P(A) và đọc là “xác suất của A”. Đây được gọi là xác suất biên duyên hay xác suất tiên nghiệm, nĩ là "tiên nghiệm" theo nghĩa rằng nĩ khơng quan tâm đến bất kỳ thơng tin nào về B. Xác suất xảy ra B của riêng nĩ, khơng quan tâm đến A. Kí hiệu là P(B) và đọc là "xác suất của B". Đại lượng này cịn gọi là hằng số chuẩn hĩa (normalising constant), vì nĩ luơn giống nhau, khơng phụ thuộc vào sự kiện A đang muốn biết.

Xác suất xảy ra B khi biết A xảy ra. Kí hiệu là P(B|A) và đọc là "xác suất của B nếu cĩ A". Đại lượng này gọi là khả năng (likelihood) xảy ra B khi biết A đã xảy ra. Chú ý khơng nhầm lẫn giữa khả năng xảy ra A khi biết B và xác suất xảy ra A khi biết B.

Từ đĩ dẫn tới

Áp dụng Naive Bayes cho mơ hình phân loại của luận văn

Những ứng dụng của Bayes thường được dựa trên một giả thuyết cĩ tính triết học Bayesian probability ngầm định rằng độ bất định và kỳ vọng cĩ thể tính tốn được giống như xác suất.

Với Bayes ngây thơ ngồi giả thuyết Bayes, thì cịn giả thuyết ngây thơ, giả thuyết ngây thơ là các đặc trưng của cặp trang web là độc lập với nhau.

Áp dụng cho xây dựng mơ hình ngơn ngữ:

Gọi C là lớp hay nhãn của cặp thí sinh. Giá trị của C là true hoặc false. Cịn tập thuộc tính ký hiệu As tương ứng với một tập các đặc trưng hay tiêu chí phân lớp, tức là:

As = a1 a2 ... an Mỗi ai cĩ thể nhận một giá trị nguyên vj

As = v1v2...vn.

Vậy với mỗi cặp trang web, việc được gán nhãn gì thì phục thuộc vào hai xác suất cĩ điều kiện sau:

P(C=true/a1=v1a2=v2... an=vn) và P(C=false/a1=v1a2=v2... an=vn) Xác suất nào lớn hơn thì cặp trang web đĩ sẽ cĩ nhãn tương ứng. Theo định lý Bayes ta cĩ:

P(C=true/ a1=v1a2=v2... an=vn) = ( )

) ( ) true /C v a ... v a v a ( 2 2 1 1 n n 2 2 1 1 true C P v a v a v a P P n n        

P(C=false/ a1=v1a2=v2... an=vn) = ) ( ) ( ) false /C v a ... v a v a ( 2 2 1 1 n n 2 2 1 1 false C P v a v a v a P P n n        

Khi so sánh hai xác suất P(C=true/As=v1v2...vn) và P(C=false/As=v1v2...vn), vế phải của khai triển Bayes cĩ mẫu chung ta cĩ thể bỏ qua. Chỉ cần so sánh tử thơi.

Vì cĩ giả định ngây thơ là các đặc trưng độc lập với nhau, nên ta cĩ: P(a1=v1a2=v2... an=vn/C=true)P(C=true) =

P(a1=v1/C=true) P(a2=v2/C=true)... P(an=vn/C=true) P(C=true) P(a1=v1a2=v2... an=vn/C=false)P(C=false) =

P(a1=v1/C=false) P(a2=v2/C=false)... P(an=vn/C=false) P(C=false)

Từ đĩ ta chỉ cần tính xác suất từng thành phần ở bên phải, sau đĩ tích lại và so sánh xem cái nào lớn hơn thì gán nhãn tương ứng.

Ta cĩ các xác suất thành phần được tính dựa trên thống kê:

P(C=true) = count(nhãn true) / số cặp trong tập huấn luyện. P(a1=v1/C=true) =

count(nhãn true, cĩ thuộc tính a1 cĩ giá trị v1) / count(nhãn true).

P(a2=v2/C=true) =

count(nhãn true, cĩ thuộc tính a2 cĩ giá trị v2) / count(nhãn true).

count(nhãn true, cĩ thuộc tính an cĩ giá trị vn) / count(nhãn true).

P(C=false) = count(nhãn false) / số cặp trong tập huấn luyện. P(a1=v1/C=false) =

count(nhãn false, cĩ thuộc tính a1 cĩ giá trị v1) / count(nhãn false).

P(a2=v2/C=false) =

count(nhãn false, cĩ thuộc tính a2 cĩ giá trị v2) / count(nhãn false).

......

P(an=vn/C=false) =

count(nhãn false, cĩ thuộc tính an cĩ giá trị vn) / count(nhãn false).

Và mơ hình ngơn ngữ Bayes chính là tất cả xác suất ở trên cho tất cả giá trị của tất cả thuộc tính trong hai class true và false, với mẫu bất kỳ, ví dụ:

(input= u1u2...un) thì nhãn của ví dụ này sẽ là gì phụ thuộc vào kết quả của hai biểu thức:

P(a1=u1/C=false) P(a2=u2/C=false)... P(an=un/C=false) P(C=false)

Cách tính mỗi thành phần như trên hoặc tìm trong nơi lưu trữ các xác suất thành phần và lấy ra giá trị phù hợp, chẳng hạn P(a1=u1/C=false) = P(a1=v1/C=false) với v1=u1 .

Một phần của tài liệu Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt (Trang 33 - 37)

Tải bản đầy đủ (PDF)

(54 trang)