Ví dụ các bước của phương pháp Multinomial Bayes

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu áp dụng thuật toán multinomial bayes vào phân loại văn bản (Trang 38 - 42)

Bước 1:

Tính tốn xác suất tiên nghiệm. Đây là xác suất của tài liệu nằm trong một danh mục cụ thể từ tập hợp tài liệu đã cho.

Bước 2:

Tính tốn khả năng. Khả năng là khả năng cĩ điều kiện của một từ xảy ra trong một tài liệu cho rằng tài liệu thuộc về một loại cụ thể.

Bước 3:

Tính P (Phân loại/Tài liệu) = P(Phân loại)*P( 𝑇ừ 1

𝑃ℎâ𝑛 𝑙𝑜ạ𝑖)*P( 𝑇ừ 2

𝑃ℎâ𝑛 𝑙𝑜ạ𝑖)*P( 𝑇ừ 3 𝑃ℎâ𝑛 𝑙𝑜ạ𝑖).

Ví dụ minh họa

Cĩ một bộ tài liệu gồm (D1-D5) được phân loại thành: Auto, Sports và Comput- er.

Bảng 2.2 Bảng dữ liệu bộ tài liệu gồm D1 – D5

Document Content Category

D1 Saturn Dealer’s Car Auto

D2 Toyota Car Tercel Auto

D3 Baseball Game Play Sports

D4 Pulled Muscle Game Sports

D5 Colored GIFs Root Computer

Nhiệm vụ là phân loại D6 và D7 mới vào 1 trong 3 loại: Auto, Sports và Computer.

Bảng 2.3 Bảng dữ liệu để cần phân loại gồm D6 – D7

Document Content Category

D6 Home Runs Game ?

Bước 1: Tính tốn xác suất trước. Đây là xác suất của tài liệu nằm trong một danh mục cụ thể từ tập hợp tài liệu đã cho.

P(Phân loại) = (Số lượng tài liệu được phân loại)/(Tổng số tài liệu)

P(Auto) = (Số tài liệu được phân loại Auto)/(Tổng số tài liệu) = 2/5 = 0.4.

P(Sport) = (Số tài liệu được phân loại Sport)/(Tổng số tài liệu) = 2/5 = 0.4

P(Computer) = (Số tài liệu được phân loại Computer)/(Tổng số tài liệu) = 1/5 = 0.2

Bước 2: Tính tốn khả năng. Khả năng là khả năng cĩ điều kiện của một từ xảy ra trong một tài liệu cho rằng tài liệu thuộc về một loại cụ thể.

P(Từ/Phân loại) = (Số lần xuất hiện của từ trong tất cả văn bản từ một loại + 1)/(Tất cả các từ trong mỗi tài liệu từ một loại +Tổng số từ duy nhất trong tất cả các tài liệu)

P(Saturn/Auto) = (Số lần xuất hiện của từ ‘SATURN’ trong tất cả các tài liệu thuộc loại ‘Auto’ +1)/(Tất cả các từ trong tài liệu thuộc loại ‘Auto’ +Tổng số từ duy nhất trong tất cả các tài liệu)

= (1+1)/(6+13) = 2/19 = 0.105263158 Sau khi tính tốn, ta cĩ kết quả như sau:

Bảng 2.4 Bảng tính tốn khả năng đối với loại AUTO Từ Mức độ thường xuyên của từ trong loại AUTO Tổng số từ trong loại AUTO Số lần xuất hiện của từ trong tất cả các tài liệu thuộc loại AUTO Tổng số từ duy nhất trong tất cả các tài liệu. Saturn 1 6 0.105263158 13 Dealers 1 6 0.105263158 13 Car 2 6 0.157894737 13 Toyota 1 6 0.105263158 13 Tercel 1 6 0.105263158 13 Baseball 0 6 0.052631579 13 Game 0 6 0.052631579 13 Play 0 6 0.052631579 13 Pulled 0 6 0.052631579 13 Muscle 0 6 0.052631579 13 Colored 0 6 0.052631579 13 GIFs 0 6 0.052631579 13 Root 0 6 0.052631579 13 Home 0 6 0.052631579 13 Runs 0 6 0.052631579 13 Engine 0 6 0.052631579 13 Noises 0 6 0.052631579 13 Bước 3:

Tính P (Phân loại/Tài liệu) = P(Phân loại)*P(Từ 1/Phân loại)*P(Từ 2/Phân loại)*P(Từ 3/Phân loại).

P(Auto/D6) = P(Auto) * P(Engine/Auto) * P(Noises/Auto) * P(Car/Auto) = (0.4) * (0.052631579) * (0.157894737)

= (0.00005831754)

P(Sports/D6) = 0.000174953

P(Computers/D6) = 0.00004882813

Phân loại cĩ thể xảy ra nhất cho D6 rơi vào Sports, vì nĩ cĩ xác suất cao nhất so với các nhĩm khác.

P (Sports / D7) = 0.0000583175

P (Computers / D7) = 0.00004882813

Loại cĩ thể xảy ra nhất cho D7 rơi vào là Auto, bởi vì nĩ cĩ xác suất cao nhất trong số các nhĩm khác.

2.3.4. Ưu điểm phương pháp Multinomial Bayes trong phân loại văn bản

Multinomial Bayes là một mơ hình đơn giản nhưng hoạt động rất tốt trong việc phân loại văn bản. Ngồi ra, Multinomial Bayes cịn cĩ tốc độ xử lý nhanh và tốn ít tài nguyên tính tốn.

2.3. Kết luận

Chương 2 của luận văn tập trung vào trình bày thuật tốn Multinomial Bayes cơ sở lý thuyết và áp dụng trong bài tốn phân loại văn bản chính là tiền đề để đánh giá với dữ liệu thực nghiệm. Chương 3 của luận văn giới thiệu bộ dữ liệu được sử dụng trong luận văn để thực nghiệm thuật tốn phân loại văn bản là tập dữ liệu cĩ tên “20 Newsgroups”, chạy thực nghiệm bằng phương pháp Multinomial Bayes và so sánh với phương pháp học máy phổ biến khác Multinomial Logistic Regression với cùng bộ 5-fold Cross-Validation dựa trên những tiêu chuẩn đánh giá cho phân loại đa cấp.

CHƯƠNG 3 - THỰC NGHIỆM VÀ ĐÁNH GIÁ

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu áp dụng thuật toán multinomial bayes vào phân loại văn bản (Trang 38 - 42)

Tải bản đầy đủ (PDF)

(57 trang)