1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân lớp naive bayes và ứng dụng (KL06436)

38 1,3K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 818,85 KB

Nội dung

Tùy thuộc vào tính chính xác bản chất của mô hình xác suất, phân lớp naive Bayes có thể được tạo ra rất hiệu quả trong học máy.. Vào năm 2004 phân tích các vấn đề của phân lớp Bayes đã c

Trang 1

HÀ NỘI – 2014 LỜI CẢM ƠN

Trang 2

Trước tiên, tôi xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới thầy Trần Tuấn Vinh đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khóa luận này

Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt 4 năm học qua, đã cho tôi những kiến thức quý báu để tôi có thể vững bước trên con đường đi của mình

Trong quá trình góp nhặt kiến thức các thầy cô bạn bè là những người đã cùng tôi sát cánh trong suốt thời gian tôi học tập và nghiên cứu dưới mái trường Đại học Sư phạm Hà Nội 2

Trong những nỗ lực đó, không thể không kể đến công lao to lớn không

gì có thể đền đáp được của cha mẹ những người đã sinh thành, dưỡng dục tôi nên người, luôn nhắc nhở động viên tôi hoàn thành tốt nhiệm vụ

Hà Nội, tháng 5 năm 2014

Sinh viên

Trần Thị Hà

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài “Phân lớp naive Bayes và ứng dụng” là kết quả

mà tôi đã trực tiếp nghiên cứu, tìm hiểu được Trong quá trình nghiên cứu, tôi

có sử dụng tài liệu của một số tác giả khác Tuy nhiên, đó chỉ là cơ sở để tôi rút ra được vấn đề cần tìm hiểu ở đề tài của mình Đây là kết quả của riêng cá nhân tôi, hoàn toàn không trùng khớp với kết quả của tác giả nào khác

Nếu sai tôi xin chịu hoàn toàn trách nhiệm

Hà Nội, tháng 5 năm 2014

Sinh viên

Trần Thị Hà

Trang 4

MỤC LỤC

MỞ ĐẦU 1

Chương I LÝ THUYẾT CHUNG [1] 2

1.1 Biến cố ngẫu nhiên 2

1.1.1 Hiện tượng ngẫu nhiên 2

1.1.2 Phép thử và biến cố 2

1.1.3 Quan hệ giữa các biến cố 3

1.2 Xác suất của biến cố 3

1.2.1 Định nghĩa xác suất dạng cổ điển 3

1.2.2 Tính chất của xác suất 3

1.3 Công thức tính xác suất 4

1.3.1 Công thức cộng xác suất 4

1.3.2 Xác suất có điều kiện 4

1.4 Công thức Bayes 5

Chương II GIỚI THIỆU VỀ PHÂN LỚP NAIVE BAYES VÀ PHÂN TÍCH TRONG KHAI PHÁ DỮ LIỆU 8

2.1 Kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu 8

2.2 Giới thiệu phân lớp naive Bayes 8

2.2.1 Định nghĩa 8

2.2.2 Các mô hình xác suất naive Bayes 9

2.2.3 Ước lượng tham số 11

2.2.4 Chỉnh sửa mẫu 12

2.2.5 Xác định một phân lớp từ mô hình xác suất 12

2.2.6 Phương pháp phân lớp Bayes 13

2.2.7 Giới thiệu thuật toán naive Bayes 13

2.2.8 Phân lớp naive Bayes 14

Chương III ỨNG DỤNG CỦA BAYES 21

Trang 5

3.1 Thuật toán phân loại văn bản naive Bayes 21

3.2 Lọc thư rác 22

3.2.1 Định nghĩa thư rác 22

3.2.2 Tác hại của thư rác 22

Chương IV MỘT SỐ VÍ DỤ MINH HỌA CHO NAIVE BAYES TRONG MATLAB [5] 25

KẾT LUẬN 31

DANH MỤC TÀI LIỆU THAM KHẢO 33

Trang 6

MỞ ĐẦU

Xác suất thống kê là bộ môn rất quan trọng và có nhiều ứng dụng trong thực tế, giúp con người rút ra thông tin từ dữ liệu quan sát, nhằm giải quyết các bài toán trong cuộc sống

Trong khóa luận này trình bày một tiếp cận thống kê trong việc dự đoán

sự kiện dựa vào lí thuyết Bayes Lý thuyết nói về việc tính xác suất của sự kiện dựa vào các kết quả thống kê các sự kiện trong quá khứ Sau việc tính toán mỗi sự kiện được gán xác suất (tùy thuộc vào mỗi phương pháp đánh giá) ứng với khả năng có thể xảy ra với sự kiện đó Và cuối cùng dựa vào ngưỡng để phân loại cho các sự kiện

Sau phần lí thuyết chung chúng ta sẽ tìm hiểu về các bài toán trong thực

tế được ứng dụng từ lý thuyết Bayes: Thuật toán phân loại văn bản và lọc thư rác trong các thư điện tử Naive Bayes cũng được sử dụng trong Matlab-một ngôn ngữ lập trình thực hành bậc cao được sử dụng để giải quyết các bài toán

về kĩ thuật

Trang 7

Chương I

LÝ THUYẾT CHUNG [1]

1.1 Biến cố ngẫu nhiên

1.1.1 Hiện tượng ngẫu nhiên

Người ta chia các hiện tượng xảy ra trong cuộc sống hàng ngày làm hai loại: Tất nhiên và ngẫu nhiên

- Những hiện tượng mà khi thực hiện trong một điều kiện sẽ cho ra kết

quả như nhau được gọi là hiện tượng tất nhiên

- Những hiện tượng mà cho dù khi được thực hiện ở trong cùng một điều

kiện vẫn có thể cho ra các kết quả khác nhau được gọi là những hiện tượng ngẫu nhiên

- Hiện tượng ngẫu nhiên chính là đối tượng khảo sát của lí thuyết xác suất

1.1.2 Phép thử và biến cố

- Để quan sát các hiện tượng ngẫu nhiên, người ta cho các hiện tượng này xuất hiện nhiều lần Việc thực hiện một quan sát về một hiện tượng ngẫu nhiên nào đó, để xem hiện tượng này có xảy ra hay không được gọi là một phép thử

- Khi thực hiện một phép thử, ta không thể dự đoán được kết quả xảy ra Tuy nhiên ta có thể liệt kê được tất cả các kết quả có thể xảy ra

- Tập hợp tất cả các kết quả có thể xảy ra của một phép thử được gọi là không gian mẫu của phép thử kí hiệu  Biến cố không thể xảy ra được gọi

Trang 8

1.1.3 Quan hệ giữa các biến cố

- Quan hệ kéo theo: Biến cố A được gọi là kéo theo biến cố B khi và chỉ khi A xảy ra thì B xảy ra Kí hiệu:AB

- Quan hệ tương đương: Hai biến cố A và B được gọi là tương đương với nhau khi và chỉ khi ABBA Kí hiệu: AB

- Tổng của hai biến cố: Biến cố C được gọi là tổng của hai biến cố A và

B, kí hiệu: CAB hay CAB, C xảy ra khi và chỉ khi ít nhất một trong hai biến cố A và B xảy ra

- Hiệu của hai biến cố A và B, kí hiệu CA| B, C xảy ra khi và chỉ khi

A xảy ra nhưng B không xảy ra

- Tích của hai biến cố A và B, kí hiệu CA.B, C xảy ra khi và chỉ khi

cả A lẫn B đều xảy ra

1.2 Xác suất của biến cố

1.2.1 Định nghĩa xác suất dạng cổ điển

Xét một phép thử với không gian mẫu ={1,2, ,n} và biến cố

Trang 9

Xét phép một thử, ta có các công thức cộng xác suất sau:

- Nếu A và B là hai biến cố tùy ý: PAB P     AP BP AB

- Nếu A và B là hai biến cố xung khắc thì P(AB) P   AP B Nếu

họ {Ai} (i=1,2,…,n) xung khắc từng đôi thì

)(

)()()

(A1 A2 A n P A1 P A2 P A n

Chú ý: P(A)1P(A),P(A) P(AB)P(A B)

1.3.2 Xác suất có điều kiện

1.3.2.1 Định nghĩa: Cho biến cố B với P B 0

Xác suất của A khi biết B xảy ra là:

)(

)()

|(

B P

AB P B A

Khi biết B xảy ra, xác suất của A | B tỉ lệ với A B, vậy:

     

B P

AB P B A

Với k là hệ số tỉ lệ để tính k, ta chọn AB

Vậy:

)(.)(.)

|(

1P B Bk P BBk P B

Do đó:

) (

1

B P

k

Vậy:

)(

)()(.)(

1)

|(

B P

AB P AB P B P B A

Trang 10

Nhận xét: Khi tính P(A|B) với điều kiện B đã xảy ra, nghĩa là ta đã hạn chế không gian mẫu Ω xuống còn B và hạn chế A xuống còn A∩B

1.3.3 Công thức xác suất toàn phần

Cho không gian xác suất (,C,P) Giả sử A1,A2,…,An là nhóm đầy đủ sự kiện và B là sự kiện bất kì trong C

P B

P

1

)

|()

()

1.4 Công thức Bayes

Định lý Bayes

Định lí Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên

A khi biết sự kiện liên quan B đã xảy ra Xác suất này được kí hiệu là

A B

P | và đọc là “xác suất của A nếu có B” Đại lượng này được gọi là xác suất có điều kiện hay xác suất hậu nghiệm vì nó được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó

Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:

- Xác suất xảy ra A của riêng nó, không quan tâm đến B, kí hiệu là

 A

P và đọc là xác suất của A, đây được gọi là xác suất tiền nghiệm, nó là tiền nghiệm theo nghĩa rằng nó không quan tâm đến bất kì thông tin nào về B

Trang 11

- Xác suất xảy ra B của riêng nó, không quan tâm đến A, kí hiệu là

 B

P và đọc là “xác suất của B” Đại lượng này còn được gọi là hằng số chuẩn hóa, vì nó luôn giống nhau, không phụ thuộc vào sự kiện A đang muốn biết

- Xác suất xảy ra B khi biết A xảy ra, kí hiệu là PB| A và đọc là “xác suất của B với điều kiện A” Nó là một xác suất hậu nghiệm và P B là một xác suất tiền nghiệm của B Đại lượng này được gọi là khả năng xảy ra B khi biết A đã xảy ra Chú ý không nhầm lẫn giữa khả năng xảy ra A khi biết B và xác suất xảy ra B khi biết A

Khi biết 3 đại lượng này xác suất cuả A khi biết B cho bởi công thức:

)(

)()

|()

|(

B P

A P A B P B A

i i

i

A B P A P

A B P A P B

A P

1

)

|()

(

)

|()

()

|(

Xác suất PA i |B được gọi là xác suất hậu nghiệm, còn P A i gọi là xác suất tiền nghiệm

Ví dụ suy luận Bayes đơn giản

Bánh quy từ hộp nào?

Để minh họa, giả sử có hai hộp đựng đầy bánh quy Hộp thứ nhất có 10 chiếc bánh quy sôcôla và 30 chiếc bánh quy bơ Hộp thứ hai đựng mỗi loại bánh 20 chiếc Bé Khoai chọn ngẫu nhiên một hộp, rồi nhặt đại một chiếc

Trang 12

bánh Ta có thể giả thiết rằng bé Khoai còn rất nhỏ nên không phân biệt hộp này hộp kia và bé thích tất cả các loại bánh kẹo nên bánh loại nào với bé cũng vậy Và chiếc bánh mà bé Khoai chọn là một chiếc bánh quy bơ Vậy khả năng Khoai nhặt chiếc bánh đó từ trong hộp thứ nhất là bao nhiêu?

Một cách trực quan, có vẻ rõ ràng là câu trả lời phải lớn hơn 1/2, do trong hộp 1 có nhiều bánh quy bơ hơn Câu trả lời chính xác được tính theo định lý Bayes Giả sử H1 tương ứng với hộp 1 và H2 tương ứng với hộp 2 Ta biết rằng đối với bé Khoai, hai hộp là như nhau, do đó, P(H1) = P(H2),

và tổng của chúng phải bằng 1, do đó cả hai đều bằng 0.5 Dữ liệu D là quan sát về chiếc bánh quy bơ Từ nội dung của hai hộp bánh, ta biết rằng

D | H1

P = 30/40 = 0.75 và PD | H2 = 20/40 = 0.5 Khi đó, công thức Bayes cho ra kết quả:

6.05.0

*5.075.0

*5.0

75.0

*5.0)

|()

()

|()

(

)

|()

()

|

(

2 2

1 1

1 1

H D P H P D

H

P

Trước khi quan sát thấy chiếc bánh mà bé Khoai nhặt, xác suất cho việc Khoai chọn hộp 1 là xác suất tiền nghiệm,P H1 , có giá trị 0.5 Sau khi đã nhìn thấy chiếc bánh, ta chỉnh lại xác suất đó thành PH1 |D, có giá trị 0.6 Nên lưu ý là việc ta tin rằng việc quan sát thấy chiếc bánh quy bơ nên có ảnh hưởng theo cách nào đó tới xác suất tiền nghiệm P H1 đã tạo nên xác suất hậu nghiệm PH| D, với giá trị tăng từ 0.5 lên 0.6 Điều này phản ánh trực giác của ta rằng chiếc bánh có khả năng được lấy từ hộp 1 hơn, do hộp này có tỉ lệ bánh quy bơ so với bánh quy sôcôla cao hơn hộp kia Quyết định được cho dưới dạng một xác suất, điều này khác với thống kê cổ điển

Trang 13

Chương II GIỚI THIỆU VỀ PHÂN LỚP NAIVE BAYES VÀ PHÂN TÍCH

TRONG KHAI PHÁ DỮ LIỆU 2.1 Kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu

Kĩ thuật phân lớp dữ liệu trong khai phá dữ liệu là một trong những vấn

đề nghiên cứu mở rộng hiện nay; tập trung chủ yếu vào thống kê, học máy và mạng nơron Kĩ thuật phân lớp được đánh giá là một kĩ thuật khai phá dữ liệu được sử dụng rộng rãi nhất với nhiều mở rộng Sự kết hợp của kỹ thuật phân lớp và cơ sở dữ liệu là một lĩnh vực hứa hẹn bởi vì đáp ứng được một vấn đề hết sức quan trọng của ứng dụng cơ sở dữ liệu đó là tính uyển chuyển cao

2.2 Giới thiệu phân lớp naive Bayes

Ví dụ: Một trái cây có thể được coi là một quả táo nếu có màu đỏ chung quanh và đường kính khoảng 10 cm Mặc dù các đặc trưng này phụ thuộc vào

sự tồn tại của các đặc trưng khác, phân lớp naive Bayes xem xét tất cả các đặc tính độc lập góp phần vào khái niệm trái cây này là quả táo

Tùy thuộc vào tính chính xác bản chất của mô hình xác suất, phân lớp naive Bayes có thể được tạo ra rất hiệu quả trong học máy Trong nhiều ứng dụng thực tế, tham số ước lượng cho các mô hình naive Bayes sử dụng các phương pháp maximum likelihood (ước lượng hợp lí cực đại), nói cách khác,

Trang 14

với phương pháp này một ứng dụng dựa trên mô hình naive Bayes thì sẽ không phải sử dụng xác suất Bayes cũng như phương pháp Bayes

Mặc dù với giả định đơn giản hơn nhưng dễ nhận thấy rằng phân lớp naive Bayes thường hoạt động khá tốt trong nhiều tình huống phức tạp Vào năm 2004 phân tích các vấn đề của phân lớp Bayes đã cho thấy rằng có một

số giả thuyết giải thích cho tính hiệu quả của phân lớp naive Bayes.[2]

So sánh toàn diện với các phương pháp phân lớp trong năm 2006 cho thấy phân lớp Bayes làm tốt hơn bởi nhiều tiếp cận như là boosted trees hoặc random forests.[3]

Một lợi thế của phân lớp naive Bayes là nó đòi hỏi một số lượng nhỏ dữ liệu huấn luyện để ước lượng các tham số (giá trị trung bình và phương sai của các tham số) cần thiết cho việc phân loại Bởi vì các biến được giả định là độc lập, chỉ những phương sai của các tham số cho mỗi lớp cần được xác định

rõ và không phải toàn bộ ma trận hiệp phương sai

2.2.2 Các mô hình xác suất naive Bayes

Mô hình xác suất cho một phân lớp là một mô hình có điều kiện phụ thuộc biến C với một số lượng nhỏ của các kết quả hay các lớp, phụ thuộc một vài biến đặc trưng F1 cho tới Fn

), ,

|(C F1 F n p

Vấn đề là nếu lượng đặc trưng n là lớn hay khi một đặc trưng có thể chiếm một số lượng lớn các giá trị, thì dựa vào một mô hình trên bảng xác suất thì không thể làm được Bởi vậy chúng ta nâng cấp các mô hình để dễ

xử lý

Bằng cách sử dụng định lý Bayes có được:

), ,(

)

|, ,()

(), ,

|(

1

1 1

n

n n

F F p

C F F p C p F

F C

Trong thực hành, chỉ cần quan tâm tới tử số của phân số, khi mà mẫu số

Trang 15

không phụ thuộc vào C và các giá trị của các đặc trưng của Fi đã cho nên mẫu

số là hằng Tử số tương đương với mô hình xác suất:

), ,

|

(C F1 F n

p

), ,()

p

),

|, ,()

|()

(C p F1 C p F2 F C F1

),,

|, ,(),

|()

|()

1 2

1 | ) ( | , ) ( | , , ) , , | , , , (

F C

p F

C F

C

p

1 3

2 1

F C p

Trang 16

trong các thuật ngữ của r tham số, sau đó các mô hình naive Bayes tương ứng

có (k-1) + nrk tham số Trong thực tế, thường k=2 (phân loại nhị phân) và r =

1 (phân phối Bernoulli) là phổ biến và như vậy tổng số lượng các tham số của

mô hình naive Bayes là 2n+1, ở đây n là số các đặc trưng nhị phân sử dụng cho các dự đoán

2.2.3 Ước lượng tham số

Tất cả các mô hình tham số (lớp tiền nghiệm và hàm phân phối xác suất đặc trưng) có thể được xấp xỉ với những tần số tương đối trong tập huấn luyện Maximum likelihood là ước lượng của xác suất Một lớp tiền nghiệm

có thể được tính bằng cách giả sử các lớp có xác suất ngang nhau Prior = 1/số lớp hoặc tính bằng cách ước lượng cho lớp xác suất từ tập huấn luyện (tiền nghiệm cho một lớp đã đưa ra = số mẫu trong lớp/tổng số mẫu) Để ước lượng các tham số cho hàm phân phối đặc trưng hoặc mô hình sinh ra không phải tham số cho những đặc trưng từ tập huấn luyện.[4]

Nếu tham số đang giải quyết những dữ liệu liên tục, một giả thuyết đặc trưng đó là tiếp tục kết hợp những giá trị với mỗi lớp được phân phối theo phân phối Gaussian

Ví dụ: Giả sử tập huấn luyện chứa liên tiếp một thuộc tính x Đầu tiên chúng ta phân đoạn dữ liệu bởi các lớp sau đó tính toán số trung bình và phương sai của x trong mỗi lớp Để c là giá trị trung bình của x kết hợp với lớp c và để 2

c

 là phương sai của giá trị x kết hợp với lớp c thì xác suất của một vài giá trị đã cho trong một lớp, Pxv|c có thể tính bằng cách đặt v vào phương trình cho bởi hàm phân phối được tham số hóa bởi c và c2

Đó là:

2

2 2

v x

Trang 17

Phương pháp chung khác để xử lí tiếp các giá trị là sử dụng các giá trị

rời rạc Nói chung, phương pháp phân phối là lựa chọn tốt hơn nếu sử dụng

một lượng nhỏ dữ liệu huấn luyện vì nó sẽ học để phù hợp với sự phân phối

của dữ liệu Trước đây naive Bayes được sử dụng khi một số lượng lớn dữ

liệu có thể sử dụng (giống như nhiều mô hình tính toán phức tạp có thể thực

hiện chính xác hơn), phương pháp rời rạc thường được ưu tiên hơn phương

pháp phân phối

2.2.4 Chỉnh sửa mẫu

Nếu một lớp và giá trị đặc trưng không bao giờ xảy ra cùng với nhau

trong tập huấn luyện thì ước tính xác suất dựa vào tần số sẽ được 0 Điều này

khó giải quyết vì nó sẽ xóa tất cả các thông tin trong các xác suất khi chúng

được nhân rộng Vì vậy, mong muốn kết hợp một mẫu nhỏ chỉnh sửa trong tất

cả xác suất, ước tính rằng xác suất như vậy không bao giờ được thiết lập

chính xác 0

2.2.5 Xác định một phân lớp từ mô hình xác suất

Các thảo luận cho đến nay đã bắt nguồn từ những mô hình đặc trưng

độc lập, đó là, mô hình xác suất naive Bayes Phân lớp naive Bayes kết hợp

mô hình này với một luật quyết định Đó là một luật chung để chọn ra các

giả thuyết có khả năng xảy ra nhất, điều này được biết đến như là maximum

a posteriori hay luật quyết định MAP Phân lớp tương ứng được xác định

f f Classify

1

(

Sự thật có thể áp dụng rộng rãi các giả định độc lập nhưng chúng thường

không chính xác, phân lớp naive Bayes có vài thuộc tính làm cho nó hữu ích

trong thực hành Đặc biệt, sự tách riêng của lớp có điều kiện phân phối đặc

trưng có nghĩa là mỗi phân phối có thể được ước tính độc lập như là một phân

Trang 18

phối một chiều Điều này giúp giảm bớt những vấn đề bắt nguồn từ những trở ngại của kích thước như yêu cầu của bộ dữ liệu đó là quy mô theo cấp số nhân Toàn bộ phân lớp là mạnh đủ để bỏ qua các thiếu sót nghiêm trọng của

nó trong những mô hình xác suất naive

2.2.6 Phương pháp phân lớp Bayes

Lý thuyết Bayes cung cấp một tiếp cận theo xác suất để suy diễn Nó dựa trên giả thuyết rằng số lượng của khuynh hướng bị chi phối bởi phân bố xác suất và quyết định tối ưu có thể được tạo bởi sự suy luận về những xác suất đi liền với dữ liệu được quan sát Đây là vấn đề quan trọng của học máy bởi vì nó cung cấp một tiếp cận định lượng cho việc xem xét cẩn thận bằng chứng hỗ trợ những giả thuyết thay đổi

Học theo xác suất: Tính các xác suất rõ ràng cho các giả thuyết, một trong những hướng thiết thực cho một số vấn đề thuộc loại học

Tính tăng dần: Mỗi ví dụ huấn luyện có thể tăng hoặc giảm dần khả năng đúng của một giả thuyết Kiến thức trước có thể kết hợp với dữ liệu được quan sát

Tiên đoán xác suất: Tiên đoán nhiều không gian giả thuyết, được đo bởi xác suất của nó

Tiêu chuẩn: Thậm chí khi phương thức Bayes khó tính toán, chúng cũng cung cấp một tiêu chuẩn tốt nhất cho việc tạo quyết định tối ưu so với những phương pháp khác

2.2.7 Giới thiệu thuật toán naive Bayes

Naive Bayes (NB) là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực học máy [Mitchell, 1996] [Joachims, 1997] [Jason, 2001], được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961 [Maron, 1961] sau đó trở nên phổ biến dùng trong nhiều lĩnh vực như trong các công cụ tìm kiếm [Rijsbergen et al, 1970], các bộ lọc email

Trang 19

[Sahami et al, 1998]…

2.2.8 Phân lớp naive Bayes

Bộ phân lớp naive Bayes hay bộ phân lớp Bayes đơn giản (simple Bayes classifier) hoạt động như sau:

1 Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần tử dữ liệu X được biểu diễn bằng một vectơ chứa n giá trị thuộc tính A1,A2,…,An,

x x xn

2 Giả sử có m lớp C1,C2,…,Cm; Cho một phần tử dữ liệu X, bộ phân lớp

sẽ gán nhãn cho X là lớp có xác suất hậu nghiệm lớn nhất Cụ thể, bộ phân lớp Bayes sẽ dự đoán X thuộc vào lớp Ci nếu và chỉ nếu:

C XPC X

P i |  j | 1im,ij (1) Giá trị này sẽ được tính dựa vào định lí Bayes:

)(

)()

|()

|(

X P

C P C X P X C

P ii i (2)

3 Để tìm giá trị xác suất lớn nhất, ta nhận thấy trong công thức (1) thì giá trị P ( X) là giống nhau với mọi lớp nên ta không cần tính Do đó ta chỉ cần tìm giá trị lớn nhất của P(X |C i)*P C i

Chú ý rằng P(C i) được ước lượng bằng công thức

D

D C

Ngày đăng: 17/12/2015, 06:07

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w