Theo thuật ngữ đơn giản, một phân lớp naive Bayes giả định rằng sự có mặthay không có mặt của một đặc trưng của một lớp là không liên quan đến sự hiệndiện hay thiếu vắng của bất kì các đ
Trang 1TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2
Người hướng dẫn khoa học
TRẦN TUẤN VINH
HÀ NỘI – 2014
Trang 2LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắctới thày Trần Tuấn Vinh đã tận tình hướng dẫn tôi ừong suốt quá trìnhthực hiện khóa luận này
Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảngdạy tôi trong suốt 4 năm học qua, đã cho tôi những kiến thức quý báu
để tôi có thể vững bước trên con đường đi của mình
Trong quá trình góp nhặt kiến thức các thày cô bạn bè là nhữngngười đã cùng tôi sát cánh trong suốt thời gian tôi học tập và nghiêncứu dưới mái trường Đại học Sư phạm Hà Nội 2
Trong những nỗ lực đó, không thể không kể đến công lao to lớnkhông gì có thể đền đáp được của cha mẹ những người đã sinh thành,dưỡng dục tôi nên người, luôn nhắc nhở động viên tôi hoàn thành tốtnhiệm vụ
Hà Nội, tháng 5 năm 2014 Sinh viên
Trần Thị Hà
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “ P H Â N L Ớ P N A I V E B A Y E S V À
Ứ N G D Ụ N G ” là kết quả mà tôi đã trực tiếp nghiên cứu, tìm hiểu
được Trong quá trình nghiên cứu, tôi có sử dụng tài liệu của một số tácgiả khác Tuy nhiên, đó chỉ là cơ sở để tôi rút ra được vấn đề càn tìmhiểu ở đề tài của mình Đây là kết quả của riêng cá nhân tôi, hoàn toànkhông trùng khớp với kết quả của tác giả nào khác
Nếu sai tôi xin chịu hoàn toàn trách nhiệm
Hà Nội, tháng 5 năm 2014 Sinh viên
Trần Thi Hà
Trang 4MỤC LỤC ■ •
Trang 5Xac suât thông kê là bô mon rât quan trong và cô nhièu urng dung trongthuc tê, giüp con nguài rut ra thông tin tir dû lieu quan sât, nhäm giâi quyêt câcbài toân trong cuôc sông
Trong khôa luân này trinh bày mot tiêp cân thông kê trong viêc du doânsu: kiên dua vào li thuyêt Bayes Lÿ thuyêt nôi vê viêc tinh xac suât cua sukiên dua vào câc kêt quâ thông kê câc su kiên trong quä khu Sau viêc tinhtoân môi su kiên duoc gân xac suât (tùy thuôc vào môi phuong phâp dânh giâ)ùng voi khà nang cô thê xây ra vai su kiên dô Và cuôi cùng dua vào nguong
dé phân loai cho câc su kiên
Sau phân li thuyêt chung chung ta së tim hiêu vê câc bài toân trong thuc té duoc ùng dung tù lÿ thuyêt Bayes: Thuât toân phân loai van ban và loc thu râc trong câc thudiên tu Naive Bayes cüng duçrc sü dung trong Matlab-môt ngôn ngu lâp trinh thuc hành bâc cao duoc sü dung dé giâiquyêt câc bài toân vê kï thuât
Trang 6Chương I LÝ THUYẾT CHUNG [1]
1.1 Biến cố ngẫu nhiên
Người ta chia các hiện tượng xảy ra trong cuộc sống hàng ngày làm hai loại:Tất nhiên và ngẫu nhiên
- Những hiện tượng mà khi thực hiện ừong một điều kiện sẽ cho ra kết quảnhư nhau được gọi là H I Ệ N T Ư Ợ N G T Ấ T N H I Ê N
- Những hiện tượng mà cho dù khi được thực hiện ở ừong cùng một điều kiệnvẫn có thể cho ra các kết quả khác nhau được gọi là những H I Ệ N T Ư Ợ N G
- Khi thực hiện một phép thử, ta không thể dự đoán được kết quả xảy ra Tuynhiên ta có thể liệt kê được tất cả các kết quả có thể xảy ra
- Tập họp tất cả các kết quả có thể xảy ra của một phép thử được gọi là khônggian mẫu của phép thử kí hiệu Q Biến cố không thể xảy ra được gọi
Trang 71.1.3 Quan hêgiüa câc bien cô
- Quan hê kéo theo: Bien cô A dugc goi là kéo theo bien cô B khi và chî khi A
xày ra thi B xây ra Ki hiêu: A Œ B
- Quan hê tuong duong: Hai bien cô A và B dugc goi là tuong duong voi nhau
khi và chî khi A C Z B và ßcA.Ki hiêu: A = B
- Tông cüa hai bién cô: Bién cô C dugc goi là tông cüa hai bién cô A và B, ki
hiêu: C = Aufi hay C = A + B , C xây ra khi và chi khi it nhât mot trong
hai bien cô A và B xây ra
- Hiêu cüa hai bien cô A và B, ki hiêu C = A IB , C xây ra khi và chi khi A
xây ra nhung B không xày ra
- Tich cüa hai bién cô A và B, ki hiêu C = A B , C xây ra khi và chi khi câ
A lân B dêu xây ra
- Bién cô dôi lâp: A = QIA
- Hai bién cô xung khâc A và B duoc goi là xung khâc voi nhau néu
A B = ( F >
1.2 Xac suât cua biên cô
Xét mot phép thü voi không gian mâu Q={ A > L , C O 2 , , C O N } và biêncô
A cz Q cô k phân tü Nêu n biên cô sa câp cô cùng khâ näng xây ra thi xac suât cüa
biên cô A dugc dinh nghîa là
k: Sô phân tü cüa A n: Sô phân tü cüa Q
1 Nêu A là biên cô tùy y thi 0 < P(A) < 1
Trang 88
Trang 92 P(^) = 0
3 P { Q) = l
4 Nêu A Œ B thï P(A)< P ( B )
1.3 Công thirc tinh xac suât
Xét phép mot thü, ta cô càc công thüc công xac suât sau:
- Nêu A và B là hai bién cô tùy ÿ: P ( Aufi) = P ( A ) + P ( B ) - P ( A B )
- Nêu A và B là hai bien cô xung khac thi P ( A ^ J B ) = P ( A ) +
P(A l vA 2 u uA n ) = P(A l ) + P(A 2 ) + + P(A n ) Chu ÿ: P(A) = 1-P(À),P(A) = P(AB) + P(ÀB)
1.3. 2 1 D I N H N G H I A : Cho bien cô B vôi P { B ) > 0.
Xac suât cüa A khi biêt B xây ra là:
Trang 10Cho không gian xàc suât (Q , C,P), A, B e C A và B dugc goi là dôc lâp vai
Cho không gian xàc suât (Q ,C,P) Giâ su AI,A2, ,An là nhôm dây du su kiên
và B là su kiên bât ki trong C
Khidô: P(B) = '^P(Al).P(BlAi)
Theo dinh li Bayes, xâc suât xây ra A khi biêt B së phu thuôc vào 3
r r
/V J /\
yeu to:
Xâc suât xây ra A cüa riêng nô, không quan tâm dén B, ki
suât tien nghiêm, nô là tien nghiêm theo nghïa rang nô khôngquan tâm dên bât ki thông tin nào vê B
1 0
Trang 11- Xâc suât xây ra B cüa riêng nô, không quan tâm dén A, ki hiêu là P { B ) và
doc là “xâc suât cüa B” Dai luçmg này côn duoc goi là hang sô chuân hôa,
vi nô luôn giông nhau, không phu thuôc vào su kiên A dang muôn biêt
- Xâc suât xày ra B khi biêt A xày ra, ki hiêu là P ( B I À ) và doc là “xâc
suât cüa B vôi dieu kiên A” Nô là mot xâc suât hâu nghiêm và P { B ) là
mot xâc suât tien nghiêm cüa B Dai luçmg này duoc goi là khâ nang xày ra
B khi biêt A da xày ra Chu y không nhâm lân giüa khâ nang xày ra A khibiêt B và xâc suât xày ra B khi biêt A
Khi biêt 3 dai luçmg này xâc suât cuà A khi biêt B cho bôi công thüc:
PÇBIAmA)
P(B)
Tù do ta co: P ( A I B ) P ( B ) = P ( A nfi) = P ( B I A ) P { A )
Tông quàt: Cho không gian xâc suât (Q,C,P), giâ su Ai,A2, ,A„ là nhôm dây
dü su kiên và B là su kiên bât ki trong C, biêt xâc suât P { A I ) và
P ( B I Al,), i=l, ,n Giâ thiêt phép thü duoc thuc hiên và su kiên B xày ra
mm- P<4W*I4)
Khi dô:
-Y J P(A i )AB\A k )
k=1
Xâc suât P ( A T IB ) duoc goi là xâc suât hâu nghiêm, côn P ( A I ) goi là
xâc suât tien nghiêm
Vi du suy luân Bayes âom giân
Bânh quy tù hôp nào?
Dê minh hoa, giâ su cô hai hôp dung dây bânh quy Hôp thü nhât cô 10 chiêcbânh quy sôcôla và 30 chiêc bânh quy bo Hôp thü hai dung môi loai bânh 20chiêc Bé Khoai chon ngâu nhiên mot hôp, rôi nhat dai mot chiêc bânh Ta cô thégiâ thiét rang bé Khoai côn rât nhô nên không phân biêt hôp này hôp kia và béthich tât câ câc loai bânh keo nên bânh loai nào vai bé cüng vây Và chiéc bânh mà
Trang 12bé Khoai chon là mot chiéc bânh quy ba Vây khâ nâng Khoai nhat chiêc bânh dơtir trong hơp thù nhât là bao nhiêu?
Mot câch truc quan, cơ vé rơ rang là câu trâ loi phâi Ion hon 1/2, do trong hơp
1 cơ nhiêu bânh quy ba han Câu trâ loi chinh xâc duac tinh theo dinh lÿ Bayes Giâ
sü H \ tuang ùng vai hơp 1 và H 2 tuang üng vai hơp 2 Ta biêt rang dơi vai bé
Khoai, hai hơp là nhu nhau, do dơ, P { H X ) = P ( H 2 ) , và tơng cüa chüng phâi
bang 1, do dơ câ hai dèu bang 0.5 Dû lieu D là quan sât vê chiêc bânh quy ba Tù nơi dung cüa hai hơp bânh, ta biêt rang P I D L H , ) = 30/40 = 0.75 và P ( D \ H 2 )
= 20/40 = 0.5 Khi dơ, cơng thüc Bayes cho ra kêt quâ:
«S 10) = J-TO-ftP1 «.) _= 0-5*0.75
PŒ l ).P(D \ H l ) + P i H 1 ).P(D IH,J 0.5*0.75 + 0.5*0.5
Trtrac khi quan sât thây chiêc bânh mà bé Khoai nhat, xâc suât cho viêc Khoaichon hơp 1 là xâc suât tièn nghiêm,P ( H } ) , CƠ giâ tri 0.5 Sau khi da nhin thây
chiêc bânh, ta chinh lai xâc suât dơ thành P { H 1 1 D ) , CƠgiâ tri 0.6
Nên luu y là viêc ta tin rang viêc quan sât thây chiêc bânh quy ba nên cơ ânhhuang theo câch nào dơ tai xâc suât tien nghiêm P ( H I ) da tao nên xâc suât hâunghiêm P ( H I d), vai giâ tri tang tù 0.5 lên 0.6 Dieu này phân ânh truc giâc cüa tarang chiêc bânh cơ khâ nang duac lây tù hơp 1 han, do hơp này cơ ti le bânh quy ba
so vai bânh quy sơcơla cao han hơp kia Quyêt dinh duac cho duai dang mot xâcsuât, dieu này khâc vai thơng kê cơ diên
Chương II GIỚI THIỆU VỀ PHÂN LỚP NẠVE BAYES VÀ PHÂN TÍCH ■
TRONG KHAI PHÁ DỮ LIỆU 2.1 Kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu
1 2
Trang 13Kĩ thuật phân lớp dữ liệu trong khai phá dữ liệu là một trong những vấn đềnghiên cứu mở rộng hiện nay; tập trung chủ yếu vào thống kê, học máy và mạngnơron Kĩ thuật phân lớp được đánh giá là một kĩ thuật khai phá dữ liệu được sửdụng rộng rãi nhất với nhiều mở rộng Sự kết hợp của kỹ thuật phân lớp và cơ sở
dữ liệu là một lĩnh vực hứa hẹn bởi vì đáp ứng được một vấn đề hết sức quan trọngcủa ứng dụng cơ sở dữ liệu đó là tính uyển chuyển cao
2.2 Giới thiệu phân lớp naive Bayes
2.2.1. Định nghĩa
Phân lớp naive Bayes là một phương pháp phân lớp đơn giản dựa trên các ứngdụng định lí Bayes với giả định độc lập bền vững Một thuật ngữ mô tả chi tiết chonhững mô hình xác suất sẽ là “mô hình đặc trưng không phụ thuộc”
Theo thuật ngữ đơn giản, một phân lớp naive Bayes giả định rằng sự có mặt(hay không có mặt) của một đặc trưng của một lớp là không liên quan đến sự hiệndiện (hay thiếu vắng) của bất kì các đặc trưng
Ví dụ: Một trái cây có thể được coi là một quả táo nếu có màu đỏ chungquanh và đường kính khoảng 10 cm Mặc dù các đặc trưng này phụ thuộc vào sựtồn tại của các đặc trưng khác, phân lớp naive Bayes xem xét tất cả các đặc tínhđộc lập góp phần vào khái niệm trái cây này là quả táo
phân lớp naive Bayes có thể được tạo ra rất hiệu quả trong học máy Trong nhiều ứng dụng thực tế, tham số ước lượng chocác mô hình naive Bayes sử dụng các phương pháp maximum likelihood (ước lượng hợp lí cực đại), nói cách khác,
với phương pháp này một ứng dụng dựa ừên mô hình naive Bayes thì sẽkhông phải sử dụng xác suất Bayes cũng như phương pháp Bayes
Mặc dù với giả định đơn giản hơn nhưng dễ nhận thấy rằng phân lớp naiveBayes thường hoạt động khá tốt trong nhiều tình huống phức tạp Vào năm 2004phân tích các vấn đề của phân lớp Bayes đã cho thấy rằng có một số giả thuyết giảithích cho tính hiệu quả của phân lớp naive Bayes.[2] So sánh toàn diện với các
Trang 14phương pháp phân lớp ừong năm 2006 cho thấy phân lớp Bayes làm tốt hơn bởinhiều tiếp cận như là boosted trees hoặc random forests.[3]
Một lợi thế của phân lớp naive Bayes là nó đòi hỏi một số lượng nhỏ dữ liệuhuấn luyện để ước lượng các tham số (giá ừị trung bình và phương sai của cáctham số) cần thiết cho việc phân loại Bởi vì các biến được giả định là độc lập, chỉnhững phương sai của các tham số cho mỗi lớp càn được xác định rõ và không phảitoàn bộ ma trận hiệp phương sai
2.2.2. Các mô hình xác suất naive Bayes
Mô hình xác suất cho một phân lớp là một mô hình có điều kiện phụ thuộcbiến c với một số lượng nhỏ của các kết quả hay các lớp, phụ thuộc một vài biếnđặc trưng F ! cho tới Fn
p { C \ F l , , F n )
Vấn đề là nếu lượng đặc trưng n là lớn hay khi một đặc trưng có thể chiếmmột số lượng lớn các giá trị, thì dựa vào một mô hình trên bảng xác suất thì khôngthể làm được Bởi vậy chúng ta nâng cấp các mô hình để dễ xử lý
Trang 15= piQ.piF, I C).p(F 2 I C,F 1 ).p(F 3 I C,F 1 ,F 2 )p{F 4 , ,F n I C,F„F 2 ,F, )
= p(c\p(F x I C}P(F 2 1 C,F 1 }p{F 3 1 C,F lt F 2 y.p(F M I C t F lt F 2t F 3t t F^)
Bây gio giâ dinh “naive” cô dieu kiên dôc lâp: Giâ dinh rang môi dac trung Fj
cô dièu kiên dôc lâp vai tât câ câc dac trung Fj vai j # i Dièu này cô nghïa là:
Trang 16ừong các thuật ngữ của r tham số, sau đó các mô hình naive Bayes tương ứng
có (k-1) + nrk tham số Trong thực tế, thường k=2 (phân loại nhị phân) và r = 1(phân phối Bernoulli) là phổ biến và như vậy tổng số lượng các tham số của môhình naive Bayes là 2n+l, ở đây n là số các đặc trưng nhị phân sử dụng cho các dựđoán
2.2.3. ước lượng tham số
Tất cả các mô hình tham số (lớp tiền nghiệm và hàm phân phối xác suất đặctrưng) có thể được xấp xỉ với những tàn số tương đối trong tập huấn luyện.Maximum likelihood là ước lượng của xác suất Một lớp tiền nghiệm có thể đượctính bằng cách giả sử các lớp có xác suất ngang nhau Prior = 1/số lớp hoặc tínhbằng cách ước lượng cho lớp xác suất từ tập huấn luyện (tiền nghiệm cho một lớp
đã đưa ra = số mẫu trong lớp/tổng số mẫu) Để ước lượng các tham số cho hàmphân phối đặc trưng hoặc mô hình sinh ra không phải tham số cho những đặc trưng
từ tập huấn luyện.[4] Nếu tham số đang giải quyết những dữ liệu liên tục, một giảthuyết đặc trưng đó là tiếp tục kết họp những giá ừị với mỗi lớp được phân phốitheo phân phối Gaussian
Ví dụ: Giả sử tập huấn luyện chứa liên tiếp một thuộc tính X Đầu tiên chúng taphân đoạn dữ liệu bởi các lớp sau đó tính toán số trung bình và phương sai của X
trong mỗi lớp Đe J U C là giá trị trung bình của X kết họp với
Trang 17Phương pháp chung khác để xử lí tiếp các giá trị là sử dụng các giá trị rời rạc.Nói chung, phương pháp phân phối là lựa chọn tốt hơn nếu sử dụng một lượng nhỏ
dữ liệu huấn luyện vì nó sẽ học để phù hợp với sự phân phối của dữ liệu Trước đâynaive Bayes được sử dụng khi một số lượng lớn dữ liệu có thể sử dụng (giống nhưnhiều mô hình tính toán phức tạp có thể thực hiện chính xác hơn), phương pháp rờirạc thường được ưu tiên hơn phương pháp phân phối
2.2.5. Xác định một phân lớp từ mô hình xác suất
Các thảo luận cho đến nay đã bắt nguồn tò những mô hình đặc trưng độc lập,
đó là, mô hình xác suất naive Bayes Phân lớp naive Bayes kết hợp mô hình nàyvới một luật quyết định Đó là một luật chung để chọn ra các giả thuyết có khảnăng xảy ra nhất, điều này được biết đến như là M A X I M U M A P O S T E R I O R I
hay luật quyết định MAP Phân lớp tương ứng được xác định như sau:
I=1
Sự thật có thể áp dụng rộng rãi các giả định độc lập nhưng chúng thườngkhông chính xác, phân lớp naive Bayes có vài thuộc tính làm cho nó hữu ích trongthực hành Đặc biệt, sự tách riêng của lớp có điều kiện phân phối đặc trưng cónghĩa là mỗi phân phối có thể được ước tính độc lập như là một phân phối mộtchiều Điều này giúp giảm bớt những vấn đề bắt nguồn từ những ừở ngại của kíchthước như yêu cầu của bộ dữ liệu đó là quy mô theo cấp số nhân Toàn bộ phân lớp
Trang 18là mạnh đủ để bỏ qua các thiếu sót nghiêm trọng của nó ừong những mô hình xácsuất naive.
2.2.6. Phương pháp phân lớp Bay es
Lý thuyết Bayes cung cấp một tiếp cận theo xác suất để suy diễn Nó dựa trêngiả thuyết rằng số lượng của khuynh hướng bị chi phối bởi phân bố xác suất vàquyết định tối ưu có thể được tạo bởi sự suy luận về những xác suất đi liền với dữliệu được quan sát Đây là vấn đề quan ừọng của học máy bởi vì nó cung cấp mộttiếp cận định lượng cho việc xem xét cẩn thận bằng chứng hỗ trợ những giả thuyếtthay đổi
Học theo xác suất: Tính các xác suất rõ ràng cho các giả thuyết, một ừongnhững hướng thiết thực cho một số vấn đề thuộc loại học
Tính tăng dàn: Mỗi ví dụ huấn luyện có thể tăng hoặc giảm dần khả năngđúng của một giả thuyết Kiến thức trước có thể kết họp với dữ liệu được quan sát.Tiên đoán xác suất: Tiên đoán nhiều không gian giả thuyết, được đo bởi xácsuất của nó
Tiêu chuẩn: Thậm chí khi phương thức Bayes khó tính toán, chúng cũng cungcấp một tiêu chuẩn tốt nhất cho việc tạo quyết định tối ưu so với những phươngpháp khác
2.2.7. Giới thiệu thuật toán naive Bayes
Naive Bayes (NB) là phương pháp phân loại dựa vào xác suất được sử dụngrộng rãi ừong lĩnh vực học máy [Mitchell, 1996] [Joachims, 1997] [Jason, 2001],được sử dụng làn đàu tiên ừong lĩnh vực phân loại bởi Maron vào năm 1961[Maron, 1961] sau đó ừở nên phổ biến dùng trong nhiều lĩnh vực như trong cáccông cụ tìm kiếm [Rijsbergen et al, 1970], các bộ lọc email [Sahamietal, 1998]
2.2.8 Phân lớp naỉve Bayes
Bộ phân lớp naive Bayes hay bộ phân lớp Bayes đơn giản (simple Bayesclassifier) hoạt động như sau:
1 8