Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
818,85 KB
Nội dung
Phân lớp naive Bayes ứng dụng TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI KHOA TOÁN ************* TRẦN THỊ HÀ PHÂN LỚP NAIVE BAYES VÀ ỨNG DỤNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành Ứng dụng Ngƣời hƣớng dẫn khoa học TRẦN TUẤN VINH HÀ NỘI – 2014 LỜI CẢM ƠN Phân lớp naive Bayes ứng dụng Trước tiên, xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới thầy Trần Tuấn Vinh tận tình hướng dẫn suốt trình thực khóa luận Tôi xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo giảng dạy suốt năm học qua, cho kiến thức quý báu để vững bước đường Trong trình góp nhặt kiến thức thầy cô bạn bè người sát cánh suốt thời gian học tập nghiên cứu mái trường Đại học Sư phạm Hà Nội Trong nỗ lực đó, không kể đến công lao to lớn không đền đáp cha mẹ người sinh thành, dưỡng dục nên người, nhắc nhở động viên hoàn thành tốt nhiệm vụ Hà Nội, tháng năm 2014 Sinh viên Trần Thị Hà Phân lớp naive Bayes ứng dụng LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Phân lớp naive Bayes ứng dụng” kết mà trực tiếp nghiên cứu, tìm hiểu Trong trình nghiên cứu, có sử dụng tài liệu số tác giả khác Tuy nhiên, sở để rút vấn đề cần tìm hiểu đề tài Đây kết riêng cá nhân tôi, hoàn toàn không trùng khớp với kết tác giả khác Nếu sai xin chịu hoàn toàn trách nhiệm Hà Nội, tháng năm 2014 Sinh viên Trần Thị Hà Phân lớp naive Bayes ứng dụng MỤC LỤC MỞ ĐẦU Chương I LÝ THUYẾT CHUNG [1] 1.1 Biến cố ngẫu nhiên 1.1.1 Hiện tượng ngẫu nhiên 1.1.2 Phép thử biến cố 1.1.3 Quan hệ biến cố 1.2 Xác suất biến cố 1.2.1 Định nghĩa xác suất dạng cổ điển 1.2.2 Tính chất xác suất 1.3 Công thức tính xác suất 1.3.1 Công thức cộng xác suất 1.3.2 Xác suất có điều kiện 1.4 Công thức Bayes Chương II GIỚI THIỆU VỀ PHÂN LỚP NAIVE BAYES VÀ PHÂN TÍCH TRONG KHAI PHÁ DỮ LIỆU 2.1 Kỹ thuật phân lớp liệu khai phá liệu 2.2 Giới thiệu phân lớp naive Bayes 2.2.1 Định nghĩa 2.2.2 Các mô hình xác suất naive Bayes 2.2.3 Ước lượng tham số 11 2.2.4 Chỉnh sửa mẫu 12 2.2.5 Xác định phân lớp từ mô hình xác suất 12 2.2.6 Phương pháp phân lớp Bayes 13 2.2.7 Giới thiệu thuật toán naive Bayes 13 2.2.8 Phân lớp naive Bayes 14 Chương III ỨNG DỤNG CỦA BAYES 21 Phân lớp naive Bayes ứng dụng 3.1 Thuật toán phân loại văn naive Bayes 21 3.2 Lọc thư rác 22 3.2.1 Định nghĩa thư rác 22 3.2.2 Tác hại thư rác 22 Chương IV MỘT SỐ VÍ DỤ MINH HỌA CHO NAIVE BAYES TRONG MATLAB [5] 25 KẾT LUẬN 31 DANH MỤC TÀI LIỆU THAM KHẢO 33 Phân lớp naive Bayes ứng dụng MỞ ĐẦU Xác suất thống kê môn quan trọng có nhiều ứng dụng thực tế, giúp người rút thông tin từ liệu quan sát, nhằm giải toán sống Trong khóa luận trình bày tiếp cận thống kê việc dự đoán kiện dựa vào lí thuyết Bayes Lý thuyết nói việc tính xác suất kiện dựa vào kết thống kê kiện khứ Sau việc tính toán kiện gán xác suất (tùy thuộc vào phương pháp đánh giá) ứng với khả xảy với kiện Và cuối dựa vào ngưỡng để phân loại cho kiện Sau phần lí thuyết chung tìm hiểu toán thực tế ứng dụng từ lý thuyết Bayes: Thuật toán phân loại văn lọc thư rác thư điện tử Naive Bayes sử dụng Matlab-một ngôn ngữ lập trình thực hành bậc cao sử dụng để giải toán kĩ thuật Phân lớp naive Bayes ứng dụng Chƣơng I LÝ THUYẾT CHUNG [1] 1.1 Biến cố ngẫu nhiên 1.1.1 Hiện tượng ngẫu nhiên Người ta chia tượng xảy sống hàng ngày làm hai loại: Tất nhiên ngẫu nhiên - Những tượng mà thực điều kiện cho kết gọi tượng tất nhiên - Những tượng mà cho dù thực điều kiện cho kết khác gọi tượng ngẫu nhiên - Hiện tượng ngẫu nhiên đối tượng khảo sát lí thuyết xác suất 1.1.2 Phép thử biến cố - Để quan sát tượng ngẫu nhiên, người ta cho tượng xuất nhiều lần Việc thực quan sát tượng ngẫu nhiên đó, để xem tượng có xảy hay không gọi phép thử - Khi thực phép thử, ta dự đoán kết xảy Tuy nhiên ta liệt kê tất kết xảy - Tập hợp tất kết xảy phép thử gọi không gian mẫu phép thử kí hiệu Biến cố xảy gọi biến cố rỗng kí hiệu - Biến cố ngẫu nhiên biến cố xảy không xảy thực phép thử - Biến cố sơ cấp biến cố phân tích Phân lớp naive Bayes ứng dụng 1.1.3 Quan hệ biến cố - Quan hệ kéo theo: Biến cố A gọi kéo theo biến cố B A xảy B xảy Kí hiệu: A B - Quan hệ tương đương: Hai biến cố A B gọi tương đương với A B B A Kí hiệu: A B - Tổng hai biến cố: Biến cố C gọi tổng hai biến cố A B, kí hiệu: C A B hay C A B , C xảy hai biến cố A B xảy - Hiệu hai biến cố A B, kí hiệu C A | B , C xảy A xảy B không xảy - Tích hai biến cố A B, kí hiệu C A.B , C xảy A lẫn B xảy - Biến cố đối lập: A | A - Hai biến cố xung khắc A B gọi xung khắc với AB 1.2 Xác suất biến cố 1.2.1 Định nghĩa xác suất dạng cổ điển Xét phép thử với không gian mẫu ={ 1 , , , n } biến cố A có k phần tử Nếu n biến cố sơ cấp có khả xảy xác suất biến cố A định nghĩa P A = k n k: Số phần tử A n: Số phần tử 1.2.2 Tính chất xác suất Nếu A biến cố tùy ý P( A) Phân lớp naive Bayes ứng dụng P( ) P() Nếu A B P A PB 1.3 Công thức tính xác suất 1.3.1 Công thức cộng xác suất Xét phép thử, ta có công thức cộng xác suất sau: - Nếu A B hai biến cố tùy ý: P A B P A PB P AB - Nếu A B hai biến cố xung khắc P( A B) P A PB Nếu họ {Ai} (i=1,2,…,n) xung khắc đôi P( A1 A2 An ) P( A1 ) P( A2 ) P( An ) Chú ý: P( A) P( A), P( A) P( AB) P( AB) 1.3.2 Xác suất có điều kiện 1.3.2.1 Định nghĩa: Cho biến cố B với PB Xác suất A biết B xảy là: P( A | B) P( AB ) P( B) Khi biết B xảy ra, xác suất A | B tỉ lệ với A.B , vậy: P A | B P AB P B Với k hệ số tỉ lệ để tính k, ta chọn A B Vậy: P( B | B) k.P( BB) k.P( B) Do đó: k Vậy: P( A | B) P( B) P( AB ) P( AB ) P( B) P( B) Phân lớp naive Bayes ứng dụng Nhận xét: Khi tính P(A|B) với điều kiện B xảy ra, nghĩa ta hạn chế không gian mẫu Ω xuống B hạn chế A xuống A∩B Tính chất 1) P( A | B) 1, A 2) Nếu A C P( A | B) P(C | B) 3) P( A | B) P( A | B) 1.3.2.2 Sự kiện độc lập Cho không gian xác suất (Ω ,C,P), A, B C A B gọi độc lập với P( AB) P( A) P( B) 1.3.3 Công thức xác suất toàn phần Cho không gian xác suất ( ,C,P) Giả sử A1,A2,…,An nhóm đầy đủ kiện B kiện C n Khi đó: P( B) P( Ai ).P( B | Ai ) i 1 1.4 Công thức Bayes Định lý Bayes Định lí Bayes cho phép tính xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy Xác suất kí hiệu P A | B đọc “xác suất A có B” Đại lượng gọi xác suất có điều kiện hay xác suất hậu nghiệm rút từ giá trị cho B phụ thuộc vào giá trị Theo định lí Bayes, xác suất xảy A biết B phụ thuộc vào yếu tố: - Xác suất xảy A riêng nó, không quan tâm đến B, kí hiệu P A đọc xác suất A, gọi xác suất tiền nghiệm, tiền nghiệm theo nghĩa không quan tâm đến thông tin B Phân lớp naive Bayes ứng dụng Ta có: +) P(Cyes)=8/12, P(Cno)=4/12 +) P(ngoài trời nắng|Cyes)=2/8, P(gió mạnh|Cyes)=3/8 +) P(ngoài trời nắng|Cno)=3/4, P(gió mạnh|Cno)=2/4 P(X|Cyes)= P(ngoài trời nắng|Cyes)* P(gió mạnh|Cyes) =2/8*3/8=0.09375 P(X|Cno)= P(ngoài trời nắng|Cno)* P(gió mạnh|Cno) =3/4*2/4=0.375 P(X|Cyes)*P(Cyes)=0.09375*8/12=0.0625 P(X|Cno)*P(Cno)=0.375*4/12=0.125 Từ kết ta thấy P(X|Cno)*P(Cno) có gía trị lớn nhất, thuật toán Bayes kết luận không chơi tennis Trong trình tính toán công thức (3), ta gặp trường hợp Pxk | Ci Ví dụ trường hợp thuộc tính Ak giá trị rời rạc giá trị Pxk | Ci tính theo công thức Pxk | Ci Dik Di k , Di Pxk | Ci Điều có nghĩa Pxk | Ci theo công thức (3) có giá trị Để tránh trường hợp xảy ra, ta sử dụng công thức ước lượng Laplace , công thức Laplace có nhiều dạng tùy thuộc vào toán khác nhau, trường hợp cụ thể ta sử dụng công thức: P x k | Ci Dik Dik m m số lượng lớp, ta nhận thấy tử số cộng thêm giá trị nên tránh trường hợp Pxk | Ci Một ví dụ cụ thể, giả sử lớp Cyes có 1000 phần tử liệu, 19 Phân lớp naive Bayes ứng dụng phần tử có gá trị thuộc tính thu nhập income=low, có 990 phần tử liệu có income = medium 10 phần tử liệu có income=high Nếu không sử dụng ước lượng Laplace xác suất Pxk | C yes tương ứng : 0/1000 =0; 990/1000=0.990 10/1000=0.010 Khi sử dụng ước lượng Laplace xác suất tương ứng 1/1003=0.001; 991/1003=0.998 11/1003=0.011, ta giải vấn đề công thức (3) 20 Phân lớp naive Bayes ứng dụng Chƣơng III ỨNG DỤNG CỦA BAYES 3.1 Thuật toán phân loại văn naive Bayes Kĩ thuật phân hoạch naive Bayes dựa sở định lý Bayes đặc biệt phù hợp cho trường hợp phân loại có kích thước đầu vào lớn Mặc dù naive Bayes đơn giản có khả phân loại tốt nhiều phương pháp phân hoạch phức tạp khác Với loại văn bản, thuật toán naive Bayes tính cho lớp văn xác suất mà tài liệu cần phân hoạch có thuộc loại Tài liệu gán cho lớp văn có xác suất cao Xác suất P(ck | d i ) gọi xác suất mà tài liệu d i có khả thuộc vào lớp văn ck tính toán sau: P (c k | d i ) P (c k ) * P ( d i | c k ) P(d i ) Tài liệu di gán cho loại văn có xác suất hậu nghiệm cao nên biểu diễn công thức: P(ck | di ) arg max Class of d i arg 1max k N P ( ck ) * P ( d i | ck ) P (d i ) N tổng số tài liệu Tóm lại phân loại văn sử dụng thuật toán naive Bayes diễn đạt cách ngắn gọn sau: Với văn D (document) người ta tính cho loại xác suất mà tài liệu D thuộc vào lớp tài liệu việc sử dụng luật Bayes: P(ci | D) P(ci ) * P( D | ci ) P ( D) 21 (1) Phân lớp naive Bayes ứng dụng Trong đó: D tài liệu cần phân loại, ci tài liệu Theo giả định naive Bayes xác suất từ tài liệu D độc lập với ngữ cảnh xuất từ đồng thời độc lập với vị trí từ tài liệu Xác suất PD | ci tính toán từ tần suất xuất từ đơn w j (word) tài liệu D P( D | ci ) P( w j | ci ) 1 j l (2) l tổng số từ w tài liệu D 3.2 Lọc thƣ rác 3.2.1 Định nghĩa thư rác Thư rác (spam mail) thư điện tử không yêu cầu, không mong muốn gửi hàng loạt tới người nhận 3.2.2 Tác hại thư rác Một dịch vụ mà internet mang lại dịch vụ thư điện tử, phương tiện giao tiếp đơn giản, tiện lợi, rẻ hiệu người cộng đồng sử dụng dịch vụ internet Tuy nhiên lợi ích dịch vụ thư điện tử mang lại mà số lượng thư trao đổi internet ngày tăng đa số số thư thư rác (spam) Thư rác thường gửi với số lượng lớn, không người dùng mong đợi, thường với mục đích quảng cáo, đính kèm virus gây phiền toái khó chịu cho người dùng,làm giảm tốc độ truyền internet tốc độ xử lí email server gây thiệt hại lớn kinh tế Đã có nhiều phương pháp đưa để giảm số lượng thư rác, nhiều hệ thống máy lọc thư rác sử dụng thuật toán naive Bayes, phân lớp dựa thống kê cho kết tốt Sau tìm hiểu ứng dụng Bayes lọc thư rác Ví dụ: Phân loại thư rác thư điện tử Để phân loại thư rác thư điện tử ta làm theo hai bước: Đầu tiên 22 Phân lớp naive Bayes ứng dụng sử dụng phân lớp naive Bayes để phân loại tài liệu theo nội dung chúng Sau sử dụng kết để phân loại thư rác thư điện tử Tưởng tượng rằng, tài liệu lấy từ số lớp tài liệu mà làm mô từ mà xuất phát từ từ thứ i tài liệu xảy tài liệu lớp C viết sau: Pwi | c Xử lí đơn giản ý tưởng, cách giả sử xác suất từ tài liệu độc lập với chiều dài tài liệu nội dung tài liệu khác Sau đó, xác suất tài liệu D cho lớp C là: P( D | C ) P( wi | C ) i Câu hỏi mà mong muốn có câu trả lời là: Xác suất để tài liệu D thuộc lớp C bao nhiêu? Nói cách khác, PC | D ? P( D | C ) Theo định nghĩa: Nên có: P(C | D) P( DC) P(C ) P(C | D) P( DC) P ( D) P(C ) P( D | C ) P( D) Giả định thời điểm có hai lớp xung khắc với S S (ví dụ thư rác thư rác) P( D | S ) P( wi | S ) , P( D | S ) P( wi | S ) i i Bằng cách sử dụng kết Bayes trên, viết: P ( S | D) Do đó: P( S ) P(wi | S ) , P ( D) i P ( S | D) P( S ) P( wi | S ) P( S | D) i P( S | D) P( S ) P( wi | S ) i 23 P( S ) P(wi | S ) P ( D) i Phân lớp naive Bayes ứng dụng Vì viết: P( wi | S ) P( S | D) P( S ) P( S | D) P( S ) i P( wi | S ) Trên thực tế xác suất P(S|D) tính dễ dàng từ log PS | D / P S | D dựa nhận định PS | D P S | D Như : ln P( wi | S ) P ( S | D) P( S ) ln ln P ( S | D) P( S ) i P( wi | S ) Cuối cùng, tài liệu phân loại sau: Nếu thư rác: ln P ( S | D) 0, ngược lại thư rác P ( S | D) 24 Phân lớp naive Bayes ứng dụng Chƣơng IV MỘT SỐ VÍ DỤ MINH HỌA CHO NAIVE BAYES TRONG MATLAB [5] Bài toán 1: Dùng thuật toán naive Bayes để phân loại số trái họ cam quýt (Nipis, chanh cam) dựa đặc trưng màu sắc (phân biệt ba màu Red, Green, Blue) kích thước (đường kính) function [Result]=Function_ColorToGray(CitraInput) %get red channel R_Channel=CitraInput(:,:,1); %figure; imshow(R_Channel); title('R_Channel'); %get green channel G_Channel=CitraInput(:,:,2); %figure; imshow(G_Channel); title('G_Channel'); %get blue channel B_Channel=CitraInput(:,:,3); %figure; imshow(B_Channel); title('B_Channel'); % get gray image with lightness GrayImage=(max(max(R_Channel, G_Channel), B_Channel) + min(min(R_Channel, G_Channel), B_Channel))./2; %figure; imshow(GrayImage); title('GrayImage lightness'); % get gray image with average GrayImage=(R_Channel+G_Channel+B_Channel)./3; %figure; imshow(GrayImage); title('GrayImage average'); % get gray image with luminosity GrayImage=0.2989 * R_Channel + 0.5870 * G_Channel + 0.1140 * B_Channel; %figure; imshow(GrayImage); title('GrayImage luminosity'); 25 Phân lớp naive Bayes ứng dụng Result=GrayImage; % %% count diameter with unit length vertical each pixel % % determine index which contains the value % [idx_v,idy_v]=find(max_filter_I_biner==1); % [value_max,idx_v_max]=max(idx_v); % [value_min,idx_v_min]=min(idx_v); % diameter_v=value_max-value_min+1; % % %% create boundary line in diameter vertical % % % replace pixel value % I_red=I(:,:,1); % I_red(idx_v(idx_v_min):(idx_v(idx_v_min)+10),:)=105; % I_red((idx_v(idx_v_max)-10):idx_v(idx_v_max),:)=105; % I(:,:,1)=I_red; % % I_green=I(:,:,2); % I_green(idx_v(idx_v_min):(idx_v(idx_v_min)+10),:)=75; % I_green((idx_v(idx_v_max)-10):idx_v(idx_v_max),:)=75; % I(:,:,2)=I_green; % % I_blue=I(:,:,3); % I_blue(idx_v(idx_v_min):(idx_v(idx_v_min)+10),:)=245; % I_blue((idx_v(idx_v_max)-10):idx_v(idx_v_max),:)=245; % I(:,:,3)=I_blue; % 26 Phân lớp naive Bayes ứng dụng % axes(handles.ImageTraining); % imshow(I); % collect the feature value dataset(i,:)=[mean_red mean_green mean_blue diameter]; end Tập huấn luyện có 15 gồm loại nipis, lemon, orange có màu sắc, đường kính khác Hình 4.1: Các loại huấn luyện 27 Phân lớp naive Bayes ứng dụng Sau cho huấn luyện ta tập liệu ( hình 4.2) Hình 4.2 Với đem vào kiểm tra xem sau thuộc loại dựa vào màu sắc, đường kính Sau trình kiểm tra ta kết sau (hình 4.3) 28 Phân lớp naive Bayes ứng dụng Hình 4.3 Xác suất thuộc lớp lemon cao nhất, cần xác định lemon Bài toán 2: Cho đầu vào nhóm số dương âm, chúng tương ứng với lớp posi negi kiểm tra với số ngẫu nhiên training = [1;0;-1;-2;4;0]; % this is the sample data target_class = ['posi';'zero';'negi';'negi';'posi';'zero'];% This should have the same number of rows as training data The elements and the class on the same row should correspond % target_class are the different target classes for the training data; here 'positive' and 'negetive' are the two classes for the given training data % Training and Testing the classifier (between positive and negative) test = 10*randn(10,1) % this is for testing I am generating random 29 Phân lớp naive Bayes ứng dụng numbers class = classify(test,training, target_class, 'diaglinear') % This command classifies the test data depening on the given training data using a Naive Bayes classifier % diaglinear is for naive bayes classifier; there is also diagquadratic Với tập giá trị sinh ngẫu nhiên kiểm tra với công thức test = 10*randn(10,1) trình phân lớp tạo kết sau: test = 5.3767 18.3389 -22.5885 8.6217 3.1877 -13.0769 -4.3359 3.4262 35.7840 27.6944 class = posi posi negi posi posi negi negi posi posi posi 30 Phân lớp naive Bayes ứng dụng KẾT LUẬN Như nói từ đầu toán học thống kê đóng vai trò quan trọng lĩnh vực Thống kê giúp cho việc nắm bắt đánh giá tình hình trở lên trực quan dễ hiểu Xử lý ứng dụng liệu thống kê đem lại hiệu to lớn việc tiên đoán từ xây dựng hệ tự động hóa hoạt động xác Hướng tiếp cận thống kê theo lý thuyết Bayes đơn giản đem lại hiệu cao mà ứng dụng phổ biến hầu hết lĩnh vực So với phương pháp khác, phương pháp thống kê Bayes lập luận theo kinh nghiệm tích lũy áp dụng vào mô hình phân loại đối tượng linh hoạt hơn, phù hợp với đặc trưng toán Các chế ước lượng gần gũi với cách suy luận thông thường mà kết phân loại tương đối giống với cách phân loại thông thường Các kết đạt được: Về lý thuyết: Khoá luận tập trung nghiên cứu lý thuyết xác suất, phân lớp naive Bayes, từ bước sở tìm hiểu tiếp ứng dụng liên quan trực tiếp đến ngành công nghệ thông tin ứng dụng lọc thư rác thư điện tử Quá trình tìm hiểu nguyên lý cách thức hoạt động lọc rút kết luận ưu nhược điểm tiếp cận thống kê Bayes việc phân loại thư đối tượng để tìm hiểu nghiên cứu Đối với vấn đề áp dụng lý thuyết Bayes, khoá luận nghiên cứu xây dựng công thức tính xác suất cho việc xử lý thông tin trở lên nhanh gọn có độ xác cao Từ thấy ưu điểm phân lớp naive Bayes hoạt động tốt nhiều tình giới thực phức tạp đòi hỏi số lượng nhỏ liệu huấn luyện để ước lượng tham số Về ứng dụng: Từ lý thuyết khóa luận đưa ứng dụng phân lớp naive Bayes thực tế phân loại văn bản, lọc thư rác số 31 Phân lớp naive Bayes ứng dụng ví dụ minh họa cho việc sử dụng naive Bayes Matlab Hướng phát triển: Thông qua ứng dụng thực tiễn phân lớp naive Bayes thấy khả to lớn nó, đồng thời mở nhiều ứng dụng 32 Phân lớp naive Bayes ứng dụng DANH MỤC TÀI LIỆU THAM KHẢO [1] Xác suất thống kê- Đào Hữu Hồ, nhà xuất Đại học Quốc Gia Hà Nội [2] Harry Zhang "The Optimality of Naive Bayes" FLAIRS2004 conference (available online: PDF (http:/ / www cs unb ca/ profs/ hzhang/ publications/ FLAIRS04ZhangH pdf)) [3] Caruana, R and Niculescu-Mizil, A.: "An empirical comparison of supervised learning algorithms" Proceedings of the 23rd international conference on Machine learning, 2006 (available online PDF (http://citeseerx ist psu edu/ viewdoc/ download?doi=10 1 122 5901& rep=rep1& type=pdf)) [4] George H John and Pat Langley (1995) Estimating Continuous Distributions in Bayesian Classifiers Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence pp 338-345 Morgan Kaufmann, San Mateo [5] http://www.sourcecodeonline.com/list?q=matlab_code_for_a_bayes_classifier 33 [...]... vấn đề của công thức (3) 20 Phân lớp naive Bayes và ứng dụng Chƣơng III ỨNG DỤNG CỦA BAYES 3.1 Thuật toán phân loại văn bản naive Bayes Kĩ thuật phân hoạch của naive Bayes dựa trên cơ sở định lý Bayes và đặc biệt phù hợp cho các trường hợp phân loại có kích thước đầu vào là lớn Mặc dù naive Bayes khá đơn giản nhưng nó có khả năng phân loại tốt hơn rất nhiều phương pháp phân hoạch phức tạp khác Với... 7 Phân lớp naive Bayes và ứng dụng Chƣơng II GIỚI THIỆU VỀ PHÂN LỚP NAIVE BAYES VÀ PHÂN TÍCH TRONG KHAI PHÁ DỮ LIỆU 2.1 Kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu Kĩ thuật phân lớp dữ liệu trong khai phá dữ liệu là một trong những vấn đề nghiên cứu mở rộng hiện nay; tập trung chủ yếu vào thống kê, học máy và mạng nơron Kĩ thuật phân lớp được đánh giá là một kĩ thuật khai phá dữ liệu được sử dụng. .. Phân lớp naive Bayes và ứng dụng [Sahami et al, 1998]… 2.2.8 Phân lớp naive Bayes Bộ phân lớp naive Bayes hay bộ phân lớp Bayes đơn giản (simple Bayes classifier) hoạt động như sau: 1 Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần tử dữ liệu X được biểu diễn bằng một vectơ chứa n giá trị thuộc tính A 1,A2,…,An, X x1 , x2 , , xn 2 Giả sử có m lớp C 1,C2,…,Cm; Cho một phần tử dữ liệu X, bộ phân. .. phần vào khái niệm trái cây này là quả táo Tùy thuộc vào tính chính xác bản chất của mô hình xác suất, phân lớp naive Bayes có thể được tạo ra rất hiệu quả trong học máy Trong nhiều ứng dụng thực tế, tham số ước lượng cho các mô hình naive Bayes sử dụng các phương pháp maximum likelihood (ước lượng hợp lí cực đại), nói cách khác, 8 Phân lớp naive Bayes và ứng dụng với phương pháp này một ứng dụng dựa... rộng rãi nhất với nhiều mở rộng Sự kết hợp của kỹ thuật phân lớp và cơ sở dữ liệu là một lĩnh vực hứa hẹn bởi vì đáp ứng được một vấn đề hết sức quan trọng của ứng dụng cơ sở dữ liệu đó là tính uyển chuyển cao 2.2 Giới thiệu phân lớp naive Bayes 2.2.1 Định nghĩa Phân lớp naive Bayes là một phương pháp phân lớp đơn giản dựa trên các ứng dụng định lí Bayes với giả định độc lập bền vững Một thuật ngữ mô... ứng dụng dựa trên mô hình naive Bayes thì sẽ không phải sử dụng xác suất Bayes cũng như phương pháp Bayes Mặc dù với giả định đơn giản hơn nhưng dễ nhận thấy rằng phân lớp naive Bayes thường hoạt động khá tốt trong nhiều tình huống phức tạp Vào năm 2004 phân tích các vấn đề của phân lớp Bayes đã cho thấy rằng có một số giả thuyết giải thích cho tính hiệu quả của phân lớp naive Bayes. [2] So sánh toàn diện... p( Fi f i | C c) i 1 Sự thật có thể áp dụng rộng rãi các giả định độc lập nhưng chúng thường không chính xác, phân lớp naive Bayes có vài thuộc tính làm cho nó hữu ích trong thực hành Đặc biệt, sự tách riêng của lớp có điều kiện phân phối đặc trưng có nghĩa là mỗi phân phối có thể được ước tính độc lập như là một phân 12 Phân lớp naive Bayes và ứng dụng phối một chiều Điều này giúp giảm bớt những... phân loại văn bản sử dụng thuật toán naive Bayes có thể diễn đạt một cách ngắn gọn như sau: Với mỗi văn bản D (document) người ta sẽ tính cho mỗi loại một xác suất mà tài liệu D có thể thuộc vào lớp tài liệu đó bằng việc sử dụng luật Bayes: P(ci | D) P(ci ) * P( D | ci ) P ( D) 21 (1) Phân lớp naive Bayes và ứng dụng Trong đó: D là tài liệu cần phân loại, ci là tài liệu bất kì Theo giả định của naive. .. bước: Đầu tiên 22 Phân lớp naive Bayes và ứng dụng sử dụng phân lớp naive Bayes để phân loại tài liệu theo nội dung của chúng Sau đó sử dụng kết quả để phân loại thư rác trong các thư điện tử Tưởng tượng rằng, các tài liệu được lấy ra từ một số lớp của các tài liệu mà nó có thể làm mô hình như là bộ các từ mà ở đây xuất phát từ từ thứ i của một tài liệu xảy ra trong một tài liệu của lớp C có thể được... có thể được phân loại như sau: Nếu nó là thư rác: ln P ( S | D) 0, ngược lại nó không phải là thư rác P ( S | D) 24 Phân lớp naive Bayes và ứng dụng Chƣơng IV MỘT SỐ VÍ DỤ MINH HỌA CHO NAIVE BAYES TRONG MATLAB [5] Bài toán 1: Dùng thuật toán naive Bayes để phân loại một số trái cây họ cam quýt (Nipis, chanh và cam) dựa trên các đặc trưng về màu sắc (phân biệt ba màu Red, Green, Blue) và kích thước ... thiệu thuật toán naive Bayes 13 2.2.8 Phân lớp naive Bayes 14 Chương III ỨNG DỤNG CỦA BAYES 21 Phân lớp naive Bayes ứng dụng 3.1 Thuật toán phân loại văn naive Bayes 21... et al, 1970], lọc email 13 Phân lớp naive Bayes ứng dụng [Sahami et al, 1998]… 2.2.8 Phân lớp naive Bayes Bộ phân lớp naive Bayes hay phân lớp Bayes đơn giản (simple Bayes classifier) hoạt động... số Về ứng dụng: Từ lý thuyết khóa luận đưa ứng dụng phân lớp naive Bayes thực tế phân loại văn bản, lọc thư rác số 31 Phân lớp naive Bayes ứng dụng ví dụ minh họa cho việc sử dụng naive Bayes