1. Trang chủ
  2. » Luận Văn - Báo Cáo

[Báo cáo + slide] Thuật toán Bayes và ứng dụng thuật toán trong việc lọc thư rác

34 678 7

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 528,61 KB
File đính kèm Bayes.rar (1 MB)

Nội dung

Tài liệu bao gồm slide và Báo cáo.Môn: Hệ trợ giúp quyết địnhMỤC LỤCLỜI MỞ ĐẦUTÀI LIỆU THAM KHẢONỘI DUNGI.GIỚI THIỆU1.Tổng quan2.Ví dụ dẫn dắtII.CƠ SỞ LÝ THUYẾT1.Phát biểu định lý Bayes2.Mô tả thuật toánIII.PHÂN LỚP1.Định nghĩa2.Các mô hình xác suất Naive Bayes3.Xây dựng một classifier từ mô hình xác suất4.Thuật toán phân loại văn bản Naive BayesIV.ỨNG DỤNG1.Đặt vấn đề2.Bài toánKẾT LUẬN

Thuật toán Bayes ứng dụng NHẬN XÉT VÀ ĐÁNH GIÁ …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… 1|Page Thuật toán Bayes ứng dụng MỤC LỤC 2|Page Thuật toán Bayes ứng dụng LỜI MỞ ĐẦU Trong xu phát triển giới khoa học cơng nghệ ln có thay đổi mạnh mẽ Sự phát triển vũ bão CNTT tác động mạnh mẽ to lớn đến mặt đời sống kinh tế xã hội Ngày nay, CNTT trở thành động lực quan trọng phát triển Với khả số hố loại thơng tin (số, đồ thị, văn bản, hình ảnh, tiếng nói, âm thanh.), máy tính trở thành phương tiện xử lý thông tin thống đa năng, thực nhiều chức khác dạng thông tin thuộc lĩnh vực: nghiên cứu, quản lý, kinh doanh, Với vốn kiến thức học trường nhu cầu cấp thiết xã hội cộng thêm gợi ý giảng viên mơn – Đồn Thị Thanh Hằng, nhóm em chọn đề tài “Thuật toán Bayes ứng dụng” với mong muốn giúp cho việc xây dựng, lựa chọn định thực cách dễ dàng hơn, thuận tiện giảm thiểu sai xót Trong q trình góp nhặt kiến thức q báu , nhờ quan tâm hướng dẫn Đồn Thị Thanh Hằng, chúng em bước nghiên cứu vận dụng kiến thức học để tìm hiểu, phân tích Tuy nhiên, hiểu biết chúng em lĩnh vực hạn chế, đề tài nhiều thiếu sót, nên chưa hồn thiện Vì chúng em mong đóng góp nhiệt tình bạn để đề tài nhóm hồn thiện Chúng em xin chân thành cảm ơn! 3|Page Thuật toán Bayes ứng dụng TÀI LIỆU THAM KHẢO Nguyễn Quốc Đại, Lý Thuyết Bayes, mạng Bayes (2009) Nguyễn Thanh Sơn, Lê Khánh Luận; Lý thuyết xác suất thống kê toán; Nxb Thống kê (2008) Nguyễn Duy Tiến, Trần Minh Ngọc Đại học Khoa Học Tự Nhiên, ĐHQGHN, Bài giảng Viện Thống Kê Thế Giới IMS Malaysia Azam N, Dar H A, Marwat S; Comparative study on Feature Space Reduction for Spam Detection Paul Graham, A plan for spam – 2002 Xem địa chỉ: http://paulgraham.com/spam.html Bayesian Spam Filtering (Wikipedia); Xem địa chỉ: http://en.wikipedia.org/wiki/Bayesian_spam_filtering Sequential Bayesian Filtering (Wikipedia); Xem địa chỉ: http://en.wikipedia.org/wiki/Sequential_bayesian_filtering 4|Page Thuật toán Bayes ứng dụng NỘI DUNG I GIỚI THIỆU Tổng quan Khoa học thống kê khoa học thu thập, phân tích, diễn giải trình bày liệu để từ tìm chất tính quy luật tượng kinh tế, xã hội tự nhiên Khoa học thống kê dựa vào lý thuyết thống kê loại toán học ứng dụng Trong lý thuyết thống kê, tính chất ngẫu nhiên khơng chắn làm mơ hình dựa vào lý thuyết xác suất Vì mục đích khoa học thống kê để tạo thông tin "đúng nhất" theo liệu có sẵn, có nhiều học giả nhìn khoa thống kê loại lý thuyết định Khoa học thống kê đóng đóng vai trò quan trọng, vai trò khơng thể thiếu cơng trình nghiên cứu khoa học, khoa học thực nghiệm y khoa, sinh học, nơng nghiệp, hóa học, xã hội học Các thí nghiệm dựa vào phương pháp thống kê học cung cấp cho khoa học câu trả lời khách quan cho vấn đề khó khăn Thống kê công cụ quản lý vĩ mô quan trọng, cung cấp thơng tin thống kê trung thực, khách quan, xác, đầy đủ, kịp thời việc đánh giá, dự báo tình hình, hoạch định chiến lược, sách, xây dựng kế hoạch phát triển kinh tế - xã hội đáp ứng nhu cầu thông tin thống kê tổ chức, cá nhân Trong số vai trò quan trọng dự báo tình hình vai trò mang nhiều ý nghĩa, có q trình huấn luyện bên có tính xử lý tự động huấn luyện Hay nói khác có tri thức lấy từ liệu thống kê hay kinh nghiệm người dùng kết hợp với phương pháp học (huấn luyện) dựa lý thuyết thống kê ta có cỗ máy có tri thức để tự đưa định với độ xác cao Phân tích thống kê khâu quan trọng thiếu công trình nghiên cứu khoa học, khoa học thực nghiệm Một cơng trình nghiên cứu khoa học, cho dù có tốn quan trọng cỡ nào, khơng phân tích phương pháp khơng có hội xuất tập san khoa học Ngày nay, cần nhìn qua tất tập san nghiên cứu 5|Page Thuật toán Bayes ứng dụng khoa học giới, báo y học có phần “Statistical Analysis” (Phân tích thống kê), nơi mà tác giả phải mơ tả cẩn thận phương pháp phân tích, tính tốn nào, giải thích ngắn gọn sử dụng phương pháp để hàm ý “bảo kê” hay tăng trọng lượng khoa học cho phát biểu báo Các tập san y học có uy tín cao yêu cầu phân tích thống kê nặng Khơng có phần phân tích thống kê, báo xem “bài báo khoa học” Khơng có phân tích thống kê, cơng trình nghiên cứu chưa xem hoàn tất Trong khoa học thống kê, có hai trường phái “cạnh tranh” song song với nhau: • Trường phái tần số (Frequentist school) • Trường phái Bayes (Bayesian school) Phần lớn phương pháp thống kê sử dụng ngày phát triển từ trường phái tần số, nay, trường phái Bayes đà “chinh phục” khoa học suy nghĩ “mới” khoa học suy luận khoa học Phương pháp thống kê thuộc trường phái tần số thường đơn giản phương pháp thuộc trường phái Bayes Ví dụ dẫn dắt Để hiểu khác biệt hai trường phái này, có lẽ cần phải nói đơi qua vài dòng triết lý khoa học thống kê ví dụ nghiên cứu y khoa Để biết hai thuật điều trị có hiệu giống hay không, nhà nghiên cứu phải thu thập liệu hai nhóm bệnh nhân (một nhóm điều trị phương pháp A nhóm điều trị phương pháp B) Với trường phái tần số, câu hỏi đưa là: “Nếu hai thuật điều trị có hiệu nhau, xác suất mà liệu quan sát bao nhiêu?”, với trường phái Bayes câu hỏi đưa là: “Với liệu quan sát được, xác suất mà thuật điều trị A có hiệu cao thuật điều trị B bao nhiêu?” Tuy hai cách hỏi đầu đọc qua chẳng có khác nhau, suy nghĩ kỹ thấy khác biệt mang tính triết lý khoa học ý nghĩa quan trọng Đối với người bác sĩ (hay nhà khoa học nói chung), suy luận theo trường phái Bayes tự nhiên, hợp với thực tế Trong y khoa lâm sàng, người bác sĩ phải sử dụng 6|Page Thuật toán Bayes ứng dụng kết xét nghiệm để phán đoán bệnh nhân mắc hay không mắc ung thư (cũng giống nghiên cứu khoa học, phải sử dụng số liệu để suy luận khả giả thiết) 7|Page Thuật toán Bayes ứng dụng II CƠ SỞ LÝ THUYẾT Phát biểu định lý Bayes Định lý Bayes cho phép tính xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy Xác suất ký hiệu P(A|B), đọc "xác suất A có B" Đại lượng gọi xác suất có điều kiện hay xác suất hậu nghiệm rút từ giá trị cho B phụ thuộc vào giá trị Theo định lý Bayes, xác suất xảy A biết B phụ thuộc vào yếu tố: • Xác suất xảy A riêng nó, khơng quan tâm đến B Ký hiệu P(A) đọc xác suất A Đây gọi xác suất biên duyên hay xác suất tiên nghiệm, "tiên nghiệm" theo nghĩa khơng quan tâm đến thơng tin B • Xác suất xảy B riêng nó, khơng quan tâm đến A Ký hiệu P(B) đọc "xác suất B" Đại lượng gọi số chuẩn hóa (normalising constant), ln giống nhau, khơng phụ thuộc vào kiện A muốn biết • Xác suất xảy B biết A xảy Ký hiệu P(B| A) đọc "xác suất B có A" Đại lượng gọi khả (likelihood) xảy B biết A xảy Chú ý không nhầm lẫn khả xảy B biết A xác suất xảy A biết B Khi biết ba đại lượng này, xác suất A biết B cho công thức : Từ dẫn tới: P(A|B)P(B)=P(A∩B)=P(B|A)P(A) Mơ tả thuật toán Cho đến chưa giả định đặc trưng phân phối mẫu cho likelihoods Tuy nhiên, mơ hình chuẩn tắc giả định hợp lý Mơ hình chuẩn tắc có liên quan đến định lý giới hạn trung tâm tiếng, theo định lý tổng lượng lớn biến ngẫu nhiên độc lập phân phối đồng có phân phối hội tụ luật chuẩn Thực tế ta có xấp xỉ đến luật chuẩn tắc, chí với số lượng tương đối nhỏ thêm vào biến ngẫu nhiên Đối với đặc 8|Page Thuật tốn Bayes ứng dụng trưng coi kết việc bổ sung biến độc lập, thường giả định chấp nhận Likelihood chuẩn tắc lớp ωi biểu diễn hàm mật độ xác suất: , (1-10) Và mean vector for class (1-10a) convariance for class (1-10b) i ∑i tham số phân phối, đến ta sử dụng ước lượng mẫu mi Ci Cho tập huấn luyện có n mẫu T={x 1, x2, … xn} mô tả phân phối với hàm mật độ xác suất p(T | θ), θ vec tơ tham số phân phối (chẳng hạn vec tơ trung bình phân phối chuẩn) Một cách đáng ý tính ước lượng mẫu vectơ tham biến cực đại hóa hàm mật độ xác suất p(T | θ), coi dây hàm θ gọi likelihood of θ cho tập huấn luyện Giả sử mẫu đưa vào độc lập từ tập vô hạn, biểu thị likelihood sau: p(T | )= Khi sử dụng ước lượng hợp lý cực đại (maximum likelihood estimation) biến phân phối thường dễ dàng tính cưc đại ln[p(T|θ)], điều tương đương Với phân phối Gauss ước lượng mẫu cho công thức (1-10a) (1-10b) ước lượng hợp lý cực đại hội tụ giá trị thực Hình 7: Minh họa phân phối chuẩn trường hợp có hai chiều 9|Page Thuật tốn Bayes ứng dụng Như nhìn thấy từ (1-10), bề mặt mật độ xác suất đồng với hợp lý chuẩn (normal likelihood) thỏa mãn Mahalanobis metric: Bây tiếp tục tính hàm định cho đặc trưng phân phối chuẩn gi(x) = P(ωi | x) = P(ωi) p(x | ωi) (1-11) biến đổi logarit ta được: (1-11a) (1-11b) Bằng cách sử dụng hàm định, rõ ràng phụ thuộc Mahalanobis metric, ta xây dựng phân lớp Bayes với rủi ro nhỏ nhất, phân lớp tối ưu Chú ý công thức (1-11b) sử dụng giá trị thật khoảng cách Mahalanobis, mà trước sử dụng ước lượng khoảng cách Với trường hợp covariance đồng cho tất lớp (∑i=∑) bỏ qua số ta được: (1-11c) Với toán lớp, biệt số d(x) =h 1(x)-h2(x) dễ đàng tính tốn: Và: (1-12a) Qua ta có hàm định tuyến tính: Hai lớp phân biệt với phân phối chuẩn, xác suất tiên nghiệm đồng covariance có cơng thức đơn giản cho xác suất lỗi phân lớp: Và (1-13a) (1-13b) 10 | P a g e Giả sử ta gọi S->N N->S tương ứng với loại lỗi Để hạn chế loại lỗi thứ ta giả sử lỗi N>S có chi phí gấp λ lỗi S->N nghĩa ta phân loại email spam dựa theo: (P(C=spam | X=x) )/(P(C=non-spam | X=x)) > λ Mặt khác: P(C=spam | X=x) = – P(C=non-spam | X=x) P(C=spam | X=x) > t Như ta giá trị ngưỡng t phụ thuộc vào λ, cụ thể : t = λ / (λ + 1)  PHƯƠNG PHÁP THỰC HIỆN Để đánh giá email ta phải chuyển email sang vector x = (x1,x2,…xn) với x1,x2, xn giá trị thuộc tính X1,X2…Xn khơng gian vector đặc trưng X Mỗi thuộc tính thể token đơn Theo phương pháp đơn giản ta lập từ điển chứa token Sau với token email xuất từ điển giá trị thuộc tính 1, ngược lại Tuy nhiên thực tế, tập huấn luyện ta không thường từ điển Thay vào tập huấn luyện lúc gồm có kho ngữ liệu Kho ngữ liệu Spam chứa list email xác định spam trước đó, tương tự với kho ngữ liệu Non-spam chứa email hợp lệ Như ta để giá trị thuộc tính khó đánh giá email spam hay không Đặc biệt email nhận dài, ta sử dụng giá trị thuộc tính xuất token 100 lần tương đương với việc xuất lần Để khắc phục vấn đề giá trị thuộc tính ta thay xác suất spam token Xác suất tương đương với xác suất spam email chứa token email spam Việc tính xác suất có nhiều phương pháp Ta tính dựa số lần xuất token kho ngữ liệu học ban đầu Ví dụ token w có số lần xuất kho ngữ liệu spam s non-spam n, số email tổng cộng kho spam non-spam tương ứng Ns Nn xác suất spam token w là: 20 | P a g e P(X=w | C=spam) = (s/Ns)/(s/Ns+n/Nn) Tuy nhiên nhược điểm phương pháp khả spam token xuất 100 lần 100 email khác với khả spam token xuất 100 lần email Thay vào việc tính xác suất dựa theo số lần xuất token kho ngữ liệu ta dựa vào số email chứa token kho ngữ liệu Ví dụ token w có số email chứa kho ngữ liệu spam non-spam ns nn xác suất spam token w : P(X=w | C=spam) = (s/Ns)/(ns/Ns+nn/Nn) Nhược điểm phương pháp khả spam token xuất lần email với khả spam token xuất 100 lần email Vì sử dụng cách thứ ba tổng hợp hai cách trên: P(X=w | C=spam) = ((s*ns)/Ns)/((ns*s)/Ns+ (nn*n)/Nn)) Còn token xuất kho ngữ liệu mà không xuất kho ngữ liệu khơng thể kết luận token xt kho ngữ liệu spam khơng xuất kho ngữ liệu non-spam ngược lại Cách thích hợp ta gán cho chúng giá trị phù hợp Với token xuất kho ngữ liệu spam ta gán xác suất spam cho giá trị N gần với ( chẳng hạn 0,9999) ngược lại gán xác suất spam giá trị M gần với ( chẳng hạn 0,0001) Như ta có cơng thức tính xác suất spam token dựa số lần xuất số email chứa : P = Max ( M, Min ( N, ((ns*s)/Ns)/((ns*s)/Ns+ (nn*n)/Nn) ) ) ns : số email chứa token kho spam nn : số email chứa token kho non-spam s : số lần token xuất kho spam n : số lần token xuất kho non-spam Ns : tổng số email kho spam Nn : tổng số email kho non-spam 21 | P a g e IV ỨNG DỤNG Đặt vấn đề Thư rác bắt đầu gọi "spam" sau chương trình truyền hình có tên "Monty Python’s Flying Circus" Trong show truyền hình này, nhóm cướp biển Vikings vào ăn nhà hàng chuyên phục vụ đồ hộp (spam), hát toáng lên ca khúc lặp lặp lại chữ "quảng cáo" Ý nghĩa ban đầu thư rác rõ ràng: Một thứ lặp lặp lại gây bực tức, khó chịu cho người xung quanh Đó phạm vi hẹp mơi trường internet khơng khoảng cách địa lý có nhiều người phải chịu bực tức, cảnh nhàm chán gây ức chế tâm lý thời gian vào Phần lớn thư khơng mời mà đến, thư chào hàng quảng cáo bị cho thư rác theo nhận xét số đông người dùng thư điện tử Đây vấn đề nan giải mà hệ thống, hòm mail, nhà quản trị mạng phải đối mặt thời điểm mà xã hội thông tin ngày phát triển với tốc độ chóng mặt Để lọc phát thư rác, cần có giải pháp lâu dài biện pháp kĩ thuật, quy ước xã hội dùng đến pháp luật Nhưng giải pháp thi hành khoảng thời gian ngắn chúng bị phá vỡ spammer, nguyên nhân họ ln nghĩ bẫy đánh lừa người dùng hay lách luật mà tổ chức chống thư rác quy ước Như giải pháp ngăn chặn thư rác hiệu dùng lâu dài? Một phương pháp tốt để người dùng thư điện tử ngăn chặn thư rác, họ hiểu vấn đề cách tường minh Chúng ta dùng cảm nhận thư rác người để huấn luyện cho lọc thư rác họ Mỗi lọc xử lý thư rác tùy theo phong cách người dùng thư điện tử Và mơ hình thống kê Bayes áp dụng để thực thi ý tưởng Từ đặc điểm trên, ta thấy việc xây dựng lọc thư rác thơng minh loại bỏ cách xác nhiệm vụ nhiều thách thức Bài tốn Thư điện tử phương tiện để giao tiếp đáng tin cậy không tốn chi phí sử 22 | P a g e dụng Phạm vi sử dụng rộng khắp tồn giới dễ dàng truy cập hầu hết phương tiện truyền thơng biến thành nạn nhân kẻ spam Hậu đơn giản làm tốn băng thông mạng nghiêm trọng làm thời gian người dùng thư điện tử, làm lan truyền vi rút máy tính Có thời điểm người ta thống kê có đến 60% thư điện tử thư rác ngày người dung thư điện tử phải nhận cú spam Chúng ta đổi địa hòm thư lần bị spam điều khơng khơng hạn chế thư rác mà có làm cho gia tăng Vậy cần phải tìm giải pháp chống thư rác sử dụng lọc gắn thuật tốn phân loại với tính hiệu kĩ thuật đơn giản dễ cài đặt Và u cầu khơng thể thiếu có với thuật tốn kẻ spam hiểu việc chúng cố tình spam vơ dụng a Tiền xử lý thư điện tử Bộ lọc cá nhân tích hợp vào địa hòm thư người dùng Nó ln ln trạng thái chờ thư đến để xử lý Một thư gửi đến địa người dùng thư phải phân loại có thư rác hay khơng Nếu thư rác bị ném vào thư mục ‘sọt rác’ ngược lại cho vào thư mục ‘thư đến’ chờ người dùng duyệt Để có kết quả q trình kiểm duyệt nghiêm ngặt kết hợp nhiều công đoạn đánh giá địa người gửi, thư gửi đến từ IP, DNS có nằm blacklist tổ chức chống thư rác quốc tế hay không, hay đơn giản xem thư có sai với định dạng thư thơng thường hay khơng (ví dụ tiêu đề thư nhiều dấu than, dấu hỏi, hay viết hoa tồn bộ, màu sắc nhòe nhoẹt,… Qua bước sàng lọc bắt đầu tiền xử lý cho lọc Bayes Với thư quét toàn văn bao gồm header mã nhúng HTML kể javascript thông điệp Hiện đánh giá kí tự gồm chữ số, nét gạch, dấu than dấu $ vào thẻ, lại cho vào thẻ riêng biệt Bỏ qua thẻ mà chứa chữ số bỏ qua đoạn comment HTML, tách thẻ khơng cần 23 | P a g e đánh giá Như sau bước thư ứng với tập hợp chứa thẻ riêng biệt b Dùng luật Bayes tính xác suất Tính xác suất cho thẻ ta dùng luật Bayes để tính Giả sử ta cần tính xác suất cho thẻ chứa từ ‘promotion’ Từ thường xuyên gặp thư điện tử mời chào dịch vụ maketing Cơng thức tính theo luật Bayes: Trong đó:  Pr(S|W) xác suất mà thư mà chứa từ ‘promotion’ thư rác  Pr(S) xác suất mà thư thư rác  P(W|S) xác suất mà từ "promotion" xuất thư rác  Pr(H) xác suất mà tin khơng thư rác  P(W|H) xác suất mà từ "promotion" xuất thư rác Như nói trên, thống kê gần cho thấy 80% thư điện tử thư rác nên ta có: Tuy nhiên đơn giản qua thực tế nên người ta chọn xác suất trước giống có giá trị 0.5 Tức là: Bộ lọc mà dùng giả thiết gọi "khơng đối xứng", có nghĩa chúng khơng có đối xử phân biệt thư đến Giả thiết cho phép rút gọn công thức thành: Bộ lọc thư rác Bayesspam vận dụng xác cơng thức để tính xác suất cho từ đơn 24 | P a g e Sau tính xác suất thư chứa từ đơn thư rác ta cần kết hợp xác suất đơn lại thành xác suất cuối Xác suất dùng để đánh giá thư mà chứa tất từ đơn có xác suất thư rác Cơng thức tính xác suất kết hợp là: Trong đó:  p xác suất thư xét thư rác  p1là xác suất p(S|W1), ứng với từ (ví dụ từ "promotion")  p2 xác suất p(S|W2) , ứng với từ thứ hai (ví dụ từ "offer")  pN xác suất p(S|WN) , ứng với từ thứ N (ví dụ từ "home") Kết p thường dùng so sánh với ngưỡng để định thư xét có xác suất p có thư rác hay khơng Nếu p lớn giá trị ngưỡng, thư bị đánh dấu thư rác, ngược lại không bị đánh dấu thư rác c Huấn luyện cho lọc Bayes Sử dụng hai tập thư điện tử huấn luyện, tập thư rác tập lại thư rác Mỗi tập chứa khoảng 4000 thư Đếm số lần xuất thẻ tập thư điện tử Mỗi lần đếm kết thúc với hai bảng băm Mỗi bảng băm tương ứng với tập thư điện tử, bảng ánh xạ thẻ đến số lần xuất thẻ Tiếp theo tạo bảng băm thứ 3, bảng băm ánh xạ thẻ tới xác suất mà email chứa email spam Ta tính theo cơng thức sau đây: Trong đó:  Ngood ứng với số thư thư rác 25 | P a g e  Nbad ứng với số thư thư rác Công thức diễn tả theo biểu thức ngôn ngữ Arc Mỗi biểu thức cặp dấu ngoặc đơn Trong ngoặc danh sách với biểu thức đứng vị trí theo sau tham số Thực biểu thức từ trái qua phải Ví dụ: (< (+ g b) 5) tương đương với (g + b) < Cơng thức tính xác suất cho từ hay thẻ (word) sau: Thẻ lấy từ bảng good, bảng băm thẻ tập thư thư rác nhân đôi lên Nhân đôi lên để giảm độ chênh lệch xác suất thư rác khơng phải thư rác, tăng độ xác việc phân loại Tiếp theo thẻ ta lấy từ bảng bad, bảng băm thẻ tập thư rác Như ta có số g ứng với lần suất thẻ tập thư thư rác b ứng với số lần xuất thẻ trong tập thư rác Nếu tổng g b nhỏ thẻ bị loại bỏ Xác suất tính nằm khoảng giá trị từ 01 đến 99 Xét cho việc tính tốn tương ứng với cơng thức tính xác suất dạng luật Bayes đơn giản sau: Như kết trình huấn luyện bảng băm hay nói khác sở liệu rút từ tập thư huấn luyện Bảng băm ánh xạ thẻ đến giá trị xác xuất chúng Bảng băm sở định cho việc tính tốn xác suất thư điện tử thư rác d Lọc thư đến, có thư rác khơng? Khi thư đến, phải trải qua vài công đoạn xử lý phân loại trước vào hộp thư người dùng Tại lại thế? Nó cần phải đánh giá có thư rác hay không Lọt qua bước tiền xử lý lọc thơ, người ta lọc đến nội dung có phải thư rác khơng cách nội dung text quét vào thẻ, thường mười lăm thẻ quan tâm nhất, thẻ quan tâm thẻ mà xác suất chúng đạt mức trung bình 0.5, 26 | P a g e dùng để tính tốn xác suất mà thư có spam hay khơng Cách vài năm phần cứng máy tính nhiều hạn chế, để tiếtkiệm tài nguyên tốc độ xử lý thông tin người ta đặt số thẻ tối đa mười lăm để tính xác suất thư thư rác Ngày vấn đề phần cứng dư sức đáp ứng cho ứng dụng lọc thư nên số thẻ không bị giới hạn Khi mà số thẻ khơng bị hạn chế tức ta phải tính xác suất kết hợp tất chúng Sẽ có trường hợp thẻ chưa xuất bảng băm xác suất Như phải gán giá trị xác suất cho thẻ đó? Kinh nghiệm cho thấy gán giá trị 0.4 hợp lý Nói khác xác suất ngây thơ Ta tính xác suất kết hợp giá trị xác suất đơn theo cơng thức sau đây: Đoạn mã vận dụng xác theo cơng thức tính xác suất kết hợp xác suất trình bày mục trên: Kết p sau so sánh với ngưỡng để phân loại xác thư rác nói Như lần có thư đến ta xác định thêm thư thuộc loại để bổ xung vào tập huấn luyện lọc Người ta xếp time để chạy lại trình huấn luyện để cập nhật lại hay nói khác nâng cao tri thức, khả phân loại cho lọc Vì mà lọc qua thời gian sử dụng phân loại xác khiến người dùng phải bất ngờ khả phân loại gần giống với việc người dùng tự phân loại e Bộ lọc BayesSpam Bộ lọc BayesSpam thực việc lọc thư điện tử theo quy trình cách thức trình bày Ngơn ngữ lập trình dùng để xây dựng lọc viết 27 | P a g e ngơn ngữ lập trình Web PHP dạng plugin tiện cho việc tích hợp vào hệ thống thư điện tử Bộ lọc chạy độc lập với người dùng Tức người dùng có lọc cho riêng họ Bộ lọc BayesSpam cho phép người dùng thư điện tử tự cấu hình lọc từ chối dùng lọc Người dùng gần làm chủ lọc việc điều chỉnh thơng tin cấu hình Có thể tham khảo tính cung cấp cho người dùng bảng điều khiển hình đây: Hình 16: Bảng điều khiển lọc dành cho người dùng thư điện tử Một thư bị đánh dấu thư rác bị di chuyển vào sọt rác Và tiêu đề thư bị đánh dấu thành thư rác [**SPAM/Thư rác**] Ở hình thư rác cấu hình cho riêng vào thư mục ‘test’ Sau khoảng thời gian ngắn lọc tự động xây dựng lại sở liệu dùng thư mà phân loại để cập nhật lại bảng xác suất nói Bộ lọc làm việc ổn định, tốc độ xử lý thơng tin nhanh thuật tốn ngắn gọn Mỗi có kiện lọc tự cập nhật lại sở liệu nhằm gia tăng khả lọc thư Việc huấn luyện cho lọc song song với trình sử dụng phụ thuộc vào cách nhìn nhận thư rác người Nói khác theo thời gian sử dụng lọc mang tính 28 | P a g e cách duyệt thư điện tử người dùng, người mà cấu hình huấn luyện Sau bước cấu hình dùng lọc cần thao tác dạng report cho lọc thư rác đánh giá lại thành thư rác Thông thường người ta hay dùng nút đánh dấu thư rác, phải dùng đến nút thư rác Lúc ban đầu sở liệu lọc nhỏ bé khả phân loại chưa tốt Người dùng phải tự nhận dạng thư đến có thư rác khơng Nhưng thư sau có nội dung tương tự thư rác mà đánh dấu người dùng lọc bắt xác Như rõ ràng thời gian sử dụng cách nhìn nhận thư rác người dùng có yếu tố định khả phân loại lọc Dưới hình ảnh thư rác thử nghiệm để chạy lọc lấy từ thư mục chứa thư rác: Hình 17: Thư rác bị lọc đưa vào thư mục Test, 943 thư rác Làm để Spammer tránh khỏi lọc thư rác? Câu trả lời cho câu hỏi minh chứng cho thấy việc cố gắng ‘spam’ vơ ích dùng lọc Để khơng bị phát thư rác spammer phải cố gắng soạn thư điện tử có nội dung khác với thư mà người bình thường nghĩ thư rác đến 80% mặt nội dung thư hay nói xác khác từ ngữ dùng để viết lên nội dung thư Sẽ có hai trường hợp xảy cố gắng né tránh nội dung, từ ngữ thư khơng thể truyền đạt nội dung spam Tức 29 | P a g e thư quảng cáo khơng thể thiếu từ ngữ ‘mua sắm’, ‘trực tuyến’, ‘miễn phí’, ‘nhân dịp’, ‘mua hàng’, ‘khuyến mại’,… Khơng dùng từ ngữ spammer khơng thể soạn thư rác quảng cáo Như dùng cách né tránh lọc Còn cách thứ hai giữ ngun nội dung quảng cáo khơng soạn thư tiếng việt chuẩn mà viết theo ngơn ngữ teen Ví dụ thay dấu ngã thành ‘~’, dấu chấm thành ‘.’, dấu hỏi thành ‘?’… “Khuye^’n mai mua hang gia’ re? nha^’t …” Cách hay mặt kĩ thuật (làm rối loạn thẻ từ sở liệu khơng khắc phục được) có lại phản tác dụng có nhiều người ghét thấy ngứa mắt với kiểu viết chữ nên nhiều spammer phải từ bỏ phương án Như spammer xả thư rác bình thường người dùng thư không bị quấy rối nhiều lần họ báo cho lọc biết thư rác vài lần Các lần sau huấn luyện lọc thơng minh lọc hết thư rác cách xác đến khơng ngờ Hầu hết người dùng trung thành với lọc đánh giá cao khả lọc thư BayesSpam hiệu khơng có sai sót Và thực tế hoạt động tốt hệ thống thư điện tử trường Công nghệ (http://mail.coltech.vnu.vn) f Một số cải tiến cho lọc BayesSpam Trước đề cập đến vấn đề cải tiến ta cần quan tâm đến hạn chế lọc khoảng thời gian dài người dùng thư điện tử không đăng nhập giả sử lúc người dùng nhận số lượng lớn thư dẫn đến tình trạng đăng nhập bị chậm ì ạch chờ lọc thư đến Để khắc phục tình trạng việc lọc thư cần hoạt động theo định kì mà khơng chờ người dùng đăng nhập Mỗi thư file đặt thư mục (INBOX, SENT, TRASH,…), lọc âm thầm lọc thư người dùng không trực tuyến Do lọc chung cho người nên phải xây dựng dựa phong cách chung, nhìn chung thư rác tất người dùng Để làm điều lọc phải huấn luyện kĩ lưỡng dựa 30 | P a g e liệu thư người dùng Trong khóa luận trình bày ứng dụng chọn lọc thư huấn luyện trích chọn từ thư tất người dùng hệ thống thư điện tử Squirrelmail dùng lọc BayesSpam Ứng dụng web viết ngơn ngữ PHP, có giao diện đơn giản đây: 31 | P a g e KẾT LUẬN Như nói từ đầu tốn học thống kê đóng vai trò quan trọng trọng lĩnh vực Thống kê giúp cho việc nắm bắt đánh giá tình hình trở lên trực quan dễ hiểu Xử lý ứng dụng liệu thống kê đem lại hiệu lớn lao việc tiên đốn từ xây dựng lên hệ tự động hóa hoạt động xác Hướng tiếp cận thống kê theo lý thuyết Bayes đơn giản đem lại hiệu cao mà ứng dụng phổ biến hầu hết lĩnh vực So với phương pháp khác, phương pháp thống kê Bayes lập luận theo kinh nghiệm tích lũy áp dụng vào mơ hình phân loại đối tượng linh hoạt hơn, phù hợp với đặc trưng toán Các chế ước lượng gần gũi với cách suy luận thơng thường mà kết phân loại tương đối giống với cách phân loại thông thường  Các kết đạt là: • Đề tài tập trung nghiên cứu lý thuyết Bayes, từ bước sở tìm hiểu tiếp ứng dụng liên quan trực tiếp đến ngành cơng nghệ thơng tin ứng dụng lọc thư rác Q trình tìm hiểu nguyên lý cách thức hoạt động lọc rút kết luận ưu nhược điểm tiếp cận thống kê Bayes việc phân loại thư rác Đối với vấn đề ứng dụng thực tế, khoá luận sử dụng plugin BayesSpam đối tượng để tìm hiểu nghiên cứu Đối với vấn đề áp dụng lý thuyết Bayes, khố luận nghiên cứu xây dựng cơng thức tính xác suất cho việc xử lý thông tin trở lên nhanh gọn có độ xác cao • Từ việc tìm hiểu ứng dụng BayesSpam, khố luận rút số nhận định ưu điểm nhược điểm lọc trình hoạt động Kết phân loại thư rác nhìn chung gần giống với kết đánh giá thư người dùng • Tuy nhiên, thời gian có hạn kiến thức chuyên môn hệ thống thư điện tử nên kết luận rút q trình nghiên cứu nhiều hạn chế Dưới ưu nhược điểm lọc thư rác Bayes  Những ưu điểm chính: • Ưu điểm lọc thư rác Bayes huấn luyện người dùng sở Đây thể 32 | P a g e nói ưu điểm lớn nhất, tạo nét đặc trưng cách nhìn nhận thư rác người dùng • Các thư rác mà người dùng nhận thường liên quan tới hoạt động trực tuyến người dùng Ví dụ, người sử dụng đăng ký vào tin trực tuyến mà người sử dụng xem xét thư rác Đang xem thơng tin chứa từ ngữ phổ biến cho tất tin, chẳng hạn tên tin nguồn gốc địa email Bộ lọc thư rác Bayesian định xác suất cao dựa cách nhìn nhận người sử dụng • Thư điện thử hợp pháp nhận nhìn nhận theo xu hướng khác người Ví dụ, mơi trường cơng ty, tên công ty bạn tên khách hàng đề cập thường xuyên Các lọc định thư rác xác suất thấp cho email có chứa tên • Xác suất từ người dùng lớn dần theo thời gian huấn luyện, với hiệu chỉnh việc huấn luyện có thư lọc sai Kết là, lọc thư rác Bayesian tăng độ xác đào tạo thường xuyên theo quy tắc xác định trước  Những nhược điểm chính: • Một kỹ thuật sử dụng Spammer nhằm cố gắng để giảm tính hiệu lọc thư rác dựa vào nguyên tắc hoạt động Kĩ thuật chèn từ mà khơng phải bình thường liên kết với nội dung spam với số lượng lớn văn hợp pháp (thu thập từ nguồn tin tức hợp pháp hay văn chương) Do giảm giá trị xác suất kết hợp thư điện tử thư rác, làm cho có nhiều khả vượt qua lọc thư rác Bayes • Một kỹ thuật khác sử dụng để che mắt lọc thư rác Bayes thay văn hình ảnh, trực tiếp đặt liên kết chứa nội dung spam đến hình ảnh Tồn nội dung tin nhắn, số phần nó, thay hình ảnh có nội dung trình bày lơi người xem Bộ lọc thư rác thường khơng thể phân tích hình ảnh này, mà chứa từ nhạy cảm "khiêu dâm" Tuy nhiên, nhiều hệ thống thư điên tử vơ hiệu hố hình hiển thị liên kết hình ảnh lý bảo mật, spammer lại gửi liên kết đến hình ảnh xa tiếp cận với mục tiêu spam Ngồi ra, hình ảnh có kích thước lớn kích thước tương đương văn Do đó, 33 | P a g e spammer cần nhiều nhu cầu băng thông để gửi tin nhắn trực tiếp bao gồm hình ảnh  Do vậy, sau bước tìm hiểu lý thuyết ứng dụng hướng nghiên cứu tiếp đề tài nhằm tăng hiệu lọc là: • Tìm nhìn chung thư rác người dùng thư hệ thống thư điện tử Bằng cách rút email có xác suất thư rác cao để bổ xung vào tập huấn luyện chung cho tất người nhằm gia tăng kinh nghiệm cho lọc • Ngăn chặn việc Spam hình ảnh việc đưa thơng báo thư rác có nội dung chủ yếu đồ họa Đơn giản không cho hiển thị hình ảnh người dùng duyệt thư trừ họ có nhu cầu xem hình ảnh tự họ bật hiển thị • Tích hợp phân tích hình ảnh để lấy văn hình nhằm giảm việc lọc sai loại bỏ tất thư có nội dung chủ yếu đồ họa Việc đòi hỏi hệ thống phải mạnh thuật tốn phân tích hình ảnh thơng minh • Bổ xung thêm vào tập từ trung tính tiếng Việt cho lọc nhằm tăng tốc tiết kiệm tài nguyên cho sở liệu Ví dụ từ trung tính tiếng việt ứng với từ trung tính tiếng Anh như: thì, là, ở, cái, con, và, hoặc, … 34 | P a g e ... mơ hình Nạve Bayes sử dụng phương pháp hợp lý cực đại, nghĩa sử dụng mơ hình Nạve Bayes ta phải chấp nhận xác suất Bayes Mặc dù sử dụng giả định tương đối đơn giản, phân lớp Naïve Bayes áp dụng... định lý Bayes máy phân loại Bayes nhắc đến phần Định lý Bayes Bài viết nói kĩ sâu việc ứng dụng phân loại Bayes cho phân loại văn Cuối có ví dụ ứng dụng máy phân loại Bayes lọc spam a Bài toán... xác suất Bayes Từ cơng thức ta có cơng thức xác suất Bayes: 18 | P a g e P(Bk/A) = (P(ABk) )/(P(A) ) = (P(Bk) P(A/Bk) )/(ΣP(Bi) P(A/Bi))  PHƯƠNG PHÁP PHÂN LOẠI NATIVE BAYES Phân loại Bayesian

Ngày đăng: 29/11/2018, 21:55

w