Hay nói khác hơn là khi đã có tri thức lấy từ các dữ liệu thống kê hay kinh nghiệm của người dùng kết hợp với một phương pháp học huấn luyện dựa trên lý thuyết thống kê ta sẽ có được một
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-<> -
Nguyễn Văn Huy
THUẬT TOÁN BAYES VÀ ỨNG DỤNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành : Công Nghệ Thông Tin
HÀ NỘI – 2009
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-<> -
Nguyễn Văn Huy
THUẬT TOÁN BAYES VÀ ỨNG DỤNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành : Công Nghệ Thông Tin
Cán bộ hướng dẫn: ThS Nguyễn Nam Hải Cán bộ đồng hướng dẫn: ThS Đỗ Hoàng Kiên
HÀ NỘI – 2009
Trang 3Lời cảm ơn
Viết khóa luận khoa học là một trong những việc khó khăn nhất mà em phải hoàn thành từ trước đến nay Trong quá trình thực hiện đề tài em đã gặp rất nhiều khó khăn và bỡ ngỡ Nếu không có những sự giúp đỡ và lời động viên chân thành của nhiều thầy cô bạn bè và gia gia đình có lẽ em khó có thể hoàn thành luận văn này
Đầu tiên em xin gửi lời cảm ơn chân thành đến thày Nguyễn Nam Hải và thày
Đỗ Hoàng Kiên đã trực tiếp hướng dẫn em hoàn thành luận văn này Nhờ có thày mà
em được tiếp cận với nguồn tài liệu giá trị cũng như những góp ý quý giá sau này Bên cạnh sự giúp đỡ đó, em còn được các thày bên Trung tâm máy tính tạo mọi điều kiện tốt nhất về cơ sở vật chất cũng như hướng dẫn chỉ bảo ân cần để em được tiếp cận với
hệ thống Em biết ơn những ngày tháng được làm việc bên các thày, em không thể nào quên những ngày tháng tuyệt vời đó
Trong quá trình góp nhặt những kiến thức quý báu, các thày, cô, bạn bè là những người đã cùng em sát cánh trong suốt thời gian em học tập và nghiên cứu dưới mái trường Đại học Công nghệ
Trong những nỗ lực đó, không thể không kể đến công lao to lớn không gì có thể đền đáp của cha mẹ những người đã sinh thành, dưỡng dục con nên người, luôn nhắc nhở, động viên con hoàn thành tốt nhiệm vụ
Hà Nội Tháng 5, 2009
Nguyễn Văn Huy
Trang 4Tóm tắt nội dung
Thống kê (toán học) là bộ môn toán học rất quan trọng và có nhiều ứng dụng to lớn trong thực tế, giúp con người rút ra thông tin từ dữ liệu quan sát, nhằm giải quyết các bài toán thực tế trong cuộc sống
Trong khóa luận này trình bày về một tiếp cận thống kê trong việc dự đoán sự kiện dựa vào lý thuyết Bayes Lý thuyết này nói về việc tính xác suất của sự kiện dựa vào các kết quả thống kê các sự kiện trong quá khứ Sau việc tính toán mỗi sự kiện được gán xác xuất hay điểm (tùy vào mỗi phương pháp đánh giá) ứng với khả năng có thể xảy ra với sự kiện đó Và cuối cùng dựa vào ngưỡng để phân loại cho các sự kiện
Sau phần lý thuyết chúng ta sẽ tìm hiểu về bài toán thực tế trong ngành công nghệ thông tin Bài toán về việc lọc thư rác tự động Giải quyết bài này là sự kết hợp
từ rất nhiều phương án như DNS Blacklist, kiểm tra người nhận, người gửi, dùng bộ lọc Bayes, chặn địa chỉ IP, Blacklist/Whitelist, Dùng bộ lọc Bayes là phương án thông minh nó gần gũi với người dùng bởi chính người dùng đã huấn luyện nó nhận biết thư rác Khóa luận này tập chung vào việc tìm hiểu bộ lọc thư rác Bayesspam –
mã nguồn mở, cài đặt cho hệ thống email có tên là SquirrelMail – mã nguồn mở đang được dùng cho hệ thống email của trường đại học Công nghệ - Coltech Mail Kết quả cho thấy bộ lọc có mức độ hoạt động hiệu quả là khác nhau tùy thuộc việc người dùng huấn luyện cho bộ lọc thông qua các thư điện tử mà họ cho là thư rác nhưng nói chung
bộ lọc đã đem lại hiệu quả khá tốt
Trang 5Mục lục
Chương 1 Giới thiệu 1
1.1 Tổng quan 1
1.2 Cấu trúc 3
Chương 2 Cơ sở lý thuyết 4
2.1 Phát biểu định lý Bayes 4
2.2 Cực tiểu hóa rủi ro trong bài toán phân lớp Bayes 5
2.3 Phân lớp Bayes chuẩn tắc 13
2.4 Miền quyết định 20
Chương 3 Phân lớp Naive Bayes 22
3.1 Định nghĩa 22
3.2 Các mô hình xác suất Naive Bayes 23
3.3 Ước lượng tham số 24
3.4 Xây dựng một classifier từ mô hình xác suất 25
3.5 Thuật toán phân loại văn bản Naive Bayes 25
Ví dụ: Phân loại thư điện tử bằng Naive Bayes classifier 27
Chương 4 Giải quyết bài toán lọc thư rác 30
4.1 Đặt vấn đề 30
4.2 Bài toán 31
4.3 Tiền xử lý mỗi lá thư điện tử 31
4.4 Dùng luật Bayes tính xác suất 32
4.5 Huấn luyện cho bộ lọc Bayes 33
4.6 Lọc thư đến, có là thư rác không? 34
4.7 Bộ lọc BayesSpam 35
4.8 Một số cải tiến cho bộ lọc BayesSpam 38
Chương 5 Kết luận 40
Trang 6Phụ lục A Cơ sở dữ liệu của bộ lọc 43 Tài liệu tham khảo 44
Trang 7Chương 1 Giới thiệu
1.1 Tổng quan
Khoa học thống kê đóng một vai trò cực kỳ quan trọng, một vai trò không thể thiếu được trong bất cứ công trình nghiên cứu khoa học, nhất là khoa học thực nghiệm như y khoa, sinh học, nông nghiệp, hóa học, và ngay cả xã hội học Thí nghiệm dựa vào các phương pháp thống kê học có thể cung cấp cho khoa học những câu trả lời khách quan nhất cho những vấn đề khó khăn nhất
Khoa học thống kê là khoa học về thu thập, phân tích, diễn giải và trình bày các dữ liệu để từ đó tìm ra bản chất và tính quy luật của các hiện tượng kinh tế, xã hội
- tự nhiên Khoa học thống kê dựa vào lý thuyết thống kê, một loại toán học ứng dụng Trong lý thuyết thống kê, tính chất ngẫu nhiên và sự không chắc chắn có thể làm mô hình dựa vào lý thuyết xác suất Vì mục đích của khoa học thống kê là để tạo ra thông tin "đúng nhất" theo dữ liệu có sẵn, có nhiều học giả nhìn khoa thống kê như một loại
lý thuyết quyết định
Thống kê là một trong những công cụ quản lý vĩ mô quan trọng, cung cấp các thông tin thống kê trung thực, khách quan, chính xác, đầy đủ, kịp thời trong việc đánh giá, dự báo tình hình, hoạch định chiến lược, chính sách, xây dựng kế hoạch phát triển kinh tế - xã hội và đáp ứng nhu cầu thông tin thống kê của các tổ chức, cá nhân Trong
số những vai trò quan trọng thì dự báo tình hình là một trong những vai trò mang nhiều ý nghĩa, nó có cả một quá trình huấn luyện bên trong và có tính xử lý tự động khi đã được huấn luyện Hay nói khác hơn là khi đã có tri thức lấy từ các dữ liệu thống
kê hay kinh nghiệm của người dùng kết hợp với một phương pháp học (huấn luyện) dựa trên lý thuyết thống kê ta sẽ có được một cỗ máy có tri thức để tự nó có thể đưa ra được những quyết định với độ chính xác khá cao
Phân tích thống kê là một khâu quan trọng không thể thiếu được trong các công trình nghiên cứu khoa học, nhất là khoa học thực nghiệm Một công trình nghiên cứu khoa học, cho dù có tốn kém và quan trọng cỡ nào, nếu không được phân tích đúng phương pháp sẽ không bao giờ có cơ hội được xuất hiện trong các tập san khoa học Ngày nay, chỉ cần nhìn qua tất cả các tập san nghiên cứu khoa học trên thế giới, hầu như bất cứ bài báo y học nào cũng có phần “Statistical Analysis” (Phân tích thống kê), nơi mà tác giả phải mô tả cẩn thận phương pháp phân tích, tính toán như thế nào,
và giải thích ngắn gọn tại sao sử dụng những phương pháp đó để hàm ý “bảo kê” hay
Trang 8tăng trọng lượng khoa học cho những phát biểu trong bài báo Các tập san y học có uy tín càng cao yêu cầu về phân tích thống kê càng nặng Không có phần phân tích thống
kê, bài báo không thể xem là một “bài báo khoa học” Không có phân tích thống kê, công trình nghiên cứu chưa được xem là hoàn tất
Trong khoa học thống kê, có hai trường phái “cạnh tranh” song song với nhau,
đó là trường phái tần số (frequentist school) và trường phái Bayes (Bayesian school) Phần lớn các phương pháp thống kê đang sử dụng ngày nay được phát triển từ trường phái tần số, nhưng hiện nay, trường phái Bayes đang trên đà “chinh phục” khoa học bằng một suy nghĩ “mới” về khoa học và suy luận khoa học Phương pháp thống kê thuộc trường phái tần số thường đơn giản hơn các phương pháp thuộc trường phái Bayes Có người từng ví von rằng những ai làm thống kê theo trường phái Bayes là những thiên tài!
Để hiểu sự khác biệt cơ bản giữa hai trường phái này, có lẽ cần phải nói đôi qua vài dòng về triết lý khoa học thống kê bằng một ví dụ về nghiên cứu y khoa Để biết hai thuật điều trị có hiệu quả giống nhau hay không, nhà nghiên cứu phải thu thập
dữ liệu trong hai nhóm bệnh nhân (một nhóm được điều trị bằng phương pháp A, và một nhóm được điều trị bằng phương pháp B) Trường phái tần số đặt câu hỏi rằng
“nếu hai thuật điều trị có hiệu quả như nhau, xác suất mà dữ liệu quan sát là bao nhiêu”, nhưng trường phái Bayes hỏi khác: “Với dữ liệu quan sát được, xác suất mà thuật điều trị A có hiệu quả cao hơn thuật điều trị B là bao nhiêu” Tuy hai cách hỏi thoạt đầu mới đọc qua thì chẳng có gì khác nhau, nhưng suy nghĩ kỹ chúng ta sẽ thấy
đó là sự khác biệt mang tính triết lý khoa học và ý nghĩa của nó rất quan trọng Đối với người bác sĩ (hay nhà khoa học nói chung), suy luận theo trường phái Bayes là rất tự nhiên, rất hợp với thực tế Trong y khoa lâm sàng, người bác sĩ phải sử dụng kết quả xét nghiệm để phán đoán bệnh nhân mắc hay không mắc ung thư (cũng giống như trong nghiên cứu khoa học, chúng ta phải sử dụng số liệu để suy luận về khả năng của một giả thiết)
Trang 91.2 Cấu trúc
Các phần còn lại của khóa luận có cấu trúc như sau:
Chương 2 trình bày cơ sở lý thuyết Bayes các khái niệm, phương pháp được
sử dụng trong khoá luận
Chương 3 trình bày lý thuyết Bayes nâng cao - Naive Bayes Chương này sẽ
đề cập đến khái niệm, ưu điểm và ứng dụng phân loại của nó từ đó căn cứ nghiên cứu xây dựng hệ thống phân loại văn bản
Chương 4 trình bày chi tiết về bộ lọc bao gồm các vấn đề về cơ sở tri thức, việc huấn luyện cho bộ lọc, cách thức làm việc và hướng cải tiến trong việc lọc thư rác
Chương 5 trình bày kết luận về chương trình ứng dụng bộ lọc BayesSpam cài đặt trên hệ thống thư điện tử Squirrelmail
Trang 10Chương 2 Cơ sở lý thuyết
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
Xác suất xảy ra A của riêng nó, không quan tâm đến B Kí hiệu là
P(A) và đọc là xác suất của A Đây được gọi là xác suất biên duyên hay xác suất tiên nghiệm, nó là "tiên nghiệm" theo nghĩa rằng nó không quan tâm đến bất kỳ thông tin nào về B
Xác suất xảy ra B của riêng nó, không quan tâm đến A Kí hiệu là
P(B) và đọc là "xác suất của B" Đại lượng này còn gọi là hằng số
chuẩn hóa (normalising constant), vì nó luôn giống nhau, không phụ
thuộc vào sự kiện A đang muốn biết
Xác suất xảy ra B khi biết A xảy ra Kí hiệu là P(B|A) và đọc là "xác suất của B nếu có A" Đại lượng này gọi là khả năng (likelihood) xảy
ra B khi biết A đã xảy ra Chú ý không nhầm lẫn giữa khả năng xảy ra
A khi biết B và xác suất xảy ra A khi biết B
Khi biết ba đại lượng này, xác suất của A khi biết B cho bởi công thức:
Trang 11Giả sử bài toán yêu cầu thực hiện một quyết định không rõ ràng, chẳng hạn chọn lớp cho cái nút chai bất kỳ mà không biết gì về nút chai đó Nếu chỉ có thông tin
là xác suất tiên nghiệm thì ta sẽ chọn lớp w2 Với cách này chúng ta mong rằng nó chỉ sai 40% số lần
Giả sử rằng chúng ta có thể đo được vecto đặc trưng của nút chai, p(wi|x) là xác suất có điều kiện mô tả xác suất để đối tượng x thuộc lớp wi Nếu chúng ta có thể xác định xác suất p(w1|x) và p(w2|x) dễ thấy rằng:
Nếu P(w1| x) > P(w2|x) ta phân x vào w1;
Nếu P(w1| x) < P(w2|x) ta phân x vào w2;
Nếu P(w1| x) = P(w2| x) chọn tùy ý
Tóm lại:
if P(w1|x) > P(w2|x) then x w1 else x w2 (1-2a)
Trang 12Xác suất hậu nghiệm P(wi|x) có thể tính được nếu chúng ta biết pdfs (các hàm mật độ xác suất) của các phân phối vec tơ đặc trưng của 2 lớp Sau đó ta tính các xác suất p(x|wi) , là xác suất để đối tượng thuộc lớp wi có đặc trưng là x gọi là
likelihood of x tạm dịch là khả năng xảy ra x hay là hợp lý của x Thực tế ta dùng công thức Bayes:
then x w1 else x w2 (1-4a)
Trong công thức (1-4a) thì v(x) gọi là tỷ số hợp lý (likelihood ratio)
Trang 13Hình 1: Biểu đồ của đặc trưng N cho hai lớp học của các nút chai Giá trị ngưỡng N = 65 được đánh dấu bằng một đường thẳng đứng
Giả sử rằng mỗi nút chai chỉ có một đặc trưng là N, tức là vec tơ đặc trưng là x = [N], giả sử có một nút chai có x = [65].
Từ đồ thị ta tính được các xác suất likelihood:
tô đậm Đây là vùng mà khoảng cách phân lớp là nhỏ nhất
Xác suất tiên nghiệm của w1lớn hơn của w2 Ngưỡng quyết định thay thế các lớp có xác suất tiên nghiệm nhỏ hơn Vì vậy giảm số trường hợp của lớp
có xác suất tiên nghiệm cao dường như có vẻ thuận tiện
Trang 14Hình 2: Xác suất tiên nghiệm đồng nhất (a), không đồng nhất (b)
Chúng ta thấy rằng thật sự độ lệch ngưỡng quyết định đã dẫn đến lớp w2 tốt hơn lớp w1 Điều này nghe có vẻ hợp lý kể từ khi mà bây giờ lớp w2 xuất hiện thường xuyên hơn Khi độ sai toàn phần tăng lên điều kỳ lạ là sự ảnh hưởng của xác suất tiên nghiệm là có lợi Câu trả lời cho câu hỏi này là liên quan đến chủ đề phân lớp mạo hiểm, mà sẽ được trình bày ngay bây giờ
Chúng ta giả định rằng giá của một nút chai (cork stopper) thuộc lớp w1 là
0.025£, lớp w2 là 0.015£. Giả sử là các nút chai lớp w1 được dùng cho các chai đặc biệt, còn các nút chai lớp w2 thì dùng cho các chai bình thường
Nếu ta phân lớp sai một nút chai lớp w1 thì sẽ bị mất 0.025-0.015=0.01£.
Nếu phân lớp sai một nút chai lớp w2 thì dẫn đến nó sẽ bị loại bỏ và sẽ bị mất 0.015£.
Ta ký hiệu:
SB - Hành động của việc sử dụng một nút chai(cork stopper) để phân
cho loại chai đặc biệt
NB - Hành động của việc sử dụng một nút chai(cork stopper) để phân
cho loại chai bình thường
w1 = S (siêu lớp); w2 = A (lớp trung bình)
Trang 15Hình 3: Kết quả phân lớp của cork stoppers với xác suất tiên nghiệm không đồng nhất: 0.4 cho lớp w1 và 0.6 cho lớp w2
Trang 16Chúng ta giả định rằng đánh giá rủi ro chỉ chịu ảnh hưởng từ quyết định sai
Do vậy một quyết định chính xác sẽ không gây ra thiệt hại λii=0, như trong (1-6) Nếu thay vì 2 lớp chúng ta có c lớp thì sự mất mát ứng với một hành động αi sẽ là:
(1-6c)
Chúng ta quan tâm đến việc giảm thiểu mức rủi ro trung bình tính cho một lượng lớn nút chai bất kỳ Công thức Bayes cho rủi ro nhỏ nhất làm được điều này bằng cách cực tiểu hóa các rủi ro có điều kiện R(αi | x).
Giả sử ban đầu rằng các quyết định sai lầm có cùng một mất mát, chúng có tỉ lệ với một đơn vị mất mát:
i 1
Trang 17Điều này tương đương với việc chúng ta cực đại P(wi | x), luật quyết định Bayes cho rủi ro cực tiểu tương ứng với việc tổng quát hóa vấn đề:
Phân lớp winếu P(wi | x) > P(wj | x), j i (1-7c)
Tóm lại: luật quyết định Bayes cho rủi ro cực tiểu, khi sự phân lớp đúng thì không bị mất mát và nếu như phân lớp sai thì có mất mát, ta cần phải chọn được lớp có xác suất hậu nghiệm là cức đại
Trang 18Với sự mất mát λ12 = 0.015 và λ21 = 0.01, sử dụng xác suất tiên nghiệm ở trên ta được P*(w1) = 0.308 và P*(w2) = 0.692 Sự thiệt hại sẽ là lớn hơn nếu như phân lớp sai lớp w2 do đó cần tăng P*(w2) lên so với P*(w1). Kết quả của việc điều chỉnh là giảm số lượng các phần tử thuộc lớp w2 bị phân lớp sai thành w1 Xem kết quả phân lớp ở hình ở hình 6
Ta có thể tính giá trị rủi ro trung bình trường hợp có 2 lớp:
(1-9)
Trang 19R2 và R2 là miền quyết định của lớp 1 và lớp2, còn Peij là xác suất sai
số của sự quyết định lớp là i khi mà lớp đúng là j
Chúng ta hãy sử dụng tập dữ liệu huấn luyện để đánh giá những sai số này,
Pe12=0.1 và Pe21=0.46 (xem hình 6) Rủi ro trung bình đối với mỗi nút chai bây giờ là:
phương pháp cực tiểu hóa rủi ro theo kinh nghiệm (empirical risk minimization
(ERM)), nguyên tắc là cực tiểu hóa rủi ro theo kinh nghiệm thay vì rủi ro thực tế
2.3 Phân lớp Bayes chuẩn tắc
Cho đến giờ chúng ta vẫn chưa giả định đặc trưng của phân phối mẫu cho likelihoods Tuy nhiên, mô hình chuẩn tắc là một giả định hợp lý Mô hình chuẩn tắc
có liên quan đến định lý giới hạn trung tâm nổi tiếng, theo định lý này thì tổng của một lượng lớn các biến ngẫu nhiên độc lập và phân phối đồng nhất sẽ có phân phối hội tụ
về luật chuẩn Thực tế ta có được một xấp xỉ đến luật chuẩn tắc, thậm chí với cả một
số lượng tương đối nhỏ được thêm vào các biến ngẫu nhiên Đối với các đặc trưng có thể được coi là kết quả của việc bổ sung các biến độc lập, thường thì giả định là có thể chấp nhận
Likelihood chuẩn tắc của lớp ωi được biểu diễn bởi hàm mật độ xác suất:
Trang 20µi và ∑i là các tham số phân phối, đến giờ thì ta đã sử dụng các ước lượng mẫu mi và Ci
Hình 7 minh họa phân phối chuẩn trong trường hợp có hai chiều
Cho một tập huấn luyện có n mẫu T={x1, x2, … xn} được mô tả bởi một phân phối với hàm mật độ xác suất là p(T | θ), θ là một vec tơ tham số của phân phối (chẳng hạn như vec tơ trung bình của phân phối chuẩn) Một cách đáng chú ý tính được ước lượng mẫu của vectơ tham biến là cực đại hóa hàm mật độ xác suất p(T | θ),
có thể coi dây là một hàm của θ gọi là likelihood of θ cho tập huấn luyện Giả sử rằng
mỗi mẫu là đưa vào độc lập từ một tập vô hạn, chúng ta có thể biểu thị likelihood như sau:
Khi sử dụng ước lượng hợp lý cực đại (maximum likelihood estimation) của
các biến phân phối thì nó thường dễ dàng hơn là tính cưc đại của ln[p(T|θ)], điều này
là tương đương nhau Với phân phối Gauss ước lượng mẫu được cho bởi các công thức (1-10a) và (1-10b) chính là ước lượng hợp lý cực đại và nó sẽ hội tụ về một giá trị
p T p x
Trang 21Như có thể nhìn thấy từ (1-10), các bề mặt của mật độ xác suất đồng nhất với
hợp lý chuẩn (normal likelihood) thỏa mãn Mahalanobis metric:
Bây giờ chúng ta tiếp tục tính hàm quyết định cho các đặc trưng của phân phối chuẩn:
gi(x) = P(ωi | x) = P(ωi) p(x | ωi) (1-11)
biến đổi logarit ta được:
Bằng cách sử dụng những hàm quyết định, rõ ràng phụ thuộc Mahalanobis
metric, ta có thể xây dựng phân lớp Bayes với rủi ro nhỏ nhất, đây là phân lớp tối ưu
Chú ý rằng công thức (1-11b) sử dụng giá trị thật của khoảng cách Mahalanobis, trong khi mà trước đó chúng ta sử dụng ước lượng của khoảng cách này
Với trường hợp covariance đồng nhất cho tất cả các lớp (∑i=∑) và bỏ qua các hằng số ta được:
(1-11c)
1
Trang 22Với bài toán 2 lớp, biệt số d(x) =h1(x)-h2(x) là dễ đàng tính toán:
Qua đó ta có được hàm quyết định tuyến tính
Hai lớp phân biệt với phân phối chuẩn, xác suất tiên nghiệm đồng nhất và covariance và vẫn còn có một công thức rất đơn giản cho xác suất của lỗi của phân lớp:
Trang 23bình phương của khoảng cách Bhattacharyya, một khoảng cách Mahalanobis của sai phân trung bình, thể hiện tính dễ tách lớp
Hình 8 thể hiện dáng điệu của Pe với sự tăng dần của bình phương khảng cách Bhattacharyya Hàm này giảm dần theo cấp số mũ và nó hội tụ tiệm cận tới 0 Vì vậy thật khó để giảm sai số phân lớp khi giá trị này là nhỏ
Lưu ý rằng ngay cả khi các phân phối mẫu không phải là phân phối chuẩn, miễn
là chúng đối xứng và phải tuân theo Mahalanobis metric, thì chúng ta sẽ thu được mặt phân lớp quyết định tương tự như phân lớp chuẩn, cho dù có sự khác biệt về đánh giá sai số và xác suất hậu nghiệm Để minh họa ta hãy xét hai lớp có xác suất tiên nghiệm đồng nhất và có ba loại phân phối đối xứng, với cùng độ lệch tiêu chuẩn và trung bình
0 và 2.3 như hình 9
Trang 24Phân lớp tối ưu cho 3 trường hợp sử dụng cùng một ngưỡng quyết định có giá trị 1.15, tuy nhiên các sai số phân lớp là khác nhau:
Chúng ta sẽ minh họa bằng cách sử dụng bộ dữ liệu Norm2c2d Sai số lý thuyết đối với trường hợp hai lớp, hai chiều và bộ dữ liệu trên là:
δ2 =
Ước lượng sai số của bộ dữ liệu huấn luyện cho tập dữ liệu này là 5% Bằng cách đưa vào sai số ±0.1 vào các giá trị của ma trận ánh xạ A cho bộ dữ liệu, với độ lệch nằm giữa 15% và 42% giá rị của covariance, ta được sai số tập huấn luyện là
Trang 25Trở lại với dữ liệu các nút chai, ta có bài toán phân lớp sử dụng 2 đặc trưng N
và PRT với xác suất tiên nghiệm đồng nhất Lưu ý phân lớp thống kê ngoài tính toán
số nó không làm thay đổi các phép toán, vì thế mà các kết quả đạt được là giống nhau nếu như sử dụng PRT hay PRT10
Một danh sách riêng các xác suất hậu nghiệm hữu ích trong tính toán các sai số phân lớp, xem hình 11
Cho các ma trận covariances ở trong bảng 1 Độ lệch của các phần tử trong ma trận covariance so với giá trị trung tâm nằm trong khoảng từ 5% đến 30% Hình dáng của các cụm là tương tự nhau, đây là bằng chứng để tin rằng việc phân lớp là gần với tối ưu
Bằng cách sử dụng hàm quyết định dựa trên các ma trận covariance riêng lẻ, thay vì chỉ một ma trận tổng covariance, ta sẽ xây dựng được đường biên quyết định bâc hai Tuy nhiên phân lớp bằng đường bậc hai khó tính độ lệch hơn so với phân lớp tuyến tính, đặc biệt là trong không gian nhiều chiều, và ta cần phải có một lượng lớn