Định lý NạveBayes

Thống kê (tốn học) là bộ mơn tốn học rất quan trọng và cĩ nhiều ứng dụng to lớn trong thực tế, giúp con ngƣời rút ra thơng tin từ dữ liệu quan sát, nhằm giải quyết các bài tốn thực tế trong cuộc sống.

Một tiếp cận thống kê trong việc dự đốn sự kiện dựa vào lý thuyết Bayes. Lý thuyết này nĩi về việc tính xác suất của sự kiện dựa vào các kết quả thống kê các sự kiện trong quá khứ. Sau việc tính tốn mỗi sự kiện đƣợc gán xác xuất hay điểm (tùy vào mỗi phƣơng pháp đánh giá) ứng với khả năng cĩ thể xảy ra với sự kiện đĩ. Và cuối cùng dựa vào ngƣỡng để phân loại cho các sự kiện.

Định lý Bayes điều chỉnh các xác suất khi đƣợc cho bằng chứng mới theo cách sau đây:

0 0 0 ( | ) (H ) (H | ) ( ) P E H P P E P E  Trong đĩ:

H0 là đại diện cho một giả thuyết, gọi là một giả thuyết khơn, giả thuyết này

đƣợc suy luận trƣớc khi cĩ đƣợc bằng chứng mới E.

P(H0) đƣợc gọi làxác suất tiền nghiệmcủa H0

P(E | H0) đƣợc gọi là xác suất cĩ điều kiệncủa việc quan sát thấy bằng

chứngEnếu biết rằng giả thuyết H0là đúng. Đại lƣợng này cịn đƣợc gọi

làhàm khả dĩ khi nĩ đƣợc biểu diễn dƣới dạng một hàm củaH0khi cho

trƣớcE.

chứng mớiEdƣới tất cả các giả thuyết loại trừ nhau đơi một. Đại lƣợng này cĩ thể đƣợc tính bằng tổng của tích tất cả các xác suất của các giả thuyết loại trừ nhau đơi một và cácxác suất cĩ điều kiệntƣơng ứng: P E H P H( | i) ( i).

P(H0 | E) đƣợc gọi là xác suất hậu nghiệm của nếu biết .

Hệ sốP(E | H0) /P(E)đại diện cho ảnh hƣởng của bằng chứng đối với

mức độ tin tƣởng vào giả thuyết. Nếu rất cĩ khả năng quan sát đƣợc bằng chứng khi giả thuyết đang xét là đúng, thì hệ số này sẽ cĩ giá trị lớn. Khi nhân xác suất tiền nghiệm của giả thuyết với hệ số này, ta đƣợc một xác suất hậu nghiệm lớn của giả thuyết khi cĩ bằng chứng. Nhờ đĩ, trong suy luận Bayes, định lý Bayes đo đƣợc mức độ mà bằng chứng mới sẽ làm thay đổi sự tin tƣởng vào một giả thuyết.

Các nhà thống kê Bayes lập luận rằng ngay cả khi ngƣời ta cĩ các xác suất chủ quan tiền nghiệm rất khác nhau, bằng chứng mới từ các quan sát lặp đi lặp lại sẽ cĩ xu hƣớng đƣa các xác suất hậu nghiệm của họ lại gần nhau hơn. Trong khi điều này đúng đối với những ngƣời duy lý hồn hảo với các khuynh hƣớng tƣơng đồng trong việc suy xét mức độ tin tƣởng, các khác biệt đủ lớn trong các khuynh hƣớng này cĩ thể (và thƣờng) gây cản trở lớn lao đối với quá trình hội tụ này.

Việc nhân xác suất tiền nghiệm P(H0) với hệ số P(E | H0) / P(E) sẽ

khơng bao giờ cho ra một xác suất lớn hơn 1. Đĩ là vì P(E)khơng nhỏ hơn

P(E H0), mà đại lƣợng này thì bằng P(E | H0).P(H0)

P(E | H0) là xác suất của Ekhi biếtH0, cĩ thể đƣợc biểu diễn bởi một hàm của tham số thứ hai với tham số thứ nhất giữ một giá trị cho trƣớc. Một

hàm nhƣ vậy đƣợc gọi là hàm khả dĩ; đây là một hàm của H0khi cho trƣớcE.

Một tỷ lệ giữa hai hàm khả dĩ đƣợc gọi là tỉ số khả dĩ (likelihood ratio), .

Ví dụ,

Xác suất biên P(E) cịn cĩ thể đƣợc biểu diễn bằng tổng của tích tất cả các

xác suất đơi một loại trừ nhau với các xác suất cĩ điều kiện tƣơng ứng:

Do đĩ, ta cĩ thể viết lại định lý Bayes nhƣ sau:

Với 2 bằng chứngđộc lập E1vàE2, ta cĩ thể áp dụng suy luận Bayes

lặp đi lặp lại. Ta cĩ thể dùng bằng chứng thứ nhất để tính một xác suất hậu nghiệm ban đầu, rồi dùng xác suất hậu nghiệm đĩ làm một xác suất tiền nghiệm để tính một xác suất hậu nghiệm thứ hai theo bằng chứng thứ hai.

Tính độc lập của bằng chứng hàm ý rằng

Định lý Bayes đƣợc sử dụng lặp đi lặp lại hàm ý rằng

Sử dụng các tỉ số khả dĩ, ta thấy rằng

Quá trình lặp này của suy luận Bayes cĩ thể đƣợc mở rộng khi cĩ thêm các bằng chứng độc lập khác.

Suy luận Bayes đƣợc dùng để tính các xác suất cho việc đƣa ra quyết định trong tình huống khơng chắc chắn. Bên cạnh các xác suất, ta nên tính

một hàm mất mátnhằm mục đích phản ánh các hậu quả của việc phạm sai

lầm. Các xác suất đại diện cho khả năng hoặc niềm tin về việc phạm sai lầm. Một hàm mất mát đại diện cho các hậu quả của việc phạm sai lầm.

Các kiểu lừa đảo của Phishing

Phƣơng pháp TF × IDF