Lý thuyết Bayes

Một phần của tài liệu Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest (Trang 50 - 51)

Lý thuyết Bayes được đặt theo tên nhà khoa học người Anh Thomas Bayes ở thế kỷ 18, ơng là một trong những nhà khoa học tiên phong đặt nền mĩng cho lý thuyết xác suất và lý thuyết quyết định.

Giả sử X là một tập dữ liệu, theo Bayes, X được xem là bằng chứng và X được mơ tả bằng việc đo lường được thực hiện trên một tập n các thuộc tính. Giả sử H là một giả thiết cho rằng tập dữ liệu X thuộc về một lớp C nào đĩ. Đối với các vấn đề liên quan đến việc phân lớp chúng ta muốn xác định P(H|X), là xác suất mà giả thiết H cĩ được từ những dữ liệu X. Nĩi một cách khác chúng ta đang tìm kiếm xác suất mà dữ liệu X thuộc về lớp C, khi chúng ta biết các thuộc tính mơ tả của dữ liệu X.

P(H|X) được gọi là hậu xác suất (posterior probability) của H trên bộ dữ liệu X. Ví dụ, chúng ta cĩ bộ dữ liệu về các khách hàng được mơ tả bởi hai thuộc tính là tuổi và thu nhập, trong đĩ X là dữ liệu về khách hàng cĩ tuổi từ 35 trở lên và cĩ thu nhập 40000 đơ la. Giả sử H là giả thiết rằng khách hàng của chúng ta sẽ mua máy tính, thì P(H|X) thể hiện xác suất khách hàng sẽ mua máy tính và chúng ta đã biết trước được độ tuổi và thu nhập của khách hàng.

Ngược lại P(H) được gọi là tiền xác suất (prior probability) của H. Trong ví dụ của chúng ta, đây là xác suất mà bất cứ khách hàng nào mua máy tính bỏ qua các yếu tố về độ tuổi, thu nhập hay bất kỳ thơng tin nào khác. Như đã tìm hiểu ở trên, hậu xác suất P(H|X), được tính tốn dựa vào nhiều thơng tin hơn (ví dụ như thơng tin khách hàng) hơn tiền xác suất P(H).

Chương 5: Phương pháp học máy đề xuất Trang 50

Tương tự P(X|H) là hậu xác suất của X thỏa mãn điều kiện H. Đĩ là xác suất một khách hàng, X, cĩ độ tuổi lớn hơn 35, cĩ thu nhập 40000 đơ la sẽ mua máy tính. P(X) là tiền xác suất của X, trong ví dụ của chúng ta đĩ là xác xuất một người cĩ độ tuổi lớn hơn 35 và thu nhập 40000 đơ la trong tập các khách hàng của chúng ta.

Câu hỏi đặt ra là các xác xuất trên được ước tính như thế nào? P(H), P(X|H) và P(X) cĩ thể được ước tính từ tập dữ liệu. Lý thuyết Bayes đưa ra một cách tính hậu xác suất P(H|X) từ P(H), P(X|H) và P(X). Theo Bayes P(H|X) được tính như sau:

Một phần của tài liệu Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest (Trang 50 - 51)

Tải bản đầy đủ (PDF)

(75 trang)