Phương pháp phân lớp Bayesian:

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT PHÂN LỚP DỮ LIỆU (Trang 43)

II. TÌM HIỂU VỀ PHÂN LỚP DỮ LIỆU: 1 Giới thiệu về phân lớp:

4. Phương pháp phân lớp Bayesian:

Lý thuyết Bayesian cung cấp một tiếp cận theo xác xuất để suy diễn. Nó dựa trên giả thuyết rằng số lượng của khuynh hướng bị chi phối bởi phân bố xác xuất và quyết định tối ưu có thể được tạo bởi sự suy luận về những xác xuất đi liền với dữ liệu được quan sát. Đây là vấn đề quan trọng của máy học bởi vì nó cung cấp một tiếp cận định lượng cho việc xem xét cẩn thận bằng chứng hỗ trợ những giả thuyết thay đổi.

Lý thuyết Bayesian cung cấp giải thuật học cơ bản mà vận dụng những xác xuất cũng như là một khung làm việc cho sự phân tích sự hoạt động của những giải thuật mà không thể vận dụng rõ ràng.

ọc theo xác suất: Tính xác suất hiện cho giả thuyết, trong số những tiếp cận thực dụng nhất cho các kiểu chắc chắn của những vấn đề học.

Tính tăng dần: mỗi ví dụ huấn luyện có thể gia tăng việc tăng hoặc giảm mà không gian giả thuyết đúng . Kiến thức trước có thể kết hợp với dữ liệu được quan sát . Trần Thị Xuân – CH1102019 43

Tiên đoán xác suất : Tiên đoán nhiều không gian giả thuyết, được đo bởi xác suất của nó.

Tiêu chuẩn: Thậm chí khi phương thức Bayesian khó tính toán, chúng cũng cung cấp một tiêu chuẩn tốt nhất cho việc tạo quyết định.

4.1. Định lý Bayesian:

Cho trước một tập huấn luyện D , xát suất posteriori của một giả thuyết h , p(h\D) cho bởi định lý Bayesian :

Giả thuyết tối đa posteriori MAP:

Khó khăn thực tế của phương pháp phân lớp Bayesian ở chỗ nó đòi hỏi kiến thức khởi tạo của nhiều khả năng có thể sãy ra và chi phí tính toán đáng kể .

Phân lớp Naive Bayes:

Giả thuyết đơn giản : những thuộc tính là độc lập theo điều kiện

Chi phí tính toán thu giảm đáng kể chỉ tính đến sự phân bố lớp. Với một tập hợp cho trước chúng ta có thể tính toán khả năng sãy ra

Vấn đề phân lớp có thể được thể thức hóa sử dụng xát suất a-posteriori như sau: P(C|X)= xát suất của mẫu ví dụ x=<x1,..,xk> là lớp của C.

Ý tưởng: gán mẫu X vào lớp nhãn C sao cho P(C|X) là lớn nhất.

Định lý Bayes phát biểu như sau :

Trong đó: P(X) là hằng cho tất cả lớp P(C) = tần suất tương đối của mẫu lớp C

C mà ở đó P(C|X) là lớn nhất = C mà ở đó P(X|C).P(C) là lớn nhất.

Phân lớp Naive Bayesian :

Giả thuyết Naive : thuộc tính là độc lập

P(x1,...,xk|C)=P(x1|C)...P(xk|C) Nếu thuộc tính thứ i là xát thực :

P(xi |C) được ước lượng như là tần suất tương đối của những mẫu có giá trị xi như là thuộc tính thứ i trong lớp C.

Nếu thuộc tính thứ i là liên tục P(xi |C) được ước lượng thông qua hàm mật độ Gaussian .Việc tính toán là dễ dàng trong cả hai trường hợp .Ví dụ play-tennis : phân lớp X .Cho mẫu chưa được thấy như sau X=<rain,hot,high,false>

P(X|p).P(p)=P(rain|p).P(hot|p).P(high|p).P(false|p). P(p) = 3/9.2/9.3/9.6/9.9/14=0.010582

P(rain|n).P(hot|n).P(high|n).P(false|n).P(n)=2/5.2/5.4/5.5/14=0.018286 Mẫu X được phân lớp vào lớp n.

Giải thuật Naïve Bayes viết bằng mã giả như sau:

Sự độc lập của giả thuyết:

Những giả thuyết độc lập nhau sẽ giúp cho việc tính toán trở nên dễ dàng . Độ lợi phân lớp tốt nhất đạt được rất ít trong thực tế vì những thuộc tính (biến) thường liên quan với nhau .

Để vượt qua những giới hạn này người ta giải quyết bằng 2 cách:

 Dùng mạng Bayesian , đây chính là sự kết hợp của lý luận và quan hệ nhân quả giữa những thuộc tính .

 Cây quyết định mà suy luận trên một thuộc tính ở thời điểm xem xét những thuộc tính quan trọng đầu tiên .

Mạng Bayesian Tin cậy ( Bayesian belief network ):

Bayesian belief network cho phép một tập con của những biến độc lập theo điều kiện.

Trong Bayesian belief người ta sử dụng mô hình đồ thị của quan hệ nhân quả. Có nhiều cách học của Bayesian belief networks như sau:

 Cho trước cả cấu trúc mạng và những biến: đây là cách dễ dàng.

 Cấu trúc mạng là hoàn toàn không được biết.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT PHÂN LỚP DỮ LIỆU (Trang 43)

Tải bản đầy đủ (DOC)

(76 trang)
w