.1 9 Cây quyết định kết quả

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ BI của hệ quản trị CSDL SQL Server 2008 (Trang 36 - 37)

E(Giới tính) = (2/4)*I(2,0) + (2/8)*I(0,2) = 0

Gain(Giới tính) = 0,954 – 0 = 0,954

Như vậy thuộc tính “Giới tính” cĩ độ lợi thơng tin lớn nhất được dùng để phân lớp, ta cĩ cây quyết định tạo ra như hình 2.19.

Như vậy các luật được tạo ra như sau:

IF (Quê quán = ‘Hưng Yên’) OR (Quê quán = ‘Hà nội’ AND giới tính = ‘Nam’) THEN ‘Khá’

ELSE ‘TB’

a.2. Thuật tốn Nạve Bayes:

Thuật tốn này xây dựng mơ hình khai thác nhanh hơn các thuật tốn khác, phuc vụ việc phân loại và dự đốn. Nĩ tính tốn khả năng cĩ thể xảy ra trong mỗi trường hợp lệ của thuộc tính đầu vào, gán cho mỗi trường mộ t thuộc tính cĩ thể dự đốn. Mỗi trường này cĩ thể sau đĩ được sử dụng để dự đốn kết quả của thuộc tính dự đốn dựa vào những thuộc tính đầu vào đã biết. Các khả năng sử dụng để sinh ra các mơ hình được tính tốn và lưu trữ trong suốt quá trình xử lý của khối lập phương. Thuật tốn này chỉ hỗ trợ các thuộc tính hoặc là rời rạc hoặc liên tục, và nĩ xem xét tất cả các thuộc tính đầu vào độc lập. Thuật tốn này cho ta một mơ hình khai thác đơn giản (cĩ thể được coi là điểm xuất phát của khai phá dữ liệu), bởi vì hầu như tất cả các tính tốn sử dụng trong khi thiết lập mơ hình, được sinh ra trong xử lí của khối, kết quả được trả về nhanh chĩng. Điều này tạo cho mơ hình một lựa chọn tốt để khai phá dữ liệu khám phá các thuộc tính đầu vào được phân bố trong các trường khác nhau của thuộc tính dự đốn như thế nào?

Bài tốn:

Gọi X là đối tượng chưa biết lớp. H là giả thuyết sao cho X thuộc về lớp C. Ta cần tính xác suất hậu nghiệm (posterior probability) P(H|X) sao cho H đúng khi cho trước quan sát X (H conditioned on X).

 Mỗi mẫu dữ liệu được biểu diễn bằng X= (x1, x2,…, xn) với các thuộc tính A1, A2,…, An.

 Các lớp C1, C2, …, Cm. Cho trước mẫu chưa biết X. Phân lớp Nạve Bayesian gán X vào Ci nếu P(Ci|X) > P(Cj|X) với 1 ≤ j≤ m, j ≠ i.

Quê quán

Hà nội Hưng yên Hải phịng

 Do

1.4

nên P(Ci|X) > P(Cj|X)  P(X|Ci).P(Ci) > P(X|Cj).P(Cj)

 Giả thiết các thuộc tính là độc lập tức là

1.5

 Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho từng Ci. Sau đĩ mẫu X được gán vào Ci nếu P(Ci|X) > P(Cj|X) for 1 ≤ j ≤ m, j ≠ i . Nĩi cách khác, Nạve Bayesian gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là cực đại.

Ví dụ:

Dựa vào bảng dữ liệu cho trong hình 2.9, ta cĩ thể tính các xác suất sau: - Xác suất lớp dương (Khá): P(p) = 5/8

- Xác suất lớp âm (TB): P(n) = 3/8

Quê quán

P(Hà nội | p) = 2/5 P(Hà nội | n) = 2/3 P(Hưng yên | p) = 3/5 P(Hưng yên | n) = 0 P(Hải phịng | p) = 0 P(Hải phịng | n) = 1/3 Điểm vào P(Cao | p) = 2/5 P(Cao | n) = 0 P(Trung bình | p) = 1/5 P(Trung bình | n) = 2/3 P(Thấp | p) = 2/5 P(Thấp | n) = 1/3 Kinh tế P(Tốt | p) = 2/5 P(Tốt | n) = 1/3 P(Bình thường | p) = 2/5 P(Bình thường | n) = 1/3 P(Khơng tốt | p) = 1/5 P(Khơng tốt | n) = 1/3 Giới tính P(Nam | p) = 3/5 P(Nam | n) = 0 P(nữ | p) = 2/5 P(Nữ | n) = 3/3

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ BI của hệ quản trị CSDL SQL Server 2008 (Trang 36 - 37)