Hàm giảm (Decrease Function)

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 73 - 74)

Chơng 8 Khảo nghiệm khai phá dữ liệu trong Oracle

8.2.4.1 Hàm giảm (Decrease Function)

Các cây Darwin có hai hàm giảm đợc tích hợp dùng để đo mức độ pha trộn trong một lần tách. Darwin sử dụng hàm giảm gini ngầm định. Khi ta phát triển hay tỉa lại cây, ta có thể chọn hàm giảm entropy thay thế. Cơ sở toán học của hàm giảm entropy đợc trình bày trong chơng 5.

Để tạo ra một cây, thuật toán Darwin bắt đầu với nút gốc bao gồm toàn bộ tập mẫu và tìm kiếm việc tách “tốt nhất”. Việc tách đầu tiên này phân hoạch tập mẫu thành hai nút mới.

Tại mỗi một nút nút mới, Darwin lặp lại quá trình tìm cách tách tốt nhất. Nếu không còn phép tách “tốt” nào tại một nút thì nút đó không tách nữa và trở thành lá. Quá trình tách tiếp tục cho đến khi tất cả các nút đều là lá.

Các hàm giảm trong thuật toán Darwin chỉ ra có tách hay không và tách nh thế nào tại một nút thông qua tính toán lợng khác biệt đợc giảm tại mỗi lần tách có thể. Phép tách tốt nhất sẽ tơng ứng với lợng giảm dơng lớn nhất. Nếu lợng giảm nhỏ hơn hay bằng

không cho tất cả các lần tách có thể, nút trở thành lá. Ta có thể thay đổi ngỡng này để kéo dài hay dừng quá trình tách.

Các hàm entropygini tính toán lợng giảm sự khác biệt trong mỗi lần tách bằng cách so sánh chỉ số khác biệt của các bản ghi tại một nút cha tách với chỉ số khác biệt của chính tập bản ghi sau khi tách. Chỉ số khác biệt là độ đo về độ xiên (hoặc không xiên) của các giá trị đích bên trong một tập các bản ghi.

Chỉ số khác biệt cao hơn phản ánh một cách tơng đối tỷ lệ của các giá trị đích. Mục tiêu của phát triển cây là giảm chỉ số phân biệt. Cây có lá với các chỉ số khác biệt thấp sẽ cho ta các luật phân lớp, có thể dự báo các giá trị đích với độ tin cậy cao.

Đối với mỗi lần tách S, các hàm entropygini tính toán chỉ số giảm nh sau:

Chỉ số giảm = chỉ_số_giảm (số bản ghi tại nút cha tách) – chỉ_số_giảm (số bản ghi sau khi tách S)

= chỉ_số_giảm (số bản ghi tại nút cha tách)

- (PL*chỉ_số_giảm [số bản ghi tại nút trái sau tách S] + PR*chỉ_số_giảm [số bản ghi tại nút phải sau tách S]) ở đây PL và PR là các các tỷ lệ bản ghi rơi vào nút trái và phải tơng ứng sau tách.

Các hàm entropygini khác nhau ở chỗ chúng xác định chỉ số giảm nh thế nào. Giả thiết ta có hai giá trị đích, ký hiệu bởi + và -, và P+ và P- là tỷ lệ các bản ghi với giá trị đích + và - tơng ứng trong tập các bản ghi đang xem xét. Thì:

Đối với entropy: -(P+logP+ + P-logP- ) Đối với gini: 2 P- P+

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 73 - 74)

Tải bản đầy đủ (DOCX)

(89 trang)
w