Phép thử và các khả năng của phép thử

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 46)

Chơng 5 Phân lớp dựa trên cây quyết định

5.3.3Phép thử và các khả năng của phép thử

ở trên ta đã giới thiệu một số tiêu chuẩn để đánh giá phép thử nhng cha quan tâm cụ thể phép thử ở đây là gì, thế nào là các khả năng của một phép thử. Phần dới đây sẽ trả lời câu hỏi này.

Trong thực tế, các hệ xây dựng mô hình phân lớp thờng quy định trớc khuôn mẫu của các phép thử, sau đó xem xét các phép thử theo mẫu đã quy định. Mỗi phép thử có thể liên quan đến nhiều thuộc tính, nhng để việc phát triển cây và cả quá trình sử dụng cây về sau đợc đơn giản, ngời ta thờng chỉ xét các phép thử liên quan đến một thuộc tính. Dạng của phép thử còn tùy theo tính chất của thuộc tính A đang xét là liên tục hay rời rạc.

a. A là thuộc tính rời rạc :

• Dạng 1 : A = ? , mỗi giá trị của A tơng ứng với một khả năng của phép thử này.

• Dạng 2 : A∈Sm, trong đó Sm là tập chứa một số giá trị của A.

b. A là thuộc tính liên tục, phép thử sẽ có dạng A ≤ v và chỉ xảy ra hai khả năng : đúng hoặc sai. Nh vậy, đối với thuộc tính liên tục, ta còn phải quan tâm đến việc tìm giá trị ngỡng v cho phù hợp. Thông thờng ngời ta xác định giá trị ngỡng theo phơng pháp sau :

• Sắp xếp các giá trị của A theo chiều không giảm, giả sử thu đợc dãy v1, v2 , ..., vm. Bất kì giá trị v nào thuộc khoảng [vi, vi+1] cũng đều cho kết quả chia giống nhau nên chỉ cần xét (m-1) khả năng chia. Với mỗi i ∈[1, m-1] có thể tính v =(vi + vi+1)/2 và chia tập T thành hai tập con :

T1v = {t ∈ T | t(A) ≤ v} và T2v = {t ∈ T | t(A) > v}

• Với mỗi giá trị v xác định nh trên, ta sẽ có đánh giá tơng ứng theo một tiêu chuẩn tách đã chọn. Từ (m-1) đánh giá này, chọn ra giá trị v thoả mãn tiêu chuẩn tách.

5.4 Tỉa cây

Quá trình dựng cây đệ quy nói trên sẽ dừng khi tất cả các mẫu ở các tập con đều thuộc cùng một lớp, hoặc khi không còn phép thử nào cần xét nữa. Tuy nhiên cây thu đợc th- ờng rất phức tạp và chỉ phù hợp với tập mẫu ban đầu. Khi áp dụng cây này với các dữ liệu mới sẽ gây ra sai số lớn. Bớc tỉa cây sẽ loại bỏ những cây con, những nhánh không phù hợp nhằm thu đợc một cây đơn giản và chính xác hơn. Có hai phơng pháp tỉa cây cơ bản là tỉa cây trớc (prepruning) và tỉa cây sau (postpruning).

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 46)