Thuật toán CBA-CB

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp tìm các luật kết hợp phân lớp trên tập mẫu học và ứng dụng (Trang 44 - 46)

Thuật toán tiến hành xây dựng một cây phân loại từ các luật hợp thành lớp CAR này.

prCAR). Để xây dựng cây quyết định tốt nhất liên quan đến việc ước lượng tất cả các tập con có thể của nó trên tập mẫu học và chọn ra một tập con mà có số đo sai số nhỏ nhất. Sẽ có 2m tập con như thế, với m là số các luật, có thể nhiều hơn 1000. Tuy vậy cây quyết định được xây dựng là tốt hơn so với thuật toán C4.5.

Một phiên bản thô của thuật toán nêu trên được mô tả ở dưới đây.

* Thuật toán CBA-CB

1 R = sort(R);

2 For each rule r ∈ R theo tuần tự Do

3 temp = ∅;

4 for each case d ∈ D do

5 if d thỏa mãn điều kiện của r then

6 lưu trữ d.id trong temp và đánh dấu r nếu nó phân loại đúng d

7 if r được đánh dấu then

8 chèn r vào cuối của C;

9 xóa tất cả các trường hợp với ids trong temp ra khỏi D; 10 chọn một lớp ngầm định cho cây hiện tại C;

11 tính tổng số sai số của C;

12 end

13 end

14 Tìm luật đầu tiên p trong C có tổng số sai số nhỏ nhất và đưa ra tất cả các luật sau p trong C;

15 Thêm giá trị lớp ngầm định liên kết với p vào cuối của C và trả về C (cây phân loại của chúng ta)

Giải thích

chọn được luật ưu tiên nhất cho cây của chúng ta.

Bước 2 (dòng 2-13): chọn những luật cho cây quyết định từ R theo thứ tự

đã được xếp. Với mỗi luật r, chúng ta duyệt qua D để tìm những case (trường hợp) được phủ bởi r (chúng thỏa mãn điều kiện của r) (dòng 5). Chúng ta đánh dấu r nếu nó phân loại đúng một case d (dòng 6) d.id là chỉ số của d. Nếu r có thể phân loại chính xác ít nhất ở một case (tức là nếu r được đánh dấu), nó sẽ là một luật tiềm năng trong cây QĐ của chúng ta (dòng 7-8). Những case mà được phủ bởi r sẽ được bỏ ra khỏi D (dòng 9). Một lớp ngầm định cũng được chọn (lớp phổ biến (majority class) trong các dữ liệu còn lại), có nghĩa là nếu chúng ta dừng việc chọn nhiều hơn các luật cho cây phân loại C thì lớp này sẽ là lớp ngầm định cho C (dòng 10). Chúng ta tính và ghi lại tổng số các sai số mà tạo ra cây C hiện tại và lớp ngầm định (dòng 11).

Đây là tổng của các sai số mà được tạo ra bởi việc chọn các luật trong C và tổng các sai số được tạo ra bởi các lớp ngầm định trong tập mẫu học. Khi không còn luật nào nữa hoặc không còn mẫu học nữa việc chọn các luật được dừng lại.

Bước 3: (dòng 14-15): Bỏ ra khỏi C các luật mà không cải thiện được độ

chính xác của cây. Luật đầu tiên mà có số bản ghi sai ít nhất trên D là luật cắt. Tất cả các luật sau luật này có thể được bỏ ra bởi vì chúng chỉ có thể cho sai số lớn hơn. Những luật không bị loại bỏ và giá trị lớp ngầm định của luật cuối cùng trong C tạo nên cây phân loại cần tìm.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp tìm các luật kết hợp phân lớp trên tập mẫu học và ứng dụng (Trang 44 - 46)

Tải bản đầy đủ (PDF)

(74 trang)