So sánh các giải thuật ID3, FID3 và PFID3

Một phần của tài liệu Khai phá dữ liệu với cây quyết định (Trang 80)

Vì FID3 và PFID3 đều dựa vào ID3, ba phương pháp này có sự tương tự về giải thuật. Tuy nhiên, cũng tồn tại một số sự khác nhau:

a. Biểu diễn dữ liệu

Biểu diễn dữ liệu của) ID3 thì cứng (rõ) trong khi FID3 và PFID3 là mờ, với những thuộc tính liên tục. Hơn nữa, hàm thuộc của PFID3 phải thỏa mãn điều kiện của không gian mẫu đã xác định (well-defined sample space). Tổng tất cả giá trị thuộc của mọi giá trị dữ liệu xi phải bằng 1

b. Tiêu chuẩn kết thúc

Với ID3: nếu mọi mẫu trong một nút thuộc về một lớp hay nói cách khác, nếu entropi là null, cây được hoàn thành. Đôi khi, có thể dừng việc xây dựng cây khi tỉ lệ của một lớp tại nút là lớn hơn hoặc bằng một ngưỡng định nghĩa trước. Đây được gọi là cắt nhánh. Cây ID3 cắt nhánh dừng sớm vì những nhánh thừa đã được tỉa đi.

Với FID3 & PID3: có ba tiêu chuẩn

1) Nếu tỉ lệ của tập dữ liệu của một lớp là lớn hơn hoặc bằng một ngưỡng r 2) Nếu số lượng một tập dữ liệu là ít hơn ngưỡng khác n

3) Nếu không có nhiều thuộc tính hơn tại nút được phân lớp.

Nếu một trong số ba tiêu chuẩn này được hoàn thành, việc xây dựng cây được hoàn thành.

c. Entropy

ID3 VÀ FID3, PFID3 khác nhau về cách định nghĩa Entropy và Information Gain như đã trình bày.

d. Suy luận

Suy luận của cây quyết định cổ điển bắt đầu từ nút gốc của cây, và sau đó phân nhánh về một phía để kiểm tra thuộc tính của nút con. Lặp lại việc kiểm tra cho đến đạt được tới nút lá. Kết quả của ID3 là lớp gắn liền đối với nút lá.

Suy luận của những cây quyết định mờ khác hẳn. Nó không phân nhánh về một phía mà tới mọi phía của cây. Nó bắt đầu từ nút gốc qua những nhánh đến những nút lá cho đến khi mọi nút lá đã được kiểm tra. Mỗi nút lá có những tỉ lệ khác nhau của mọi lớp. Nói cách khác, mỗi nút lá sở hữu độ chắc chắn của các lớp. Kết quả là sự tập hợp của những độ chắc chắn tại mọi nút lá.

3.5. Kết luận

Việc mở rộng thuật toán ID3 đã cho phép mờ hóa những giá trị của các thuộc tính và các lớp được phân lớp, qua đó đã giải quyết được nhiều khó khăn truyền thống trong việc áp dụng phương pháp cây quyết định cho các bài toán của thế giới thực. Đặc biệt, cách tiếp cận đã đưa ra một cách thức tự nhiên và linh hoạt hơn với các thuộc tính liên tục. Hơn nữa, việc sử dụng phân lớp mờ cùng với một thủ tục khử mờ thích hợp có nghĩa rằng Fuzzy ID3 và PFID3 có thể ứng dụng một cách thành công vào bài toán xấp xỉ chức năng.

Trong thuật toán xây cây quyết định mờ cần chú ý vấn đề chọn ngưỡng quyết định lá vì ngưỡng này sẽ ảnh hưởng đến hiệu suất xây dựng cây. Nói chung, hiệu suất tăng cùng với việc tăng của ngưỡng quyết định lá. Điều này xảy ra vì khi ngưỡng quyết định lá tăng, trong quá trình xây dựng cây những nhánh thừa đã được cắt. Tuy nhiên, nếu ngưỡng tăng quá nhiều, nó gây ra underfitting,

nghĩa là mô hình thu được sẽ thực hiện kém trên những ví dụ mới vì nó quá đơn giản để phân biệt các ví dụ này (có thể do mô hình đã không thu được những mẫu quan trọng từ các ví dụ huấn luyện)

CHƯƠNG 4: CÀI ĐẶT PHẦN MỀM MINH HỌA

Như đã trình bày trong chương 2 và chương 3, các phương pháp xây dựng cây quyết định rất đa dạng, mỗi phương pháp đều có ưu, nhược điểm riêng và tùy từng bài toán cụ thể, ta cần lựa chọn một phương pháp phù hợp. Trong khuôn khổ luận văn này, để minh họa cho những phần lý thuyết, phương pháp ID3 và C4.5 được chọn để cài đặt, do đây là phương pháp được ứng dụng rộng rãi, dễ cài đặt hơn.

Phần mềm được xây dựng chỉ có tính chất “demo” với cơ sở dữ liệu chỉ là một tập mẫu dữ liệu nhỏ. Mục tiêu đặt ra là xây dựng cây quyết định từ tập mẫu dữ liệu đã cho với hai phương pháp ID3 và C4.5. Ngoài ra, phần mềm còn có phần tính lỗi cho các nút và cắt tỉa cây, loại bỏ các nhánh có lỗi để cải thiện độ chính xác của cây, phần cắt tỉa cây được xây dựng theo phương pháp hậu cắt tỉa (post-prunning) đã trình bày trong chương 2.

Một phần của tài liệu Khai phá dữ liệu với cây quyết định (Trang 80)

Tải bản đầy đủ (PDF)

(129 trang)