II. TÌM HIỂU VỀ PHÂN LỚP DỮ LIỆU: 1 Giới thiệu về phân lớp:
E(A) =Σ [(pi+ni)/(p+n)] I(pi,ni) i=
2.10. Giải thuật See5/C5.0 là tốt hơn C4.5:
C5.0 trong hệ thống Unix và bản sao của nó See5 trong Windows là những phiên bản cao cấp hơn C4.5 trên nhiều khía cạnh quan trọng.
Chúng ta sẽ thử so sánh C5.0 và C4.5 trên cùng hệ thống Unix.
Về những tập luật (Ruleset): nhanh nhiều hơn và ít tốn bộ nhớ hơn:
Cả C5.0 và C4.5 cung cấp sự lựa chọn cho những dạng thức của phân loại – cây quyết định hoặc là những tập luật (ruleset). Trong nhiều ứng dụng thì tập luật (ruleset) được ưu tiên sử dụng hơn vì chúng đơn giản và dễ hiểu hơn cây quyết định. Nhưng những phương pháp để tìm ra luật trong C4.5 là chậm và chiếm nhiều bộ nhớ.C5.0 thể hiện sự hoàn thiện trong vấn đề tạo ra tập luật và sự cải tiến này là gây ấn tượng mạnh mẽ.
Cây quyết định : nhanh hơn và nhỏ hơn :
Với cũng những tập dữ liệu (dataset) thì C4.5 và C5.0 sản sinh ra những luật với sự chính xát về dự đoán là như nhau.Sự khác nhau chính yếu là kích cở của cây và thời gian tính toán.Cây của C5.0 là nhỏ hơn và nhanh hơn ở một số yếu tố.
Sự nâng lên(Boosting):
Dựa trên sự nguyên cứu của Freund và Schapire , đây là sự phát triển mới đầy hấp dẫn mà nó không có sự tương tự nào trong C4.5.Boosting là một kỹ thuật để tạo và kết hợp nhiều những đối tượng phân loại để cải thiện tính chính xát tiên đoán .
C5.0 hỗ trợ Booting với một số những dữ liệu số thử nghiệm. Thông thường , C5.0 sẽ mất thời gian lâu hơn để tạo ra những đối tượng phân loại (classifier) . Nhưng những kết quả có thể phân tích định lượng sự tính toán công thêm .Boosting luôn cố gắng để đạt được đỉnh cao nhất của sự chính xát trong tiên đoán yêu cầu phải đạt tới. Đặc biệt khi những đối tượng phân loại không được nâng lên là hoàn toàn chính xát.
Những chức năng mới:
C5.0 kết hợp nhiều chức năng như là variable misclassfication costs .Trong C4.5 tất cả những lỗi đều được xem như nhau.Nhưng trong những ứng dụng thực tế sẽ có một số lỗi trong quá trình phân loại là nguy hiểm hơn những cái khác .C5.0 chấp nhận một chi phí phân chia đối với mỗi cặp lớp được tiên đoán.Nếu quan điểm này được áp dụng , C5.0 sau đó sẽ xây dựng những đối tượng phân loại để tối thiểu hóa những giá trị phân loại sai được mong đợi hơn là những tần suất lỗi.
C5.0 có nhiều kiểu dữ liệu hơn cả những cái đã có trong C4.5 bao gồm cả ngày giờ , thuộc tính giá trị rời rạc được xếp thứ tự và case labels. Thêm vào đó là những giá trị thiếu (missing value) . C5.0 cho phép những giá trị được coi như là không áp dụng được. Hơn nữa, C5.0 cung cấp những điều kiện dễ dàng để định nghĩa những thuộc tính mới như những hàm của những thuộc tính khác.
Những ứng dụng khai phá dữ liệu gần đây được hình thức hoá với kích thước lớn hơn, với hàng trăm thậm chí hàng ngàn những thuộc tính. C5.0 có thể tự động lọc những thuộc tính , loại bỏ những cái xuất hiện bên lề trước khi một lớp phân loại được xây dựng. Đối với ứng dụng của loại này, sự phân loại có thể dẫn đến những đối tượng nhỏ hơn và sự tiên đoán chính xát hơn và thậm chí thu giảm được thời gian tạo ra tập luật.
C5.0 cũng dễ dàng được sử dụng hơn. Những chọn lựa được đơn giản hóa và mở rộng.- để hỗ trợ sự lấy mẫu và cross-validation, trong lúc đó chương trình C4.5 để tạo ra cây quyết định và tập luật được kết hợp vào một chương trình duy nhất.
Phiên bản trên windows See5 đã xây dựng được một giao diện đồ họa thân thiện và thêm vào một số chức năng hỗ trợ khác.Ví dụ Cross-Reference Window làm cho
những đối tượng phân loại dễ hiểu hơn bằng việc liên kết những trường hợp đến những phần liên quan đến việc phân loại.
2.11. Phân lớp với GiniIndex(IBM IntelligenMiner) :
Tương tự như đại lượng Gain ở trên IBM đã đưa ra một đại lượng cho việc phân lớp là gini như sau:
Nếu một tập dữ liệu T chứa những mẫu từ n lớp, gini index , gini(T) được định nghĩa như sau :
trong đó pj là tần số liên quan của lớp j trong T.
Nếu một tập hợp dữ liệu T được chia thành 2 tập con T1 và T2 với kích thước tương ứng là N1 và N2.
gini index của dữ liệu chia cắt chứa những ví dụ từ n lớp , gini index gin(T) được định nghĩa như sau:
Thuộc tính cung cấp giá trị ginisplit(T) nhỏ nhất được chọn để phân chia nút
Thể hiện tri thức theo dạng thức những luật IF-THEN . Trong đó một luật được tạo dựa trên mỗi con đường từ nút gốc đến lá . Mỗi cặp thuộc tính theo một con đường tạo thành một sự kết hợp và nút lá nằm giữ toàn bộ lớp tiên đoán . Những luật tạo ra rất dễ hiểu đối với con người.