Trong chương này, chúng tơi tổng kết lại những việc đã làm được và đề xuất các hướng mở rộng để cĩ thể phát triển đề tài.
5.1 Những cơng việc đã thực hiện5.2 Đĩng gĩp của đề tài 5.2 Đĩng gĩp của đề tài
1. Chứng thực ảnh hưởng của việc tái cân đối dữ liệu đối với độ chính xác phân lớp cũng như độ nhạy và độ đặc hiệu của các giải thuật phổ biến C4.5, Nạve Bayes và Neural Network.
2. Khảo sát những đặc điểm về biểu diễn cá thể, cách tính hàm fitness, cách áp dụng những phép tốn di truyền, cách lựa chọn cá thể cha mẹ, và cách kết thúc tiến hĩa của GP. Tổng hợp những ưu và nhược điểm nổi bật nhất của phân lớp dùng GP.
3. Đề xuất sử dụng một giải thuật phân lớp GP dùng cách biểu diễn cá thể (tập luật phân lớp) là cây cĩ ràng buộc cú pháp chặt chẽ. Giải thuật này sinh ra mơ hình là những tập luật phân lớp cĩ độ chính xác phân lớp khá cao nhưng rất dễ hiểu và cĩ độ tin cậy cao.
4. Tích hợp giải thuật nĩi trên vào cơng cụ phân lớp WEKA miễn phí, tiện dụng và chạy được trên nhiều hệ điều hành. Điều này giúp những người dùng khơng chuyên về KPDL cũng cĩ thể dễ dàng sử dụng được giải thuật.
1. Giải thuật phân lớp mà đề tài này đề xuất sinh ra những mơ hình phân lớp dễ hiểu, nhưng độ chính xác phân lớp vẫn chưa cao lắm. Một nghiên cứu cải tiến thêm hàm fitness cho CST cĩ thể được thực hiện nhằm đạt độ chính xác phân lớp cao hơn, ví dụ đến khoảng 95%, nhưng vẫn giữ được những ưu điểm khơng phụ thuộc vào tình trạng khơng cân đối lớp của dữ liệu và sinh ra được mơ hình phân lớp dễ hiểu.
2. Thời gian chạy của giải thuật cịn cao, điều này chủ yếu do phải tính tốn fitness ở tất cả các thế hệ tiến hĩa, mặc dù đã cĩ sử dụng mơ-đun tính tốn song song trong JCLEC để tăng tốc việc tính tốn này. Sắp tới, chúng tơi sẽ thử áp dụng thêm tính tốn phân tán trên nhiều máy cùng lúc để giảm thời gian chạy của giải thuật, đặc biệt đối với các tập dữ liệu lớn (vài nghìn bản ghi trở lên).