Kết quả thử nghiệm

Kết quả kiểm thử khai phá dữ liệu bệnh tiểu đường đã trình bày được ở trên. Bộ dữ liệu gồm 768 ví dụ được chia thành 2 bộ dữ liệu huấn luyện và dữ liệu kiểm thử như sau. Chúng tôi lấy 200 đối tượng đầu tiên để làm dữ liệu kiểm thử, còn lại 568 mẫu ví dụ khác chúng tôi lần lượt lấy số mẫu huấn luyện tương ứng là 50, 100, ...500 và tập huấn luyện cuối cùng là 568. Khi đó thu được kết quả như sau:

Trương hợp 1:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 50 ví dụ: huanluyen1.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt . Kết quả:

− 114 mẫu kiểm thử là phân lớp đúng (62,00%). − 86 mẫu kiểm thử là phân lớp sai(38,00%).

Trương hợp 2:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 100 ví dụ: huanluyen2.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt . Kết quả:

− 133 mẫu kiểm thử là phân lớp đúng (67,00%). − 67 mẫu kiểm thử là phân lớp sai(33,00%).

Trương hợp 3:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 150 ví dụ: huanluyen3.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt . Kết quả:

− 134 mẫu kiểm thử là phân lớp đúng (64,50%). − 66 mẫu kiểm thử là phân lớp sai(35,50%).

Trương hợp 4:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 200 ví dụ: huanluyen4.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt .

Kết quả:

− 142 mẫu kiểm thử là phân lớp đúng (68,50%). − 58 mẫu kiểm thử là phân lớp sai(31,50%).

Trương hợp 5:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 250 ví dụ: huanluyen5.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt . Kết quả:

− 124 mẫu kiểm thử là phân lớp đúng (62,50%). − 76 mẫu kiểm thử là phân lớp sai(37,50%).

Trương hợp 6:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 300 ví dụ: huanluyen6.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt . Kết quả:

− 137 mẫu kiểm thử là phân lớp đúng (62,50%). − 63 mẫu kiểm thử là phân lớp sai(37,50%).

Trương hợp 7:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 350 ví dụ: huanluyen7.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt . Kết quả:

− 132 mẫu kiểm thử là phân lớp đúng (62,50%). − 68 mẫu kiểm thử là phân lớp sai(37,50%).

Trương hợp 8:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 400 ví dụ: huanluyen8.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt . Kết quả:

− 137 mẫu kiểm thử là phân lớp đúng (62,50%). − 63 mẫu kiểm thử là phân lớp sai(37,50%).

Trương hợp 9:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 450 ví dụ: huanluyen9.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt . Kết quả:

− 130 mẫu kiểm thử là phân lớp đúng (62,50%). − 70 mẫu kiểm thử là phân lớp sai(37,50%).

Trương hợp 10:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 500 ví dụ: huanluyen10.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt . Kết quả:

− 132 mẫu kiểm thử là phân lớp đúng (62,50%). − 68 mẫu kiểm thử là phân lớp sai(37,50%).

Trương hợp 11:

Dữ liệu đầu vào:

− Dữ liệu huấn luyện là 568 ví dụ: huanluyen11.txt . − Dữ liệu kiểm thử là 200 ví dụ: kiemthu.txt . Kết quả:

− 133 mẫu kiểm thử là phân lớp đúng (62,50%). − 67 mẫu kiểm thử là phân lớp sai(37,50%).

Ta có bảng tổng kết sau:( số mẫu kiểm thử là 200).

Số mẫu đúng Số mẫu sai %Đúng

50 mẫu HL 114 86 57,00 100 mẫu HL 133 67 66,50 150 mẫu HL 134 66 67,00 200 mẫu HL 142 58 71,00 250 mẫu HL 124 76 62,00 300 mẫu HL 137 63 68,50 350 mẫu HL 132 68 66,00 400 mẫu HL 137 63 68,50 450 mẫu HL 130 70 65,00 500 mẫu HL 132 68 66,00 568 mẫu HL 133 67 66,50

Thuật toán khai phá luật kết hợp

Xây dựng cây quyết định không đối xứng