Các giải thuật cần được kiểm thử đểđánh giá độ chính xác về sự dự đoán của chúng; khi kiểm thử chúng ta sử dụng dụng dữ liệu với các kết quảđã biết trước và so sánh với các giá trị được dựđoán của giải thuật. Các kết quả kiểm thử được tính toán theo các độđo. Các ứng dụng của Oracle thường kiểm tra kết quả phân loại với các độđo:
- Confusion matrix (Ma trận giá trị)
- Lift (bậc thang)
Trong thử nghiệm này tác giả sử dụng độđo Confusion matrix.
Một mô hình thu được qua quá trình khai phá dữ liệu sử dụng các kỹ thuật học – suy luận khác nhau có thể được đánh giá sử dụng các tham số chuẩn như một độ đo hiệu suất thực hiện của nó. Giá trị này biểu thị một giá trị gần đúng của tỷ lệ lỗi đúng, một tham số được định nghĩa trong lý thuyết học thống kê. Tỷ lệ lỗi được tính sử dụng một tập dữ liệu kiểm thử thu được qua một trong các kỹ thuật lấy mẫu lại được áp dụng. Hơn nữa để đo tính chính xác theo tỷ lệ lỗi, các mô hình khai phá dữ liệu có thể được so sánh với tốc độ, độ tinh chỉnh dữ liệu, tính co giãn, và tính biểu thị và tất cả các thám sốđó có thể có một ảnh hưởng tới sự thẩm định và xác thực của mô hình. Trong luận văn này, tác giả sử dụng tham số tỷ lệ lỗi với bài toán phân loại dữ liệu; tương tự như các cách tiếp cận và phân phân tích có thể cho với các bài toán khai phá dữ liệu khác. Sự tính toán tỷ lệ lỗi dựa trên việc đếm số lỗi trong quá trình kiểm thử. Các lỗi với bài toán phân loại, đơn giản định nghĩa trên sự phân loại sai. Nếu tât cả các lỗi đều quan trọng như nhau, một tỷ lệ lỗi R là số lỗi E chia số số mẫu S trong tập kiểm tra.
Độ chính xác A của một một mô hình là một phần của tập dữ liệu kiểm được phân loại chính xác và được tính như sau:
A= 1- R = (S - E) / S
Với các bài toán phân loại chuẩn, có thể có m2 –m kiểu lỗi, với m là số phân loại. nếu phân loại 2 lớp, có thể có 2 kiểu lỗi
1. Nếu giá trị thực là T, nhưng phân loại là F: có các lỗi âm và 2. Nếu giá trị thực là F, nhưng được phân loại là T: có các lỗi dương Nếu có hơn 2 lớp, các kiểu lỗi có thểđược tổng hợp trong một ma trận các giá trị (confusion matrix). Với số phân loại là m=3, có 6 kiểu lỗi (m2 − m = 32− 3 = 6)
Confusion Matrix
Confusion Matrix cung cấp tính chính xác mô hình và các loại lỗi của mô hình khi ghi điểm dữ liệu. Đó là kết quả của nhiệm vụ kiểm thử với mô hình phân lớp. Các chỉ số hàng ứng với giá trị thực sự và được dùng xây dựng mô hình, chỉ số cột tương ứng với các giá trị dựđoán được áp dụng mô hình.
Dự đoán
Thực Mua Không mua
Mua 516 25
Không mua 10 725
Ma trận trên thể hiện mô hình dự đoán đúng 516 khách hàng mua và 725 khách hàng không mua. Mô hình dự đoán sai 10 người mua - thực sự không mua, sai 25 người không mua thực sự có mua. Tỷ lệ dự đoán đúng là 1241/1276; sai là 35/1276.
CHƯƠNG 5. TIẾN HÀNH THỬ NGHIỆM