Hình 3.4: Đánh giá độ chính xác phân loại
Đánh giá độ chính xác phân loại là việc quan trọng. Dữ liệu để đánh giá là dữ liệu không dùng để huấn luyện phân loại, độ chính xác một phân loại là độ phù hợp của nhãn dữ liệu tương lai. Ví dụ, huấn luyện một phân loại từ dữ liệu bán hàng để dự đoán thói quen mua sắm của khách hàng, ta cần đánh giá độ chính xác phân loại có thể dự đoán thói quen mua sắm của các khách hàng tương lai như thế nào. Độ chính xác đánh giá này sẽ trợ giúp cho việc so sánh các phân loại khác nhau.
3.9.1Đánh giá độ chính xác phân loại
Holdout và đánh giá chéo k-fold là hai kỹ thuật phổ biến để đánh giá độ chính xác phân loại.
Trong phương pháp holdout, dữ liệu đã cho được phân chia ngẫu nhiên vào trong hai tập độc lập: một tập huấn luyện và một tập kiểm tra. Hai phần ba dữ liệu được chỉ định là tập huấn luyện và còn lại một phần ba được chỉ định là tập kiểm tra. Tập huấn luyện được dùng để tạo phân loại, độ chính xác của nó được đánh giá với tập kiểm tra. Việc đánh giá này là khách quan bởi chỉ một phần dữ liệu ban đầu được dùng để tạo phân loại. Lấy mẫu con ngẫu nhiên là một sự thay đổi của phương pháp holdout, trong đó phương pháp holdout được lặp lại k lần. Độ chính xác phân loại bằng giá trị trung bình của các độ chính xác có được từ mỗi lần lặp.
Trong đánh giá chéo k-fold, dữ liệu ban đầu được phân chia ngẫu nhiên vào trong k tập con riêng biệt ("các fold") S1,S2,...,Sk, chúng có kích thước xấp xỉ bằng nhau. Huấn luyện và kiểm tra được thực hiện k lần. Trong lần lặp thứ i, tập con Si
đóng vai trò như một tập kiểm tra và các tập con còn lại được dùng chung để huấn luyện phân loại. Tức là phân loại của lần lặp đầu tiên được huấn luyện trên các tập con S2,S3,...,Sk và được kiểm tra trên S1; phân loại của lần lặp thứ 2 được huấn luyện trên các tập con S1,S3,...,Sk và được kiểm tra trên S2, v.v... Độ chính xác phân loại là toàn bộ số lượng các phân loại chính xác từ k lần lặp chia cho tổng số lượng các mẫu trong dữ liệu ban đầu. Trong đánh giá chéo phân tầng, các fold được phân tầng để sự phân bố lớp của các mẫu trong mỗi fold xấp xỉ như sự phân bố lớp trong dữ liệu ban đầu.
Nhìn chung, phân tầng đánh giá chéo 10-fold được đề nghị để đánh giá độ chính xác phân loại (thậm chí nếu khả năng tính toán cho phép thì có thể sử dụng nhiều fold hơn).
Sử dụng các kỹ thuật này để đánh giá độ chính xác phân loại, làm tăng tổng số lần tính toán, tuy nhiên nó lại hữu ích cho việc lựa chọn phân loại.
3.9.2Độ chính xác có đủ để đánh giá một phân loại hay không?
Thêm vào độ chính xác, các phân loại có thể được so dưới phương diện tốc độ và sự tráng kiện của chúng (ví dụ, độ chính xác trên dữ liệu nhiễu), khả năng mở rộng và khả năng diễn dịch. Khả năng mở rộng có thể được ước lượng bằng cách đánh giá số lượng các thao tác I/O cần có cho một giải thuật phân loại cho trước trên các tập dữ liệu với kích thước tăng dần.
Trong các bài toán phân loại, giả sử rằng tất cả các đối tượng được phân loại duy nhất, tức là mỗi mẫu huấn luyện thuộc về chỉ một lớp. Như ta thảo luận ở trên, các giải thuật phân loại sau đó có thể được so sánh theo độ chính xác của chúng. Tuy nhiên, bởi tính đa dạng của dữ liệu trong các cơ sở dữ liệu lớn, việc giả sử rằng tất cả các đối tượng được phân loại được duy nhất không phải luôn hợp lý. Hơn
nữa, giả định mỗi đối tượng thuộc về nhiều hơn một lớp có khả năng xảy ra nhiều hơn.
Việc trả lại một xác suất phân bố lớp hữu ích hơn việc trả lại một nhãn lớp. Các phép đo độ chính xác sau đó có thể sử dụng một heuristic dự đoán lần hai nhờ đó một dự đoán lớp được đánh giá chính xác nếu nó thích hợp với lớp có khả năng thứ nhất hay thứ hai. Mặc dầu điều này không được nghiên cứu, nhưng một mức độ nào đó sự phân loại các đối tượng là không duy nhất. Đây không phải là một giải pháp đầy đủ.