Độ chính xác ước tính của một bộ phân lớp trên dữ liệu tập huấn cĩ thể khơng phản ánh đúng độ chính xác trên bộ dữ liệu kiểm tra. Do đĩ, vấn đề đặt ra ở đây là làm thế nào để cĩ được ước lượng độ chính xác tốt nhất trên các bộ dữ liệu kiểm tra. Một trong những cách làm phổ biến là sử dụng kiểm chứng chéo (cross – validation), phương pháp này sẽ được đề cập trong chương tiếp của luận văn.
2.3.2 Mơ hình Filter
Ngồi cách dựa vào độ chính xác của bộ phân lớp ở trên, chúng ta cũng cĩ thể sử dụng một số cách khác để làm tăng độ chính xác dự đốn của bộ phân lớp như: loại bỏ nhiễu, biến đổi dữ liệu (data reduction). Mặc dù chúng ta biết rằng khả năng xử lý của mơ hình Wrapper đối với dữ liệu nhiều chiều bị hạn chế bởi việc chọn lựa bộ phân lớp. Tuy nhiên, trong ngữ cảnh của khai phá dữ liệu thì thơng thường bộ dữ liệu thường là rất lớn và khơng thể dùng trực tiếp một bộ phân lớp để phân lớp dữ liệu cho bộ dữ liệu đĩ. Do đĩ, chúng ta cần sử dụng một số phương pháp tiền xử lý (pre-processing) đối với bộ dữ liệu đĩ trước khi áp dụng phân lớp bộ dữ liệu đĩ. Thơng qua mơ hình Wrapper cĩ thể đảm bảo độ chính xác của các thuộc tính được chọn lựa. Tuy nhiên, do những hạn chế của mơ hình này như: độ phức tạp thời gian lớn, hạn chế trong việc chọn lựa bộ phân lớp và khả năng xử lý với các bộ dữ liệu cĩ kích cỡ lớn là khơng tốt. Dưới đây, chúng ta sẽ sem xét mơ hình chon lựa thuộc tính Filter, mơ hình này cĩ thể khắc phục được một số hạn chế của mơ hình Wrapper.
Hình 2.5 dưới đây thể hiện mơ hình chọn lựa thuộc tính Filter. Mơ hình này cũng bao gồm 2 giai đoạn: Giai đoạn 1 – Chọn lựa thuộc tính sử dụng các đo lường như
Chương 2: Trích chọn thuộc tính Trang 26
thơng tin, khoảng cách, độc lập hoặc độ đồng nhất khơng sử dụng bất kỳ một giải thuật học nào ở giai đoạn này; Giai đoạn 2 – Giai đoạn này tương tự như giai đoạn 2 trong mơ hình Wrapper, một bộ phân lớp học các tri thức thơng qua các thuộc tính được chọn lựa trên bộ dữ liệu huấn luyện và được kiểm tra lại trên bộ dữ liệu kiểm tra.