3.2.1. Phương pháp lấy mẫu dữ liệu
Trong thực tế, các tập dữ liệu thường phân bố khơng đồng đều giữa các lớp.
ðiều này làm ảnh hưởng đến chất lượng học máy của một thuật tốn phân lớp. Các thuật tốn học máy truyền thống chỉ hướng đến các lớp chiếm đa số. Những kỹ thuật khai phá dữ liệu tốt được biết đến (như C4.5, mạng neural,..) thu được kết tốt trong những tập dữ liệu phân bốđồng đều và thu được kết quả nghèo nàn đối với các tập dữ
liệu phân bố khơng đồng đều. Người ta mong đợi cải tiến việc dựđốn các lớp thiểu số
(lớp chứa các mẫu dị thường) thậm chí chấp nhận việc tăng thêm lỗi của lớp chiếm đa số.
Hiện nay, cĩ nhiều nghiên cứu về các phương pháp lấy mẫu cho các kỹ thuật khai phá dữ liệu trên tập dữ liệu khơng cân bằng để thu được kết quả tốt hơn. Các kỹ
thuật phân loại như mạng neural, SVM và C4.5 được nghiên cứu trong nhiều bài báo cho vấn đề dữ liệu phân bố khơng đồng đều. Các giải pháp cho vấn đề dữ liệu khơng
đồng đều của các lớp được đưa ra cả ở mức dữ liệu và mức thuật tốn. Cĩ ba chiến lược lấy mẫu chính là lấy mẫu lên, lấy mẫu xuống và kết hợp của chúng.
3.2.2. Lấy mẫu lên (Oversampling)
Lấy mẫu lên là việc tăng số ví dụ của lớp thiểu số trong tập dữ liệu nhằm làm phẳng tập dữ liệu, tập dữ liệu sẽ cân bằng hơn. Hiện nay cĩ một số phương pháp lấy mẫu lên phổ biến như sau:
• Lấy mẫu lên ngẫu nhiên đơn giản(random oversampling): đơn giản chỉ cần thực hiện nhân đơi số ví dụ của lớp thiểu số trong tập dữ liệu một cách ngẫu nhiên.
• Lấy mẫu lên thiểu số nhân tạo: năm 2002, Chawla đưa ra một phương pháp lấy mẫu lên thơng minh gọi là kỹ thuật lấy mẫu lên thiểu số nhân tạo (Synthetic Minority Over-sampling Technique - SMOTE). SMOTE thêm mới, tạo ra các mẫu lớp thiểu số bằng ngoại suy giữa các ví dụ lớp thiểu số
tồn tại từ trước hơn là đơn giản nhân đơi các ví dụ ban đầu. Kỹ thuật này trước hết tìm ra k hàng xĩm lân cận nhất của lớp thiểu số cho mỗi ví dụ lớp thiểu số (khuyến cáo k=5). Các mẫu nhân tạo sau đĩ được sinh ra trong sự điều khiển của một số hoặc tất cả hàng xĩm lân cận, phụ thuộc số lượng ví dụ lấy mẫu lên mong muốn.
• Lấy mẫu lên SMOTE-đường biên: năm 2005, Han đưa ra một bản sửa đổi SMOTE của Chawle gọi là SMOTE-đường biên (borderline-SMOTE). Kỹ
quyết định thiểu số trong khơng gian đặc trưng và chỉ thực hiện SMOTE để
lấy lên các ví dụ đĩ, hơn là lấy tất cả chúng hoặc một tập con ngẫu nhiên nào đĩ.
• Lấy mẫu lên dựa vào cụm: cĩ nhiều tập con các mẫu trong một lớp rời rạc trong khơng gian đặc trưng tạo thành sự khơng cân bằng trong lớp. ðiều đĩ thường dẫn đến giảm giá trị phân lớp dữ liệu và lấy mẫu lên dựa vào cụm sẽ
loại bỏ chúng mà khơng cần loại bỏ dữ liệu.
3.2.3. Lấy mẫu xuống (undersampling)
Lấy mẫu xuống là việc loại bỏ bớt các ví dụ của lớp đa số trong tập dữ liệu để
tập dữ liệu cĩ sự phân bố giữa các lớp đồng đều hơn. Một số phương pháp lấy mẫu xuống phổ biến như sau:
• Lấy mẫu xuống ngẫu nhiên đơn giản (random undersampling): đơn giản chỉ
cần thực hiện loại bỏ bớt các ví dụ của lớp đa số trong tập dữ liệu một cách ngẫu nhiên để tập dữ liệu cân bằng hơn.
• Lựa chọn một mặt: trong một cố gắng sớm nhất để cải tiến hiệu suất của lấy mẫu ngẫu nhiên, Kubat và Matwin (năm 1997) đề xuất một kỹ thuật gọi là lựa chọn một mặt (one-sided selection - OSS). Lựa chọn một mặt cố gắng lấy mẫu xuống một cách thơng minh của lớp đa số bằng cách loại bỏ bớt các ví dụ của lớp đa số mà được coi là dư thừa hoặc nhiễu.
3.2.4. Kết hợp hai chiến lược trên
Kết hợp hai phương pháp trên: thực hiện đồng thời lấy mẫu lên đối với lớp thiểu số và lấy mẫu xuống với mẫu đa số.
Trong các thực nghiệm, người ta thường áp dụng các kỹ thuật khai phá dữ liệu trên tập dữ liệu cĩ kích thước nhỏ hơn tập dữ liệu thực tế của bài tốn. ðể đảm bảo kết quả khơng khác biệt so với khi sử dụng tập dữ liệu gốc của bài tốn, một số phương pháp lấy mẫu thường được sử dụng như sau:
Lấy mẫu kết hợp ngẫu nhiên: trong các thực nghiệm lấy mẫu lên hoặc xuống hoặc kết hợp của chúng cho thấy phương pháp lấy mẫu kết hợp thu được các kết quả
tốt hơn.