Lấy mẫu lên (Oversampling)

Lấy mẫu lên là việc tăng số ví dụ của lớp thiểu số trong tập dữ liệu nhằm làm phẳng tập dữ liệu, tập dữ liệu sẽ cân bằng hơn. Hiện nay có một số phương pháp lấy mẫu lên phổ biến như sau:

• Lấy mẫu lên ngẫu nhiên ñơn giản(random oversampling): ñơn giản chỉ cần thực hiện nhân ñôi số ví dụ của lớp thiểu số trong tập dữ liệu một cách ngẫu nhiên.

• Lấy mẫu lên thiểu số nhân tạo: năm 2002, Chawla ñưa ra một phương pháp lấy mẫu lên thông minh gọi là kỹ thuật lấy mẫu lên thiểu số nhân tạo (Synthetic Minority Over-sampling Technique - SMOTE). SMOTE thêm mới, tạo ra các mẫu lớp thiểu số bằng ngoại suy giữa các ví dụ lớp thiểu số

tồn tại từ trước hơn là ñơn giản nhân ñôi các ví dụ ban ñầu. Kỹ thuật này trước hết tìm ra k hàng xóm lân cận nhất của lớp thiểu số cho mỗi ví dụ lớp thiểu số (khuyến cáo k=5). Các mẫu nhân tạo sau ñó ñược sinh ra trong sự ñiều khiển của một số hoặc tất cả hàng xóm lân cận, phụ thuộc số lượng ví dụ lấy mẫu lên mong muốn.

• Lấy mẫu lên SMOTE-ñường biên: năm 2005, Han ñưa ra một bản sửa ñổi SMOTE của Chawle gọi là SMOTE-ñường biên (borderline-SMOTE). Kỹ

quyết ñịnh thiểu số trong không gian ñặc trưng và chỉ thực hiện SMOTE ñể

lấy lên các ví dụ ñó, hơn là lấy tất cả chúng hoặc một tập con ngẫu nhiên nào ñó.

• Lấy mẫu lên dựa vào cụm: có nhiều tập con các mẫu trong một lớp rời rạc trong không gian ñặc trưng tạo thành sự không cân bằng trong lớp. ðiều ñó thường dẫn ñến giảm giá trị phân lớp dữ liệu và lấy mẫu lên dựa vào cụm sẽ

loại bỏ chúng mà không cần loại bỏ dữ liệu.

Giới thiệu Support Vector Machine

Thực nghiệm với tập dữ liệu D1