❑ Dataset
Tập học (Training set): được dùng xây dựng model
Tập tối ưu (kiểm chứng) (Validation set): dùng để ước lượng lỗi nhằm chọn tham số và model tối ưu trong lúc huấn luyện
Tập thử nghiệm (Test set): dùng để đánh giá hiệu năng của mơ hình đã được huấn luyện. Dữ liệu chưa biết (unseen) khơng được dùng trong quá trình huấn luyện
Các Vấn Đề Trong Máy Học
❖ Giải thuật học máy (Learning algorithm)
Những giải thuật học máy nào cĩ thể học (xấp xỉ) một hàm mục tiêu cần học?
Với những điều kiện nào, một giải thuật học máy đã chọn sẽ hội tụ (tiệm cận) hàm mục tiêu cần học?
Đối với một lĩnh vực bài tốn cụ thể, giải thuật học máy nào thực hiện tốt nhất?
Các Vấn Đề Trong Máy Học
❖ Training data
Bao nhiêu mẫu dùng để huấn luyện là đủ?
Kích thước, độ biến động của tập huấn luyện ảnh hưởng thế nào đối với độ chính xác của hàm mục tiêu học được?
Các mẫu lỗi (noise, outlier) và/hoặc các mẫu thiếu giá trị thuộc tính (missing- value) ảnh hưởng thế nào đối với độ chính xác?
Các Vấn Đề Trong Máy Học
❖ Quá trình học (Learning process)
Chiến lược tối ưu được lựa chọn?
Các tham số được lựa chọn cĩ ảnh hưởng đến quá trình học?
Học bao lâu thì cĩ thể dừng quá trình học?
Các Vấn Đề Trong Máy Học
❖ Khả năng/giới hạn học (Learning capability)
Hàm mục tiêu nào mà hệ thống cần học?
Biểu diễn hàm mục tiêu: Khả năng biểu diễn (vd: hàm tuyến tính / hàm phi tuyến) vs. Độ phưc tạp của giải thuật và quá trình học
Khả năng khái quát hĩa (generalize) của hệ thống từ các mẫu học?
Để tránh vấn đề “over-fitting” (đạt độ chính xác cao trên tập huấn luyện, nhưng đạt độ chính xác thấp trên tập thử nghiệm)
Khả năng hệ thống tự động thay đổi (thích nghi) biểu diễn (cấu trúc) bên trong của nĩ?
Các Vấn Đề Trong Máy Học
❖ Vấn đề Over-fitting và Under-fitting
❑ Over-fitting là hiện tượng mơ hình hoạt động tốt trên tập huấn luyện (cả dữ liệu nhiễu, hoặc dữ liệu bất thường trong tập huấn luyện đều được chọn và học để đưa ra quy luật mơ hình) nhưng đạt kết quả kém trên tập test.
▪ Thường xảy ra trong các mơ hình phi tham số hoặc phi tuyến, những mơ hình cĩ sự linh hoạt cao trong xây dựng hàm mục tiêu
▪ Ví dụ, bài tốn cây quyết định là một thuật tốn học máy phi tham số.
Đây là thuật tốn thường xảy ra hiện tượng Overfitting. Ta cĩ thể tránh hiện tượng này bằng phương pháp cắt tỉa cây (pruning).
Vấn đề over-fitting thường do các nguyên nhân:
Lỗi (nhiễu) trong tập huấn luyện (do quá trình thu thập/xây dựng tập dữ liệu)
Số lượng các mẫu học quá nhỏ, khơng đại diện cho tồn bộ tập (phân bố) của các ví dụ của bài tốn học
Các Vấn Đề Trong Máy Học
❖ Vấn đề Over-fitting và Under-fitting
❑ Under-fitting là hiện tượng mơ hình khơng đạt được độ chính xác cao trên tập huấn luyện và cũng như tổng quát trên cả tập dữ liệu. Cĩ thể hiểu là mơ hình khơng học được gì cả
▪ Hiện tượng Underfitting thường ít xảy ra trong bài tốn hơn. Khi Underfitting xảy ra, ta cĩ thể khắc phục bằng cách thay đổi thuật tốn hoặc là bổ sung thêm dữ liệu đầu vào.
Các Vấn Đề Trong Máy Học
❖ Chuẩn bị dữ liệu
Tiền xử lý dữ liệu (data preprocessing) để chuẩn hĩa dữ liệu trước khi áp dụng vào giải thuật học máy
– Lấy mẫu: chọn tập con các quan sát/mẫu
– Trích chọn thuộc tính: Chọn các biến đầu vào
– Chuẩn hĩa dữ liệu (Normalization) (standardization, scaling, binarization) – Xử lý dữ liệu thiếu và phần tử ngoại lai (missing data and outliers)
Ngồi ra, cịn phụ thuộc vào giải thuật học máy
– Decision Tree, Xgboost cĩ thể xử lý dữ liệu thiếu/phần tử ngoại lai – PCA, SVM, Neural Nets yêu cầu dữ liệu đã được chuẩn hĩa