Học Máy (IT4862)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	19
Dung lượng	522,68 KB

Nội dung

Học Máy (IT4862) Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang nguyennhat@hust edu vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020 2021[.]

Nhập môn Học máy Khai phá liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu Học máy Khai phá liệu ◼ Tiền xử lý liệu ◼ Đánh giá hiệu hệ thống ◼ Hồi quy ◼ Phân lớp ◼ Phân cụm ◼ Phát luật kết hợp Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Đánh giá hiệu hệ thống (1) ◼ Việc đánh giá hiệu hệ thống học máy (hoặc khai phá liệu) thường thực dựa thực nghiệm (experimentally), dựa phân tích (analytically) • Các đánh giá phân tích (analytical evaluation) nhằm chứng minh hệ thống đắn (correct) hoàn chỉnh (complete) (vd: chứng minh định lý Logics) • Khơng thể xây dựng đặc tả (định nghĩa) hình thức vấn đề mà hệ thống học máy (hoặc khai phá liệu) giải (Đối với toán học máy khai phá liệu, tính đắn tính hồn chỉnh gì?) Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Đánh giá hiệu hệ thống (2) ◼ Tập trung vào việc đánh giá hiệu hệ thống • Thực cách tự động hệ thống, sử dụng tập ví dụ (tập thử nghiệm – test set) • Khơng cần tham gia (can thiệp) người dùng ◼ Các phương pháp đánh giá (evaluation methods) → Làm có đánh giá đáng tin cậy hiệu hệ thống? ◼ Các tiêu chí đánh giá (evaluation metrics) → Làm để đo (tính tốn) hiệu hệ thống? → Khác kiểu toán (hồi quy, phân cụm, phân loại, phát luật kết hợp) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các phương pháp đánh giá (1) Tập huấn luyện Toàn tập ví dụ Được dùng để huấn luyện hệ thống Tập tối ưu Tùy chọn; dùng để tối ưu tham số hệ thống Tập kiểm thử Được dùng để đánh giá hệ thống (sau khi) huấn luyện Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các phương pháp đánh giá (2) ◼ Làm để thu đánh giá đáng tin cậy hiệu hệ thống? • Tập huấn luyện lớn, hiệu hệ thống tốt • Tập kiểm thử lớn, việc đánh giá xác • Vấn đề: Rất khó (ít khi) có tập liệu (rất) lớn ◼ Hiệu hệ thống không phụ thuộc vào giải thuật sử dụng, mà phụ thuộc vào: • Phân bố lớp (Class distribution) • Chi phí việc phân lớp sai (Cost of misclassification) • Kích thước tập huấn luyện (Size of the training set) • Kích thước tập kiểm thử (Size of the test set) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Các phương pháp đánh giá (3) ◼ Hold-out (Splitting) ◼ Stratified sampling ◼ Repeated hold-out ◼ Cross-validation • k-fold • Leave-one-out ◼ Bootstrap sampling Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Hold-out (Splitting) ◼ Tồn tập ví dụ D chia thành tập không giao • Tập huấn luyện D_train – để huấn luyện hệ thống • Tập kiểm thử D_test – để đánh giá hiệu hệ thống → D = D_train  D_test, thường |D_train| >> |D_test| ◼ Các yêu cầu: Bất kỳ ví dụ thuộc vào tập kiểm thử D_test khơng sử dụng q trình huấn luyện hệ thống ❑ Bất kỳ ví dụ sử dụng giai đoạn huấn luyện hệ thống (i.e., thuộc vào D_train) không sử dụng giai đoạn đánh giá hệ thống ❑ Các ví dụ kiểm thử D_test cho phép đánh giá không thiên vị hiệu hệ thống ❑ ◼ ◼ Các lựa chọn thường gặp: |D_train|=(2/3).|D|, |D_test|=(1/3).|D| Phù hợp ta có tập ví dụ D có kích thước lớn Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Stratified sampling ◼ ◼ Đối với tập ví dụ có kích thước nhỏ khơng cân xứng (unbalanced datasets), ví dụ tập huấn luyện thử nghiệm khơng phải đại diện Ví dụ: Có (rất) ít, khơng có, ví dụ số lớp ◼ Mục tiêu: Phân bố lớp (class distribution) tập huấn luyện tập kiểm thử phải xấp xỉ tập tồn ví dụ (D) ◼ Lấy mẫu phân tầng (Stratified sampling) • Là phương pháp để cân xứng (về phân bố lớp) • Đảm bảo tỷ lệ phân bố lớp (tỷ lệ ví dụ lớp) tập huấn luyện tập kiểm thử xấp xỉ ◼ Phương pháp lấy mẫu phân tầng không áp dụng cho tốn hồi quy (vì giá trị đầu hệ thống giá trị số, nhãn lớp) Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining Repeated hold-out ◼ Áp dụng phương pháp đánh giá Hold-out nhiều lần, để sinh (sử dụng) tập huấn luyện thử nghiệm khác • Trong bước lặp, tỷ lệ định tập D lựa chọn ngẫu nhiên để tạo nên tập huấn luyện (có thể sử dụng kết hợp với phương pháp lấy mẫu phân tầng – stratified sampling) • Các giá trị lỗi (hoặc giá trị tiêu chí đánh giá khác) thu bước lặp lấy trung bình cộng (averaged) để xác định giá trị lỗi tổng thể ◼ Phương pháp khơng hồn hảo • Mỗi bước lặp sử dụng tập kiểm thử khác • Có số ví dụ trùng lặp (được sử dụng lại nhiều lần) tập kiểm thử Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 10 Cross-validation ◼ ◼ Để tránh việc trùng lặp tập kiểm thử (một số ví dụ xuất tập kiểm thử khác nhau) k-fold cross-validation • Tập tồn ví dụ D chia thành k tập không giao (gọi “fold”) có kích thước xấp xỉ • Mỗi lần (trong số k lần) lặp, tập sử dụng làm tập kiểm thử, (k-1) tập cịn lại dùng làm tập huấn luyện • k giá trị lỗi (mỗi giá trị tương ứng với fold) tính trung bình cộng để thu giá trị lỗi tổng thể ◼ Các lựa chọn thông thường k: 10, ◼ Thông thường, tập (fold) lấy mẫu phân tầng (xấp xỉ phân bố lớp) trước áp dụng trình đánh giá Cross-validation Phù hợp ta có tập ví dụ D vừa nhỏ ◼ Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 11 Leave-one-out cross-validation ◼ Một trường hợp (kiểu) phương pháp Cross-validation • Số lượng nhóm (folds) kích thước tập liệu (k=|D|) • Mỗi nhóm (fold) bao gồm ví dụ ◼ Khai thác tối đa (triệt để) tập ví dụ ban đầu ◼ Khơng có bước lấy mẫu ngẫu nhiên (no random subsampling) ◼ Áp dụng lấy mẫu phân tầng (stratification) không phù hợp → Vì bước lặp, tập thử nghiệm gồm có ví dụ ◼ Chi phí tính tốn (rất) cao ◼ Phù hợp ta có tập ví dụ D (rất) nhỏ Nhập mơn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 12 Bootstrap sampling (1) ◼ ◼ Phương pháp Cross-validation sử dụng việc lấy mẫu không lặp lại (sampling without replacement) → Đối với ví dụ, chọn (được sử dụng), khơng thể chọn (sử dụng) lại cho tập huấn luyện Phương pháp Bootstrap sampling sử dụng việc lấy mẫu có lặp lại (sampling with replacement) để tạo nên tập huấn luyện • Giả sử tập tồn D bao gồm n ví dụ • Lấy mẫu có lặp lại n lần tập D, để tạo nên tập huấn luyện D_train gồm n ví dụ Từ tập D, lấy ngẫu nhiên ví dụ x (nhưng khơng loại bỏ x khỏi tập D) ➢ Đưa ví dụ x vào tập huấn luyện: D_train = D_train  x ➢ Lặp lại bước n lần ➢ • Sử dụng tập D_train để huấn luyện hệ thống • Sử dụng tất ví dụ thuộc D không thuộc D_train để tạo nên tập thử nghiệm: D_test = {zD; zD_train} Nhập môn Học máy Khai phá liệu – Introduction to Machine learning and Data mining 13 Bootstrap sampling (2) ◼ ◼ Trong bước lặp, ví dụ có xác suất = 1 −  n không lựa chọn đưa vào tập huấn luyện để Vì vậy, xác suất để ví dụ (sau trình lấy mẫu lặp lại – bootstrap sampling) đưa vào tập kiểm thử là: n ◼ Có nghĩa rằng:  1 −1 1 −   e  0.368  n • Tập huấn luyện (có kích thước =n) bao gồm xấp xỉ 63.2% ví dụ D (Lưu ý: Một ví dụ thuộc tập D xuất nhiều lần tập D_train) • Tập kiểm thử (có kích thước

Ngày đăng: 22/11/2022, 22:10