Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 21 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
21
Dung lượng
716,87 KB
Nội dung
Chương III: Phân lớp Phân lớp (Classification) Nội dung Giới thiệu toán phân lớp (Classification) Các phương pháp chuẩn bị liệu cho toán phân lớp a Phương pháp Holdout b Phương pháp Random sub-sampling c Phương pháp Crossvalidation d Phương pháp Boostrap Đánh giá lựa chọn mơ hình phân lớp Bài tốn phân lớp (Classification) Supervised learning Bài toán phân lớp (tt) Phân lớp hình thức phân tích liệu phổ biến dùng để tạo lập mô hình mơ tả phân lớp liệu quan trọng Những phân tích giúp hiểu sâu liệu tầm mức lớn hơn, bao qt Những mơ hình phân lớp (classification models/classifiers) cịn sử dụng để dự đốn nhãn phân lớp cho liệu vào tương ứng 1 Bài toán phân lớp (tt) Ứng dụng phân lớp ▪ Phân lớp ứng dụng rộng rãi thực tế, như: phân loại hồ sơ tín dụng an toàn hay rủi ro lựa chọn phương thức điều trị A, B hay C cho bệnh nhân dự đốn sở thích (có/khơng) người nghe với thể loại/bài hát phân loại e-mail spam hay khơng v.v 1 Bài tốn phân lớp (tt) ▪ Đặc trưng mơ hình phân lớp học dựa tập liệu mẫu có sẵn Những liệu thơ đầu vào (như: văn bản, hình ảnh, âm thanh, v.v.) chuyển đổi thành vector Số chiều vector tùy thuộc vào trường hợp cụ thể Đặc biệt chiều này, có chiều chứa nhãn phân lớp có sẵn tương ứng với trường hợp cụ thể ▪ Dựa tập liệu vào dạng vector này, thuật toán đặc thù triển khai để tiến hành thiết lập ánh xạ f(x)=c,c ∈C Trong C tập nhãn x vector với chiều f(x) mơ hình thu thơng qua q trình học 1 Bài tốn phân lớp (tt) Các mơ hình xây dựng với mục tiêu hướng đến khả dự báo c có độ xác cao nhất, hay tin cậy nhất, nằm khoảng chấp nhận Chính vậy, dựa tập liệu đầu vào, người ta rút bớt phần để làm tập liệu test hay validate Các mơ hình xây dựng phần liệu lại kiểm thử hiệu tập liệu test/validate 2 Chuẩn bị liệu Chuẩn bị liệu cho việc huấn luyện mơ hình phân lớp nhằm phục vụ hai mục đích chính: Xây dựng mơ hình phân lớp: tập liệu dùng cho mục đích gọi tập liệu huấn luyện (training dataset) Kiểm thử mô hình phân lớp: tập liệu dùng cho mục đích gọi tập liệu kiểm thử (test set/validation set) Tập liệu sử dụng để kiểm tra độ xác khả dự đốn mơ hình phân lớp 2 Chuẩn bị liệu (tt) 2.1 Phương pháp Holdout Phương pháp holdout đơn giản Phương pháp chia tập liệu đầu vào thành hai tập phân biệt với tỉ lệ cho trước Tỉ lệ training set validation set thường chọn tương ứng 2/3 1/3 hay 70% 30% 2.2 Phương pháp random subsampling Phương pháp random subsampling biến thể phương pháp holdout Thực chất phương pháp việc lặp lại phương pháp holdout k lần Độ xác dự đốn tính số trung bình độ xác mơ hình xây dựng lần lặp 2.3 Phương pháp cross-validation ▪Xác nhận chéo k-fold crossvalidation tập liệu D thực cách chia tập D thành k – tập có kích cỡ Quá trình huấn luyện kiểm thử thực k lần Ở bước lặp thứ i, phân mảnh giữ lại làm tập kiểm thử (test set), phần lại sử dụng làm tập huấn luyện 2.4 Phương pháp boostrap Khác với phương pháp trên, phần liệu chọn làm test set khơng có mặt training set Với phương pháp boostrap, phần liệu chọn làm test set sử dụng training set Do phương pháp đặc biệt phù hợp với tập liệu có cỡ nhỏ 3 Đánh giá lựa chọn mơ hình phân lớp ▪ Bộ phân lớp sau xây dựng dựa tập liệu huấn luyện cần đánh giá thông qua đo lường khả phân lớp xác (accuracy) liệu kiểm thử (test dataset) Độ xác phân lớp M - Acc(M)- phần trăm số lần dự đoán nhãn (lớp) cho trước tập liệu kiểm thử ▪ Tỉ lệ lỗi (error rate) phân lớp M tính – Acc(M) 3 Đánh giá (tt): confusion matrix Để phân tích khả dự đoán phân lớp M, người ta thường sử dụng ma trận hỗn hợp (confusion matrix) Cho m lớp phân biệt, phân lớp M xây dựng để tiến hành phân biệt liệu vào lớp Predicted class C1 C2 Actual class C1 True positives False negatives C2 False positives True negatives Đánh giá (tt) Dựa ma trận này, nhiều phép đo đề xuất để đánh giá hiệu phân lớp M Có trường hợp việc đốn nhãn lớp lại khơng mang nhiều ý nghĩa Ví dụ xét trường hợp phân lớp bệnh nhân cancer not_cancer, giả sử M đạt độ xác 90% Vậy 3-4% trường hợp khác bệnh nhân cancer lại dự đốn not_cancer hậu nào? Vì số 90% không mang ý nghĩa quan trọng Thay vào mong muốn M đưa dự đốn phân lớp xác cho nhãn cancer not_cancer Hai độ đo sensitivity specificity dùng trường hợp 3 Đánh giá (tt): khoảng tin cậy Giả ▪ sử xây dựng hai mơ hình phân lớp Mỗi mơ hình xây dựng thông qua thực 10-fold crossvalidation Với lần lặp cho độ lỗi xác định, sau 10 lần lặp mơ hình có độ lỗi trung bình tương ứng Nguồn liệu cho phép thực kiểm thử giả thuyết “Hai mơ hình cho Hay nói cách khác khác biệt độ lỗi trung bình hai mơ hình 0” Nếu bác bỏ giả thiết kết luận hai mơ hình có khác biệt rõ ràng mặt thống kê Và trường hợp đó, lựa chọn mơ hình có độ lỗi thấp (là mơ hình tốt hơn) 3 Đánh giá (tt): Khoảng tin cậy ▪ Với Đánh giá (tt) Đường ROC – Receiver Operating Characteristic ▪ Đường ROC công cụ khác để so sánh hiệu hai hay nhiều mơ hình khác cách trực quan Để vẽ đường ROC phân lớp M, cần xếp liệu kiểm thử theo thứ tự giảm dần của kết dự đoán nhãn phân lớp ▪ Đường ROC mơ hình nằm biểu thị hiệu mơ hình cao mơ hình cịn lại Hướng dẫn thực hành chuẩn bị liệu Weka Explorer Cảm ơn bạn theo dõi!!!