Đánh giá kết quả phân tíchThân Quang KhoátBài giảng của DSLabViện nghiên cứu cao cấp về Toán (VIASM)

Đánh giá kết phân tích Thân Quang Khốt Bài giảng DSLab Viện nghiên cứu cao cấp Toán (VIASM) Nội dung n Giới thiệu chung n Đánh giá hiệu Đánh giá hiệu hệ thống học máy § Làm để thu đánh giá đáng tin cậy hiệu hệ thống? Chiến lược đánh giá q Lựa chọn tham số tốt q § Làm để lựa chọn tốt tham số cho phương pháp học máy? § Làm để so sánh hiệu hai phương pháp học máy, với độ tin cậy cao? Đánh giá hiệu hệ thống học máy § Đánh giá lý thuyết (theoretical evaluation): nghiên cứu khía cạnh lý thuyết hệ thống mà chứng minh Tốc độ học, thời gian học, q Cỡ liệu đủ? q Độ xác trung bình hệ thống, q Khả chống nhiễu,… q § Đánh giá thực nghiệm (experimental evaluation): quan sát hệ thống làm việc thực tế, sử dụng nhiều tập liệu tiêu chí đánh giá Tổng hợp đánh giá từ quan sát § Chúng ta nghiên cứu cách đánh giá thực nghiệm Đánh giá hiệu hệ thống học máy… § Bài tốn đánh giá (model assessment): cần đánh giá hiệu phương pháp (model) học máy A, dựa liệu quan sát D § Việc đánh giá hiệu hệ thống • Thực cách tự động, sử dụng tập liệu • Khơng cần tham gia (can thiệp) người dùng § Chiến lược đánh giá (evaluation strategies) → Làm có đánh giá đáng tin cậy hiệu hệ thống? § Các tiêu chí đánh giá (evaluation metrics) → Làm để đo hiệu hệ thống? (Hồ Tú Bảo) Các phương pháp đánh giá § Hold-out (chia đơi) § Stratified sampling (lấy mẫu phân tầng) § Repeated hold-out (chi đơi nhiều lần) § Cross-validation (đánh giá chéo) • k-fold • Leave-one-out Hold-out (Splitting) § Tồn tập ví dụ D chia thành tập khơng giao • Tập huấn luyện Dtrain – để huấn luyện hệ thống • Tập kiểm thử Dtest – để đánh giá hiệu hệ thống học → D = Dtrain È Dtest, thường |Dtrain| >> |Dtest| § Các u cầu: q Bất kỳ ví dụ thuộc vào tập kiểm thử Dtest không sử dụng trình huấn luyện hệ thống q Bất kỳ ví dụ sử dụng giai đoạn huấn luyện hệ thống (i.e., thuộc vào Dtrain) không sử dụng giai đoạn đánh giá hệ thống q Các ví dụ kiểm thử Dtest cho phép đánh giá không thiên vị hiệu hệ thống § Các lựa chọn thường gặp: |Dtrain|=(2/3).|D|, |Dtest|=(1/3).|D| § Phù hợp ta có tập ví dụ D có kích thước lớn Hold-out: ví dụ § § § § Thử nghiệm phân loại tin tức Phương pháp: SVM Training data Kết Stratified sampling § Đối với tập ví dụ có kích thước nhỏ khơng cân xứng (unbalanced datasets), ví dụ tập huấn luyện thử nghiệm khơng phải đại diện q Ví dụ: Có (rất) ví dụ số lớp § Mục tiêu: Phân bố lớp (class distribution) tập huấn luyện tập kiểm thử phải xấp xỉ tập tồn ví dụ (D) § Lấy mẫu phân tầng (Stratified sampling) • Là phương pháp để cân xứng (về phân bố lớp) • Đảm bảo tỷ lệ phân bố lớp (tỷ lệ ví dụ lớp) tập huấn luyện tập kiểm thử xấp xỉ § Phương pháp lấy mẫu phân tầng khơng áp dụng cho tốn hồi quy (vì giá trị đầu hệ thống giá trị số thực, nhãn lớp) 10 Lựa chọn tham số: sử dụng Hold-out § Cho trước tập quan sát D, ta lựa chọn tham số λ cho phương pháp học A sau: • • • • Chọn tập hữu hạn S mà chứa giá trị tiềm cho λ Chọn độ đo P để đánh giá hiệu Chia D thành tập rời nhau: Dtrain Tvalidation Với giá trị λ Ỵ S: • Học A từ tập học Dtrain với tham số đầu vào λ Đo hiệu tập Tvalidation thu Pλ • Chọn λ* mà có Pλ tốt § Có thể học lại A từ D với tham số λ* để hệ thống thu kết tốt § Có thể thay Hold-out kỹ thuật khác (e.g., sampling, crossvalidation) 15 Thử nghiệm: lựa chọn tham s Đ SVM cho phõn loi tin tc ã Tham số: C § Training data § 10-fold cross-validation dùng § Kết 16 Đánh giá lựa chọn mơ hình § Cho trước tập quan sát D, ta cần lựa chọn tham số λ (model selection) cho phương pháp học A đánh giá (assessment) chất lượng tổng thể A • • • • Chọn tập hữu hạn S mà chứa giá trị tiềm cho λ Chọn độ đo P để đánh giá hiệu Chia tập D thành tập rời nhau: Dtrain, Tvalidation, v Ttest Vi mi giỏ tr ẻ S: ã Học A từ tập học Dtrain với tham số đầu vào λ Đo hiệu tập Tvalidation thu Pλ • Chọn λ* mà có Pλ tốt • Huấn luyện A tập Dtrain È Tvalidation, với tham số đầu vào λ* • Đo hiệu hệ thống tập Ttest § Có thể thay Hold-out kỹ thuật khác (cross-validation) 17 Các tiêu chí đánh giá § Tính xác (Accuracy) →Mức độ dự đốn (phân lớp) xác hệ thống (đã huấn luyện) ví dụ kiểm chứng (test instances) § Tính hiệu (Efficiency) →Chi phí thời gian tài nguyên (bộ nhớ) cần thiết cho việc huấn luyện kiểm thử hệ thống § Khả xử lý nhiễu (Robustness) →Khả xử lý (chịu được) hệ thống ví dụ nhiễu (lỗi) thiếu giá trị 18 Các tiêu chí đánh giá § Khả mở rộng (Scalability) →Hiệu hệ thống (vd: tốc độ học/phân loại) thay đổi kích thước tập liệu § Khả diễn giải (Interpretability) →Mức độ dễ hiểu (đối với người sử dụng) kết hoạt động hệ thống § Mức độ phức tạp (Complexity) →Mức độ phức tạp mơ hình hệ thống (hàm mục tiêu) học 19 Tính xác (Accuracy) § Đối với toán phân loại: Số phán đoán xác !ccuracy = Tổng số phán đốn § Đối với toán hồi quy (dự đoán) →Giá trị (kết quả) đầu hệ thống giá trị số Error = D _ test å Error( x); Error( x) = d ( x) - o( x) xỴD _ test •o(x): Giá trị đầu (dự đốn) hệ thống liệu x •d(x): Giá trị đầu thực (đúng) liệu x 20 Ma trận nhầm lẫn (Confusion matrix) § Cịn gọi Contingency Table § Chỉ sử dụng tốn phân loại q Khơng thể áp dụng cho tốn hồi quy (dự đốn) • TPi (true positive): Số lượng liệu thuộc lớp ci phân loại xác vào lớp ci • FPi (false positive): Số lượng liệu bên bị phân loại nhầm vào lớp ci • TNi (true negative): Số lượng liệu khơng thuộc lớp ci phân loại (chính xác) • FNi (false negative): Số lượng liệu thuộc lớp ci bị phân loại nhầm (vào lớp khác ci) Lớp ci Được phân loại hệ thống Thuộc Nhãn lớp Thuộc thực (đúng) Ko thuộc Ko thuộc TPi FNi FPi TNi 21 Precision and Recall (1) § Rất hay sử dụng để đánh giá hệ thống phân loại văn § Precision lớp ci → Tổng số ví dụ thuộc lớp ci phân loại xác chia cho tổng số ví dụ phân loại vào lớp ci Precision(ci ) = TPi TPi + FPi § Recall lớp ci → Tổng số ví dụ thuộc lớpci phân loại xác chia cho tổng số ví dụ thuộc lớp ci TPi Recall(ci ) = TPi + FN i 22 Precision and Recall (2) § Làm để tính tốn giá trị Precision Recall (một cách tổng thể) cho tồn lớp C={ci}? § Trung bình vi mơ (Micro-averaging) C C ∑TP ∑TP i Precision = i i=1 Recall = C ∑(TP + FP ) i i=1 C ∑(TP + FN ) i i i=1 i i=1 § Trung bình vĩ mơ (Macro-averaging) C C ∑ Precision(c ) ∑ Recall(c ) i Precision = i=1 C i Recall = i=1 C 23 F1 § Tiêu chí đánh giá F1 kết hợp tiêu chí đánh giá Precision Recall F1 = 2.Precision.Recall = Precision + Recall 1 + Precision Recall § F1 trung bình điều hịa (harmonic mean) tiêu chí Precision Recall • F1 có xu hướng lấy giá trị gần với giá trị nhỏ giá trị Precision Recall • F1 có giá trị lớn giá trị Precision Recall lớn 24 Ví dụ: so sánh phương pháp § Phương pháp: SVM vs Random forest § Thực lựa chọn tham số (dùng 10-fold cross-validation) ta được: • SVM: C = 1.0 • Random forest: n_estimates = 250 (số cây) § Kết 25 Ví dụ: ảnh hưởng tham số § SVM cho phõn loi tin tc ã Tham s: C Đ Training data: 1135 tin tức, số chiều 25199, 10 lớp § 10-fold cross-validation dùng § Kết 26 Ví d: nh hng ca tham s Đ SVM ã Tham số: kernel thuộc {RBF, Linear} § Training data: 1135 tin tức, số chiều 25199, 10 lớp § 10-fold cross-validation dùng § Kết 27 Ví dụ: ảnh hưởng c d liu Đ SVM ã Tham s: kớch thc liệu huấn luyện § Training data: 1135 tin tức, số chiều 25199, 10 lớp § 10-fold cross-validation dùng § Kết 28 Liên hệ Thân Quang Khoát Viện nghiên cứu cao cấp Toán (VIASM) Viện CNTT-TT, Đại học Bách Khoa HN khoattq@soict.hust.edu.vn