1. Trang chủ
  2. » Hoá học lớp 12

Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long

86 27 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 1,44 MB

Nội dung

Vapnik và các đồng nghiệp của ông vào những năm 1970s ở Nga, và sau đó đã trở nên nổi tiếng và phổ biến vào những năm 1990s • Phương pháp học phân loại có giám sát: Bài toán phân loại 2 [r]

(1)Hồi quy Logistic, Máy véctơ hỗ trợ (SVM) Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445spring2016/ Bài giảng có sử dụng hình vẽ sách “An Introduction to Statistical Learning with Applications in R” với cho phép tác giả, có sử dụng slides các khóa học CME250 ĐH Stanford và IOM530 ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 (2) Hồi quy Logit (Logistic Regression) CSE 445: Học máy | Học kỳ 1, 2016-2017 (3) Types of Algorithms Yes No Supervised Unsupervised What you want to predict? Do you want to group the data? Category Classification Yes Quantity Regression KNN SVM Do you have labeled data? Logistic Regression LASSO Linear Regression Cluster Analysis No Dimensionality Reduction K means Hierarchical Clustering CSE 445: Học máy | Học kỳ 1, 2016-2017 ICA PCA SOM (4) Phân lớp • Hồi quy – dự đoán biến định lượng (liên tục) Y – Trong nhiều ứng dụng, biến đầu là định tính kiểu định danh/hạng mục • Phân lớp: Dự đoán biến đầu định tính – Gán quan sát cho lớp/mục – vd: Bộ phân lớp K-láng giềng gần bài học trước CSE 445: Học máy | Học kỳ 1, 2016-2017 (5) Ví dụ phân lớp • Các giao dịch thẻ tín dụng – Có phải dịch gian lận hay không ta dựa trên thông tin lịch sử giao dịch chúng? • Rủi ro tín dụng – Liệu cá nhân có bị vỡ nợ với tài khoản tín dụng mình không? • Thị giác máy (Computer Vision) – Hiểu các đối tượng xuất ảnh CSE 445: Học máy | Học kỳ 1, 2016-2017 (6) Ví dụ phân lớp Hình 4.1 , ISL 2013* CSE 445: Học máy | Học kỳ 1, 2016-2017 (7) Phân lớp và Hồi quy • Phân lớp và Hồi quy có liên quan với lớn • Phân lớp hoạt động hồi quy: – Dự đoán xác suất mẫu liệu thuộc vào lớp, ta gán vào lớp có xác suất cao CSE 445: Học máy | Học kỳ 1, 2016-2017 (8) Hồi quy Logistic • Phân lớp nhị phân: Y nhận giá trị (“0” “1”) với lớp tương ứng • Mô hình hồi quy Logistic bài toán phân lớp nhị phân – Ngưỡng để đạt các định phân lớp – Là mô hình hồi quy tuyến tính có chỉnh sửa để dự đoán xác suất [0, 1] CSE 445: Học máy | Học kỳ 1, 2016-2017 (9) Ví dụ: Dữ liệu Credit Card Default • Ta cần dự đoán các khách hang có nguy phá sản (default) • Các biến X là: • • Thu nhập thường xuyên (Annual Income) Cân đối thẻ hàng tháng (Monthly credit card balance) • Biến Y (Default) có kiểu rời rạc (categorical): Yes No • Làm để tìm quan hệ Y và X? CSE 445: Học máy | Học kỳ 1, 2016-2017 (10) Tập liệu Default CSE 445: Học máy | Học kỳ 1, 2016-2017 (11) Tại không dùng hồi quy tuyến tính? • • Khi Y nhận giá trị Yes No (1 0), mô hình hồi quy tuyến tính không thích hợp? Nếu ta xây dựng mô hình hồi quy tuyến tính trên liệu Default, thì với cân đối tài chính thấp (low balances) ta dự đoán xác suất âm, và với cân đối cao ta dự đoán xác suất trên 1! Khi biến Balance < 500, Pr(default) là số âm! Diễn giải giá trị nhỏ nào? CSE 445: Học máy | Học kỳ 1, 2016-2017 (12) Hàm Logistic trên liệu Default Xác suất việc phá sản sát không âm các tài khoản có cân tài chính thấp, tương tự với cân tài chính cao sát không lớn β +β X e0 p = P(Y =1) = β0 +β1X 1+ e CSE 445: Học máy | Học kỳ 1, 2016-2017 (13) Diễn giải giá trị β1 • Việc diễn giải ý nghĩa β1 không dễ hồi quy logistic, vì ta dự đoán xác suất P(Y), không phải giá trị Y • Nếu β1 =0, có nghĩa là không tồn mối quan hệ Y và X • Nếu β1 >0, nghĩa là X nhận giá trị lớn đồng nghĩa với việc tăng xác suất Y = • Nếu β1 <0, nghĩa là X nhận giá trị lớn hơn, xác suất mà Y = nhỏ • Tuy nhiên giá trị lớn nhỏ là bao nhiêu lại phụ thuộc vào vị trí ta đứng độ dốc (the slope) nào CSE 445: Học máy | Học kỳ 1, 2016-2017 (14) Hồi quy Logistic (β O+ β X) = CSE 445: Học máy | Học kỳ 1, 2016-2017 1+ (β O + β X) (15) Hồi quy Logistic (β O+ β X) = CSE 445: Học máy | Học kỳ 1, 2016-2017 1+ (β O + β X) (16) Ý nghĩa các hệ số? • Ta thực kiểm định giả thuyết để xem ý nghĩa các hệ số β0 và β1 • Ta dùng kiểm định Z thay cho T-test, việc diễn giải pvalue không thay đổi • Trong ví dụ này, p-value cho biến balance nhỏ, và β1 dương, vì ta có thể khẳng định biến balance tăng thì xác suất phá sản tăng theo CSE 445: Học máy | Học kỳ 1, 2016-2017 (17) Dự đoán • Giả sử cá nhân có cân đối tài chính trung bình là $1000 Xác suất phá sản là bao nhiêu? • Xác suất phá sản dự đoán cho cá nhân với cân đối tài chính $1000 là nhỏ 1% • Với cân đối là $2000, xác suất lớn và kết là 0.586 (58.6%) CSE 445: Học máy | Học kỳ 1, 2016-2017 (18) Biến X rời rạc Hồi quy Logistic • Ta có thể dự đoán cá nhân phá sản với việc kiểm tra xem người đó có phải là sinh viên hay không Do đó, ta sử dụng biến rời rạc “Student” mã sau: Student = 1, Non-student =0 • β1 dương: Điều này sinh viên có xu hướng xác suất vỡ nợ cao là người không phải là sinh viên CSE 445: Học máy | Học kỳ 1, 2016-2017 (19) Hồi quy Logistic đa biến • Ta có thể mở rộng hồi quy logistic với trường hợp nhiều biến đầu vào: CSE 445: Học máy | Học kỳ 1, 2016-2017 (20) Hồi quy Logistic đa biến- Default Data Dự đoán khả vỡ nợ (Default) dùng: Balance (dữ liệu số, quantitative) Income (dữ liệu số, quantitative) Student (rời rạc, qualitative) CSE 445: Học máy | Học kỳ 1, 2016-2017 (21) Dự đoán Một sinh viên với mức cân đối thẻ tín dụng là $1,500 và tổng thu nhập là $40,000 có xác suất dự đoán khả vỡ nợ sau CSE 445: Học máy | Học kỳ 1, 2016-2017 (22) Mâu thuẫn kiểu biến! Dương Âm CSE 445: Học máy | Học kỳ 1, 2016-2017 (23) Sinh viên (màu cam) vs Không phải sinh viên (màu xanh) • • Sinh viên rủi ro là người không phải sinh viên không có thông tin mức cân đối thẻ tín dụng Tuy nhiên, sinh viên ít rủi ro với đối tượng không phải là sinh viên có cùng mức cân đối thẻ tín dụng! CSE 445: Học máy | Học kỳ 1, 2016-2017 (24) Hồi quy Logistic • Các tham số mô hình β0 và β1 ước lượng từ liệu huấn luyện – Trong phương pháp hồi quy tuyến tính, ta sử dụng bình phương nhỏ • Tìm tham số mô hình hồi quy Logistic sử dụng phương pháp Ước lượng hợp lý cực đại (maximum likelihood estimation) CSE 445: Học máy | Học kỳ 1, 2016-2017 (25) Câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 (26) Đánh giá hiệu phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 (27) Phân lớp • Học có giám sát: Học từ các mẫu đã gán nhãn • Biến đích có dạng rời rạc / hạng mục • Mục tiêu: dự đoán biến đích có kiểu rời rạc – Gán mẫu cho lớp – Các bài trước: K NN, hồiquylogistic – Hôm nay: SVM CSE 445: Học máy | Học kỳ 2, 2015-2016 27 (28) Học từ mẫu đã gán nhãn Lớp “+” Lớp “−” CSE 445: Học máy | Học kỳ 2, 2015-2016 28 (29) Nhãn cân • Nhãn cân (Imbalanced classes): lớp dương (+) xuất với tần suất nhiều lớp âm ( )trong tập liệu huấn luyện – vd: phát gian lận, liệu y học CSE 445: Học máy | Học kỳ 2, 2015-2016 29 (30) Nhãn cân • Tại đây là vấn đề? – Các thuật toán thực tốt huấn luyện trên các mẫu lớp – Hiệu thấp trên các lớp có ít đại diện CSE 445: Học máy | Học kỳ 2, 2015-2016 30 (31) Đánh giá hiệu phân lớp • Trong bài toán hồi quy, chúng ta dùng tổng phần dư bình phương đo lỗi để đánh giá hiệu thuật toán • Với bài toán phân lớp, chúng ta cần độ đo để đánh giá hiệu phân lớp – Ví dụ: Ma trận nhầm lẫn (Confusion matrix), Độ chính xác/Hồi tưởng (Precision/Recall), Độ nhạy/Độ đặc hiệu (Sensitivity/ Specificity), Đường cong ROC (ROC curve) • Xét bài toán phân lớp nhị phân: Có lớp (+) và (–) CSE 445: Học máy | Học kỳ 2, 2015-2016 31 (32) Đánh giá hiệu phân lớp • Ta có thể biểu thị tính hiệu phân lớp bảng gọi là ma trận nhầm lẫn (confusion matrix): – “Hiệu tốt”: True Positive (TP), True Negative (TN) lớn và False Positive (FP), False Negative (FN) nhỏ • TP: Số lượng các mẫu thuộc lớp (+) phân loại chính xác vào lớp (+) • FP: Số lượng các mẫu không thuộc lớp (+) bị phân loại nhầm vào lớp (+) CSE 445: Học máy | Học kỳ 2, 2015-2016 32 (33) Đánh giá hiệu phân lớp • TN: Số lượng các mẫu không thuộc lớp (+) phân loại đúng • FN: Số lượng các mẫu thuộc lớp (+) bị phân loại nhầm (vào các lớp khác lớp (+)) Lớp dự đoán (Predicted class) Lớp thực (True class) + – + – True Positive-TP False Negative-FN Type II error (False Positive-FP) Type I error True Negative-TN CSE 445: Học máy | Học kỳ 2, 2015-2016 33 (34) Đánh giá hiệu phân lớp True positive rate (TPR) Positive predictive value (PPV) (precision) (recall, sensitivity) Predicted class Predicted class + – TP FP – FN = TN + True class True class + + – False positive rate (FPR) + – TP FN FP TN = + True negative rate (SPC) (specificity) Predicted class + – + TP FP – FN TN = + True class True class Predicted class + – + – TP FN FP TN CSE 445: Học máy | Học kỳ 2, 2015-2016 = + 34 (35) Đánh giá hiệu phân lớp Positive predictive value (PPV) (precision) (recall, sensitivity) Predicted class Predicted class + – – TP FN FP TN = + True class True class + + – – TP FN FP TN = + True negative rate (SPC) (specificity) Predicted class + – + TP FP Predicted class – FN TN = + True class True class ROC curve False positive rate (FPR) + Precision/recall True positive rate (TPR) + – + – TP FN FP TN CSE 445: Học máy | Học kỳ 2, 2015-2016 = + 35 (36) Đánh giá hiệu phân lớp • Đường cong ROC (receiver operating characteristic) phân lớp hoàn hảo đơn điệu tăng Bộ phân lớp A Bộ phân lớp B Tỷ lệ lỗi chấp nhận đúng (TPR) Dự đoán ngẫu nhiên (50/50, random guessing) TPR = TP+FN FPR = Tỷ lệ lỗi chấp nhận sai (FPR) CSE 445: Học máy | Học kỳ 2, 2015-2016 TP FP FP+TN 36 (37) Đánh giá hiệu phân lớp • Nhược điểm đường cong ROC – ROC không biểu thị đúng độ cân các mẫu lớp thực – vd: Xét liệu có 1% mẫu thuộc lớp “+” và 99% mẫu thuộc lớp “–” • Giả sử ta nhận kết phân lớp sau: TPR = 0.9 và FPR = 0.12 • TPR và FPR không hiểu thị theo tính chất đường cong ROC Predicted class True class + + 90 – 1188 – 10 8712 CSE 445: Học máy | Học kỳ 2, 2015-2016 37 (38) Đánh giá hiệu phân lớp • Độ chính xác/Triệu hồi (Precision/recall) TP – Độ chính xác (Positive predictive value): = TP+FP • Tỷ lệ phần trăm số mẫu thuộc lớp (+) dự đoán đúng trên số mẫu thực là (+) TP = TP – Recall (True positive rate): = TP+FN P • Tỷ lệ các mẫu (+) phân lớp chính xác lớp (+) – Recall và precision tỷ lệ nghịch với – Với phân lớp hoàn hảo, Recall = 1, Precision = – VD phân lớp cân bằng: Recall = 0.9, Precision = 0.07 Predicted class True class + + 9090 1188 – 1188 – 10 10 8712 8712 CSE 445: Học máy | Học kỳ 2, 2015-2016 38 (39) Máy véc-tơ hỗ trợ Support Vector Machines (SVMs) CSE 445: Học máy | Học kỳ 1, 2016-2017 (40) Máy véc-tơ hỗ trợ • Máy véc-tơ hỗ trợ đề xuất V Vapnik và các đồng nghiệp ông vào năm 1970s Nga, và sau đó đã trở nên tiếng và phổ biến vào năm 1990s • Phương pháp học phân loại có giám sát: Bài toán phân loại lớp • Khái quát hóa phân lớp với lề cực đại (maximal margin classifier) • Support vector classifier: có thể áp dụng với liệu không tách tuyến tính • Support vector machine: ranh giới định phi tuyến (non-linear decision boundary) CSE 445: Học máy | Học kỳ 1, 2016-2017 (41) Bộ phân lớp có lề cực đại • Bộ phân lớp có lề cực đại – Giả định quan trọng: Dữ liệu có lớp tách tuyến tính • SVM là phương pháp phân lớp tuyến tính (linear classifier), với mục đích xác định siêu phẳng để phân tách hai lớp liệu – ví dụ: lớp các mẫu có nhãn dương (positive) và lớp các mẫu có nhãn âm (negative) • Tìm hiểu siêu phẳng (hyperplanes)… CSE 445: Học máy | Học kỳ 1, 2016-2017 (42) Các siêu phẳng • Siêu phẳng là gì? – Trong không gian d-chiều, tồn không gian (d−1)-chiều Vd: đường thẳng 2D, máy bay không gian 3D – Siêu phẳng không gian d-chiều: – Tách không gian thành nửa không gian CSE 445: Học máy | Học kỳ 1, 2016-2017 (43) Các siêu phẳng −7 + 2x − x = + 9x + 6x − 2x = + 9x + 6x − 2x > −7 + 2x − x < + 9x + 6x − 2x < −7 + 2x − x > CSE 445: Học máy | Học kỳ 1, 2016-2017 (44) Mặt siêu phẳng phân tách Ý tưởng: Dùng mặt siêu phẳng phân tách cho phân lớp nhị phân Giả định: Các lớp có thể tách tuyến tính Hình 9.2 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 (45) Mặt siêu phẳng phân tách Phân lớp đối tượng mới: Phân lớp dựa vào vị trí đối tượng tương ứng với siêu phẳng: Hình 9.2 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 (46) Mặt siêu phẳng phân tách Giả định: Các lớp có thể tách tuyến tính Tồn nhiều mặt phẳng tách… Phân lớp sai Hình 9.2 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 (47) Câu hỏi: Đường tách tuyến tính nào phù hợp? Ta sử dụng tiêu chí gì để chọn? Hình 9.2 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 (48) Mặt siêu phẳng phân tách Đường tách tuyến tính nào phù hợp? • Thay vì việc tìm đường thẳng tách lớp, ta tìm đường thẳng tách các điểm này • Không có điểm DL nào nằm đường này • Đây là ý tưởng đơn giản SVM, gọi là SVM tuyến tính Mặt phẳng phân tách “xa nhất” từ tập liệu huấn luyện “Bộ phân lớp có lề cực đại” Hình 9.2, 9.3 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 (49) Bộ phân lớp có lề cực đại Siêu phẳng có lề cực đại Siêu phẳng “xa nhất” từ tập huấn luyện Cực đại lề Support Vectors là các điểm liệu nằm trên đường thẳng Lề (Margin): khoảng cách nhỏ đối tượng nào tập huấn luyện và siêu phẳng Véc-tơ hỗ trợ (Support vectors): Các đối tượng cách từ siêu phẳng Hình 9.3 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 (50) Bộ phân lớp có lề cực đại • Véc-tơ hỗ trợ – Các đối tượng cách từ siêu phẳng có lề cực đại (maximal margin (MM) hyperplane) – “Hỗ trợ”: siêu phẳng MM phụ thuộc vào các đối tượng (véc-tơ) này • Nếu các véc-tơ hỗ trợ bị nhiễu thì siêu phẳng MM thay đổi • Nếu mẫu huấn luyện nào bị nhiễu, siêu phẳng MM không ảnh hưởng CSE 445: Học máy | Học kỳ 1, 2016-2017 (51) Bộ phân lớp có lề cực đại • Để tìm siêu phẳng có lề cực đại, ta giải: Cực đại lề, M Bài toán tối ưu có ràng buộc là các nhãn lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 Tất các mẫu phải có khoảng cách tối thiểu M từ siêu phẳng (52) Tóm lược khái niệm cho SVM • Xét bài toán dùng siêu phẳng tách lớp • Tịnh tiến song song siêu phẳng này phía tập mẫu lớp, quá trình này dừng có ít điểm thuộc siêu phẳng và không tiến thêm siêu phẳng lề • Hành lang nằm siêu phẳng gọi là miền lề • Khoảng cách siêu phẳng gọi là lề siêu phẳng tách • Siêu phẳng tách tốt có lề cực đại phương pháp tìm siêu phẳng tốt này gọi là SVM CSE 445: Học máy | Học kỳ 1, 2016-2017 Hình 9.3 , ISL 2013 (53) Bộ phân lớp có lề cực đại Nhược điểm: Có thể bị overfit trên liệu huấn luyện Hình 9.5 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 34 (54) Bộ phân lớp có lề cực đại Nhược điểm: Có thể bị overfit trên liệu huấn luyện Nhạy cảm với các mẫu độc lập Hình 9.5 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 35 (55) Bộ phân lớp có lề cực đại Quay lại giả định trước: Các lớp tách hàm tuyến tính Điều gì xảy không tồn siêu phẳng tách? Hình 9.4 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 (56) Bộ phân loại véc-tơ hỗ trợ Điều gì xảy không tồn siêu phẳng tách? Bộ phân loại véc-tơ hỗ trợ (Support Vector Classifier): cho phép các mẫu huấn luyện nằm phía phân loại sai “wrong side” lề siêu phẳng Hình 9.4 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 36 (57) Bộ phân loại véc-tơ hỗ trợ • Support Vector Classifier – Bộ phân loại dựa trên siêu phẳng – Cho phép số mẫu tập huấn luyện nằm sai vị trí lề/siêu phẳng – Lề mềm (Soft margin): lề không cố định ranh giới định phân lớp Mục tiêu để mở rộng miền áp dụng, ta chấp nhận miền lề có lỗi ngoài miền lề phải phân lớp đúng CSE 445: Học máy | Học kỳ 1, 2016-2017 (58) Bộ phân loại véc-tơ hỗ trợ Hình 9.6 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 (59) Bộ phân loại véc-tơ hỗ trợ • Support Vector Classifier – Bộ phân loại dựa trên siêu phẳng – Cho phép số mẫu tập huấn luyện nằm sai vị trí lề/siêu phẳng – Lề mềm (Soft margin): lề không có ranh giới cố định • Ý tưởng: giải bài toán cực đại lề, cho phép số lỗi (vi phạm) miền lề – Đưa thêm hệ số phạt để giới hạn số lượng/bậc vi phạm CSE 445: Học máy | Học kỳ 1, 2016-2017 (60) Bộ phân loại véc-tơ hỗ trợ • Để tìm siêu phẳng cho phân loại véc-tơ hỗ trợ, ta giải: cực đại lề, M Bài toán tối ưu có ràng buộc Các mẫu huấn luyện có khoảng cách nhỏ M từ siêu phẳng với giá trị phạt εi giới hạn tổng lượng phạt biến chùng (“slack”) εi CSE 445: Học máy | Học kỳ 1, 2016-2017 (61) Bộ phân loại véc-tơ hỗ trợ • Biến chùng (Slack) εi cho phép nới lỏng các vi phạm lề – εi = : mẫu huấn luyện X(i) nằm đúng phía so với lề – εi ∈ (0, 1) : X(i) miền lề và phân lớp đúng – εi > : X(i) phân lớp sai (nằm sai vị trí so với siêu phẳng tách) • Ta muốn tìm hàm định có lề lớn và số điểm có εi > nhỏ Tham số phạt C (C>0) – biểu thị cho việc phạt các điểm phân lớp sai C càng lớn thì lề càng hẹp, C→ ∞ ứng với trường hợp tách tuyến tính – Gán các giá trị chi phí C (cost) cho các lỗi Cho phép nhiều C phân lớp sai trên tập liệu huấn luyện CSE 445: Học máy | Học kỳ 1, 2016-2017 (62) Bộ phân loại véc-tơ hỗ trợ “Misclassification budget” tham số C chọn kỹ thuật cross-validation *điều khiển cân bias-variance* Các véc-tơ hỗ trợ: các mẫu trên lề vi phạm lề Hình 9.7 , ISL 2013 Large budget many Support Vectors CSE 445: Học máy | Học kỳ 1, 2016-2017 Small budget fewer Support Vectors (63) Bộ phân loại véc-tơ hỗ trợ Nhược điểm: Ranh giới định tuyến tính Hình 9.8 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 (64) Mở rộng không gian biến Some data sets are not linearly separable… But they become linearly separable when transformed into a higher dimensional space Các biến: X1 , X2 Các biến: X1 , X2, X1X2 CSE 445: Học máy | Học kỳ 1, 2016-2017 (65) Mở rộng không gian biến • Hồi quy tuyến tính Mô hình phi tuyến – Tạo các biến mà chúng là các hàm biến đầu vào • Áp dụng kỹ thuật tương tự này vào phân lớp véc-tơ hỗ trợ – Xem xét các hàm đa thức biến đầu vào CSE 445: Học máy | Học kỳ 1, 2016-2017 (66) Phân tách phi tuyến • Giả sử liệu đầu vào ta có d biến: • Mở rộng không gian biến gồm 2d biến: – Ranh giới định là phi tuyến không gian biến ban đầu CSE 445: Học máy | Học kỳ 1, 2016-2017 (67) Phân tách phi tuyến • Dữ liệu biểu diễn không gian (đã chuyển đổi) có thể phân lớp tuyến tính: • Ranh giới định không gian mở rộng là hình E-líp (ellipse) không gian biến ban đầu: CSE 445: Học máy | Học kỳ 1, 2016-2017 (68) Phân tách phi tuyến CSE 445: Học máy | Học kỳ 1, 2016-2017 (69) Phân tách phi tuyến CSE 445: Học máy | Học kỳ 1, 2016-2017 (70) Phân tách phi tuyến CSE 445: Học máy | Học kỳ 1, 2016-2017 (71) Phân tách phi tuyến • Thêm đa thức bậc cao cho tập không gian biến mở rộng số lượng biến tăng nhanh – Bài toán nhiều biến gặp trở ngại vì thời gian tính toán lâu – Ta cần phương pháp hiệu để xử lý bài toán nhiều biến CSE 445: Học máy | Học kỳ 1, 2016-2017 (72) Phân tách phi tuyến Φ: X → φ(X) Không gian đầu vào (2D) Không gian đặc trưng (3D) 72 CSE 445: Học máy | Học kỳ 1, 2016-2017 (73) Máy véc-tơ hỗ trợ (SVM) Support Vector Machine: mở rộng để sử dụng các nhân (kernels) đạt ranh giới định phi tuyến • Các hàm nhân ánh xạ liệu vào không gian có số chiều cao – Áp dụng phân lớp véc-tơ hỗ trợ vào không gian chiều cao với siêu phẳng (tuyến tính) ranh giới định CSE 445: Học máy | Học kỳ 1, 2016-2017 (74) Máy véc-tơ hỗ trợ • Việc tính toán phân lớp véc-tơ hỗ trợ yêu cầu xử lý nội (inner product) liệu huấn luyện, không cần thiết phải chuyển đổi không gian trực tiếp • Trong phương pháp SVM, ta sử dụng các hàm nhân (kernel functions), ký hiệu là K CSE 445: Học máy | Học kỳ 1, 2016-2017 (75) Ví dụ φ(.) và K(.,.)   x1   φ     = (1, x1 , x2 , x12 , x22 , x1 x2 )   x2   • Inner product không φ   x1  , φ   y1   = (1 + x1 y1 + x2 y2 )  x   y    2   2 gian đặc trưng là • Giả sử φ(.) cho • Do đó, ta định nghĩa hàm nhân (kernel function) đây, ta không cần phải thực φ(.) cách tường minh K (x , y ) = (1 + x1 y1 + x2 y2 ) • Việc sử dụng hàm nhân để tránh thực φ(.) tường minh gọi là kernel trick CSE 445: Học máy | Học kỳ 1, 2016-2017 75 (76) Máy véc-tơ hỗ trợ • Tính chất hàm nhân K(X, X’): – Không cần chuyển đổi trực tiếp không gian biến – Đối xứng: K(X, X’) = K(X’, X) – Cho ta tính tương tự X và X’ • Nếu X và X’ gần thì K(X, X’) lớn • Nếu X và X’ xa phần thì K(X, X’) nhỏ CSE 445: Học máy | Học kỳ 1, 2016-2017 (77) Máy véc-tơ hỗ trợ • Nhân tuyến tính (Linear kernel) • Nhân đa thức bậc p (Polynomial kernel (degree p)) • Nhân Radial (Radial basis kernel) CSE 445: Học máy | Học kỳ 1, 2016-2017 (78) Máy véc-tơ hỗ trợ • Tại sử dụng nhân thay cho xây dựng trực tiếp không gian biến chiều cao? – Ưu điểm tính toán nhanh • Các phương pháp học máy khác sử dụng nhân – Vd: kernel PCA CSE 445: Học máy | Học kỳ 1, 2016-2017 (79) • Ví dụ: nhân đa thức (polynomial kernel), p = 2, d = 2: Ta có CSE 445: Học máy | Học kỳ 1, 2016-2017 (80) Máy véc-tơ hỗ trợ CSE 445: Học máy | Học kỳ 1, 2016-2017 (81) Máy véc-tơ hỗ trợ • Ưu điểm – Điều chỉnh tham số C để tránh overfitting – Sử dụng nhân cung cấp độ linh hoạt hình thức ranh giới định – Tối ưu hóa hàm lồi – cho lời giải • Nhược điểm – Phải thử nhiều siêu tham số (vd: C, kernel function) • Đạt hiệu suất kém chọn sai – Phải đưa bài toán phân lớp nhị phân – Khó diễn giải CSE 445: Học máy | Học kỳ 1, 2016-2017 (82) Câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 (83) SVM với 3+ lớp • SVMs thiết kế cho phân lớp nhị phân – Siêu phẳng tách phân liệu thành lớp • Làm để xử lý liệu số lớp nhiều 2? • Có cách tiếp cận thông dụng: One versus one One versus all CSE 445: Học máy | Học kỳ 1, 2016-2017 (84) SVM với 3+ lớp • Phân lớp One-versus-one – Xây dựng SVM cho cặp $($%&) luyện ' – Với # lớp yêu cầu huấn SVMs $($%&) – Để phân lớp đối tượng mới, áp dụng tất SVMs ' cho mẫu – chọn lớp có tần suất nhiều cặp để lấy giá trị phân lớp cuối cùng – Nhược điểm: thời gian tính toán lâu giá trị K lớn CSE 445: Học máy | Học kỳ 1, 2016-2017 (85) SVM với 3+ lớp • PhânlớpOne versus all – Xấp xỉ # SVMs, đó lớp K biểu thị phân lớp, và các lớp #−1 còn lại gộp vào thành lớp thứ – Khoảng cách đến siêu phẳng tách đại diện cho độ tin cậy phân lớp – Với đối tượng mới, chọn lớp có “độ tin cậy cao nhất” để dự đoán CSE 445: Học máy | Học kỳ 1, 2016-2017 (86) Câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 (87)

Ngày đăng: 10/03/2021, 16:31

HÌNH ẢNH LIÊN QUAN

Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California - Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long
i giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California (Trang 1)
Hình 4. 1, ISL 2013* - Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long
Hình 4. 1, ISL 2013* (Trang 6)
• Nếu ta xây dựng mô hình hồiquy tuyến tính trên dữ liệu Default, thì với những cân đối tài chính thấp (low balances) ta  sẽ dự đoán một xác suất âm, và với cân - Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long
u ta xây dựng mô hình hồiquy tuyến tính trên dữ liệu Default, thì với những cân đối tài chính thấp (low balances) ta sẽ dự đoán một xác suất âm, và với cân (Trang 11)
Hình 9.2, ISL 2013 - Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long
Hình 9.2 ISL 2013 (Trang 45)
Hình 9.2, ISL 2013 - Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long
Hình 9.2 ISL 2013 (Trang 47)
Hình 9.3 , ISL 2013 - Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long
Hình 9.3 ISL 2013 (Trang 49)
Hình 9.5 , ISL 2013 - Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long
Hình 9.5 ISL 2013 (Trang 53)
Hình 9.4 , ISL 2013 - Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long
Hình 9.4 ISL 2013 (Trang 55)
Hình 9.8 , ISL 2013 - Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long
Hình 9.8 ISL 2013 (Trang 63)

TỪ KHÓA LIÊN QUAN

w