1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long

86 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Bài giảng Học máy - Bài 4: Hồi quy logistic, máy vec tơ hỗ trợ cung cấp cho người học các kiến thức: Hồi quy logit, phân lớp và hồi quy, hồi quy logistic, hàm logistic trên dữ liệu default,... Mời các bạn cùng tham khảo nội dung chi tiết.

Hồi quy Logistic, Máy véctơ hỗ trợ (SVM) Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website mơn học: https://sites.google.com/a/wru.vn/cse445spring2016/ Bài giảng có sử dụng hình vẽ sách “An Introduction to Statistical Learning with Applications in R” với cho phép tác giả, có sử dụng slides khóa học CME250 ĐH Stanford IOM530 ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy Logit (Logistic Regression) CSE 445: Học máy | Học kỳ 1, 2016-2017 Types of Algorithms Yes No Supervised Unsupervised What you want to predict? Do you want to group the data? Category Classification Yes Quantity Regression KNN SVM Do you have labeled data? Logistic Regression LASSO Linear Regression Cluster Analysis No Dimensionality Reduction K means Hierarchical Clustering CSE 445: Học máy | Học kỳ 1, 2016-2017 PCA ICA SOM Phân lớp • Hồi quy – dự đốn biến định lượng (liên tục) Y – Trong nhiều ứng dụng, biến đầu định tính kiểu định danh/hạng mục • Phân lớp: Dự đốn biến đầu định tính – Gán quan sát cho lớp/mục – vd: Bộ phân lớp K-láng giềng gần học trước CSE 445: Học máy | Học kỳ 1, 2016-2017 Ví dụ phân lớp • Các giao dịch thẻ tín dụng – Có phải dịch gian lận hay khơng ta dựa thông tin lịch sử giao dịch chúng? • Rủi ro tín dụng – Liệu cá nhân có bị vỡ nợ với tài khoản tín dụng khơng? • Thị giác máy (Computer Vision) – Hiểu đối tượng xuất ảnh CSE 445: Học máy | Học kỳ 1, 2016-2017 Ví dụ phân lớp Hình 4.1 , ISL 2013* CSE 445: Học máy | Học kỳ 1, 2016-2017 Phân lớp Hồi quy • Phân lớp Hồi quy có liên quan với lớn • Phân lớp hoạt động hồi quy: – Dự đoán xác suất mẫu liệu thuộc vào lớp, ta gán vào lớp có xác suất cao CSE 445: Học máy | Học kỳ 1, 2016-2017 Hồi quy Logistic • Phân lớp nhị phân: Y nhận giá trị (“0” “1”) với lớp tương ứng • Mơ hình hồi quy Logistic toán phân lớp nhị phân – Ngưỡng để đạt định phân lớp – Là mơ hình hồi quy tuyến tính có chỉnh sửa để dự đoán xác suất [0, 1] CSE 445: Học máy | Học kỳ 1, 2016-2017 Ví dụ: Dữ liệu Credit Card Default • Ta cần dự đốn khách hang có nguy phá sản (default) • Các biến X là: • • Thu nhập thường xuyên (Annual Income) Cân đối thẻ hàng tháng (Monthly credit card balance) • Biến Y (Default) có kiểu rời rạc (categorical): Yes No • Làm để tìm quan hệ Y X? CSE 445: Học máy | Học kỳ 1, 2016-2017 Tập liệu Default CSE 445: Học máy | Học kỳ 1, 2016-2017 Phân tách phi tuyến Φ: X → φ(X) Không gian đầu vào (2D) Không gian đặc trưng (3D) 72 CSE 445: Học máy | Học kỳ 1, 2016-2017 Máy véc-tơ hỗ trợ (SVM) Support Vector Machine: mở rộng để sử dụng nhân (kernels) đạt ranh giới định phi tuyến • Các hàm nhân ánh xạ liệu vào không gian có số chiều cao – Áp dụng phân lớp véc-tơ hỗ trợ vào không gian chiều cao với siêu phẳng (tuyến tính) ranh giới định CSE 445: Học máy | Học kỳ 1, 2016-2017 Máy véc-tơ hỗ trợ • Việc tính tốn phân lớp véc-tơ hỗ trợ yêu cầu xử lý nội (inner product) liệu huấn luyện, không cần thiết phải chuyển đổi khơng gian trực tiếp • Trong phương pháp SVM, ta sử dụng hàm nhân (kernel functions), ký hiệu K CSE 445: Học máy | Học kỳ 1, 2016-2017 Ví dụ φ(.) K(.,.)   x1   φ     = (1, x1 , x2 , x12 , x22 , x1 x2 )   x2   • Inner product khơng φ   x1  , φ   y1   = (1 + x1 y1 + x2 y2 )  x   y    2   2 gian đặc trưng • Giả sử φ(.) cho • Do đó, ta định nghĩa hàm nhân (kernel function) đây, ta không cần phải thực φ(.) cách tường minh K (x , y ) = (1 + x1 y1 + x2 y2 ) • Việc sử dụng hàm nhân để tránh thực φ(.) tường minh gọi kernel trick CSE 445: Học máy | Học kỳ 1, 2016-2017 75 Máy véc-tơ hỗ trợ • Tính chất hàm nhân K(X, X’): – Không cần chuyển đổi trực tiếp không gian biến – Đối xứng: K(X, X’) = K(X’, X) – Cho ta tính tương tự X X’ • Nếu X X’ gần K(X, X’) lớn • Nếu X X’ xa phần K(X, X’) nhỏ CSE 445: Học máy | Học kỳ 1, 2016-2017 Máy véc-tơ hỗ trợ • Nhân tuyến tính (Linear kernel) • Nhân đa thức bậc p (Polynomial kernel (degree p)) • Nhân Radial (Radial basis kernel) CSE 445: Học máy | Học kỳ 1, 2016-2017 Máy véc-tơ hỗ trợ • Tại sử dụng nhân thay cho xây dựng trực tiếp không gian biến chiều cao? – Ưu điểm tính tốn nhanh • Các phương pháp học máy khác sử dụng nhân – Vd: kernel PCA CSE 445: Học máy | Học kỳ 1, 2016-2017 • Ví dụ: nhân đa thức (polynomial kernel), p = 2, d = 2: Ta có CSE 445: Học máy | Học kỳ 1, 2016-2017 Máy véc-tơ hỗ trợ CSE 445: Học máy | Học kỳ 1, 2016-2017 Máy véc-tơ hỗ trợ • Ưu điểm – Điều chỉnh tham số C để tránh overfitting – Sử dụng nhân cung cấp độ linh hoạt hình thức ranh giới định – Tối ưu hóa hàm lồi – cho lời giải • Nhược điểm – Phải thử nhiều siêu tham số (vd: C, kernel function) • Đạt hiệu suất chọn sai – Phải đưa tốn phân lớp nhị phân – Khó diễn giải CSE 445: Học máy | Học kỳ 1, 2016-2017 Câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 SVM với 3+ lớp • SVMs thiết kế cho phân lớp nhị phân – Siêu phẳng tách phân liệu thành lớp • Làm để xử lý liệu số lớp nhiều 2? • Có cách tiếp cận thông dụng: One versus one One versus all CSE 445: Học máy | Học kỳ 1, 2016-2017 SVM với 3+ lớp • Phân lớp One-versus-one – Xây dựng SVM cho cặp ∃(∃%&) ∋ – Với # lớp yêu cầu huấn luyện SVMs ∃(∃%&) – Để phân lớp đối tượng mới, áp dụng tất SVMs ∋ cho mẫu – chọn lớp có tần suất nhiều cặp để lấy giá trị phân lớp cuối – Nhược điểm: thời gian tính tốn lâu giá trị K lớn CSE 445: Học máy | Học kỳ 1, 2016-2017 SVM với 3+ lớp • PhânlớpOne versus all – Xấp xỉ # SVMs, lớp K biểu thị phân lớp, lớp #−1 lại gộp vào thành lớp thứ – Khoảng cách đến siêu phẳng tách đại diện cho độ tin cậy phân lớp – Với đối tượng mới, chọn lớp có “độ tin cậy cao nhất” để dự đoán CSE 445: Học máy | Học kỳ 1, 2016-2017 Câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 ... estimation) CSE 44 5: Học máy | Học kỳ 1, 201 6-2 017 Câu hỏi? CSE 44 5: Học máy | Học kỳ 1, 201 6-2 017 Đánh giá hiệu phân lớp CSE 44 5: Học máy | Học kỳ 1, 201 6-2 017 Phân lớp • Học có giám sát: Học từ mẫu... CSE 44 5: Học máy | Học kỳ 1, 201 6-2 017 Hồi quy Logistic (β O+ β X) = CSE 44 5: Học máy | Học kỳ 1, 201 6-2 017 1+ (β O + β X) Hồi quy Logistic (β O+ β X) = CSE 44 5: Học máy | Học kỳ 1, 201 6-2 017... 10 10 8712 8712 CSE 44 5: Học máy | Học kỳ 2, 201 5-2 016 38 Máy véc-tơ hỗ trợ Support Vector Machines (SVMs) CSE 44 5: Học máy | Học kỳ 1, 201 6-2 017 Máy véc-tơ hỗ trợ • Máy véc-tơ hỗ trợ đề xuất

Ngày đăng: 11/05/2021, 01:44

Xem thêm: