Lý thuyết máy học hồi qui tuyến tính

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	77
Dung lượng	3,34 MB

Nội dung

Bài giảng môn Lý thuyết máy học của thầy Lê Ngọc Thành trường Đại học Khoa Học Tự Nhiên Đại Học Quốc Gia TP Hồ Chí Minh. Hồi quy tuyến tính, hồi quy tuyến tính một biến, hồi quy tuyến tính nhiều biến, hồi quy đa thức, biểu thức chuẩn

Trường Đại học Khoa học Tự nhiên Khoa Công nghệ Thông tin TÀI LIỆU LÝ THUYẾT MÁY HỌC HỒI QUY TUYẾN TÍNH Giảng viên: ThS Lê Ngọc Thành Email: lnthanh@fit.hcmus.edu.vn Winter 2012 Nội dung  Hồi quy tuyến tính         Khái niệm Phân biệt với mô hình phân lớp Các loại mô hình tuyến tính Ứng dụng Hồi quy tuyến tính với biến Hồi quy tuyến tính với nhiều biến Hồi quy đa thức Biểu thức chuẩn d Tình • Như để dự đoán giá nhà? – Tập hợp liệu liên quan đến giá nhà – Chúng liên quan đến kích thước nào? d • Cho nhà có kích thước 750 thước vuông, giá mong đợi bao nhiêu? Tình (tt) 230 150 d 750 • Phương pháp giải quyết: – Vẽ đường thẳng xuyên qua liệu có sẵn • Giá nhà 150 – Vẽ đường đa thức bậc • Giá nhà 230 Bài toán hồi quy • Cho trước tập liệu có “câu trả lời đúng” hay cung cấp giá trị output • Thuật toán học từ liệu có sẵn (training data) để rút mô hình dự đoán (predictor) • Nếu giád trị output giá trị liên tục, ta có toán hồi quy (regression) • Nếu giá trị output rời rạc hữu hạn, ta có toán phân lớp (classification) Một số kí hiệu • Tập huấn luyện giá nhà • Kí hiệu: Size in feet2 (x) 2104 1416 1534 852 … Price ($) in 1000's (y) 460 232 315 m=47 178 … d – m: số mẫu huấn luyện – x: biến “input”/đặc trưng – y: biến “output”/biến “target” (x,y): mẫu huấn luyện (xi,yi): mẫu huấn luyện thứ i (i=1,…,m) x1 = 2104 y1 = ? Hồi quy tuyến tính (1/2) Training Set Learning Algorithm Size of house h d Estimated price • Có liệu học, cần thuật toán học tốt để dự đoán giá trị output (liên tục) • Giả thuyết (hypothesis), thuật toán đưa hàm hồi quy (h) nhận giá trị input trả giá trị dự đoán • Hàm đơn giản để giải hàm hồi quy tuyến tính Hồi quy tuyến tính (2/2) • Thể hàm hồi quy tuyến tính: ℎ𝜃 𝑥 = 𝜃0 + 𝜃1 𝑥1 + … • Hàm “tuyến tính” tham số 𝜃0 , 𝜃1 , … , 𝜃𝑛 Tham số gọi trọng số d (weight) • Để đơn giản, hàm gọi hàm tuyến tính biến x (liên kết tuyến tính biến input) Các loại hồi quy tuyến tính • Thể đơn giản nhất: – Hồi quy tuyến tính đơn thức biến input – ℎ𝜃 𝑥 = 𝜃0 + 𝜃1 𝑥 – Univariate linear regression • Hồi quy đa thức mộtd biến: – Ví dụ: ℎ𝜃 𝑥 = 𝜃0 + 𝜃1 𝑥 + 𝜃2 𝑥 – Polinominal linear regression • Hồi quy nhiều biến input: – ℎ𝜃 𝑥 = 𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥2 + … – Multivariate linear regression Hồi quy với hàm sở Hàm sigmoidal Hàm Gaussians Hàm đa thức • Giá trị input x giá trị thực Tuy nhiên thể qua hàm phi tuyến, người ta gọi hàm sở (basic function) Kí hiệu: 𝜙(𝑥) ℎ𝜃 𝑥 = 𝜃0 + 𝜃1 𝜙1 𝑥 + 𝜃1 𝜙2 𝑥 + … • Hàm hồi quy đa thức trường hợp đặc biệt với 2d hàm sở 𝜙 𝑥 = 𝑥 … 10 Một số vấn đề gradient descent • Gradient descent: – – – – – – Vector 𝜽 khởi tạo bao nhiêu? Hệ số học 𝛼? Bao nhiêu vòng lặp? Khi hội tụ? Có hội tụ không? d Ngưỡng 𝜀 nên bao nhiêu? … • Từ vấn đề trên, biểu thức chuẩn (normal equation) cung cấp giải pháp tốt – Phương pháp giải 𝜽 dựa phân tích – Cũng có thuận lợi bất lợi riêng 63 Cực trị hàm số • Xem xét hàm chi phí đơn giản sau: 𝐽 𝜃 = 𝑎𝜃 + 𝑏𝜃 + 𝑐 (𝑣ớ𝑖 𝜃 𝑙à 𝑠ố 𝑡ℎự𝑐) • Tìm 𝜃 để minimize 𝐽(𝜃) 𝜕 𝐽 𝜃 =0 𝜕𝜃 d 64 Cực trị hàm số • Tổng quát: (for every ) – Lấy đạo hàm phần cho để tìm điểm d cực trị – Từ rút 𝜽 làm minimize 𝐽(𝜃) • Việc tính đạo hàm toàn tập mẫu huấn luyện phức tạp tốn thời gian – Mục tiêu cần rút 𝜽 để làm minimize J(𝜽), tiến trình khác 65 Đạo hàm ma trận • Cho hàm 𝑓: 𝑅 𝑚×𝑛 → 𝑅, đạo hàm 𝑓 A: 𝜕𝑓 𝜕𝑓 ⋯ 𝜕𝐴11 𝜕𝐴1𝑛 ∇𝐴 𝑓(𝐴) = ⋮ ⋱ ⋮ 𝜕𝑓 𝜕𝑓 ⋯ 𝜕𝐴𝑚1 𝜕𝐴𝑚𝑛 𝐴11 d • Ví dụ: 𝑓 𝐴 = + 5𝐴12 + 𝐴21 𝐴22 với ma trận 𝐴11 𝐴12 𝐴= , đạo hàm 𝑓(𝐴): 𝐴21 𝐴22 10𝐴12 ∇A 𝑓 𝐴 = 𝐴22 𝐴21 66 Toán tử “trace” • Cho ma trận A, “trace” A tổng phần tử đường chéo: 𝑛 tr𝐴 = 𝐴𝑖𝑖 𝑖=1 • Nếu a số thực, tr𝑎 =d 𝑎 • Một số tính chất: – – – – tr𝐴𝐵 = tr𝐵𝐴 hay tr𝐴𝐵𝐶 = tr𝐶𝐴𝐵 = tr𝐵𝐶𝐴 tr𝐴 = tr𝐴𝑇 tr 𝐴 + 𝐵 = tr𝐴 + tr𝐵 tr𝑎𝐴 = 𝑎tr𝐴 67 Biểu thức đạo hàm “trace” • Biểu thức đạo hàm (tự c/m): ∇𝐴 tr𝐴𝐵 = 𝐵𝑇 ∇𝐴𝑇 𝑓 𝐴 = (∇𝐴 𝑓(𝐴))𝑇 ∇𝐴 tr𝐴𝐵𝐴𝑇 𝐶 = 𝐶𝐴𝐵 + 𝐶 𝑇 𝐴𝐵𝑇 d −1 ∇𝐴 |A| = |𝐴| (𝐴 )𝑇 • Từ (2) (3): ∇𝐴𝑇 tr𝐴𝐵𝐴𝑇 𝐶 = 𝐵𝑇 𝐴𝑇 𝐶 𝑇 + 𝐵𝐴𝑇 𝐶 (1) (2) (3) (4) (5) 68 Ma trận thiết kế • Ma trận thiết kế (design matrix) cho giá trị nhập mẫu huấn luyện: (x1 )𝑇 𝑇 (x ) 𝑋= ⋮ 𝑚 𝑇 (x ) d • Gọi 𝑦 vector m-chiều chứa giá trị output tương ứng với mẫu: 𝑦1 𝑦 𝑦= ⋮ 𝑦𝑚 69 Hàm chi phí • Do ℎ𝜃 𝐱 = 𝐱 𝑇 𝜽: 𝑦1 ℎ𝜃 𝐱 − 𝑦 𝐱1 𝑇 𝜽 𝑇 2 𝐱 𝜽 𝑦 ℎ 𝐱 − 𝑦 𝜃 𝑋𝜽 − 𝑦 = − = ⋮ ⋮ ⋮ 𝐱𝑚 𝑇 𝜽 𝑦𝑚 ℎ𝜃 𝐱 𝑚 − 𝑦 𝑚 𝑇d • Với vector 𝑧 bất kỳ, 𝑧 𝑧 = 𝑖 𝑧𝑖 𝑚 1 𝑋𝜽 − 𝑦 𝑇 𝑋𝜽 − 𝑦 = (ℎ𝜃 𝐱 𝑖 − 𝑦 𝑖 )2 = 𝐽(𝜃) 2 𝑖=1 70 Đạo hàm hàm chi phí • Áp dụng: – Tính chất tr𝑎 = 𝑎 cho bước đạo hàm – Tính chất tr𝐴 = tr𝐴𝑇 cho bước đạo hàm – Bước sử dụng biểu thức (5) 𝛻𝐴𝑇 tr𝐴𝐵𝐴𝑇 𝐶 = 𝐵 𝑇 𝐴𝑇 𝐶 𝑇 + 𝐵𝐴𝑇 𝐶 với 𝐴𝑇 = 𝜃, 𝐵 = 𝐵 𝑇 = 𝑋 𝑇 𝑋, 𝐶 = 𝐼 biểu thức (1) 𝛻𝐴 tr𝐴𝐵 = 𝐵 𝑇 • Đạo hàm hàm chi phí: d • Tìm cực trị cách cho đạo hàm =0: 𝑋 𝑇 𝑋𝜃 = 𝑋 𝑇 𝑦 𝜃 = (𝑋 𝑇 𝑋)−1 𝑋 𝑇 𝑦 71 Gradient descent vs normal equation Gradient descent - Cần chọn hệ số học 𝛼 - Cần chạy nhiều vòng lặp - Làm việc tốt chí số chiều (số đặc trưng) 𝑛 lớn d - Normal equation Không cần chọn hệ số học Không cần nhiều vòng chạy Chỉ cần tính (𝑋 𝑇 𝑋)−1 Độ phức tạp 𝑂(𝑛3 ) nên chậm số 𝑛 lớn 𝑋 𝑇 𝑋 không khả nghịch (khắc phục cách tránh trùng lắp đặc trưng, giảm số lượng đặc trưng hay áp dụng regularization) 72 Giải thích theo xác suất (1/2) • Giả sử liệu phân bố theo xác suất chuẩn (gaussian): • Hàm likelihood: d 73 Giải thích theo xác suất (2/2) • Tìm maximum likelihood thông qua hàm log: d • Như vậy, ta thấy maximum likelihood, đồng nghĩa với việc minimum: 74 HQTT có đánh trọng cục • Hồi quy tuyến tính có đánh trọng cục có dạng hàm chi phí sau: • Trọng số đánh giá độ ưu tiên cho điểm d liệu – Những điểm có trọng số cao thuật toán cố chọn 𝜃 để làm cho hàm chi phí nhỏ – Những điểm có trọng số thấp thuật toán gần bỏ qua (điểm nhiễu) • Một cách chọn trọng số [3]: 75 Tài liệu tham khảo [1] Christopher.M.Bishop, Chương 3, “Pattern Recognition and Machine Learning”, 2007 [2] Andrew Ng, Lecture & 5, “Machine Learning Courses”, 2011 [3] Andrew Ng, Lecture Notes 1, “Machine d Learning Courses”, CS229 [4] Wikipedia, Linear Regression, http://en.wikipedia.org/wiki/Linear_regression 76 d 77 [...]... trình độ học vấn, giáo dục hay thu nhập d 14 Nội dung  Hồi quy tuyến tính  Hồi quy tuyến tính với một biến    Thể hiện mô hình Hàm chi phí Gradient Descent cho một biến d  Hồi quy tuyến tính với nhiều biến  Hồi quy đa thức  Biểu thức chuẩn 15 Thể hiện mô hình • Hàm tuyến tính được thể hiện: ℎ𝜃 𝑥 = 𝜃0 + 𝜃1 𝑥 • Đặt 𝑥0 = 1, ta có thể viết: 1 𝜃𝑗 𝑥𝑗 = 𝜽𝑇 𝒙 = 𝒙𝑻 𝜽 ℎ𝜃 𝑥 = 𝑗=0 d 16 Ví dụ hàm tuyến tính. .. 𝜽𝑇 𝒙 = 𝒙𝑻 𝜽 ℎ𝜃 𝑥 = 𝑗=0 d 16 Ví dụ hàm tuyến tính đơn biến House sizes: d 17 Học hồi quy tuyến tính • Với dữ liệu cho trước, mục tiêu là: – Học các tham số 𝜃 để mà ℎ𝜃 gần với y trong các mẫu huấn luyện • Phương pháp học: – Dựa trên hàm chi phí (cost function) d (normal – Dựa trên biểu thức chuẩn equation) –… • Mỗi phương pháp học có thể ra các bộ tham số khác nhau 18 Bài tập 1 – Xác định HQTT • Cho dữ... định hàm hồi quy tuyến tính đơn biến? d ℎ𝜃 𝑥 = −10 + 0.2𝑥 • Với dữ liệu? Price ($) in 1000's Size in feet2 (x) 100 800 1534 852 (y) 10 150 315 178 19 Một số dạng HQTT đơn biến 3 3 3 2 2 2 1 1 0 0 0 1 2 3 d 1 0 0 1 2 3 0 1 2 3 20 Một số dạng HQTT đơn biến (tt) d Tập dữ liệu trong Anscombe’s quartet có cùng đường hồi quy tuyến tính nhưng dữ liệu lại phân bố khác nhau 21 Hàm chi phí • Phương pháp học dựa... rủi ro ở mức hệ thống 12 Ứng dụng của hàm hồi quy TT (3/4) • Cho trước một biến y và tập các biến x1, x2, … có thể liên quan đến y, hồi quy tuyến tính có thể được áp dụng để: – Đánh giá độ mạnh của mối quan hệ y và xj – Hoặc để đánh giá xj nào hoàn toàn không liên quan đến y d – Hoặc xác định tập con nào của xj chứa thông tin lặp lại về y 13 Ứng dụng của hàm hồi quy TT (4/4) • Ví dụ ứng dụng độ liên...Ứng dụng của hàm hồi quy TT (1/4) • Nếu mục tiêu là dự đoán hay dự báo (prediction/ forecasting), hồi quy tuyến tính dùng để “khớp” mô hình dự đoán với tập dữ liệu quan sát được của (x,y) d • Sau khi có được mô hình, với x mới (chưa có y), mô hình được sử dụng để đoán y 11 Ứng dụng của hàm hồi quy TT (2/4) • Ví dụ ứng dụng dự đoán: – Dự đoán xu hướng (trend... â𝑚) 𝜃1 34 Hệ số học 𝛼 𝐽(𝜃1 ) • Nếu hệ số học 𝛼 quá nhỏ, gradient descent sẽ lấy các bước thay đổi nhỏ, dẫn đến chậm hội tụ d 𝜃1 𝐽(𝜃1 ) • Nếu hệ số học 𝛼 quá lớn, gradient descent sẽ có thể nhảy vượt qua điểm cực tiểu Nó có thể dẫn đến không hội tụ, thậm chí còn làm xấu đi 𝜃1 35 Cực tiểu địa phương và toàn cục • Gradient descent có thể hội tụ tại cực tiểu địa phương thậm chí với hệ số học 𝛼 cố định ở... việc đánh giá sự khác biệt giữa hàm h(x) so với y, gọi là hàm chi phí (cost function): 𝑚 1 𝑖 𝑖 2 𝐽 𝜃 = ℎ𝜃 𝑥 − 𝑦 2𝑚 𝑖=1 với m là số mẫu được huấnd luyện 1 2𝑚 : dùng cho đạo hàm và chuẩn hóa hθ: hàm hồi quy tuyến tính đơn biến yi: output mong muốn • Mục tiêu là làm cho hàm chi phí nhỏ nhất: 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒𝜃0 ,𝜃1 𝐽(𝜃) 22 Hình dạng hàm chi phí • Đơn giản nhất, cho 𝜃0 = 0: ℎ𝜃 𝑥 = 𝜃1 𝑥 3 3 2 2 1 1 𝐽 1 =0 y 𝐽 𝜃 ? 0... 1 31 Thuật toán gradient descent • Quá trình cập nhật các 𝜃𝑗 phải đồng thời: d • Cập nhật không đúng: 32 Thuật toán gradient descent (tt) 𝛼: gọi là tỉ lệ học (>0) 𝜕 𝜕𝜃𝑗 d 𝐽 𝜃0 , 𝜃1 : đạo hàm từng phần ứng với 𝜃0 , 𝜃1 Ý nghĩa của đạo hàm: – Là tiếp tuyến tại điểm trên đường thẳng, nói lên xu hướng thay đổi của điểm dữ liệu – Di chuyển hướng xuống sẽ là đạo hàm âm, vì vậy sẽ cập nhật J(𝜃𝑗 ) đến giá trị... 1000 Size in 2000 feet2 3000 (x) 26 Hình dạng hàm chi phí Hàm chi phí 𝐽𝜃 của hàm hồi quy ℎ𝜃 khi chiếu lên 𝜃0 và 𝜃1 d 0.15 800 Mỗi vòng elip hay mỗi màu đại diện cho cùng giá trị hàm chi phí 𝐽𝜃 nhưng mỗi vị trí khác nhau thể hiện các 𝜃0 , 𝜃1 khác nhau (contour figures/plots) 27 Hình dạng hàm chi phí Hàm chi phí 𝐽𝜃 của hàm hồi quy ℎ𝜃 khi chiếu lên 𝜃0 và 𝜃1 d 𝒎𝒊𝒏𝒊𝒎𝒊𝒛𝒆𝜽𝟎 ,𝜽𝟏 𝑱(𝜽) Phương pháp thử và sai các... tiểu địa phương thậm chí với hệ số học 𝛼 cố định ở cực tiểu địa phương Giá trị hiện tại của d • Khi càng gần một cực tiểu, gradient descent sẽ tự động có bước nhảy nhỏ hơn nên ta không cần thay đổi hệ số học 𝛼 theo thời gian 36 ...Nội dung  Hồi quy tuyến tính         Khái niệm Phân biệt với mô hình phân lớp Các loại mô hình tuyến tính Ứng dụng Hồi quy tuyến tính với biến Hồi quy tuyến tính với nhiều biến Hồi quy... hàm hồi quy (h) nhận giá trị input trả giá trị dự đoán • Hàm đơn giản để giải hàm hồi quy tuyến tính Hồi quy tuyến tính (2/2) • Thể hàm hồi quy tuyến tính: ℎ

Ngày đăng: 02/11/2015, 22:55

Xem thêm