1. Trang chủ
  2. » Tất cả

Bài giảng hồi quy nguyễn thanh tùng

10 1 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 6,12 MB

Nội dung

Nội dung Regression Giới thiệu mơ hình hồi quy Hồi quy tuyến tính Hồi quy phi tuyến (Hồi quy) Nguyễn Thanh Tùng Bài giảng DSLab Viện nghiên cứu cao cấp Tốn (VIASM) https://www.facebook.com/tungntdhtl Mơ hình Hồi quy Các dạng giải thuật học máy Yes • Các phương pháp học giám sát: Unsupervised What you want to predict? Do you want to group the data? Quantity Classification Logistic Regression • Xét: No Supervised Category SVM Do you have labeled data? KNN Yes Regression CART Linear Regression Cluster Analysis – Học ví dụ (quan sát)-“Learn by example” – Xây dựng mơ hình sử dụng tập quan sát gắn nhãn No Dimensionality Reduction LASSO K-means ICA – Y có kiểu liệu liên tục PCA Ví dụ hồi quy Ví dụ hồi quy Cho bảng liệu thơng tin nhiên liệu sau: VNA392=read.csv("data/VNA392_ HANSGN_2016_1.csv") Bài tốn đặt ra: liệu dự đốn nhiên liệu phi công lựa chọn (FUEL_ORDER) chuyến bay dựa vào nhiên liệu máy tính cung cấp (BLOCK_FUEL)? attach(VNA392) plot(BLOCK_FUEL, FUEL_ORDER, pch=16) Mơ hình Hồi quy Hàm tổn thất L(qi ,qˆi ) • Giải thuật học – Lấy hàm ước lượng “tốt nhất” tập hàm • Ví dụ: Hồi quy tuyến tính – Chọn ước lượng tốt từ liệu học tập hàm tuyến tính Sai số bình phương (Squared error) å(q -qˆ ) Sai số tuyệt đối (Absolute error) å q - qˆ i i i i i i Bài toán Hồi quy Đo hiệu tốn hồi quy • Hàm tổn thất (Loss function): loại hàm dùng để đo lường sai số mơ hình • Vd: Sai số bình phương trung bình (Mean squared error - MSE) – Độ đo thông dụng dùng để tính độ xác tốn hồi quy argument minimum: Cho giá trị nhỏ hàm số miền xác định – Tập trung đo sai số lớn sai số nhỏ 10 Nội dung Giới thiệu mơ hình hồi quy Hồi quy tuyến tính Hồi quy phi tuyến Hồi quy tuyến tính • Hồi quy tuyến tính: phương pháp học máy có giám sát đơn giản, sử dụng để dự đoán giá trị biến đầu dạng số (định lượng) – Nhiều phương pháp học máy dạng tổng qt hóa hồi quy tuyến tính – Là ví dụ để minh họa khái niệm quan trọng tốn học máy có giám sát 11 12 Hồi quy tuyến tính Hồi quy tuyến tính đơn giản • Tại dùng hồi quy tuyến tính? – Mối quan hệ tuyến tính: biến đổi tuân theo quy luật hàm bậc • Biến đầu Y biến đầu vào X có mối quan hệ tuyến tính X Y sau: – Tìm mơ hình (phương trình) để mơ tả mối liên quan X Y – Ta biến đổi biến đầu vào để tạo mối quan hệ tuyến tính • Các tham số mơ hình: hệ số chặn (khi xi=0) độ dốc – Diễn giải mối quan hệ biến đầu vào đầu - sử dụng cho toán suy diễn 13 14 y-axis Hồi quy tuyến tính đơn giản y-axis Hồi quy tuyến tính đơn giản (x2, y2) (x2, y2) (x1, y1) 15 (x1, y1) x-axis Cho hai điểm (x1, y1) (x2, y2) Làm để "phát triển" phương trình nối điểm này? Tuan V Nguyen 16 • • Tìm gradient (slope): độ dốc Tìm hệ số chặn (intercept) (hệ số khởi đầu y x=0) x-axis Tuan V Nguyen Hồi quy tuyến tính đơn giản hệ số chặn y = f ( x ) = b1 x + b độ dốc Hồi quy tuyến tính đơn giản • β0 β1 chưa biết àTa ước tính giá trị chúng từ liệu đầu vào • Lấy cho mơ hình đạt “xấp xỉ tốt nhất” (“good fit”) tập huấn luyện Figure 3.1 , ISL 2013 17 18 Các giả định Đường thẳng phù hợp • Mối liên quan X Y tuyến tính (linear) tham số Cho tập liệu đầu vào, ta cần tìm cách tính tốn tham số phương trình đường thẳng • X khơng có sai số ngẫu nhiên • Sai số ngẫu nhiên (ε): phân bố chuẩn, trung bình 0, phương sai bất biến ε ~ N(0, s2) 19 ? 14 12 10 • Giá trị Y độc lập với (vd, Y1 không liên quan với Y2) ; 20 10 ? ? Bình phương nhỏ Đường thẳng phù hợp Rất để có đường thẳng khớp xác với liệu, ln tồn lỗi gắn liền với đường thẳng Đường thẳng phù hợp đường giảm thiểu độ dao động lỗi • Thơng thường, để đánh giá độ phù hợp mơ hình từ liệu quan sát ta sử dụng phương pháp bình phương nhỏ (least squares) • Lỗi bình phương trung bình (Mean squared error): 14 12 10 ˆ y ( yi - yˆ i ) 21 Phần dư (lỗi) Biểu thức (yi - yˆ ) gọi lỗi phần dư ei = (yi- yˆ ) 10 Ước lượng tham số • Các ước số tiểu hóa MSE Đường thẳng phù hợp tìm thấy tổng bình phương lỗi nhỏ tính cách cực SS • Hệ số chặn đường thẳng bˆ1 = xy n SSE = å ( yi - yˆ ) n đó: SS xy = å ( xi - x )( yi - y ) i =1 i =1 23 22 24 SS x n SS x = å ( xi - x ) i =1 Ước lượng tham số Hồi quy tuyến tính đơn giản Hệ số chặn đường thẳng bˆ0 = y - bˆ1 x n y= n å yi i =1 x= n åx i =1 i n 25 26 Phương pháp đánh giá Ví dụ X Y kilograms cost $ , 1 :6 | ((.) − 0) )2 ; "4$ = ( |Y6 − Y ' N !"#$ = )*+ ! = − 6*+ ∑, )*+(.) − 0) )⁄∑, )*+(.) − ?) ) 17 21 35 39 50 65 132 150 160 162 149 170 x = 37.83 y = 153.83 bˆ1 = SS xy = 891 83 SS x = 1612.83 bˆ0 = y - bˆ1 x = 153.83 - 0.553´ 37.83 = 132.91 SS xy SS x phương trình tìm Y = 132.91 + 0.553*X 27 28 = 891.83 = 0.533 1612.83 Diễn giải tham số Diễn giải tham số ˆ b hệ số chặn Y Nghĩa là, điểm mà đường thẳng cắt trục tung Y Trong ví dụ $132.91 Trong ví dụ trước, tham số ước lượng bˆ1 độ dốc 0.553 Điều có nghĩa thay đổi kg X, giá Y thay đổi 0.553 $ $132.91 Đây giá trị Y X = 29 30 Ước tính R Phân tích R # Phân tích hồi qui tuyến tính m1=lm(FUEL_ORDER ~ BLOCK_FUEL, data = VNA392) summary(m1) • Chúng ta muốn ước tính mối liên quan lượng nhiên liệu cung cấp máy tính (Block_Fuel) nhiên liệu phi cơng lựa chọn (Fuel_order) • Mơ hình hồi qui tuyến tinh: Fuel_order= β0 + β1 *Block_Fuel + ε •R lm(FUEL_ORDER ~ BLOCK_FUEL, data = VNA392) 31 # vẽ biểu đồ plot(VNA392$BLOCK_FUEL, VNA392$FUEL_ORDER, pch=16, col="blue", xlab = "Block_fuel", ylab = "Fuel_Order") abline(m1, col="red") 32 m1=lm(FUEL_ORDER ~ BLOCK_FUEL, data = VNA392) summary(m1) Residuals: Min 1Q -1057.4 -326.2 Median -100.2 3Q 274.8 Max 1820.0 Diễn giải kết Phân tích R Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 3.680e+03 5.532e+02 6.653 1.77e-08 *** BLOCK_FUEL 7.113e-01 5.813e-02 12.235 < 2e-16 *** Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 3.680e+03 5.532e+02 6.653 1.77e-08 *** BLOCK_FUEL 7.113e-01 5.813e-02 12.235 < 2e-16 *** Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ • Nhớ mơ hình là: FUEL_ORDER= β0 + β1 * BLOCK_FUEL Residual standard error: 556.8 on 52 degrees of freedom Multiple R-squared: 0.7422, Adjusted R-squared: 0.7372 F-statistic: 149.7 on and 52 DF, p-value: < 2.2e-16 • Phương trình: FUEL_ORDER = 3680 + 0.711* BLOCK_FUEL R2 (hệ số xác định): số có ích mơ hình hồi qui tuyến Enh R2 ×100 có nghĩ phần trăm variaPon biến y giải thích biến x R2 =1: tất liệu có mối liên hệ xác định R2 =0: Khơng có mối quan hệ X Y 33 • Ý nghĩa: phi cơng tăng 1000 kg chương trình máy tính tăng 711 kg nhiên liệu cho chuyến bay 34 Hồi quy tuyến tính đa biến Mối tương quan có ý nghĩa thống kê (P < 0.0001) Hồi quy tuyến tính đa biến • Hồi quy tuyến tính đa biến: mơ hình có nhiều biến dùng để dự đốn biến đích Figure 3.4 , ISL 2013 35 36 Hồi quy tuyến tính đa biến • Diễn giải hệ số βj : tăng Xj lên đơn vị è Y tăng trung bình lượng βj Bình phương nhỏ • Tìm ước số phương pháp bình phương nhỏ • Giải phương trình để tìm 37 : 38 Hồi quy tuyến tính đa biến Ví dụ Cho é6 ù ê9 ú ê ú ê12 ú y=ê ú ê5 ú ê13 ú ê ú ëê2 ûú Figure 3.4 , ISL 2013 39 40 é1 ê1 ê ê1 X =ê ê1 ê1 ê êë1 16 ù 13 13úú 17 ú ú 10 ú ú ú úû é bˆ0 ù ê ú ê bˆ ú ˆ β =ê 1ú ê bˆ2 ú êˆ ú ëb3 û ... xác tốn hồi quy argument minimum: Cho giá trị nhỏ hàm số miền xác định – Tập trung đo sai số lớn sai số nhỏ 10 Nội dung Giới thiệu mơ hình hồi quy Hồi quy tuyến tính Hồi quy phi tuyến Hồi quy tuyến... trọng tốn học máy có giám sát 11 12 Hồi quy tuyến tính Hồi quy tuyến tính đơn giản • Tại dùng hồi quy tuyến tính? – Mối quan hệ tuyến tính: biến đổi tuân theo quy luật hàm bậc • Biến đầu Y biến... tăng 711 kg nhiên liệu cho chuyến bay 34 Hồi quy tuyến tính đa biến Mối tương quan có ý nghĩa thống kê (P < 0.0001) Hồi quy tuyến tính đa biến • Hồi quy tuyến tính đa biến: mơ hình có nhiều biến

Ngày đăng: 01/03/2023, 07:59