Bài giảng 14. Machine Learning for Policy Analysis

Mô hình ước lượng quá khớp với dữ liệu ước lượng sẽ có sai số dự báo lớn với quan sát ngoài mẫu.. Các thuật ngữ trong ML[r]

(1)

Machine Learning for Policy Analysis

Lê Việt Phú

Trường Chính sách Cơng Quản lý Fulbright

Ngày 16 tháng năm 2019

(2)

Machine learning/Data mining gì?

I Một nhóm cơng cụ thuật tốn để tối đa hóa khả dự báo mơ hình

I Khác biệt với tiếp cận kinh tế học, ML không cần thiết phải giả định cấu trúc mô hình

(3)

Một số phương pháp machine learning

Machine Learning = Algorithm + Data

Source: Nguyễn Thanh Tùng, CSE445

(4)

Một số ứng dụng ML/DM phân tích kinh tế và kinh doanh

I Dự báo (prediction)

I Phân loại (classification)

I Phân cụm liệu (clustering)

(5)

Sử dụng ML để cải thiện mơ hình hồi quy

I Khi quan tâm đến khả dự báo mơ hình (prediction) thay hàm ý quan hệ nhân (causal relation)

I Có thể xây dựng mơ hình để dự báo cho mẫu liệu phân tích, khả dự báo mẫu (out-of-sample prediction)

I Các thủ thuật kiểm chứng chéo (cross-validation) sử dụng để giảm vấn đề ước lượng khớp (overfitting)

(6)

Ví dụ tượng ước lượng khớp (overfitting)

I Sử dụng lại liệu VHLSS 2010 ước lượng hàm tỷ suất thu nhập học

I Tạo biến dummies đại diện cho tỉnh, huyện, xã, số hộ gia đình

I Ước lượng mơ hình với biến dummies kể So sánh thay đổi R2

(7)

Phương pháp kiểm chứng chéo (cross-validation)

Dùng mơ hình để dự báo cho quan sát ngồi mẫu (out-of-sample prediction) Mơ hình ước lượng khớp với liệu ước lượng có sai số dự báo lớn với quan sát ngồi mẫu Lựa chọn mơ hình tối ưu cho sai số dự báo MSE nhỏ

MSE = E [(y − ˆy )2]

(8)

Các thuật ngữ ML

I Supervised learning (học máy có giám sát) o Biến phụ thuộc liên tục: ML = Hồi quy

o Biến phụ thuộc định tính: ML = Phân loại (classification) I Unsupervised learning (học máy khơng giám sát)

o Khơng có biến phụ thuộc

o Phân nhóm liệu tùy thuộc vào đặc tính biến giải thích

I Training data: Dữ liệu ước lượng

(9)

Thuật giải phương pháp kiểm chứng chéo

I Chia liệu ngẫu nhiên thành hai phần liệu ước lượng (training data) liệu kiểm chứng (validation data)

I Ước lượng mơ hình liệu ước lượng

I Sử dụng mơ hình liệu ước lượng để ước tính MSE cho liệu kiểm chứng

I Lựa chọn mơ hình cho MSE tối thiểu

(10)

Các hình thức kiểm chứng chéo

I Leave-one-out Cross Validation (LOOCV)

o Lần lượt chia liệu n quan sát thành training data với (n − 1) quan sát test data với quan sát

o Ước lượng giá trị dự báo ˆy(−i ) quan sát bị

tách làm nhóm kiểm chứng

o Ước tính LOOCV sau:

CV(n) =

1 n

n

X

i =1

MSE(−i )=

1 n

n

X

i =1

(11)

I k-fold Cross Validation

o Chia liệu thành K nhóm với số quan sát Lấy nhóm sử dụng làm test data, K − nhóm sử dụng làm training data

o Ước lượng mơ hình với training data, ước tính MSE cho nhóm

1

o Lặp lại K lần cho nhóm 2, 3,

o Ước tính

CV(K )=

1 K

K

X

j =1

MSE(j )

I LOOCV trường hợp K = n Thông thường K = K = 10

(12)

Đánh đổi độ chệch phương sai (Bias-Variance Trade-off)

Giả sử ước lượng mơ hình từ training data:

y = f (x ) + ε

và ước lượng MSE cho test data (x0, y0):

MSE = E [(y0− ˆf (x0))2]

= Var [ ˆf (x0)] + {Bias( ˆf (x0))}2+ Var (ε)

(13)

Thực hành

I Thực hành với liệu mô

I Thực hành với tình dự báo khác

(14)

Shrinkage Estimators

(15)

Ridge Regression

Tối thiểu hóa SSR Penalty lên kích cỡ mơ hình β2 hệ số λ:

n

X

i =1

(yi− Xiβ)2

| {z }

SSR

+ λ

K

X

j =1

βj2

| {z }

Penalty

I Tăng số biến giải thích mơ hình (tăng K ) SSR giảm Penalty tăng

I λ gọi tham số điều chỉnh (tuning parameter)

(16)

Least Absolute Shrinkage and Selection - LASSO

Tương tự Ridge Regression, nhiên Penalty tính |β|

n

X

i =1

(yi − Xiβ)2

| {z }

SSR

+ λ

K

X

j =1

|βj|

| {z }

(17)

Diễn giải phương pháp Ridge LASSO

I Do β bị ảnh hưởng đơn vị (scaling) liệu nên biến giải thích chuẩn hóa (xi∗= xi− ¯xi

se(xi)) trước ước

lượng

I Các phương pháp làm giảm β xuống ("shrink" an estimator) theo hướng

I Kết tối ưu mô hình có vài βj 6= số

các biến giải thích đưa vào mơ hình (Lasso, trái) hay tham số βj nhỏ (Ridge, phải)

(18)

Thực hành

1 Chuẩn hóa liệu

2 Ước lượng mơ hình với Lasso Ridge

Định dạng
Số trang	18
Dung lượng	286,68 KB