7 Hồi quy
7.6 Gaussian Process Regression
7.6.1 Lý thuyết
Gaussian Process (GP) Regression là một phương pháp thống kê bayesian để mơ hình các hàm số. GP Regression hoạt động hiệu quả trên những tập dữ liệu nhỏ nhờ vào giả định các điểm dữ liệu nằm trên một phân phối nhiều chiều (Multivariate Normal). Đầu tiên ta định nghĩa một GP model, chính là prior distribution trên hàm số. Với một biến ngẫu nhiên X, phân bố của nó được xác định bằng hàm mật độ xác suất:
f(x|µ,σ2) = √ 1
2π σ2e−
(x−µ)2 2σ2
Với µ,σ lần lượt là trung bình và độ lệch chuẩn. Khi có nhiều hơn một biến ngẫu nhiên, trung bình sẽ được biểu diễn dưới dạng một vecto và độ lệch chuẩn được biểu diễn dưới dạng ma trận gọi là covariance matrix. Covariance matrix dược xây dựng bằng cách evaluate một hàm covariance hay kernel∑0 trên từng cặp giá trịxi,xj của các biến ngẫu nhiên. Kernel được chọn để các điểm xi,xj càng gần nhau trong không gian đầu vào càng có giá trị lớn. Các kernel khác nhau biễu diẽn prior khác nhau, dẫn đến hàm số kết quả khác nhau
7 HỒI QUY
7.6.2 Các hàm trong Matlab
1. fitrgp
Fit a Gaussian process regression (GPR) model
• gprMdl = fitrgp(Tbl,ResponseVarName): Trả về một mơ hình GPR được train bằng các
dữ liệu mẫu trong Tbl, trong đó ResponseVarName là tên của biến phản hồi trong Tbl.
• gprMdl = fitrgp(Tbl,formula): Các biến độc lập và biến phản hồi được xác định trong
f ormula.
• gprMdl = fitrgp(Tbl,y): trả về mơ hình GPR với các biến độc lập trongtblvà biến phản hồi trong vecto y.
• gprMdl = fitrgp(___,Name,Value): cặp tham số Name-Value có thể là phương pháp
dùng để dự đốn, hàm hiệp phương sai,...
Ví dụ minh họa:
rng(0,’twister’); % For reproducibility
n = 1000;
x = linspace(-10,10,n)’;
y = 1 + x*5e-2 + sin(x)./x + 0.2*randn(n,1);
Fit mơ hình GPR bằng các cắp tham số Name-Value: hàm cơ sở tuyến tính và phương pháp điều chỉnh chính xác để ước lượng tham số.
7 HỒI QUY
’FitMethod’,’exact’,’PredictMethod’,’exact’);
Dự đốn các giá trị phản hồi với tập dư liệu ban đầu và ve biều đồ so sánh.
ypred = resubPredict(gprMdl); plot(x,y,’b.’); hold on; plot(x,ypred,’r’,’LineWidth’,1.5); xlabel(’x’); ylabel(’y’); legend(’Data’,’GPR predictions’); hold off
2. Một số hàm khác: Các hàm sau đây đã được trình bày chi tiết ở phía trên:
• predict: dự đoán giá trị của biến phản hồi với bộ dữ liệu mới. • loss: hàm mất mát.
• compact: làm đơn giản hóa mơ hình bằng cách loại bỏ đi một số biến độc lập có trong mơ hình.
7 HỒI QUY