Cho tập dữ liệu huấn luyện 𝒟 = {(𝑥1, 𝑡1), … , (𝑥𝑁, 𝑡𝑁)} với N là số điểm dữ liệu,
𝑥𝑖 ∈ ℝ𝑑 với d là số chiều của dữ liệu, 𝑡𝑖 ∈ ℝ. Mục tiêu là dự đoán giá trị t khi cho trước giá trị của x mới. Giả sử giá trị t được xác định bởi công thức sau:
𝑡 = 𝑦(𝑥, 𝑤) + 𝜀
Giả thiết 𝜀 ~ 𝒩(0, 𝛽−1) - là biến ngẫu nhiên phân phối Gaussian có trung bình là không và độ chính xác 𝛽 = 1/𝜎2.
𝑦(𝑥, 𝑤) là mô hình hồi quy tuyến tính hàm cơ sở: 𝑦(𝑥, 𝑤) = ∑ 𝑤𝑖
𝑀−1 𝑖=0
𝜙𝑖(𝑥) = 𝑤𝑇𝜙(𝑥) Trong đó:
𝜙𝑖(𝑥) là hàm cơ sở (basis functions), 𝜙(𝑥) = (𝜙0, … , 𝜙𝑀−1)𝑇, 𝜙0(𝑥) = 1
𝑤 = (𝑤0, . . , 𝑤𝑀−1)𝑇, 𝑤0 là hệ số tự do (bias parameter). Xác suất của biến quan sát 𝑡:
Hàm likelihood:
𝑝(𝒕|𝒙, 𝑤, 𝛽) = ∏ 𝑝(𝑡𝑖|𝑥𝑖, 𝑤, 𝛽−1)
𝑁 𝑖=1
(2.2.1) Chúng ta có thể sử dụng phương pháp cực đại likelihood công thức (2.2.4) để ước lượng tham số 𝑤. Tuy nhiên, sự khác biệt quan trọng của RVM người ta đưa thêm tham số 𝛼𝑖 tương ứng với trọng số 𝑤𝑖, được gọi là siêu tham số (hyperparameters). Lúc này, xác suất tiên nghiệm của trọng số 𝑤 là:
𝑝(𝑤|𝛼) = ∏ 𝒩(𝑤𝑖|0, 𝛼𝑖−1)
𝑀 𝑖=1
(2.2.2) Trong đó: 𝛼𝑖 là độ chính xác tương ứng với tham số 𝑤𝑖, và 𝛼 = (𝛼1, … , 𝛼𝑀)𝑇.
Xác suất hậu nghiệm của tham số 𝑤 có dạng:
𝑝(𝑤|𝒕, 𝒙, 𝛼, 𝛽) = 𝒩(𝑤|𝒎, 𝚺) (2.2.3)
Với:
𝒎 = 𝛽𝚺𝚽T𝐭 (2.2.4)
𝚺 = (𝑨 + 𝛽𝚽T𝚽)−1 (2.2.5)
Trong đó 𝚽 = (𝚽𝑖𝑗) ∈ ℳ𝑁x𝑀, 𝚽𝑖𝑗 = 𝜙𝑗(𝑥𝑖); và 𝐴 = 𝑑𝑖𝑎𝑔(𝛼𝑖) Cực đại hàm likelihood lề ta thu được:
𝑝(𝒕|𝒙, 𝛼, 𝛽) = ∫ 𝑝(𝒕|𝒙, 𝑤, 𝛽) 𝑝(𝑤, 𝛼)𝑑𝑤 Log likelihood lề:
ln 𝑝(𝒕|𝒙, 𝛼, 𝛽) = ln 𝒩(𝒕|𝟎, 𝐂) = −1
2{𝑁 ln 2𝜋 + ln|𝐂| + 𝒕
T𝐂−1𝒕} (2.2.6) 𝐂 là ma trận cấp N, được xác định bởi công thức:
Tối ưu hóa các siêu tham số:
Mục tiêu là cực đại (2.2.6) để ước lượng siêu tham số 𝛼 và 𝛽. Có hai phương pháp tiếp cận:
(1) Phương pháp tiếp cận thứ nhất, đạo hàm hàm likelihood lề và cho bằng không ta thu được công thức lặp của các siêu tham số như sau:
𝛼𝑖𝑛𝑒𝑤 = 𝛾𝑖 𝑚𝑖2
(𝛽𝑛𝑒𝑤)−1 =‖𝒕 − 𝚽𝑚‖
2
𝑁 − Σ𝑖𝑖𝛾𝑖
Trong đó: 𝛾𝑖 = 1 − 𝛼𝑖Σ𝑖𝑖, 𝑚𝑖 thành phần thứ 𝑖 của 𝒎 theo công thức (2.2.4), Σ𝑖𝑖 là thành phần đường chéo thứ 𝑖 của ma trận 𝚺 theo công thức (2.2.5).
(2) Phương pháp tiếp cận thứ hai, xem trọng số 𝑤 như biến ẩn, gọi là thuật toán EM (Expectation Maximization). Bước E (E - step), ước lượng xác suất hậu nghiệm của trọng số 𝑤 theo công thức (2.2.3). Trong bước M (M - step), chúng ta cực đại hóa kỳ vọng của log likelihood của tập huấn luyện theo công thức:
𝔼𝑤[ln 𝑝(𝑡|𝑥, 𝑤, 𝛽) 𝑝(𝑤|𝛼)] Tính toán ta thu được:
𝛼𝑖𝑛𝑒𝑤 = 1 𝑚𝑖2+ Σ𝑖𝑖
(𝛽𝑛𝑒𝑤)−1 =‖𝒕 − 𝚽𝐦‖
2+ 𝛽−1Σ𝑖𝑖𝛾𝑖 𝑁