Mô hình đề xuất

Một phần của tài liệu Phương thứ họ máy trự tuyến dựa trên mô hình bayes (Trang 36 - 39)

Trong phần này, tác giả luận văn sẽ giới thiệu một mô hình phái sinh mới được gọi làSuy diễn biến thiên trực tuyến(Online Variational Inference - VIGO) cho phân phối chuẩn nhiều chiều. Trước tiên, ta giả sử rằng hàm mật độ xỏc suất cú điều kiện của mỗi lớpp(x|y= )k tuõn theo phõn phối chuẩn nhiều chiềuN(àk,k)với k=1,. .. ,M. Do đú, ta ỏp dụng phương phỏp VI để cập nhật lại phõn phối của cỏc biếnàkvà∑k. Do trong cỏc ứng dụng trực tuyến, dữ liệu được đưa tới liên tục và thậm chí là có số lượng rất lớn nên giả định dữ liệu tuân theo phân phối chuẩn nhiều chiều cho mỗi nhãn lớp là hoàn toàn hợp lý.

Để xây dựng thuật toán theo cơ chế học trực tuyến, trước tiên ta cần phải trả lời được 2 câu hỏi sau:

1. Khi nào thì cập nhật lại mô hình?

2. Cập nhật mô hình như thế nào?

Ta dễ dàng thấy rằng, câu trả lời rất tự nhiên cho câu hỏi (2) được xuất phát từ việc ta áp dụng đầy đủ lý thuyết Bayes, trong trường hợp này là phương pháp VI. Khi một tập nhỏ của các quan sát đến, chúng được coi như là một tập dữ liệuX- tham số đầu vào của thuật toán và các giá trị5 m00,v0,W0,E[ ] =Λ v0W0

được lấy từ mô hình hiện tại. Sau đó, ta sử dụng thuật toán để cập nhật lại mô hình dự đoán và các tham5 sốm00,v0,W0. Rõ ràng rằng các tham số khởi tạom0,v0,W0sẽ nhận giá trị cập nhật của các biến , , .mvW Ngoài ra cỏch cập nhật lại tham sốβ0được cho như sau:β0 =β0+| |X với| ã |là kớch thước của tập dữ liệu.

Điều này có thể giúp điều khiển được trọng số của các quan sát khi mà chúng đã đến được một thời gian tương đối lâu.

Từ các biểu thức3.9 3.12- , ta có thể thấy rằng số quan sát trong tập dữ liệuXcó thể được cài đặt một cách linh hoạt, do đó ta có thể cập nhật mô hình theo từng quan sát (one-by-one) hoặc cập nhật theo lô (minibatch- by-minibatch). Tuy nhiên, để hạn chế ảnh hưởng của dữ liệu nhiễu cũng như rút ngắn thời gian thực thi của thuật toán đề xuất, nhóm tác giả sẽ thực hiện cập nhật mô hình theo lô với một kích thước tập dữ liệu cố địnhX cho trước. Ngoài ra, mô hình chỉ được cập nhật khi nó dự đoán sai một quan sát mới đến và sau khi cập nhật mô hình thì tập dữ liệu sẽ được làm mới. Điều này có nghĩa là các quan sát trong sẽ bị loại bỏ.X X

Quá trình thực hiện của thuật toán được mô tả cụ thể như sau. Khi có dữ liệu mới đến, ký hiệu làxt, mô hình sẽ dự đoán nhãn lớpyˆtcủa nó theo biểu thức (phần bayes bên trên). Sau đó, nhãn lớp thật của quan sát đóyt= jđược đem ra để so sánh với nhãn lớp dự đoán và quan sátxtđược đưa vào lưu trữ trong tậpXjcủa mỗi nhãn lớp tương ứng nếu số phần tử trong tậpXj vẫn nhỏ hơn giá trị kích thước lô| |B được định nghĩa từ trước. Nếu dự đoỏn là sai so với nhón thật, tức làyˆt 6=j thỡ ta cập nhật lại tham sốàj và∑jcủa phõn phối p(x|y= ) =j N(àj,j). Bờn cạnh đú, ta sử dụng phõn phốiq(àj)vàq(∑j)như là thụng tin biết trước và tập dữ liệuXjđể tỡm phõn phối xỏc suất hậu nghiệmp(àj,j|Xj)bằng giải thuật VIG. Sau khi cập nhật tham số àj và∑j ta loại bỏ cỏc quan sỏt trong tập dữ liệuXjđể tiếp tục cho quỏ trỡnh cập nhật sau. Giải thuật sau mụ tả chi tiết các bước thực hiện:

Algorithm 6Mô tả thuật toán VIGO

1: Khởi tạo kích thước của tập dữ liệu| |B, ngưỡng ,ε m( )0k = (0,. .. ,0)T,β( )0k =1,v( )0k =D,W( )0k =1, với k=1, .. .,Kvà số lần mô hình dự đoán sainerror=0

2: fort=1, .. .,ndo

3: Lấy quan sát mớixt

4: Dự đoán nhãn lớpyˆt bằng biểu thức (2.7)

5: Lấy về nhãn lớp thậtytcủa quan sátxt

6: Đưa quan sátxtvào tậpXjvới điều kiện|Xj| ≤ | |B

7: Tính giá trị lỗilt= (I yt 6=yˆt)

8: iflt>0then

9: nerror=nerror+1

10: Cập nhật lại mô hình phân loại sử dụng thuật toán với tập dữ liệu5 X=Xj, ngưỡng ,ε m( )0j ,β0( )j ,v( )0j , W( )0j để nhận được các giá trịm( )j ,H( )j ,W( )j ,v( )j

11: Cập nhật lại các giá trị khởi tạom( )0j =m( )j ,β( )0j =β0( )j+|Xj|,v( )0j ,W( )0j =W( )j

12: Loại bỏ các quan sát trong tậpXj 13: end if

14: end for

Hình3.1mô tả trực quan quy trình hoạt động của thuật toán VIGO với kích thước lô là|B|=1. Ngoài ra, ta cũng thấy ngay được rằng thuật toán VIGO chỉ cập nhật khi mà quan sát mới đến bị phân loại sai.

xt Phân lớp Bayes yˆt

yt

lyt,yt)>0

Cập nhật tham số Sai (Tiếp tục với quan sát mới)

Đúng

Cập nhật tham số

Hình 3.1: Mô tả trực quan quy trình hoạt động của thuật toán VIGO với kích thước lô là| |B =1

Chương 4

MÔ HÌNH HỌC ONLINE DỰA TRÊN CÂY HOEFFDING VÀ PHÉP CHIẾU NGẪU NHIÊN

Trong chương này, tác giả hướng tới việc giới thiệu một mô hình học Online mới theo hướng tiếp cận học nhóm (Ensemble) dựa trên thuật toán cây Hoeffding và các phép chiếu ngẫu nhiên (Random Projections). Tác giả luận văn bắt đầu chương này bằng việc thảo luận các nghiên cứu liên quan, tiếp theo đó là mô tả kiến trúc mô hình thông qua phần4.2. Sau đó là các kết quả thử nghiệm đạt được cùng với những phân tích, so sánh tính hiệu quả của mô hình đối với các thuật toán hiện có.

Một phần của tài liệu Phương thứ họ máy trự tuyến dựa trên mô hình bayes (Trang 36 - 39)

Tải bản đầy đủ (PDF)

(59 trang)