Huấn luyên cho máy Bolzmann

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp học sâu cho lọc cộng tác (Trang 33 - 35)

Ở công thức (2.11), một Bolzmann Machine có thể được xem như là một mô hình sinh dữ liệu, mỗi trạng thái vector nhị phân được gán một xác suất nào đó với các nút nhìn thấy được.

Những hành vi ngẫu nhiên của các nút, các mạng sẽ di chuyển qua một loạt các trạng thái và do đó sẽ tạo ra một phân bố xác suất trên tất cả các 2N vector có thể nhìn thấy (trong đó N là số lượng các nút có thể nhìn thấy). Công thức (2.11) xác định xác suất tương ứng của họ. Trong bối cảnh đó, nếu chúng ta muốn có một BM để xây dưng một mô hình nội có khả năng tạo ra với các nút có thể nhìn thấy nó một phân phối đặc biệt của mẫu (dữ liệu), số lượng học để tìm ra trọng lượng và những ngưỡng đó xác định một phân bố xác suất mà trong đó những mẫu có một xác suất cao, do đó năng lượng thấp.

Các đơn vị trong BM được chia thành các nút ẩn và các nút hiện. Các đơn vị hiện có thể nhận được thông tin từ “môi trường”, tức là tập huấn luyện là một tập vector nhị phân trên tập V. Sự phân phối trên tập huấn luyện được ký hiệu là P+ (V) và P- (V) phân phối sinh ra trên các visible units của một BM khi mạng chạy tự do ở trạng thái cân bằng. Xem xét đo Kullback – Leibler (Entropy tương đối) để đánh giá khoảng cách giữa hai phân phối, huấn luyện để giảm thiểu:

(v) (v) ln( ) (v) v P G P P     (2.12)

Ví dụ, dưới đây là 1 tập huấn luyện: [ 1 0 1 1 0 1 1 0 1 0 0 0 0 1 0 0 ]

Ý nghĩa của Gain(G) là một thước đo độ tương tự giữa P+ (V) và P- (V). G=0 thì P+ (V) = P- (V) và ngược lại.

Từ công thức (2.12) là hàm gián tiếp của những trọng số và ngưỡng của BM, mô hình này có thể được cải thiện bằng việc chỉnh sửa trong số wij và ngưỡng bi như vậy là để giảm G. Do đó một chiến lược gradient descent có thể được sử dụng để

giảm thiểu G. Đáng ngạc nhiên, nó có thể được hiển thị [2] mà đạo hàm riêng của G đối với wij là đơn giản như:

ij ( s ) w i j i j G s ss           (2.13) Trong đó,

 <sisj>+ là xác suất trung bình, khi dữ liệu những vector từ P+ (V) được giữ trên các nút có thể nhìn thấy, tìm kiếm cả nút i và nút j bật khi BM chạy ở trạng thái cân bằng.

 <sisj>- là xác suất trung bình của tìm kiếm cả nút i và nút j bật khi BM chạy tự do ở trạng thái cân bằng.

Trong thực tế, tính toán <sisj>+ được gọi là positive phase và có thể thực hiện như mô tả trong thuật toán bảng 2-1. Tính toán <sisj>- được gọi là negative phase và có thể được thực hiện như mô tả trong thuật toán bảng 2-2.

Bảng 2-1: Bảng giải thuật Positive phase

Giải thuật BM- Positive phase

1. Giữ một vector dữ liệu trên các nút hiển thị của BM

2. Cập nhật các nút ẩn theo thứ tự ngẫu nhiên bằng công thức 2.8

3. Một khi BM đã đạt đến trạng thái phân phối cân bằng của mình, vector trạng thái lấy mẫu và ghi lại sisj

4. Lặp lại các bước 1,2,3 cho toàn bộ dữ liệu. Tính trung bình để lấy <sisj>+.

Bảng 2-2: Bảng giải thuật Negative phase

Giải thuật BM- Negative phase

1. Khởi tạo BM với các trạng thái là ngẫu nhiên

2. Cập nhật các visible và hidden unit theo thứ tự ngẫu nhiên sử dụng công thức 2.8

trạng thái lấy mẫu và ghi lại sisj

4. Lặp lại các bước 1,2, và 3 nhiều lần. Tính trung bình để lấy <sisj>+

Một khi hai đại lượng này đã được tính toán, các quy tắc học đơn giản bao gồm trong cách lặp tăng wij theo hướng ngược lại của gradient, do đó trọng số được cập nhât theo:

ij

w ( sisjsisj )

       (2.14)

Trong đó  là tốc độ học (learning rate). Các quy tắc học tập cho các ngưỡng

bias là tương tự và được cho bởi:

i ( i i )

bss

       (2.15)

Các quy tắc học trong công thức (2.14), (2.15) là khá đơn giản và chỉ phụ thuộc vào thông tin cục bộ. Thật không may, sự đơn giản này của thuật toán học đi kèm với rủi ro. Đầu tiên, nó có thể mất một thời gian dài cho mạng để đạt được trạng thái cân bằng, thậm chí khi heuristics như làm theo mô phỏng được sử đụng để tăng tốc độ hội tụ. Thời gian cần thiết để giải quyết cân bằng thực sự phát triển theo cấp số nhân với số nút. Thứ hai, tín hiệu học trong thực tế rất nhiễu vì nó là sự khác biệt hai kỳ vọng xấp xỉ. Hai vấn đề rất quan trọng mà họ thực hiện các thuật toán thực sự không thực tế cho các mạng lớn và nhiều nút [4].

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp học sâu cho lọc cộng tác (Trang 33 - 35)

Tải bản đầy đủ (PDF)

(65 trang)