Trong việc học hay huấn luyện một mạng belief cấu trúc mạng cĩ trước hay được suy diễn từ dữ liệu. Các biến mạng cĩ thể quan sát được hay ẩn ở tất cả hoặc một số mẫu huấn luyện. Dữ liệu ẩn được xem là giá trị khuyết hay dữ liệu chưa đầy đủ.
Nếu cấu trúc mạng đã được biết và các biến là quan sát được thì việc học mạng là khơng phức tạp, chỉ cần tính các mục CPT, như đã làm với Bayesian ngây thơ.
Với cấu trúc mạng cho trước, một số bị biến ẩn thì dùng phương pháp gradient descent để huấn luyện mạng belief. Đối tượng này để học các giá trị cho các mục CPT. S là tập cĩ s
mẫu huấn luyện 𝑋1, 𝑋2,..., 𝑋𝑠. 𝑤𝑖𝑗𝑘 là một mục CPT cho biến 𝑌𝑖=𝑦𝑖𝑗 cĩ các cha 𝑋𝑖=𝑢𝑖𝑘. Ví dụ, nếu 𝑤𝑖𝑗𝑘 là mục CPT phía trên trái nhất của hình 2.6b) thì 𝑌𝑖 = LungCancer; giá trị của nĩ 𝑦𝑖𝑗 = Cĩ; danh sách các nút cha của 𝑌𝑖 là 𝑈𝑖 = {FamilyHistory, Smoker}; và danh sách giá trị của các nút cha 𝑢𝑖𝑘 = {Cĩ, Cĩ}. 𝑤𝑖𝑗𝑘 được xem như là các trọng số, giống như các trọng số trong các unit ẩn của các mạng nơron (mục 2.5). Các trọng số, 𝑤𝑖𝑗𝑘 ban đầu là các giá trị xác suất ngẫu nhiên. Chiến lược gradient descent biểu diễn leo đồi (hill-climbing) tham. Tại mỗi lần lặp, các trọng số được cập nhật và cuối cùng sẽ hội tụ về một giải pháp tối ưu cục bộ.
Phương pháp nhằm mục đích cực đại hố P(S|H). Cho trước cấu trúc mạng và 𝑤𝑖𝑗𝑘
khởi đầu, giải thuật xử lý như sau:
1. Tính các gradient: Cho i, j, k tính: 𝜕𝐼𝑛𝑃(𝑆|𝐻) 𝜕𝑤𝑖𝑗𝑘 = ∑ 𝑃(𝑌𝑖 = 𝑦𝑖𝑗, 𝑈𝑖 = 𝑢𝑖𝑘|𝑋𝑑 𝑤𝑖𝑗𝑘 𝑠 𝑑=1 (2.9)
Xác suất bên phải của phương trình (2.9) được tính cho mỗi mẫu huấn luyện 𝑋𝑑
một vài 𝑋𝑑 nào đĩ thì xác suất tương ứng p cĩ thể được tính từ các biến quan sát được của mẫu sử dụng các giải thuật chuẩn cho suy diễn mạng Bayesian.
2. Lấy một bước nhỏ theo hướng của gradient: Các trọng số được cập nhật bởi
𝑤𝑖𝑗𝑘 ← 𝑤𝑖𝑗𝑘 + (𝑙)𝜕𝐼𝑛𝑃(𝑆|𝐻)
𝜕𝑤𝑖𝑗𝑘 (2.10)
với l là tỷ số học biểu diễn kích thước bước và 𝜕𝐼𝑛𝑃(𝑆|𝐻)
𝜕𝑤𝑖𝑗𝑘 được tính từ phương trình
(2.9). Tỷ số học là một hằng số nhỏ.
3. Chuẩn hĩa lại các trọng số: Vì các trọng số 𝑤𝑖𝑗𝑘 là các giá trị xác suất, chúng phải giữa 0 và 1.0 và 𝛴𝑗 𝑤𝑖𝑗𝑘 phải bằng 1 với mọi i, k. Những tiêu chuẩn này cĩ được bằng cách chuẩn hố lại các trọng số sau khi chúng được cập nhật bởi phương trình (2.10).