Classifier Bayesian ngây thơ thực hiện trên giả định độc lập điều kiện lớp, tức là nhãn lớp của một mẫu là cho trước, giá trị của các thuộc tính độc lập cĩ điều kiện với nhau. Giả định này làm đơn giản hố việc tính tốn. Khi giả định là đúng thì classifier Bayesian ngây thơ cĩ độ chính xác cao nhất so với tất cả các classifier khác. Tuy nhiên trong thực tiễn, sự phụ thuộc cĩ thể tồn tại giữa các biến. Các mạng belief Bayes định rõ phần chung các phân bố xác suất cĩ điều kiện. Chúng cung cấp một mơ hình đồ thị các mối quan hệ nhân quả, trên đĩ việc học được thực hiện.
Một mạng belief được định nghĩa bởi hai thành phần. Thứ nhất là một đồ thị khơng cĩ chu trình và cĩ hướng, tại đĩ mỗi nút đại diện cho một biến ngẫu nhiên và mỗi cung đại diện cho một phụ thuộc xác suất. Nếu một cung được vẽ từ một nút Y tới một nút Z thì Y là cha của Z hay tổ tiên gần nhất của Z và Z là con cháu của Y. Mỗi biến là độc lập cĩ điều kiện với những nút khơng phải con cháu của nĩ trên đồ thị, cho trước các cha của chúng. Giá trị của các biến này cĩ thể là rời rạc hay liên tục.
Ta cĩ thể gọi chúng là các mạng belief, các mạng Bayesian hay các mạng xác suất. Một cách ngắn gọn, ta sẽ xem chúng như là các mạng belief.
(FamilyHistory: tiền sử gia đình; LungCancer: ung thư phổi; Smoker: người hút thuốc; PositiveXRay: phim X quang; Emphysema: khí thũng; Dyspnoea: khĩ thở)
Hinh 2. 5. a) Mạng belief Bayesian đơn giản, b) Bảng xác suất cĩ điều kiện cho các giá trị của biến LungCancer (LC)
Hinh 2. 5 a) cho thấy một mạng belief đơn giản lấy từ [Russell et al. 1995a] cho 6 biến Boolean. Các cung cho phép một biểu diễn tri thức nhân quả. Ví dụ, bệnh phổi một người bị ảnh hưởng bởi lịch sử bệnh phổi của gia đình anh ta, cũng như liệu người đĩ cĩ nghiện thuốc lá hay khơng. Hơn nữa, các cung cũng chỉ ra rằng các biến LungCancer là độc lập cĩ điều kiện với Emphysema, cho trước các cha của nĩ: FamilyHistory và Smoker. Điều này cĩ nghĩa là một khi các giá trị của FamilyHistory và Smoker được biết thì biến
Emphysema khơng cần cung cấp thêm bất kỳ một thơng tin nào để đánh giá LungCancer. Thành phần thứ hai định nghĩa mạng belief là một bảng xác suất cĩ điều kiện (viết tắt: CPT - conditional probability table) cho mỗi biến. CPT cho một biến Z chỉ ra phân phối cĩ điều kiện P(Z|Parents(Z)) với Parents(Z) là các cha của Z. Hình 2.6b) cho thấy một CPT cho LungCancer. Xác suất cĩ điều kiện cho mỗi giá trị của LungCancer cho trước đối với mỗi kết nối cĩ thể cĩ của các giá trị các cha của nĩ. Ví dụ, từ các mục phía trên trái nhất và phía dưới phải nhất tương ứng như sau:
P(LungCancer = Cĩ | FamilyHistory = Cĩ, Smoker = Cĩ) = 0.8, và
P(LungCancer = Khơng | FamilyHistory = Khơng, Smoker = Khơng) = 0.9.
Xác suất chung của bất kỳ một bộ (z1,z2,...,zn) tương đương với các biến hay các thuộc tính Z1,Z2,...,Zn được tính tốn bởi :
𝑃(𝑧1, … , 𝑧𝑛) ∏ 𝑃( 𝑛
𝑖=1
𝑧𝑖| Parents(𝑧𝑖)) (2.8)
Một nút trên mạng cĩ thể được chọn như là nút "đầu ra", biểu diễn một thuộc tính nhãn lớp. Cĩ thể cĩ nhiều hơn một nút đầu ra. Các giải thuật suy diễn cho việc học cũng áp dụng được trên mạng này. Xử lý phân lớp, cĩ thể trả lại một nhãn lớp đơn lẻ, hay một phân phối xác suất cho thuộc tính nhãn lớp, tức là dự đốn xác suất của mỗi lớp.