Một mạng Bayes là một đồ thị cĩ hướng phi chu trình mà trong đĩ: • Các nút biểu diễn các biến,
• Các cạnh biểu diễn các quan hệ phụ thuộc thống kê giữa các biến và phân phối xác suất địa phương cho mỗi giá trị nếu cho trước giá trị của các cha của nĩ.
Nếu cĩ một cạnh từ nút tới nút , thì biến phụ thuộc trực tiếp vào biến và được gọi là cha của . Nếu với mỗi biến , tập hợp các biến cha được ký hiệu bới parents , thì phân phối cĩ điều kiện phụ thuộc của các biến là tích của các phân phối địa phương
Nếu khơng cĩ cha, ta nĩi rằng phân phối xác suất địa phương của nĩ là khơng cĩ điều kiện, ngược lại thì gọi là cĩ điều kiện. Nếu biến được biểu diễn bởi một nút được quan sát, thì ta nĩi rẳng nút đĩ là một chứmg cứ (evidence node).
Các câu hỏi về sự phụ thuộc khơng tương đẳng giữa các biến cĩ thể được trả lời bằng cách nghiên cứu đồ thị. Cĩ thể chứng minh rằng trong đồ thị, tính độc lập cĩ điều kiện được biểu diễn bởi tính chất đồ thị -khả ly: cho trước một số nút hiển nhiên cụ thể, các nút và là -khả ly trong đồ thị khi và chỉ khi các biến và là độc lập, với giá trị đã biết các chứng cứ tương ứng. Tập hợp gồm tất cả các nút khác mà cĩ thể phụ thuộc trực tiếp được cho bởi bao Markov của .
Một ưu điểm của mạng Bayes là, về mặt trực quan, ta cĩ thể hiểu các quan hệ phụ thuộc một cách trực tiếp và các phân phối địa phương dễ dàng hơn là phân phối cĩ điều kiện phụ thuộc hồn chỉnh.
Ví dụ:
Nếu cĩ hai lý do cho việc cỏ bị ướt (GRASSWET): hoặc do được tưới nước (SPRINKLER), hoặc do trời mưa (RAIN), thì tình huống này cĩ thể được mơ hình hĩa bởi một mạng Bayes. Ở đây, các biến cĩ hai trạng thái cĩ thể: (đúng) và (sai). Hàm xác suất phụ thuộc cĩ điều kiện là
Mơ hình cĩ thể trả lời các câu hỏi như "Nếu cỏ ướt thì khả năng trời mưa là bao nhiêu?" bẳng cách sử dụng các cơng thức xác suất cĩ điều kiện và lấy tổng tất cả các biến trở ngại (nuisance variable):
Thay thế các giá trị số, ta được Pr(RAIN=T | GRASSWET=T) = 891/2491 ≈ 35.77%.
Cách khác: (P(G=T,S=F,R=T) + P(G=T,S=T,R=T)) / (P(G=T,S=F,R=F) +
P(G=T,S=T,R=F) + P(G=T,S=F,R=T) + P(G=T,S=T,R=T)) = (15.84%+0.198%) / (0.0%+28.8%+15.84%+0.198%) = 16.038% / 44.838% ≈ 35.77%.
2.2. CẤU TRÚC MẠNG BAYES
BBNs là mơ hình trực tiếp mà mỗi biến được đại diện bởi một nút (node), mối quan hệ nhân quả giữa hai biến đĩ được biểu thị bằng mũi tên được gọi “edge”. Mũi tên hướng từ nút nguyên nhân “parent node” đến nút kết quả “child node”. Nút kết quả phụ thuộc cĩ điều kiện vào nút nguyên nhân. Mỗi nút (hay là biến) cĩ một trạng thái (state) tùy thuộc đặc trưng của biến đĩ. Cụ thể, theo Hình 2.2, nút “tuyết rơi” là nút nguyên nhân ảnh hưởng đến nút kết quả “tình trạng con đường” và chúng cĩ những trạng thái tương ứng [3]. Trong quản lý dự án xây dựng, cấu trúc BBNs trình bày ở Hình 2.3 thể hiện ảnh hưởng của “chủ đầu tư khĩ khăn về tài chính” đến “sự chậm trễ tiến độ cơng trình”. Hình 2.4 thể hiện cấu trúc của mạng BBNs tổng quát hơn, phức tạp hơn với nhiều nút (nodes) và nhiều cạnh liên kết (edges) [4].
Hình 2.3. Cấu trúc đơn giản của mạng Bayes trong xây dựng
Hình 2.4. Cấu trúc mạng Bayes tổng quát
2.3. SUY LUẬN TRONG MẠNG BAYES
Suy luận là nhiệm vụ tính tốn xác suất của các sự kiện chưa biết trong một mạng Bayesian cung cấp dữ liệu về các sự kiện đã biết. Suy luận là cơ bản trong việc xác định các giá trị cĩ thể xảy ra nhất của các biến và sau đĩ rút ra kết luận từ các giá trị. (Stephenson, 2000)[5]
Khi các sự kiện nhất định được biết đến, chúng ta biết thêm về các sự kiện cĩ thể xảy ra khác hơn nếu khơng cĩ gì được biết. Do đĩ, chúng ta cĩ thể sử dụng thơng tin này để sửa đổi kiến thức về mức độ cĩ thể xảy ra các sự kiện khác với
kiến thức chúng ta cĩ. Các quá trình suy luận tìm cách đạt được chính xác mục tiêu tinh chỉnh kiến thức dựa trên trên thơng tin đã biết.
Hãy xem xét ví dụ về mạng Bayes trong Hình 5. Các nút của chúng tơi đại diện cho các biến số để biết liệu giao dịch cĩ gian lận hay khơng (F), liệu cĩ khí hay khơng (G) mua hàng trong 24 giờ qua, cho dù cĩ mua đồ trang sức (J) ở 24 giờ qua, giới tính của người đĩ (S) và Tuổi của người đĩ (A). Đây, chúng tơi thấy một số phụ thuộc cĩ điều kiện trong biểu đồ của chúng tơi. Do đĩ, chúng ta cũng thấy tính độc lập cĩ điều kiện. Ví dụ. F và A độc lập với J, G và J là độc lập cho trước F, v.v.
Hình 2.5: Example Bayesian Network adapted from Heckerman (2008)
Câu hỏi thú vị trong tình huống này là xác suất gian lận là bao nhiêu đưa ra các thơng tin khác? Nghĩa là, việc quan sát 4 biến cịn lại sẽ dễ dàng hơn sau đĩ nĩ là để quan sát xem liệu cĩ một giao dịch gian lận hoặc khơng phải. Ngồi ra, chúng tơi cĩ thể sử dụng dữ liệu trước đây về các giao dịch gian lận trong đĩ các biến được ghi lại để đưa ra các ước tính về việc liệu một giao dịch cĩ gian lận hay khơng. Chúng tơi sử dụng cơng thức tổng quát được điều chỉnh từ Cơng thức
ở dạng
để cĩ cái nhìn thực tế hơn về xác suất của sự kiện f khi chúng ta biết kết quả g, s, a và j. (Stephenson, 2000)
Với kiến thức này, chúng ta cĩ thể đơn giản hĩa Phương trình trên bằng cách sử dụng kiến thức về các tính năng độc lập này và cắm chúng vào Phương trình
và sau đĩ sử dụng quy tắc chuỗi trong phương trình
để cĩ được phương trình
Các giá trị riêng lẻ này dễ tính hơn nhiều. Vì vậy, chúng ta cĩ thể dễ dàng tính tốn xác suất gian lận chính xác hơn dựa trên kiến thức cĩ thể quan sát được.
2.4. TÍNH HỮU DỤNG CỦA MẠNG BAYES
Bây giờ chúng ta đã biết mạng Bayes là gì, hãy cùng xem tại sao chúng lại hữu ích. Phần cịn lại của phần này tập trung vào những ưu điểm của mạng Bayes so với các giải pháp tìm kiếm khơng gian trạng thái khác. Trong khi cĩ chi phí máy tính thơng tin bổ sung, lợi ích từ việc tăng tốc là giá trị bổ sung tính tốn.
2.4.1. Thích hợp cho các tập dữ liệu nhỏ và khơng đầy đủ
Trong mạng Bayes, khơng cĩ cái gọi là "quá ít dữ liệu". Trong khi nhiều hơn dữ liệu tốt hơn, mạng Bayes hoạt động với nhiều dữ liệu nhất cĩ sẵn để cung cấp kết quả khá chính xác. Hơn nữa, với mỗi lần lặp lại, nĩ học được nhiều hơn và tinh chỉnh mơ hình của nĩ để cho kết quả tốt hơn vào lần sau. Các mạng Bayes về cơ bản là các mơ hình tốn học được biểu diễn bằng các khái niệm đồ thị để giúp dễ dàng để phân tích, thực hiện và hiểu.
Xác suất cĩ điều kiện được ước tính bằng cách sử dụng các kỹ thuật khác nhau và được sử dụng để đưa ra xác suất khá chính xác cho các sự kiện khác nhau. Tất cả những gì nĩ yêu cầu là dành cho mơ hình được biết đến. Vì mơ hình cĩ thể được xây dựng để linh hoạt với khối lượng dữ liệu và trọng số của dữ liệu cũ và dữ liệu mới, nĩ cĩ thể được thực hiện linh hoạt khi cần thiết. Ví dụ: chúng tơi cĩ thể cĩ một mơ hình rất linh hoạt, cĩ trọng lượng dữ liệu gần đây hơn hơn dữ liệu trong quá khứ. Trong trường hợp đĩ, chúng tơi cĩ thể đang cố gắng giải thích cho việc thay đổi bối cảnh nền cho các thử nghiệm. Mặt khác, chúng ta cĩ thể cân nhắc quá khứ dữ liệu nhiều hơn dữ liệu mới. Điều này nhằm mục đích thiết lập một ước tính ngay từ đầu và sau đĩ tinh chỉnh nĩ với nhiều dữ liệu hơn. Tuy nhiên, trong cả hai trường hợp, cả hai đều cĩ thể hoạt động với bộ dữ liệu nhỏ và khơng đầy đủ để tạo ra kết quả chính xác.
Uusitalo (2007) nĩi về cách mạng Bayes cực kỳ hữu ích trong mơ hình hĩa các thay đổi mơi trường. Dữ liệu mơi trường thường thưa thớt và khơng đầy đủ. Ví dụ: dữ liệu khơng đầy đủ cĩ thể bỏ lỡ các sự kiện đặc biệt hoặc các khoảng thời gian nhất định của thời gian. Sau đĩ, mạng Bayes cĩ thể được sử dụng để làm việc
với dữ liệu khơng đầy đủ này để vẫn tạo ra kết quả cĩ ý nghĩa với tính tốn chính xác và suy luận tốn học.[6]
2.4.2. Cĩ thể học về cấu trúc
Một cách sử dụng cực kỳ thú vị của mạng Bayes khi thảo luận về cách tìm hiểu cấu trúc của mơ hình ngồi các xác suất mà chúng mã hĩa. Các phiên bản đơn giản của mạng Bayes cĩ các chuyên gia trong lĩnh vực này giúp thiết lập cấu trúc và cấu trúc đĩ khơng đổi. Mặc dù những điều này cĩ thể tinh chỉnh điều kiện cĩ điều kiện phân phối xác suất, chúng khơng tạo ra sự phụ thuộc hoặc độc lập mới từ dữ liệu.
Tuy nhiên, mạng Bayes cĩ thể được tạo ra đủ linh hoạt để cho phép chúng thay đổi cấu trúc đồ thị khi họ học từ dữ liệu. Vấn đề này là một vấn đề rất khĩ khăn và thơng thường các thuật tốn nhằm mục đích ước lượng các cấu trúc như vậy hơn là tính tốn phiên bản tối ưu vì tính tốn phiên bản tối ưu rất khĩ triển khai trên các mạng lớn.
Uusitalo (2007) tuyên bố cĩ hai cách tiếp cận chính đối với loại hình học tập cĩ cấu trúc - cách tiếp cận Bayes và cách tiếp cận dựa trên sự thỏa mãn hạn chế. phương pháp tiếp cận Bayes yêu cầu người dùng / chuyên gia đầu tiên nhập một mơ hình với kiến thức của mình cùng với sự tin tưởng của người dùng vào mơ hình. Sau đĩ, thuật tốn sử dụng dữ liệu để tìm ra mơ hình phù hợp nhất. Mặt khác, phương pháp tiếp cận thỏa mãn hạn chế khơng cần bất kỳ kiến thức chuyên mơn hoặc người dùng nào đầu vào. Nĩ tìm kiếm các phụ thuộc cĩ điều kiện và tính độc lập giữa các cặp của các biến và xây dựng cấu trúc bằng cách sử dụng kiến thức mà nĩ thiết lập.
2.4.3. Cĩ thể học tham số
Để cụ thể hĩa mạng Bayes và biểu diễn đầy đủ các phân bố xác suất phụ thuộc cĩ điều kiện, đối với mỗi biến X, cần phải chỉ ra phân bố xác suất X theo điều
kiện thơng tin từ các cha của X. Phân bố của X theo các cha của nĩ cĩ thể cĩ hình thức bất kỳ. Người ta thường dùng các phân bố rời rạc hay phân bố Gauss, do các phân bố này làm đơn giản việc tính tốn. Đơi khi, khi chỉ biết được các ràng buộc của các phân bố; ta cĩ thể dùng nguyên lý entropy cực đại để xác định một phân bố cụ thể, phân bố với entropy cực đại thỏa mãn các ràng buộc đĩ. (Tương tự, trong ngữ cảnh cụ thể của một mạng Bayes động, người ta thường lấy phân bố cĩ điều kiện cho sự phát triển theo thời gian của trạng thái ẩn để cực đại hĩa hệ số entropy (entropy rate) của quá trình ngẫu nhiên được nĩi đến.)
Thơng thường, các phân bố cĩ điều kiện này bao gồm các tham số chưa biết và phải được ước lượng từ dữ liệu, đơi khi bằng cách tiếp cận khả năng cực đại (maximum likelihood). Việc cực đại hĩa trực tiếp khả năng (hoặc xác suất hậu nghiệm) thường phức tạp khi cĩ các biến khơng quan sát được. Một cách tiếp cận truyền thống đối với vấn đề này là thuật tốn cực đại hĩa kỳ vọng (expectation- maximization algorithm), thuật tốn này luân phiên giữa việc tính tốn các giá trị kỳ vọng của các biến khơng được quan sát theo dữ liệu quan sát được, với việc cực đại hĩa khả năng (hay hậu nghiệm) hồn chỉnh với giả thuyết rằng các giá trị mong đợi đã tính được là đúng đắn. Dưới các điều kiện chính quy và vừa phải,quá trình này hội tụ về các giá trị khả năng cực đại (hay xác suất hậu nghiệm cực đại) của các tham số. Một cách tiếp cận Bayes đầy đủ hơn đối với việc học tham số là coi các tham số như là các biến khơng quan sát được khác và tính một phân bố hậu nghiệm đầy đủ trên tồn bộ các nút theo dữ liệu quan sát được, sau đĩ tách các tham số ra. Cách tiếp cận này cĩ thể cĩ chi phí tính tốn cao và dẫn đến các mơ hình cĩ số chiều lớn, do đĩ trong thực tế, các cách tiếp cận truyền thống thường được sử dụng hơn.
2.4.4. Kết hợp các nguồn kiến thức khác nhau
Một lợi thế lớn của mạng Bayes là nĩ cho phép chúng tơi kết hợp kiến thức với dữ liệu mới. Đĩ là, chúng tơi cĩ thể cập nhật kiến thức trước đây của chúng tơi
với thơng tin. Lợi ích của việc này là nĩ cho phép chúng tơi kết hợp dữ liệu từ các các nguồn với nhau. Kiến thức trước đây thu được từ một nguồn cĩ thể được kết hợp với dữ liệu từ nguồn mới để tạo ra các suy luận mới cĩ thể đã bị mất hoặc bị bỏ sĩt trong nguồn trước đĩ. Điều này giúp quá trình học tập trở nên khoa học hơn bằng cách tính đến những sai lệch mà các nguồn dữ liệu khác nhau cĩ thể chứa nhưng khơng được hạch tốn. Điều này cũng nhằm mục đích giải phĩng dữ liệu khỏi các giả định được thực hiện bởi các nguồn dữ liệu khác nhau.
Vì các mơ hình trong mạng Bayes đang cân nhắc dữ liệu từ các các nguồn như nhau, chúng kết hợp dữ liệu trong khi vẫn bảo tồn các mức độ chính xác khác nhau tồn tại trong các nguồn dữ liệu khác nhau. Ngồi ra, chúng giúp tính tốn dễ dàng hơn bằng cách kết hợp kiến thức định tính của chuyên gia với dữ liệu định lượng để tạo ra một kết quả chính xác về mặt tốn học.
Trong trí tuệ nhân tạo, mạng Bayes được sử dụng theo nhiều cách đa dạng kết hợp với các kỹ thuật khác. Ví dụ, nĩ cĩ thể được sử dụng với Markov các vấn đề về quyết định chuỗi, phương pháp Monte-Carlo và các kỹ thuật khác để thu thập thơng tin và thử nghiệm kiểm tra mà khơng cần thiết phải cĩ dữ liệu.
2.4.5. Xử lý rõ ràng sự khơng chắc chắn và hỗ trợ cho việc phân tích quyết định
Rất dễ dàng để mã hĩa sự khơng chắc chắn và tự do hành động thành một Bayesian mạng lưới. Ví dụ: giả sử một mơ hình để dự đốn các quyết định cơng nghiệp là thành lập. Tuy nhiên, chúng ta biết rằng con người khơng phải lúc nào cũng lý trí. Quyết định nhà sản xuất cĩ thể cĩ các mục tiêu ngắn hạn/dài hạn trong khi đưa ra quyết định và những các quyết định cĩ thể khơng phù hợp với quyết định 'hợp lý nhất' để đưa ra mơ hình của chúng tơi. Tại đây, chúng ta cĩ thể thêm một biến cho mức độ ngẫu nhiên trong quyết định để chúng tơi cĩ thể hiểu rõ hơn về cách người đĩ cĩ thể thực sự tương tác. Trong quá trình này, chúng tơi cĩ thể tính đến kết quả từ các hành động thực sự diễn ra trái ngược với việc chỉ tính tốn cho
những người mà mơ hình xem xét hợp lý nhất. Kết quả giá trị mong đợi cĩ thể được phân tích để hiểu cách ngành cơng nghiệp cĩ thể thực sự phát triển và cĩ được bức tranh thực tế hơn về thế giới mơ hình đang mơ tả. (Uusitalo, 2007)
Một cách khác để xem xét vấn đề này là khi chúng ta khơng biết chắc chắn về kết quả, chúng ta cĩ thể mã hĩa một mức độ ngẫu nhiên mà chúng ta khơng thể đốn trước được. Đối với ví dụ, các trường hợp khơng lường trước và các biến khơng mong muốn cĩ thể được tính đến bằng cách chấp nhận rằng cĩ thể cĩ một số sai lệch so với mơ hình của chúng tơi mà chúng tơi cĩ khơng được hạch tốn. Điều này đặc biệt hữu ích cho việc nghiên cứu các hệ thống vĩ mơ như mơi trường, khí