Chương 4 XÂY DỰNG CÔNG CỤ ĐÁNH GIÁ DỰA TRÊN MÔ HÌNH ĐỀ XUẤT KẾT HỢP MẠNG BAYESIAN BELIEF VÀ ÁP DỤNG ĐÁNH GIÁ MỘT SỐ WEBSITE TMĐT
4.1 Môi trường xây dựng công cụ đánh giá
4.1.1 Nền tảng xây dựng công cụ
Việc xây dựng công cụ đánh giá dựa trên mạng Bayesian Belief (BBN –Bayesian Belief Network). Mạng này được phát triển đầu tiên vào cuối những năm 1970s ở Đại học Stanford. BBNs là mô hình đồ thị (Graphical Model) thể hiện mối quan hệ nhân – quả (cause effect) giữa các biến. BBNs – chủ yếu dựa trên lý thuyết xác suất có điều kiện hay còn gọi là lý thuyết Bayes (Bayesian theory, hay Bayes’ theory). Chính vì thế, kỹ thuật này có tên gọi là Bayesian Belief Networks (BBNs). BBNs còn là một dạng của biểu đồ ảnh hưởng (Influence Diagram), kết hợp hài hòa giữa lý thuyết xác suất và lý thuyết đồ thị để giải quyết hai vấn đề quan trọng, tính không chắc chắn và tính phức tạp, được ứng dụng rộng rãi trong toán học và kỹ thuật.
Belief Networks là:
- Một tập các biến
- Một cấu trúc đồ thị kết nối các biến và - Một tập các phân bố xác suất có điều kiện
Belief network thường được biểu diễn ở dạng đồ thị, gồm một tập các đỉnh và các cạnh. Các đỉnh đồ thị hay còn gọi là các nút biểu diễn các biến và các cạnh của đồ thị hay còn gọi là các cung biểu diễn các mối quan hệ nhân quả trong mô hình.
Xây dựng một mạng Belief network phải theo những bước chung sau:
- Đưa tất cả các biến quan trọng trong mô hình vào
- Phát hiện các mối quan hệ nhân quả để tạo ra các kết nối giữa các nút trong đồ thị
- Chỉ ra các phân bố xác suất có điều kiện Mỗi quan hệ trong mô hình BN:
Trong lý thuyết xác suất, không có cách nào biết trước được biến nào ảnh hưởng đến biến nào. Nói chung, phân bố xác suất toàn bộ hoặc kết hợp thường rất lớn và không thể lưu trực tiếp trên máy tính.
Một trong những nguyên tắc chính của mô hình Baysian là cho phép người tạo mô hình sử dụng các tri thức chung và tri thức từ thế giới thực để loại bỏ sự phức tạp không cần thiết trong mô hình. Ví dụ, người xây dựng mô hình sẽ muốn biết thời gian trong ngày mà sự dò rỉ của dầu của ô tô không bị ảnh hưởng bởi thời gian. Để xác định được vấn đề này thì còn cần phải dựa trên nhiều nhân tố trực tiếp gây ra sự tổn hao dầu của xe đó là nhiệt độ thời gian tại thời điểm xét trong ngày, rồi những điều kiện lái xe như quãng đường, kiểu đường đi, vv…
Phương thức được sử dụng để loại bỏ các quan hệ không có ý nghĩa trong mô hình Baysian là chỉ khai báo và sử dụng các biến có ý nghĩa. Sau khi thiết lập tất cả các biến trong mô hình, thì phải cẩn thận xem xét các biến liên quan nhau gây ra các thay đổi trong hệ thống và tới các biến mà chúng gây ảnh hưởng. Chỉ những biến nào gây ảnh hưởng thì mới được xem xét.
Những ảnh hưởng này được biểu diễn bằng các cung điều kiện giữa các nút. Mỗi cung biểu diễn một mối quan hệ nhân quả giữa nút cha và nút con.
Cùng với các lý thuyết khác như lôgic mờ (Fuzzy Logic), mạng nơron nhân tạo (Artificial Neural Networks - ANNs), thuật toán gen (Genetic Algorithmrs - GAs)…, BBNs là phương pháp chủ yếu dựa trên xác suất có điều kiện để dự báo (prediction) hoặc chẩn đoán ( iagnosis) một sự việc, một D vấn đề đã, đang và sắp xảy ra. Chẳng hạn, trong thiên nhiên, để dự báo nước lũ hay bão cho một khu vực nào đó, ta dựa vào dữ liệu của các lần xảy ra bão, lụt trước đó và những bằng chứng ( vidences) hiện tại liên quan, xây dựng E
mô hình BBNs và từ đó ta có thể dự báo được có hay không việc xảy ra nước lũ hay bão và mức độ ảnh hưởng là như thế nào.
Hình 4.1 Mô hình minh họa mạng BBNs
Trong lĩnh vực xây dựng, BBNs dùng để dự báo, đánh giá rủi ro tiến độ, kinh phí, chất lượng, tai nạn lao động. Ngoài ra, BBNs còn được dùng để chuẩn đoán trong y học; trong công nghệ kỹ thuật, dự báo chất lượng của các phần mềm máy tính, rủi ro tai nạn đường sắt.
BBNs dựa trên lý thuyết xác suất có điều kiện của Thomas Bayes, ông này đã đưa ra qui luật cơ bản của xác suất, do đó gọi là công thức Bayes [12].
Công thức đơn giản nhất như sau:
Trong đó: A và B là hai sự kiện có thể xảy ra và phụ thuộc với nhau.
P(A) là xác suất của sự kiện A; P(B) là xác suất của sự kiện B; P(B/A) là xác suất có điều kiện của B khi biết trước A đã xảy ra; và P(A/B) là xác suất có điều kiện của A khi biết trước B đã xảy ra.
Tắc đường
Xe bus trễ
Đi tốc độ chậm
Đi học muộn
4.1.2. Cấu trúc mạng BBNs
BBNs là mô hình trực tiếp mà mỗi biến được đại diện bởi một nút (node), mối quan hệ nhân quả giữa hai biến đó được biểu thị bằng mũi tên được gọi “edge”. Mũi tên hướng từ nút nguyên nhân “parent node” đến nút kết quả “child node”. Nút kết quả phụ thuộc có điều kiện vào nút nguyên nhân.
Mỗi nút (hay là biến) có một trạng thái (state) tùy thuộc đặc trưng của biến đó. Cụ thể, theo hình .1, nút “tuyết rơi” là nút nguyên nhân ảnh hưởng 4 đến nút kết quả “tình trạng con đường” và chúng có những trạng thái tương ứng.
Trong quản lý dự án xây dựng, cấu trúc BBNs trình bày ở sơ đồ 3 thể hiện ảnh hưởng của “chủ đầu tư khó khăn về tài chính” đến “sự chậm trễ tiến độ công trình”.
Cấu trúc của mạng BBNs tổng quát hơn, phức tạp hơn với nhiều nút (nodes) và nhiều cạnh liên kết (edges).
Hình 4.2 Cấu trúc đơn giản của mạng BBNs trong xây dựng
Hình 4.3 Cấu trúc mạng BBNs tổng quát Bảng xác suất có điều kiện (CPT):
Mỗi nút luôn được gắn với một bảng xác suất có điều kiện (conditional probability table: CPT) dựa vào những thông tin ban đầu hay dữ liệu, kinh nghiệm trong quá khứ.
Ví dụ, mạng BBNs trong hình 4.4, CPT của các biến như sau:
Nút cha Nút con
Tuyết Đường đi
Không đi được Đi được
Không rơi 0.05 0.95
Tuyết rơi nhẹ 0.10 0.90
Tuyết rơi nặng 0.70 0.30
Bảng 4.1 CPT của các biến “Road Conditions” của mạng BBNs
Hình 4.4 Cấu trúc BBNs về khả năng đi qua đường khi tuyết rơi
Theo bảng 4.1, ta thấy nếu tuyết rơi (Precipitation) ở trạng thái nhẹ (Light) thì khả năng (hay xác suất) để con đường (Road Conditions) có thể đi qua được (Passable) là 90% và không thể đi qua được (Impassable) là 10%”. , Trong BBNs, nút mà không có nguyên nhân ( no parent) gây ra nó thì gọi là nút gốc (root node). CPT của nút này gọi là xác suất ban đầu (prior probability).
4.1.3 Công cụ MSBNx của Microsoft
MSBNx là ứng dụng của hãng Microsoft hỗ trợ việc tạo, chỉnh sửa và đánh giá mô hình mạng BBN. Mỗi mô hình được biểu diễn ở dạng đồ thị hay lược đồ. Các biến ngẫu nhiên được biểu diễn ở dạng hình elip gọi là các nút (nodes). Các quan hệ nhân quả được biểu diễn ở dạng các mũi tên hay các cung trực tiếp giữa các biến. Hiện tại MSBNx chỉ hỗ trợ phân bố xác xuất rời rạc cho mô hình các biến. Các mô hình được lưu và nạp từ đĩa, các mô hình được lưu ở dạng các file có định dạng XML. MSBNx cho phép xem và đánh giá nhiều mô hình một lúc.
Hình 4.5 Giao diện công cụ MSBNx Các phân bố xác suất MSBNx hỗ trợ:
- Phân bố rời rạc: Đây là dạng chuẩn của phân bố xác suất. Tất cả các biến xác suất có mặt nhưng không cần thiết phải chỉ ra đầy đủ các giá trị của các biến. Trong quá trình đánh giá, phân bố xác suất đều sẽ tự động đưa ra các giá trị xác suất chưa có.
- Phân bố Causally Independent: Đây là dạng phân bố thực hiện nén không gian của các xác suất bằng cách giả định các trạng thái của các nút cha là đối nghịch nhau.
Dạng của phân bố được sử dụng cho một biến không thể thay đổi dễ dàng vì nếu làm như vậy sẽ ảnh hưởng đến kết quả và làm mất các đánh giá từ trước.
Các phương pháp đánh giá xác suất được sử dụng trong MSBNx:
Đánh giá chuẩn (Standard assessment): là phương pháp dựa trên bảng, ta có thể định vị và chỉnh sửa một tập các giá trị xác suất cụ thể dựa trên trạng thái của các nút cha của biến