Weather
Temp Wind Humidity Precipitation
WindSpeed WindDir Rain NoPrec Snow
Light Rain Moderate Rain Heavy Rain Light Snow Moderate Snow Heavy Snow
HeavyRain ở D1 được tính bằng 20 40 (20)
30 3
. Kết quả cho tỉ lệ những ngày
HeavyRain là 40 1 1 20 3 100 3 .
Để cĩ thể xác định được câu trả lời cho truy vấn trên, ta đã giả định phân bố của D1 và D2 là tương tự nhau. Tuy nhiên, nếu trong trường hợp người dùng giả định rằng số lượng ngày mưa ở D1 khơng thể suy ra bằng việc dựa trên phân bố ngày mưa của D2 thì cĩ một sự lựa chọn khác, đĩ là xác định số lượng bản ghi liên quan đến HeavyRain theo D2, khi đĩ kết quả là 0,2.
Việc trả lời các truy vấn dựa trên các ontology O1, O2, O và các ánh xạ liên quan. Tuy nhiên, trong một số trường hợp, câu trả lời cho các truy vấn thống kê khơng chỉ yêu cầu các ánh xạ giữa các ontology mà cịn yêu cầu cả các giả định về thống kê (trong ví dụ trên, ta giả định rằng phân bố thống kê của D1 và D2 là bằng nhau). Sự đúng đắn của các câu trả lời phụ thuộc vào độ chính xác của các giả định liên quan đến thống kê.
Như vậy, dựa trên ontology, việc tích hợp các thơng tin thống kê trên các nguồn dữ liệu khơng thuần nhất và phân tán trở nên đơn giản hơn. Tuy nhiên, một điểm khác biệt dễ thấy trong việc tích hợp các thơng tin thống kê trong mơi trường khơng thuần nhất đĩ là áp dụng các ánh xạ vào quá trình xác định thơng tin thống kê của các nguồn dữ liệu. Xét thuật tốn phân lớp dựa trên Naive Bayes cho các nguồn dữ liệu khơng thuần nhất để thấy rõ nhận định trên.
Thu thập thơng tin thống kê trong giải thuật NB
Giải thuật phân lớp NB cho các nguồn dữ liệu phân tán khơng thuần nhất và phân mảnh ngang (dọc) bao gồm 2 bước cơ bản sau [10]:
Đầu tiên, tập các ánh xạ [45] được sử dụng để xác định các thuộc tính trong cơ sở dữ liệu tương ứng với các thuộc tính được đưa ra bởi người dùng (ví dụ như
Tiếp theo, đối với mỗi giá trị thuộc tính ( )
i
A U
vv O theo quan điểm của người dùng, tính các tần số trong những nguồn dữ liệu cụ thể Dj cĩ chứa thuộc tính đĩ. Cĩ hai trường hợp xảy ra đối với giá trị v:
Nếu v nằm trong phạm vi xác định của Dj (cĩ nghĩa là, giá trị v được xác định trên ontology của Dj) thì ta tính các tần số suất hiện của các nút con của v theo cách đệ quy. Ví dụ như ta muốn tính tần số của Rain trong D2, ta tính tần số cho LightRain, ModerateRain, và HeavyRain rồi cộng chúng lại.
Nếu v nằm ngồi phạm vi xác định trong Dj, ta cĩ thể coi đĩ là một giá trị khơng xác định. Tuy nhiên, ta cũng cần giải quyết bài tốn cho các giá trị khơng xác định bằng một trong những cách sau:
Nếu người dùng giả định sự phân bố thống nhất giữa các giá trị thuộc tính thì tần số cĩ thể được tính theo một cách lan truyền từ nút cha đến nút con. Ví dụ như, nếu cĩ 12 bản ghi liên quan đến thuộc tính Prec thì ta cĩ thể mặc định rằng cĩ 4 bản ghi liên quan đến Rain, 4 bản ghi liên quan đến NoPrec và 4 bản ghi liên quan đến Snow.
Nếu người dùng giả định rằng các dữ liệu cĩ cùng một phân bố xác suất thì cĩ thể tính phân bố của nguồn dữ liệu này phụ thuộc vào phân bố của nguồn dữ liệu khác.
2.3 Hệ thống tích hợp thơng tin thống kê trong mơi trường phân tán
Trong mơi trường phân tán và khơng thuần nhất về ngữ nghĩa, một hệ thống tích hợp thơng tin thống kê cần phải xử lí được sự khơng thuần nhất về ngữ nghĩa và tính phân tán của dữ liệu trước khi thực hiện quá trình tích hợp dữ liệu. Hình 2.9 là sơ đồ khối được thiết kế cho hệ thống tích hợp thơng tin thống kê trong mơi trường phân tán và khơng thuần nhất (xem [8],[10],[14]).
Hệ thống được xây dựng dựa trên mơ hình một số thuật tốn học từ dữ liệu, bao gồm một số modul chính như: tích hợp các ontology, chuẩn hĩa dữ liệu huấn luyện, thu thập thơng tin thống kê và xử lí thơng tin thống kê. Ban đầu, dữ liệu sẽ được chuẩn hĩa cho phù hợp với yêu cầu của hệ thống (ví dụ, đối với hệ thống phân lớp dựa trên NB, phải rời rạc hĩa một số miền giá trị thuộc tính quá lớn, hoặc loại bỏ giá trị khơng xác định). Sau đĩ, dựa trên các nguồn dữ liệu huấn luyện và kiểm thử các ontology liên quan sẽ được xây dựng và được tích hợp để cĩ được một ontology chung nhất cho các nguồn dữ liệu.
Sau khi tích hợp, các ontology sẽ được lưu trữ trong cơ sở dữ liệu dưới dạng các ánh xạ. Các ánh xạ thể hiện mối quan hệ giữa các khái niệm trong miền dữ liệu với nhau. Dựa trên cơ sở dữ liệu ánh xạ, người dùng cĩ thể dễ dàng thu thập thơng tin thống kê từ các nguồn khơng đồng nhất thơng qua các truy vấn dữ liệu. Kết quả của các truy vấn sẽ được gửi về bộ phận trung tâm. Dựa trên kết quả của các truy vấn và các thuật tốn áp dụng (mơ hình sinh giả thiết), nguồn dữ liệu kiểm thử sẽ được xử lí tại bộ phận trung tâm.
Đối với mỗi nguồn dữ liệu khác nhau, modul thu thập thơng tin thống kê sẽ gửi các truy vấn phù hợp và nhận kết quả trả về từ nguồn dữ liệu đĩ. Thơng tin được gửi đi trong hệ thống là các thơng tin mang tính thống kê, khơng phải là dữ liệu thơ, và phải tuân theo các ràng buộc của hệ thống và khả năng của đường truyền.
Truy vấn nguồn dữ liệu huấn luyện Ánh xạ Ontology Ánh xạ Bản ghi chưa xử lí Truy vấn Kết quả Thơng tin thống kê Tích hợp ontology CSDL ontology Các nguồn dữ liệu huấn luyện
Nguồn dữ liệu thơ Chuẩn hĩa Thu nhận tt thống kê XỬ LÍ Nguồn dữ liệu kiểm thử Thuật tốn/mơ