Ontology người dùng OU (tích hợp của các ontology O1 vàO 2)

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 43)

Weather

Temp Wind Humidity Precipitation

WindSpeed WindDir Rain NoPrec Snow

Light Rain Moderate Rain Heavy Rain Light Snow Moderate Snow Heavy Snow

HeavyRain ở D1 được tính bằng 20 40 (20)

30 3

   

   

   . Kết quả cho tỉ lệ những ngày

HeavyRain là 40 1 1 20 3 100 3               .

Để có thể xác định được câu trả lời cho truy vấn trên, ta đã giả định phân bố của D1 và D2 là tương tự nhau. Tuy nhiên, nếu trong trường hợp người dùng giả định rằng số lượng ngày mưa ở D1 không thể suy ra bằng việc dựa trên phân bố ngày mưa của D2 thì có một sự lựa chọn khác, đó là xác định số lượng bản ghi liên quan đến HeavyRain theo D2, khi đó kết quả là 0,2.

Việc trả lời các truy vấn dựa trên các ontology O1, O2, O và các ánh xạ liên quan. Tuy nhiên, trong một số trường hợp, câu trả lời cho các truy vấn thống kê không chỉ yêu cầu các ánh xạ giữa các ontology mà còn yêu cầu cả các giả định về thống kê (trong ví dụ trên, ta giả định rằng phân bố thống kê của D1 và D2 là bằng nhau). Sự đúng đắn của các câu trả lời phụ thuộc vào độ chính xác của các giả định liên quan đến thống kê.

Như vậy, dựa trên ontology, việc tích hợp các thông tin thống kê trên các nguồn dữ liệu không thuần nhất và phân tán trở nên đơn giản hơn. Tuy nhiên, một điểm khác biệt dễ thấy trong việc tích hợp các thông tin thống kê trong môi trường không thuần nhất đó là áp dụng các ánh xạ vào quá trình xác định thông tin thống kê của các nguồn dữ liệu. Xét thuật toán phân lớp dựa trên Naive Bayes cho các nguồn dữ liệu không thuần nhất để thấy rõ nhận định trên.

Thu thập thông tin thống kê trong giải thuật NB

Giải thuật phân lớp NB cho các nguồn dữ liệu phân tán không thuần nhất và phân mảnh ngang (dọc) bao gồm 2 bước cơ bản sau [10]:

Đầu tiên, tập các ánh xạ [45] được sử dụng để xác định các thuộc tính trong cơ sở dữ liệu tương ứng với các thuộc tính được đưa ra bởi người dùng (ví dụ như

( ) ( )

i j i U

Tiếp theo, đối với mỗi giá trị thuộc tính ( )

i

A U

vv O theo quan điểm của người dùng, tính các tần số trong những nguồn dữ liệu cụ thể Dj có chứa thuộc tính đó. Có hai trường hợp xảy ra đối với giá trị v:

 Nếu v nằm trong phạm vi xác định của Dj (có nghĩa là, giá trị v được xác định trên ontology của Dj) thì ta tính các tần số suất hiện của các nút con của v theo cách đệ quy. Ví dụ như ta muốn tính tần số của Rain trong D2, ta tính tần số cho LightRain, ModerateRain, và HeavyRain rồi cộng chúng lại.

 Nếu v nằm ngoài phạm vi xác định trong Dj, ta có thể coi đó là một giá trị không xác định. Tuy nhiên, ta cũng cần giải quyết bài toán cho các giá trị không xác định bằng một trong những cách sau:

 Nếu người dùng giả định sự phân bố thống nhất giữa các giá trị thuộc tính thì tần số có thể được tính theo một cách lan truyền từ nút cha đến nút con. Ví dụ như, nếu có 12 bản ghi liên quan đến thuộc tính Prec thì ta có thể mặc định rằng có 4 bản ghi liên quan đến Rain, 4 bản ghi liên quan đến NoPrec và 4 bản ghi liên quan đến Snow.

 Nếu người dùng giả định rằng các dữ liệu có cùng một phân bố xác suất thì có thể tính phân bố của nguồn dữ liệu này phụ thuộc vào phân bố của nguồn dữ liệu khác.

2.3 Hệ thống tích hợp thông tin thống kê trong môi trường phân tán

Trong môi trường phân tán và không thuần nhất về ngữ nghĩa, một hệ thống tích hợp thông tin thống kê cần phải xử lí được sự không thuần nhất về ngữ nghĩa và tính phân tán của dữ liệu trước khi thực hiện quá trình tích hợp dữ liệu. Hình 2.9 là sơ đồ khối được thiết kế cho hệ thống tích hợp thông tin thống kê trong môi trường phân tán và không thuần nhất (xem [8],[10],[14]).

Hệ thống được xây dựng dựa trên mô hình một số thuật toán học từ dữ liệu, bao gồm một số modul chính như: tích hợp các ontology, chuẩn hóa dữ liệu huấn luyện, thu thập thông tin thống kê và xử lí thông tin thống kê. Ban đầu, dữ liệu sẽ được chuẩn hóa cho phù hợp với yêu cầu của hệ thống (ví dụ, đối với hệ thống phân lớp dựa trên NB, phải rời rạc hóa một số miền giá trị thuộc tính quá lớn, hoặc loại bỏ giá trị không xác định). Sau đó, dựa trên các nguồn dữ liệu huấn luyện và kiểm thử các ontology liên quan sẽ được xây dựng và được tích hợp để có được một ontology chung nhất cho các nguồn dữ liệu.

Sau khi tích hợp, các ontology sẽ được lưu trữ trong cơ sở dữ liệu dưới dạng các ánh xạ. Các ánh xạ thể hiện mối quan hệ giữa các khái niệm trong miền dữ liệu với nhau. Dựa trên cơ sở dữ liệu ánh xạ, người dùng có thể dễ dàng thu thập thông tin thống kê từ các nguồn không đồng nhất thông qua các truy vấn dữ liệu. Kết quả của các truy vấn sẽ được gửi về bộ phận trung tâm. Dựa trên kết quả của các truy vấn và các thuật toán áp dụng (mô hình sinh giả thiết), nguồn dữ liệu kiểm thử sẽ được xử lí tại bộ phận trung tâm.

Đối với mỗi nguồn dữ liệu khác nhau, modul thu thập thông tin thống kê sẽ gửi các truy vấn phù hợp và nhận kết quả trả về từ nguồn dữ liệu đó. Thông tin được gửi đi trong hệ thống là các thông tin mang tính thống kê, không phải là dữ liệu thô, và phải tuân theo các ràng buộc của hệ thống và khả năng của đường truyền.

Truy vấn nguồn dữ liệu huấn luyện Ánh xạ Ontology Ánh xạ Bản ghi chưa xử lí Truy vấn Kết quả Thông tin thống kê Tích hợp ontology CSDL ontology Các nguồn dữ liệu huấn luyện

Nguồn dữ liệu thô Chuẩn hóa Thu nhận tt thống kê XỬ LÍ Nguồn dữ liệu kiểm thử Thuật toán/mô

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 43)