Tích hợp thông tin thống kê dựa trên ontology- 123docz.net

và X 2 , chúng ta có thể biểu diễn phép kết nối là sự kết hợp của phép chọn

2.2 Tích hợp thông tin thống kê dựa trên ontology

Ontology trong hệ thống tích hợp thông tin đóng vai trò thuần nhất ngữ nghĩa của các đối tượng và các mối quan hệ trước khi thực hiện các truy vấn thống kê.

Trong INDUS ([8],[10]), ontology được sử dụng nhằm tạo cho người dùng một khung nhìn chung cho tất cả các nguồn dữ liệu. Các giải thuật dựa trên các mô hình

thống kê (ví dụ, các mô hình NB) được thiết kế cho việc phân lớp protein dựa trên các nguồn dữ liệu SWISSPROT và MIPS.

K. McGarry et al. [41] chỉ ra phương pháp khai phá tri thức trong lĩnh vực sinh học dựa trên mạng Bayes và các ontology sinh học (như GO – Gene Ontology). Các ontology được xây dựng dựa trên các thông tin thu thập từ các nguồn dữ liệu. Sau đó, cấu trúc ontology được sử dụng để xây dựng mạng Bayes cho việc suy diễn và tiên đoán các tương tác của protein.

Ví dụ 2.8: Xét ví dụ về việc không thuần nhất ngữ nghĩa trong quá trình thu thập thông tin thời tiết của một vùng, được thực hiện bởi 2 tổ chức khác nhau: T 1 và T 2 .

Weather

Temperature Wind Humidity Outlook

WindSpeed Sunny Rainy Cloudy Snowy

Hình 2.6. Ontology biểu diễn nguồn dữ liệu D 1 của tổ chức T 1

Weather

Temp Wind Humidity Prec

WindSpeed WindDir Rain NoPrec Snow

Light

Rain Moderate

Rain Heavy

Rain Light

Snow Moderate

Snow Heavy Snow

Giả định rằng D 1 chứa 20 bản ghi có liên quan đến Rainy và 30 bản ghi có liên quan đến Snowy . Nguồn dữ liệu D 2 chứa 10 bản ghi liên quan đến LightRain , 20 bản ghi liên quan đến HeavyRain , 10 bản ghi liên quan đến LightSnow và 10 bản ghi liên quan đến HeavySnow .

Người dùng khi tìm kiếm thông tin về thời tiết, yêu cầu trả lời truy vấn: “Xác định tỉ lệ những ngày mưa?”. Sau khi tiến hành xây dựng các ánh xạ liên quan như

 

1 U 2 U

(Rainy:O Rain:O ,Rain:O Rain:O ) , câu trả lời cho truy vấn có thể được tính toán trực tiếp như sau: số lượng những ngày mưa (20 + 10 + 20 =50) chia cho tổng số 100 bản ghi, được kết quả là 0.5.

Người dùng cũng có thể yêu cầu trả lời một truy vấn khác: “Xác định tỉ lệ những ngày mưa nặng hạt ( HeavyRain )?”. Với những câu hỏi dạng này, không thể trả lời trực tiếp bởi không xác định được số bản ghi liên quan đến HeavyRain ở D 1 . Điều này chỉ có thể thực hiện khi việc xác định số bản ghi trên D 1 dựa trên mức độ phân bố của D 2 . Ta giả định rằng tỉ lệ ngày HeavyRain trên những ngày Rain của D 1 là bằng với tỉ lệ trên D 2 (tức là bằng 20/30). Khi đó số bản ghi liên quan đến

Hình 2.8. Ontology người dùng O U (tích hợp của các ontology O 1 và O 2 )

Weather

Temp Wind Humidity Precipitation

WindSpeed WindDir Rain NoPrec Snow

Light

Rain Moderate

Rain Heavy

Rain Light

Snow Moderate

Snow Heavy Snow

HeavyRain ở D 1 được tính bằng 20 40

30 (20) 3

    

   

    . Kết quả cho tỉ lệ những ngày HeavyRain là 40 1 1

3 20 100 3

           

     

  .

Để có thể xác định được câu trả lời cho truy vấn trên, ta đã giả định phân bố của D 1 và D 2 là tương tự nhau. Tuy nhiên, nếu trong trường hợp người dùng giả định rằng số lượng ngày mưa ở D 1 không thể suy ra bằng việc dựa trên phân bố ngày mưa của D 2 thì có một sự lựa chọn khác, đó là xác định số lượng bản ghi liên quan đến HeavyRain theo D 2 , khi đó kết quả là 0,2.

Việc trả lời các truy vấn dựa trên các ontology O 1 , O 2 , O và các ánh xạ liên quan. Tuy nhiên, trong một số trường hợp, câu trả lời cho các truy vấn thống kê không chỉ yêu cầu các ánh xạ giữa các ontology mà còn yêu cầu cả các giả định về thống kê (trong ví dụ trên, ta giả định rằng phân bố thống kê của D 1 và D 2 là bằng nhau). Sự đúng đắn của các câu trả lời phụ thuộc vào độ chính xác của các giả định liên quan đến thống kê.

Như vậy, dựa trên ontology, việc tích hợp các thông tin thống kê trên các nguồn dữ liệu không thuần nhất và phân tán trở nên đơn giản hơn. Tuy nhiên, một điểm khác biệt dễ thấy trong việc tích hợp các thông tin thống kê trong môi trường không thuần nhất đó là áp dụng các ánh xạ vào quá trình xác định thông tin thống kê của các nguồn dữ liệu. Xét thuật toán phân lớp dựa trên Naive Bayes cho các nguồn dữ liệu không thuần nhất để thấy rõ nhận định trên.

Thu thập thông tin thống kê trong giải thuật NB

Giải thuật phân lớp NB cho các nguồn dữ liệu phân tán không thuần nhất và phân mảnh ngang (dọc) bao gồm 2 bước cơ bản sau [10]:

Đầu tiên, tập các ánh xạ [45] được sử dụng để xác định các thuộc tính trong cơ sở dữ liệu tương ứng với các thuộc tính được đưa ra bởi người dùng (ví dụ như



Tiếp theo, đối với mỗi giá trị thuộc tính ( )

A i U

v  v O theo quan điểm của người dùng, tính các tần số trong những nguồn dữ liệu cụ thể D j có chứa thuộc tính đó. Có hai trường hợp xảy ra đối với giá trị v:

 Nếu v nằm trong phạm vi xác định của D j (có nghĩa là, giá trị v được xác định trên ontology của D j ) thì ta tính các tần số suất hiện của các nút con của v theo cách đệ quy. Ví dụ như ta muốn tính tần số của Rain trong D 2 , ta tính tần số cho LightRain , ModerateRain , và HeavyRain rồi cộng chúng lại.

 Nếu v nằm ngoài phạm vi xác định trong D j , ta có thể coi đó là một giá trị không xác định. Tuy nhiên, ta cũng cần giải quyết bài toán cho các giá trị không xác định bằng một trong những cách sau:

 Nếu người dùng giả định sự phân bố thống nhất giữa các giá trị thuộc tính thì tần số có thể được tính theo một cách lan truyền từ nút cha đến nút con. Ví dụ như, nếu có 12 bản ghi liên quan đến thuộc tính Prec thì ta có thể mặc định rằng có 4 bản ghi liên quan đến Rain , 4 bản ghi liên quan đến NoPrec và 4 bản ghi liên quan đến Snow .

 Nếu người dùng giả định rằng các dữ liệu có cùng một phân bố xác suất thì có thể tính phân bố của nguồn dữ liệu này phụ thuộc vào phân bố của nguồn dữ liệu khác.