Ontology biểu diễn lượng mưa

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 39)

Ví dụ 2.7:

Xét nguồn D1 (dữ liệu về thiết bị xe máy) có lược đồ S1 = {Thiết bị : String, Giá bán : Number, VAT : Number}, và lược đồ S2 = {Thiết bị : String, Giá bán : float, VAT : float}. Ta thấy S1 và S2 là tương thích vì kiểu Number và float có kiểu chung nhỏ nhất là Number. Ngoài ra, tồn tại hàm chuyển đổi Number2Number và float2Number nên lược đồ chung nhỏ nhất là S = {Thiết bị : String, Giá bán : Number, VAT : Number}.

Định nghĩa 12 ([6]): Một bộ ba (D,S,O) được gọi là nguồn dữ liệu mở rộng ontology nếu D là một nguồn dữ liệu (được biểu diễn dưới dạng bảng), O là một ontology, S {A :11, A :2 2,..., A :n n } là một lược đồ nguồn dữ liệu và thỏa mãn các điều kiện sau:

  1, 2,...,nO là các kiểu trong ontology O

DbelowO( )1 belowO( ) ...2  belowO( )n

2.1.4 Các phép toán mở rộng ontology

Cho (D S O1, 1, 1),...,(D S OK, K, K) là K nguồn dữ liệu mở rộng ontology và O là ontology tích hợp của O1,...,OK với tập các ánh xạ i |i1,K.

Định nghĩa 13 ([10]): (Các phép toán) Cho X là một tập dữ liệu (biểu diễn dưới dạng bảng) trong miền tích hợp. Ta định nghĩa  X O X S O, , 

Phép chiếu: Nếu X là kết quả của phép chiếu (PROJECT) lên một tập dữ liệu X’, được biểu diễn là

i1 ik

A ,...,A j

X = Π (X'), (1 i n, 1 j k)  và nếu

 X'O D',(A1: ,...,1 An:n),O thì  X O ( , , )D S O trong đó D là kết quả của phép chiếu chuẩn của D trên các thuộc tính ' Ai1,....,A và ik

1 1

( : ,..., n: n)

Phép chọn: Nếu X là kết quả của phép chọn (SELECT) trên một tập dữ liệu X’, được biểu diễn là X c(X') và nếu c là một điều kiện chọn trên  X'O ( ', , )D S O thì  X O ( , , )D S O , trong đó

 ' | ( ', , ), |: 

D t D D S O t c .

Phép tích đề các: Nếu X là kết quả của phép tích đề các (CROSS PRODUCT) của hai tập dữ liệu X1 và X2, được biểu diễn dưới dạng

1 2

XXX  i ( i, , )i

O

XD S O (với i = 1,2) thì  X O ( , , )D S O trong đó D là tích đề các chuẩn của D1 và D2; S được tính bằng việc ghép S1 và S2.

Phép kết nối: Nếu X là kết quả của phép kết nối (JOIN) hai tập dữ liệu X1 và X2, chúng ta có thể biểu diễn phép kết nối là sự kết hợp của phép chọn và phép tích đề các, XX1X2 c(X1X2), bởi vậy ta có thể sử dụng các định nghĩa của phép chọn và phép tích đề các để định nghĩa

 X O.

Các phép toán tập hợp: Nếu XX op X1 2 trong đó op    , ,  nếu  Xi O (D S Oi, , )i với i = 1,2 và S1, S2 có lược đồ chung nhỏ nhất S thì  X O ( , , )D S O , trong đó D là kết quả của S S D op S12 ( 1) 22 (S D .2) Các phép toán trên các nguồn dữ liệu mở rộng ontology được phát triển dựa trên những phép toán trên cơ sở dữ liệu quan hệ chuẩn [10]. Điều này cho phép việc thực thi trên các nguồn dữ liệu mở rộng vẫn giữ được sự đơn giản và tính hiệu quả.

2.2 Tích hợp thông tin thống kê dựa trên ontology

Ontology trong hệ thống tích hợp thông tin đóng vai trò thuần nhất ngữ nghĩa của các đối tượng và các mối quan hệ trước khi thực hiện các truy vấn thống kê. Trong INDUS ([8],[10]), ontology được sử dụng nhằm tạo cho người dùng một khung nhìn chung cho tất cả các nguồn dữ liệu. Các giải thuật dựa trên các mô hình

thống kê (ví dụ, các mô hình NB) được thiết kế cho việc phân lớp protein dựa trên các nguồn dữ liệu SWISSPROT và MIPS.

K. McGarry et al. [41] chỉ ra phương pháp khai phá tri thức trong lĩnh vực sinh học dựa trên mạng Bayes và các ontology sinh học (như GO – Gene Ontology). Các ontology được xây dựng dựa trên các thông tin thu thập từ các nguồn dữ liệu. Sau đó, cấu trúc ontology được sử dụng để xây dựng mạng Bayes cho việc suy diễn và tiên đoán các tương tác của protein.

Ví dụ 2.8: Xét ví dụ về việc không thuần nhất ngữ nghĩa trong quá trình thu thập thông tin thời tiết của một vùng, được thực hiện bởi 2 tổ chức khác nhau: T1 và T2.

Weather

Temperature Wind Humidity Outlook

WindSpeed Sunny Rainy Cloudy Snowy

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 39)