2.4 Truy vấn trong tích hợp dữ liệu
2.4.1.3. Sử dụng thông tin dựa trên xác suất
Các mô tả nguồn dữ liệu thường nằm trong tình trạng cô lập song một số nguồn dữ liệu có những mối quan hệ với nhau. Chúng ta thường giả thuyết là các nguồn dữ liệu thường là đầy đủ. Ví dụ, chúng ta biết nguồn dữ liệu S1 chứa thông tin về các xe sản xuất sau năm 1990. Tất cả các xe trong S1 đều sản xuất sau năm 1990 là chắn chắn song chúng ta không biết việc tất cả các xe sản xuất sau năm 1990 đều có mặt trong nguồn dữ liệu này hay không. Như vậy, điều cần thiết là thêm vào mô tả nguồn dữ liệu các thống kê về tính liên quan và tính không đầy đủ của các nguồn dữ liệu. Các mô tả định lượng này giúp chúng ta xác định được khả năng kết quả truy vấn sẽ liên quan đến các nguồn dữ liệu nào.
Việc phân loại các định lượng thông tin được chia thành 3 loại:
Mức độ bao phủ (đầy đủ) của các nguồn dữ liệu. Nó xác định mức độ các nguồn dữ liệu là bao phủ theo định lượng mô tả được đề nghị. Điều này được xác định bằng xác suất tìm kiếm một dữ liệu chắc chắn trong nguồn dữ liệu.Ví dụ, nếu S1 được tin tưởng là bao phủ toà bộ 90% các xe sản xuất sau năm 1990, thì xác suất này là 0.9.
Sự gối chồng giữa các phần trong lược đồ trung gian. Nó xác định độ gối chồng giữa các phần trong lược đồ trung gian và một cách gián tiếp qua tính gối chồng của các nguồn dữ liệu. Ví dụ khả năng một chiếc xe là xe của Nhật bản, nếu chúng ta biết chiếc xe tiêu thụ với lượng gas ít thì chúng ta có thể liên hệ nó là xe của Nhật dựa trên môt vài thông tin riêng. Gối chồng giữa các thông tin về nguồn dữ liệu. Yếu tố này liên quan đến
nội dung của nguồn dữ liệu. Nó được xác định qua việc dữ liệu có thể xác định từ hai nguồn. Ví dụ, khả năng 1 xe trong S1 cũng tồn tại trong S2 là 0.9, tương đương với việc chúng ta nói S1 là tập con của S2.
Trang 51
Các thông tin dựa trên xác xuất rất có ích trong việc xử lý việc đánh giá câu truy vấn. Các nguồn có xác suất chứa kết quả truy vấn cao sẽ được ưu tiên trong quá trình truy xuất.