2.4 Truy vấn trong tích hợp dữ liệu
2.4.1 Mô hình và ánh xạ dữ liệu
Thông thường, khi xây dựng một hệ thống việc đầu tiên là đặc tả các yêu cầu của hệ thống và thiết kế lược đồ hệ thống. Trong hệ thống tích hợp dữ liệu, chúng ta đã có sẵn các nguồn dữ liệu trước khi thiết kế nó. Các nguồn dữ liệu đó có thể khác nhau về lược đồ lẫn mô hình. Mặt khác mỗi một nguồn dữ liệu là một phần khung nhìn của toàn bộ hệ thống chúng ta thiết kế.
Để giải quyết sự không đồng nhất này chúng ta sẽ xây dựng các lược đồ hợp nhất tại các nguồn dữ liệu trước khi bắt tay vào việc tích hợp. Tiếp theo, mỗi nguồn dữ liệu cần được ánh xạ vào như một phần của lược đồ chung. Lược đồ chung của hệ tích hợp dữ liệu được gọi là lược đồ trung gian (mediated schema). Lược đồ trung gian làm thuận tiện cho việc tính toán câu truy vấn. Người dùng đơn giản chỉ việc đưa câu truy vấn vào lược đồ trung gian, họ không phải đưa câu truy vấn của mình vào lược đồ trên các nguồn dữ liệu.
Trang 44
Trình bao bọc
Bộ thực thi câu truy vấn Đánh giá câu truy vấn
Viết lại câu truy vấn
Nguồn dữ liệu
Trình bao bọc
Nguồn dữ liệu
Trình bao bọc
Nguồn dữ liệu
Lược đồ trung gian
Mô tả nguồn dữ liệu
Thống kê nguồn dữ liệu
Câu truy vấn (trong lược đồ trung gian)
Truy vấn tại lược đồ nguồn dữ liệu Mô hình dữ liệu toàn cục Mô hình dữ liệu cục bộ Truy vấn nguồn dữ liệui trong lược đồ nguồn dữ liệu Bản đồ logic
(truy vấn nguồn dữ liệu tại các lược đồ nguồn dữ liệu)
Bản đồ vật lý
(bản đồ thực thi truy vấn phân tán)
Trang 45
Hình trên chỉ ra các bước chính trong quá trình xử lý truy vấn trong hệ tích hợp dữ liệu. Một mô hình dữ liệu chung đại diện cho hệ tích hợp dữ liệu và mỗi một nguồn dữ liệu có một mô hình dữ liệu riêng. Có hai cách để tạo ra bản đồ truy vấn: (1) dựa trên lược đồ trung gian để xác định các lược đồ nguồn dữ liệu và (2) dựa vào lược đồ các nguồn dữ liệu tới lược đồ toàn cục. Sự khác nhau ở đây đến từ cách sử dụng mô hình dữ liệu. Ở tình huống thứ nhất, câu truy vấn được tính toán lại thành các câu truy vấn trên các nguồn độc lập song tất cả chúng vẫn nằm trên mô hình dữ liệu toàn cục. Ở tình huống thứ hai, câu truy vấn được dịch thành các câu truy vấn có thể hiểu và thực thi được ngay trên các nguồn dữ liệu. Việc biến đổi mô hình dữ liệu được thể hiện ở bước tiếp theo. Cả hai bước này đều được thực hiện bởi các thành phần trình bao bọc và bộ trung gian trong hệ thống. Việc xác định các liên hệ giữa lược đồ trung gian và lược nguồn dữ liệu thông qua các mô tả nguồn dữ liệu. Các mô tả nguồn dữ liệu cần xác định nội dung và các ràng buộc trên nội dung đó. Hơn nữa qua các mô tả đó, chúng ta cần biết khả năng xử lý truy vấn trên các nguồn dữ liệu. Bởi vì trong thực tế, thông tin các nguồn dữ liệu chỉ ra chúng ta có thể chỉ được phép truy xuất một phần nào đó dữ liệu trong nguồn dữ liệu. Việc mô tả khả năng nguồn dữ liệu bao gồm số lượng tối thiểu, tối đa truy xuất, các phần dữ liệu cho phép truy xuất …
Việc sử dụng lượng đồ trung gian và mô tả các nguồn dữ liệu chúng ta có thể tính toán lại câu truy vấn ban đầu thành các câu truy vấn tại các nguồn dữ liệu. Các câu truy vấn con tạo thành một bản đồ truy vấn tới phần đánh giá truy vấn. Sau đó các truy vấn con được thi bởi bộ phận thực thi truy vấn thông qua việc truyền thông với các trình bao bọc.
Để có thể trình bày phương pháp truy vấn trong hê tích hợp dữ liệu một cách dễ dàng, chúng ta cần phải chọn mô hình và ngôn ngữ để thể hiện lược đồ trung gian, các mô tả nguồn dữ liệu và câu truy vấn. Chúng ta sẽ sử dụng mô hình quan hệ để thể hiện mô hình dữ liệu toàn cục và Datalog như ngôn ngữ thể hiện.
Trang 46