2.4 Truy vấn trong tích hợp dữ liệu
2.4.4 Trình bao bọc
Quá trình tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, chúng ta phải dịch câu truy vấn và dữ liệu từ mô hình dữ liệu này sang mô hình dữ liệu khác và từ lược đồ dữ liệu này sang lược đồ dữ liệu khác. Quá trình này thực hiện được bằng cách sử dụng trình bao bọc. Trình bao bọc được viết cho từng nguồn dữ liệu. Mỗi trình bao bọc biến đổi câu dữ liệu trong lược đồ thống nhất thành các câu truy vấn trong định dạng của các nguồn dữ liệu và dịch kết quả trả ngược về lược đồ thống nhất.
Có ba cách thức để tạo ra một trình bao bọc:
(1) Tự làm hoàn toàn, việc này là rất khó khăn. Ví dụ, trong trường hợp các nguồn dữ liệu là dữ liệu Web: số lượng chúng có thể rất lớn, các nguồn dữ liệu mới được thêm vào thường xuyên, và cả cấu trúc lẫn nội dung của bất kỳ nguồn dữ liệu nào cũng có thể thay đổi. Các nhân tố này làm việc bảo trì các trình bao bọc là rất khó khăn.
(2) Phương pháp bán tự động, một phần của mã trình bao bọc chúng ta sử dụng với các thông tin xác định về nguồn dữ liệu riêng biệt. Một phần khác có thể là giống trình bao bọc chung hoặc được tạo ra bán tự động dựa trên các mô tả đưa ra bởi người dùng. Kỹ thuật này như việc lập trình bằng ví dụ.
(3) Phương pháp tự động. Việc sinh tự động có nghĩa không có tác động của con người vào. Các công cụ cho việc sinh trình bao bọc tự động có thể được đặc tả hoặc sinh ra. Chúng thuờng xuyên cần đào tạo từ trạng thái khởi tạo và dựa trên thuật toán học có hướng dẫn..
Kết hợp tất cả các thành phần trên lại, câu trả lời cho truy vấn được đưa ra. Như vậy, quá trình trả lời cho câu truy vấn bao gồm các phần sau: đưa câu truy vấn vào hệ thống; viết lại câu truy vấn; đánh giá câu truy vấn và đưa câu truy vấn vào phần thực thi; câu truy vấn được đưa đến các trình bao bọc và thực thi tại các nguồn
Trang 62
dữ liệu thực; kết quả tại các nguồn dữ liệu thực được trả về trình bao bọc; hệ thống sẽ kết nối các kết quả trả về để tạo thành câu trả lời cho truy vấn ban đầu.
Trong quá trình kết nối phần trả lời của các câu truy vấn con chúng ta phải quan tâm đến tính chính xác và ngữ nghĩa của câu trả lời. Đó cũng là một nội dung nghiên cứu rộng rãi hiện nay trong tích hợp dữ liệu.
Trang 63
CHƢƠNG 3 - KHẢO SÁT MỘT SỐ HỆ THỐNG TÍCH HỢP DỮ LIỆU
Sau đây chúng ta sẽ khảo sát các hệ thống tích hợp dữ liệu được đánh giá cao hiện nay.