Tối ưu hoá vấn tin phân tán

Một phần của tài liệu Giáo trình Cơ sở dữ liệu 2 Phần 1 - ĐH Thái Nguyên (Trang 58)

5. Giao hoán phép chọn với phép toán hai ngô

1.4.4-Tối ưu hoá vấn tin phân tán

- Việc tìm ra được một cách sắp xếp tối ưu các phép toán cho một câu vấn tin chính là nhiệm vụ chủ yếu của tầng tối ưu hóa vấn tin, hoặc nói ngắn gọn là thể tối ưu hóa (optimizer). Với các vấn tin phức tạp có chứa nhiều quan hệ, bài toán có thể phải mất một chi phí quá lớn để thực hiện tối ưu hóa. Vì thế mục tiêu thực sự của thể tối ưu hóa là tìm ra một chiến lược gần tối ưu hóa và quan trọng hơn là tránh được các chiến lược "tồi". Một chiến lược thực thi cho câu vấn tin phân tán có thể được mô tả bằng các phép toán đại số quan hệ và các nguyên thủy truyền tin (các thao tác gửi và nhận) để truyền dữ liệu giữa các vị trí. Bằng cách hoán vị thứ tự các phép toán trong một câu vân tin theo mảnh chúng ta có thể thu được nhiều câu vấn tin tương đương.

- Tối ưu hóa vấn tin bao gồm việc tìm một thứ tự "tốt nhất" cho các phép toán trong câu vấn tin theo mảnh, kể cả các phép toán truyền thông nhằm hạ thấp tối đa hàm chi phí. Hàm chi phí thường được định nghĩa theo đơn vị thời gian: chi phí xuất nhập, chi phí CPU và chi phí truyền. Dù vậy trong môi trường

phân tán, chúng ta thường đơn giản hóa nó bằng cách chỉ xét đến chi phí truyền, xem nó là yếu tố ưu thế. Để có thể chọn lựa được một cách sắp thứ tự cho các thao tác, điều cần thiết là phải dự đoán được các chi phí thực thi của các sắp xếp khác nhau. Xác định chi phí thực thi trước khi thực hiện vấn tin dựa vào các số liệu thống kê của các mảnh và các công thức tính lực lượng cho các quan hệ kết quả và các phép toán. Các quyết định tối ưu hóa phụ thuộc vào những thông tin thống kê có sẵn về các mảnh.

Một điểm quan trọng trong quá trình tối ưu hóa là xếp thứ tự nối, bởi vì hoán vị của các nối trong câu vấn tin có thể dẫn đến nhiều cải thiện có ý nghĩa. Một kỹ thuật cơ bản để tối ưu hoá dãy phép nối phân tán là thực hiện các phép nối nửa. Giá trị chính của nối nửa trong môi trường phân tán là làm giảm kích thước của các toán hạng nối, như thế làm giảm đi chi phí truyền. Tuy nhiên các kỹ thuật gần đây trong đó có xét cả chi phí tính toán cục bộ lẫn chi phí truyền đã không sử dụng nối nửa bởi vì chúng làm tăng chi phí xử lý cục bộ. thành phẩm của tầng tối ưu hóa vấn tin là câu vấn tin đại số đã tối ưu hoá trên các mảnh cùng với các thao tác truyền đi kèm.

Một phần của tài liệu Giáo trình Cơ sở dữ liệu 2 Phần 1 - ĐH Thái Nguyên (Trang 58)