Ứng dụng lý thuyết đồ thị trong tối ưu hóa truy xuất CSDL để thực hiện phép

Một phần của tài liệu Cơ sở dữ liệu phân tán và tối ưu hoá vấn tin (Trang 87)

phép ni [9].

Như chúng ta đã biết trong quá trình thực hiện nối chúng ta nhận thấy rằng các trang dữ liệu được được nạp vào bộ nhớ đệm cũng như phải truy xuất nhiếu lần. Vấn đề được đặt ra là chúng ta cần phải có được một chiến lược thực hiện phép nối như thế nào để có sử dụng tài nguyên hệ thống một cách có hiệu quả. Và để có thể đánh giá, phân tích hiệu suất của các nối ở đây chúng ta giới thiệu mô hình đồ thị, trong đó các tham số của đồ thị (graph parameter) là số lần truy xuất lại vào một trang (amount of page reaccesses), dãy truy xuất trang (the page access sequence) và lượng bộ nhớ đệm cần thiết cho việc truy xuất trang. Bằng việc xây dựng và sử dụng mô hình đồ thị dựa trên cơ sở chỉ mục của thuộc tính nối, chúng ta có thể xác định được quan hệ giữa các tham số trên. Hai chiến lược cấp phát vùng nhớ đệm cũng được đưa ra để xem xét và giá trị cận trên (upper bound) của kích thước bộ nhớ đệm sao cho tránh được việc truy xuất lại trang được xem xét, giá trị cận trên của kích thước bộ nhớ đệm chính là khái niệm giá trị lớn nhất của lát cắt đồ thị. Bài toán tính cận trên này thuộc lớp NP-hard. Chiến lược thứ nhất tập trung vào việc lưu trữ chỉ những bộ tham gia vào nối. Ở chiến lược thứ hai một giải thuật xác định

dãy truy xuất trang với kích thước bộ nhớđệm gần tối ưu nhằm ngăn ngừa việc truy cập lại trang được trình bày.

Hiện tại có nhiều hướng tiếp cận phần cứng cũng như phần mềm để thực hiện các nối quan hệ. Với các quan hệ có kích thước lớn thì ta nhận thấy rằng các chi phí cho xử lý cục bộ (truy xuất vào ra I/O) là cao. Chúng ta cần phải quan tâm đến các chiến lược nhằm làm giảm các chi phí truy xuất cục bộ này, một trong những phương án được đề xuất là sử dụng bộ nhớ đệm chính (main memory buffer) có kích thước lớn hơn. Ở phần này chúng ta sẽ nghiên cứu phương án tìm cách dung hòa giữa số lần truy xuất lại trang và lượng bộ nhớ đệm cần thiết để thực hiện nối. Chúng ta cũng xác định dãy truy xuất trang dữ liệu sao cho có thể làm giảm thiểu việc truy xuất lại trang này, với giả thiết rằng có tồn tại các chỉ mục trên vùng nối (joining domain). Chúng ta sẽ sử dụng mô hình đồ thị để biểu diễn kết nối nối giữa các trang. Việc thăm các nút của đồ thị tương đương với việc truy xuất trang dữ liệu. Bằng việc tìm ra được một phương án duyệt đồ thị phù hợp ta có thể làm giảm đi số lần truy xuất lại trang.

Một phần của tài liệu Cơ sở dữ liệu phân tán và tối ưu hoá vấn tin (Trang 87)

Tải bản đầy đủ (PDF)

(127 trang)