Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http //www lrc tnu edu vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ LOAN TỐI ƯU HOÁ TRUY VẤN TRONG CƠ SỞ DỮ[.]
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG NGUYỄN THỊ LOAN TỐI ƯU HỐ TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN LUẬN VĂN THẠC SĨ KHOA H ỌC M ÁY T ÍNH Thái nguyên, 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Tai ngay!!! Ban co the xoa dong chu nay!!! http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ LOAN TỐI ƯU HOÁ TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC M ÁY T ÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS ĐỒN VĂN BAN Thái ngun, 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Thái nguyên, 2011 http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan, kết luận văn hoàn toàn kết tự thân tơi tìm hiểu, nghiên cứu Các tài liệu tham khảo đƣợc trích dẫn thích đầy đủ Tác giả NGUYỄN THỊ LOAN Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành đến thầy PGS.TS Đoàn Văn Ban định hƣớng nhiệt tình hƣớng dẫn, giúp đỡ nhiều mặt chuyên môn trình làm luận văn Tơi xin gửi lời biết ơn sâu sắc đến thầy, cô dạy dỗ truyền đạt kinh nghiệm quý báu cho suốt hai năm cao học trƣờng Đại học Công nghệ thông tin truyền thông Cuối tơi xin dành tình cảm thân thiết cho bạn bè, đồng nghiệp, cha mẹ gia đình, ngƣời gần gũi để động viên, chia sẻ suốt thời gian qua Thái Nguyên, tháng năm 2011 Nguyễn Thị Loan Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Trang phụ bìa Trang Lời cam đoan i Lời cảm ơn ii Mục lục iii Danh mục hình vẽ, đồ thị vi PHẦN MỞ ĐẦU ………………………………………………………………1 Đặt vấn đề…………………………………………………………….1 Đối tƣợng phạm vi nghiên cứu…………………………………… Hƣớng nghiên cứu đề tài………………………………………… Phƣơng pháp nghiên cứu………………………………………………2 Ý nghĩa khoa học đề tài……………………………………………2 Các kết dự kiến…………………………………………………….2 Chƣơng CƠ SỞ DỮ LIỆU PHÂN TÁN…………………………………… 1.1 Khái niệm hệ sở liệu phân tán…………………………… 1.1.1 Khái niệm……………………………………………………… 1.1.2 Các đặc điểm sở liệu phân tán…………………4 1.1.3 Mục đích việc sử dụng sở liệu phân tán…………… 1.2 Các đặc trƣng suốt sở liệu phân tán……………… 1.2.1.Trong suốt phân tán………………………………………………9 1.2.2 Trong suốt giao dịch…………………………………………….10 1.2.3.Trong suốt cố…………………………………………… 10 1.2.4 Trong suốt thao tác…………………………………………… 10 1.2.5.Trong suốt tính khơng nhất…………………………… 10 1.3.Kiến trúc sở liệu phân tán…………………………10 1.3.1.Sơ đồ tổng thể……………………………………………………11 1.3.2 Sơ đồ phân đoạn……………………………………………… 11 1.3.3 Sơ đồ định vị…………………………………………………….12 1.3.4 Sơ đồ ánh xạ địa phương……………………………………….12 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1.3.5 Chia sẻ tài nguyên……………………………………………… 14 1.4 Các kỹ thuật xây dựng sở liệu phân tán…………………… 14 1.4.1.Phân tán……………………………………………………………14 1.4.1.1 Phân đoạn ngang………………………………………… …14 1.4.1.2 Phân đoạn ngang dẫn tiếp……………………………… .15 1.4.1.3 Phân đoạn dọc……………………………………………….16 1.4.1.4 Phân đoạn hỗn hợp………………………………………… 17 1.4.2.Nhân liệu……………………………………………… 18 1.4.3 Định vị liệu………………………………………………….19 1.4.4 Hệ quản trị CSDL phân tán…………………………………….19 1.5 Kết luận……………………………………………………………….20 Chƣơng TỐI ƢU HÓA TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN 2.1 Các chiến lƣợc tối ƣu hóa bản…………………………………… 21 2.2 Các phép biến đổi đại số………………………………………………22 2.2.1 Các yêu cầu phép biến đổi tối ưu hóa câu truy vấn………….22 2.2.2 Biểu thức tương đương……………………………………………23 2.2.3 Các qui tắc liên quan đến phép kết nối tích Decartes……… 23 2.2.4 Các qui tắc liên quan đến phép chọn phép chiếu…………… 24 2.2.5 Thuật toán cải tiến biểu diễn biểu thức quan hệ………… 25 2.3 Phân rã câu truy vấn thành câu truy vấn con………………….30 2.3.1 Đồ thị nối quan hệ……………………………………………30 2.3.2 Tách câu truy vấn thành câu truy vấn con………………… 31 2.3.3 Dùng phép nửa kết nối để giảm kích thước quan hệ…………….32 2.3.4 Phương pháp thay n –bộ………………………………… 32 2.4 Các kỹ thuật tối ƣu hóa tập trung…………………………………….33 2.4.1 Thuật toán INGRES………………………………………… …33 2.4.2 Thuật toán System R…………………………………………… 37 2.5 Phân rã truy vấn……………………………………………… 40 2.5.1 Chuẩn hóa……………………………………………………….40 2.5.2.Phân tích……………………………………………………… 42 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.5.3 Loại bỏ dư thừa…………………………………………………44 2.5.4 Viết lại………………………………………………………… 45 2.6 Định vị liệu phân tán………………………………………… 48 2.6.1 Rút gọn phân đoạn ngnang nguyên thủy………………………48 2.6.2 Rút gọn phân đoạn dọc……………………………………… 51 2.6.3 Rút gọn phân đoạn gián tiếp………………………………… 52 2.6.4 Rút gọn phân đoạn hỗn hợp………………………………… 54 2.7 Khái quát xử lý câu truy vấn………………………………… 55 2.7.1 Vấn đề xử lý truy vấn………………………………………….56 2.7.2 Các mục tiêu xử lý câu truy vấn………………………… 56 2.7.3 Các giai đoạn xử lý câu truy vấn………………………………57 2.7.4 Tối ưu hóa truy vấn phân tán…………………………… 57 2.7.4.1 Đầu vào tối ưu hóa câu truy vấn………………………58 2.7.4.2 Thứ tự kết nối câu truy vấn đoạn……………… 63 2.7.4.3.Thứ tự kết nối…………………………………………… 63 2.7.4.4 Các thuật toán dựa phép nửa kết nối……………… 65 2.8 Các thuật tốn tối ƣu hóa truy vấn phân tán……………………….69 2.8.1 Thuật toán INGRES phân tán…………………………………70 2.8.2 Thuật toán R*………………………………………………….72 2.8.3 Thuật toán SDD -1…………………………………………….76 2.8.4 Các thuật toán AHY ( Apers – Hevner – Yao)…………………80 2.9 Kết luận…………………………………………………………….86 Chƣơng CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN…………………89 3.1 Xác định thuật toán……………………………………………… 89 3.2 Cài đặt thử nghiệm thuật toán…………………………………… 89 3.2.1 Cấu trúc sở liệu………………………………………….89 3.2.2 Xây dựng ứng dụng……………………………………………90 3.2.3 Thử nghiệm 1………………………………………………….92 3.2.4 Thử nghiệm 2………………………………………………….94 3.3 Kết luận ………………………………………………………… 95 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI……………………96 TÀI LIỆU THAM KHẢO……………………………………………………97 CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Trong suốt phân đoạn……………………………………………6 Hình 1.2 Sự suốt vị trí……………………………………………7 Hình 1.3 Sự suốt ánh xạ cục bộ…………………………………… Hình 1.4 Kiến trúc sở liệu phân tán…………………………………11 Hình 1.5 Các đoạn hình ảnh vật lý quan hệ tổng thể…………12 Hình 1.6 Cây phân tán quan hệ……………………………………….18 Hình 2.1 Cây biểu diễn biểu thức hỏi…………………………………… 27 Hình 2.2 Cây với tổ hợp phép chọn………………………………………29 Hình 2.3 Cây kết với phân nhóm phép tốn………………… 30 Hình 2.4 Đồ thị nối quan hệ………………………………………………31 Hình 2.5 Đồ thị nối quan hệ………………………………………… 32 Hình 2.6 Đồ thị quan hệ có chu trình…………………………………33 Hình 2.7 Gỡ bỏ chu trình cách thay n- bộ………………………33 Hình 2.8 Đồ thị kết nối truy vấn…………………………………39 Hình 2.9 Các đồ thị quan hệ…………………………………………… 43 Hình 2.10 Đồ thị truy vấn khơng liên thơng………………………….44 Hình 2.11 Cây đại số quan hệ…………………………………………….46 Hình 2.12 Cây đại số quan hệ tƣơng đƣơng…………………………… 47 Hình 2.13 Cây đại số quan hệ viết lại…………………………………… 48 Hình 2.14 Rút gọn cho phân đoạn ngnang với phép chọn……………… 49 Hình 2.15 Rút gọn phân đoạn ngang cho phép kết nối……………………50 Hình 2.16 Rút gọn việc phân đoạn dọc………………………… 52 Hình 2.17 Rút gọn phân đoạn gián tiếp.………………………………… 54 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 2.18 Rút gọn phân đoạn hỗn hợp………………………………… 55 Hình 2.19 Sơ đồ phân lớp cho việc xử lý truy vấn phân tán…………… 57 Hình 2.20 Truyền tốn hạng phép tốn hai ngơi……………….64 Hình 2.21 Đồ thị kết nối câu truy vấn phân tán…………………… 64 Hình 2.22 Biến đổi câu truy vấn chu trình………………………… 68 Hình 2.23 Câu truy vấn ví dụ thống kê………………………… 79 Hình 2.24 Ví dụ câu truy vấn đơn thống kê………………….82 Hình 2.25 Schedule tối ƣu……………………………………………… 83 Hình 2.26 Các giai đoạn việc đánh giá câu truy vấn phân tán….87 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -1- PHẦN MỞ ĐẦU Đặt vấn đề Ngày lĩnh vực thương mại ngày mở rộng phát triển Để kinh doanh thuận lợi có hiệu cần phải nắm bắt thơng tin nhanh địa điểm kinh doanh xa Do xây dựng hệ thống làm việc dựa sở liệu phân tán phù hợp với xu hướng Cơ sở liệu phân tán đã, nghiên cứu ứng dụng vào thực tế Việc cần làm nghiên cứu làm sáng tỏ thêm khả ứng dụng thực tiễn sở liệu phân tán Lợi ích sở liệu phân tán liệu sở liệu vật lý riêng biệt tích hợp logic với làm cho nhiều người sử dụng mạng truy nhập Cơ sở liệu phân tán với cấp độ tự trị cao điểm Trong hệ phân tán câu truy vấn sử dụng kỹ thuật tối ưu hố làm giảm thời gian tính tốn, khối lượng truyền thông tin trạm giảm không gian nhớ, tránh công việc dư thừa, loại bỏ phần vơ ích Khi khối lượng thơng tin phải xử lý ngày lớn, phong phú đa dạng vấn đề đặt xử lý thơng tin để giảm chi phí đến mức tối thiểu Một giải pháp có tính khả thi phải tối ưu hoá câu lệnh truy vấn liệu nên chọn nghiên cứu “Tối ưu hoá truy vấn sở liệu phân tán” làm đề tài luận văn tốt nghiệp Đối tƣợng phạm vi nghiên cứu - Đối tượng nghiên cứu sở liệu phân tán - Phạm vi nghiên cứu số kỹ thuật tối ưu hoá truy vấn sở liệu Hƣớng nghiên cứu đề tài - Nghiên cứu tối ưu hoá truy vấn sở liệu phân tán, nguyên lý chung, kỹ thuật, thuật toán liên quan đến vấn đề tối ưu hoá truy vấn nghiên cứu cải tiến tối ưu hoá truy vấn lồng sở liệu phân tán Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -83- thước R2 ⋉ R1 400*0.3 = 120; kích thước R ⋉ R1 200*0.3 = 60 Vì R3 chọn Schedule, R chuyển đến trạm R3 Kết R ⋉ R truyền tới trạm R2; kích thước R2 ⋉ R3 ⋉ R1 400*0.7*0.3 = 84 Lịch trình tối ưu hình 2.25 Hình 2.25: Schedule tối ưu Tối thiểu thời gian trả lời câu truy vấn đơn giản: Tối ưu hoá bao gồm việc cực tiểu hoá số lượng liệu truyền tuần tự, cách truyền song song Giả sử tốn hạng quan hệ thứ tự theo kích thước tăng Một giải pháp mềm dẻo ban đầu chọn, tất quan hệ truyền song song đến trạm kết Sau tối ưu cố gắng cải tiến giải pháp cách xét lịch trình khác số quan hệ gửi tới trạm trung gian Bộ tối ưu không cần xét tất lịch trình sinh quan hệ R i cho đây, quan hệ lớn R khơng thể cải tiến lịch trình ban đầu R i loại bỏ sau quan hệ theo thứ tự tăng sau chiếu thuộc tính kết nối Thuật tốn PARALLEL trình bày sau: Thuật toán: PARALLEL Input: SQG: đồ thị câu truy vấn đơn với n quan hệ Output: Lịch trình thực Begin Thứ tự ph p toán Size(R1) < Size(R2) < … < Size(Rn); ESi (Ri trạm kết quả,Ri ) {giải pháp ban đầu cho quan hệ} ES0 ES1 ES2 …ESn ; {giải pháp mềm dẻo ban đầu} For quan hệ Ri bắt đầu với i=1 Begin {Tìm chiến lược thay đổi cho quan hệ} For Rj (j