1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tán

75 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 565,86 KB

Nội dung

Luận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tánLuận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tán

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN TRẦN BẢO LONG TỐI ƯU HOÁ TRUY VẤN TRONG HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 03 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN TRẦN BẢO LONG TỐI ƯU HOÁ TRUY VẤN TRONG HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS NGUYỄN ĐÌNH THN TP HỒ CHÍ MINH, tháng năm 2015 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Nguyễn Trần Bảo Long ii LỜI CÁM ƠN Lời tác giả xin chân thành cảm ơn Ban Giám Hiệu toàn thể cán nhân viên, giảng viên trường Đại Học Công Nghệ TPHCM-HUTECH, Ban lãnh đạo Phòng Quản Lý Khoa Học Đào Tạo Sau Đại Học, khoa Công Nghệ Thông Tin tạo điều kiện thuận lợi cho tác giả học tập nghiên cứu suốt trình học cao học Xin cảm ơn thầy cô trực tiếp giảng dạy, hướng dẫn tác giả suốt trình học tập: PGS.TS Lê Hoài Bắc, PGS.TS Nguyễn Xuân Huy, TS Nguyễn Chánh Thành, TS Nguyễn Thị Thanh Sang, TS Tân Hạnh, TS Nguyễn Đình Thuân, TS Lê Mạnh Hải, TS Nguyễn Tuấn Đăng, TS Lư Nhật Vinh Tác giả đặc biệt biết ơn tri ân sâu sắc thầy TS Nguyễn Đình Thuân - Trưởng khoa Hệ Thống Thông Tin, trường đại học Cơng Nghệ Thơng Tin ĐHQG-TPHCM tận tình nghiêm túc hướng dẫn tác giả suốt trình thực nghiên cứu Cuối tác giả xin chân thành cảm ơn ba mẹ, bạn bè đồng nghiệp quan tâm, động viên tinh thần tiếp sức giúp đỡ tác giả vượt qua khó khăn để hồn thành luận văn cách tốt đẹp Tác giả Nguyễn Trần Bảo Long iii TÓM TẮT Nhu cầu truy xuất liệu hệ thống có khả phân bố liệu nhiều vị trí nhu cầu lớn Hệ thống sở liệu phân tán chứng minh tầm quan trọng áp dụng rộng rãi hệ thống sở liệu Vấn đề tối ưu hóa truy vấn hệ phân tán trở nên nhu cầu cấp thiết Tuy nhiên, vấn đề tối ưu hóa truy vấn khơng phải tốn đơn giản mà xếp vào dạng NP-hard phải đưa định tối ưu Trong q trình tối ưu hóa truy vấn, phần quan trọng xử lý trình tìm kiếm không gian rộng lớn kế hoạch thực thi tương đương, chọn lựa đưa kế hoạch thực thi có chi phí tối ưu Mặc khác, điều không phần quan trọng thời gian tìm kế hoạch thực thi tối ưu phải cân với tổng thời gian hệ thống phản hồi kết cho ứng dụng Luận văn tập trung nghiên cứu mục tiêu sau: - Tìm hiểu q trình tối ưu hóa truy vấn hệ sở liệu phân tán - Vấn đề ước tính chi phí hệ phân tán cho phép đánh giá kế hoạch thực thi, xác định thời gian hồi đáp truy vấn - Trình bày thuật tốn có DP, IDP1, DPccp cho phép lựa chọn kế hoạch truy vấn tối ưu - Kết hợp hai thuật toán IDP1 DPccp để tạo thuật toán IDP1ccp hiệu - Thực nghiệm so sánh kết ba thuật toán IDP1, DPccp IDP1ccp iv ABSTRACT Accessing data on a system which is capable of distributed data in multiple locations is a huge demand The distributed database systems demonstrated the importance of it by widely applied in the current database system Optimizing queries in distributed database system becomes an urgent problem But the query optimization is not a simple problem, it is classified as a NP-hard problem when to make optimal decisions During query optimization, the most important part is handling the search process in the vast space of equivalent execution plans, select and give the plan with the optimal implement costly On the other hand, it is equally important, the time to find the optimal execution plan must be balanced with the amount of the system time can respond to applications Thesis focused on the following objectives: - Understanding the process of query optimization in a distributed database systems - Estimated cost problem in a distributed system enables to evaluate query execution plan, identify the query response times - Presentation of the existing algorithms DP, IDP1, DPccp allows choosing the optimal query plan - Combination two algorithms IDP1 and DPccp to generate more efficient algorithm IDP1ccp - Experiments to compare the results of three algorithms IDP1, DPccp and IDP1ccp v MỤC LỤC MỤC LỤC v DANH MỤC CÁC TỪ VIẾT TẮT/TIẾNG ANH .viii DANH MỤC CÁC HÌNH ix DANH MỤC CÁC BẢNG xi CHƯƠNG 1: MỞ ĐẦU 1.1 Giới thiệu 1.1.1 Lý chọn đề tài 1.1.2 Mục đích, đối tượng phạm vi nghiên cứu 1.2 Ý nghĩa đề tài nghiên cứu 1.3 Tóm tắt bố cục trình bày luận văn CHƯƠNG 2: TỔNG QUAN 2.1 Tổng quan tối ưu hóa truy vấn 2.2 Các nghiên cứu liên quan 2.3 Quá trình xử lý truy vấn hệ phân tán .8 2.3.1 Danh mục hệ thống 2.3.2 Chi phí truyền tải mạng 2.4 Các thách thức hệ phân tán 11 2.4.1 Kích thước khơng gian tìm kiếm 11 2.4.2 Chi phí thiết lập kế hoạch truy vấn 13 2.5 Hướng nghiên cứu đề tài 17 CHƯƠNG 3: CÁC THUẬT TỐN TỐI ƯU HĨA TRUY VẤN 18 3.1 Thuật toán quy hoạch động 18 3.1.1 Mơ tả thuật tốn 18 vi 3.1.2 Mở rộng môi trường phân tán 19 3.1.3 Chương trình thuật toán DP 20 3.2 Thuật toán quy hoạch động lặp 21 3.2.1 Mơ tả thuật tốn 22 3.2.2 Ví dụ thuật toán IDP1 kế hoạch tốt tiêu chuẩn 23 3.2.3 Biến thể IDP cân 24 3.2.4 Ví dụ thuật tốn IDP1 kế hoạch tốt cân 26 3.3 Thuật toán quy hoạch động cặp đồ thị liên thông bù 28 3.3.1 Các định nghĩa liên quan 28 3.3.2 Cơng thức tính #csg and #ccp 29 3.3.3 Mơ tả thuật tốn 30 3.3.4 Thuật toán liệt kê tập liên thông Enumerate-CSG 31 3.3.5 Ví dụ minh họa Enumerate-CSG 33 3.3.6 Thủ tục liệt kê tập bù Enumerate-CMP 35 3.3.7 Ví dụ minh họa Enumerate-CMP 36 3.4 Thuật toán kết hợp IDP1ccp 36 3.4.1 Chương trình thuật tốn IDP1ccp 37 3.4.2 Mô tả thuật toán 38 3.4.3 Ví dụ minh họa IDP1ccp 40 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 43 4.1 Chuẩn bị tập tin liệu đầu vào 43 4.1.1 Cấu trúc tập tin danh mục 43 4.1.2 Phát sinh truy vấn 46 4.1.3 Đồ thị kết hợp 48 vii 4.1.4 Kế hoạch thực thi truy vấn 48 4.2 Các giai đoạn thực nghiệm 49 4.3 Kết thực nghiệm 50 4.4 Nhận xét đánh giá kết 55 CHƯƠNG 5: KẾT LUẬN 56 5.1 Những kết đạt 56 5.2 Các hạn chế hướng nghiên cứu 57 TÀI LIỆU THAM KHẢO 58 PHỤ LỤC 61 viii DANH MỤC CÁC TỪ VIẾT TẮT/TIẾNG ANH DBMS: hệ quản trị sở liệu CSDL: sở liệu CSDLPT: sở liệu phân tán Cost-based optimizer (CBO): tối ưu chi phí Query Execution Plan (QEP): kế hoạch thực thi truy vấn Select (σ): Phép chiếu Project (π): Phép chọn Join (⋈): Phép kết Candinarity: tập ứng viên, lực lượng quan hệ Operation: phép toán, tốn tử Optimizer: tối ưu Schedule: lịch trình Catalog: danh mục hệ thống Join graph: đồ thị kết hợp Chain: Truy vấn dạng chuỗi Cycle: Truy vấn dạng vòng Star: Truy vấn dạng Clique: Truy vấn dạng chùm Bushy plan: kế hoạch với nút tăng trưởng nhanh Iterative Dynamic Programming (IDP): Thuật toán quy hoạch động lặp Dynamic Programming connected subset complement pair (DPccp): Thuật toán quy hoạch động cặp đồ thị liên thông bù 48 4.1.3 Đồ thị kết hợp Sau có tập tin truy vấn, đồ thị kết hợp dựa vào thông tin tập tin truy vấn để xây dựng đồ thị mô tả dạng đồ thị câu truy vấn Đồ thị kết hợp gồm lớp JoinGraph Các khóa String r1 r2 tương ứng với tên quan hệ giá trị JoinInfo bao gồm độ lựa chọn điều kiện kết hợp quan hệ r1 r2 Dựa vào giá trị hai quan hệ, kiểm tra thơng tin kết hợp tồn cạnh đồ thị kết hợp Thông tin JoinInfo lưu trữ hai lần, lần cho cạnh (v1, v2) lần cho cạnh (v2, v1) Tuy nhiên, lưu ý thông tin dùng để thuận tiện cho việc kiểm tra đồ thị hai giá trị tính thơng tin cạnh, khơng phải lưu trữ thông tin cạnh thành hai lần 4.1.4 Kế hoạch thực thi truy vấn Chương trình sử dụng cấu trúc để thể cho kế hoạch Plan Các lớp dùng để thực kế hoạch thực thi truy vấn gồm có hai lớp lớp Plan PlanNode Lớp PlanNode cung cấp hàm chức tính tốn kết kế hoạch số lượng trang liệu kết (getNumberOfOutputPages()), tổng dung lượng kết theo byte (getTotalOutputBytes()) Các nút có mặt kế hoạch thực truy vấn bao gồm JoinNode, RelationNode, SendNode, ReceiveNode DelimiterNode Mục đích DelimiterNode dùng để lập nhiệm vụ có lịch trình kế hoạch Lớp Plan xây dựng kế hoạch từ nút gốc PlanNode cung cấp hàm getCost() để xác định chi phí kế hoạch Khi hàm getCost() gọi đối tượng Plan đối tượng TaskTree tạo Chi phí nhiệm vụ đánh giá lưu trữ trường thời gian duration nhiệm vụ Sau đó, kết TaskTree chuyển sang cho lớp Scheduler, để thực duyệt theo thứ tự duyệt sau tạo lịch trình cuối 49 Trường lớp Scheduler trường schedule có cấu trúc Map Cấu trúc lưu trữ địa điểm Site gắn với danh sách mục lịch trình ScheduleEntry Một mục lịch trình ScheduleEntry bao gồm nhiệm vụ khoảng thời gian biểu thị nhiệm vụ bắt đầu kết thúc 4.2 Các giai đoạn thực nghiệm  Giai đoạn 1: Giai đoạn dùng để thiết lập thông số đầu vào, tạo thư mục chứa tập tin đầu vào kết Thông số đầu vào gồm có thơng tin như: o Số lượng quan hệ: _numberOfRelations o Số lượng địa điểm: _numberOfSites o Kích thước tham số k: _sizeOfK o Số quan hệ địa điểm: _relationsResideAtNumberOfSites o Số lượng truy vấn loại đồ thị truy vấn: _numberOfQueries Trong thư mục tạo chứa tập tin sau o Tập tin danh mục: Catalog.conf o Tập tin địa điểm: SystemSites.conf o Tập tin truy vấn: Query.txt (thay đổi tùy theo loại truy vấn Chain, Clique, Cycle, Star) o Tập tin kết quả: Result.txt ghi nhận thời gian thực truy vấn (thay đổi tùy theo thuật toán áp dụng)  Giai đoạn 2: Phát sinh tập tin danh bạ Sau có tập tin địa điểm Catalog.conf SystemSites.conf, bước thí nghiệm tiến hành phân tích hai tập tin cấu hình, ánh xạ địa điểm thông số hệ thống số lượng liệu, khóa kết nối quan hệ … vào biến dùng để tính tốn chi phí cho kế hoạch như: _relationEntrie, _sitesInSystem, _querySite, _pageSize, _bufferSizeInPages, _networkTimeToSendAByte,_relationKeys 50  Giai đoạn 3: Phát sinh truy vấn Để giả lập loại truy vấn cần tối ưu, giai đoạn thí nghiệm gọi thủ tục QueryGenerator(sizeOfQuery,filename) thực tạo truy vấn theo dạng khác chuỗi, vòng, sao, chùm  Giai đoạn 4: Phát sinh đồ thị truy vấn Mỗi truy vấn mô tả cấu trúc đồ thị truy vấn Giai đoạn ứng với loại tập tin truy vấn tạo giai đoạn 3, thí nghiệm gọi thủ tục JoinGraph(queryFile) để tạo đồ thị truy vấn tương ứng Các đồ thị chủ yếu dùng cho thuật toán DPccp IDP1ccp  Giai đoạn 5: Thực thuật toán tối ưu ghi nhận kết Đến giai đoạn này, thí nghiệm có đầy đủ thơng tin cần thiết địa điểm, số lượng quan hệ, truy vấn, đồ thị truy vấn Thí nghiệm giữ nguyên thông số đầu vào áp dụng thuật toán tối ưu khác Chi tiết bước thực thuật toán tối ưu dựa chương trình thuật tốn trình bày chương Các bước gồm có: o Chạy giai đoạn một: liệt kê kế hoạch 1-quan hệ o Chạy giai đoạn hai: liệt kê kế hoạch 2-quan hệ, … k-quan hệ o Tính tốn chi phí để chọn kế hoạch tốt nhất, cắt bỏ kế hoạch dư thừa cho lần lặp lại o Ghi nhận thời gian thực kế hoạch tối ưu cuối 4.3 Kết thực nghiệm Chương trình thực nghiệm với số lượng quan hệ thay đổi từ 10 quan hệ, số lượng địa điểm cố định địa điểm, kích thước tham số k thay đổi tối đa theo số quan hệ Các dạng truy vấn thử nghiệm dạng chuỗi, dạng vịng, dạng sao, dạng chùm Ở tính khách quan liệu thực nghiệm đảm bảo liệu sử dụng từ danh sách ngẫu nhiên tập ứng viên quan hệ tập tin danh mục Đồng thời số lượng địa điểm quan hệ diện tạo ngẫu nhiên 51 Kết ghi nhận sau: Bảng 4.2 Kết truy vấn dạng chuỗi Số địa Số điểm quan hệ số k Thời gian thực thuật toán (ms) Tham IDP1 DPccp IDP1ccp 2 17 52 18 3 30 56 23 4 70 42 31 5 313 72 64 6 1219 141 119 7 3870 225 160 8 14228 279 273 9 49508 519 465 10 10 176642 758 1022 Truy vấn dạng chuỗi 350 300 Thời gian (ms) 250 200 150 100 50 Số quan hệ IDP1 DPccp IDP1ccp Hình 4.2 Biểu đồ kết truy vấn dạng chuỗi 52 Bảng 4.3 Kết truy vấn dạng vòng Số địa Số điểm quan hệ số k Thời gian thực thuật toán (ms) Tham IDP1 DPccp IDP1ccp 2 26 42 14 3 33 55 22 4 75 42 45 5 343 118 113 6 1323 237 256 7 4527 518 424 8 17019 740 801 9 71742 1579 2003 10 10 259571 3046 2385 Truy vấn dạng vòng 400 350 Thời gian (ms) 300 250 200 150 100 50 Số quan hệ IDP1 DPccp IDP1ccp Hình 4.3 Biểu đồ kết truy vấn dạng vòng 53 Bảng 4.4 Kết truy vấn dạng Số địa Số điểm quan hệ số k Thời gian thực thuật toán (ms) Tham IDP1 DPccp IDP1ccp 2 24 44 26 3 52 36 17 4 78 31 31 5 338 72 85 6 1397 189 200 7 4389 592 470 8 14858 1184 1292 9 65124 3407 3495 10 10 226849 8698 7314 Truy vấn dạng 400 350 Thời gian (ms) 300 250 200 150 100 50 Số quan hệ IDP1 DPccp IDP1ccp Hình 4.4 Biểu đồ kết truy vấn dạng 54 Bảng 4.5 Kết truy vấn dạng chùm Số địa Số điểm quan hệ số k Thời gian thực thuật toán (ms) Tham IDP1 DPccp IDP1ccp 2 26 50 18 3 36 55 20 4 85 63 68 5 348 251 255 6 1819 1347 824 7 4448 3127 3167 8 18150 12976 12076 9 62352 43375 43935 10 10 218641 152554 157066 Truy vấn dạng chùm 400 350 Thời gian (ms) 300 250 200 150 100 50 Số quan hệ IDP1 DPccp IDP1ccp Hình 4.5 Biểu đồ kết truy vấn dạng chùm Thực nghiệm mở rộng để kiểm chứng với giá trị lớn số lượng địa điểm, số quan hệ số liệu quan hệ biến thay đổi giá trị theo yêu cầu khảo sát 55 4.4 Nhận xét đánh giá kết Qua phân tích số liệu sơ đồ minh họa nhận thấy thuật toán IDP1 cho thời gian thực thi xấu hầu hết dạng đồ thị truy vấn khác Trong giai đoạn đầu số lượng quan hệ truy vấn cịn ít, hai thuật tốn DPccp thuật toán IDP1ccp cho thấy kết gần tương tự nhau, kết thuật tốn IDP1ccp có phần nhỉnh chút Càng cuối số lượng quan hệ truy vấn tăng lên thuật tốn cải tiến IDP1ccp chứng tỏ vượt trội so với kết hai thuật toán IDP1 DPccp Trong dạng đồ thị truy vấn đồ thị truy vấn dạng chuỗi dạng vịng có cấu trúc gần giống nên thời gian hồi đáp gần như Trong đồ thị truy vấn dạng dạng chùm có độ phức tạp cao nên thời gian hồi đáp truy vấn dài Do cấu trúc phức tạp nên truy vấn dạng chùm có thời gian xử lý lâu nhất, cấu trúc đơn giản nên truy vấn dạng chuỗi có thời gian xử lý nhanh Như so với thuật toán DP truyền thống, thuật tốn IDP1 có cải tiến việc áp dụng thuật toán đoán tham lam để thu nhỏ khơng gian tìm kiếm kế hoạch thực thi cho kết hồi đáp chưa tốt Thuật toán DPccp với cải tiến dùng kĩ thuật đồ thị để hạn chế lựa chọn tổ hợp cặp quan hệ không liên thông không tuân theo đồ thị truy vấn cho thời gian thực thi tốt Nhưng thuật tốn DPccp cịn điểm yếu phải xem xét nhiều đồ thị không cần thiết Thuật tốn IDP1ccp có kết hợp hai ưu điểm hai thuật toán IDP1 DPccp, kết hợp thuật toán đoán tham lam kĩ thuật đồ thị, từ tối ưu cải thiện được thời gian xử lý Nhưng IDP1ccp bắt nguồn từ thuật toán IDP1 nên thuật toán số hạn chế tương tự IDP1 Thuật toán tốt áp dụng cho truy vấn có số lượng quan hệ nhỏ có thời gian chạy xấu tối ưu hóa truy vấn dạng chùm Tuy nhiên, nhìn tổng thể thuật tốn IDP1ccp có thời gian hoạt động thực tế tốt so với IDP1 DPccp Thuật toán IDP1ccp xem giải pháp tốt việc tối ưu truy vấn hệ tập trung lẫn hệ phân tán 56 CHƯƠNG 5: KẾT LUẬN 5.1 Những kết đạt Sau trình tìm hiểu nghiên cứu, luận văn đạt số điểm sau: - Góp phần tổng hợp lý thuyết phân tích q trình xử lý tối ưu hóa truy vấn hệ tập trung hệ phân tán để đưa tranh tổng quát trình tối ưu hóa truy vấn Trong q trình phân tích, điểm mạnh điểm yếu hệ quản trị sở liệu phân tán trình bày - Mơ tả phương pháp xây dựng mơ hình chi phí đánh giá truy vấn dựa nhiều tác vụ song song hệ phân tán thực lựa chọn kế hoạch tối ưu - Trình bày nội dung ý nghĩa thuật toán tối ưu hóa hệ phân tán cải tiến từ thuật toán Dynamic Programming cổ điển thuật toán IDP1, thuật toán DPccp - Kiểm chứng thuật toán kết hợp IDP1ccp tận dụng điểm mạnh thuật toán IDP1 thuật toán DPccp để mang lại hiệu tối ưu truy vấn tốt hệ phân tán - Thực nghiệm minh họa so sánh thời gian thực thi thuật toán IDP1, DPccp IDP1ccp loại truy vấn khác truy vấn dạng chuỗi, truy vấn dạng sao, truy vấn dạng vòng, truy vấn dạng chùm, điều kiện phân tán nhiều địa điểm khác Các thuật tốn trình bày luận văn có khả xác định kế hoạch thực mang lại chi phí tốt nhất, cân thời gian tìm kiếm kế hoạch thực thi với thời gian tổng thời gian thực thi truy vấn để trả lại kết cho người dùng ứng dụng Đề tài sau nghiên cứu ứng dụng để tối ưu hóa truy vấn, xử lý thứ tự thực quan hệ câu truy vấn, cho tổ chức có sở liệu lớn phân tán nhiều vị trí, tăng khả chia tải khả kết hợp thực thi đồng thời nhiều máy chủ quản lý sở liệu 57 5.2 Các hạn chế hướng nghiên cứu Luận văn xem xét trường hợp quan hệ lưu trữ nhân hồn tồn địa điểm, có nghĩa quan hệ khơng bị phân mảnh Nhưng có nhiều mơ hình sở liệu phân tán thường sử dụng quan hệ phân mảnh Vì vậy, hướng nghiên cứu áp dụng thuật tốn tối ưu trình bày quan hệ phân mảnh Phép kết hợp sử dụng thuật toán giới hạn thực dựa phép kết quan hệ Các phép kết khác áp dụng hệ phân tán nhằm làm giảm chi phí sử dụng mạng Semi joins Bloom joins chưa xem xét Đây hướng nghiên cứu Trong trình xây dựng mơ hình chi phí để giảm bớt phức tạp mơ hình, luận văn giả định địa điểm hệ thống có xử lý thực hoạt động thời điểm Hướng nghiên cứu xây dựng mô hình chi phí phức tạp hệ thống có nhiều xử lý địa điểm có nhiều phép toán xảy đồng thời tốn cần giải mở rộng đề tài Ngồi ra, hướng nghiên cứu đồ thị truy vấn dạng pha trộn, tức đồ thị kết hợp theo cặp theo tất loại đồ thị truy vấn kiểu chuỗi, vòng, sao, chùm để lại cho phần nghiên cứu tương lai 58 TÀI LIỆU THAM KHẢO [1] TS.Nguyễn Đình Thuân (2013), Bài giảng Distributed Database, Chương 4,5,7, Trường Đại học Công nghệ Thông tin ĐHQG-HCM [2] Robert Taylor (2010), Query Optimization for Distributed Database Systems, Master Thesis, University of Oxford [3] G Ramakrishnan (2003), Database Management Systems, Third Edition, McGrawHill [4] D Kossmann (2000), The state of the art in distributed query processing, pages 422–469, ACM Computing Surveys [5] M Steinbrunn, G Moerkotte, and A Kemper (1997) Heuristic and randomized optimization for the join ordering problem, pages 191–208, VLDB Journal [6] Y E Ioannidis (1996), Query optimization, pages 103–114, ACM Computing Surveys [7] L Angrave (2009), Completing Physical Query Plan Finale, from: [8] Graham - Knuth – Patashnik (1990), Concrete Mathematics, Addison Wesley Publishing Company [9] Benjamin Nevarez (2010), Optimizing Join Orders, from: [10] D Kossmann and K Stocker (2000), Iterative dynamic programming: A new class of query optimization algorithms ACM Transactions on Database Systems [11] A Swami (1989), Optimization of large join queries: Combining heuristics andcombinatorial techniques, pages 367–376, ACM SIGMOD Conference on Management of Data, Portland [12] K W R James F Kurose (2009), Computer Networking: A Top-Down Approach Featuring the Internet Addison Wesley 59 [13] C.S.Mullins (2003), Tuning DB2 SQL access paths IBM, from:< http://www.ibm.com/developerworks/data/library/techarticle/0301mullins/03 01mullins.html> [14] K Ono and G M Lohman (1990), Measuring the complexity of join enumeration in query optimization IRM Almaden Research Center [15] B Vance and D Maier (1996), Rapid bushy join-order optimization with cartesian products, pages 35–46, Proc of the ACM SIGMOD Conf on Management of Data [16] S Ganguly, W Hasan, and R Krishnamurthy (1992), Query optimization for parallel execution, pages 9–18, SIGMOD Conference [17] P G Selinger, M M Astrahan, D D Chamberlin, I A Lorie, and T G Price (1979), Access path selection in a relational database management system ACM SIGMOD International Conference on Management of Data [18] G M Thomas Neumann (2006), Analysis of two existing and one new dynamic programming algorithm for the generation of optimal bushy join trees without cross products, pages 930–941, VLDB Endowment [19] Garima Mahajan (July 2012), Query Optimization in DDBS Vol 1, No 1, International Journal of Computer Applications & Information Technology, from:< www.ijcait.com> [20] Ridhi Kapoor, Dr R S.Virk (June-2013), Selectivity & Cost Estimates in Query Optimization, Department of Computer Science & Engineering, Guru Nanak Dev University Amritsar, Punjab, India [21] Farnoush Banaei-Kashani (April 2008), “Distributed Databases”, excerpt from “Principles of Distributed Database Systems” by M Tamer Özsu and Patrick Valduriez [22] Magda Balazinska - CSE 444 (Spring 2013), Lecture 10 Query Optimization (part 1), from:< https://courses.cs.washington.edu/courses/cse444/13sp/> [23] Johann Gamper (2008), Optimization of Distributed Queries, Chapter 7, Faculty of Computer Science, Free University of Bozen – Bolzano 60 [24] E W Yannis E Ioannidis (1987), Query optimization by simulated annealing, pages 9–22, ACM SIGMOD Conf Management of Data, San Francisco, Calif [25] C Z Yingying Tao, Qiang Zhu and W Lau, (2003), Optimizing large star schema queries with snowflakes via heuristic-based query rewriting Proceedings of the 2003 conference of the Centre for Advanced Studies on Collaborative research, pages 279–293, Toronto, Canada IBM Press [26] T Neumann (June 2009), Query simplification: Graceful degradation for join order optimization, pages 403–414, Association for Computing Machinery (ACM) [27] Y C K Yannis E Ioannidis (1990) Randomized algorithms for optimizing large join queries, pages 312–321, ACM SIGMOD Conf Management of Data, Atlantic City, NJ [28] K Bennett, M C Ferris, and Y E Ioannidis (1991) A genetic algorithm for database query optimization, pages 400–407, Morgan Kaufmann Publishers PHỤ LỤC I Tập tin danh mục A1 40353 60 163.1.88.1 163.1.88.2 D _A1.F1 B A1.F2 A A1.F3 C A1.F4 C A1.F5 B A1.F6 B2 32570 83 163.1.88.0 163.1.88.2 D _B2.F1 B B2.F2 B B2.F3 B B2.F4 C B2.F5 B B2.F6 B B2.F7 B B2.F8 C3 58745 65 163.1.88.0 163.1.88.1 163.1.88.2 B _C3.F1 B C3.F2 B C3.F3 D C3.F4 C C3.F5 A C3.F6 B C3.F7 D4 38590 58 163.1.88.0 C _D4.F1 B D4.F2 C D4.F3 B D4.F4 D D4.F5 II Tập tin truy vấn A1 B2 C3 D4 E5 A1 B2 _A1.F1=B2.F6 1.742372E-5 C3 _A1.F1=C3.F3 1.742372E-5 D4 _A1.F1=D4.F5 1.742372E-5 E5 _A1.F1=E5.F2 1.742372E-5 B2 A1 B2.F6=_A1.F1 1.742372E-5 C3 A1 C3.F3=_A1.F1 1.742372E-5 D4 A1 D4.F5=_A1.F1 1.742372E-5 III Thủ tục CSG’, CMP’  Thủ tục ENUMERATE-CSG’ [2] Đầu vào:  Đồ thị kết hợp liên thông G chứa đỉnh V={v ,v ,…,v n } đỉnh E  A đồ thị liên thông G, k số khối tối đa Điều kiện: Các đỉnh G xếp duyệt theo chiều rộng Kết quả: Tập hợp V có đồ thị liên thông G mà |V|≤k Thủ tục: ENUMERATE-CSG’(G,A,k) For i=n downto do{ A=A∪{{v i}} ENUMERATE-CSG-REC’(G, {v i},ℬi,A,k) }  Thủ tục ENUMERATE-CSG-REC’ [2] Đầu vào:  Đồ thị kết hợp liên thông G chứa đỉnh V={v1,v2,…,vn} đỉnh E  S tập hợp đỉnh đồ thị hành  X tập hợp đỉnh cấm S mở rộng, dùng để chống trùng lắp  A đồ thị liên thông G, k số khối tối đa Điều kiện: Các đỉnh G xếp duyệt theo chiều rộng Kết quả: Đệ qui tất tập hợp V tạo nên đồ thị liên thông G mà |V|≤k Thủ tục: ENUMERATE-CSG-REC’(G,S,X,A,k) N = 𝒩 (𝑆) − 𝑋 For all S’⊆ N, S’ ≠ ∅, |S’| ≤ min(k-|S|,|N|) enumerate subsets first { A = A ∪ {S ∪ S’} } For all S’⊆ N, S’ ≠ ∅, |S’| ≤ min(k-|S|,|N|) enumerate subsets first { ENUMERATE-CSG-REC’(G, S ∪ S’, X ∪ N,A,k) }  Thủ tục ENUMERATE-CMP’ [2] Đầu vào:  Đồ thị kết hợp liên thông G chứa đỉnh V={v1,v2,…,vn} đỉnh E  S đồ thị liên thông G  A dùng để lưu kết quả, k số khối tối đa Điều kiện: Các đỉnh G xếp duyệt theo chiều rộng Kết quả: Tất đồ thị liên thông H mà (S,H) cặp-CSG-cmp |S| + |H| = k Thủ tục: ENUMERATE-CMP’(G,S,A,k) X = ℬ𝑚𝑖𝑛(𝑆) ∪ S N = 𝒩(𝑆) - X For all v i ∈ N by descending i { A=A∪{{v i}} ENUMERATE-CSG-REC’(G, {v i}, X ∪ ( ℬ𝑖 ∩ N), A, k - |S|) } ... việc tối ưu hóa truy vấn hệ phân tán thông qua việc nghiên cứu, mở rộng thuật tốn tối ưu hóa truy vấn hệ tập trung thành thuật tốn tối ưu hóa truy vấn sử dụng hệ phân tán Các thuật tốn tối ưu hóa. .. Tổng quan tối ưu hóa truy vấn Tối ưu hóa truy vấn coi thành phần quan trọng hệ thống quản lý sở liệu Sau hệ thống tiếp nhận truy vấn, tối ưu truy vấn hệ thống có trách nhiệm phân tích truy vấn người... ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN TRẦN BẢO LONG TỐI ƯU HOÁ TRUY VẤN TRONG HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành:

Ngày đăng: 02/01/2023, 06:00

w