Nghiên cứu một số vấn đề về truy vấn và tối ưu hóa truy vấn cơ sở dữ liệu phân tán trong hệ thống thông tin

57 14 0
Nghiên cứu một số vấn đề về truy vấn và tối ưu hóa truy vấn cơ sở dữ liệu phân tán trong hệ thống thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ TRUY VẤN VÀ TỐI ƯU HÓA TRUY VẤN CƠ SỞ DỮ LIỆU PHÂN TÁN TRONG HỆ THỐNG THÔNG TIN MÃ SỐ: CS-16-05 Chủ nhiệm đề tài: ThS Cù Nguyên Giáp Bộ môn: Tin Học Hà Nội, năm 2017 MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC TỪ VIẾT TẮT CHƯƠNG TỔNG QUAN NGHIÊN CỨU ĐỀ TÀI 6 Tính cấp thiết nghiên cứu đề tài Tổng quan đề tài nghiên cứu Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết cấu báo cáo nghiên cứu CHƯƠNG 2: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 11 Khái niệm hệ sở liệu phân tán 11 1.1 Cơ sở liệu phân tán 11 1.2 Hệ quản trị sở liệu phân tán 12 Các đặc trưng sở liệu phân tán 13 2.1 Điều khiển tập trung 13 2.2 Độc lập liệu 14 2.3 Giảm dư thừa liệu 14 2.4 Độ tin cậy qua giao dịch phân tán 14 2.5 Cải tiến hiệu 14 2.6 Dễ dàng mở rộng hệ thống 15 Kiến trúc sở liệu phân tán 15 3.1 Sơ đồ tổng thể 15 3.2 Sơ đồ phân đoạn 16 3.3 Sơ đồ định vị 16 3.4 Sơ đồ ánh xạ địa phương 18 Các mơ hình xử lý phân tán 18 4.1 Mơ hình xử lý Master - Slave 18 4.2 Các hệ phân tán ngang hàng 19 4.3 Môi trường đa tầng 20 CHƯƠNG 3: CÁC NGUYÊN LÝ CHUNG CỦA TỐI ƯU HÓA TRUY VẤN CƠ SỞ DỮ LIỆU PHÂN TÁN 22 Mục tiêu chung toán toán truy vấn CSDLPT 22 Giới thiệu xử lý truy vấn 22 Các giai đoạn xử lý truy vấn CSDLPT 24 Các đặc trưng xử lý truy vấn CSDLPT: 27 4.1 Ngôn ngữ (language) 27 4.2 Các dạng tối ưu hóa (types of optimization) 27 4.3 Thời gian tối ưu hóa (optimization timing) 27 4.4 Thống kê (statistics) 28 4.5 Tối ưu hóa tập trung & tối ưu hóa phân tán (Decision sites) 28 4.6 Sử dụng kiến trúc mạng (Exploitation of the network topology) 28 4.7 Sử dụng phân đoạn (Exploitation of Replicated Fragments) 29 4.8 Sử dụng toán tử bán kết nối (Use of Semijoins) 29 Các kỹ thuật tối ưu hóa tập trung 30 5.1 Thuật toán INGRES 30 5.2 Thuật toán SYSTEM R 30 CHƯƠNG 4: TỐI ƯU HÓA TRUY VẤN PHÂN TÁN 22 Phân rã câu truy vấn 32 1.1 Chuẩn hóa 32 1.2 Phân tích 33 1.3 Loại bỏ dư thừa 35 1.4 Viết lại 36 Định vị liệu phân tán 37 2.1 Rút gọn phân mảnh ngang nguyên thủy 38 2.2 Rút gọn phân mảnh dọc 40 2.3 Rút gọn phân mảnh dẫn xuất 42 2.4 Rút gọn phân mảnh hỗn hợp 43 Tối ưu hóa truy vấn phân tán 44 3.1 Đầu vào tối ưu hóa câu truy vấn 45 3.2 Thứ tự kết nối truy vấn đoạn 47 Tối ưu hóa truy vấn phân tán 48 4.1 Thuật toán tối ưu hóa truy vấn phân tán SDD-1 48 4.2 Thuật toán System R* 50 4.3 Thuật toán INGRES phân tán 52 Kết luận hướng phát triển đề tài 54 5.1 Kết luận 54 5.2 Hướng phát triển đề tài 54 TÀI LIỆU THAM KHẢO 56 DANH MỤC HÌNH VẼ Hình 1: Sơ đồ tổng thể 16 Hình 2: Sơ đồ định vị 18 Hình 3: Kiến trúc khách/chủ 19 Hình 4: Các hệ phân tán ngang hàng 20 Hình 5: Mơi trường đa tầng 20 Hình 6: Mô tả xử lý truy vấn 23 Hình 7: Mô tả giai đoạn xử lý truy vấn 24 Hình 8: Mơ hình tối ưu hóa truy vấn 25 Hình 9: Đồ thị kết nối tương ứng 34 Hình 10: Đồ thị truy vấn không liên thông 35 Hình 11: Ví dụ đại số quan hệ 37 Hình 12: Rút gọn phân mảnh ngang với phép chọn 39 Hình 13: Cây đại số quan hệ truy vấn gốc 40 Hình 14: Rút gọn phân mảnh ngang với phép kết nối 40 Hình 15: Rút gọn phân mảnh dọc 41 Hình 16: Rút gọn phân mảnh dẫn xuất 43 Hình 17: Rút gọn phân mảnh hỗn hợp 44 Hình 18: Truyền tốn hạng phép tốn hai ngơi 47 DANH MỤC TỪ VIẾT TẮT DANH MỤC TỪ VIẾT TẮT TIẾNG VIỆT Từ viết tắt STT Cụm từ đầy đủ CSDL Cơ sở liệu CSDLPT Cơ sở liệu phân tán CSDLTT Cơ sở liệu tập trung HQT CSDLPT Hệ quản trị sở liệu phân tán HQTCSDL Hệ quản trị sở liệu HTTT Hệ thống thông tin XLTV Xử lý truy vấn STT DANH MỤC TỪ VIẾT TẮT TIẾNG ANH Từ viết tắt Cụm từ đầy đủ Nghĩa Tiếng Việt DBM Database management Quản trị sở liệu DC Data communication Truyền thông liệu DD Data dictionary Từ điển liệu DDB Distributed database Cơ sở liệu phân tán ES External Schema Lược đồ GCS Global Conceptual Schema Lược đồ khái niệm toàn cục LCS Local Conceptual Schema Lược đồ khái niệm cục CHƯƠNG TỔNG QUAN NGHIÊN CỨU ĐỀ TÀI Tính cấp thiết nghiên cứu đề tài Xã hội ngày phát triển kèm theo yêu cầu khối lượng thông tin cần xử lý, lưu trữ hệ thống thông tin (HTTT) tăng lên nhanh chóng Dữ liệu lớn, cực lớn lên tới hàng triệu ghi lại phải cập nhật chỉnh lý thường xun nên với mơ hình sở liệu tập trung (CSDLTT) gặp nhiều khó khăn vấn đề tốc độ xử lý máy chủ, băng thơng đường truyền, ảnh hưởng đến tính sẵn sàng hệ thống Bên cạnh đó, thực tế, doanh nghiệp, đơn vị tổ chức phải phân bố vùng rộng lớn mặt địa lý, dàn trải phạm vi nhiều thành phố, toàn quốc gia hay vài quốc gia, chí tồn cầu, nên việc lưu trữ, xử lý liệu tập trung không khả thi Dữ liệu lưu trữ tập trung địa điểm định mà rải khắp địa điểm mà quan, tổ chức hay doanh nghiệp hoạt động Khi liệu khơng cịn lưu trữ tập trung vấn đề làm để quản lý truy xuất, tốc độ truy xuất liệu phục vụ cho công tác chuyên môn không bị ảnh hưởng, không bị gián đoạn vấn đề quan trọng đặt Đây tiền đề để sở liệu phân tán (CSDLPT) đời Trong hệ thống sử dụng CSDLPT liệu thực lưu trữ nhiều trạm riêng biệt, nhiên, việc quản lý khai thác lại xây dựng cho người sử dụng truy vấn liệu CSDLTT Khi khối lượng thông tin phải xử lý ngày lớn, phong phú đa dạng vấn đề đặt cần xử lý thông tin để giảm chi phí đến mức tối thiểu Một giải pháp có tính khả thi phải tối ưu hoá câu lệnh truy vấn liệu Tối ưu hóa câu lệnh truy vấn CSDLPT địi hỏi nhiều kỹ thuật phức tạp tối ưu hóa truy vấn CSDL thơng thường, sở liệu lưu trữ rời rạc Từ tình hình thực tế nhu cầu đó, việc nghiên cứu truy vấn tối ưu hóa truy vấn CSDLPT điều vơ cần thiết, có tính ứng dụng cao doanh nghiệp Vì tơi chọn đề tài “Nghiên cứu số vấn đề truy vấn tối ưu hóa truy vấn sở liệu phân tán hệ thống thông tin” để nghiên cứu Đề tài hướng đến việc hệ thống hóa vấn đề xây dựng câu truy vấn tối ưu hóa câu truy vấn mơi trường đặc trưng CSDLPT Tổng quan đề tài nghiên cứu Hiện nay, quản lý, xử lý khai thác thông tin, liệu lĩnh vực thu hút quan tâm, đầu tư nghiên cứu triển khai mạnh mẽ nước tiên tiến CNTT, ngành công nghiệp nội dung số lên lĩnh vực kinh doanh có lợi nhuận cao Các công nghệ liên quan đến công nghệ liệu (data engineering), tìm kiếm thơng tin (information retrieval), xử lý liệu (data procesing), CSDL lưới (Grid Database)… nghiên cứu rộng rãi chuyên ngành liên quan đến CNTT trường đại học lớn giới Các chương trình hỗ trợ ngành công nghiệp khổng lồ để đưa thành tựu công nghệ lĩnh vực vào ứng dụng cách nhanh chóng Các phủ nước tiên tiến coi việc phát triển, nắm bắt ứng dụng thành tựu ngành công nghệ công tác sống cịn việc phát triển hạ tầng thơng tin phục vụ lợi ích quốc gia phát triển kinh tế Do đó, số hiệp hội nhà nghiên cứu phát triển công nghệ, ứng dụng quản lý thông tin liệu đời có ảnh hưởng lớn giới Nổi tiếng SIGMOD thuộc ACM Data Engineering IEEE, hai thuộc Mỹ công nhận rộng rãi toàn giới Tại số nước tiên tiến khác tổ chức phân hội địa phương hiệp hội Ðiều chứng tỏ tầm ảnh hưởng tổ chức ngành xử lý liệu giới Ngoài nước có tổ chức quốc gia riêng cơng nghệ xử lý liệu Ví dụ, Nhật Bản có SIGMOD-Japan Tổ chức xử lý thơng tin Japan (Japan InformationProcessing Society) Các tổ chức hỗ trợ mạnh công nghệ xử lý liệu lớn (big data) có vấn đề nghiên cứu CSDLPT Theo [1], hệ thống sở liệu phân tán, lưu trữ dư thừa liệu phân tán có tiện ích để phục hồi lỗi, làm cho trình xử lý truy vấn phân tán phức tạp thời điểm Vì vậy, nhánh nghiên cứu CSDLPT, nghiên cứu tối ưu hóa xử lý truy vấn công nghệ quan trọng Trong nghiên cứu này, tác giả sử dụng toán tử bán kết hợp nhằm cải thiện hiệu suất truy vấn giảm thời gian tìm kiếm Tác giả Lin Zhou mơ tả ngắn gọn khái niệm tương ứng đặc điểm hệ thống sở liệu phân tán, tóm tắt mục tiêu tối ưu hóa truy vấn sở liệu phân tán phân tích trình tối ưu hóa truy vấn dựa tốn tử bán kết hợp với ứng dụng thực tế với thuật toán cổ điển SDD-1 nhằm thực tối ưu hóa truy vấn sở liệu phân tán Theo Pawandeep Kaur [2] tối ưu hóa truy vấn trình sử dụng phương án tốt cho truy vấn để cải thiện hiệu suất truy vấn Tối ưu hóa truy vấn sở liệu phân tán khó khăn nhiều so với sở liệu tập trung Truy vấn sở liệu phân tán bị ảnh hưởng yếu tố phương pháp chèn liệu vào máy chủ từ xa cách thời gian phản hồi máy chủ Thời gian trả lời truy vấn phụ thuộc vào thời gian truyền tốc độ xử lý máy cục Trong đó, vai trị việc xây dựng mơ hình ước lượng chi phí truy vấn phù hợp quan trọng Mơ hình phù hợp tạo nên tảng để ước lượng chi phí cho phương thức tối ưu hóa truy vấn khác lựa chọn phương án tốt Trong [3], Shyam Padia chứng minh tường minh vấn đề tối ưu hóa truy vấn sở liệu phân tán quy mô lớn tốn NP - khó tự nhiên khó để giải Các tốn thuộc lớp NP-khó, ví dụ tốn tối ưu hó truy vấn, phức tạp tối ưu hóa tăng phi tuyến số lượng quan hệ số lượng mối ràng buộc truy vấn tăng lên Nghiên cứu tìm hiểu giới thiệu số các chiến lược tối ưu hóa khác nghiên cứu cho thấy hiệu suất tối ưu hóa truy vấn phân tán cải thiện sử dụng tht tốn đàn kiến tích hợp thuật tốn tối ưu hóa Tại Việt nam, thời gian dài, tầm quan trọng HTTT có mức tự động hóa cao khơng đánh giá mức quản lý nhà nước phát triển kinh tế, kinh doanh Việc nghiên cứu CSDL thời gian dài tập trung vào lý thuyết CSDL nghiên cứu mơ hình CSDL dùng cơng cụ tốn học Trong lĩnh vực ứng dụng, có khơng dự án xây dựng CSDL lĩnh vực chưa nghiên cứu đánh giá cách tổng thể, sử dụng mức chưa khai thác hết tất tính công nghệ CSDL đại Giữa lý thuyết ứng dụng khoảng cách lớn Theo Đào Ngọc Sơn [4], hệ thống phân tán hệ thống sở liệu phức tạp, đòi hỏi việc tổ chức sở hạ tầng vật lý mơ hình kết nối mạng phức tạp Việc tìm hiểu tối ưu hóa truy vấn CSDLPT có ý nghĩa quan trọng định đến hiệu hệ thống, làm hệ thống sở liệu phân tán mang lợi ích giống sở liệu tập trung phát huy ưu sở liệu phân tán mang lại Cơng trình trình bày ngun lý chung để tối ưu hóa bao gồm: Các chiến lược tối ưu tổng quát, kỹ thuật tối ưu hóa bản, biến đổi đại số,… giới thiệu thuật tốn tối ưu hóa sở liệu phân tán, dựa vào mơ hình chi phí thời gian đáp ứng hệ thống, thuật toán INGRES phân tán, Thuật toán System R*, thuật toán SDD-1 thuật tốn AHY Bên cạnh tác giả cài đặt thử nghiệm thuật toán System R* phân tán hệ thống CSDLPT mô Đề tài nghiên cứu Phạm Thị Thu Huyền [5] trình bày vấn đề sở liệu phân tán, sở liệu tập trung, kỹ thuật tối ưu hóa truy vấn tập trung phân tán Qua cài đặt thử nghiệm thuật toán SDD-1 để tối ưu truy vấn phân tán hệ thống CSDLPT đơn giản Qua nghiên cứu giới Việt nam, nhận thấy việc nghiên cứu CSDLPT tối ưu hóa truy vấn sở liệu quan trọng Các nghiên cứu giới sâu vào khía cạnh kỹ thuật đơn giản phức tạp việc phân tích câu truy vấn tối ưu hóa xử lý câu truy vấn Các nghiên cứu Việt nam bước thực việc cài đặt thử nghiệm thuật tốn ứng dụng tối ưu hóa truy vấn cách rời rạc Do đó, nghiên cứu này, tác giả thực việc trình bày cách có hệ thống vấn đề liên quan đến CSDLPT tổng hợp thuật toán phổ biến đại diện cho cách tiếp cận khác việc tối ưu hóa câu truy vấn dành cho CSDLPT Mục tiêu nghiên cứu Tối ưu hóa truy vấn CSDLPT lĩnh vực rộng, phạm vi đề tài này, tác giả sử dụng cách tiếp cận có tính ứng dụng cao Trong mục tiêu nghiên cứu bao gồm: - Hệ thống hóa nghiên cứu, lý thuyết vấn đề sở liệu phân tán, nguyên lý chung, kỹ thuật thuật toán liên quan đến truy vấn tối ưu hóa truy vấn hệ thống thông tin - Giới thiệu chi tiết thuật tốn sử dụng tối ưu hóa CSDLPT - Báo cáo đề tài làm tài liệu tham khảo cho việc viết giáo trình mơn: Cơ sở liệu 2; Phân tích thiết kế hệ thống thông tin tài liệu tham khảo học phần: Phân tích thiết kế hệ thống thông tin; Hệ thống thông tin quản lý Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Các vấn đề sở liệu phân tán, nguyên lý chung, kỹ thuật, thuật toán liên quan đến vấn đề tối ưu hoá truy vấn sở liệu phân tán hệ thống thông tin Phạm vi nghiên cứu: Đề tài tập trung nghiên cứu truy vấn số kỹ thuật tối ưu hóa truy vấn sở liệu phân tán Phương pháp nghiên cứu Đề tài sử dụng phương pháp nghiên cứu tài liệu lý thuyết sở liệu phân tán, kỹ thuật truy vấn sách chuyên ngành, báo cơng bố tạp chí chun ngành uy tín, nhằm đưa số kiến thức tổng quan xử lý truy vấn sở liệu phân tán Phương pháp thu thập liệu: sử dụng phương pháp thống kê, so sánh nhằm nêu khác biệt vấn đề xử lý truy vấn sở liệu tập trung sở liệu phân tán Mặt khác, đề tài kết hợp nghiên cứu lý thuyết thực nghiệm để phân tích số ví dụ minh họa thao tác xử lý tối ưu hóa truy vấn sở liệu phân tán hệ thống thông tin Kết cấu báo cáo nghiên cứu Về nội dung bố cục, phần như: mục lục, danh mục hình vẽ, danh mục từ viết tắt tài liệu tham khảo, phụ lục, báo cáo trình bày gồm chương: Chương 1: Tổng quan nghiên cứu đề tài Chương trình bày sơ lược tổng quan đề tài nghiên cứu: tính cấp thiết, tình hình nghiên cứu đề tài nước, mục tiêu nghiên cứu, đối tượng, phạm vi nghiên cứu, phương pháp nghiên cứu tìm hiểu vấn đề truy vấn tối ưu hóa truy vấn sở liệu phân tán hệ thống thông tin Chương 2: Tổng quan sở liệu phân tán Nội dung chương trình bày cách tổng quan CSDL phân tán, bao gồm khái niệm, đặc trưng kiến trúc sở liệu phân tán đồng thời nội dung chương giới thiệu thêm số mơ hình xử lý phân tán hệ thống thông tin Chương 3: Các nguyên lý chung tối ưu hóa truy vấn sở liệu phân tán Trong chương giới thiệu nguyên lý xử lý truy vấn, chiến lược tối ưu hóa truy vấn bản, số phép biến đổi đại số kỹ thuật tối ưu hóa tập trung làm tảng cho tối ưu hóa CSDLPT Chương 4: Tối ưu hóa truy vấn phân tán Nội dung chương đề cập đến vấn đề tối ưu hóa truy vấn cách phân rã câu truy vấn, phương pháp định vị liệu phân tán chiến lược thuật toán để tối ưu hóa truy vấn phân tán Đồng thời chương đưa nững hạn chế tồn nghiên cứu đặt hướng phát triển nghiên cứu tương lai 10 truy vấn rút gọn hình d Ví dụn minh họa giá trị phân mảnh việc cải thiện hiệu câu truy vấn phân tán (a) Câu truy vấn gốc (b) Câu truy vấn sau đẩy phép chọn xuống (c) Truy vấn sau đẩy phép hợp xuống (d) Câu truy vấn rút gọn sau loại bên trái Hình 16: Rút gọn phân mảnh dẫn xuất 2.4 Rút gọn phân mảnh hỗn hợp Phân mảnh hỗn hợp bao gồm việc phân mảnh ngang phân mảnh dọc Mục đích phân mảnh hỗn hợp hỗ trợ cách hiệu câu truy vấn có chứa phép chọn, phép chiếu phép kết nối Chương trình hóa cục cho quan hệ 43 phân mảnh hỗn hợp có sử dụng phép hợp kết nối mảnh Để tối ưu hóa phép tốn hay tổ hợp phép tốn ln ln phải trả chi phí cao cho phép tốn khác Ví dụ phân mảnh hỗn hợp dựa phép chiếu-chọn làm cho phép chiếu phép chọn hiệu so với phân mảnh ngang phân mảnh dọc Ví dụ: phân mảnh hỗn hợp quan hệ EMP sau: EMP1 = σ ENO ≤"E4" (π ENO, ENAME (EMP)) EMP2 = σ ENO>"E4" (π ENO, ENAME (EMP)) EMP3 = π ENO, ENAME (EMP) Chương trình cục hóa sau: EMP = (EMP1 ∪EMP2 )  ENO EMP3 Các truy vấn mảnh hỗn hợp rút gọn cách kết hợp quy tắc phân mảnh ngang nguyên thủy, phân mảnh dọc phân mảnh ngang dẫn xuất Các quy tắc tóm tắt sau: Loại bỏ quan hệ rỗng tạo phép chọn mâu thuẫn mảnh ngang Loại bỏ kết nối vô dụng tạo phép chiếu phân mảnh dọc Phân phối kết nối cho phép hợp nhằm cô lập loại bỏ kết nối vơ dụng Ví dụ: Xét câu truy vấn sau: SELECT ENAME FROM EMP WHERE EMP = “E5”  Hình 17: Rút gọn phân mảnh hỗn hợp Tối ưu hóa truy vấn phân tán Một câu truy vấn phép tính quan hệ biểu diễn quan hệ phân tán ánh xạ thành câu truy vấn đoạn quan hệ cách phân rã 44 định vị liệu, ánh xạ sử dụng lược đồ phân đoạn Trong xử lý này, việc áp dụng luật biến đổi cho phép đơn giản hố câu truy vấn cách tìm biểu thức chung loại bỏ biểu thức vơ ích Câu truy vấn thu từ giai đoạn phân rã định vị liệu thực thi cách đơn giản việc thêm vào thao tác truyền thơng Tuy nhiên, hốn vị thứ tự phép tốn câu truy vấn cung cấp nhiều chiến lược tương đương để thực thi chúng Tìm thứ tự “tối ưu” phép toán cho câu truy vấn cho chức tối ưu hố câu truy vấn Sự lựa chọn thứ tự tối ưu câu truy vấn tốn khó thực nên mục đích thực tối ưu tìm chiến lược gần tối ưu Sau ta gọi chiến lược (hoặc thao tác thứ tự) đưa tối ưu chiến lược tối ưu (hoặc chiến lược tối ưu) Đầu tối ưu lịch trình tối ưu bao gồm câu truy vấn đại số xác định trạm 3.1 Đầu vào tối ưu hóa câu truy vấn 2.1.1 Mơ hình chi phí Chi phí chiến lược thực phân tán biểu diễn theo tổng chi phí (total cost) theo thời gian trả lời Tổng chi phí tổng tất thành phần chi phí, cịn thời gian trả lời tính từ lúc bắt đầu đến lúc kết thúc câu truy vấn Công thức chung để tính tổng chi phí sau: Total_cost = CCPU*#insts + CI/O*#I/Os + CMSG #msgs + CTR*#bytes Trong đó: - Total_cost - tổng chi phí; - CCPU - chi phí lệnh CPU; - CI/O- chi phí truy xuất/nhập đĩa; - CMSG - chi phí cố định việc khởi đầu nhận thông báo; - CTR - chi phí truyền đơn vị liệu từ trạm tới trạm khác, C TR coi số; - #insts, #I/Os, #msgsm, #byte: Tương ứng tổng trạm tất số lệnh CPU, số lần truy xuất/ nhập đĩa, số thơng báo, kích thước tất thơng báo Khi thời gian trả lời câu truy vấn hàm mục tiêu tối ưu xử lý địa phương song song truyền thông song song phải xét Chức tổng quát tính thời gian trả lời (response time) là: Response_time = CCPU*seq_#insts + CI/O*seq_#I/Os + CMSG *seq_#msgs + CTR*seq_#bytes Trong đó: seq_#x (x lệnh CPU, I/O, thông báo, byte) số lớn x phải thực thực thi câu truy vấn 45 2.1.2 Các thống kê sở liệu Yếu tố ảnh hưởng đến hiệu suất chiến lược thực thi kích thước quan hệ trung gian sinh trình thực Khi gặp phép toán đặt trạm khác, quan hệ trung gian phải truyền lên mạng Do vậy, để tối thiểu hoá khối lượng liệu truyền, điểm quan tâm đánh giá kích thước kết trung gian phép toán đại số quan hệ Đánh giá dựa thông tin thống kê quan hệ sở cơng thức ước tính lực lượng kết phép tốn quan hệ Một số kí hiệu: Quan hệ R xác định A = {A1, A2, ,An} phân đoạn thành R1, R2, ,Rr Khi liệu thống kê điển hình bao gồm: - length(Ai): độ dài (byte) thuộc tính Ai, với AiRj - card(Ai(Rj)): lực lượng phép chiếu đoạn Rj Ai - Miền xác định Ai tập số nguyên tập số thực, có max(Ai) min(Ai) - card(dom[Ai]): Lực lượng thuộc tính Ai, số giá trị miền trị thuộc tính Ai - card(Rj): Số đoạn Rj Ngoài ra, liệu thống kê bao gồm hệ số chọn phép kết nối (SFJ) số cặp quan hệ; hệ số SFJ quan hệ R S số thực 1: Hệ số SFJ nhỏ phép kết nối có tính chọn tốt, ngược lại có tính chọn tồi Các thống kê có lợi để đánh giá kích thước quan hệ trung gian Kích thước quan hệ trung gian R sau: Size(R)= card(R)*length(R) Trong đó: card(R) số R tính theo cơng thức phần sau 2.1.3 Lực lượng kết trung gian Phần đưa cơng thức để ước tính lực lượng kết phép toán sở đaị số quan hệ (phép chọn, phép chiếu, phép tích Decartes, kết nối, bán kết nối, phép hợp phép trừ) Các toán hạng quan hệ ký hiệu R S Hệ số chọn phép toán (SFOP, OP biểu thị phép toán) tỷ lệ toán hạng quan hệ tham gia vào kết phép toán 46 Phép chiếu: card(A(R))=card(R) Tích Decartes: card(R x S)=card(R) * card(S) Phép kết nối: card ( R  S )  SF j * card ( R) * card (S ) Bán kết nối: Hệ số chọn phép bán kết nối (SFSJ) xấp xỉ là: SFSJ ( R  A S )  card ( A ( S ) card (dom[ A]) card ( R  A S )  SFSJ (S A) * card ( R) Phép hợp: Công thức tính cận card(R)+card(S), cận max{card(R),card(S)} (giả sử R S không chứa lặp) Phép trừ: cận card(R-S) card(S), cận 3.2 Thứ tự kết nối truy vấn đoạn Thứ tự kết nối có vai trị quan trọng việc tối ưu hoá câu truy vấn tập trung Thứ tự kết nối mơi trường phân tán cịn quan trọng phép kết nối đoạn làm tăng chi phí truyền thơng Có hai cách tiếp cận để thứ tự phép kết nối câu truy vấn đoạn - Cố gắng tối ưu thứ tự phép kết nối cách trực tiếp - Thay phép kết nối kết hợp phép bán kết nối để cực tiểu hóa chi phí truyền thơng Thứ tự kết nối: Một số thuật toán tối ưu hoá thứ tự phép kết nối cách trực tiếp khơng sử dụng phép bán kết nối Thuật tốn INGRES phân tán R* đại diện cho lớp Một số giả thiết: - Câu truy vấn định vị biểu diễn đoạn, ta không cần phân biệt đoạn quan hệ đoạn quan hệ khác - Dùng thuật ngữ quan hệ để đoạn lưu trữ trạm cụ thể - Bỏ qua chi phí xử lý địa phương - Chỉ xét câu truy vấn kết nối mà toán hạng quan hệ lưu trạm khác - Bỏ qua chi phí truyền liệu trạm kết Vấn đề truyền toán hạng phép kết nối đơn, hiển nhiên gửi quan hệ nhỏ tới trạm quan hệ lớn hơn, có hai khả hình sau: Hình 18: Truyền tốn hạng phép tốn hai ngơi 47 Trường hợp có hai quan hệ kết nối, trường hợp kết nối đơn, mục đích thuật tốn thứ tự kết nối truyền tốn hạng nhỏ Vấn đề khó khăn phép kết nối giảm tăng kích thước kết kết nối Một giải pháp sử dụng đánh giá chi phí truyền thơng tất chiến lược chọn chiến lược tốt Tuy nhiên số chiến lược tăng nhanh số quan hệ tăng nên thường dùng phương pháp tìm kiếm gần (heuristic) để loại trừ số trường hợp xấu Tối ưu hóa truy vấn phân tán Tối ưu hóa truy vấn phân tán thực thống qua giải thuật tối ưu hóa Các giải thuật phân thành hướng tiếp cận bao gồm: hướng tiếp cận sử dụng phép toán bán kết nối (semijoin), hướng tiếp cận tĩnh (static approach), hướng tiếp cận động (dynamic approach) hướng tiếp cận kết hợp (hybrid approach) Trong phần này, tác giả sâu trình bày giải thuật đại diện cho ba hướng tiếp cận Hướng tiếp cận cuối xuy hướng giải thuật ba hướng tiếp cận sử dụng kết hợp nhằm mục tiêu tăng độ tối ưu thường gắn với thiết kế CSDLPT cụ thể 4.1 Thuật tốn tối ưu hóa truy vấn phân tán SDD-1 Ý tưởng thuật tốn dựa phép tốn bán kết nối Phép kết nối làm việc thuật tốn rút gọn kích thước cho quan hệ trước truyền Kết nối quan hệ R S thuộc tính A, lưu trạm trạm tương ứng, tính tốn cách thay toán hạng quan hệ phép bán kết nối với quan hệ khác, sử dụng quy tắc sau: Việc chọn ba chiến lược bán kết nối đòi hỏi đánh giá chi phí tương ứng chúng Sử dụng phép bán kết nối có lợi chi phó kết xuất truyền tới trạm khác nhỏ chi phí truyền tồn tốn hạng quan hệ thực phép kết nối Để thấy lợi ích tiềm tang phép bán kết nối, ta so sánh chi phí hai lựa chọn R  A S , giả sử size(R)

Ngày đăng: 27/06/2021, 17:00

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan