Untitled 1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ TRUY VẤN VÀ TỐI ƯU HÓA TRUY VẤN CƠ SỞ DỮ LIỆU PHÂN TÁN TRONG HỆ THỐNG THÔN[.]
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ TRUY VẤN VÀ TỐI ƯU HÓA TRUY VẤN CƠ SỞ DỮ LIỆU PHÂN TÁN TRONG HỆ THỐNG THÔNG TIN MÃ SỐ: CS-16-05 Chủ nhiệm đề tài: ThS Cù Nguyên Giáp Bộ môn: Tin Học Hà Nội, năm 2017 MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC TỪ VIẾT TẮT CHƯƠNG TỔNG QUAN NGHIÊN CỨU ĐỀ TÀI 6 Tính cấp thiết nghiên cứu đề tài Tổng quan đề tài nghiên cứu Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết cấu báo cáo nghiên cứu CHƯƠNG 2: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 11 Khái niệm hệ sở liệu phân tán 11 1.1 Cơ sở liệu phân tán 11 1.2 Hệ quản trị sở liệu phân tán 12 Các đặc trưng sở liệu phân tán 13 2.1 Điều khiển tập trung 13 2.2 Độc lập liệu 14 2.3 Giảm dư thừa liệu 14 2.4 Độ tin cậy qua giao dịch phân tán 14 2.5 Cải tiến hiệu 14 2.6 Dễ dàng mở rộng hệ thống 15 Kiến trúc sở liệu phân tán 15 3.1 Sơ đồ tổng thể 15 3.2 Sơ đồ phân đoạn 16 3.3 Sơ đồ định vị 16 3.4 Sơ đồ ánh xạ địa phương 18 Các mơ hình xử lý phân tán 18 4.1 Mơ hình xử lý Master - Slave 18 4.2 Các hệ phân tán ngang hàng 19 4.3 Môi trường đa tầng 20 CHƯƠNG 3: CÁC NGUYÊN LÝ CHUNG CỦA TỐI ƯU HÓA TRUY VẤN CƠ SỞ DỮ LIỆU PHÂN TÁN 22 Mục tiêu chung toán toán truy vấn CSDLPT 22 Giới thiệu xử lý truy vấn 22 Các giai đoạn xử lý truy vấn CSDLPT 24 Các đặc trưng xử lý truy vấn CSDLPT: 27 4.1 Ngôn ngữ (language) 27 4.2 Các dạng tối ưu hóa (types of optimization) 27 4.3 Thời gian tối ưu hóa (optimization timing) 27 4.4 Thống kê (statistics) 28 4.5 Tối ưu hóa tập trung & tối ưu hóa phân tán (Decision sites) 28 4.6 Sử dụng kiến trúc mạng (Exploitation of the network topology) 28 4.7 Sử dụng phân đoạn (Exploitation of Replicated Fragments) 29 4.8 Sử dụng toán tử bán kết nối (Use of Semijoins) 29 Các kỹ thuật tối ưu hóa tập trung 30 5.1 Thuật toán INGRES 30 5.2 Thuật toán SYSTEM R 30 CHƯƠNG 4: TỐI ƯU HÓA TRUY VẤN PHÂN TÁN 22 Phân rã câu truy vấn 32 1.1 Chuẩn hóa 32 1.2 Phân tích 33 1.3 Loại bỏ dư thừa 35 1.4 Viết lại 36 Định vị liệu phân tán 37 2.1 Rút gọn phân mảnh ngang nguyên thủy 38 2.2 Rút gọn phân mảnh dọc 40 2.3 Rút gọn phân mảnh dẫn xuất 42 2.4 Rút gọn phân mảnh hỗn hợp 43 Tối ưu hóa truy vấn phân tán 44 3.1 Đầu vào tối ưu hóa câu truy vấn 45 3.2 Thứ tự kết nối truy vấn đoạn 47 Tối ưu hóa truy vấn phân tán 48 4.1 Thuật toán tối ưu hóa truy vấn phân tán SDD-1 48 4.2 Thuật toán System R* 50 4.3 Thuật toán INGRES phân tán 52 Kết luận hướng phát triển đề tài 54 5.1 Kết luận 54 5.2 Hướng phát triển đề tài 54 TÀI LIỆU THAM KHẢO 56 DANH MỤC HÌNH VẼ Hình 1: Sơ đồ tổng thể 16 Hình 2: Sơ đồ định vị 18 Hình 3: Kiến trúc khách/chủ 19 Hình 4: Các hệ phân tán ngang hàng 20 Hình 5: Mơi trường đa tầng 20 Hình 6: Mô tả xử lý truy vấn 23 Hình 7: Mô tả giai đoạn xử lý truy vấn 24 Hình 8: Mơ hình tối ưu hóa truy vấn 25 Hình 9: Đồ thị kết nối tương ứng 34 Hình 10: Đồ thị truy vấn không liên thông 35 Hình 11: Ví dụ đại số quan hệ 37 Hình 12: Rút gọn phân mảnh ngang với phép chọn 39 Hình 13: Cây đại số quan hệ truy vấn gốc 40 Hình 14: Rút gọn phân mảnh ngang với phép kết nối 40 Hình 15: Rút gọn phân mảnh dọc 41 Hình 16: Rút gọn phân mảnh dẫn xuất 43 Hình 17: Rút gọn phân mảnh hỗn hợp 44 Hình 18: Truyền tốn hạng phép tốn hai ngơi 47 DANH MỤC TỪ VIẾT TẮT DANH MỤC TỪ VIẾT TẮT TIẾNG VIỆT Từ viết tắt STT Cụm từ đầy đủ CSDL Cơ sở liệu CSDLPT Cơ sở liệu phân tán CSDLTT Cơ sở liệu tập trung HQT CSDLPT Hệ quản trị sở liệu phân tán HQTCSDL Hệ quản trị sở liệu HTTT Hệ thống thông tin XLTV Xử lý truy vấn STT DANH MỤC TỪ VIẾT TẮT TIẾNG ANH Từ viết tắt Cụm từ đầy đủ Nghĩa Tiếng Việt DBM Database management Quản trị sở liệu DC Data communication Truyền thông liệu DD Data dictionary Từ điển liệu DDB Distributed database Cơ sở liệu phân tán ES External Schema Lược đồ GCS Global Conceptual Schema Lược đồ khái niệm toàn cục LCS Local Conceptual Schema Lược đồ khái niệm cục CHƯƠNG TỔNG QUAN NGHIÊN CỨU ĐỀ TÀI Tính cấp thiết nghiên cứu đề tài Xã hội ngày phát triển kèm theo yêu cầu khối lượng thông tin cần xử lý, lưu trữ hệ thống thông tin (HTTT) tăng lên nhanh chóng Dữ liệu lớn, cực lớn lên tới hàng triệu ghi lại phải cập nhật chỉnh lý thường xun nên với mơ hình sở liệu tập trung (CSDLTT) gặp nhiều khó khăn vấn đề tốc độ xử lý máy chủ, băng thơng đường truyền, ảnh hưởng đến tính sẵn sàng hệ thống Bên cạnh đó, thực tế, doanh nghiệp, đơn vị tổ chức phải phân bố vùng rộng lớn mặt địa lý, dàn trải phạm vi nhiều thành phố, toàn quốc gia hay vài quốc gia, chí tồn cầu, nên việc lưu trữ, xử lý liệu tập trung không khả thi Dữ liệu lưu trữ tập trung địa điểm định mà rải khắp địa điểm mà quan, tổ chức hay doanh nghiệp hoạt động Khi liệu khơng cịn lưu trữ tập trung vấn đề làm để quản lý truy xuất, tốc độ truy xuất liệu phục vụ cho công tác chuyên môn không bị ảnh hưởng, không bị gián đoạn vấn đề quan trọng đặt Đây tiền đề để sở liệu phân tán (CSDLPT) đời Trong hệ thống sử dụng CSDLPT liệu thực lưu trữ nhiều trạm riêng biệt, nhiên, việc quản lý khai thác lại xây dựng cho người sử dụng truy vấn liệu CSDLTT Khi khối lượng thông tin phải xử lý ngày lớn, phong phú đa dạng vấn đề đặt cần xử lý thông tin để giảm chi phí đến mức tối thiểu Một giải pháp có tính khả thi phải tối ưu hoá câu lệnh truy vấn liệu Tối ưu hóa câu lệnh truy vấn CSDLPT địi hỏi nhiều kỹ thuật phức tạp tối ưu hóa truy vấn CSDL thơng thường, sở liệu lưu trữ rời rạc Từ tình hình thực tế nhu cầu đó, việc nghiên cứu truy vấn tối ưu hóa truy vấn CSDLPT điều vơ cần thiết, có tính ứng dụng cao doanh nghiệp Vì tơi chọn đề tài “Nghiên cứu số vấn đề truy vấn tối ưu hóa truy vấn sở liệu phân tán hệ thống thông tin” để nghiên cứu Đề tài hướng đến việc hệ thống hóa vấn đề xây dựng câu truy vấn tối ưu hóa câu truy vấn mơi trường đặc trưng CSDLPT Tổng quan đề tài nghiên cứu Hiện nay, quản lý, xử lý khai thác thông tin, liệu lĩnh vực thu hút quan tâm, đầu tư nghiên cứu triển khai mạnh mẽ nước tiên tiến CNTT, ngành công nghiệp nội dung số lên lĩnh vực kinh doanh có lợi nhuận cao Các công nghệ liên quan đến công nghệ liệu (data engineering), tìm kiếm thơng tin (information retrieval), xử lý liệu (data procesing), CSDL lưới (Grid Database)… nghiên cứu rộng rãi chuyên ngành liên quan đến CNTT trường đại học lớn giới Các chương trình hỗ trợ ngành công nghiệp khổng lồ để đưa thành tựu công nghệ lĩnh vực vào ứng dụng cách nhanh chóng Các phủ nước tiên tiến coi việc phát triển, nắm bắt ứng dụng thành tựu ngành công nghệ công tác sống cịn việc phát triển hạ tầng thơng tin phục vụ lợi ích quốc gia phát triển kinh tế Do đó, số hiệp hội nhà nghiên cứu phát triển công nghệ, ứng dụng quản lý thông tin liệu đời có ảnh hưởng lớn giới Nổi tiếng SIGMOD thuộc ACM Data Engineering IEEE, hai thuộc Mỹ công nhận rộng rãi toàn giới Tại số nước tiên tiến khác tổ chức phân hội địa phương hiệp hội Ðiều chứng tỏ tầm ảnh hưởng tổ chức ngành xử lý liệu giới Ngoài nước có tổ chức quốc gia riêng cơng nghệ xử lý liệu Ví dụ, Nhật Bản có SIGMOD-Japan Tổ chức xử lý thơng tin Japan (Japan InformationProcessing Society) Các tổ chức hỗ trợ mạnh công nghệ xử lý liệu lớn (big data) có vấn đề nghiên cứu CSDLPT Theo [1], hệ thống sở liệu phân tán, lưu trữ dư thừa liệu phân tán có tiện ích để phục hồi lỗi, làm cho trình xử lý truy vấn phân tán phức tạp thời điểm Vì vậy, nhánh nghiên cứu CSDLPT, nghiên cứu tối ưu hóa xử lý truy vấn công nghệ quan trọng Trong nghiên cứu này, tác giả sử dụng toán tử bán kết hợp nhằm cải thiện hiệu suất truy vấn giảm thời gian tìm kiếm Tác giả Lin Zhou mơ tả ngắn gọn khái niệm tương ứng đặc điểm hệ thống sở liệu phân tán, tóm tắt mục tiêu tối ưu hóa truy vấn sở liệu phân tán phân tích trình tối ưu hóa truy vấn dựa tốn tử bán kết hợp với ứng dụng thực tế với thuật toán cổ điển SDD-1 nhằm thực tối ưu hóa truy vấn sở liệu phân tán Theo Pawandeep Kaur [2] tối ưu hóa truy vấn trình sử dụng phương án tốt cho truy vấn để cải thiện hiệu suất truy vấn Tối ưu hóa truy vấn sở liệu phân tán khó khăn nhiều so với sở liệu tập trung Truy vấn sở liệu phân tán bị ảnh hưởng yếu tố phương pháp chèn liệu vào máy chủ từ xa cách thời gian phản hồi máy chủ Thời gian trả lời truy vấn phụ thuộc vào thời gian truyền tốc độ xử lý máy cục Trong đó, vai trị việc xây dựng mơ hình ước lượng chi phí truy vấn phù hợp quan trọng Mơ hình phù hợp tạo nên tảng để ước lượng chi phí cho phương thức tối ưu hóa truy vấn khác lựa chọn phương án tốt Trong [3], Shyam Padia chứng minh tường minh vấn đề tối ưu hóa truy vấn sở liệu phân tán quy mô lớn tốn NP - khó tự nhiên khó để giải Các tốn thuộc lớp NP-khó, ví dụ tốn tối ưu hó truy vấn, phức tạp tối ưu hóa tăng phi tuyến số lượng quan hệ số lượng mối ràng buộc truy vấn tăng lên Nghiên cứu tìm hiểu giới thiệu số các chiến lược tối ưu hóa khác nghiên cứu cho thấy hiệu suất tối ưu hóa truy vấn phân tán cải thiện sử dụng tht tốn đàn kiến tích hợp thuật tốn tối ưu hóa Tại Việt nam, thời gian dài, tầm quan trọng HTTT có mức tự động hóa cao khơng đánh giá mức quản lý nhà nước phát triển kinh tế, kinh doanh Việc nghiên cứu CSDL thời gian dài tập trung vào lý thuyết CSDL nghiên cứu mơ hình CSDL dùng cơng cụ tốn học Trong lĩnh vực ứng dụng, có khơng dự án xây dựng CSDL lĩnh vực chưa nghiên cứu đánh giá cách tổng thể, sử dụng mức chưa khai thác hết tất tính công nghệ CSDL đại Giữa lý thuyết ứng dụng khoảng cách lớn Theo Đào Ngọc Sơn [4], hệ thống phân tán hệ thống sở liệu phức tạp, đòi hỏi việc tổ chức sở hạ tầng vật lý mơ hình kết nối mạng phức tạp Việc tìm hiểu tối ưu hóa truy vấn CSDLPT có ý nghĩa quan trọng định đến hiệu hệ thống, làm hệ thống sở liệu phân tán mang lợi ích giống sở liệu tập trung phát huy ưu sở liệu phân tán mang lại Cơng trình trình bày ngun lý chung để tối ưu hóa bao gồm: Các chiến lược tối ưu tổng quát, kỹ thuật tối ưu hóa bản, biến đổi đại số,… giới thiệu thuật tốn tối ưu hóa sở liệu phân tán, dựa vào mơ hình chi phí thời gian đáp ứng hệ thống, thuật toán INGRES phân tán, Thuật toán System R*, thuật toán SDD-1 thuật tốn AHY Bên cạnh tác giả cài đặt thử nghiệm thuật toán System R* phân tán hệ thống CSDLPT mô Đề tài nghiên cứu Phạm Thị Thu Huyền [5] trình bày vấn đề sở liệu phân tán, sở liệu tập trung, kỹ thuật tối ưu hóa truy vấn tập trung phân tán Qua cài đặt thử nghiệm thuật toán SDD-1 để tối ưu truy vấn phân tán hệ thống CSDLPT đơn giản Qua nghiên cứu giới Việt nam, nhận thấy việc nghiên cứu CSDLPT tối ưu hóa truy vấn sở liệu quan trọng Các nghiên cứu giới sâu vào khía cạnh kỹ thuật đơn giản phức tạp việc phân tích câu truy vấn tối ưu hóa xử lý câu truy vấn Các nghiên cứu Việt nam bước thực việc cài đặt thử nghiệm thuật tốn ứng dụng tối ưu hóa truy vấn cách rời rạc Do đó, nghiên cứu này, tác giả thực việc trình bày cách có hệ thống vấn đề liên quan đến CSDLPT tổng hợp thuật toán phổ biến đại diện cho cách tiếp cận khác việc tối ưu hóa câu truy vấn dành cho CSDLPT Mục tiêu nghiên cứu Tối ưu hóa truy vấn CSDLPT lĩnh vực rộng, phạm vi đề tài này, tác giả sử dụng cách tiếp cận có tính ứng dụng cao Trong mục tiêu nghiên cứu bao gồm: - Hệ thống hóa nghiên cứu, lý thuyết vấn đề sở liệu phân tán, nguyên lý chung, kỹ thuật thuật toán liên quan đến truy vấn tối ưu hóa truy vấn hệ thống thông tin - Giới thiệu chi tiết thuật tốn sử dụng tối ưu hóa CSDLPT - Báo cáo đề tài làm tài liệu tham khảo cho việc viết giáo trình mơn: Cơ sở liệu 2; Phân tích thiết kế hệ thống thông tin tài liệu tham khảo học phần: Phân tích thiết kế hệ thống thông tin; Hệ thống thông tin quản lý Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Các vấn đề sở liệu phân tán, nguyên lý chung, kỹ thuật, thuật toán liên quan đến vấn đề tối ưu hoá truy vấn sở liệu phân tán hệ thống thông tin Phạm vi nghiên cứu: Đề tài tập trung nghiên cứu truy vấn số kỹ thuật tối ưu hóa truy vấn sở liệu phân tán Phương pháp nghiên cứu Đề tài sử dụng phương pháp nghiên cứu tài liệu lý thuyết sở liệu phân tán, kỹ thuật truy vấn sách chuyên ngành, báo cơng bố tạp chí chun ngành uy tín, nhằm đưa số kiến thức tổng quan xử lý truy vấn sở liệu phân tán Phương pháp thu thập liệu: sử dụng phương pháp thống kê, so sánh nhằm nêu khác biệt vấn đề xử lý truy vấn sở liệu tập trung sở liệu phân tán Mặt khác, đề tài kết hợp nghiên cứu lý thuyết thực nghiệm để phân tích số ví dụ minh họa thao tác xử lý tối ưu hóa truy vấn sở liệu phân tán hệ thống thông tin Kết cấu báo cáo nghiên cứu Về nội dung bố cục, phần như: mục lục, danh mục hình vẽ, danh mục từ viết tắt tài liệu tham khảo, phụ lục, báo cáo trình bày gồm chương: Chương 1: Tổng quan nghiên cứu đề tài Chương trình bày sơ lược tổng quan đề tài nghiên cứu: tính cấp thiết, tình hình nghiên cứu đề tài nước, mục tiêu nghiên cứu, đối tượng, phạm vi nghiên cứu, phương pháp nghiên cứu tìm hiểu vấn đề truy vấn tối ưu hóa truy vấn sở liệu phân tán hệ thống thông tin Chương 2: Tổng quan sở liệu phân tán Nội dung chương trình bày cách tổng quan CSDL phân tán, bao gồm khái niệm, đặc trưng kiến trúc sở liệu phân tán đồng thời nội dung chương giới thiệu thêm số mơ hình xử lý phân tán hệ thống thông tin Chương 3: Các nguyên lý chung tối ưu hóa truy vấn sở liệu phân tán Trong chương giới thiệu nguyên lý xử lý truy vấn, chiến lược tối ưu hóa truy vấn bản, số phép biến đổi đại số kỹ thuật tối ưu hóa tập trung làm tảng cho tối ưu hóa CSDLPT Chương 4: Tối ưu hóa truy vấn phân tán Nội dung chương đề cập đến vấn đề tối ưu hóa truy vấn cách phân rã câu truy vấn, phương pháp định vị liệu phân tán chiến lược thuật toán để tối ưu hóa truy vấn phân tán Đồng thời chương đưa nững hạn chế tồn nghiên cứu đặt hướng phát triển nghiên cứu tương lai 10