Nghiên cứu truy vấn tối ưu cơ sở dữ liệu phân tán và ứng dụng

98 43 0
Nghiên cứu truy vấn tối ưu cơ sở dữ liệu phân tán và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU TRUY VẤN TỐI ƯU CƠ SỞ DỮ LIỆU PHÂN TÁN VÀ ỨNG DỤNG VƯƠNG THU TRANG HÀ NỘI - 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SĨ NGHIÊN CỨU TRUY VẤN TỐI ƯU CƠ SỞ DỮ LIỆU PHÂN TÁN VÀ ỨNG DỤNG VƯƠNG THU TRANG CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60480201 NGƯỜI HƯỚNG DẪN KHOA HỌC TS TRƯƠNG TIẾN TÙNG HÀ NỘI - 2015 LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tác giả luận văn Vương Thu Trang i LỜI CẢM ƠN Trên thực tế khơng có thành cơng mà không gắn liền với giúp đỡ, hỗ trợ dù hay nhiều, dù trực tiếp hay gián tiếp người khác Trong suốt thời gian từ bắt đầu học tập Viện Đại học Mở Hà Nội đến nay, em nhận nhiều quan tâm, giúp đỡ q Thầy Cơ, gia đình bạn bè Với lòng biết ơn sâu sắc, em xin gửi đến quý Thầy Cô Khoa Đào tạo Sau Đại học Khoa Công nghệ Thông tin với tri thức tâm huyết để truyền đạt vốn kiến thức quý báu cho chúng em suốt thời gian học tập trường Đặc biệt, em xin chân thành cảm ơn TS Trương Tiến Tùng tận tình hướng dẫn em qua buổi học lớp buổi thảo luận lĩnh vực sáng tạo nghiên cứu khoa học Nếu khơng có hướng dẫn, lời khuyên quý báu thầy em nhiều thời gian để hoàn thiện luận văn “Nghiên cứu truy vấn tối ưu sở liệu phân tán ứng dụng” Em xin gửi lời cảm ơn đến gia đình, bạn bè, người bên em, động viên khuyến khích em q trình thực đề tài nghiên cứu Luận văn thực khoảng thời gian không dài, bước đầu vào nghiên cứu, tìm hiểu lĩnh vực nghiên cứu khoa học, kiến thức em hạn chế bỡ ngỡ, luận văn không tránh khỏi thiếu sót Em mong nhận ý kiến đóng góp q báu q Thầy Cơ bạn học lớp để kiến thức em lĩnh vực hoàn thiện Sau cùng, em xin kính chúc q Thầy Cơ thật dồi sức khỏe, niềm tin để tiếp tục thực sứ mệnh cao đẹp truyền đạt kiến thức cho hệ mai sau Trân trọng! Tác giả luận văn Vương Thu Trang ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH HÌNH VẼ vi MỞ ĐẦU CHƯƠNG GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Cơ sở liệu phân tán hệ quản trị sở liệu phân tán 1.2 Tầm quan trọng hệ sở liệu phân tán 1.3 Các đặc điểm hệ sở liệu phân tán 1.3.1 Điều khiển tập trung 1.3.2 Độc lập liệu 1.3.3 Giảm dư thừa liệu 10 1.3.4 Độ tin cậy qua giao dịch phân tán 10 1.3.5 Cải tiến hiệu 11 1.3.6 Dễ dàng mở rộng hệ thống 11 1.4 Mơ hình tham chiếu sở liệu phân tán 12 1.4.1 Lược đồ tổng thể .13 1.4.2 Lược đồ phân mảnh .13 1.4.3 Lược đồ cấp phát .13 1.4.4 Lược đồ ánh xạ cục 14 1.4.5 DBMS trạm cục độc lập 14 1.5 Kiến trúc logic hệ quản trị sở liệu phân tán 14 1.6 Lợi ích phân tán liệu mạng 15 Kết luận chương 16 CHƯƠNG PHƯƠNG PHÁP TỐI ƯU HÓA TRUY VẤN CƠ SỞ DỮ LIỆU PHÂN TÁN 17 2.1 Xử lý truy vấn sở liệu phân tán 17 iii 2.1.1 Khái niệm truy vấn 17 2.1.2 Tầm quan trọng việc xử lý truy vấn sở liệu phân tán .17 2.1.3 Vấn đề xử lý truy vấn sở liệu phân tán 18 2.1.4 Đặc trưng xử lý truy vấn 20 2.1.5 Quy trình xử lý truy vấn 24 2.2 Tối ưu hóa truy vấn sở liệu phân tán .25 2.2.1 Phân rã truy vấn 25 2.2.2 Cục hóa liệu phân tán 31 2.2.3 Phương pháp tiêu chí đánh giá tối ưu truy vấn phân tán 35 2.2.4 Thuật tốn tối ưu hóa câu truy vấn SDD-1 .42 Kết luận chương 45 CHƯƠNG ỨNG DỤNG THỬ NGHIỆM TRÊN CƠ SỞ DỮ LIỆU PHÂN TÁN QUẢN LÝ SINH VIÊN TẠI VIỆN ĐẠI HỌC MỞ HÀ NỘI 48 3.1 Mơ hình phân tán liệu Viện Đại học Mở Hà Nội 48 3.1.1 Đặc điểm tổ chức Viện Đại học Mở Hà Nội 48 3.1.2 Mơ hình sở liệu phân tán hệ thống quản lý sinh viên Viện Đại học Mở Hà Nội 49 3.1.3 Một số nghiệp vụ xử lý hệ thống 49 3.2 Xây dựng từ điển truy vấn .50 3.3 Yêu cầu tối ưu hóa truy vấn 51 3.3.1 Yêu cầu cài đặt 51 3.3.2 Thực tối ưu truy vấn 52 3.3.3 Phân tích so sánh kết truy vấn .82 Kết luận chương 88 KẾT LUẬN 88 TÀI LIỆU THAM KHẢO 90 iv DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT TT Viết tắt CSDL Cơ sở liệu CSDLPT Cơ sở liệu phân tán CTĐT Chương trình đào tạo DBMS DDBS Distributed database system Hệ sở liệu phân tán Distributed Distributed database Hệ quản trị sở liệu DBMS management system phân tán Tiếng Anh Database management system Tiếng Việt Hệ quản trị sở liệu HSSV Hồ sơ sinh viên SV Sinh viên v DANH SÁCH HÌNH VẼ Hình 1.1: Hệ đa xử lý có nhớ chung Hình 1.2: Hệ đa xử lý có đĩa chung .3 Hình 1.3: Hệ đa xử lý sở hữu cá nhân Hình 1.4: CSDL trung tâm mạng .5 Hình 1.5: Mơi trường hệ CSDL phân tán .5 Hình 1.6: Xử lý liệu truyền thống Hình 1.7: Xử lý sở liệu Hình 1.8: Mơ hình tham chiếu sở liệu phân tán .12 Hình 2.1: Độ phức tạp phép toán quan hệ 20 Hình 2.2: Lược đồ phân tầng tổng quát để xử lý truy vấn phân tán 25 Hình 2.3: Truyền tốn hạng phép tốn hai ngơi 41 Hình 2.4: Các giai đoạn việc đánh giá câu truy vấn phân tán .45 Hình 3.1: Cơ sở liệu thực truy vấn tối ưu 49 Hình 3.2: Biểu đồ so sánh kết truy vấn thường truy vấn có tối ưu .87 vi MỞ ĐẦU Lý chọn đề tài Trong thời đại công nghệ thông tin, việc lưu trữ xử lý liệu máy tính ln chiếm ưu dần thay việc lưu trữ liệu giấy tờ trước Tuy nhiên với việc sở liệu ngày đồ sộ tìm giải pháp tối ưu cho việc lưu trữ vấn tin vấn đề cấp thiết, với hệ thống có phạm vi rộng, có tính phân tán Đã có nhiều nghiên cứu tối ưu hóa truy vấn sở liệu phân tán, dựa mơ hình phân tán liệu thiết kế phục vụ công tác quản lý đào tạo Viện Đại học Mở Hà Nội, luận văn nghiên cứu vấn đề tối ưu hóa truy vấn sở liệu phân tán xây dựng hệ thống truy vấn nhằm nâng cao chất lượng phục vụ đáp ứng kịp thời yêu cầu sử dụng người dùng Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu phương pháp tối ưu xử lý truy vấn cho sở liệu phân tán Phạm vi nghiên cứu tập trung nghiên cứu lý thuyết dựa mơ hình phân tán liệu thiết kế Viện Đại học Mở Hà Nội Phương pháp nghiên cứu Phương pháp lý thuyết kết hợp với phương pháp thực nghiệm Nghiên cứu lý thuyết CSDL phân tán, kỹ thuật truy vấn sách, báo công bố Tổng hợp kết công bố truy vấn tối ưu đề xuất số cải tiến thực tối ưu hóa truy vấn phân tán Các kết dự kiến đạt - Giới thiệu CSDL phân tán - Trình bày phương pháp, thuật tốn tối ưu hóa truy vấn phân tán - Cài đặt thử nghiệm thuật toán tối ưu truy vấn phân tán - Những kết dự kiến luận văn góp phần phục vụ cho việc truy vấn sở liệu phân tán Viện Đại học Mở Hà Nội hiệu CHƯƠNG GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Cơ sở liệu phân tán hệ quản trị sở liệu phân tán Chúng ta định nghĩa CSDL phân tán [1] tập hợp nhiều CSDL có liên đới logic phân bố mạng máy tính Vậy hệ quản trị sở liệu phân tán (distributed database management system, viết tắt distributed DBMS) định nghĩa hệ thống phần mềm cho phép quản lý hệ CSDL phân tán làm cho việc phân tán trở nên suốt người sử dụng Hai yếu tố quan trọng định nghĩa "liên đới logic" "phân bố mạng máy tính" Chúng loại bỏ số trường hợp thừa nhận biểu thị cho hệ CSDL phân tán Một hệ sở liệu phân tán (distributed database system, viết tắt DDBS) tập hợp tập tin liệu lưu riêng rẽ nút mạng máy tính Để tạo hệ CSDL phân tán, tập tin khơng có liên đới logic mà chúng cịn phải có cấu trúc truy xuất, qua giao diện chung Chúng ta cần nhấn mạnh gần có nhiều nỗ lực cung cấp đặc thù chức DBMS liệu bán cấu trúc (semi-structured data), lưu tập tin Internet (chẳng hạn thông qua trang Web) Đơn vị xử lý Đơn vị xử lý Bộ nhớ Hệ thống xuất nhập Hình 1.1: Hệ đa xử lý có nhớ chung Đơn vị xử lý Kết : Truy vấn thường Truy vấn tối ưu + Truy vấn 12: Cho biết danh sách SV thỏa mãn số yêu cầu sau: Trúng tuyển ngành Công Nghệ Thông Tin, điểm trúng tuyển nằm khoảng từ 20 đến 30 điểm, tôn giáo không, thuộc khu vực khu vực 2, 2NT Ta có câu truy vấn thường sau : SELECT * FROM database1.tbl_sinhvien INNER JOIN database1.tbl_ttsinhvien ON database1.tbl_sinhvien.ma_sv = database1.tbl_ttsinhvien.ma_sv INNER JOIN database1.tbl_diemthidh ON database1.tbl_diemthidh.ma_sv = database1.tbl_ttsinhvien.ma_sv WHERE database1.tbl_sinhvien.nganh_tt = '10' AND database1.tbl_diemthidh.diem_thidh BETWEEN 20 AND 30 AND database1.tbl_ttsinhvien.madm_tongiao = 'khong' AND database1.tbl_sinhvien.khuvuc_sv != '3' UNION SELECT * FROM database2.tbl_sinhvien 76 INNER JOIN database2.tbl_ttsinhvien ON database2.tbl_sinhvien.ma_sv = database2.tbl_ttsinhvien.ma_sv INNER JOIN database2.tbl_diemthidh ON database2.tbl_diemthidh.ma_sv = database2.tbl_ttsinhvien.ma_sv WHERE database2.tbl_sinhvien.nganh_tt = '10' AND database2.tbl_diemthidh.diem_thidh BETWEEN 20 AND 30 AND database2.tbl_ttsinhvien.madm_tongiao = 'khong' AND database2.tbl_sinhvien.khuvuc_sv != '3' Phân tích câu truy vấn thường dạng đại số quan hệ : Π( σdatabase1.tbl_diemthidh.diem_thidh >= 20 ∧ database1.tbl_diemthidh.diem_thidh =< 30 ∧ database1.tbl_ttsinhvien.madm_tongiao = “khong” ∧ database1.tbl_sinhvien.nganh_tt = “10” (database1.tbl_sinhvien ⋈database1.tbl_sinhvien.ma_sv=database1.tbl_diemthidh.ma_sv database1.tbl_diemthihd ⋈database1.tbl_sinhvien.ma_sv=database1.tbl_ttsinhvien.ma_sv database1.tbl_ttsinhvien )) ∪ Π( σdatabase2.tbl_diemthidh.diem_thidh >= 20 ∧ database2.tbl_diemthidh.diem_thidh =< 30 ∧ database2.tbl_ttsinhvien.madm_tongiao = “khong” ∧ database2.tbl_sinhvien.nganh_tt = “10” (database2.tbl_sinhvien ⋈database2.tbl_sinhvien.ma_sv=database2.tbl_diemthidh.ma_sv database2.tbl_diemthihd ⋈database2.tbl_sinhvien.ma_sv=database2.tbl_ttsinhvien.ma_sv database2.tbl_ttsinhvien )) Cách tối ưu cho truy vấn ta làm sau: Chọn SV trúng tuyển ngành CNTT, chọn SV khác khu vực 3, chọn tiếp SV khơng theo tơn giáo từ chọn có điều kiện để đưa liệu cuối Ta có câu lệnh truy vấn tối ưu : SELECT * FROM ( SELECT * FROM database1.tbl_sinhvien WHERE database1.tbl_sinhvien.nganh_tt = '10' AND database1.tbl_sinhvien.khuvuc_sv != '3') AS xuly0, ( SELECT * FROM database1.tbl_ttsinhvien WHERE database1.tbl_ttsinhvien.madm_tongiao = 'khong') AS xuly1, 77 ( SELECT * FROM database1.tbl_diemthidh WHERE database1.tbl_diemthidh.diem_thidh BETWEEN 20 AND 30 ) AS xuly2 WHERE xuly0.ma_sv = xuly1.ma_sv AND xuly1.ma_sv = xuly2.ma_sv UNION SELECT * FROM ( SELECT * FROM database2.tbl_sinhvien WHERE database2.tbl_sinhvien.nganh_tt = '10' AND database2.tbl_sinhvien.khuvuc_sv != '3') AS xuly0, ( SELECT * FROM database2.tbl_ttsinhvien WHERE database2.tbl_ttsinhvien.madm_tongiao = 'khong') AS xuly1, ( SELECT * FROM database2.tbl_diemthidh WHERE database2.tbl_diemthidh.diem_thidh BETWEEN 20 AND 30 ) AS xuly2 WHERE xuly0.ma_sv = xuly1.ma_sv AND xuly1.ma_sv = xuly2.ma_sv Kết : Truy vấn thường Truy vấn tối ưu 78 + Truy vấn 13: Lấy thơng tin chi tiết SV có điểm trúng tuyển cao theo ngành(thủ khoa ngành) Ta có câu truy vấn thường sau : SELECT*FROM database1.tbl_sinhvien,database1.tbl_diemthidh, (SELECT database1.tbl_sinhvien.nganh_tt,MAX(database1.tbl_diemthidh.d iem_thidh) AS diem FROM database1.tbl_sinhvien INNERJOIN database1.tbl_diemthidh ON database1.tbl_sinhvien.ma_sv = database1.tbl_diemthidh.ma_sv GROUP BY database1.tbl_sinhvien.nganh_tt ) as thukhoa1 WHERE database1.tbl_sinhvien.ma_sv = database1.tbl_diemthidh.ma_sv AND database1.tbl_sinhvien.nganh_tt = thukhoa1.nganh_tt AND thukhoa1.diem = database1.tbl_diemthidh.diem_thidh UNION SELECT*FROM database2.tbl_sinhvien,database2.tbl_diemthidh, (SELECT database2.tbl_sinhvien.nganh_tt,MAX(database2.tbl_diemthidh.d iem_thidh)AS diem FROM database2.tbl_sinhvien INNER JOIN database2.tbl_diemthidh ON database2.tbl_sinhvien.ma_sv = database2.tbl_diemthidh.ma_sv GROUP BY database2.tbl_sinhvien.nganh_tt ) as thukhoa2 WHERE database2.tbl_sinhvien.ma_sv = database2.tbl_diemthidh.ma_sv AND database2.tbl_sinhvien.nganh_tt = thukhoa2.nganh_tt AND thukhoa2.diem = database2.tbl_diemthidh.diem_thidh Phân tích câu truy vấn thường dạng đại số quan hệ : Π ( σmax(database1.tbl_diemthidh.diem_thidh) as “diem”( database1.tbl_diemthidh⋈database1.tbl_sinhvien.ma_sv=database1.dm_diemthidh.ma _sv database1.tbl_sinhvien)as “thukhoa1”) 79 ∪ Π ( σmax(database2.tbl_diemthidh.diem_thidh) as “diem”( database2.tbl_diemthidh⋈database2.tbl_sinhvien.ma_sv=database2.dm_diemthidh.ma _sv database2.tbl_sinhvien)as “thukhoa1”) Giải pháp tối ưu cần đưa ta lấy tất thông tin từ truy vấn khác trả kết điểm cao khoa sau ta sử dụng phép chọn có điều kiện thay cho phép nối hai bảng Mục đích để lấy ghi thỏa mãn điều kiện trước để giảm thiệu dung lượng đệm chứa cho hệ thống từ giảm thời gian truy vấn cho câu lệnh truy vấn sau Ta có câu lệnh truy vấn tối ưu : SELECT*FROM database1.tbl_sinhvien,database1.tbl_diemthidh, (SELECT database1.tbl_sinhvien.nganh_tt,MAX(database1.tbl_diemthidh.d iem_thidh)AS diem FROM database1.tbl_sinhvien, database1.tbl_diemthidh WHERE database1.tbl_sinhvien.ma_sv = database1.tbl_diemthidh.ma_sv GROUPBY database1.tbl_sinhvien.nganh_tt )as thukhoa1 WHERE database1.tbl_sinhvien.ma_sv = database1.tbl_diemthidh.ma_sv AND database1.tbl_sinhvien.nganh_tt = thukhoa1.nganh_tt AND thukhoa1.diem = database1.tbl_diemthidh.diem_thidh UNION SELECT*FROM database2.tbl_sinhvien,database2.tbl_diemthidh, (SELECT database2.tbl_sinhvien.nganh_tt,MAX(database2.tbl_diemthidh.d iem_thidh)AS diem FROM database2.tbl_sinhvien, database2.tbl_diemthidh WHERE database2.tbl_sinhvien.ma_sv = database2.tbl_diemthidh.ma_sv GROUPBY database2.tbl_sinhvien.nganh_tt )as thukhoa2 WHERE database2.tbl_sinhvien.ma_sv = database2.tbl_diemthidh.ma_sv 80 AND database2.tbl_sinhvien.nganh_tt = thukhoa2.nganh_tt AND thukhoa2.diem = database2.tbl_diemthidh.diem_thidh Kết : Truy vấn thường Truy vấn tối ưu 81 3.3.3 Phân tích so sánh kết truy vấn Tốc độ Tốc độ Truy vấn Độ thường tối ưu chênh (s) (s) lệch (s) Phân tích Với truy vấn liệu chọn lớn sử dụng phép chọn có điều kiện tiết Truy vấn kiệm nhớ việc sử dụng phép (Lấy tất thông tin 0.055 0.052 0.003 SV nối câu lệnh truy vấn Bằng cách ta tiết kiệm 0.003s cho tốc độ truy vấn, số database) nhỏ liệu lớn tiết kiệm thời gian truy vấn Thay việc nối Truy vấn bảng liên quan ta nên chọn (Thống kê ghi thỏa mãn SV số điều kiện trước, cụ thể thuộc khu truy vấn ta phải tính vực cộng điểm 0.036 0.018 0.018 ưu tiên toán điểm gốc SV, tiếp tục ta chọn SV thuộc khu vực 1, để giảm thiểu nhớ đệm đưa điểm thực thi truy vấn Lợi ích viết thực truy vấn theo giải thuật giúp chưa ta tiết kiệm 1/2 thời gian truy cộng) vấn 82 Với truy vấn ta chọn Truy vấn SV có điểm số lớn (Cho xem 22, sau thực truy vấn danh sách liệu thỏa mãn nhỏ nhiều, SV có điểm 22 điểm 0.14 0.015 0.125 từ kết ta lại chọn SV có ngành khác ngành khơng 15,61,62,63,71 Thời gian truy tính điểm vấn thể rõ nét truy vấn nhân đôi) tối ưu thực vòng 0,015s Trước tiên ta chọn SV có điểm trúng tuyển lớn 20 Truy vấn nhằm mục đích giảm lượng liệu (Cho biết trước làm bước tiếp theo, sau SV ta chọn SV chưa cập cần phải cập nhật email có khu vực khác khu nhật email thuộc khu 0.025 0.02 0.005 vực dùng phép chọn có điều kiện để đưa kết mong muốn vực 2, 2NT, Kết cách tối ưu tiết có điểm kiệm 0,005s so với truy vấn trúng tuyển thường, liệu lớn 20) thời gian tiết kiệm không đáng kể liệu lớn truy vấn tối ưu phát huy tác dụng Truy vấn Giải pháp để tối ưu truy vấn (Cho biết ta chọn trước SV chưa có danh sách 0.063 0.008 0.055 email, sau từ SV khơng có SV chưa có email ta lại tiếp tục chọn có điều số điện thoại kiện ghi có số điện thoại 83 số điện có độ dài khơng vượt q 11 hay 10 thoại khơng ký tự Từ đưa kết hợp lệ có mong muốn, giảm thiểu đệm địa trình xử lý truy vấn Tốc email) độ truy vấn tối ưu thể nửa tốc độ truy vấn thường Truy vấn (Cho biết danh sách Trước tiên ta chọn những SV SV khác khu vực để giảm vào Đoàn, thiểu ghi xuống, sau ta tiếp vào tục ta tìm kiếm SV vào Đảng thuộc khu vực 0.104 0.019 0.085 Đoàn, Đảng Câu lệnh Like ảnh hưởng đến tốc độ xử lý truy vấn, NT, tiếp ta lại chọn SV có khối có điểm thi ngành CNTT ngành ĐTTT trúng tuyển từ điều kiện ta chọn có 25 điểm điều kiện để thu kết theo khối thi A,A1) Truy vấn Giải pháp cho câu truy vấn ta (Cho biết thay phép nối phép chọn thơng tin chi có điều kiện để giảm thiểu thời gian tiết SV với số điểm 0.067 0.063 0.004 truy vấn, tốc độ phép chọn có điều kiện nhanh tốc độ bao nhiêu, phép nối hai bảng Kết truy đỗ vào vấn tối ưu tiết kiệm 0,004s ngành nào) so với truy vấn thường 84 Trước tiên ta lấy danh sách Truy vấn SV có khiếu hát trước, sau (Cho biết số bước ta thu SV lượng SV có có khiếu hát, ta khiếu hát 0.055 0.004 0.051 ngành chọn SV có năm sinh 1997 từ ta nối kết hai truy vấn chọn có điều kiện để đưa SV kết cuối Chênh lệch phải sinh truy vấn tối ưu so với truy vấn năm 1997) thường 0,051s Truy vấn (Cho biết Giải pháp tối ưu cho truy vấn ta danh sách tiến hành lấy SV SV có năm có điểm thi lớn 25, sau tiếp sinh khác tục lấy SV có năm sinh năm 1997 có điểm 0.492 0.01 0.482 khác năm 1997 có khu vực khác khu vực từ ta chọn có điều trúng tuyển kiện từ hai kết Chênh lệch 25 truy vấn lớn, tốc độ điểm, thuộc truy vấn tối ưu nhanh hẳn khu vực 0,3s so với truy vấn thường 1,2,2NT) Truy vấn 10 Trước tiên ta chọn SV có (Cho biết điểm thi lớn 28 điểm, danh sách SV trúng tuyển sau ta lấy SV thuộc khu 0.256 0.017 0.239 vực 3, tiếp tục ta lấy tiếp SV có dân tộc dân tộc Kinh, sau ta khơng chọn có điều kiện SV cộng điểm xuất kết trả từ ưu tiên, 85 dân tộc Kinh, truy vấn Kết truy vấn có điểm tối ưu 0,017s để trả kết trúng tuyển quả, truy vấn thường lớn 28 0,256s trả kết điểm) Truy vấn 11 Giải pháp tối ưu ta cần đưa thay (Thống kê ta chọn phép nối hai bảng lúc danh sách ta chuyển phép chọn có điều SV 0.008 0.006 0.002 kiện để giảm thiểu thời gian truy vấn trúng tuyển phép nối tốn nhiều thời gian Càng nhiều liệu truy Khoa) vấn tối ưu tiết kiệm thời gian Truy vấn 12 (Cho biết danh sách SV thỏa mãn số yêu cầu sau: Chọn SV trúng tuyển Trúng tuyển ngành CNTT, chọn SV khác ngành CNTT, điểm trúng tuyển khu vực 3, chọn tiếp SV 0.326 0.012 0.314 không theo tôn giáo từ chọn có điều kiện để đưa liệu cuối nằm Chênh lệnh hai truy vấn khoảng từ 20 khoảng 0,3s đến 30 điểm, tôn giáo không, thuộc khu vực khu vực 2, 2NT) 86 Giải pháp tối ưu cần đưa ta lấy tất thông tin từ truy vấn khác trả kết điểm cao Truy vấn 13 Khoa sau ta sử dụng (Lấy thơng phép chọn có điều kiện thay cho tin chi tiết phép nối hai bảng Mục đích để lấy ghi thỏa mãn SV có điểm trúng tuyển 0.165 0.028 0.137 cao điều kiện trước để giảm thiểu dung lượng đệm chứa cho hệ thống từ giảm thời gian truy vấn cho câu theo lệnh truy vấn sau Với truy ngành (thủ vấn xếp vào loại khó sử khoa dụng truy vấn tối ưu lựa chọn ngành) sáng suốt mà tiêu tốn 0,028s so với truy vấn thường phải 0,165s để xử lý Hình 3.2: Biểu đồ so sánh kết truy vấn thường truy vấn có tối ưu 87 Kết luận chương Qua mơ hình sở liệu phân tán với đặc thù Viện Đại học Mở Hà Nội việc tối ưu hóa truy vấn sở liệu việc tối ưu đại số quan hệ trình bày chương giải việc tăng tốc độ cho truy vấn Khơng chương cịn đưa phương pháp phân tích truy vấn từ đại số quan hệ, từ đưa nhận xét điều kiện tối ưu, qua giúp tạo tiền đề việc tối ưu truy vấn khác phát sinh trình mở rộng hệ thống Với đặc thù Viện Đại học Mở Hà Nội, thông tin sinh viên lưu trữ nhiều trạm nên truy vấn thông tin ứng dụng cần thông tin nhiều trạm có câu truy vấn phức tạp khó tối ưu ứng dụng sử dụng liệu trạm Các truy vấn sau tối ưu có cấu trúc điều kiện tương đối phức tạp so với câu truy vấn thông thường, nhiên việc thực lại đem lại hiệu mặt tiết kiệm chi phí thời gian nhiều Các truy vấn tùy thuộc độ phức tạp độ lớn liệu mà tiết kiệm thời gian nhiều hay 88 KẾT LUẬN Việc lựa chọn giải pháp khả thi để thực phân tán sở liệu cho phù hợp với yêu cầu thực tế bước quan trọng khởi đầu xây dựng hệ phân tán Một giải pháp phân tán liệu phù hợp làm tăng tốc độ xử lý liệu mang lại hiệu kinh tế cao Trên mơ hình thực tế lý thuyết sở liệu phân tán việc tìm hiểu biện pháp tối ưu hoá truy vấn vấn đề cần thiết Luận văn phần đáp ứng nhu cầu Những kết luận văn bao gồm: - Trình bày nguyên lý chung tối ưu hoá câu truy vấn bao gồm: Các chiến lược tối ưu tổng quát, kỹ thuật tối ưu hoá câu truy vấn thứ tự phép toán biểu thức đại số quan hệ phân rã câu truy vấn thành câu truy vấn - Đánh giá câu truy vấn sở liệu phân tán bao gồm giai đoạn phân rã câu truy vấn, định vị liệu tối ưu hoá câu truy vấn phân tán - Giới thiệu thuật tốn tối ưu hóa truy vấn sở liệu phân tán: thuật toán SDD-1 - Cài đặt thử nghiệm, so sánh phân tích kết truy vấn Hướng phát triển đề tài: Nghiên cứu thêm thuật toán INGRES phân tán, R*, AHY đánh giá độ phức tạp thuật tốn khuyến cáo trường hợp nên dùng thuật toán có hiệu 89 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Phạm Thế Quế (2010), Giáo trình sở liệu phân tán, NXB Thông tin truyền thông, Hà Nội [2] Vũ Đức Thi (1997), Cơ sở liệu - Kiến thức thực hành, NXB Thống kê [3] Nguyễn Bá Tường (2005), Nhập môn sở liệu phân tán, NXB Khoa học kỹ thuật, Hà Nội Tiếng Anh: [4] M Tamer Ozsu - Patrick Vaduriez (1998), Principles of Distributed Database Systems, Hill Book company [5] Stefano Ceri - Giuseppe Pelagatti (1998), Distributed Database Principles and Systems, McGraw Hill Book company 90 ... CHƯƠNG GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Cơ sở liệu phân tán hệ quản trị sở liệu phân tán 1.2 Tầm quan trọng hệ sở liệu phân tán 1.3 Các đặc điểm hệ sở liệu phân tán 1.3.1 Điều... cho người sử dụng xây dựng câu truy vấn thực tối ưu hoá truy vấn hệ sở liệu phân tán DBMS Q trình tối ưu hố truy vấn thực DBMS tập trung liệu phân tán Trong truy vấn phân tán, chi phí truy? ??n thơng... trí cục TỐI ƯU HÓA CỤC BỘ Lược đồ cục Truy vấn cục tối ưu Hình 2.2: Lược đồ phân tầng tổng quát để xử lý truy vấn phân tán 2.2 Tối ưu hóa truy vấn sở liệu phân tán 2.2.1 Phân rã truy vấn Một

Ngày đăng: 08/02/2021, 21:25

Từ khóa liên quan

Mục lục

  •  Sự phát triển của các cơ cấu tổ chức

  •  Hiệu quả công việc

  •  Độ tin cậy và tính sẵn sàng

  •  Độ phức tạp của các thao tác đại số quan hệ

  •  Ngôn ngữ (Languages)

  •  Các kiểu tối ưu hoá (Types of Optimization)

  •  Thời điểm tối ưu hoá (Optimization timing)

  •  Số liệu thống kê (Statistics)

  •  Vị trí quyết định (Decision trạms)

  •  Khai thác cấu hình mạng (Exploitation of Network topology)

  •  Khai thác các mảnh nhân bản (Exploitation of Replicated Fragments)

  •  Sử dụng nửa kết nối (Use of Semijoint)

  •  Bước chuẩn hoá câu truy vấn

  •  Bước phân tích

  •  Bước loại bỏ dư thừa

  •  Rút gọn cho phân mảnh ngang nguyên thuỷ

  •  Rút gọn cho phân mảnh dọc

  •  Rút gọn cho phân mảnh dẫn xuất

  •  Rút gọn phân mảnh hỗn hợp

  •  Đầu vào bộ tối ưu hoá câu truy vấn:

Tài liệu cùng người dùng

Tài liệu liên quan