Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 101 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
101
Dung lượng
1,79 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN PHẠM THỊ THU HUYỀN TỐI ƯU HÓA TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỒN VĂN BAN Thái Nguyên - 2010 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN PHẠM THỊ THU HUYỀN TỐI ƯU HÓA TRUY VẤN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN Chuyên nghành: Khoa học máy tính M· sè: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2010 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -1- MỤC LỤC Trang phụ bìa Lời cam đoan Lời cám ơn Mục lục i Danh mục ký hiệu, chữ viết tắt ii Danh mục hình vẽ, ảnh chụp, đồ thị iii PHẦN MỞ ĐẦU 1 Lý chọn đề tài Phạm vi nghiên cứu ứng dụng Ý nghĩa khoa học Phƣơng pháp nghiên cứu Các kết dự kiến đạt đƣợc Chƣơng CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm hệ sở liệu phân tán 1.1.1 Khái niệm 1.1.2 Những ưu điểm sở liệu phân tán 1.1.3 Những nhược điểm sở liệu phân tán 1.2 Các đặc trƣng suốt sở liệu phân tán 1.2.1 Trong suốt phân tán 1.2.2 Trong suốt giao dịch 1.2.3 Trong suốt thất bại 1.2.4 Trong suốt thao tác 1.2.5 Trong suốt tính không 1.3 Kiến trúc tham chiếu sở liệu phân tán 1.4 Các kỹ thuật xây dựng sở liệu phân tán 1.4.1 Phân đoạn 1.4.3 Định vị liệu 13 1.5 Kết luận 14 Chƣơng CÁC NGUYÊN LÝ CHUNG CỦA TỐI ƢU HÓA CÂU TRUY VẤN PHÂN TÁN 15 2.1 Các chiến lƣợc tối ƣu hóa 15 2.2 Các phép biến đổi đại số 16 2.2.1 Các yêu cầu phép biến đổi tối ưu hoá câu truy vấn 16 2.2.2 Biểu thức tương đương 17 2.2.3 Các qui tắc liên quan đến phép kết nối tích Decartes 17 2.2.4 Các qui tắc liên quan đến phép chọn phép chiếu 18 2.2.5 Thuật toán cải tiến biểu diễn biểu thức quan hệ 19 2.3 Phân rã câu truy vấn thành câu truy vấn 24 2.3.1 Đồ thị nối quan hệ 24 2.3.2 Tách câu truy vấn thành câu truy vấn 25 2.3.3 Dùng phép nửa kết nối để giảm kích thước quan hệ 26 2.3.4 Phương pháp thay n-bộ 26 2.4 Các kỹ thuật tối ƣu hóa tập trung 27 2.4.1 Thuật toán INGRES 28 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -2- 2.4.2 Thuật toán SYSTEM R 31 2.5 Kết luận 34 Chƣơng TỐI ƢU HÓA TRUY VẤN PHÂN TÁN 35 3.1 Phân rã câu truy vấn 35 3.1.1 Chuẩn hoá 35 3.1.2 Phân tích 36 3.1.3 Loại bỏ dư thừa 39 3.1.4 Viết lại 40 3.2 Định vị liệu phân tán 42 3.2.1 Rút gọn phân đoạn ngang nguyên thuỷ 43 3.2.2 Rút gọn phân đoạn dọc 46 3.2.3 Rút gọn phân đoạn gián tiếp 47 3.2.4 Rút gọn phân đoạn hỗn hợp 49 3.3 Khái quát xử lý câu truy vấn 50 3.3.1 Vấn đề xử lý truy vấn 51 3.3.2 Các mục tiêu xử lý câu truy vấn 52 3.3.3 Các giai đoạn xử lý câu truy vấn 52 3.4 Tối ƣu hoá truy vấn phân tán 53 3.4.1 Đầu vào tối ưu hoá câu truy vấn 54 3.4.2 Thứ tự kết nối câu truy vấn đoạn 59 3.4.3 Các thuật toán tối ưu hoá câu truy vấn phân tán 65 3.4.3 Kết luận 82 Chƣơng CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN 85 4.1 Xác định thuật toán 85 4.2 Cài đặt thử nghiệm thuật toán tối ƣu truy vấn sở liệu phân tán 85 4.2.1 Cấu trúc CSDL 85 4.2.2 Xây dựng ứng dụng 88 4.3 Kết luận 95 KẾT LUẬN 96 TÀI LIỆU THAM KHẢO 97 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -1- PHẦN MỞ ĐẦU Lý chọn đề tài Xã hội ngày phát triển kèm theo yêu cầu khối lượng thông tin cần xử lý, lưu trữ tăng lên Trên thực tế, doanh nghiệp, đơn vị tổ chức phải phân bố vùng rộng lớn mặt địa lý, dàn trải phạm vi nhiều thành phố, toàn quốc gia hay đến vài quốc gia, chí tồn cầu Do đó, liệu khơng thể lưu trữ tập trung địa điểm định mà rải khắp địa điểm mà quan, tổ chức hay doanh nghiệp hoạt động Khi liệu khơng cịn lưu trữ tập trung vấn đề làm để quản lý, tốc độ truy xuất liệu phục vụ cho công tác chuyên môn không bị ảnh hưởng, không bị gián đoạn đặt Đó tiền đề để sở liệu phân tán đời Khi khối lượng thông tin phải xử lý ngày lớn, phong phú đa dạng vấn đề đặt xử lý thông tin để giảm chi phí đến mức tối thiểu Một giải pháp có tính khả thi phải tối ưu hố câu lệnh truy vấn liệu nên chọn nghiên cứu “Tối ưu hoá truy vấn sở liệu phân tán” làm đề tài luận văn tốt nghiệp Phạm vi nghiên cứu ứng dụng Đề tài nghiên cứu vấn đề sở liệu phân tán, nguyên lý chung, kỹ thuật, thuật toán liên quan đến vấn đề tối ưu hoá truy vấn cài đặt thử nghiệm thuật toán tối ưu truy vấn phân tán Ý nghĩa khoa học Trên sở nghiên cứu mơ hình CSDL phân tán chế truy vấn để xây dựng thuật toán truy vấn tối ưu Những kết dự kiến luận văn góp phần vào việc thiết kế CSDL phân tán phục vụ cho việc truy vấn hiệu Phương pháp nghiên cứu Nghiên cứu lý thuyết CSDL, CSDL phân tán, kỹ thuật truy vấn sách, báo công bố Tổng hợp kết công bố truy vấn tối ưu đề xuất số cải tiến thực tối ưu hóa truy vấn phân tán Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -2- Các kết dự kiến đạt - Giới thiệu tổng quan CSDL phân tán - Trình bày phương pháp, thuật tốn tối ưu hóa truy vấn phân tán - Cài đặt thử nghiệm thuật toán tối ưu truy vấn phân tán Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -3- Chƣơng CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm hệ sở liệu phân tán 1.1.1 Khái niệm Cơ sở liệu phân tán [3] tập hợp liệu phục thuộc lôgic lẫn hệ thống lưu trữ trạm mạng máy tính Cơ sở liệu phân tán làm tăng khả truy nhập tới sở liệu lớn mạng Trong hệ thống máy tính quản lý sở liệu thành phần gọi node site Hệ quản trị sở liệu phân tán (DBMS) phần mềm quản trị sở liệu, đảm bảo suốt người sử dụng cho phép tính tự trị nghĩa sở liệu thành phần quản trị độc lập riêng biệt Định nghĩa nhấn mạnh hai khía cạnh quan trọng sở liệu phân tán - Tính phân tán: Thực tế liệu không cư trú trạm, phân biệt sở liệu phân tán với sở liệu tập trung - Sự tương quan logic: Các liệu có số tính chất ràng buộc lẫn phân biệt sở liệu phân tán với tập sở liệu địa phương với tệp trạm khác mạng 1.1.2 Những ưu điểm sở liệu phân tán Lợi ích sở liệu phân tán liệu sở liệu vật lý riêng biệt tích hợp logic với làm cho nhiều người sử dụng mạng truy nhập [6] Cho phép quản lý liệu với nhiều mức suốt - Trong suốt mạng - phân tán: Hệ quản trị sở liệu phải suốt phân tán theo nghĩa làm cho người sử dụng khơng cần biết vị trí liệu khơng cần biết phức tạp truy cập qua mạng - Trong suốt - Trong suốt phân đoạn Tăng độ tin cậy khả sẵn sàng Độ tin cậy khả hệ thống làm việc (khơng bị ngừng) thời điểm đó, tính sẵn sàng khả hệ thống tiếp tục làm việc khoảng Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -4- thời gian Khi liệu sở liệu phân tán vài trạm, trạm có cố trạm khác hoạt động sử dụng thành phần khác sở liệu Chỉ trạm bị cố, liệu ứng dụng truy cập Để nâng cao độ tin cậy tính sẵn sàng, áp dụng chế tạo nhiều trạm Cải thiện hiệu Một hệ quản trị sở liệu phân tán, phân đoạn sở liệu làm cho liệu lưu giữ gần nơi sử dụng Dữ liệu lưu giữ cục làm giảm cạnh tranh CPU, giảm phục vụ I/O giảm tương tranh truy nhập mạng Dữ liệu phân tán trạm nên dung lượng liệu cục nhỏ hơn, xử lý giao tác truy vấn cục thực tốt Hơn trạm có giao tác số giao tác sở liệu tập trung tăng hiệu suất hệ thống Dễ dàng mở rộng Việc thêm sở liệu mới, tăng kích cỡ sở liệu thêm xử lý môi trường phân tán dễ thêm sở liệu thành phần 1.1.3 Những nhược điểm sở liệu phân tán - Độ phức tạp thiết kế cài đặt hệ thống tăng: Hệ quản trị sở liệu phân tán phải bổ sung thêm chức như: + Theo dõi dấu vết liệu + Xử lý truy vấn phân tán + Quản lý giao dịch phân tán + Phục hồi sở liệu phân tán + Quản lý + Quản lý thư mục - catalog phân tán - Hệ thống phần cứng phức tạp cần có nhiều trạm trạm phải kết nối mạng - Các phần mềm hệ thống đảm bảo quản trị, trì kết nối, trao đổi liệu mạng - Bảo mật khó khăn Ở mức phần cứng vật lý, nhân tố sau để phân biệt hệ Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -5- sở liệu phân tán với hệ sở liệu tập trung [6]: - Có nhiều máy tính gọi trạm hay nút - Các trạm phải kết nối kiểu mạng truyền thông để truyền liệu câu lệnh trạm với nhau, hình 1.1 Hình 1.1 Kiến trúc sở liệu phân tán Trong mơ hình liệu tập trung, tài ngun tập trung máy tính Trong hệ thống sở liệu phân tán, sở liệu chứa nhiều máy tính, máy tính nối với qua hệ thống truyền thông, chúng không chia sẻ nhớ chung không dùng chung đồng hồ Các xử lý hệ thống phân tán có kích cỡ chức khác (chẳng hạn bao gồm vi xử lý, trạm làm việc, máy tính mini, hay máy lớn vạn năng) Trong hệ thống sở liệu phân tán gồm nhiều trạm trạm truy nhập liệu trạm khác 1.2 Các đặc trƣng suốt sở liệu phân tán 1.2.1 Trong suốt phân tán - Cho phép xử lý liệu hệ sở liệu phân tán giống sở liệu tập trung - Người sử dụng không cần biết: Dữ liệu phân đoạn nào, liệu để đâu, vị trí vật lý lưu trữ liệu đâu Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -6- - Trong suốt phân tán thể hiện: + Trong suốt địa điểm: User không cần biết lưu trữ vật lý liệu đâu, truy vấn cần tên đoạn mà khơng cần vị trí + Trong suốt tên: Khi đối tượng đặt tên truy nhập xác khơng cần đặc tả thêm + Trong suốt sao: Sự nhân trình chép trì liệu hệ sở liệu phân tán Cùng liệu (được lưu trữ vật lý vị trí) sử dụng nhiều vị trí khác Các lưu trữ nhiều trạm làm tăng hiệu suất, độ tin cậy tính sẵn sàng hệ thống Các ứng dụng truy nhập liệu trạm mà không cần phải truy cập từ xa giảm truyền tải mạng lớn Hệ thống cho phép tiếp tục thực trạm từ xa có cố Trong suốt đảm bảo user khơng biết liệu ln cập nhật đồng với liệu gốc + Trong suốt phân đoạn: Một quan hệ sở liệu phân tán phân đoạn ngang phân đoạn dọc nghĩa tách thành liệu quan hệ lưu trữ nhiều trạm khác Trong suốt phân đoạn cho phép người sử dụng khơng cần biết có phân đoạn, truy vấn liệu viết sở liệu tập trung 1.2.2 Trong suốt giao dịch Cơ sở liệu phân tán cho phép giao dịch cập nhật, sửa đổi liệu trạm khác Để đảm bảo liệu quán toàn hệ thống, trạm giao dịch ủy thác tất trạm ủy thác thành công roll back trạm bị thất bại 1.2.3 Trong suốt thất bại Đảm bảo trạm hệ thống bị hỏng hệ thống làm việc bình thường (do chế tạo làm việc trạm không bị cố) Nếu mạng hệ thống có cố ủy thác giao dịch sở liệu phân tán giao dịch giải tự động suốt theo nghĩa mạng hệ thống khơi phục tất các trạm ủy thác roll back lại giao tác 1.2.4 Trong suốt thao tác Cho phép câu lệnh thao liệu đơn giản để truy nhập sở Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -83- Hình 3.18: Các giai đoạn việc đánh giá câu truy vấn phân tán Thông tin cần thiết cho định vị (việc định nghĩa phân đoạn quan hệ) lưu trữ lược đồ phân đoạn Việc định vị câu truy vấn phân tán tiến hành thành hai giai đoạn: Phát sịnh câu truy vấn tắc tương đương giản lược Câu truy vấn tắc diễn đạt đoạn, có cách thay quan hệ câu truy vấn phân tán câu truy vấn khơi phục tương ứng Câu truy vấn tắc ứng với câu truy vấn tổng thể minh hoạ dạng đại số quan hệ Nói chung, câu truy vấn tắc có chứa đựng thao tác (phép tốn) vơ ích giản lược nhờ vào qui tắc cổ điển việc cấu trúc đại số lại qui tắc giản ước đặc thù cho kiểu phân đoạn Các qui tắc giản lược cho phép xác định phép tốn vơ ích cho kết rỗng đồng với toán hạng loại bỏ tương ứng Vai trị tối ưu hố xác định chiến lược thực câu truy vấn làm cực tiểu hàm chi phí Bài tốn chọn lựa chiến lược tối ưu cho câu truy vấn NP đầy đủ Để tránh chi phí tối ưu lớn, mục tiêu tối ưu hoá chọn chiến lược gắn với tối ưu hoá tránh chiến lược thực thi tồi Nói chung, hàm chi phí phải cực tiểu tổng thời gian việc thực câu truy vấn, tổng tất thời gian thực giành cho trạm khác tham gia vào câu truy vấn Một hàm chi phí thường dùng thời gian trả lời câu truy vấn, có tính tới xử lý tiến hành song song Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -84- Hàm chi phí sử dụng tối ưu hoá câu truy vấn tập trung tổ hợp thời gian vào - (cho truy nhập đĩa) thời gian tính tốn đơn vị trung tâm, thời gian vào - nhân tố chi phối Trong sở liệu phân tán, hàm chi phí có xét tới thành phần bổ sung: thời gian truyền thông cần thiết cho việc trao đổi liệu trạm tham gia câu truy vấn Thời gian tốn vào việc khởi đầu thu nhận thông báo việc truyền thông báo mạng truyền thông Các định tối ưu hố làm cực tiểu hàm chi phí nhiều Những định quan trọng trình tự thực tối ưu phép kết nối, việc chọn sao, đoạn phải truy nhập, việc chọn trạm thực việc chọn thuật toán thực phân tán Một tối ưu hoá tinh vi chọn lối truyền liệu trạm (chẳng hạn từng tập), giải thuật truy nhập cục Những định đưa vào phương án thực phân tán câu truy vấn Để lấy định đó, tối ưu hoá phải xét nhiều chiến lược thực dự báo chi phí thực Một nhân tố quan ảnh hưởng đến chi phí chiến lược kích thước kết trung gian cần phải truyền từ trạm sang trạm khác Có nhiều thuật toán tối ưu hoá câu truy vấn đề xuất cho sở liệu phân tán, chẳng hạn INGRESS phân tán, System R*, SDD-1, AHY Phương pháp tổng quát vét cạn không gian chiến lược từ có nhiều biến thể Một khía cạnh khác giải thuật tối ưu hoá cách tiếp cận dùng để thực phép kết nối quan hệ lưu trữ trạm khác Một phép kết nối thực tổ hợp nửa kết nối kết thúc phép kết nối Khi thời gian truyền thông nhân tố chi phối chi phí, phép nửa kết nối cho phép cải tiến đáng kể hoạt phép kết nối cách thu nhỏ kích thước quan hệ trung gian trao đổi trạm Việc dùng nửa kết nối thường dẫn tới số phép toán nhiều toán hạng nhỏ Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -85- Chƣơng CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TỐN 4.1 Xác định thuật tốn Bốn thuật toán tối ưu truy vấn sở liệu phân tán trình bày chương bốn thuật toán tiêu biểu cho lớp khác thuật tốn tối ưu hóa truy vấn sở liệu phân tán Nhìn chung, thuật tốn có nhận thơng tin thống kê liệu, kích thước thơng báo, thời gian trả lời tổng chi phí… Dưới đây, em xin cài đặt thử nghiệm thuật tốn R*, thuật tốn tối thiểu hóa tổng chi phí , kích thước thơng báo… 4.2 Cài đặt thử nghiệm thuật toán tối ƣu truy vấn sở liệu phân tán Thuật toán R* mô tả dạng mã giả phần trên, sau phần ứng dụng cài đặt sử dụng thuật toán R* CSDL sử dụng CSDL quản lý sản phẩm bán hàng qua mạng Internet Thông tin lưu CSDL gồm thông tin khách hàng, địa khách hàng, sản phẩm khách hàng đặt mua qua mạng Internet 4.2.1 Cấu trúc CSDL Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -86- Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -87- * Sơ đồ quan hệ bảng sau: Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -88- 4.2.2 Xây dựng ứng dụng Ứng dụng cài đặt với trạm - Trạm 1: gồm bảng Customer (18484 ghi) Geography (655 ghi) - Trạm 2: bảng InternetSales (60398 ghi) - Trạm 3: bảng Product (606 ghi) Diễn giải bước thực thuật toán Bước 1: Phân tách câu hỏi truy vấn thành câu hỏi truy vấn máy trạm Bước 2: Tìm chi phí lớn truyền liệu (bỏ qua tốc độ băng thơng mạng) Chi phí truyền liệu mạng chủ yếu dung lượng bytes cần truy vấn Để giảm chi phí truyền thơng, chi phí máy trạm lớn khơng truyền Thay vào chi phí nhỏ truyền để thực q trình tích hợp liệu * Giao diện chính: Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -89- * Giao diện kết nối trạm Thông tin để kết nối trạm bao gồm: Tên máy trạm (hoặc IP máy trạm), Loại kết nối CSDL (như SQL Server, Mysql, Microsoft Access, Oracle, …), Tên truy cập CSDL, Mật kết nối, Tên CSDL sử dụng * Giao diện kết nối máy trạm Các thơng số có ý nghĩa tương tự với trạm Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -90- * Giao diện kết nối máy trạm Các thơng số có ý nghĩa tương tự với trạm Ứng dụng cho phép truy vấn máy trạm, với câu truy vấn lấy liệu máy đơn lẻ Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -91- 4.2.2.2 Thử nghiệm Truy vấn với câu hỏi sau: Select Customer.GeographyKey, Customer.FirstName, InternetSales.ProductKey, InternetSales.TotalProductCost From Customer, InternetSales Where InternetSales.CustomerKey=Customer.CustomerKey Truy vấn với CSDL tập trung: - Thời gian để thực truy vấn hiển thị là: 828.125 Milliseconds - Số lượng ghi trả 60398 Truy vấn với CSDL phân tán: - Thời gian để thực truy vấn hiển thị là: 1859.375 Milliseconds - Số lượng ghi trả 60398 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -92- Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -93- 4.2.2.2 Thử nghiệm Truy vấn với câu hỏi sau: Select Customer.GeographyKey, Customer.FirstName, InternetSales.ProductKey, InternetSales.TotalProductCost, Product.EnglishProductName From Customer, InternetSales,Product Where InternetSales.CustomerKey=Customer.CustomerKey and Product.ProductKey = InternetSales.ProductKey and Customer.GeographyKey=11 and Product.Color='Silver' Truy vấn với CSDL tập trung: - Thời gian để thực truy vấn hiển thị là: 906.25 Milliseconds - Số lượng ghi trả 17 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -94- Truy vấn với CSDL phân tán: - Thời gian để thực truy vấn hiển thị là: 2390.625 Milliseconds - Số lượng ghi trả 17 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -95- 4.3 Kết luận Đề tài cài đặt thuật toán R* để xử lý phân tán câu truy vấn lựa chọn phương án xử lý câu truy vấn phân tán với chi phí tối ưu từ máy trạm Ứng dụng cho phép thực hiện: - Thực câu truy vấn máy trạm - Thực câu truy vấn CSDL tập trung - Cho phép thực câu truy vấn đơn giản phân tán máy trạm thực cài đặt với thuật toán R * - Đưa thời gian thực câu truy vấn CSDL tập trung phân tán để so sánh Hiện đề tài thực câu truy vấn đơn giản, chưa cho phép phân tán với câu truy vấn lồng Q trình tích hợp liệu có từ máy trạm chưa tối ưu, nên thời gian thực câu truy vấn phân tán chưa nhanh so với CSDL tập trung Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -96- KẾT LUẬN Việc lựa chọn giải pháp khả thi để thực phân tán sở liệu cho phù hợp với yêu cầu thực tế bước quan trọng khởi đầu xây dựng hệ phân tán Một giải pháp phân tán liệu phù hợp làm tăng tốc độ xử lý liệu mang lại hiệu kinh tế cao Trên mơ hình thực tế lý thuyết sở liệu phân tán việc tìm hiểu biện pháp tối ưu hoá truy vấn vấn đề cần thiết Luận văn phần đáp ứng nhu cầu Những kết luận văn bao gồm: - Trình bày nguyên lý chung tối ưu hoá câu truy vấn bao gồm: Các chiến lược tối ưu tổng quát, kỹ thuật tối ưu hoá câu truy vấn thứ tự phép toán biểu thức đại số quan hệ phân rã câu truy vấn thành câu truy vấn - Đánh giá câu truy vấn sở liệu phân tán bao gồm giai đoạn phân rã câu truy vấn, định vị liệu tối ưu hoá câu truy vấn phân tán - Giới thiệu thuật tốn tối ưu hóa truy vấn sở liệu phân tán: Thuật toán INGRES phân tán, thuật toán R*, thuật toán SDD-1 thuật toán AHY - Cài đặt thử nghiệm thuật toán R* Hƣớng phát triển đề tài: Phân tích sâu sắc thuật toán INGRES phân tán, R*, SDD-1, AHY đánh giá độ phức tạp thuật tốn khuyến cáo trường hợp nên dùng thuật toán có hiệu Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -97- TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Nguyễn Kim Anh (2000), Nguyên lý hệ sở liệu, NXB Giáo dục [2] Nguyễn Xuân Huy (2000), Giáo trình sở liệu, Đại học Quốc Gia Hà Nội [3] Vũ Đức Thi (1997), Cơ sở liệu - Kiến thức thực hành, NXB Thống kê [4] Nguyễn Bá Tường (2005), Nhập môn sở liệu phân tán, NXB Khoa học kỹ thuật [5] Khoa CNTT §H KHTN §H Quốc Gia Hà Nội (2008), Hệ sở liệu phân tán Ting Anh: [6] M.TAMER OZSU - PATRICK VALDURIEZ (1998), Principles of Distributed Database Systems, Hill Book company [7] STEFANO CERI - GIUSEPPE PELAGATTI (1998), Distributed Database Principles and Systems, McGraw Hill Book company [8] JULIAN BUNN (2001), Distributed Databases, Center for Advanced Computing Research Caltech [9] DILSAT ABDULLAH (2003), Query Optimization in Distributed Databases, Middle East Technical University Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... Chƣơng CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm hệ sở liệu phân tán 1.1.1 Khái niệm Cơ sở liệu phân tán [3] tập hợp liệu phục thuộc lôgic lẫn hệ thống lưu trữ trạm mạng máy tính Cơ sở liệu phân tán. .. Chƣơng CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 Khái niệm hệ sở liệu phân tán 1.1.1 Khái niệm 1.1.2 Những ưu điểm sở liệu phân tán 1.1.3 Những nhược điểm sở liệu phân tán. .. năng) Trong hệ thống sở liệu phân tán gồm nhiều trạm trạm truy nhập liệu trạm khác 1.2 Các đặc trƣng suốt sở liệu phân tán 1.2.1 Trong suốt phân tán - Cho phép xử lý liệu hệ sở liệu phân tán giống