54 Hình 11: Lược đồ Venn 54 Hình 12: Đoạn i trong thuật toán tối ưu 69 Bảng 3: Liệt kê xác suất truy cập ít nhất một lần 72 Hình 13: Biểu diễn đoạn i với bộ đếm 72 Trang 8 Minterm Pred
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH : CÔNG NGHỆ THÔNG TIN CÁC KỸ THUẬT PHÂN TÁN DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN KOEU SOKMEAK GV HƯỚNG DẪN KHOA HỌC: GS.TS NGUYỄN THÚC HẢI HÀ NỘI-2008 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204940231000000 KOEU SOKMEAK CÔNG NGHỆ THÔNG TIN 2006-2008 Hà nội 2008 LỜI NÓI ĐẦU Lịch sử hệ phân tán bắt nguồn từ phát triển máy tính đa người dùng Sự đời hệ thống mạng LAN tốc độ cao vào kỷ 70s tác động đến phát triển hệ phân tán Các trạm làm việc hệ thống máy chủ định đời hệ phân tán Xu hướng thúc đẩy nhờ việc phát triển phần mềm hệ điều hành ứng dụng phân tán Hệ sở liệu phân tán có phạm vi rộng, từ cung cấp tiện ích tính tốn dùng cho mục đích chung nhiều nhóm người sử dụng đến hệ thống truyền thông đa phương tiện Hệ sở liệu phân tán xây dựng dựa công nghệ bản: (1) sở liệu, (2) mạng máy tính Hệ sở liệu phân tán mơ tả tập hợp nhiều sở liệu có liên quan logic đến phân bố mạng máy tính Cơ sở liệu phân tán giảm chi phí truyền thơng, thời gian đáp ứng nhanh, đảm bảo tính độc lập liệu , tránh dư thừa liệu chia sẻ tài nguyên Trong Khuôn khổ luận văn này, em đề cập đến sở lý thuyết phương pháp, thuật tốn sử dụng q trình phân tán liệu Luận văn hoàn thành nhờ vào hướng dẫn tận tình GS.TS Nguyễn Thúc Hải, Khoa CNTT, Trường ĐHBKHN Em xin trân trọng cảm ơn Thầy GS.TS Nguyễn Thúc Hải hướng dẫn bảo tạo điều kiện thuận lợi cho em hoàn hành luận văn Một lần em xin cảm ơn thầy cô Khoa CNTT, TTSĐH, Trường ĐHBKHN giảng dạy suốt thời gian qua, đặc biệt xin cảm ơn Chính phủ Cộng hịa Xã hội Chủ nghĩa Việt Nam tạo điều kiện hội tốt cho em hồnh thành học tập Hà Nội :Tháng 11 Năm 2008 Học viên: Koeu Sokmeak MỤC LỤC Trang LỜI NÓI ĐẦU TÓM TẮT LUẬN VĂN MỤC LỤC BẢNG VÀ HÌNH VẼ BẢNG CÁC TỪ VIẾT TẮT& TỪ KHÓA PHẦN 1: GIỚI THIỆU CSDL PHÂN TÁN VÀ SỰ PHÂN TÁN DỮ LIỆU CHƯƠNG 1: TỔNG QUAN VỀ HỆ CSDL PHÂN TÁN ĐỊNH NGHĨA: CÁC ĐẶC ĐIỂM CSDL PHÂN TÁN SO VỚI CSDL TẬP TRUNG: PHÂN LOẠI CSDL PHÂN TÁN: 13 XU THẾ PHÁT TRIỂN CSDL PHÂN TÁN: 18 CHƯƠNG : CÁC KHÁI NIỆM PHÂN TÁN DỮ LIỆU 20 LÝ DO PHÂN ĐOẠN : 20 CÁC KIỂU PHÂN ĐOẠN: 21 MỨC ĐỘ PHÂN ĐOẠN: 22 CÁC QUY TẮC PHÂN ĐOẠN ĐÚNG ĐẮN: 22 CÁC KIỂU CẤP PHÁT: 23 PHẦN II: CÁC KỸ THUẬT PHÂN TÁN DỮ LIỆU 25 CHƯƠNG 3: KỸ THUẬT PHÂN ĐOẠN: 26 3.1 PHÂN ĐOẠN NGANG: 26 3.1.1 YẾU CẦU THÔNG TIN VỀ PHÂN ĐOẠN NGANG : 26 3.1.1.1: THÔNG TIN VỀ CƠ SỞ DỮ LIỆU : 26 3.1.1.2 THÔNG TIN ỨNG DỤNG: 29 3.1.2 PHÂN LOẠI PHÂN ĐOẠN NGANG: 32 3.1.2.1 PHÂN ĐOẠN NGANG NGUYÊN THỦY: 32 3.1.2.1.1 THUẬT TOÁN COM-MIN: 36 3.1.2.1.2 THUẬT TOÁN PHORIZONTAL: 38 3.1.2.2 PHÂN ĐOẠN NGANG DẪN XUẤT: 42 3.1.3 KIỂM ĐỊNH TÍNH ĐÚNG ĐẮN CỦA PHÂN ĐOẠN NGANG 48 3.2 PHƯƠNG PHÁP PHÂN ĐOẠN DỌC AVP[13] 50 3.2.1 CÁC LÝ DO CHỌN AVP 50 3.2.2 CÁC YÊU CẦU VỀ THÔNG TIN 52 3.2.3 MƠ HÌNH CHI PHÍ 53 3.2.4 THUẬT TOÁN PHÂN ĐOẠN DỌC AVP 54 3.2.4.1 GIAI ĐOẠN XÂY DỰNG CÂY PT 55 3.2.4.2 GIAI ĐOẠN TRÍCH KẾT QUẢ CÁC ĐOẠN DỮ LIỆU: 61 3.2.5 TÓM TẮT 65 CHƯƠNG 4: KỸ THUẬT PHÂN BỐ DỮ LIỆU 66 4.1 MỞ ĐẦU : 66 4.2 MƠ HÌNH VÀ MỘT SỐ VẤN ĐỀ CƠ BẢN LIÊN QUAN ĐẾN PHÂN BỐ DỮ LIỆU 67 4.2.1 ĐẶT RA BÀI TOÁN 67 4.2.2 YÊU CẦU THÔNG TIN 69 4.2.2.1 THÔNG TIN VỀ CSDL 69 4.2.2.2 THÔNG TIN VỀ ỨNG DỤNG 69 4.2.2.3 THÔNG TIN VỀ CÁC TRẠM: 70 4.2.2.4 THÔNG TIN VỀ MẠNG: 4.2.3 MƠ HÌNH PHÂN BỐ DỮ LIỆU 70 70 4.3 PHƯƠNG PHÁP HEURISTIC ĐỐI VỚI PHÂN BỐ DỮ LIỆU ĐỘNG[11] 73 4.3.1 THUẬT TOÁN PHÂN BỐ TỐI ƯU(BRUNSTORM) 73 4.3.1.1 ƯU ĐIỂM CỦA THUẬT TOÁN: 76 4.3.1.2 NHƯỢC ĐIỂM CỦA THUẬT TOÁN: 76 4.3.2 THUẬT TỐN NGƯỠNG(TRESHOLD) 77 4.4 TĨM TẮT: 83 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84 KẾT LUẬN : 84 HƯỚNG PHÁT TRIỂN : 84 CÁC TÀI LIỆU THAM KHẢO 85 BẢNG VÀ HÌNH VẼ Trang Hình Mơ hình hệ CSDL phân tán đơn giản Hình 2: Kiến trúc hệ CSDL phân tán 10 Hình 3: Phân đoạn quan hệ tổng thể R 11 Hình 4: Phân loại hệ CSDL phân tán theo kiến trúc 12 Hình : So sánh lựa chọn nhân 19 Hình 6: CSDL mẫu 23 Hình : Biểu diễn mối liên hệ quan hệ nhờ đường nối 23 Hình 8: Mơ tả BVP 46 Hình : Cây phân đoạn PT 51 Bảng : Tần xuất để truy xuất đoạn truy vấn 52 Hình 10: Xây dựng PT 53 Bảng 2: Các lợi nhuận bước PT hình 54 Hình 11: Lược đồ Venn 54 Hình 12: Đoạn i thuật tốn tối ưu 69 Bảng 3: Liệt kê xác suất truy cập lần 72 Hình 13: Biểu diễn đoạn i với đếm 72 Hình 14 : Os hàm xs hệ thống có trạm 75 Hình 15 : Đồ thị đường cong thay đổi ngưỡng 76 BẢNG CÁC TỪ VIẾT TẮT& TỪ KHÓA Simple Predicate Minterm Predicate Miniterm selectivity Sel Access Frequency Relation Minterm Fragement Completeness Minimality Nonrelevant Attribute Usage Value aff(A,B) Physical Site Virtual Site Assign Assign set Query Processing Cost QPC Site Tranmission Cost STC Data Allocation Problem DAP File Allocation Problem FAP Processing Cost PC Tranmission Cost TC AC Integrity Enforcement Cost IE Concurrency Control Cost CC Attribute Affinity Matrix Partition Vị từ đơn giản Vị từ hội sơ cấp Số lượng truy xuất câu truy vấn Độ tuyển hội sơ cấp Tần số truy xuất Quan hệ Đoạn hội sơ cấp Tính đầy đủ vị từ đơn giản Tính tiểu cực vị từ đơn giản Liên đới Giá trị sử dụng thuộc tính Số đo lực Trạm vật lý Trạm ảo Chỉ định Tập định Chi phí để xử lý câu hỏi Chi phí để lưu trữ đoạn trạm Vấn đề định vị CSDL Vấn đề định vị tệp Chi phí xử lý Chi phí truyền liệu Chi phí truy nhập Chi phí đảm bảo tính tồn vẹn Chi phí điều khiển tương tranh Ma trận lực thuộc tính Phân hoạch Partition Algorithm Fragement Bond Energy Algorithm BEA Derived Horizontal Fragmentation Primary Horizontal Fragmentation Couter Ma trix Adaptive Vertical Partitioning AVP Partition Tree Binary Vertical Partitioning BVP Thuật toán phân hoạch Phân đoạn phân mảnh Thuật toán lượng nối Phân đoạn ngang dẫn xuất Phân đoạn ngang nguyên thủy Ma trận đếm Phân đoạn dọc thích nghi Cây phân đoạn Phân đoạn dọc nhị phân Học viên: Koeu Sokmeak -1- Kỹ thuật Phân tán liệu P H ẦN 1: G I ỚI T H I ỆU C SDL P H ÂN T ÁN VÀ SỰ P H ÂN T ÁN DỮ L I ỆU CHƯƠNG 1: TỔNG QUAN VỀ HỆ CSDL PHÂN TÁN ĐỊNH NGHĨA: Cơ sở liệu phân tán (CSDL phân tán) định nghĩa sau: CSDL phân tán tập CSDL có quan hệ với mặt logic phân bố mạng máy tính Hệ quản trị CSDL phân tán hệ thống phần mềm cho phép quản trị CSDL phân tán làm cho phân tán trơng suốt người sử dụng [1] Định nghĩa nhấn mạnh hai khía cạnh quan trọng CSDL phân tán: 1- Tính phân tán, thực tế liệu khơng cư trú trạm, phân biệt CSDL phân tán với CSDL tập trung 2- Sự tương quan lôgic, liệu có số tính chất ràng buộc lẫn phân biệt CSDL phân tán với tập CSDL địa phương với tệp cư trú trạm khác mạng CÁC ĐẶC ĐIỂM CSDL PHÂN TÁN SO VỚI CSDL TẬP TRUNG: Để dễ xem xét đặc điểm hệ CSDL phân tán ta xét chúng thông qua đặc điểm hệ CSDL tập trung: • Điều khiển tập trung: Viện Sau Đại Học, Khoa CNTT, Trường Đại Học Bách Khoa Hà nội GV Hướng Dẫn Khoa Học: GS.TS Nguyễn Thúc Hải