1. Trang chủ
  2. » Giáo án - Bài giảng

Bài Giảng Cơ Sở Dữ Liệu Phân Tán

155 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 155
Dung lượng 1,5 MB

Nội dung

Microsoft Word Baigiang doc HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CƠ SỞ DỮ LIỆU PHÂN TÁN (Dùng cho sinh viên hệ đào tạo đại học từ xa) Lưu hành nội bộ HÀ NỘI 2009 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN T[.]

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG CƠ SỞ DỮ LIỆU PHÂN TÁN (Dùng cho sinh viên hệ đào tạo đại học từ xa) Lưu hành nội HÀ NỘI - 2009 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG CƠ SỞ DỮ LIỆU PHÂN TÁN Biên soạn : TS PHẠM THẾ QUẾ LỜI NÓI ĐẦU Tài liệu “Cơ sở liệu phân tán” sách hướng dẫn học tập dùng cho sinh viên hệ đào tạo từ xa ngành công nghệ thông tin ngành kỹ thuật điện tử, viễn thông Nội dung tài liệu bao gồm: - Chương I giới thiệu khái niệm sở liệu phân tán, xử lý phân tán vàhệ thống xử lý phân tán Sự cần thiết hệ sở liệu phân tán đặc điểm sở liệu phân tán Cấu trúc logic sở liệu phân tán lợi íchphân tán liệu mạng - Chương II giới thiệu tổng quát hệ quản trị sở liệu phân tán.Ưu điểm cách tiếp cận mơ hình sở liệu quan hệ hệquản trị sở liệu quan hệ Vấn đề quy tắc toàn vẹn liệu Mơ hình kiến trúc hệ quản trị sở liệu phân tán kiến trúc tổng quan hệ quản trị phức hệ CSDL phân tán - Chương III trình bày vấn đề thiết kế sở liệu phân tán,là vấn đề phân mảnh liệu Sự cần thiết phải phân mảnh, kiểu phân mảnh, mức độ phân mảnh, quy tắc phân mảnh toán cấp phát liệu Nội dung chương trình bày tổng quát kỹ thuật phân mảnh ngang sở phân mảnh ngang dẫn xuất Thông tin cần thiết phân mảnh ngang Phương pháp phân mảnh dọc, thông tin cần thiết phân mảnh dọc thuật tốn tụ nhóm phân mảnh Có nhiều tốn cần thiết phải sử dụng lai ghép phân mảnh ngang phân mảnh dọc Bài tốn cấp phát liệu, thơng tin cần thiết cho tốn cấp phát mơ hình cấp phát - Chương IV giới thiệu kiểm soát liệu ngữ nghĩa, q trình kiểm sốt khung nhìn hệ quản trịcơ sử liệu tập trung khung nhìn hệ quản trị sở liệu phân tán Nội dung kiểm soát liệu ngữ nghĩa bao hàm vấn đề an tồn liệu Kiểm sốt cấp quyền tập trung kiểm soát cấp quyền phân tán.Kiểm sốt tồn vẹn ngữ nghĩa tập trung kiểm sốt tồn vẹn ngữ nghĩa phân tán - Chương V đề cập đến vấn đề xử lý truy vấn hệ sở liệu phân tán Khái niệm xử lý truy vấn,mục đích việc xử lý truy vấn giới thiệu tầng trình xử lý truy vấn Tài liệu”Cơ sở liệu phân tán” không đề cập đến vấn đề sở lý thuyết mà cịn trình bày số kỹ cần thiết để thiết kế cài đặt hệ sở liệu cụ thể Hy vọng có ích cho sinh viên người muốn xây dựng hệ thống tin học ứng dụng Tài liệu cịn nhiều thiếu sót biên soạn, tơi mạnh dạn giới thiệu tài liệu mong nhận góp ý bạn đọc Tác giả CHƯƠNG 1: KHÁI NIỆM CƠ BẢN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN Trong chương trình bày khái niệm nguyên lý hệ sở liệu phân tán, bao gồm nội dung sau • Xử lý liệu phân tán • Hệ sở liệu phân tán • Khả hệ sở liệu phân tán • Các mơ hình xử lý liệu phân tán • Tổng quan hệ quản trị sở liệu quan hệ 1.1 MỞ ĐẦU Nguyên lý hệ sở liệu phân tán xây dựng dựa hợp hai hướng tiếp cận q trình xử lý liệu, lý thuyết hệ sở liệu công nghệ mạng máy tính Một động lực thúc đẩy phát triển nhanh việc sử dụng hệ CSDL nhu cầu tích hợp loại liệu, cung cấp đa dạng loại hình dịch vụ dịch vụ đa phương tiện cho người sử dụng Mặt khác, kết nối máy tính thành mạng với mục tiêu chia sẻ tài nguyên, khai thác có hiệu tài ngun thơng tin, nâng cao khả tích hợp trao đổi loại liệu thành phần mạng Nhu cầu thu thập, lưu trữ xử lý trao đổi thông tin bgày tăng, hệ thống xử lý tập trung bộc lộ nhược điểm sau : − Tăng khả lưu trữ thơng tin khó khăn, bị giới hạn tối đa thiết bị nhớ − Độ sẵn sàng phục vụ CSDL không cao số người sử dụng tăng − Khả tính tốn máy tính đơn lẻ dần tới giới hạn vật lý − Mơ hình tổ chức lưu trữ, xử lý liệu tập trung không phù hợp cho tổ chức kinh tế, xã hội có hoạt động rộng lớn, đa quốc gia Những nhược điểm khắc phục nhiều hệ thống phân tán Những sản phẩm hệ thống phân tán xuất nhiều thị trường bước chứng minh tính ưu việt hẳn hệ thống tập trung truyền thống Các hệ thống phân tán thay dần hệ thống tập trung 1.2 XỬ LÝ PHÂN TÁN VÀ HỆ THỐNG XỬ LÝ PHÂN TÁN 1.2.1 Khái niệm xử lý phân tán Thuật ngữ xử lý phân tán thuật ngữ lạm dụng nhiều khoa học máy tính năm vừa qua Nó thường dùng để hệ thống gồm nhiều loại thiết bị khác chẳng hạn như: hệ đa xử lý, xử lý liệu phân tán, mạng máy tính Có hai khái niệm xử lý phân tán liên quan với − Khái niệm liên quan đến việc tính tốn Client/Server Trong ứng dụng chia thành hai phần, phần Server phần Client vận hành hai nơi Trong tính tốn phân tán cho phép truy nhập trực tiếp liệu xử lý liệu Server Client − Khái niệm thứ hai việc thực tác vụ xử lý phức tạp nhiều hệ thống Không gian nhớ xử lý nhiều máy hoạt động chia tác vụ xử lý Máy trung tâm giám sát quản lý tiến trình Có trường hợp thơng qua Internet, hàng nghìn máy xử lý tác vụ Có thể định nghĩa hệ xử lý phân tán sau: Hệ xử lý phân tán tập hợp phần tử xử lý tự trị (không thiêt đồng nhất) kết nối với mạng máy tính phối hợp thực công việc gán cho chúng Phần tử xử lý để thiết bị tính tốn có khả thực chương trình 1.2.2 Hệ thống phân tán Hệ thống phân tán tập hợp máy tính độc lập kết nối với thành mạng máy tính cài đặt hệ sở liệu phần mềm hệ thống phân tán tạo khả cho nhiều người sử dụng truy nhập chia sẻ nguồn thơng tin chung Các máy tính hệ thống phân tán có kết nối phần cứng lỏng lẻo, có nghĩa khơng chia sẻ nhớ, có hệ điều hành tồn hệ thống phân tán Các mạng máy tính xây dựng dựa kỹ thuật Web, ví dụ mạng Internet, mạng Intranet… mạng phân tán 1.3 HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN LÀ GÌ Cơng nghệ hệ sở liệu phát triển từ mơ hình xử lý liệu, ứng dụng định nghĩa hay nhiều tệp liệu riêng (hình 1.1), sang mơ hình định nghĩa quản lý liệu tập trung Dẫn đến khái niệm độc lập liệu, nghĩa tính bất biến hệ ứng dụng thay đổi cấu trúc lưu trữ chiến lược truy nhập liệu Ứng dụng TẬP TIN DỮ Ứng dụng Mô tả liệu Ứng dụng Mô tả liệu TẬP TIN LIỆU THỪA TẬP TIN Hình 1.1: Xử lý liệu truyền thống Ứng dụng Mô tả liệu Ứng dụng Thao tác liệu CƠ SỞ … DỮ LIỆU Ứng dụng Hình 1.2: Xử lý sở liệu Trong ngữ cảnh hệ xử lý phân tán hệ sở liệu phân tán xem cơng cụ làm cho trình xử lý liệu phân tán dễ dàng hiệu Khái niệm hệ sở liệu phân tán bao gồm khái niệm sở liệu phân tán hệ quản trị sở liệu phân tán Cơ sở liệu phân tán tập sở liệu có quan hệ với mặt logic phân bố mạng máy tính Hệ quản trị sở liệu phân tán hệ thống phần mềm cho phép quản trị sở liệu phân tán làm cho phân tán suốt người sử dụng Trong mơ hình sở liệu phân tán thân sở liệu có nhiều máy tính khác Như vậy, đặc trưng sở liệu phân tán CSDL phân bố mạng máy tính có quan hệ với mặt logic Hệ CSDL phân tán không đơn bao gồm nhiều file liệu tổ chức lưu trữ riêng lẻ thiết bị nhớ mạng máy tính Để tạo hệ CSDL phân tán, file khơng có quan hệ với mặt logic mà cịn cần có cấu trúc giao diện chung chúng để file truy nhập lẫn Có nhiều ứng dụng yêu cầu hệ quản trị CSDL thao tác liệu bán cấu trúc không cấu trúc, file Web mạng Internet 1.4 SỰ CẦN THIẾT CỦA HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN Trong năm gần đây, công nghệ sở liệu phân tán trở thành lĩnh vực quan trọng công nghệ thông tin, tính cần thiết ngày nâng cao Có nhiều nguyên nhân thúc đẩy phát triển hệ CSDLPT: 1.4.1 Sự phát triển cấu tổ chức Cùng với phát triển cuả xã hội, nhiều quan, xí nghiệp có cấu tổ chức không tập trung, hoạt động phân tán phạm vi rộng Vì thiết kế cài đặt sở liệu phân tán phù hợp, đáp ứng nhu cầu truy xuất khai thác liệu Cùng với phát triển công nghệ viễn thông, tin học, động thúc đẩy kinh tế, việc tổ chức trung tâm máy tính lớn tập trung trở thành vấn đề cần nghiên cứu Cơ cấu tổ chức vấn đề kinh tế nguyên nhân quan trọng phát triển sở liệu phân tán 1.4.2 Giảm chi phí truyền thông Trong thực tế, sử dụng số ứng dụng mang tính địa phương làm giảm chi phí truyền thơng Bởi vậy, việc tối ưu hố tính địa phương ứng dụng mục tiêu việc thiết kế cài đặt CSDLPT 1.4.3 Hiệu công việc Sự tồn số hệ thống xử lý điạ phương đạt thông quan việc xử lý song song Vấn đề thích hợp với hệ đa xử lý CSDLPT có thuận lợi phân tích liệu phản ánh điều kiện phụ thuộc ứng dụng, cực đại hố tính địa phương ứng dụng Theo cách tác động qua lại xử lý làm cức tiểu Công việc phân chia xử lý khác tránh tắc nghẽn thông tin mạng truyền thông dịch vụ chung toàn hệ thống Sự phân tán liệu phản ánh hiệu làm tăng tính địa phương ứng dụng 1.4.4 Độ tin cậy tính sẵn sàng Cách tiếp cận CSDLPT, cho phép truy nhập độ tin cậy tính sẵn sàng cao Tuy nhiên, để đạt mục đích vấn đề khơng đơn giản địi hỏi kỹ thuật phức tạp Những lỗi xuất CSDLPT xảy nhiều số thành phần cấu thành lớn hơn, ảnh hưởng lỗi ảnh hưởng tới ứng dụng sử dụng site lỗi Sự hỏng hóc tồn hệ thống xảy CSDLPT tập hợp liệu thuộc hệ thống mặt logic phân bố site mạng máy tính Cơng nghệ CSDLPT kết hợp hai vấn đề phân tán hợp nhất: • Phân tán : phân tán liệu site mạng • Hợp : hợp mặt logic liệu phân tán cho chúng xuất với người sử dụng giống với CSDL đơn lẻ Công nghệ CSDL phân tán thực phát triển năm gần nhờ phát triển kỹ thuật tính tốn, kỹ thuật truyền thơng mạng máy tính Những ứng dụng xây dựng CSDL phân tán xuất nhiều thị trường bước chứng minh tính ưu việt so với CSDL tập trung 1.5 CÁC ĐẶC ĐIỂM CỦA CƠ SỞ DỮ LIỆU PHÂN TÁN Cơ sở liệu phn tán không đơn giản phân bố sở liệu, sở liệu phân tán có nhiều đặc điểm khác biệt so với sở liệu tập trung truyền thống Phần so sánh sở liệu phân tán với sở liệu tập trung số đặc điểm: điều khiển tập trung, độc lập liệu, giảm dư thừa liệu, cấu trúc vật lý phức tạp để truy xuất hiệu 1.5.1 Điểu khiển tập trung Điều khiển tập trung (Centralized Control) đặc điểm sở liệu tập trung, toàn liệu tập trung lại nhằm để tránh dư thừa liệu, đảm bảo tính độc lập liệu Dữ liệu quản lý tập trung người quản trị sở liệu Chức người quản trị sở liệu (DBA - Database Administrator) bảo đảm an toàn liệu Trong sở liệu phân tán vấn đề điều khiển tập trung khơng nhấn mạnh Nói chung, sở liệu phân tán , điều khiển thực theo cấu trúc điều khiển phân cấp bao gồm hai loại người quản trị sở liệu: • Người quản trị sở liệu tồn cục (Global Database Administrator) người có trách nhiệm tồn sở liệu phân tán • Người quản trị sở liệu cục (Local Database Administrator) người có trách nhiệm sở liệu cục họ Tuy nhiên, người quản trị sở liệu cục cần phải có quyền độc lập riêng sở liệu cục mà người quản trị sở liệu toàn cục hoàn toàn khơng có quyền phối hợp vị trí thực người quản trị cục Đặc điểm gọi độc lập vị trí Các sở liệu phân tán khác nhiều mức độ độc lập vị trí Từ độc lập vị trí hồn tồn (khơng có người quản trị sở liệu tập trung) đến điều khiển tập trung hoàn toàn 1.5.2 Độc lập liệu Độc lập liệu (Data Independence) đặc điểm sở liệu Độc lập liệu có nghĩa tổ chức lưu trữ liệu suốt người lập trình ứng dụng Ưu điểm độc lập liệu chương trình khơng bị ảnh hưởng thay đổi tổ chức lưu trữ vật lý liệu Trong hệ sở liệu phân tán, độc lập liệu quan trọng sở liệu tập trung Tuy nhiên, đặc điểm đưa vào khái niệm thông thường độc lập liệu suốt phân tán (Distribution Transparency) Nhờ suốt phân tán mà chương trình ứng dụng viết giống sở liệu không phân tán Vì vậy, tính đắn chương trình ứng dụng khơng bị ảnh hưởng di chuyển liệu từ vị trí đến vị trí khác Tuy nhiên, tốc độ thực chương trình ứng dụng bị ảnh hưởng Độc lập liệu sở liệu tập trung thể thông qua kiến trúc nhiều mức, mức có mơ tả khác liệu ánh xạ biến đổi mức Sự suốt phân tán sở liệu phân tán thê cách bổ sung thêm mức suốt vào kiến trúc nhiều mức sở liệu tập trung 1.5.3 Giảm dư thừa liệu Trong sở liệu tập trung, dư thừa liệu giảm thiểu, tránh khơng qn nhiều cách có tiết kiệm vùng nhớ lưu trữ Các ứng dụng chia sẻ chung, truy xuất đến tập tin liệu Tuy nhiên, sở liệu phân tán, dư thừa liệu đặc điểm cần thiết, lý sau: • Làm tăng tính cục ứng dụng liệu nhân tất vị trí mà ứng dụng cần liệu Khi đó, ứng dụng cục thực nhanh khơng cần phải truy xuất liệu từ xa • Làm tăng tính sẵn sàng hệ thống ứng dụng, vị trí có cố khơng làm ngưng thực ứng dụng vị trí khác liệu vị trí bị hỏng nhân vị trí khác Tuy nhiên, nhân liệu cần phải xem xét kỹ lưỡng dựa vào hai loại ứng dụng bản, ứng dụng đọc ứng dụng cập nhật Sự nhân liệu giúp cho ứng dụng đọc thực nhanh hơn, làm cho ứng dụng cập bị thực lâu phải cập nhật liệu vị trí nhân Như vậy, nhân liệu ưu điểm hệ thống có nhiều ứng dụng đọc có ứng dụng cập nhật Trong trường hợp ngược lại nhân liệu lại nhược điểm 1.5.4 Độ tin cậy qua giao dịch phân tán Hệ quản trị CSDL phân tán cải thiện độ tin cậy qua giao dịch phân tán, thành phần nhân hạn chế vị trí lỗi riêng lẻ Lỗi trạm riêng, lỗi truyền thông làm cho nhiều trạm liên lạc, không đủ để phá vỡ toàn hệ thống Trong trường hợp CSDL phân tán, điều nghĩa số liệu truy nhập được, biết cách hỗ trợ cho giao dịch phân tán giao thức ứng dụng, người sử dụng truy nhập tới phần khác CSDL phân tán Giao dịch đơn vị tính tốn bản, quán tin cậy, bao gồm chuỗi thao tác CSDL thực chuyển từ trạng thái CSDL quán sang trạng thái CSDL quán khác có số giao dịch thực đồng thời chí xảy lỗi Vì vậy, hệ quản trị CSDL phải hỗ trợ đầy đủ cho giao dịch đảm bảo việc thực thi đồng thời giao dịch người sử dụng khơng vi phạm tính qn CSDL hệ thống có lỗi, với điều kiện giao dịch thực xác, nghĩa tuân theo qui tắc toàn vẹn CSDL 1.5.5 Cải tiến hiệu Hiệu CSDL phân tán cải tiến dựa vào hai điểm: a) Hệ quản trị CSDL phân tán có khả phân mảnh CSDL khái niệm cho phép cục hoá liệu Có hai ưu điểm bật: • Vì trạm xử lý phần CSDL, tranh chấp CPU dịch vụ vào/ra không nghiêm trọng hệ CSDL tập trung • Tính cục làm giảm trễ truy nhập từ xa thường gặp mạng diện rộng Hầu hết hệ CSDL phân tán cấu trúc nhằm tận dụng tối đa ưu điểm tính cục liệu Lợi ích đầy đủ việc giảm tranh chấp giảm chi phí truyền có cách phân mảnh phân tán liệu hợp lý lượng việc sử dụng khả song song liên truy vấn, giảm thời gian đáp ứng giao tác việc sử dụng khả song song nội truy vấn Tuy nhiên, việc làm giảm thời gian đáp ứng truy vấn phức tạp qua chế song song quy mơ lớn sẻ tăng tổng thời gian thời gian truyền thông, làm ảnh hưởng đến lưu lượng • Tính sẵn sàng cao (High Availability): Hệ thống CSDL song song bao gồm nhiều phần tương tự nhau, khai thác khả nhân liệu để tăng tính sẵn sàng CSDL Trong hệ thống song song mức cao với nhiều ổ đĩa nhỏ, xác suất đĩa hỏng thời điểm cao Vì điều quan trọng cố đĩa hỏng không làm cân tải, giải pháp yêu cầu phân vùng copy truy cập song song • Khả mở rộng (Extensibility): Trong môi trường song song, dễ dàng tăng kích thước CSDL tăng thơng lượng sẻ dễ Khả mở rộng dễ dàng thêm khả xử lý lưu trữ cho hệ thống, thể thuận lợi sau: đường tuyến tính tỉ lệ (Linear Scaleup) tuyến tính tốc độ Llinear Speedup) Linear Scaleup nói đến việc hiệu trì tăng tuyến tính kích thước CSDL khả xử lý lưu trữ Linear Speedup nghĩa đường tuyến tính làm tăng thêm tính thực thi với kích thước CSDL khơng đổi tăng tính tuyến tính khả xử lý lưu trữ 5.2.3 Chức CSDL song song • Quản lý phiên (Sesion Manager) giám sát giao tác, hỗ trợ giao tác Client với Server Thực kết nối giải phóng kết nối tiến trình Client hai hệ thống khác Vì khởi tạo đóng phiên người sử dụng nhiều giao tác Trong trường hợp phiên OLTP, quản lý phiên bắt đầu thực mã hóa giao tác nhập vào trước Modul quản lý liệu • Quản lý yêu cầu (Request Manager) nhận u cầu phía Client có liên quan tới biên dịch thực thi truy vấn Nó truy cập vào thư mục CSDL chứa tất thông tin liệu chương trình, tác động vào giai đoạn biên dịch khác nhau, bắt đầu thực truy vấn trả kết , lỗi mã cho ứng dụng Client Bởi giám sát việc thực giao tác xác nhận, khởi đầu cho thủ tục phục hồi lại trường hợp giao tác bị lỗi Để tăng tốc độ thực truy vấn, tối ưu xử lí song song truy vấn thời điểm biên dịch • Quản lý liệu (Data manager) cung cấp tất chức mức thấp cần thíêt để chạy truy vấn biên dịch song song Nếu quản lý yêu cầu biên dịch điều khiển luồng liệu, sau thực đồng truyền thơng modul quản lý liệu sau đồng hóa truyền thống module quản lí liệu modul quản lý yêu cầu Mặt khác, điều khiển giao tác đồng hóa phải thực module quản lý yêu cầu 5.3 KIẾN TRÚC HỆ SONG SONG Một hệ thống song song diễn tả dàn xếp lựa chọn thiết kế cung cấp ưu điểm với tốt mặt giá thành thực thi Một vấn đề quan trọng mặt thiết kế có liên quan đến tốc độ truyền thơng thiết bị phần cứng xử lý, nhớ ổ đĩa Kiến trúc hệ thống song song phân chia thành hai loại lớn kiến trúc chia sẻ nhớíahared Memory) kiến trúc khơng chia sẻ (Shared Nothing) 139 5.3.1 Kiến trúc chia sẻ nhớ (Shared- Memory) Trong kiến trúc này, số xử lý truy cập đến số vùng nhớ hay đơn vị ổ đĩa thông qua liên kết nối nhanh (tôc độ bus cao ) số máy chủ thiết kế IB3090 đa xử lý đối xứng Sequent Escala Bull áp dụng mơ hình Các ví dụ hệ thống CSDL song song chia sẻ nhớ bao gồm XPRS Volcano hiệu hệ quản trị sở liệu thương mại sử dụng đa xử lý chia sẻ nhớ Trước tiên nêu ví dụ hệ thống DB2 chạy IBM3090 với xử lý Phần lớn sản phẩm chia sẻ nhớ dùng cho thương mại ngày khai thác (Exploit) liên truy vấn song song (Inter Query Ơarallelism) để tăng hiệu giao tác truy vấn nội song song (Intra Query Parallelism) để giảm thời gian đáp ứng truy vấn hỗ trợ định (Decision Support) Chia sẻ nhớ có hai ưu điểm: tính đơn giản tải trọng cân Siêu thông tin (thư mục) thông tin điều khiển (ví dụ khóa bảng) chia sẻ tất xử lý, việc viết ứng dụng sở liệu kiến trúc đa xử lý không khác biệt so với viết máy tính đơn xử lý Đặc biệt liên truy vấn song song trở nên uyển chuyển, cân tải trọng đạt thời điểm chạy sử dụng chia sẻ nhớ Chia sẻ nhớ có ba vấn đề bản: giá thành (Cost), giới hạn mở rộng (Limited Extendsibility) tính sẵn sàng (Availability) thấp Giá thành cao liên kêt nối phức tạp cần thiết phải liên kết xử lý tới Modul nhớ hay ổ đĩa Với xử lý nhanh (thậm chí nhớ catche lớn) , xung đột truy cập đến nhớ chia sẻ tăng nhanh giảm hiệu Vì mở rộng giới hạn đến vài chục xử lý (20 Sequent Encore) Cuối nhớ trống chia sẻ tất xử lý, lỗi nhớ ảnh hưởng đến phần lớn xử lý khác gây tổn thất CSDL, giải pháp Sequoia sử dụng nhớ kép 5.3.2 Kiến trúc chia sẻ đĩa (Shared-Disk) Trong kiến trúc , số xử lý truy cập đến đơn vị đĩa thông qua liên kết nối không phép (không chia sẻ) truy cập dến nhớ Khi xử lý truy cập đến trang liệu (database page) ổ đĩa chia sẻ chép chúng đến nhớ catche Để tránh xung đột truy cập đến trang, cần phải có chế khóa tồn cục (Global Locking) giao thức dùng để bảo trì gắn kết cache Các ví dụ hệ thống CSDL song song chia ser ổ đĩa bao gồm sản phẩm chia sẻ liệu IMS/VS IBM sản phẩm VAX DBMS, Rdb DEC Sự thực thi Oracle VAXcluster DEC máy tính NCUBE sử dụng kiến trúc chia sẻ ổ cứng yêu cầu mở rộng hệ quản trị sở liệu quan hệ (RDBMS) Chia sẻ đĩa có số ưu điểm giá thành, khả mở rộng, cân tải trọng, tính sẳn sàng dễ dàng di chuyển từ hệ thống có xử lý Giá thành liên kết nối (Interconnect) giảm đáng kế so với phương pháp chia sẻ nhớ từ công nghệ Bus dùng Cho xử lý co đủ nhớ cache, truy nhập vào vào đĩa chia sẻ nhỏ nhất, mở rộng tốt Khi nhớ bị lỗi bị lập với xử lý khác, node nhớ, tính sẳn sàng cao Cuối di chuyển từ hệ thống trung tâm tới đĩa chia sẻ dễ dàng liệu đĩa khơng cần tổ chức lại 140 Chia sẻ đĩa có độ phức tạp cao hiệu cao Nó yêu cầu giao thức hệ phân tán liệu khóa phân tán commit hai giai đoạn việc bảo trì độ kết dính làm tải truyền thông node Việc truy cập đĩa chia sẻ gây tượng “nút cổ chai” 5.3.3 Kiến trúc không chia sẻ Trong kiến trúc , xử lý truy cập độc lập đến nhớ đơn vị ổ đĩa Vì node xem site cục (về CSDL phần mềm) hệ CSDL phân tán Vì phần lớn giải pháp thiết kế cho hệ phân tán phân đoạn liệu, quản lý phân tán giao tác xử lý truy vấn phân tán áp dụng Các ví dụ hệ thống song song không chia sẻ bao gồm DBC Teradata NonStopSQL Tandem hiệu sản phẩm truyền thống GRACE, EDS, GAMMA, BUBBA, PRISMA Giải thích tồn sản phẩm kiến trúc khơng chia sẻ có ba ưu điểm: giá thành khả mở rộng tính sẵn sàng Ưu điểm giá thành phương pháp giống phương pháp chia sẻ đĩa Hệ sở liệu phân tán cài đặt kiến trúc dễ dàng tăng thêm hiệu thêm node khả mở rộng tốt (có thể lên tới hàng ngàn node) Ví dụ hệ thống DBC Teradata cung cấp 1024 xử lý Với phân vùng liệu có ích đặt nhiều đĩa Tốc độ tăng lên theo tuyến tính phạm vi tăng tuyến tính đạt khối lượng công việc đơn giản việc tạo liệu nhiều node tăng tính sẳn sàng liệu Kiến trúc khơng chia sẻ phức tạp kiến trúc chia sẻ nhớ cần thiết phải cài đặt chức phân tán liệu nhiều node Không giống kiến trúc chia sẻ nhớ chia sẻ đĩa, độ cân tải trọng định vị trí liệu tải trọng khơng thực hệ thống , thêm node vào hệ thống yêu cầu tổ chức lại liệu đề cập đến vấn đề độ cân tải trọng 5.3.4 Các kiến trúc phân cấp (Hierachical Architectures) Kiến trúc phân cấp cũng, tên khác gọi kiến trúc nhóm (Cluster Architecture) kiến trúc kết hợp hai kiến trúc không chia sẻ kiến trúc chia sẻ nhớ Là kiến trúc không chia sẻ, node thiết kế có kiến trúc chia sẻ nhớ Kiến trúc đề xuất Bhide, sau Pirahesh Boral Một mơ tả chi tiết đề xuất Graefe Ưu điểm kiến trúc phân cấp hiển nhiên, kết hợp đặc điểm linh hoạt hiệu thành phần chia sẻ nhớ với khả mở rộng thành phần không chia sẻ Trong node chia sẻ nhớ (SM-Node) giao tiếp thực thi có hiệu thành phần chia sẻ nhớ kiến trúc, hiệu tăng lên Độ cân tải trọng tăng thành phần chia sẻ nhớ 5.3.5 Các kiến trúc NUMA Với mục đích mở rộng tăng tính linh hoạt, kiển trúc chia sẻ nhớ đa xử lý hướng đến kiến trúc NUMA với mục đích cung cấp mơ hình lập trình chia sẻ nhớ lợi ích phạm vi kiến trúc song song Có hai lớp bật kiến trúc NUMA: máy Cache Coherent NUMA (CC-NUMA) chuyển đổi nhớ node thành nhớ cache có dung lượng khơng gian địa chia sẻ lớn Vì vậy, vị trí mục liệu (Data 141 Item) tách hoàn toàn từ địa vật lý mục liệu tự động di chuyển hay tái tạo lại nhớ Vì nhớ chia sẻ cache liên kết hỗ trợ phần cứng nên nhớ truy cập từ xa hiệu (chỉ vài lần với giá thành việc truy cập cục NUMA dựa chuẩn quốc tế thành phần xây dựng sẵn, ví dụ máy Data General nuSMP Sequent NUMA-Q 2000 sử dụng chuẩn ANSI/IEEE Standard Scalable Coherent Interface (SCI) liên kết nối với máy chủ SHV (Standard Hight Value), node SHV chứa xử lý pentium, hỗ trợ dung lượng nhớ tối đa lên tới 4GB hai hệ thống ngang hàng PCI/IO, [Data General, ví dụ khác loại máy tính NUMA KSR1 Kendal Square Research SPP1200 Convex mở rộng hàng trăm xử lý 5.4 CÁC KỸ THUẬT HỆ QUẢN TRỊ CSDL SONG SONG Việc thực thi hệ thống CSDL song song phụ thuộc vào kĩ thuật CSDL phân tán Về chất, giải pháp quản trị giao tác sử dụng Tuy nhiên, vấn đề tới hạn cho kiến trúc việc đặt liệu, khả truy vấn song song, xử lí liệu song song tối ưu hóa truy vấn song song Giải pháp cho vấn đề phức tạp DDBMS số lượng node nhiều Phần sẻ ứng dụng kiến trúc khơng chia sẻ, trường hợp chung kỹ thuật thực thi áp dụng cho kiến trúc khác 5.4.1 Sắp đặt liệu Việc đặt liệu hệ thống CSDL song song mô tả giống việc phân mảnh CSDL phân tán Những đặc điểm phân mảnh sử dụng để làm tăng tính song song CSDL Khái niệm Partitionning Partition hiểu khái niệm phân mảnh ngang phân mảnh dọc, trái ngược với chiến lược lựa chọn bao gồm Clustering- nhóm quan hệ vào node đơn Phân mảnh dọc làm tăng tính song song cân tải CSDL phân tán Điểm giống nũa liệu thường nhiều chương trình, chưong trình thực nhiều tốt nơi liệu tập trung Tuy nhiên, có hai điểm khác với CSDL phân tán Một là, khơng cần tăng tối đa việc xử lí cục node người sử dụng liên kết đến node đặc biệt Hai là, việc cân tải khó hồn thành số lượng node có sẵn Vấn đề để tránh việc tranh chấp tài ngun, mang lại kết phá vỡ tồn hệ thống (ví dụ, node xử lí tất công việc node khác rỗi) Kể từ chương trình thực nơi liệu tập trung, việc đặt liệu vấn đề thực thi tới hạn Việc đặt liệu phải thực để tăng tối đa khả thực thi hệ thống, đo tổ hợp tồn cơng việc hồn thành hệ thống thời gian đáp ứng câu truy vấn đơn lẻ Thông qua khả song song truy vấn trong, làm tăng tối đa thời gian đáp ứng , kết tồn cơng việc tăng lên thay việc truyền thơng Vì vậy, khả song song truy vấn làm cho tồn cơng việc tăng lên Mặt khác, việc phân nhóm (Clustering) tất liệu cần thiết chương trình giảm tối thiểu việc truyền thơng tồn cơng việc làm hệ thống việc thực chương trình Trong khái niệm đặt liệu, tăng tối đa thời gian đáp ứng khả song song truy vấn với dẫn đến việc phân vùng việc giảm tối thiểu 142 cơng việc dẫn đến phân nhóm Vấn đề đề cập CSDL phân tán theo cách thức tĩnh Người quản trị CSDL kiểm tra đoạn Fragment theo định kỳ dựa theo tần suất, cần thiết phải di chuyển tổ chức lại Fragment Giải pháp lựa chọn cho việc đặt liệu Full Partitioning phân vùng tồn bộ, quan hệ phân mảnh ngang tới tất node hệ thống Phân vùng toàn sử dụng DBC/1012 GAMMA, Nonstoip SQL Dưới ba chiến lược cho việc phân vùng liệu: Round- Robin (luân chuyển), Hashing (hàm băm), Interval (khoảng cách) 5.4.2 Phân vùng luân chuyển (Round Rrobin Partitioning) Là chiến lược đơn giản nhất, đảm bảo phân tán liệu đồng Với n vùng Partition, hàng thứ i chèn vào vùng thú i mod n Chiến lược cho phép truy cập tới quan hệ thực song song Tuy nhiên, khả truy cập tới hàng riêng lẻ dựa việc truy cập đến yêu cầu, thuộc tính toàn quan hệ 5.4.3 Phân vùng băm (Hash Partitioning): Chiến lược áp dụng hàm băm cho vài thuộc tính Nó tạo số Partition Chiến lược cho phép node định xử lí truy vấn xác để lựa chọn thuộc tính tất node xử lí tất truy vấn khác cách song song 5.4.4 Phân vùng theo khoảng cách (Range Partitioning) Chiến lược phân tán hàng dựa miền giá trị vài thuộc tính Ngồi ra, để hỗ trợ truy vấn xác việc sử dụng bảng băm, phù hợp với truy vấn theo miền Ví dụ, truy vấn “A between A1 and A2” xử lí node chứa hàng mà giá trị nằm khoảng từ A1 đến A2 Tuy nhiên, việc phân vùng theo miền dẫn đến kích thước vùng biến đổi nhiều 5.4.5 Các giải pháp phân vùng Việc thực thi phân vùng tồn so sánh với kĩ thuật phân nhóm quan hệ đĩa đơn Kết đòi hỏi khối lượng công việc nhiều người sử dụng khác nhau, việc phân vùng phù hợp Tuy nhiên, kĩ thuật phân nhóm có ưu việc xử lí truy vấn phức tạp Mặc dù việc phân vùng tồn có nhiều ưu điểm khả thực thi, việc thực tính song song cao gây việc thực thi liên quan đến câu truy vấn phức tạp Ví dụ, giả sử cấu trúc có 1024 node, số lượng tin xấu cho kết nối nhị phân (khơng có lệnh Select) sẻ 10242 Hơn nữa, phân vùng tồn khơng phù hợp với quan hệ nhỏ mà việc phân vùng toàn liên kết khối đĩa lại với Các hạn chế cần thỏa hiệp kĩ thuật phân nhóm phân vùng toàn Giải pháp cho việc đặt liệu phân vùng biến đổi: Nói cách khác mức độ phân vùng, số lượng node mà quan hệ phân mảnh, hàm kích thước tần suất truy cập quan hệ Chiến lược phức tạp kĩ thuật phân nhóm hay phân vùng toàn thay đổi phân tán liệu phải tổ chức Ví dụ, ban đầu quan hệ đặt node, số phần tử gấp đơi cách chèn vào sau, trường hợp đặt vào 16 node Hệ thống song song với việc phân vùng biến đổi, tổ chức lại cho cân tải định kì cần thiết thường xuyên trừ khối lượng công việc tĩnh cập nhật liệu Sự tổ chức lại nên suốt để biên dịch chương trình 143 chạy Server Cụ thể hơn, chương trình khơng nên biên dịch lại việc tổ chức lại Do đó, chương trình biên dịch sẻ giữ lại độc lập với vị trí liệu, sẻ thay đổi nhanh chóng Sự độc lập hồn thành hệ thống thời gian thực hỗ trợ truy cập kết hợp tới liệu phân tán Đây khác biệt so với hệ quản trị CSDL phân tán, việc truy cập kết hợp hoàn thành thời điểm biên dịch xử lí truy vấn sử dụng thư mục liệu Một giải pháp cho việc truy cập kết hợp có chế đánh mục toàn cục chép cho node Chỉ mục toàn cục cho thấy việc đặt quan hệ vào tập node Dựa khái niệm đó, có hai mức mục với kĩ thuật phân nhóm tên quan hệ phân nhóm phụ vài thuộc tính quan hệ Chỉ mục toàn cục hỗ trợ viêc phân vùng biến đổi, quan hệ có mức phân vùng khác Cấu trúc mục dựa cấu trúc B hàm băm Trong trường hợp này, truy vấn xác xử lí cách hiệu với việc truy cập node đơn Tuy nhiên, với việc sử dụng hàm băm, truy vấn theo miền xử lí việc truy cập tất node chứa liệu từ quan hệ truy vấn Việc sử dụng bảng mục theo cấu trúc B sẻ lớn theo cấu trúc hàm băm, cho phép xử lí truy vấn theo miền cách hiệu hơn, có node chứa liệu miến liệu cụ truy cập Vấn đề đặt việc chọn đặt liệu giải với phân phối liệu lệch mà chúng dẫn đến phân hoạch không thống làm ảnh hưởng đến cân tải Phân hoạch theo khoảng cách dễ bị ảnh hưởng lệch so với phân hoạch xoay vòng băm Một giải pháp xử lý phân hoạch khơng thống cách thích hợp, thí dụ cách phân mảnh tiếp tục cho phân hoạch lớn Tách biệt nút logic vật lý có ích nút logic tương ứng với nhiều nút vật lý Tác nhân cuối chép liệu để bảo đảm tính sẵn sang cao Giải pháp đơn giản trì hai liệu, dự phòng hai máy riêng biệt Đây kiến trúc đĩa ảnh (Mirroed Disk) vận dụng hệ thống NonStop SQL Tandem Tuy nhiên trường hợp node bị cố, tải trọng bị nhân đơi lên node có sao, ảnh hưởng đến việc cân tải Để tránh vấn đề này, nhiều chiến lược chép liệu có tính sẵn sàng cao đề xuất cho hệ CSDL song song Một số giải pháp đáng ý phân hoạch đan xen Teradata Nó phân hoạch dự phịng số node Ở tình có cố, tải trọng sẻ cân đối nút Nhưng hai nút có cố quan hệ khơng truy xuất làm ảnh hưởng đến tính khả dụng Xây dựng lại từ dự phịng riêng biệt tốn nhiều chi phí Ở tình bình thường, trì tính qn cho có chi phí cao Một giải pháp tốt phân hoạch xâu mắt xích Gamma, lưu dự phịng hai nút kế cận Ý tưởng xác suất hai node kế cận bị cố thường nhỏ so với xác suất hai node bị cố Ở tình bị cố, tải trọng node bị cố node dự phòng cân đối cho node lại băng cách dùng node dự phịng Ngồi ra, việc trì tính qn rẻ Một vấn đề bỏ ngỏ thực việc chọn đặt liệu có xem xét đến chép liệu Tương tự việc cấp phát mảnh CSDL phân tán, điều xem tốn tối ưu hóa 144 5.5 TRUY VẤN SONG SONG Truy vấn song song cho phép thực song song nhiều câu vấn tin sinh giao dịch đồng thời làm tăng lưu lượng giao dịch Bên câu vấn tin song hành nội toán tử liên toán tử sử dụng để giảm thời giam đáp ứng Song hành liên tốn tử có cách cho thực thi song song nhiều toán tử cấu trúc vấn tin Trên nhiều xử lý song hành nội tốn tử, toán tử sẻ nhiều xử lý thực hiện, xử lý thao tác tập liệu 5.5.1 Song hành nội toán tử Song hành nội toán tử dựa việc phân rã toán tử thành tập toán tử độc lập, gọi thể tóan tử (Operator Instance) Phân rã thực cách dùng kỹ thuật phân hoạch tĩnh động cho quan hệ Sau thể tóan tử sẻ thực phân hoạch quan hệ, thường gọi lô( batch) Để minh họa cho việc song hành nội toán tử xét vấn tin chọn nối đơn giản Tóan tử chọn (Select) phân rã trực tiếp thành nhiều toán tử chọn, toán tử thao tác phân hoạch khác không cần phải thực tái phân phối 5.5.2 Song hành liên toán tử Song hành liên tốn tử dùng với song hành ống dẫn (Pipeline Parallelism) nhiều toán tử với đường nối sản xuất – tiêu dùng thực thi song song Thí dụ tốn tử Select thực thi song song với toán tử nối (join ) Ưu điểm thự thi theo phương pháp kết trung gian khơng phải cụ thể hóa (khơng phải lưu lại), tiết kiệm nhớ truy xuất đĩa Tuy nhiên, xảy với cách thực thi nhiều nhánh đòi hỏi nhiều tài nguyên 5.5.3 Xử lý liệu song song Phân hoạch liệu xếp chúng sở cho việc thực truy vấn liệu song song Việc xếp liệu phân hoạch quan trọng việc thiết kế thuật toán song song điều hành xử lý liệu cách hiệu (quan hệ toán tử đại số), câu truy vấn liệu bao gồm nhiều tốn tử Vấn đề khó cần phải đảm bảo cân tốt tính song song chi phí cho q trình truyền thơng Thuật toán song song cho toán tử quan hệ đại số xây dựng thành khối cần thiết cho việc xử lý truy vấn song song Xử lý liệu song song cho phép khai thác phép toán song hành nội toán tử toán tử Như biết thuật toán song song cho việc điều hành liệu dựa toán tử Select Join, toán tử sở khác điều khiển nhiều kết nối Xử lý toán tử Select ngữ cảnh xếp liệu phân hoạch giống việc phân mảnh liệu sở liệu phân tán, phụ thuộc vào lựa trọn Select , toán tử thực nod đơn trường hợp xác định cách tuỳ ý tất node thông qua quan hệ phân hoạch Nếu toàn mục tổ chức cấu trúc B-Tree, tốn tử Select với kích thước xác định thực nodelưu trữ liệu thích hợp Việc xử lý song song cho toán tử kết nối Join phức tạp nhiều so với toán tử chọn Select Thiết kế thuật tốn kết nối phân tán cho mạng có tốc độ cao áp dụng thành cơng CSDL phân tán Có lẽ tính sẵn sàng tồn mục thời gian chạy cung 145 cấp đem lại nhiều thuận lợi cho việc thực song song cách có hiệu Có ba thuật tốn kết nối song song cho việc phân hoạch dự liệu: Thuật tốn vịng lập lồng song song PNL (The Parallel Nested Loop) ,thuật toán nối kết hợp song song PAJ (The Parallel Associative Join), thuật toán nối băm song song PHJ (The Parallel Hash Join) CÂU HỎI TRẮC NGHIỆM Nguyên nhân xẩy ùn tắc vào ra: A Hiệu thấp B Hệ quản trị sở liệu thường xẩy ùn tắc vào C Thời gian truy cập nhớ phụ nhiều thời gian truy cập nhớ Hiệu CSDL song song cao, nếu: A Phân vùng CSDL nhiều đĩa B Có khả song song liên truy vấn nội truy vấn C Cải thiện đáng kể thời gian đáp ứng thông lượng giao tác Hiệu cao (High Pperformance): A Các giải pháp hỗ hệ điều hành hướng CSDL, khả song song, tối ưu hóa, cân tải B Các giải pháp tăng lưu lượng việc sử dụng khả song song liên truy vấn C Các giải pháp giảm thời gian đáp ứng giao tác việc sử dụng khả song song nội truy vấn Tính sẵn sàng cao (High Availability) A Hệ thống CSDL song song bao gồm nhiều phần tương tự B Hệ thống CSDL song song khai thác khả nhân liệu C Hệ thống CSDL song song cố đĩa hỏng không làm cân tải Khả mở rộng (Extensibility) A Tăng kích thước CSDL tăng thơng lượng B Tăng khả xử lý lưu trữ cho hệ thống C Tăng tính tuyến tính khả xử lý lưu trữ Chức CSDL song song A Quản lý phiên, yêu cầu quản lý liệu B Quản lý giao tác C Quản lý phiên quản lý giao tác Kiến trúc hệ song song bao gồm: A Kiến trúc chia sẻ nhớ, chia sẻ đĩa không chia sẻ B Kiến trúc nhớ nhớ đệm C Kiến trúc câu truy vấn song song Các kỹ thuật hệ quản trị CSDL song song bao gồm A Phân vùng luân chuyển,phân vùng băm,phân vùng theo khoảng cách B Phân vùng theo khái niệm Partitionning Partition C Phân vùng Partition tất node xử lí truy vấn song song Song hành nội toán tử 146 A Phân rã toán tử thành tập toán tử độc lập B Phân rã quan hệ thành mảnh độc lập C Phân rã tóan tử chọn (Select) thành tập toán tử độc lập 10 Song hành liên toán tử A Thực nhiều toán tử với đường nối sản xuất B Thực nhiều toán tử song song C Thực nhiều toán tử nhiều tài nguyên 11 Xử lý liệu song song A Phân hoạch liệu xếp liệu B Thực truy vấn liệu song song C Thuật toán song song 147 TÀI LIỆU THAM KHẢO [1] Date C.J., “ An introduction to data base systems”, Second editon 1977 [2] Codd, E.F., “ Data models in data base management”, ACM SIGMOD record,11,2(Feb,1981) [3] Michanel V Mannino, “ Database Application Development & Design”, Published by McGaw-Hill /Irwin, New Yor.k, 2001 [4] Abram Siberschatz, Henry F.Korth, S.Sudarshan “ Database Systems Concepts”, Published by McGaw-Hill /Irwin, New Yor.k, 2002 [5] M Tamer Ozsu and Patrick Vaduriez, “ Principles of Distributed Database Systems”, Prentice-Hall 2003 148 MỤC LỤC LỜI NÓI ĐẦU CHƯƠNG 1: KHÁI NIỆM CƠ BẢN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.1 MỞ ĐẦU 1.2 XỬ LÝ PHÂN TÁN VÀ HỆ THỐNG XỬ LÝ PHÂN TÁN 1.2.1 Khái niệm xử lý phân tán 1.2.2 Hệ thống phân tán 1.3 HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN LÀ GÌ 1.4 SỰ CẦN THIẾT CỦA HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.4.1 Sự phát triển cấu tổ chức 1.4.2 Giảm chi phí truyền thơng 1.4.3 Hiệu công việc 1.4.4 Độ tin cậy tính sẵn sàng 1.5 CÁC ĐẶC ĐIỂM CỦA CƠ SỞ DỮ LIỆU PHÂN TÁN 1.5.1 Điểu khiển tập trung 1.5.2 Độc lập liệu 1.5.3 Giảm dư thừa liệu 1.5.4 Độ tin cậy qua giao dịch phân tán 1.5.5 Cải tiến hiệu 1.5.6 Dễ dàng mở rộng hệ thống 1.6 CÁC MƠ HÌNH CƠ SỞ DỮ LIỆU CLIENT/SERVER 1.6.1 Mơ hình sở liệu tập trung: 1.6.2 Mô hình sở liệu theo kiểu File Server: 1.6.3 Mơ hình xử lý phần sở liệu 10 1.6.4 Mơ hình sở liệu Client/Server 10 1.6.5 Distributed database model (Mơ hình sở liệu phân tán) 11 1.7 MƠ HÌNH THAM CHIẾU CƠ SỞ DỮ LIỆU PHÂN TÁN 11 1.7.1 Lược đồ toàn cục 11 1.7.2 Lược đồ phân mảnh 12 1.7.3 Lược đồ cấp phát 12 1.7.4 Lược đồ ánh xạ cục 13 1.7.5 DBMS site cục dộc lập 14 1.8 CẤU TRÚC LOGIC CỦA CƠ SỞ DỮ LIỆU PHÂN TÁN 14 1.9 LỢI ÍCH PHÂN TÁN DỮ LIỆU TRÊN MẠNG 14 1.10 HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU QUAN HỆ 15 1.10.1 Kiến trúc tổng quát 15 149 1.10.2 Chức hệ quản trị sở liệu quan hệ 16 1.11 TỔNG QUAN VỀ HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU PHÂN TÁN 17 1.11.1 Mở đầu 17 1.11.2 Hệ quản trị CSDL phân tán 19 1.11.3 Hệ quản trị CSDL phân tán không 19 1.12 MƠ HÌNH KIẾN TRÚC HỆ QUẢN TRỊ CSDL PHÂN TÁN 20 1.12.1 Tính tự vận hành 21 1.12.2 Tính phân tán liệu 22 1.12.3 Tính hỗn hợp 22 1.12.4 Các kiểu kiến trúc 22 1.13 KIẾN TRÚC HỆ QUẢN TRỊ CSDL PHÂN TÁN 24 1.13.1 Các hệ Client/Server 24 1.13.2 Các hệ phân tán ngang hàng( Peer to Peer) 25 1.14 KIẾN TRÚC TỔNG QUAN CỦA MỘT HỆ QUẢN TRỊ PHỨC HỆ CSDL PHÂN TÁN (Multi Database Management System) 29 1.14.1 Mơ hình kiến truc tổng quan phức hệ 29 1.14.2 Phân loại phức hệ dựa vào cấu trúc 30 1.14.3 Các mơ hình khơng sử dụng lược đồ khái niệm toàn cục 31 CÂU HỎI TRẮC NGHIỆM 33 CHƯƠNG II: THIẾT KẾ CÁC HỆ CSDL PHÂN TÁN 38 2.1 CÁC VẤN ĐỀ VỀ PHÂN MẢNH DỮ LIỆU 38 2.1.1 Lý phân mảnh 38 2.1.2 Các kiểu phân mảnh 39 2.1.3 Mức độ phân mảnh 40 2.1.4 Các quy tắc phân mảnh 40 2.1.5 Các kiểu cấp phát 40 2.1.6 Các yêu cầu thông tin 41 2.2 PHƯƠNG PHÁP PHÂN MẢNH NGANG 41 2.2.1 Giới thiệu 41 2.2.2 Thông tin cần thiết phân mảnh ngang 41 2.2.3 Phân mảnh ngang sở 44 2.2.4 Tính đầy đủ tính cực tiểu vị từ đơn giản 45 2.2.5 Thuật toán xác định tập vị từ đầy đủ cực tiểu từ tập Pr cho trước 46 2.2.6 Thuật toán phân mảnh ngang nguyên thuỷ 47 2.3 PHÂN MẢNH NGANG DẪN XUẤT 48 2.4 PHÂN MẢNH DỌC 51 2.4.1 Khái niệm phân mảnh dọc 51 2.4.2 Thông tin cần thiết phân mảnh dọc 52 150 2.4.3 Thuật tốn tụ nhóm 54 2.4.4 Thuật toán phân mảnh 58 2.4.5 Kiểm tra tính đắn 59 2.5 PHƯƠNG PHÁP PHÂN MẢNH HỖN HỢP ( HYBRID FRAGMENTATION) 60 2.6 CẤP PHÁT 61 2.6.1 Bài toán cấp phát (AllocationProblem) 61 2.6.2 Thơng tin cần thiết cho tốn cấp phát 62 2.6.3 Mơ hình cấp phát 63 2.7 KIỂM SOÁT DỮ LIỆU NGỮ NGHĨA 64 2.8 QUẢN LÝ KHUNG NHÌN 64 2.8.1 Khung nhìn hệ quản trị sử liệu tập trung 64 2.8.2 Cập nhật qua khung nhìn 66 2.8.3 Khung nhìn hệ quản trị sở liệu phân tán 67 2.9 AN TOÀN DỮ LIỆU 68 2.9.1 Kiểm soát cấp quyền tập trung 68 2.9.2 Kiểm soát cấp quyền phân tán 70 2.10 KIỂM SỐT TÍNH TỒN VẸN NGỮ NGHĨA 71 2.10.1 Kiểm sốt tồn vẹn ngữ nghĩa tập trung 71 2.10.2 Kiểm sốt tồn vẹn ngữ nghĩa phân tán 75 2.10.3 So sánh việc kiểm soát toàn vẹn ngữ nghĩa tập trung phân tán 79 CÂU HỎI VÀ BÀI TẬP 79 CHƯƠNG III: XỬ LÝ TRUY VẤN TRONG CƠ SỞ DỮ LIỆU QUAN HỆ PHÂN TÁN 84 3.1 GIỚI THIỆU 84 3.2 VẤN ĐỀ XỬ LÝ TRUY VẤN 84 3.2.1 Đặt vấn đề 84 3.2.2 Mục đích việc xử lý truy vấn 87 3.2.3 Độ phức tạp thao tác đại số quan hệ 87 3.3 ĐẶC TRƯNG CỦA BỘ XỬ LÝ TRUY VẤN 88 3.3.1 Ngôn ngữ (Languages) 88 3.3.2 Các kiểu tối ưu hoá (Types of Optimization) 89 3.3.3 Thời điểm tối ưu hoá (Optimization timing) 89 3.3.4 Số liệu thống kê (Statistics) 90 3.3.5 Vị trí định (Decision sites) 90 3.3.6 Khai thác cấu hình mạng (Exploitation of Network topology) 90 3.3.7 Khai thác mảnh nhân (Exploitation of Replicated Fragments) 90 3.3.8 Sử dụng nửa kết nối (Use of Semijoint) 91 3.4 CÁC TẦNG CỦA QUÁ TRÌNH XỬ LÝ TRUY VẤN 91 151 3.5 PHÂN RÃ TRUY VẤN 92 3.3.1 Bước chuẩn hoá câu truy vấn 93 3.3.2 Bước phân tích 94 3.3.3 Bước loại bỏ dư thừa 96 3.3.3 Bước viết lại truy vấn 96 3.6 CỤC BỘ HÓA DỮ LIỆU PHÂN TÁN 100 3.6.1 Rút gọn cho phân mảnh ngang nguyên thuỷ 101 3.6.2 Rút gọn cho phân mảnh dọc 103 3.6.3 Rút gọn cho phân mảnh dẫn xuất 104 3.6.4 Rút gọn cho phân mảnh hỗn hợp 106 CÂU HỎI VÀ BÀI TẬP 107 CHƯƠNG IV: XỬ LÝ TRUY VẤN TRONG CƠ SỞ DỮ LIỆU QUAN HỆ PHÂN TÁN 111 4.1 GIỚI THIỆU 111 4.2 VẤN ĐỀ XỬ LÝ TRUY VẤN 111 4.2.1 Đặt vấn đề 111 4.2.2 Mục đích việc xử lý truy vấn 114 4.2.3 Độ phức tạp thao tác đại số quan hệ 115 4.3 ĐẶC TRƯNG CỦA BỘ XỬ LÝ TRUY VẤN 115 4.3.1 Ngôn ngữ (Languages) 115 4.3.2 Các kiểu tối ưu hoá (Types of Optimization) 116 3.3.3 Thời điểm tối ưu hoá (Optimization timing) 116 4.3.4 Số liệu thống kê (Statistics) 117 4.3.5 Vị trí định (Decision sites) 117 4.3.6 Khai thác cấu hình mạng (Exploitation of Network topology) 117 4.3.7 Khai thác mảnh nhân (Exploitation of Replicated Fragments) 117 4.3.8 Sử dụng nửa kết nối (Use of Semijoint) 118 4.4 CÁC TẦNG CỦA QUÁ TRÌNH XỬ LÝ TRUY VẤN 118 4.5 PHÂN RÃ TRUY VẤN 119 4.5.1 Bước chuẩn hoá câu truy vấn 120 4.5.2 Bước phân tích 121 4.5.3 Bước loại bỏ dư thừa 123 4.5.4 Bước viết lại truy vấn 123 4.6 CỤC BỘ HÓA DỮ LIỆU PHÂN TÁN 127 4.6.1 Rút gọn cho phân mảnh ngang nguyên thuỷ 128 4.6.2 Rút gọn cho phân mảnh dọc 130 4.6.3 Rút gọn cho phân mảnh dẫn xuất 131 4.6.4 Rút gọn cho phân mảnh hỗn hợp 133 152 CÂU HỎI VÀ BÀI TẬP 134 CHƯƠNG V: TỔNG QUAN VỀ CSDL SONG SONG 138 5.1 MỞ ĐẦU 138 5.2 CHỨC NĂNG HỆ XỬ LÝ SONG SONG 138 5.2.1 Các khía cạnh chức 138 5.2.2 Các ưu điểm CSDL song song 138 5.2.3 Chức CSDL song song 139 5.3 KIẾN TRÚC HỆ SONG SONG 139 5.3.1 Kiến trúc chia sẻ nhớ (Shared- Memory) 140 5.3.2 Kiến trúc chia sẻ đĩa (Shared-Disk) 140 5.3.3 Kiến trúc không chia sẻ 141 5.3.4 Các kiến trúc phân cấp (Hierachical Architectures) 141 5.3.5 Các kiến trúc NUMA 141 5.4 CÁC KỸ THUẬT HỆ QUẢN TRỊ CSDL SONG SONG 142 5.4.1 Sắp đặt liệu 142 5.4.2 Phân vùng luân chuyển (Round Rrobin Partitioning) 143 5.4.3 Phân vùng băm (Hash Partitioning): 143 5.4.4 Phân vùng theo khoảng cách (Range Partitioning) 143 5.4.5 Các giải pháp phân vùng 143 5.5 TRUY VẤN SONG SONG 145 5.5.1 Song hành nội toán tử 145 5.5.2 Song hành liên toán tử 145 5.5.3 Xử lý liệu song song 145 CÂU HỎI TRẮC NGHIỆM 146 MỤC LỤC 149 153 ... niệm về: A Cơ sở liệu phân tán công nghệ mạng máy tính B Cơ sở liệu tập trung tối ưu hoá câu hỏi C Cơ sở liệu phân tán hệ quản trị sở liệu phân tán Cơ sở liệu phân tán là: 33 A Một tập sở liệu có... CỦA CƠ SỞ DỮ LIỆU PHÂN TÁN Cơ sở liệu phn tán không đơn giản phân bố sở liệu, sở liệu phân tán có nhiều đặc điểm khác biệt so với sở liệu tập trung truyền thống Phần so sánh sở liệu phân tán. .. xử lý liệu phân tán dễ dàng hiệu Khái niệm hệ sở liệu phân tán bao gồm khái niệm sở liệu phân tán hệ quản trị sở liệu phân tán Cơ sở liệu phân tán tập sở liệu có quan hệ với mặt logic phân bố

Ngày đăng: 18/03/2023, 13:13