Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
872,95 KB
Nội dung
Đại Học Công Nghệ Thông Tin Đại Học Quốc Gia Thành Phố Hồ Chí Minh TP. HCM 8/2012 GVHD: PGS.TS.Đỗ Phúc Học viên: Trương Lê Hưng MS: CH1101089 Lớp: Cao Học khóa 6 Môn học: Cơ sở dữ liệu nâng cao Lời cảm ơn Lời đầu tiên em xin chân thành cảm ơn thầy Đỗ Phúc đã truyền đạt cho em những bài học thật bổ ích với những câu truyện đầy tính sáng tạo và lý thú. Cảm ơn nhà trường đã tạo điều kiện cho em cùng các bạn trong lớp có thể học tập và tiếp thu những kiến thức mới. Em cũng chân thành cảm ơn các bạn trong lớp đã chia sẻ cho nhau những tài liệu và hiểu biết về môn học để cùng hoàn thành tốt môn học này. Trong thời gian vừa qua mặc dù em đã cố gắng rất nhiều để hoàn thành tốt đề tài của mình, song chắc chắn kết quả không tránh khỏi những thiếu sót. Em kính mong được sự cảm thông và tận tình chỉ bảo của thầy. TP.Hồ Chí Minh Tháng 8/2012 Học viên thực hiện Trương Lê Hưng Lớp Cao Học khóa 6 Môn học: Cơ sở dữ liệu nâng cao Trang 2 Nhận xét Lời mở đầu Môn học: Cơ sở dữ liệu nâng cao Trang 3 Sự phát triển không ngừng của thông tin số đã nảy sinh nhiều vấn đề trong việc lưu trữ và sử lý các thông tin dữ liệu với khối lượng lớn và phức tạp. Do vậy, yêu cầu về sử lý cơ sở dữ liệu ngày càng đòi hỏi việc thiết kế sao cho phù hợp và tiện dụng. Các hệ thống cơ sở dữ liệu tập trung truyền thống bộc lộ nhiều khuyết điểm như tăng khả năng lưu trữ thông tin khó bởi giởi hạn về bộ nhớ thiết bị, độ sẵn sàng phục vụ của cơ sở dữ liệu không cao khi số người sử dụng tăng, khả năng tính toán của các máy tính đơn lẻ đang dần tới giới hạn vật lý, mô hình lưu trữ, xử lý dữ liệu tập trung không phù hợp với các tổ chức hoạt động đa quốc gia. Tuy nhiên những nhược điểm này được khắc phục khá nhiều trong hệ thống phân tán. Do đó càng ngày các hệ thống phân tán xuất hiện càng nhiều đã chứng minh tính ưu việt của nó hơn hẳn các hệ thống tập trung truyền thống. Trong nội dung bài tiểu luận này em xin được trình bày khái quát cơ sở lý thuyết về cơ sở dữ liệu phân tán cũng như tập trung tìm hiểu về phân mảnh dọc, một trong các cách phân mảnh trong cơ sở dữ liệu phân tán. Nội dung bài tiểu luận bao gồm: Phần 1 : Cơ sở lý thuyết về cơ sở dữ liệu phân tán Phần 2 : Thiết kế cơ sở dữ liệu phân tán Phần 3 : Phân mảnh dọc trong cơ sở dữ liệu phân tán Phần 4 : Tổng kết và Demo. Môn học: Cơ sở dữ liệu nâng cao Trang 4 Mục lục Môn học: Cơ sở dữ liệu nâng cao Trang 5 Phần I . Cơ sở lý thuyết về cơ sở dữ liệu phân tán 1. Khái quát về cơ sở dữ liệu phân tán a. Định nghĩa Cơ sở dữ liệu (CSDL) phân tán là một tập hợp nhiều CSDL có liên quan logic và được phân bố trên một mạng máy tính. Hình 1.1: Mô hình cơ sở dữ liệu phân tán Trong CSDL phân tán có hai vấn đề quan trọng và tương đương nhau là: Việc phân tán: Trong thực tế dữ liệu không đặt trên cùng một vị trí vì vậy đây là đặc điểm để phân biệt CSDL phân tán với CSDL tập trung. Liên quan logic: Trong CSDL phân tán dữ liệu có một số đặc tính liên kết chặt chẽ với nhau như tính kết nối, tính liên quan logic. Trong CSDL phân tán mỗi vị trí chỉ quản lý một CSDL và người sử dụng phải truy cập đến CSDL ở những vị trí khác để lấy thông tin tổng hợp. b. Các đặc trưng của cơ sở dữ liệu phân tán Đặc tính vô hình là sự tách biệt về ngữ nghĩa ở mức độ cao của hệ thống với các vấn đề cài đặt ở cấp độ thấp. Ưu điểm của hệ CSDL vô hình là không cho người dùng “nhìn thấy” các chi tiết cài đặt, hỗ trợ phát triển cho các ứng dụng phức tạp. Môn học: Cơ sở dữ liệu nâng cao Trang 6 Độc lập dữ liệu là dạng vô hình cơ bản cần có trong một hệ CSDL. Sự độc lập dữ liệu liên quan đến khả năng “miễn nhiễm” của các ứng dụng đối với những thay đổi trong định nghĩa, tổ chức dữ liệu và ngược lại. Vô hình kết mạng: Trong môi trường phân tán, hệ thống mạng là một loại tài nguyên quan trọng cần quản lý. Thông thường, người dùng cần được tách khỏi mọi chi tiết hoạt động của mạng, thậm chí người ta mong muốn che dấu sự tồn tại của mạng nếu được. Khi đó đối với người dùng sẽ không thấy sự khác biệt giữa các ứng dụng chạy trên CSDL tập trung và các ứng dụng chạy trên CSDL phân tán. Kiểu vô hình này gọi là vô hình kết mạng (network transparency) hoặc vô hình phân bổ (distribution transparency). Vô hình nhân bản: Vì những lý do về hiệu năng (performance), độ tin cậy (reliability) và tính sẵn sàng (availability), người ta mong muốn có thể nhân dữ liệu thành nhiều bản (nhân bản) trên các máy mạng. Việc nhân bản giúp tăng hiệu năng vì những yêu cầu sử dụng có xung đột và nằm rải rác có thể đáp ứng kịp thời. Khi các đối tượng CSDL bị phân mảnh, chiến lược xử lý vấn tin là dựa trên các mảnh chứ không phải quan hệ. Như vậy câu vấn tin toàn cục (global query) phải được dịch thành câu vấn tin theo mảnh (fragment query). 2. Ưu điểm và nhược điểm của cơ sở dữ liệu phân tán - Ưu điểm: o Dữ liệu gần với nơi xử lý -> Hiệu suất cao. o Tính sẵn sàng của hệ thống cao: Nếu một trạm bị lỗi sẽ không ảnh hưởng tới các trạm khác trong hệ thống. o Việc tăng các trạm sử dụng trong hệ thống là đơn giản nên việc mở rộng CSDL là dễ dàng. - Nhược điểm: o Lưu trữ: Ngoài lược đồ CSDL như trong CSDL tập trung (Thuộc tính, kiểu dữ liệu, …) còn thêm các lược đồ phân đoạn CSDL, lược đồ định vị CSDL (cho biết các đoạn được lưu trữ ở đâu). o Xử lý: Truy vấn tập trung là đơn giản còn truy vấn phân tán phức tạp. Môn học: Cơ sở dữ liệu nâng cao Trang 7 o An toàn: CSDL được lưu trữ ở nhiều nơi nảy sinh vấn đề: đảm bảo an toàn dữ liệu khi truyền qua mạng. 3. Hệ quản trị cơ sở dữ liệu phân tán Hệ quản trị CSDL phân tán (Distributed Database Management System- DBMS) được định nghĩa là một hệ thống phần mềm cho phép quản lý các hệ CSDL (tạo lập và điều khiển các truy nhập cho các hệ CSDL phân tán) và làm cho việc phân tán trở nên trong suốt với người sử dụng. Đặc tính vô hình muốn nói đến sự tách biệt về ngữ nghĩa ở cấp độ cao của một hệ thống với các vấn đề cài đặt ở cấp độ thấp. Sự phân tán dữ liệu được che dấu với người sử dụng làm cho người sử dụng truy nhập vào CSDL phân tán như hệ CSDL tập trung. Sự thay đổi việc quản trị không ảnh hưởng tới người sử dụng. Hệ quản trị CSDL phân tán gồm 1 tập các phần mềm (chương trình) sau: • Các chương trình quản trị các dữ liệu phân tán • Chứa các chương trình để quản trị việc truyền thông dữ liệu • Các chương trình để quản trị các CSDL địa phương. • Các chương trình quản trị từ điển dữ liệu. Để tạo ra một hệ CSDL phân tán (Distributed Database System-DDBS) các tập tin không chỉ có liên đới logic chúng còn phải có cấu trúc và được truy xuất qua một giao diện chung. Môi trường hệ CSDL phân tán là môi trường trong đó dữ liệu được phân tán trên một số vị trí. 4. Các hình thức tổ chức cơ sở dữ liệu phân tán a. Mô hình Peer-to-Peer Các máy tính cá nhân và máy trạm có thể được sử dụng như một hệ thống độc lập trợ giúp các ứng dụng địa phương. Mỗi thành viên trong mạng có vai trò ngang nhau, tự quản lý tài nguyên của chính mình và chia sẻ tài nguyên cho các máy tính khác trên mạng. Mỗi một máy tính trên mạng vừa đóng vai trò máy chủ (Server), vừa đóng vai trò là máy khách (Client). Đây là mô hình mạng đơn giản, phù hợp với những hệ thống mạng nhỏ không có yêu cầu cao về bảo mật. Môn học: Cơ sở dữ liệu nâng cao Trang 8 Hình 1.2: Mô hình Peer-to-Peer b. Mô hình file Server File server một số máy dịch vụ file được gán trực tiếp vào mạng LAN. File server là một thiết bị quản lý các hoạt động file và phục vụ các máy tính cá nhân được kết nối trong mạng LAN. Mỗi máy cá nhân được phân chia một dung lượng cố định trên ổ cứng của File server, chương trình ở các máy tính cá nhân có thể tham chiếu đến các file trên phần đĩa tương ứng của nó bằng một đặc tả đường dẫn. Những hạn chế của File server như: Dữ liệu di chuyển trên mạng quá nhiều, việc kiểm soát dữ liệu là phi tập trung, các máy trạm phải đủ mạnh. Hình 1.3: Mô hình file Server c. Mô hình Client/Server Một số máy dịch vụ file được gán trực tiếp vào mạng LAN: Môn học: Cơ sở dữ liệu nâng cao Trang 9 Server có chức năng điều khiển, lưu trữ CSDL, xử lý các truy vấn và quản lý việc khai thác tài nguyên trên mạng của các máy tính khác. Thuật ngữ client được sử dụng để chỉ người khai thác tài nguyên mạng. Hình 1.4: Mô hình Client/Server 5. Cấu trúc chung của một cơ sở dữ liệu phân tán Cấu trúc mẫu của một cơ sở dữ liệu phân tán có dạng: Hình 1.5: Cấu trúc mẫu của một cơ sở dữ liệu phân tán - Lược đồ toàn cục: o Xác định toàn bộ dữ liệu được lưu trữ trong CSDLPT. o Được định nghĩa như trong CSDL tập trung. o Trong mô hình quan hệ: lược đồ toàn cục là các quan hệ và mối liên kết giữa chúng. - Lược đồ phân đoạn: Môn học: Cơ sở dữ liệu nâng cao Trang 10 [...]... cấu trúc cây Chiến lược phân mảnh này gọi là phân đoạn lai hay phân mảnh trộn, hay phân mảnh lồng Môn học: Cơ sở dữ liệu nâng cao Trang 17 Phần III Phân mảnh dọc trong cơ sở dữ liệu phân tán 1 Giới thiệu về phân mảnh dọc Một phân mảnh dọc cho một quan hệ R sinh ra các mảnh R 1, R2,…, Rr mỗi mảnh chứa một tập con thuộc tính của R và cả khoá của R Mục đích của phân mảnh dọc là phân hoạch một quan hệ thành... một mảnh Một phân mảnh "tối ưu" là phân mảnh sinh ra một lược đồ phân mảnh cho phép giảm tối đa thời gian thực thi các ứng dụng chạy trên mảnh đó Do vậy bài toán phân mảnh không chỉ là bài toán của hệ cơ sở dữ liệu phân tán mà còn là bài toán của cơ sở dữ liệu tập trung Kỹ thuật phân mảnh dọc phức tạp hơn so với kỹ thuật phân mảnh ngang Điều này là do tổng số chọn lựa có thể của một phân hoạch dọc. .. theo CA Môn học: Cơ sở dữ liệu nâng cao Trang 26 Tài liệu tham khảo Tài liệu tiếng Việt [1] PGS.TS Đỗ Phúc, Tập slide bài giảng môn học cơ sở dữ liệu nâng cao, ĐHCNTT, TP.HCM [2] Nguyễn Quốc Vương, Nghiên cứu cơ sở dữ liệu phân tán và ứng dụng thiết kế hệ thống bánvé máy bay, Đại Học Đà Nẵng, 2010 [3] Bài giảng môn học Cơ sở dữ liệu nâng cao, ĐH Hàng Hải [4] Bài giảng Cơ sở dữ liệu phân tán, Học viện... được lưu trữ tại một trạm Môn học: Cơ sở dữ liệu nâng cao Trang 11 Phần II Thiết kế cơ sở dữ liệu phân tán 1 Các chiến lược phân tán dữ liệu a Tập trung dữ liệu Tất cả các dữ liệu được tập trung tại một chỗ, cách này đơn giản nhưng có 3 nhược điểm: • Dữ liệu không sẵn sàng cho người sử dụng truy nhập từ xa, • Chi phí truyền thông lớn, thường làm cực đại việc truy nhập dữ liệu tới nơi tập trung • Toàn bộ... ngang (horizontal fragmentation) • Phân mảnh dọc (vertical fragmentation) • Phân mảnh hỗn hợp (hibrid fragmentation) c Phân mảnh ngang Phân mảnh ngang chia một quan hệ theo các bộ, vì vậy mỗi mảnh là một tập con của quan hệ Có hai loại phân mảnh ngang: phân mảnh ngang nguyên thủy và phân mảnh ngang dẫn xuất Phân mảnh ngang nguyên thủy của một quan hệ được Môn học: Cơ sở dữ liệu nâng cao Trang 16 thực hiện... một phân mảnh sinh ra một lược đồ phân mảnh cho phép giảm đến tối đa thời gian thực thi các ứng dụng chạy trên các mảnh đó Phần tiếp theo của tiểu luận sẽ đề cập chi tiết về phân mảnh dọc e Phân mảnh hỗn hợp Trong thực tế, hầu hết các trường hợp phân mảnh ngang hay phân mảnh dọc đơn giản của CSDL không thỏa mãn yêu cầu người sử dụng Thường CSDL được phân mảnh dọc sau đó phân mảnh ngang, tạo ra sự phân. .. lại, phân mảnh ngang dẫn xuất là phân ra một quan hệ dựa vào các vị từ được định nghĩa trên một quan hệ khác d Phân mảnh dọc Một phân mảnh dọc cho một quan hệ r sinh ra các mảnh r 1, r2,…., rn mỗi mảnh chứa một tập con thuộc tính của R và cả khóa của r Mục đích của phân mảnh dọc là phân hoạch một quan hệ thành một tập các quan hệ nhỏ hơn để nhiều ứng dụng có thể chỉ chạy trên một quan hệ Một phân mảnh. .. dụng trong tương lai Tích hợp khung nhìn được sử dụng nhằm đảm bảo rằng các yêu cầu về thực thể và các mối liên hệ giữa các khung nhìn đều phải được bao quát trong lược đồ khái niệm Môn học: Cơ sở dữ liệu nâng cao Trang 13 Hình 2.1: Sơ đồ thiết kế cơ sở dữ liệu phân tán theo mô hình từ trên xuống Trong các hoạt động thiết kế khái niệm và thiết kế khung nhìn, người sử dụng cần phải đặc tả các thực thể dữ. .. địa phương vào lược đồ tổng thể 3 Phương pháp phân mảnh a Tại sao phải phân mảnh Khung nhìn hoặc đơn vị truy xuất của các ứng dụng không phải là toàn bộ quan hệ mà thường là một mảnh Việc phân rã một quan hệ thành nhiều mảnh, mỗi mảnh được xử lý như một đơn vị, sẽ cho phép thực hiện nhiều giao dịch đồng thời Môn học: Cơ sở dữ liệu nâng cao Trang 15 Việc phân mảnh các quan hệ sẽ cho phép thực hiện song... cục bộ bằng cách phân tán các thực thể cho các vị trí của hệ thống phân tán Ta chia quan hệ thành nhiều quan hệ nhỏ hơn gọi là các mảnh (fragment) và phân tán các mảnh này Hoạt động thiết kế phân tán gồm hai bước: Phân mảnh (fragmentation) và cấp phát (allocation) Thiết kế vật lý là ánh xạ lược đồ khái niệm cục bộ sang các thiết bị lưu trữ vật lý có sẵn tại các vị trí tương ứng Nguyên liệu cho quá trình . cơ sở dữ liệu phân tán. Nội dung bài tiểu luận bao gồm: Phần 1 : Cơ sở lý thuyết về cơ sở dữ liệu phân tán Phần 2 : Thiết kế cơ sở dữ liệu phân tán Phần 3 : Phân mảnh dọc trong cơ sở dữ liệu phân. chung của một cơ sở dữ liệu phân tán Cấu trúc mẫu của một cơ sở dữ liệu phân tán có dạng: Hình 1.5: Cấu trúc mẫu của một cơ sở dữ liệu phân tán - Lược đồ toàn cục: o Xác định toàn bộ dữ liệu được. phân tán Phần 4 : Tổng kết và Demo. Môn học: Cơ sở dữ liệu nâng cao Trang 4 Mục lục Môn học: Cơ sở dữ liệu nâng cao Trang 5 Phần I . Cơ sở lý thuyết về cơ sở dữ liệu phân tán 1. Khái quát về cơ sở