1. Trang chủ
  2. » Luận Văn - Báo Cáo

CSDL phan tan ứng dụng quản lý sinh viên

47 3,1K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 599,08 KB

Nội dung

I. Sơ lược về CSDL và hệ phân tán 2 1. Sơ lược về CSDL 2 2. Sơ lược về hệ phân tán 3 II. Tổng quan về CSDL phân tán 6 1. Định nghĩa 6 2. So sánh CSDL tập trung và CSDL phân tán 7 3. Đặc điểm 9 4. Kiến trúc chung của CSDL phân tán 12 III. Thiết kế CSDL phân tán 17 1. Cơ sở thiết kế CSDL phân tán: 17 2. Đối tượng thiết kế của cơ sở dữ liệu phân tán 17 3. Các sản phẩm yêu cầu sau khi phân tích thiết kế 18 4. Các chiến lược phân tán dữ liệu 18 5. Phân mảnh dữ liệu 19 5.1 Các lý do phân mảnh 19 5.2 Các yêu cầu của phân mảnh 20 6. Hướng thiết kế trong CSDL phân tán 21 7. Xử lý truy vấn trong CSDL phân tán 23 7.1 Xử lý truy vấn trong môi trường tập trung 23 7.2 Định vị dữ liệu phân tánTối ưu hóa cục bộ 28 8. Tối ưu hóa truy vấn trong CSDL phân tán 34 8.1 Mô hình chi phí của bộ tối ưu hóa truy vấn 34 8.2 Các thống kê dữ liệu 36 8.3 Lực lượng của các kết quả trung gian 37 IV. Thiết kế CSDL phân tán cho hệ thống quản lý sinh viên theo mô hình phân tán …………………………………………………………………………39 1. Kiến trúc hệ CSDL phân tán của chương trình 39 2. Lược đồ quan niệm toàn cục 39 3. Phân mảnh dữ liệu 42 4. Các truy vấn phân tán 47 V. Lời cảm ơn 50

Trang 1

MỤC LỤC

Trang 2

I. Sơ lược về CSDL và hệ phân tán

1. Sơ lược về CSDL

a. Định nghĩa Cơ Sở Dữ Liệu –CSDL ( Data Base)

CSDL là một hệ thống các thông tin có cấu trúc được lưu trữ trêncác thiết bị như băng từ, đĩa từ,… để có thể thỏa mãn yêu cầu khai thácđồng thời của nhiều người sử dụng

b. Ưu điểm của CSDL

• Giảm sự trùng lặp thông tin xuống mức thấp nhất và do đó đảmbảo được tính nhất quán và toàn vẹn dữ liệu

• Đảm bảo dữ liệu có thể truy xuất theo nhiều cách khác nhau

• Khả năng chia sẻ thông tin cho nhiều người sử dụng

c. Đặc điểm của CSDL

Tính chủ quyền của dữ liệu

Tính chủ quyền của dữ liệu được thể hiện ở phương diện antoàn dữ liệu, khả năng biểu diễn các mối liên hệ ngữ nghĩa của dữ liệu

và tính chính xác của dữ liệu Điều này có nghĩa là người khai thácCSDL phải có nhiệm vụ cặp nhật các thông tin mới nhất của CSDL

Tính bảo mật và quyền khai thác thông tin của người sử dụng

Do có nhiều người được phép khai thác dữ liệu một cách đồngthời, nên cần thiết phải có một cơ chế bảo mật và phân quyền hạn khaithác CSDL Các hệ điều hành nhiều người sử dụng hay hệ điều hànhmạng cục bộ đều có cung cấp cơ chế này

Tranh chấp dữ liệu

Nhiều người được phép truy nhập cùng một lúc vào tài nguyên

dữ liệu của CSDL với những mục đích khác nhau, do đó cần thiết phải

có một cơ chế ưu tiên khi truy nhập dữ liệu Cơ chế ưu tiên có thểđược thực hiện bằng việc cấp quyền ưu tiên cho từng người khai thác

Đảm bảo an toàn dữ liệu khi có sự cố

Việc quản lý dữ liệu tập trung có thể làm tăng khả năng mấtmát hoặc sai lệch thông tin khi có sự cố như mất điện đột xuất, haymột phần đĩa lưu trữ CSDL bị hư,… một số hệ điều hành mạng cócung cấp dịch vụ sao lưu ảnh đĩa cứng, tự động kiểm tra và khắc phụclỗi khi có sự cố Tuy nhiên, bên cạnh dịch vụ của hệ điều hành, đểđảm bảo CSDL luôn ổn định, một CSDL nhất thiết phải có một cơ chếkhôi phục dữ liệu khi có các sự cố bất ngờ xảy ra

2. Sơ lược về hệ phân tán

Mạng máy tính

Trang 3

Một mạng máy tính là một tập các máy tính tự vận hành, được kết nốilại và có khả năng trao đổi thông tin giữa chúng.

Các máy tính trên một mạng thương được gọi là các nút hay các trạm,chúng tạo ra các phần cứng cơ bản của mạng và được kết nối lại với nhaubởi một đường truyền

Một mạng máy tính là một trường hợp đặc biệt của môi trường xử lýphân tán, trong đó các máy tính là các thiết bị được kết nối vào kênh truyền

Với loại mạng này độ tin cậy thấp giao tiếp giữa hai máytính phụ thuộc vào máy tính trung tâm Tải trọng trên máy trungtâm là rất lớn

Mạng vòng:

Các máy tính trong mạng vòng được nối với nhau theo vòngkhép kín Mỗi trạm đóng vai trò là một bộ phận chuyển tiếp Trongvòng tròn thì dữ liệu chỉ truyền theo một chiều Đối với mạng nàythì nếu đường nối bị đứt tai một vị trí nào đó thì cả hệ thống sẽdừng hoạt dộng và lượng thông tin di chuyển trên đường truyền làrất lớn

Mạng thảm:

Là loại mạng mà mỗi nút đều được kết nối với nút còn lại

Có độ tin cậy cao hơn và khả năng hoạt động tốt hơn những cấutrúc khác song lại tốn chi phí xây dựng hệ thống

b. Các hình thức tổ chức hệ thống phân tán

Mô hình nhóm làm việc (peer-to-peer)

Trang 4

Các máy tính cá nhân và máy trạm có thể được sử dụng nhưmột hệ thống độc lập trợ giúp các ứng dụng địa phương.

Mỗi thành viên trong mạng có vai trò ngang nhau tự quản lýtài nguyên của chính mình và chia sẻ tài nguyên cho các máytính khác trên mạng Mô hình này phù hợp với những hệ thốngmạng nhỏ không có yêu cầu cao về bảo mật

Mô hình máy dịch vụ file ( File server)

Là mô hình có một số máy server được gắn trực tiếp vàomạng LAN File Server là một thiết bị quản lý các hoạt độngfile và phục vụ các máy tính cá nhân được kết nối trong mạngLAN Mỗi máy tính cá nhân được phân chia một dung lượng cốđịnh trên ổ cứng của File Server, chương trình ở các máy tính

cá nhân có thể tham chiếu đến các file trên phần đĩa tương ứngcủa nó bằng một đặc tả đường dẫn

Tuy nhiên mô hình này có một số nhược điểm như : dữliệu di chuyển trên mạng quá nhiều, việc kiểm soát đữ liệu làphi tập trung và các máy chủ phải đủ mạnh

Mô hình Client/Server( mô hình khách/chủ)

Là mô hình có một máy chủ được gắn trực tiếp vào mạngLAN có chức năng điều khiển, lưu trữ CSDL, xử lý các truy vấn vàquản lý khai thác tài nguyên trên mạng của các máy tính khác

Trang 5

c. Các đặc trưng của hệ thống phân tán kiến trúc client/server

Trình diễn thông tin phân tán

Mục đích: làm mới các ứng dụng trên các máy khách và đểđịnh dạng lại dữ liệu do server quản lý

Server: quản lý và phân tích mọi dữ liệu Sử dụng côngnghệ trình diễn của server để gửi dữ liệu gửi cho các clients

Client: Dữ liệu trình diễn trên server định dạng để trình diễncho các clients

• Trình diễn từ xa

Mục đích: mỗi users muốn thay đổi các biểu mẫu báo cáohoặc nội dung mới thì chỉ cần bảo trì phần mềm trên máy khách.Phần mềm trên các client có khả năng trình diễn dữ liệu được địnhdạng theo ý của client

• Xử lý phân tán

Cho phép phối hợp tốt nhất các đặc trưng của hệ phân tánnhư liên kết dữ liệu và chương trình trên máy chủ và chỉ để lạichức năng trình diễn trên máy khách Cho phép định vị một cáchmềm dẻo cả chức năng phân tích và xử lý dữ liệu ở nơi mà chúnghoạt động tốt nhất

I. Tổng quan về CSDL phân tán

1. Định nghĩa

 CSDL phân tán là một tập hợp dữ liệu và về mặt logic tập hợpnày thuộc cùng một hệ thống, nhưng về mặt vật lý dữ liệu đóđược phân tán trên các vị trí khác nhau của một mạng máy tính

 CSDL phân tán bao gồm tập các trạm, mỗi trạm xem như 1 máytính có thiết bị lưu trữ riêng Cũng có thể có trạm chỉ có thiết bịlưu trữ nhỏ thậm chí không có Các trạm được liên kết sao chocác thông báo dữ liệu có thể truyền qua lại giữa các trạm

Trang 6

 CSDL phân tán không phụ thuộc vào vị trí địa lý của các trạm,

nó có thể ứng dụng trong mạng rộng hay mạng cục bộ Như thế

1 đơn vị dữ liệu về mặt vật lý chúng có thể lưu trữ khác nhaunhưng về mặt logic chỉ là một

 2 điểm quan trọng

Phân tán Dữ liệu không cư trú trên một vị trí mà được

phân bố rộng khắp trên nhiều máy tính đặt tại nhiều vị tríkhác nhau, đây là điểm phân biệt một cơ sở dữ liệu phântán với một cơ sở dữ liệu tập trung

Tương quan logic Dữ liệu trong hệ phân tán có một số

thuộc tính ràng buộc chúng với nhau Điều này giúpchúng ta có thể phân biệt một cơ sở dữ liệu phân tán vớimột tập hợp cơ sở dữ liệu tập trung, các file dữ liệu đượclưu trữ tại nhiều vị trí khác nhau, điều này thường thấytrong các ứng dụng mà hệ thống sẽ phân quyền truy nhập

dữ liệu trong môi trường mạng

2. So sánh CSDL tập trung và CSDL phân tán

CSDL phân tán không đơn giản là những sự thực hiện phân tán củaCSDL tập trung, bởi vì chúng cho phép thiết kế các đặc trưng khácvới CSDL tập trung truyền thống

Các đặc điểm tiêu biểu của CSDL truyền thống:

 Điều khiển tập trung

 Độc lập dữ liệu

 Giảm dư thừa

 Biệt lập và bảo mật

Điều khiển tập trung

CSDL tập trung: khả năng điều khiển tập trung trên toàn

nguồn tài nguyên thông tin của tổ chức, được xem là động cơmạnh nhất cho việc ra đời CSDL Chúng được phát triển hư là

sự tiến hóa của hệ thống thông tin, mà trong đó mỗi ứng dụng

có các tập tin riêng của nó

Trang 7

CSDL phân tán: ý niệm về điều khiển tập trung ít được nhấn

mạnh hơn Điều này phụ thuộc vào kiến trúc của CSDL phântán CSDL phân tán được điều khiển với cấu trúc phân lớp dựavào một hệ quản trị CSDL toàn cục (có trách nhiệm trên toàn

bộ CSDL phân tán) và hệ quản trị CSDL địa phương ( có tráchnhiệm với CSDL địa phương riêng) Điều này cho thấy rằng hệquản trị CSDL địa phương có thể có một mức tự trị cao CácCSDL phân tán có thể rất khác nhau về mức độ tự trị: từ hoàntoàn tự trị, không có bất cứ một hệ quản trị CSDL tập trungnào, đến hầu như hoàn toàn điều khiển tập trung

Độc lập dữ liệu:

Thuận lợi chính của độc lập dữ liệu là các chương trình không

bị ảnh hưởng bởi sự thay đổi trong cấu trúc vật lý của dữ liệu TrongCSDL phân tán độc lập dữ liệu cũng quan trọng giống như trongCSDL truyền thống Tuy nhiên, một khía cạnh cũng mới được themvào trong ý niệm của độc lập dữ liệu là trong suốt phân tán Với trongsuốt phân tán chúng ta hiểu rằng các chương trình ứng dụng có thể sửdụng csld như là nó không được tổ chức phân tán Vì thế sự chính xáccủa chương trình không bị ảnh hưởng bởi việc dịch chuyển dữ liệu từtrạm này đến trạm khác

Giảm sự dư thừa dữ liệu

 Trong csld truyền thống: dữ liệu dư thừa được giảm đến mức tốithiểu bởi hai lý do:

 Sự không tương thích giữa nhiều bản sao của cùng một tập dữliệu

 Tiết kiệm không gian lưu trữ bằng cách loại bỏ các dư thừa.Việc giảm dư thừa dữ liệu có thể đạt được bằng cách chia sẽ dữliệu, cho phép nhiều ứng dụng truy cập cùng bản tin và bản ghi

 Trong CSDL phân tán: việc giảm dư thừa phức tạp hơn vì ngoàihai lý do trên còn nhiều lý do để giảm dư thừa như:

 Hoạt động của các trình ứng dụng có thể bị tăng lên khi

dữ liệu được sao lại tất cả các vị trí, nơi trình ứng dụngcần nó

Trang 8

 Tính thường trực của hệ thống sẽ tăng lên, bởi vì khi cólỗi xảy ra ở một trạm nào đó sẽ không dừng việc thựchiện các ứng dụng của trạm khác nếu dữ liệu đã được saochép lại.

Biệt lập và bảo mật

Trong CSDL truyền thống: hệ quản trị CSDL tập trung có

thể đảm bảo chỉ truy cập đến dữ liệu đã được ủy quyền

Trong CSDL phân tán: hệ quản trị dữ liệu địa phương thực

chất phải đương đầu với các vấn đề giống như hệ quản trịCSDL trong CSDL truyền thống

Tuy nhiên:

trong CSDL phân tán với một mức độ tự trị rất cao của cácđịa phương, người chủ dữ liệu địa phương cảm giác đượcbảo vệ tốt hơn vì họ có thể tự chủ thực hiện bảo vệ thay vìphụ thuộc vào người quản trị CSDL trung tâm

Vấn đề bảo mật là bản chất trong hệ phân tán nói chung, vìcác mạng truyền thông diện rộng cho phép nhiều người cậpnhật và khai thác dữ liệu nên cần được bảo vệ

3. Đặc điểm

Ưu điểm:

Tăng độ tin cậy

CSDL phân tán được mong đợi là tăng cường tính tin cậy

vì nó có các thành phần được nhân bản và do đó làm giảm đitác hại do hỏng hóc ở những điểm đơn lẻ mang lại như hệ thốngtập trung Sự hỏng hóc của một nút hay một đường truyềnthông có thể làm một hay một số vị trí không thể giao tiếp đượcnhưng không vì thế mà làm ngừng cả hệ thống

Nâng cao hiệu năng

Hiệu năng của các hệ CSDL phân tán được nâng cao dựa trênhai điểm sau:

o Một hệ CSDL phân tán phân ra mô hình quan niệm( conceptual model ) thành các mô hình quan niệm địaphương ( local conceptual model ), dữ liệu được lưu trữ ởnhững vị trí gần với nhu cầu sử dụng Điều này đem đếnhai ưu điểm:

o Mỗi vị trí chỉ phải quản lý một phần dữ liệu, CPU khôngphải hoạt động quá tải như trong CSDL tập trung

Trang 9

o Giảm bớt thời gian truy nhập từ xa, thường gây chậm trễ,hỏng hóc.

o Thừa kế khả năng tính toán song song từ hệ phân tán, hệCSDL phân tán cho phép thực thi nhiều query một lúchay phân chia query đơn thành nhiều query để thực hiệntại nhiều nơi

Điểm thứ nhất giải quyết một nhược điểm của tínhtoán phân tán: Dữ liệu và chương trình xử lý được lưu trữ ởnhững nơi xa nhau Nếu thực hiện theo điểm thứ nhất thìchúng ta không phải truyền tải một khối lượng lớn dữ liệuqua mạng Có một số ý kiến cho rằng: Ngày nay, công nghệmạng phát triển, những đường truyền cao tốc, băng thôngrộng cài đặt ở nhiều nơi Như vậy thì vẫn có thể vẫn duy trìđược cơ chế cũ và quên đi CSDL phân tán Tuy nhiên, tưtưởng này đã lầm Trước tiên phải thấy rằng: Dữ liệu về bảnchất là phân tán và chúng ta không thể ép buộc đem chúngtập trung lại được Thứ hai, họ đã không phân biệt đượcbăng thông – dung lượng của đường truyền và khoảng thờigian cần để truyền thông tin qua mạng Độ trễ của truyềnthông trên mạng bao giờ cũng giới hạn về mặt vật lý, vàchúng ta khó có thể kiểm soát được điều này Ví dụ: Đườngtruyền vệ tinh cần nửa giây để truyền dữ liệu giữa hai trạmtrên mặt đất Đây là tính chất vật lý của đường truyền màchúng ta không thể cải thiện được

Điểm thứ hai cũng rất quan trọng Trong trường hợp

hệ CSDL phân tán sử dụng cơ chế nhân bản Nhiều truy vấnread – only sẽ được thực hiện ở các nhân bản thay vì hiệntượng thắt cổ chai xảy ra trên bản chính như mô hình tậptrung trước đây

Dễ dàng mở rộng hệ thống

Hoạt động trong môi trường phân tán, hệ CSDL phân tán cóthể nói là dễ dàng đối phó với xu hướng mở rộng của hệ CSDL haythêm CSDL Điều này thực hiện bằng việc thêm một thành phầnvật lý hay logic vào hệ thống Hơn nữa, dữ liệu được lưu trữ ởnhiều nơi, mà dung lượng tại một nơi thường lớn Do đó, dunglượng của cả hệ thống cũng lớn

 Đáp ứng nhanh hầu hết các ứng dụng sử dụng dữ liệu tại cáctrạm

Trang 10

 Tăng cường các đơn thể ứng dụng và CSDL mà không làm cảntrở người sử dụng hiện tại.

 Kiểm soát dữ liệu địa phương theo hướng hoàn thiện sự tíchhợp và quản trị dữ liệu từ xa

 Tăng cường khả năng của hệ thống liên quan đến sự dư thừa dữliệu

 Thuận lợi cho nhu cầu phát triển: Xu hướng dùng CSDL phântán sẽ cung cấp khả năng phát triển thuận lợi hơn và giảm đượcxung đột về chức năng giữa các đơn vị đã tồn tại và giảm đượcxung đột giữa các chương trình ứng dụng khi truy cập đếnCSDL Với hướng tập trung hóa thì nhu cầu phát triển trongtương lai sẽ gặp khó khăn

 Giảm chi phí truyền thông: Trong CSDL phân tán chương trìnhứng dụng đặt ở địa phương có thể giảm bớt được chi phí truyềnthông khi thực hiện bằng cách khai thác CSDL tại chỗ

Nhược điểm

Các khó khăn trong phân tán dữ liệu

o Phân tán dữ liệu qua các site trên mạng đảm bảo tính tốiưu

o Đảm bảo việc truy nhập và xử lý giữa các site khác nhauphải hiệu quả và có thể là tối ưu

o Chuyển đổi giữa dữ liệu và tích hợp kết quả xử lý giữacác vị trí phải chính xác

o Kiếm soát người dùng, chương trình ứng dụng truy cậpvào các site và mã hóa thông tin, bảo mật trên đườngtruyền

o Khôi phục dữ liệu từ hỏng hóc của các thành phần phầncứng và phần mềm phải an toàn và hiệu quả

o Đảm bảo quản lý giao dịch hiệu quả để giữ vững trạngthái nhất quán cho CSDL

Các khó khăn trong tích hợp dữ liệu

o Người dùng và lập trình viên khi muốn tìm hiểu về một

hệ CSDL tích hợp thì cần phải biết vị trí, định dạng dữliệu mà họ muốn truy cập

o Khi muốn tạo ra một truy vấn, thì kiểu cách, cấu trúc dữliệu ở các site khác nhau sẽ gây cản trở tạo ra truy vấn

Các khó khăn khác

Trang 11

o Phần mềm đắt và phức tạp

o Phải xử lý các thay đổi thông báo trong mọi địa điểm

o Đáp ứng chậm nhu cầu của các trạm trong trường hợpcác phần mềm ứng dụng không được phân bộ phù hợpvới việc sử dụng chung

Đánh giá

 Cơ sở dữ liệu phân tán là quan trọng trong kinh tế, tổ chức và

kỹ thuật với nhiều lý do khác nhau Chúng có thể được cài đăttrên một mạng máy tính có phạm vi rộng lớn hoặc nhỏ bé

 Hiện nay các DDBMSs thương mại đều tích hợp các ứng dụngphân tán nên rất tiện cho người sử dụng

4. Kiến trúc chung của CSDL phân tán

Trang 12

Sơ đồ toàn thể:

Mô tả mọi dữ liệu nằm trong CSDL phân tán như các dữ liệu không

bị phân tán ở các trạm trong hệ thống Tuy nhiên mô hình sử dụng để xácđinh sơ đồ toàn thể để xác định cách thức ánh xạ đến những mức khác củaCSDL phân tán Sơ đồ toàn thể xác định một tập các quan hệ chung nhấtcủa hệ thống

Sơ đồ phân đoạn:

Mỗi quan hệ có thể chia thành các phần không chồng lên nhau gọi là cácđoạn Có nhiều cách chia: chia theo chiều ngang, chia theo chiều dọc vàchia theo kiểu hỗn hợp theo chiều ngang và chiều dọc

Sơ đồ phân đoạn mô tả các ánh xạ giữa các quan hệ tổng thể và các đoạnđược định nghĩa trong sơ đồ phân đoạn Ánh xạ theo kiểu 1:n ( một quan hệsang nhiều đoạn ) là một đoạn tương ứng một quan hệ và một quan hệ tươngđương với một số đoạn Đoạn xác đinh bởi một quan hệ qua chỉ số ( chỉ sốđoạn dữ liệu)

Đoạn là phần logic của quan hệ, được đặt vật lý tại một hay vài vị trí trênmạng máy tính Sơ đồ cấp phát xác định những vị trí đặt đoạn Kiểu ánh xạxác đinh trong sơ đồ cấp phát cho phép nhận ra một CSDL phân tán là dưthừa hay không dư thừa

Do đó ta có thể ánh xạ 1-1 giữa một ảnh vật lý và một cặp ( quan hệtổng thể, trạm)

Các ảnh vật lý có thể chỉ ra bằng tên của một quan hệ tổng thể và mộtchỉ mục trạm

Trang 13

Từ kiểu kiến trúc này ta suy được 3 yếu tố:

 Tách rời khái niệm phân đoạn dữ liệu với khái niệm định vị dữ liệu

 Biết được dữ liệu dư thừa

 Độc lập với các DBMS địa phương

Tách rời khái niệm phân đoạn dữ liệu với khái niệm định vị dữ liệu.

Phân đoạn dữ liệu: bao gồm những công việc mà người lập trình ứngdụng làm việc với quan hệ tổng thể , phân chia quan hệ tổng thể thành cácđoạn Thông qua tính trong suốt phân đoạn người lập trình sẽ nhìn thấy đượcnhững đoạn dữ liệu bị phân chia như thế nào

Định vị dữ liệu liên quan đến công việc của người sử dụng và lậptrình ứng dụng tại trên các đoạn dữ liệu được định vị tại các trạm Thông quatính trong suốt vị trí người lập trình sẽ biết được vị trí của đoạn dữ liệu trêncác trạm

Biết được dữ liệu dư thừa

Người lập trình ứng dụng có thể biết được dư thừa dữ liệu ở các trạm

Ở hình vẽ trên ta thấy có sự trùng lặp dữ liệu ở trạm 3 giữa 2 ảnh vật lý R2

và R3 do đó có thể tránh được khi xấy dựng các khối ảnh vật lý

Độc lập với các DBMS địa phương

Trang 14

Tính chất này còn được gọi là trong suốt ánh xạ địa phương cho phép chúng takhảo sát các vấn đề về quản lý CSDL phân tán mà không cần phải hiểu rõ mô hình

dữ liệu của DBMS (Database Management System) địa phương đang sử dụng

Mức trong suốt bản sao liên quan chặt chẽ tới mức trong suốt định vị.Mức trong suốt bản sao có nghĩa là người sử dụng không biết bản sao củađoạn đặt ở vị trí nào Mức trong suốt bản sao tương đương với mức trongsuốt định vị Tuy nhiên trong những trường hợp thực tế người sử dụngkhông có mức trong suốt định vị nhưng lại có mức trong suốt bản sao

Phân rã quan hệ thành các đoạn thực hiện qua việc áp dụng hai phânđoạn: phân đoạn ngang và phân đoạn dọc:

o Phân đoạn ngang: một đoạn được xác định qua biểu thức đại số quan hệ

với quan hệ là toán tử và các đoạn là kết quả.Việc phân đoạn ngang baogồm việc chia các bộ của quan hệ thành các tập con Mỗi tập con này cóthuộc tính vị trí thông thường Các đoạn này được xác định qua việc coimỗi đoạn là toán tử chọn trên quan hệ

o Phân đoạn dọc: phân đoạn dọc một quan hệ là việc chia nhỏ tập thuộc

tính thành nhiều nhóm quan hệ và đoạn dọc Phân đoạn dúng khi mỗithuộc tính đều ánh xạ ít nhất sang một thuộc tính của đoạn

Một số luật để xác định các đoạn:

Điều kiện hợp: mọi dữ liệu của quan hệ phải ánh xạ đến các đoạn,

không xảy ra trường hợp dữ liệu thuộc về quan hệ nhưng không thuộc vềmột đoạn nào

Điều kiện tái tạo lại quan hệ: luôn luôn có khả năng tạo lại quan hệ từ

các đoạn của quan hệ

Điều kiện không liên kết: thích hợp khi các đoạn không liên kết với

nhau vì vậy các bản dữ liệu lặp lại có thể điều khiển rõ ràng ở các mức định

vị Điều kiện này chủ yếu có ích với phân đoạn ngang

Trang 15

Môi trường của hệ CSDL phân tán

Trang 16

II. Thiết kế CSDL phân tán

1. Cơ sở thiết kế CSDL phân tán:

Các công việc cần làm:

o Thiết kế sơ đồ khái niệm: mô tả CSDL đã hợp nhất

o Định vị các địa phương cần phân tán, loại hình phân tán sử dụng cho mỗiđịa phương

o Tiến hành cân đối các yếu tố được phân tán bao gồm các phần tử dữ liệ

và các hoạt động xử lý trên mỗi trạm

o Thiết kế CSDL vật lý: tham chiếu từ lược đồ khái niệm tới vùng lưu trữ

2. Đối tượng thiết kế của cơ sở dữ liệu phân tán

Tiến trình địa phương: phân tán dữ liệu để cực đại hóa tiến trình địaphương hay tăng thời gian xử lý trung tâm cho tiến trình địa phương tương ứngvới nguyên tắc là đơn giản hóa công việc : đặt dữ liệu gần chương trình ứngdụng thường xuyên sử dụng dữ liệu đó Thực hiện được tiến trình ở địa phương

là mục đích chính của CSDL phân tán Hai loại tham chiếu tới dữ liệu cần đượcchú ý là: tham chiếu địa phương và tham chiếu từ xa Thiết kế phân tán dữ liệu

để cực đại hóa tiến trình ở địa phương có thể thực hiện qua việc thêm vào một

số tham chiếu địa phương và tham chiếu từ xa tương ứng với phân đoạn

Tính sẵn có và dễ hiểu của dữ liệu phân tán: Cấp độ cao của tính sẵn cóđối với chương trình ứng dụng có thuộc tính chỉ đọc đạt được qua việc lưu trữcác bản sao của cùng một thông tin Hệ thống phải chuyển sang một bản saokhác khi một bản sao nào đó truy cập ở điều kiện không bình thường hay bảnsao đó không có sẵn

Tính dễ hiểu cũng đạt được khi lưu trữ nhiều bản sao của cùng một thôngtin khi cho phép phục hồi từ những hỏng hóc hay từ những phá hủy về mặt vật

lý của cùng một bản sao bằng cách dùng một bản sao khác Hỏng hóc trongmáy tính thường là những sự kiện xảy ra mà không còn khả năng phục hồi lại

Trang 17

Như vậy việc đặt nhiều bản sao ở trên những vị trí địa lý rải rác khắp nơi là giảipháp hợp lý.

Phân chia khối lượng công việc: Phân tán công việc cho những vị trí làđặc điểm quan trọng của hệ thống máy tính phân tán Việc phân chia công việccũng nhằm mục đích đạt được tiện lợi về khả năng hoặc tiện ích máy tính ở mỗi

vị trí trên mạng và cũng để tăng cấp độ thực hiện song song của chương trìnhứng dụng Khi phân chia khối lượng công việc có thể ảnh hưởng xấu đến tiếntrình xử lý địa phương và cần thiết cân nhắc đến lợi hại trong thiết kế dữ liệuphân tán,

Giá cả thiết bị lưu trữ và tính sẵn có: Phân tán dữ liệu có thể phán ánh giá

cả và tính sẵn có của thiết bị lưu trữ ở các vị trí khác nhau

3. Các sản phẩm yêu cầu sau khi phân tích thiết kế

Mô tả các trạm: Thông tin địa lý Thiết bị vật lý Thông tin hạ tầng Đặc

trưng về con người

Mô tả về sử dụng dữ liệu cho mỗi trạm: Các phần tử dữ liệu sử dụng từ

hệ thống Các phần tử dữ liệu cần phải tạo ra Các phần tử dữ liệu cập nhật Cácphần tử dữ liệu xóa

Mô tả quá trình nghiệp vụ cho mỗi trạm: Danh sách các xử lý ở các trạm.

Mô tả các xử lý

Các thỏa thuận về phương án kiến trúc hệ thống cho mỗi trạm: về trợ

giúp kỹ thuật Về hệ thống địa phương, nối mạng về các cấu hình phân tánkhác

4. Các chiến lược phân tán dữ liệu

Việc định vị và phân tán dữ liệu ở các nút trong một mạng máy tính sẽquyết định tính hiệu quả và đúng đắn của hệ thống phân tán

Có 4 chiến lược phân tán dữ liệu cơ bản:

Tập trung dữ liệu: Tất cả các dữ liệu được tập trung một chỗ

Nhược điểm: Dữ liệu không sẵn sàng cho người sử dụng truy nhập từ xa

Trang 18

Chi phí truyền thông lớn thường làm cực đại việc truy nhập dữ liệu tới nơi tậptrung.

Toàn bộ hệ thống ngừng khi CSDL bị sự cố

Chia nhỏ dữ liệu: CSDL được chia thành các phần nhỏ liên kết nhau ( không

trùng lặp) Mỗi phần dữ liệu được đưa đến các trạm một cách thích hợp để sửdụng

Sao lặp dữ liệu: CSDL được nhân thành nhiều bản từng phần hoặc đầy đủ và

được đặt ở nhiều trạm trên mạng

Nếu bản sao của CSDL được lưu giữ tại mọi trạm của hệ thống ta gọi là sao lặpđầy đủ Có thể tạo bản sao không đầy đủ phù hợp với yêu cầu dữ liệu ở mỗitrạm và một bản đầy đủ được quản lý ở server Sau một khoảng thời gian nhấtđịnh các bản sao được làm đồng bộ với bản chính bằng một ứng dụng nào đó

Phương thức lai : CSDL được phân thành nhiều phần : quan trọng và không

quan trọng Phần ít quan trọng được lưu giữ ở một nơi Phần quan trọng đượclưu giữ ở nhiều nơi khác

a. Phân mảnh ngang:

Trang 19

Phân mảnh ngang một quan hệ tổng thể n-bộ R là tách R thành cácquan hệ con n-bộ R1, R2, …….,Rk sao cho quan hệ R có thể khôi phục lại từcác quan hệ con này bằng phép hợp R = R1 R2 Rk

Phân mảnh ngang nguyên thủy: phân mảnh ngang nguyên thủy của

một quan hệ được thực hiện dựa trên các vị từ được định nghĩa trên quan hệđó

Phân mảnh ngang dẫn xuất: phân mảnh ngang dẫn xuất của một quan

hệ được thực hiện dựa trên các vị từ được định nghĩa trên quan hệ khác

b. Phân mảnh dọc: phân mảnh dọc một quan hệ tổng thể n-bộ R là tách R

thành các quan hệ con n-bộ R1, R2, …….,Rk sao cho quan hệ R có thể khôiphục lại từ các quan hệ con này bằng phép hợp R = R1 R2 Rk

c. Phân mảnh hỗn hợp : là sự phân mảnh kết hợp giữa phân mảnh ngang và

phân mảnh dọc

5.2 Các yêu cầu của phân mảnh

Phân mảnh phải tuân thủ theo các quy tắc nhất định khi tái thiết lại quan

hệ cũ vẫn đảm bảo ngữ nghĩa của nó:

Tính đầy đủ: Nếu một quan hệ R được phân rã thành các mảnh R1, R2, , Rkthì mỗi mục dữ liệu có trong R phải có trong ít nhất một mảnh Ri nào đó.Điều này đảm bảo tính không mất mát thông tin

Tính tái thiết được: Nếu một quan hệ R được phân rã thành các mảnh thì

phải tồn tại một phép toán nào đó cho phép tổng hợp lại R từ các mảnh đótùy thuộc vào từng cách phân mảnh

Tính tách biệt: Nếu một quan hệ R được phân mảnh ngang thành các quan

hệ thì một mục dữ liệu nào đó chỉ nằm trong một mảnh duy nhất Nếu quan

hệ được phân mảnh dọc thì thuộc tính chung phải được lặp lại trong mỗimảnh Do đó tính tách biệt trong trường hợp này chỉ được định nghĩa trêncác trường không phải là thuộc tính chung của quan hệ

6. Hướng thiết kế trong CSDL phân tán

Trang 20

Thiết kế Top-down: bắt đầu từ việc thiết kế sơ đồ tổng thể, tiếp tục

thiết kế phân đoạn CSDL và sau đó cấp phát các đoạn này cho các vị trí, tạohình ảnh vật lý của dữ liệu Sau đó thực hiện thiết kế vật lý dữ liệu để cấpphát cho dữ liệu Thích hợp với hệ thống phát triển từ những hệ thống hỗntạp vì nó cho phép thực hiện thiết kế dựa trên các giải pháp hợp lý theo từngtrường hợp

Thiết kế Bottom-up: thích hợp trong trường hợp CSDL phân tán được

phát triển qua việc liên kết CSDL sẵn có Các CSDL này có thể dùng hệquản trị CSDL địa phương ở vị trí đó Để hệ thống đồng bộ cần có thêm một

số việc phức tạp như đồng bộ dữ liệu cần phải giải thích giữa các mẫu CSDLkhác nhau Có thể tạo bản giải thích 1:1 giữa hai hệ quản tị CSDL địaphương Khi đó sơ đồ toàn thể được tạo ra bởi sự thỏa hiệp giữa các loại mô

tả dữ liệu có sẵn

Các yêu cầu của hướng thiết kế này là:

o Chọn mô hình CSDL thông thường để thiết kế lược đồ toàn bộ củaCSDL

o Dịch chuyển mỗi lược đồ địa phương sang mô hình dữ liệu thôngthường

o Tích hợp sơ đồ địa phương sang sơ đồ toàn bộ thông thường

Trang 21

6.1 Hướng thiết kế Top-down:

1.Thiết kế lược đồ quan hệ tổng thể:

• Thiết kế các quan hệ tổng thể

• Mô tả toàn bộ dữ liệu sẽ được dùng trong hệ thống

2 Thiết kế phân đoạn: thực hiện chia nhỏ dữ liệu thành các phần

Trang 22

• Giảm vùng nhớ trung gian

• Giảm chi phí truyền tin giữa các trạm

b. Chức năng của xử lý truy vấn:

• Biến đổi một truy vấn ở mức cao thành một truy vấn tương đương ở mứcthấp hơn cần đảm bảo tính đúng đắn và hiệu quả

• Mỗi cách biến đổi đòi hỏi tài nguyên máy tính khác nhau , ta cần phải lựachọn phương án hiệu quả sử dụng ít tài nguyên nhất

c. Các phương pháp xử lý truy vấn cơ bản

• Phương pháp biến đổi đại số:

Đơn giản hóa câu truy vấn nhờ phép biến đổi đại số tương đươngnhằm giảm thời gian thực hiện

• Phương pháp ước lượng chi phí:

Xác định kích thước dữ liệu, thời gian thực hiện mỗi phép toántrong câu truy vấn Phương pháp này cần phải xác định kích thươc dữliệu và chi phí thời gian thực hiện mỗi phép toán trong câu truy vấn

7.1 Xử lý truy vấn trong môi trường tập trung

a Xử lý truy vấn trong môi trường tập trung và phân tán

Tập trung: Chọn một truy vấn đại số quan hệ tốt nhất trong số tất cả

các truy vấn đại số tương đương

Các chiến lược xử lý truy vấn có thể biểu diễn trong sự mở rộng củađại số quan hệ

Phân tán: kế thừa chiến lược xử lý truy vấn như môi trường tập trung.

Trang 23

b Chiến lược tối ưu trong CSDL tập trung:

Câu truy vấn phân tán phải được dịch thành các câu truy vấn cục bộ,

và được xử lý theo phương pháp tập trung , các kỹ thuật tối ưu hóa phân tánthường là các mở rộng của kỹ thuật tập trung vì vậy trước khi tìm hiểu chiếnlược tối ưu trong CSDL phân tán cần xem xét trong môi trường tập trung

Hai thuật toán thông dụng nhất được sử dụng là INGRES vàSYSTEM R

o Thuật toán INGRES

Ý tưởng: Thuật toán tổ hợp hai giai đoạn phân rã và tối ưu hóa

Ngày đăng: 11/06/2016, 15:06

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w