Sự gắn bó thông tin trong các cơ sở dữ liệu phân tán

24 595 0
Sự gắn bó thông tin trong các cơ sở dữ liệu phân tán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tiểu luận: Môn học Hệ tin học phân tán LỜI MỞ ĐẦU Trong những năm gần đây, những thành tựu về Khoa học - Công nghệ phát triển mạnh mẽ đã làm thay đổi bộ mặt của xã hội nước ta. Đặc biệt là sự phát triển vượt bậc trong lĩnh vực Công nghệ thông tin. sở dữ liệu phân tán nói riêng và các hệ phân tán nói chung là một lĩnh vực nghiên cứu không mới, nhưng gần đây, do sự phát triển nhanh chóng của công nghệ truyền thôngsự bành trướng mạnh mẽ của mạng Internet cùng với xu thế toàn cầu hóa trong mọi lĩnh vực, đặc biệt là về thương mại, sở dữ liệu phân tán đã trở thành một lĩnh vực thu hút nhiều sự quan tâm của các nhà nghiên cứu lý thuyết lẫn các nhà sản xuất phần mềm. Trên thực tế, một xu hướng kỹ thuật mới ra đời-xu hướng phân tán các thành phần tạo nên hệ tin học theo hướng tiếp cận nơi sử dụng và sản xuất thông tin. Song để khai thác hiệu quả toàn hệ, vấn đề quan trọng hàng đầu cần phải tính đến là các tài nguyên nói chung, đặc biệt là tài nguyên thông tin nói riêng và chiến lược khai thác, sử dụng chúng một cách tối ưu nhất Một ví dụ điển hình được đưa ra đối với hệ tin học phân tán đó là việc quản lý các tài khoản của một ngân hàng. Mỗi một người mở tài khoản tại ngân hàng sẽ được lưu trữ trong một bản ghi của CSDL. Chủ tài khoản thể ở bất kì nơi nào trong cả nước cũng thể truy cập vào tài khoản của mình thông qua mã số tài khoản. Giả sử hai người cùng nhau mở một tài khoản trong ngân hàng, lúc này đây hai người ở hai ngân hàng khác nhau cùng truy cập vào tài khoản chung của họ. Một người truy cập vào để rút tiền còn người kia truy cập vào để xem số tiền còn lại của mình. Nếu 2 công việc này xảy ra đồng thời cùng một lúc thì vấn đề gì sẽ xảy ra? Vấn đề sai lệch thông tin cho người muốn truy cập để xem số tiền còn lại là điều đương nhiên. Ngăn chặn khuyết điểm này người ta đưa ra hàng loạt các phương pháp, thuật toán để đảm bảo khi trao đổi thông tin vẫn đảm bảo tính gắn (nhất quán) trong vấn đề cập nhập thông tin cũng như truy vấn thông tin, trong đó vấn đề về sự gắn thông tin trong sở dữ liệu phân tán là một trong những vấn đề bản. Trang 1 Tiểu luận: Môn học Hệ tin học phân tán Vì vậy trong nội dung của tiểu luận này em xin trình bày hai vấn đề sau: Phần I : Lý thuyết. Sự gắn thông tin trong các sở dữ liệu phân tán. Phần II: Bài tập. Cho một hệ thống CSDL phân tán bao gồm 5 files thường xuyên phải cập nhật (số lượng cập nhật đủ lớn). Bạn hãy : 1. Mô hình hóa môi trường phân tán này bằng đồ hoạt động. 2. Xây dựng giải thuật cho phép, khi vận hành hệ, vẫn đảm bảo gắn dữ liệu. Em xin chân thành cảm ơn Thầy PGS.TS. Lê Văn Sơn đã cung cấp kiến thức và tài liệu để em thể hoàn thành tiểu luận này. Vì thời gian ít và kiến thức còn nhiều hạn chế nên tiểu luận còn nhiều sai sót. Rất mong nhận được sự góp ý của thầy và các anh chị, các bạn đồng nghiệp. Trang 2 Tiểu luận: Môn học Hệ tin học phân tán CHƯƠNG I : TỔNG QUAN VỀ SỞ DỮ LIỆU PHÂN TÁN I. GIỚI THIỆU SỞ DỮ LIỆU PHÂN TÁN I.1 Giới thiệu Công nghệ về các hệ sở dữ liệu phân tán (distributed database system, DDBS) là sự hợp nhất của hai hướng tiếp cận đối với quá trình xử lý dữ liệu: Công nghệ sở dữ liệu và công nghệ mạng máy tính. Các hệ sở dữ liệu chuyển từ mô thức xử lý dữ liệu, trong đó mỗi ứng dụng định nghĩa và duy trì dữ liệu của riêng chúng sang mô thức quản lý và xử lý dữ liệu tập trung. Hướng đi này dẫn đến tính độc lập dữ liệu, nghĩa là các ứng dụng được “miễn nhiệm” đối với những thay đổi về tổ chức lôgíc hoặc vật lý của dữ liệu và ngược lại. Hình 1: Xử lý tập tin truyền thông Một trong những động lực thúc đẩy việc sử dụng hệ sở dữ liệu là nhu cầu tích hợp các dữ liệu hoạt tác của một xí nghiệp và cho phép truy xuất tập trung, nhờ vậy thể điều khiển được các truy xuất đến dữ liệu, còn công nghệ mạng đi ngược lại với mọi nổ lực tập trung hóa. Nhìn thoáng qua, chúng ta khó hình dung ra làm cách nào tiếp cận hai hướng trái ngược nhau để cho ra một công nghệ mạnh mẽ và nhiều hứa hẹn hơn so với từng công nghệ riêng lẻ. Mấu chốt của vấn đề là cần phải hiểu rằng, mục tiêu quan trọng nhất của Trang 3 CHƯƠNG TRÌNH 1 Mô tả dữ liệu CHƯƠNG TRÌNH 2 Mô tả dữ liệu CHƯƠNG TRÌNH 3 Mô tả dữ liệu TẬP TIN 1 TẬP TIN 2 TẬP TIN 3 Tiểu luận: Môn học Hệ tin học phân tán công nghệ sở dữ liệusự tích hợp không phải sự tập trung hóa, cũng cần phải hiểu rằng hai thuật ngữ được điều này không dẫn đến điều kia. Và vẫn thể tích hợp mà không cần tập trung hóa. Đây chính là mục tiêu của công nghệ sở dữ liệu phân tán. Hình 2: Xử lý sở dữ liệu I.2 Định nghĩa sở dữ liệu phân tán Chúng ta thể định nghĩa một sở dữ liệu phân tán là một tập nhiều sở dữ liệu liên đới logíc và được phân bố trên một mạng máy tính. Vậy hệ quản trị sở dữ liệu phân tán được định nghĩa là một hệ thống phần mềm cho phép quản trị các hệ sở dữ liệu phân tán và làm cho việc phân tán trở nên “vô hình” đối với người sử dụng. Hai thuật ngữ quan trọng trong định nghĩa này là “liên đới lôgic’ và “phân bố trên một mạng máy tính”. Một hệ sở dữ liệu phân tán (distributed database system, viết tắt là DDBS) không phải là một “tập các tập tin” lưu riêng lẻ tại mỗi nút của một mạng máy tính. Để tạo ra một hệ sở dữ liệu phân tán, các tập tin không những liên đới lôgíc mà chúng còn phải cấu trúc và được truy xuất qua một giao diện chung. Ngoài ra, một hệ sở dữ liệu phân tán không phải là hệ thống trong đó sự hiện diện của một mạng máy tính, sở dữ liệu chỉ nằm tại một nút của mạng. Trong trường hợp này, vấn đề quản trị sở dữ liệu không khác với việc quản trị sở dữ liệu trong hệ tập trung. sở dữ liệu này được quản lý tập trung tại một hệ thống máy tính (trạm 2 trong hình dưới) và tất cả mọi yêu cầu đều chuyển đến vị trí đó. Điều cần xem xét là độ chậm trễ khi truyền dữ liệu. Hiển nhiên là sự tồn tại của một mạng máy tính hoặc một tập các tập tin không đủ để tạo ra một hệ sở dữ liệu phân tán. Điều chúng ta quan tâm là một môi trường trong đó dữ liệu được phân tán trên một số vị trí. Trang 4 CHƯƠNG TRÌNH 1 CHƯƠNG TRÌNH 1 CHƯƠNG TRÌNH 1 Mô tả dữ liệu Thao tác dữ liệu …. SỞ DỮ LIỆU Tiểu luận: Môn học Hệ tin học phân tán Hình 3: CSDL trung tâm trên một mạng Hình 4: Môi trường của hệ CSDL phân tán Trong hệ thống sở dữ liệu phân tán, sở dữ liệu chứa trong vài máy tính. Các máy tính liên lạc với nhau qua nhiều phương tiện truyền thông, như bus tốc độ cao hay đường điện thoại. Chúng không chia sẻ bộ nhớ chính, cũng không dùng chung đồng hồ. Các bộ xử lý trong hệ thống phân tán kích cỡ và chức năng khác nhau. Chúng thể gồm các bộ vi xử lý, trạm làm việc, máy tính mini, hay các máy tính lớn vạn năng. Những bộ xử lý này được gọi tên là các trạm, nút, máy tính và cả những tên tùy theo ngữ cảnh riêng. Trong hệ thống sở dữ liệu phân tán gồm nhiều trạm, mỗi trạm thể khai thác các giao thức truy nhập dữ liệu trên nhiều trạm khác. Sự khác nhau Trang 5 Trạm 1 Trạm 3 Trạm 4 Trạm 5 Mạng truyền dữ liệu Trạm 2 Trạm 1 Trạm 3 Trạm 4 Trạm 5 Mạng truyền dữ liệu Trạm 2 Tiểu luận: Môn học Hệ tin học phân tán chính giữa hệ thống sở dữ liệu phân tán và tập trung là: trong hệ thống tập trung, dữ liệu lưu trữ tại chỗ, còn phân tán thì không. I.3 Thành phần của hệ phân tán: Hệ tin học phân tán bao gồm bốn thực thể như sau: Hình 5: Bốn thực thể của hệ tin học phân tán. I.4 Đặc điểm bản của hệ phân tán. 4 đặc điểm sau: STT Tên gọi Thuyết minh 1 Chia sẽ tài nguyên Thực tế phát triển mạng máy tính đặc ra một vấn đề lớn là cần phải dùng chung tài nguyên. Một tiến trình trên một trạm nào đó thể yêu cầu được cung cấp tài nguyên dung chung ở một trạm khác. 2 Liên lạc Khi hệ thống đã được mắc nối với nhau, các thực thể của hệ thể trao đổi thông tin cho nhau. 3 Tin cậy Một trạm của hệ bị sự cố không làm cho toàn hệ bị ảnh hưởng, mà ngược lại, công việc của trạm đó được phân cho các trạm khác đảm nhiệm. Ngoài ra, trạm bị sự cố thể được tự động phục hồi lại các trạng thái trước khi bị sự cố hay trạng thái ban đầu của nó. Trang 6 Các hệ thống phần mềm Tập hợp phần cứng Hệ thống truyền thông Hệ thống dữ liệu Tiểu luận: Môn học Hệ tin học phân tán 4 Tăng tốc Đây là khái niệm mới về phân tán tải. Một tính toán lớn nào đó, nếu chỉ sử dụng một trạm, thì thời gian trả kết quả sẽ rất lớn. Tính toán này được chia nhỏ và thực hiện song song trên các trạm. Điều này cũng rất cần thiết đối với những trạm bị quá tải. II. KIẾN TRÚC HỆ SỞ DỮ LIỆU PHÂN TÁN Kiến trúc của một hệ CSDL phân tán dạng Hình 6: Kiến trúc hệ CSDL phân tán Hệ thống sở dữ liệu phân tán gồm các trạm, mỗi trạm bảo trì một hệ thống sở dữ liệu cục bộ. Mỗi trạm thể xử lý các giao tác cục bộ, truy nhập các dữ liệu trên trạm ấy. Hơn nữa, trạm thể khai thác các giao tác tổng thể, truy nhập dữ liệu trên vài trạm. Việc khai thác các giao tác tổng thể đòi hỏi chế truyền thông giữa các trạm. Trang 7 H th ng vi n thôngệ ố ễ . . CSDL CSDL CSDL CSDL CSDL CSDL CSDL A B Tiểu luận: Môn học Hệ tin học phân tán CHƯƠNG II: SỰ GẮN THÔNG TIN TRONG SỞ DỮ LIỆU PHÂN TÁN I. CÁC ĐIỀU KIỆN GIẢ ĐỊNH VÀ THỰC TẾ Ta một tập thông tin nào đó thể được truy cập bởi một tập các tiến trình. Số lượng các thông tin thể truy cập được và các tiến trình nhu cầu thông tin là con số cố định. Hệ này phát triển rời rạc theo thời gian giữa các điểm quan sát, ta thể nhận biết được trạng thái thực của chúng, nghĩa là các đối tượng và ngữ cảnh thực hiện các tiến trình, hệ kiểu như vậy hoạt động với độ ổn định tuyệt vời. Các điều kiện giả định này so với hệ thực tế những điểm khác nhau bản sau đây: STT So sánh 1 Các đối tượng và các tiến trình thể được tạo lập và huỷ bỏ tính chất động trong suốt quá trình tồn tại của hệ. 2 Các đối tượng và các tiến trình thể được phân tán trên các trạm khác nhau liên hệ với nhau qua hệ thống viễn thông. Do vậy, ta không thể xác định trạng thái thời điểm của hệ vì lý do độ trễ đường truyền giữa các trạm và tính không tương thích giữa các điểm quan sát trong trạm đó. 3 Hệ thống viễn thôngcác tiến trình là các đối tượng thể xảy ra sự cố kỹ thuật. II. TÁC ĐỘNG VÀ GIAO DỊCH Các đối tượng khác nhau của hệ không phải là các đối tượng độc lập nhau, chúng quan hệ với nhau bởi tập hợp các quan hệ gọi là các ràng buộc toàn vẹn. Các ràng buộc này thể hiện sâu sắc các đặc tính riêng biệt của hệ. Trạng thái của hệ thoả mãn một tập các ràng buộc toàn vẹn gọi là trạng thái gắn bó. Trang 8 Tiểu luận: Môn học Hệ tin học phân tán Các nhà thiết kế và vận hành hệ mong muốn rằng việc thực hiện các tiến trình phải duy trì cho được hệ trong trạng thái gắn bó. Để chính xác hoá đặc tính này, cần phải lưu ý là trạng thái của hệ chỉ được xác định ở mức quan sát cho trước. Ta quan tâm đến hai mức quan sát: STT Mức Giải thích 1 NSD Tiến trình là một dãy thực hiện các giao dịch. Giao dịch đó là chương trình duy nhất được thực hiện từ một trạng thái gắn dẫn hệ đến một trạng thái gắn khác. 2 Hệ thống Mỗi giao dịch được cấu tạo từ nột dãy các tác động được thể hiện như sau. Nếu hai tác động A và B thuộc hai giao dịch khác nhau được thực hiện bởi hai tiến trình thì hiệu ứng tổng quát của chúng sẽ là hiệu ứng của dãy (A;B) hoặc là (B;A) Ở mức hệ thống, ta thể nói rằng các tác động là phần tử nhỏ nhất không thể chia cắt được nữa. Cho một tập hợp giao dịch M={T 1 ,T 2 …,T n } lần lượt được thực hiện bởi các tiến trình độc lập p 1 ,p 2 …,p n . việc thực hiện tuần tự nghĩa là thực hiện tất cả các giao dịch của M theo kiểu nối đuôi nhau và tuân thủ một trật tự nào đó. Sự gắn của hệ được bảo toàn, theo định nghĩa, bằng việc thực hiện riêng biệt từng giao dịch . Do vậy nó cũng được bảo toàn trong chế độ thực hiện tuần tự của M. Nếu ,vì lý do hiệu quả, nhiều giao dịch được thực hiện song song thì sự gắn không còn đảm bảo được nữa; Một yêu cầu khác nữa rất quan trọngtrong quá trình thực hiện hệ phải đảm bảo cho các tác động không bị ngắt quãng. III. TRIỂN KHAI GIAO DỊCH TÔN TRỌNG SỰ GẮN BÓ. Cho một tập hợp giao dịch M={T 1 ,T 2 …,T n }. Một trật tự hóa của tập hợp các tác động thành phần sẽ tương ứng với việc thực hiện hoàn toàn các giao Trang 9 Tiểu luận: Môn học Hệ tin học phân tán dịch. Việc thu được một trật tự hóa gắn chỉ thể thành công khi áp dụng các ràng buộc trên trật tự thực hiện các tác động. Nguyên lý của phương pháp là ở chỗ làm chậm một tác động nào đó cho đến thời điểm mà sự thực hiện của nó không còn nguy phá hủy sự gắn của trật tự hóa. Để đảm bảo các giao dịch trên tôn trọng sự gắn thông tin thì người ta đưa ra các phương pháp, chế để đảm bảo khi giao dịch vẫn sự gắn thông tin toàn vẹn dữ liệu trên sở dữ liệu phân tán là: - chế then cài: o Then cài loại trừ tương hỗ. o Then cài lựa chọn các đối tượng. o Giao dịch hai pha. - Hệ quả của tính không chắc chắn trên trạng thía của hệ : Bây giờ ta tưởng tượng rằng các đối tượng được phân tán trên nhiều trạm khác nhau và được nối với nhau thông qua hệ thống viễn thông và rằng các tiến trình diễn ra trên các trạm khác nhau. Hệ thống viễn thông cho phép các tiến trình trên các trạm khác nhau thể trao đổi các thông điệp với nhau. Ta giả định rằng các tiến trình và các phương tiện truyền thôngcác đối tượng thể rơi vào sự cố. Các đối tượng thay đổi hay tham chiếu trong quá trình thực hiện cùng một giao dịch thể nằm trên các trạm khác nhau. Một hệ quản lý tập hợp thông tin phân tán bao gồm: STT chế 1 chế cho phép sắp xếp một cách tổng quát các tác động của cùng một giao dịch, ngay cả khi các tác động này diễn ra trên các trạm khác nhau. 2 chế điều khiển các tranh chấp truy cập cục bộ vào các đối tượng đảm bảo tôn trọng tính toàn vẹn của các đối tượng truy cập cục bộ này. 3 chế khả năng xử lý các bế tắc và thiếu thốn vô hạn, hậu quả của việc hủy bỏ các giao dịch. Trang 10 . nghệ cơ sở dữ liệu phân tán. Hình 2: Xử lý cơ sở dữ liệu I.2 Định nghĩa cơ sở dữ liệu phân tán Chúng ta có thể định nghĩa một cơ sở dữ liệu phân tán là. đổi thông tin vẫn đảm bảo tính gắn bó (nhất quán) trong vấn đề cập nhập thông tin cũng như truy vấn thông tin, trong đó vấn đề về sự gắn bó thông tin trong

Ngày đăng: 01/01/2014, 11:25

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan