Thông tin tài liệu
Tiểu luận: Môn học Hệ tin học phân tán LỜI MỞ ĐẦU Trong những năm gần đây, những thành tựu về Khoa học - Công nghệ phát triển mạnh mẽ đã làm thay đổi bộ mặt của xã hội nước ta. Đặc biệt là sự phát triển vượt bậc trong lĩnh vực Công nghệ thông tin. Cơ sở dữ liệu phân tán nói riêng và các hệ phân tán nói chung là một lĩnh vực nghiên cứu không mới, nhưng gần đây, do sự phát triển nhanh chóng của công nghệ truyền thông và sự bành trướng mạnh mẽ của mạng Internet cùng với xu thế toàn cầu hóa trong mọi lĩnh vực, đặc biệt là về thương mại, cơ sở dữ liệu phân tán đã trở thành một lĩnh vực thu hút nhiều sự quan tâm của các nhà nghiên cứu lý thuyết lẫn các nhà sản xuất phần mềm. Trên thực tế, một xu hướng kỹ thuật mới ra đời-xu hướng phân tán các thành phần tạo nên hệ tin học theo hướng tiếp cận nơi sử dụng và sản xuất thông tin. Song để khai thác có hiệu quả toàn hệ, vấn đề quan trọng hàng đầu cần phải tính đến là các tài nguyên nói chung, đặc biệt là tài nguyên thông tin nói riêng và chiến lược khai thác, sử dụng chúng một cách tối ưu nhất Một ví dụ điển hình được đưa ra đối với hệ tin học phân tán đó là việc quản lý các tài khoản của một ngân hàng. Mỗi một người mở tài khoản tại ngân hàng sẽ được lưu trữ trong một bản ghi của CSDL. Chủ tài khoản có thể ở bất kì nơi nào trong cả nước cũng có thể truy cập vào tài khoản của mình thông qua mã số tài khoản. Giả sử hai người cùng nhau mở một tài khoản trong ngân hàng, lúc này đây hai người ở hai ngân hàng khác nhau cùng truy cập vào tài khoản chung của họ. Một người truy cập vào để rút tiền còn người kia truy cập vào để xem số tiền còn lại của mình. Nếu 2 công việc này xảy ra đồng thời cùng một lúc thì vấn đề gì sẽ xảy ra? Vấn đề sai lệch thông tin cho người muốn truy cập để xem số tiền còn lại là điều đương nhiên. Ngăn chặn khuyết điểm này người ta đưa ra hàng loạt các phương pháp, thuật toán để đảm bảo khi trao đổi thông tin vẫn đảm bảo tính gắn bó (nhất quán) trong vấn đề cập nhập thông tin cũng như truy vấn thông tin, trong đó vấn đề về sự gắn bó thông tin trong cơ sở dữ liệu phân tán là một trong những vấn đề cơ bản. Trang 1 Tiểu luận: Môn học Hệ tin học phân tán Vì vậy trong nội dung của tiểu luận này em xin trình bày hai vấn đề sau: Phần I : Lý thuyết. Sự gắn bó thông tin trong các cơ sở dữ liệu phân tán. Phần II: Bài tập. Cho một hệ thống CSDL phân tán bao gồm 5 files thường xuyên phải cập nhật (số lượng cập nhật đủ lớn). Bạn hãy : 1. Mô hình hóa môi trường phân tán này bằng sơ đồ hoạt động. 2. Xây dựng giải thuật cho phép, khi vận hành hệ, vẫn đảm bảo gắn bó dữ liệu. Em xin chân thành cảm ơn Thầy PGS.TS. Lê Văn Sơn đã cung cấp kiến thức và tài liệu để em có thể hoàn thành tiểu luận này. Vì thời gian ít và kiến thức còn nhiều hạn chế nên tiểu luận còn nhiều sai sót. Rất mong nhận được sự góp ý của thầy và các anh chị, các bạn đồng nghiệp. Trang 2 Tiểu luận: Môn học Hệ tin học phân tán CHƯƠNG I : TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN I. GIỚI THIỆU CƠ SỞ DỮ LIỆU PHÂN TÁN I.1 Giới thiệu Công nghệ về các hệ cơ sở dữ liệu phân tán (distributed database system, DDBS) là sự hợp nhất của hai hướng tiếp cận đối với quá trình xử lý dữ liệu: Công nghệ cơ sở dữ liệu và công nghệ mạng máy tính. Các hệ cơ sở dữ liệu chuyển từ mô thức xử lý dữ liệu, trong đó mỗi ứng dụng định nghĩa và duy trì dữ liệu của riêng chúng sang mô thức quản lý và xử lý dữ liệu tập trung. Hướng đi này dẫn đến tính độc lập dữ liệu, nghĩa là các ứng dụng được “miễn nhiệm” đối với những thay đổi về tổ chức lôgíc hoặc vật lý của dữ liệu và ngược lại. Hình 1: Xử lý tập tin truyền thông Một trong những động lực thúc đẩy việc sử dụng hệ cơ sở dữ liệu là nhu cầu tích hợp các dữ liệu hoạt tác của một xí nghiệp và cho phép truy xuất tập trung, nhờ vậy có thể điều khiển được các truy xuất đến dữ liệu, còn công nghệ mạng đi ngược lại với mọi nổ lực tập trung hóa. Nhìn thoáng qua, chúng ta khó hình dung ra làm cách nào tiếp cận hai hướng trái ngược nhau để cho ra một công nghệ mạnh mẽ và nhiều hứa hẹn hơn so với từng công nghệ riêng lẻ. Mấu chốt của vấn đề là cần phải hiểu rằng, mục tiêu quan trọng nhất của Trang 3 CHƯƠNG TRÌNH 1 Mô tả dữ liệu CHƯƠNG TRÌNH 2 Mô tả dữ liệu CHƯƠNG TRÌNH 3 Mô tả dữ liệu TẬP TIN 1 TẬP TIN 2 TẬP TIN 3 Tiểu luận: Môn học Hệ tin học phân tán công nghệ cơ sở dữ liệu là sự tích hợp không phải sự tập trung hóa, cũng cần phải hiểu rằng hai thuật ngữ có được điều này không dẫn đến điều kia. Và vẫn có thể tích hợp mà không cần tập trung hóa. Đây chính là mục tiêu của công nghệ cơ sở dữ liệu phân tán. Hình 2: Xử lý cơ sở dữ liệu I.2 Định nghĩa cơ sở dữ liệu phân tán Chúng ta có thể định nghĩa một cơ sở dữ liệu phân tán là một tập nhiều cơ sở dữ liệu có liên đới logíc và được phân bố trên một mạng máy tính. Vậy hệ quản trị cơ sở dữ liệu phân tán được định nghĩa là một hệ thống phần mềm cho phép quản trị các hệ cơ sở dữ liệu phân tán và làm cho việc phân tán trở nên “vô hình” đối với người sử dụng. Hai thuật ngữ quan trọng trong định nghĩa này là “liên đới lôgic’ và “phân bố trên một mạng máy tính”. Một hệ cơ sở dữ liệu phân tán (distributed database system, viết tắt là DDBS) không phải là một “tập các tập tin” lưu riêng lẻ tại mỗi nút của một mạng máy tính. Để tạo ra một hệ cơ sở dữ liệu phân tán, các tập tin không những có liên đới lôgíc mà chúng còn phải có cấu trúc và được truy xuất qua một giao diện chung. Ngoài ra, một hệ cơ sở dữ liệu phân tán không phải là hệ thống trong đó dù có sự hiện diện của một mạng máy tính, cơ sở dữ liệu chỉ nằm tại một nút của mạng. Trong trường hợp này, vấn đề quản trị cơ sở dữ liệu không khác với việc quản trị cơ sở dữ liệu trong hệ tập trung. Cơ sở dữ liệu này được quản lý tập trung tại một hệ thống máy tính (trạm 2 trong hình dưới) và tất cả mọi yêu cầu đều chuyển đến vị trí đó. Điều cần xem xét là độ chậm trễ khi truyền dữ liệu. Hiển nhiên là sự tồn tại của một mạng máy tính hoặc một tập các tập tin không đủ để tạo ra một hệ cơ sở dữ liệu phân tán. Điều chúng ta quan tâm là một môi trường trong đó dữ liệu được phân tán trên một số vị trí. Trang 4 CHƯƠNG TRÌNH 1 CHƯƠNG TRÌNH 1 CHƯƠNG TRÌNH 1 Mô tả dữ liệu Thao tác dữ liệu …. CƠ SỞ DỮ LIỆU Tiểu luận: Môn học Hệ tin học phân tán Hình 3: CSDL trung tâm trên một mạng Hình 4: Môi trường của hệ CSDL phân tán Trong hệ thống cơ sở dữ liệu phân tán, cơ sở dữ liệu chứa trong vài máy tính. Các máy tính liên lạc với nhau qua nhiều phương tiện truyền thông, như bus tốc độ cao hay đường điện thoại. Chúng không chia sẻ bộ nhớ chính, cũng không dùng chung đồng hồ. Các bộ xử lý trong hệ thống phân tán có kích cỡ và chức năng khác nhau. Chúng có thể gồm các bộ vi xử lý, trạm làm việc, máy tính mini, hay các máy tính lớn vạn năng. Những bộ xử lý này được gọi tên là các trạm, nút, máy tính và cả những tên tùy theo ngữ cảnh riêng. Trong hệ thống cơ sở dữ liệu phân tán gồm nhiều trạm, mỗi trạm có thể khai thác các giao thức truy nhập dữ liệu trên nhiều trạm khác. Sự khác nhau Trang 5 Trạm 1 Trạm 3 Trạm 4 Trạm 5 Mạng truyền dữ liệu Trạm 2 Trạm 1 Trạm 3 Trạm 4 Trạm 5 Mạng truyền dữ liệu Trạm 2 Tiểu luận: Môn học Hệ tin học phân tán chính giữa hệ thống cơ sở dữ liệu phân tán và tập trung là: trong hệ thống tập trung, dữ liệu lưu trữ tại chỗ, còn phân tán thì không. I.3 Thành phần của hệ phân tán: Hệ tin học phân tán bao gồm bốn thực thể như sau: Hình 5: Bốn thực thể của hệ tin học phân tán. I.4 Đặc điểm cơ bản của hệ phân tán. Có 4 đặc điểm sau: STT Tên gọi Thuyết minh 1 Chia sẽ tài nguyên Thực tế phát triển mạng máy tính đặc ra một vấn đề lớn là cần phải dùng chung tài nguyên. Một tiến trình trên một trạm nào đó có thể yêu cầu được cung cấp tài nguyên dung chung ở một trạm khác. 2 Liên lạc Khi hệ thống đã được mắc nối với nhau, các thực thể của hệ có thể trao đổi thông tin cho nhau. 3 Tin cậy Một trạm của hệ bị sự cố không làm cho toàn hệ bị ảnh hưởng, mà ngược lại, công việc của trạm đó được phân cho các trạm khác đảm nhiệm. Ngoài ra, trạm bị sự cố có thể được tự động phục hồi lại các trạng thái trước khi bị sự cố hay trạng thái ban đầu của nó. Trang 6 Các hệ thống phần mềm Tập hợp phần cứng Hệ thống truyền thông Hệ thống dữ liệu Tiểu luận: Môn học Hệ tin học phân tán 4 Tăng tốc Đây là khái niệm mới về phân tán tải. Một tính toán lớn nào đó, nếu chỉ sử dụng một trạm, thì thời gian trả kết quả sẽ rất lớn. Tính toán này được chia nhỏ và thực hiện song song trên các trạm. Điều này cũng rất cần thiết đối với những trạm bị quá tải. II. KIẾN TRÚC HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN Kiến trúc của một hệ CSDL phân tán có dạng Hình 6: Kiến trúc hệ CSDL phân tán Hệ thống cơ sở dữ liệu phân tán gồm các trạm, mỗi trạm bảo trì một hệ thống cơ sở dữ liệu cục bộ. Mỗi trạm có thể xử lý các giao tác cục bộ, truy nhập các dữ liệu trên trạm ấy. Hơn nữa, trạm có thể khai thác các giao tác tổng thể, truy nhập dữ liệu trên vài trạm. Việc khai thác các giao tác tổng thể đòi hỏi cơ chế truyền thông giữa các trạm. Trang 7 H th ng vi n thôngệ ố ễ . . CSDL CSDL CSDL CSDL CSDL CSDL CSDL A B Tiểu luận: Môn học Hệ tin học phân tán CHƯƠNG II: SỰ GẮN BÓ THÔNG TIN TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN I. CÁC ĐIỀU KIỆN GIẢ ĐỊNH VÀ THỰC TẾ Ta có một tập thông tin nào đó có thể được truy cập bởi một tập các tiến trình. Số lượng các thông tin có thể truy cập được và các tiến trình có nhu cầu thông tin là con số cố định. Hệ này phát triển rời rạc theo thời gian giữa các điểm quan sát, ta có thể nhận biết được trạng thái thực của chúng, có nghĩa là các đối tượng và ngữ cảnh thực hiện các tiến trình, hệ kiểu như vậy hoạt động với độ ổn định tuyệt vời. Các điều kiện giả định này so với hệ thực tế có những điểm khác nhau cơ bản sau đây: STT So sánh 1 Các đối tượng và các tiến trình có thể được tạo lập và huỷ bỏ có tính chất động trong suốt quá trình tồn tại của hệ. 2 Các đối tượng và các tiến trình có thể được phân tán trên các trạm khác nhau liên hệ với nhau qua hệ thống viễn thông. Do vậy, ta không thể xác định trạng thái thời điểm của hệ vì lý do độ trễ đường truyền giữa các trạm và tính không tương thích giữa các điểm quan sát trong trạm đó. 3 Hệ thống viễn thông và các tiến trình là các đối tượng có thể xảy ra sự cố kỹ thuật. II. TÁC ĐỘNG VÀ GIAO DỊCH Các đối tượng khác nhau của hệ không phải là các đối tượng độc lập nhau, chúng quan hệ với nhau bởi tập hợp các quan hệ gọi là các ràng buộc toàn vẹn. Các ràng buộc này thể hiện sâu sắc các đặc tính riêng biệt của hệ. Trạng thái của hệ thoả mãn một tập các ràng buộc toàn vẹn gọi là trạng thái gắn bó. Trang 8 Tiểu luận: Môn học Hệ tin học phân tán Các nhà thiết kế và vận hành hệ mong muốn rằng việc thực hiện các tiến trình phải duy trì cho được hệ trong trạng thái gắn bó. Để chính xác hoá đặc tính này, cần phải lưu ý là trạng thái của hệ chỉ được xác định ở mức quan sát cho trước. Ta quan tâm đến hai mức quan sát: STT Mức Giải thích 1 NSD Tiến trình là một dãy thực hiện các giao dịch. Giao dịch đó là chương trình duy nhất được thực hiện từ một trạng thái gắn bó dẫn hệ đến một trạng thái gắn bó khác. 2 Hệ thống Mỗi giao dịch được cấu tạo từ nột dãy các tác động được thể hiện như sau. Nếu hai tác động A và B thuộc hai giao dịch khác nhau được thực hiện bởi hai tiến trình thì hiệu ứng tổng quát của chúng sẽ là hiệu ứng của dãy (A;B) hoặc là (B;A) Ở mức hệ thống, ta có thể nói rằng các tác động là phần tử nhỏ nhất không thể chia cắt được nữa. Cho một tập hợp giao dịch M={T 1 ,T 2 …,T n } lần lượt được thực hiện bởi các tiến trình độc lập p 1 ,p 2 …,p n . việc thực hiện tuần tự có nghĩa là thực hiện tất cả các giao dịch của M theo kiểu nối đuôi nhau và tuân thủ một trật tự nào đó. Sự gắn bó của hệ được bảo toàn, theo định nghĩa, bằng việc thực hiện riêng biệt từng giao dịch . Do vậy nó cũng được bảo toàn trong chế độ thực hiện tuần tự của M. Nếu ,vì lý do hiệu quả, nhiều giao dịch được thực hiện song song thì sự gắn bó không còn đảm bảo được nữa; Một yêu cầu khác nữa rất quan trọng là trong quá trình thực hiện hệ phải đảm bảo cho các tác động không bị ngắt quãng. III. TRIỂN KHAI GIAO DỊCH TÔN TRỌNG SỰ GẮN BÓ. Cho một tập hợp giao dịch M={T 1 ,T 2 …,T n }. Một trật tự hóa của tập hợp các tác động thành phần sẽ tương ứng với việc thực hiện hoàn toàn các giao Trang 9 Tiểu luận: Môn học Hệ tin học phân tán dịch. Việc thu được một trật tự hóa gắn bó chỉ có thể thành công khi áp dụng các ràng buộc trên trật tự thực hiện các tác động. Nguyên lý của phương pháp là ở chỗ làm chậm một tác động nào đó cho đến thời điểm mà sự thực hiện của nó không còn có nguy cơ phá hủy sự gắn bó của trật tự hóa. Để đảm bảo các giao dịch trên tôn trọng sự gắn bó thông tin thì người ta đưa ra các phương pháp, cơ chế để đảm bảo khi giao dịch vẫn có sự gắn bó thông tin toàn vẹn dữ liệu trên cơ sở dữ liệu phân tán là: - Cơ chế then cài: o Then cài loại trừ tương hỗ. o Then cài lựa chọn các đối tượng. o Giao dịch hai pha. - Hệ quả của tính không chắc chắn trên trạng thía của hệ : Bây giờ ta tưởng tượng rằng các đối tượng được phân tán trên nhiều trạm khác nhau và được nối với nhau thông qua hệ thống viễn thông và rằng các tiến trình diễn ra trên các trạm khác nhau. Hệ thống viễn thông cho phép các tiến trình trên các trạm khác nhau có thể trao đổi các thông điệp với nhau. Ta giả định rằng các tiến trình và các phương tiện truyền thông là các đối tượng có thể rơi vào sự cố. Các đối tượng thay đổi hay tham chiếu trong quá trình thực hiện cùng một giao dịch có thể nằm trên các trạm khác nhau. Một hệ quản lý tập hợp thông tin phân tán bao gồm: STT Cơ chế 1 Cơ chế cho phép sắp xếp một cách tổng quát các tác động của cùng một giao dịch, ngay cả khi các tác động này diễn ra trên các trạm khác nhau. 2 Cơ chế điều khiển các tranh chấp truy cập cục bộ vào các đối tượng đảm bảo tôn trọng tính toàn vẹn của các đối tượng truy cập cục bộ này. 3 Cơ chế có khả năng xử lý các bế tắc và thiếu thốn vô hạn, hậu quả của việc hủy bỏ các giao dịch. Trang 10 . nghệ cơ sở dữ liệu phân tán. Hình 2: Xử lý cơ sở dữ liệu I.2 Định nghĩa cơ sở dữ liệu phân tán Chúng ta có thể định nghĩa một cơ sở dữ liệu phân tán là. đổi thông tin vẫn đảm bảo tính gắn bó (nhất quán) trong vấn đề cập nhập thông tin cũng như truy vấn thông tin, trong đó vấn đề về sự gắn bó thông tin trong
Ngày đăng: 01/01/2014, 11:25
Xem thêm: Sự gắn bó thông tin trong các cơ sở dữ liệu phân tán , Sự gắn bó thông tin trong các cơ sở dữ liệu phân tán