TỔNG QUAN VỀ HỆ PHÂN TÁN.
Trang 1PHẦN I: TỔNG QUAN VỀ HỆ PHÂN TÁN.
I.HỆ PHÂN TÁN
1 Mở đầu
Hệ phân tán là tập hợp nhiều máy tính độc lập kết nối với nhau qua mạng và được cài đặt phần mềm của hệ phân tán Các phần mềm của hệ phân tán được thiết kế để giúp cho các máy phối hợp hoạt động với nhau, cùng sử dụng những tài nguyên chung của hệ như phần cứng, phần mềm và dữ liệu Khi sử dụng một hệ phân tán có thiết kế tốt có thể nhận được một tiện ích tính toán thong nhất, ngay cả khi tiện ích đó được sử dụng ở nhiều máy tính đặt ở những vị trí khác nhau.
Các hệ phân tán được lắp đặt trên cơ sở các phần cứng với phạm vi khác nhau, từ một số ít trạm làm việc kết nối bằng mạng LAN vào INTERNET, đến tập hợp các mạng LAN và WAN rộng khắp thế giới kết nối hàng triệu máy tính với nhau.
Hệ phân tán có phạm vi ứng dụng rất rộng, từ cung cấp các tiện ích tính toán dung cho mục đích chug của nhiều nhóm người sử dụng đến các hệ thống tryền thông đa phương tiện, hệ thống thu ngân ngân hang tự động, và hầu như chúng chứa đựng hầu hết các ứng dụng kỹ thuật và thương mại về máy tính.
Hiện nay, chúng ta đã có nhiều nghiên cứu phát triển về thiết kế các hệ điều hành phân tán và những nguyên tắc cơ sở của chùng Nhiều hệ điều hành phân tán đã ra đời và các ứng dụng của chúng ngày càng có hiệu quả hơn.
2 Những đặc trưng chủ yếu của hệ phân tán
Hệ phân tán mang tính hữu dụng là nhờ có đặc tính chủ yếu, đó là: chia sẻ tài nguyên, tính mở, tính đồng thời, tính quy mô, tính chịu lỗi, và tính trong suốt Trong phần này ta sẽ xét từng đặc tính cụ thể Cần lưu ý rằng, những đặc tính đó không phải là kết quả tự nhiên của sự phân tán, mà là do thiết kế của hệ thống và phần mềm ứng dụng.
a Chia sẻ tài nguyên
Tài nguyên bao gồm những thành phần phần cứng như: đĩa, máy in, và những thành phần phần mềm như: file, cơ sở dữ liệu và những đối tượng dữ liệu khác.Lợi ích của viêc truy cập vào hệ thống chứa các cơ sở dữ liệu, chương trình, tài liệu vào những thông tin chung khác được thể hiện rõ trong hệ thống chia sẻ thời gian hoặc hệ thống nhiều người sử dụng vào đầu những năm 1960, vào các hệ thống UNIX MultiUser vào những năm 1970.
Tài nguyên của máy tính nhiều người dung thường được dùng chung cho tất cả những người sử dụng nó, những người làm việc trong các máy trạm đơn lẻ vào của các máy tính cá nhân không có đặc tính hữu ích này Các tài nguyên chung trong hệ phân tán được đóng gói vật lý trong một máy tính của hệ, và từ các máy khác chỉ có thể truy cập vào bằng con đường truyền thông Để dùng chung một cách hiệu quả, tài nguyên phải được quản lý bằng một chương trình cung cấp giao diện truyền thông cho phép truy cập vào tài nguyên chung, sử dụng và cập nhật tài nguyên thường xuyên và chắc chắn.
Trang 2Thuật ngữ quản lý tài nguyên đôi khi dung để biểu thị module phần mềm quản lý những tài nguyên thộc một dạng đặc biệt Mỗi dạng tài nguyên đòi hỏi có phương thức và biện pháp quản lý riêng, nhưng cũng có những cái chung Đó là việc cung cấp sơ đồ đặt tên cho mỗi nhóm tài nguyên, giúp truy cập vào các tài nguyên riêng lẻ từ bất kỳ vị trú nào, việc đưa tài nguyên vào địa chỉ truyền thông và việc phối hơp các truy cập đồng thời làm thay đổi trạng thái của các tài nguyên chung, bảo đảm tính nhất quán của chúng.
Hệ phân tán gồm tập hợp các quản lý tài nguyên và tập hợp chương trình sử dụng tài nguyên Những người sử dụng tài nguyên liên lạc với bộ quản lý tài nguyên để truy cập vào tài nguyên chung của hệ Chúng ta có thể phát triển phối cảnh này để tạo ra 2 mô hình rất thú vị cho các hệ phân tán, mô hình khách-chủ( client-Server model ) và mô hình dựa trên đối tượng (object- based model) Mô hình khách chủ: Hiện nay nó là mô hình nổi tiếng nhất và sử dụng rộng
rãi nhất cho các hệ phân tán Máy chủ có nhiều tiến trình, mỗi tiến trình đóng vai trò là một trình quản lý tài nguyên của nhiều tài nguyên thuộc một dạng nhất định, máy khách ( client ) cũng có nhiều tiến trình, mỗi tiến trình thực hiện một nhiệm vụ, đòi hỏi phải truy cập vào tài nguyên chung mà tiến trình khác quản lý, do đó một só tiến trình vừa là trình khách, vừa là trình chủ Trong mô hình khách - chủ, tất cả các tài nguyên chung đều được lưu giữ và quản lý bởi các trìh chủ Trình khách đưa ra yêu cầu cho Server mỗi khi chúng cần truy cập vào một trong những tài nguyên của Server Nếu yêu cầu hợp lệ, thì Server thực hiện yêu cầu và gửi phúc đáp cho trình khách.
Trong mô hình khách chủ mỗi trình chủ có thể coi là nơi cung cấp tập trung tài nguyên mà nó quản lý Việc cung cấp tài nguyên là bất đắc dĩ trong các hệ phân tán với nhiều lý do Một trong những lý do đó là sự phân biệt giữa các dịch vụ cung cấp tài nguyên cho client và Server cung cấp dịch vụ đó Dịch vụ được coi là một thực thể trừu tượng cung cấp từ nhiều trình chủ chạy ở nhiều máy riêng lẻ liên kết qua mạng.
Mô hình khách chủ được khai thác rất hiệu quả trong hệ thống hiện nay, chúng có nhiều dịch vụ quản lý các dạng tài nguyên chung khác nhau: thư tín điện tử (email), các thông báo (message ), file, giờ đồng bộ toàn mạng, lưu trữ lên đĩa, máy in, truyền thông diện rộng và thậm chí cả không gian hiển thị cửa sổ trên màn hình các máy nối mạng Nhưng không thể quản lý và dung chung tất cả các tài nguyên trong hệ phân tán theo cách này Để hoạt động có hiệu quả hơn, một số loại tài nguyên phụ giữ nguyên tại chỗ của mỗi máy Bộ nhớ truy cập ngẫu nhiên, bộ xử lý trung tâm và giao diện mạng LAN thường được coi là tập hợp tối thiểu những tài nguyên đó Những tài nguyên chủ chốt này được quản lý riêng biệt trong hệ điều hành của mỗi máy, chúng chỉ được dùng chung cho các tiến trình trong cùng một máy.
Trong một số ứng dụng đòi hỏi sự phối hợp trực tiếp giữa các máy khách, mô hình khách-chủ không đáp ứng được tất cả các yêu cầu, nhưng nó lại đáp ứng được hầu hết các ứng dụng hiện tại và là cơ sở cho các hệ điều hành phát triển mục đích chung.
Trang 3 Mô hình dựa trên đối tượng: Mô hình này không giống mô hình lập trình hướng đối tượng truyền thống, ở mô hình lập trình hướng đối tượng truyền thống mỗi thực thể trong chương trình thực hiện đều được coi là một đối tượng có giao diện xử lý thông báo co phép truy cập vào các hoạt động của nó Còn trong mô hình dựa trên đối tượng dùng cho các hệ phân tán, mỗi tài nguyên chung được coi là một đối tượng Đối tượng được xác định là duy nhất và di chuyển đến mọi chỗ trên mạng không cần thay đổi tính nhận dạng của chúng Mỗi khi chương trình dung tài nguyên muốn truy cập vào tài nguyên phải gửu đi thông báo yêu cầu đến đối tượng tương ứng Thông báo được chuyển đến cho thủ tục hoặc tiến trình thích hựp thực hiện yêu cầu đó và gửi thông báo trả lời cho tiến trình yêu cầu nếu cần thiết
Nó nổi trội hơn ở tính đơn giản và tính linh hoạt Nó giúp người sử dụng xem xét tài nguyên theo một chá thông nhất Cũng như trong mô hình khách chủ, các đối tượng có thể đóng vài trò vừa là người sử dụng tài nguyên, vừa là trình quản lý tài nguyên Tài nguyên mô hình khách chủ, sơ đồ đặt tên dùng cho tài nguyên theo một cách thống nhất.
Việc ứng dụng mô hình dựa trên đối tượng làm nảy sinh một số vấn đề khó khăn Vì các đối tượng bao hàm cả sự biểu diễn trạng thái của chúng, nên để trình quản lý mỗi đối tượng có thể truy cập trạng thái của đối tượng đó, thì nó phải được định vị ở nơi mà đối tượng đó định vị Điều này thể hiện rất rõ ràng, khi các đối tượng không thể di chuyển tự do chỉ mới ứng dụng trong các hệ thử nghiệm như Arjuna(1989), Clouds và Êmerald (1987 ) Trong mô hình đó các đối tượng được định vị bằng một tập hợp các trình quản lý đối tượng ở dạng tương ứng, và bộ quản lý đối tượng tương ứng được sao chép lại ở vị trí mới mỗi khi có một đối tượng di chuyển.
b Tính mở
Tính mở của hệ thống máy tính là đặc trưng để xác định xem hệ thống có thể mở rộng theo nhiều cấp độ khác nhau hay không Tính mở hoặc đóng của hệ thống được xét dựa theo khả năng hỗ trợ việc mở rộng của thiết bị phần cứng (ví dụ: bổ sung các thiết bị ngoại vi, bộ nhớ và các giao diện truyền thông ) và hỗ trợ việc mở rộng các phần mềm, như: bổ sung thêm các tính năng của hệ điều hành, các giao thức truyền thông và các dịch vụ chia sẻ tài nguyên Tính mở của các hệ phân tán được đánh giá theo mức độ bổ sung các dịch vụ chía sẻ tài nguyên mà không phá vỡ hoặc lặp lại các dịch vụ hiện có.
Tính mở được thể hiện nhờ những giao diện phần mềm chủ chốt của hệ thống giao diện đó được xác định rõ và lập thành tài liệu sẵn cho những người phát triển phần mềm.
Về mặt lịch sử, các hệ máy tính đã từng mang tích chất đóng Chúng thực hiện các chương trình trong phạm vi các ngôn ngữ lập trình, nhưng không cho phép những người phát triển trình ứng dụng mở rộng ngữ nghĩa để khai thác các phần cứng hoặc các tính năng mới của hệ điều hành UNIX là hệ thống có thiết kế mang tính mở đầu tiên Ngôn ngữ lập trình C mà nó cung cấp cho phép người lập trình truy cập vào ttất cả các tài nguyên mà hệ điều hành
Trang 4quản lý C là ngôn ngữ cấp cao, cho phép các chương trình có thể biên dịch và thực hiện trên nhiều máy tính khác nhau.
Việc truy cập tài nguyên của hệ điều hành UNIX được thực hiện thông qua một tập hợp thủ tục gọi là các lời gọi hệ thống, tập hợp thủ tục này được lập thành tài liệu sẵn dùng cho các chương trình viết bằng ngôn ngữ C và những ngôn ngữ khác hỗ trợ các tiện ích theo thủ tục thông thường Khi có một thiết bị ngoại vi mới được cài đặt vào UNIX, hệ điều hành có thể được mở rộng để giúp cho các chương trình ứng dụng có thể truy cập được tới thiết bị này bằng việc bổ sung thêm các lời gọi hệ thống mới hoặc phổ biến hơn là bằng việc cài đặt một số giá trị tham số bổ sung cho các lời gọi hệ thống hiện có.
So với các hệ thống trước, UNIX có tích chất mở hơn vì :
Đối với những người phát triển ứng dụng : chúng có thể truy cập tới toàn bộ những tiện ích mà hệ thống cung cấp.
Đối với những người cung cấp phần cứng và những người quản lý hệ thống: hệ điều hành có thể mở rộng để bổ sung các thiết bị ngoại vi mới hoặc trình điều khiển mạng tương đối dễ dàng.
Đối với người bán phần mềm và người sử dụng: Do hệ điều hành không phụ thộc phần cứng, nên những người phát triển phần mềm có thể tạo ra những chương trình chạ được ở nhiều máy thuộc các hãn sản xuất khác nhau, mà không cần thay đổi gì (Điều này chỉ đúng khi các nhà sản xuất máy tính thống nhất hoàn toàn về phiên bản UNIX mà họ sẽ cung cấp).
Tính mở thông qua truyền thông: Những tài nguyên mà lõi của UNIX đầu tiên cung cấp là file và tiến trình File với cấu trúc đặt tên của chúng rất hữu dụng cho việc lưu trữ cố định và chúng còn được dung để truy cập trực tiếp vào một số loại thiết bị ngoại vi khác Các tiến trình cung cấp cơ chế thực hiện đồng thời các chương trình.
Tính sẵn dùng của truyền thông giữa các tiến trình trong UNIX và các hệ điều hành khác cùng tính sẵn dụng của các giao thức chuẩn trong truyền thông đã mở ra nhiều cơ hội để đạt được tính mở trong thiết kế hệ thống máy tính Nhờ đó, các tiến trình chủ chạy được ở bất kỳ máy nào, bất kỳ hệ điều hành nào.
c Tính đồng thời
Khi một số tiến trình cùng tồn tại trong một máy tính, ta nói rằng, chúng được thực hiện đồng thời Nếu máy tính chỉ có một bộ xử lý trung tâm, thì tính đồng thời xảy ra khi thực hiện xen kẽ, các phần của một tiến trình Nếu máy có n bộ xử lý thì sẽ có n tiến trình được thực hiện đồng thời, tăng hiệu xuất tính toán lên n lần Trong hệ phân tán thường có nhiều máy, mỗi máy co một hoặc nhiều bộ xử lý trung tâm Nếu có m máy, mỗi máy có một bộ xử lý trung tâm, thì sẽ có tới m tiến trình chạy song song, miễn là các tiến trình định vị ở các máy khác nhau Hệ phân tán dựa trên mô hình chia sẻ tài nguyên như mô tả ở trên có nhiều cơ hội để thực hiện song song với 2 lý do:
Nhiều người sử dụng đồng thời gọi tới lệnh hoặc tương tác với các chương trình ứng dụng
Trang 5 Nhiều trình chủ chạy đồng thời, mỗi trình chủ đáp ứng với yêu cầu mà trình khách đưa ra.
Trường hợp một xuất hiện do một hoặc nhiều tiến trình ứng dụng đang chạy đại diện cho một người sử dụng đang hoạt động Trong phần lớn các kiến trúc của hệ phân tán, các tiến trình ứng dụng chạy trong trạm làm việc của người sử dụng và chúng không xung đột với tiến trình ứng dụng của những người sử dụng khác để xử lý tài nguyên Nếu trạm làm việc chỉ có một bộ xử lý nhưng có nhiều tiến trình ứng dụng, thì các tiến trình đó được thực hiện theo cách xen kẽ Trạm làm việc có nhiều bộ xử lý cho phép người sử dụng thực hiện các phép tính một cách song song hoặc cho phép thực hiện các trình ứng dụng có khả năng khai thác nhiều bộ xử lý.
Trường hơp 2: là nảy sinh do mỗi loại tài nguyên đều có một hoặc nhiều tiến trình chủ Các tiến trình chủ được xử lý song song với nhau và với các tiến trình khách đang chạy trên các trạm làm việc Những yêu cầu truy cập tài nguyên của một Server và được giải quyết một cách tuần tự hoặcgiải quyết đông thời một số yêu cầu bằng tiến trình quản lý tài nguyên Khi một số chương trình sử dụng tài nguyên đồng thời truy cập cùng một tài nguyên, thì trình chủ phải đông bộ hoá các hoạt động của chúng, để chúng không xung đột với nhau.Việc đồng bộ hoá phải được lập kế hoạch cẩn thận, không làm mất đi tính hữu ích của việc thực hiện đồng thời
Tóm lại tính đồng thời náy sinh một cách tự nhiên trong các hệ phân tán, xuất phát từ các hoạt động riêng biệt của người sử dụng, tính độc lập của tài nguyên và vị trí của các trình chủ nằm ở các máy khác nhau Sự tách biệt của các hoạt động cho phép việc xử lý được tiến hành song song ở các máy khác nhau Việc truy cập đồng thời và cập nhật tài nguyên chung phải được đồng bộ hoá
d Tính quy mô
Hệ phân tán hoạt động hiệu quả ở nhiều quy mô khác nhau Hệ phân tán nhỏ nhất chỉ gồm 2 trạm làm việc và một file Server, trong khi đó hệ phân tán xây dựng từ một mạng LAN có thể bao gồm vài trăm trạm làm việc và một số file Server, print Server và các Server có mục đích đặc biệt khác nhau Một số mạng LAN thường được kết nối với nhau thành các liên mạng và liên mạng có thể bao gồm hàng nghìn máy, nhưng chúng chỉ tạo thành một hệ phân tán nhờ khả năng chia sẻ tài nguyên của chúng.
Phần mềm hệ thống và phần mềm ứng dụng không cần thay đổi khi quy mô của hệ thống tăng lên Đặc tính này có được nhờ khả năng mở rộng của hầu hết các hệ phân tán hiện nay và các thành phần của chúng Tuy nhiên, cần có những nghiên cứu sâu hơn về lĩnh vực này trong sự phát triển các hệ thống và các phần mềm có quy mô rất rộng, hoặc khi xuất hiện các mạng hiệu suất cao.
Nhu cầu về tính quy mô không chỉ là vấn đề của phần cứng hay hoạt động của mạng Vấn đề này sẽ xuyên suốt toàn bộ các mặt thiết kể của hệ phân tán Trong các hệ máy tính tập trung, những tài nguyên chung cố định như bộ nhớ, bộ xử lý, kênh vào ra, đều thuộc tài nguyên cung cấp hạn chế và không thể thay thế
Trang 6một cách vô định Hệ phân tán không bị hạn chế về vấn đề đó vì chúng có tiềm năng không hạn chế về số máy tính, mỗi máy đều có bộ nhớ, có một hoặc nhiều bộ xử lý trung tâm và kênh vào ra Nhưng chúng có thể có hạn chế khác nếu thiết kế của hệ thống không nhận thấy rõ nhu cầu về tính quy mô.
Yêu cầu về tính quy mô trong các hệ phân tán đòi hỏi một thiết kế mà trong đó không có tài nguyên nào (phần cứng hoặc phần mềm) bị coi là tài nguyên cung cấp hạn chế Như vậy phải mở rộng hệ thống để đáp ứng yêu cầu phát triển tài nguyên Có thể phải bổ sung các Server để tránh tình trạng tắc nghẽn xảy ra khi một file Server phải xử lý tất cả các yêu cầu truy cập file Một số file có thể được truy cập thường xuyên đến mức chỉ xử lý những yêu cầu truy cập file cũng có thể gây ra tắc nghẽn Trong trường hợp đó, các file phải được sao chép lạị ở nhiều Server và hệ thống phải được thiết kế để sao cho khi các file sao chép được cập nhật thì cập nhật đó được áp dụng cho toàn bộ các bản sao.
Khi quy mô và độ phức tạp của mạng máy tính tăng lên, thì thách thức chủ yếu là việc thiết kế các phần mềm hệ phân tán có hiệu lực đối với các cấu hình mới của mạng Hiện nay, Internet đã kết nối hàng triệu máy tính Yêu cầu là phải thiết kế những dịch vụ phân tán có khả năng hoạt động hiệu quả với hàng nghìn hoặc hàng triệu khách hàng Việc xử lý bất kỳ yêu cầu truy cập nguồn tài nguyên chung nào cũng cần phải độc lập, gần như không phụ thuộc vào kích cỡ của mạng.
e Tính chịu lỗi
Các hệ máy tính đôi khi vẫn bị hỏng Khi phần cứng hoặc phần mềm xuất hiện hư hỏng, các chương trình sẽ cho kết quả sai, hoặc bị dừng trước khi hoàn thành phép xử lý đã định Các thiết kế của các hệ máy tính chịu lỗi hiện nay thường sử dụng các phương pháp sau:
Dùng dư phần cứng (hardware redundancy): sử dụng các thành phần dư để khác phục lỗi.
Khôi phục bằng phần mềm: thiết kế các phần mềm sử dụng.
Để tăng khả năng của các hệ thống có khả năng chịu lỗi bằng phần cứng, người ta thường sử dụng hai máy cho một ứng dụng, một trong hai máy đóng vai trò là máy dự phòng cho 2 máy kia Đây là giải pháp khá tốn kém để có thể cung cấp gấp đôi phần cứng, giá thành sẽ tăng gấp đôi Trong các hệ phân tán, phần dư dự trữ như vậy có rất ít chỉ những Server dạng riêng lẻ cần thiết cho việc hoạt động của các ứng dụng quan trọng mới thường có phần dư để có thể thay thế.
Một điểm cần lưư ý là cần phải thiết kế việc cấp phát phần cứng dư, sao cho phần cứng khác có thể khai thác được cho các hoạt động tới hạn, không nguy kịch (non critical) những lúc không bị lỗi Ví dụ, có thể thay thế cơ sở dữ liệu trong một số Server để bảo đảm có thể truy cập được sau khi bị lỗi ở bất kì Server nào Các Server được thiết kế để phát hiện lỗi ở cấp của chúng: Mỗi khi phát hiện thấy lỗi ở một Server, các khách hàng sẽ được chỉ những Server còn lại Vớí những kỹ thuật này, các hệ phân tán có khả năng chịu được của một số loại lỗi phần cứng với giá thành tương đối thấp.
Trang 7Việc khôi phục lỗi bằng phần mềm đòi hỏi thiết kế phần mềm, sao cho chúng có thể phục hồi được của trạng thái dữ liệu thường có khi thấy lỗi Nói chung các phép xử lý của chương trình sẽ thực hiện không hoàn tất khi có lỗi, và dữ liệu mà đang dùng chưa được cập nhật (file và các dữ liệu lưu thường xuyên lâu dài) không còn ở trạng thái nhất quán nữa trong phần sau sẽ mô tả một cách số cơ chế làm cho file và các dữ liệu lâu dài khác có thể tái lưu lại trạng thái ban đầu của chúng.
Các hệ phân tán có tính sẵn dùng cao, mặc dù có các lỗi phần cứng Tính sẵn dùng của hệ thống là phép đo tỉ lệ thời gian mà chúng sẵn sàng cho sử dụng Một lỗi trong hệ thống máy tính đa người dùng thường dẫn đến việc hệ thống không sẵn sàng cho tất cả những người sử dụng nó Khi một trong các thành phần của hệ thống phân tán bị lỗi, thì chỉ hành động đó ảnh hưởng Người sử dụng có thể di chuyển đến trạm làm việc mới nếu trạm của họ bị hỏng, tiến trình của một Server cũng có thể khởi động lại được ở máy tính khác.
Trong các mạng thành phần của hệ phân tán thường không có phần dư, do đó lỗi của mạng sẽ làm cho các chương trình sử dụng mạng phải cho tạm dừng cho đến khi khôi phục lại thông tin, làm gián đoạn các dịch vụ của người sử dụng Sự quá tải của mạng làm suy thái các hoạt động và làm cho các hoạt động của mạng trở nên không trong cậy Do đó, người ta thường cố gắng những mạng tin cậy và chịu lỗi.
Để đáp ứng các yêu cầu thực tế, cần phải thiết kế các phần mềm đặc biệt để xử lý tính năng đồng thời một cách đầy đủ và có khả năng chịu lỗi cao hơn so với hệ khách chủ thông thường Mô hình lý tưởng dể xây dựng các chương trình đồng thời liên quan đến việc thay thế là mô hình nhóm tiến trình Mô hình này giúp cho nhiều tiến trình đồng thời hợp tác với nhau bằng cách có chung một cơ chế thông tin “mạng máy tính thực” gồm một tập hợp những tiến trình có thể được tạo lập, mở rộng hoặc thu nhỏ kích cỡ theo yêu cầu.
f Tính trong suốt
Tính trong suốt chính là việc che dấu không cho người sử dụng hoặc người lập trình ứng dụng thấy sự tách biệt giữa các thành phần trong hệ phân tán, và như vậy người sử dụng chỉ thấy hệ phân tán như một tổng thể, chứ không phải là tập hợp các thành phần độc lập Tính trong suốt có ảnh hưởng lớn đến thiết kế các phần mềm của hệ phân tán.
Sự tách biệt giữa các thành phần là một đặc tính cố hữư của các hệ phân tán Sổ tay tra cứu của ANSA (ANSA 1989) và mô hình tham khảo của tổ chức tiêu chuẩn quốc tế về xử lý phân tán mở RM-ODP (ISO 1992) đã định rõ 8 dạng của tính trong suốt đó là:
Truy cập trong suốt: cho phép truy cập vào các đối tượng thông tin cục bộ và các thông tin từ xa sử dụng các thao tác thống nhất
Định vị trong suốt: cho phép các đối tượng thông tin có thể truy cập, mà không cần biết đến vị trí của nó.
Trang 8 Tính tương tranh: Cho phép một số tiến trình hoạt động đồng thời sử dụng những đối tượng thông tin chung mà không gây trở ngại cho nhau.
Thay thế trong suốt: Cho phép sử dụng thường xuyên nhiều đối tượng thông tin để tăng độ tin cậy và hiệu suất hoạt động, không cần biết các thay thế mà người sử dụng thực hiện hay các chương trình ứng dụng thực hiện.
Lỗi trong suốt: giúp che dấu các lỗi, cho phép người sử dụng và các chương trình ứng dụng hoàn tất công việc của mình mặc dù có lỗi ở các thành phần phần cứng hoặc phần mềm.
Tính trong suốt di trú: Cho phép các đối tượng thông tin di chuyển trong hệ thống mà không ảnh hưởng đến hoạt động của người sử dụng hoặc các chương trình ứng dụng.
Thực hiện trong suốt: Cho phép cấu hình lại hệ thống để cải tiến việc thực hiện, khi lượng nạp thay đổi.
Tính quy mô trong suốt: Cho phép mở rộng hệ thống và các ứng dụng không cần thay đổi cấu trúc hệ thống hay các thuật toán ứng dụng Hai thuộc tính trong suốt quan trọng nhất là: Truy cập trong suốt và định vị trong suốt Đôi khi chúng được xem là tính trong suốt của mạng Tính trong suốt của mạng cung cấp mức độ che dấu tài nguyên tương tự như trong các hệ tập trung.
g Một số kết luận
Hệ phân tán đã trở thành điển hình về tổ chức các tiện ích tính toán Chúng
được dùng để khai thác các hệ máy tính tương tác lẫn nhau vì mục đích chung theo kiểu UNIX, khai thác các ứng dụng thương mại và công nghiệp của các máy tính ở một phạm vi lớn Chúng càng ngày càng được sử dụng nhiều hơn, làm cơ sở cho các ứng dụng mới trong các lĩnh vực như: các dịch vụ thông tin nối mạng và các ứng dụng đa phương tiện, trong đó việc truyên thông là một yêu cầu cơ bản
3 Vấn đề phối hợp thời gian trong hệ phân tán
a Một số khái niệm
Thời gian là một vấn đề thú vị và quan trọng và thú vị trong hệ phân tán, nó là một đại lượng mà ta luôn luôn đo được chính xác Muốn biết biến cố đã xẩy ra ở thời điểm nào đó Việc này được gọi là đồng bộ hoá ngoài Nếu đồng hồ trong các máy tính được đồng bộ hoá lẫn nhau theo một mức độ chính xác nhất định, thì sẽ đo được khoảng thời gian giữa hai biến cố xảy ra ở hai máy khác nhau, căn cứ theo đồng hồ tại chỗ của chúng: điều này được gọi là đồng bộ hoá trong Khi các máy được đồng bộ hoá trong thì không cần đồng bộ hoá ngoài, ví chúng có thể bị lệch so với thời gian bên ngoài.
Cần chú ý là nhiều thuật toán dựa trên đồng bộ hoá đồng hồ để giải quyết những vấn đề phân tán như: vấn đề duy trì tính nhất quán của dữ liệu phân tán(ví dụ sử dụng nhãn thời gian để sắp xếp thứ tự các giao dịch), vấn đề kiểm tra tính xác thực của các yêu cầu gửi đến máy chủ (như trong giao thức xác nhận tính xác
Trang 9thực-kerberos) dựa vào các đồng hồ đồng bộ hoá, vấn đề không xử lý những gì được cập nhật hai lần
Khái niệm thời gian vật lý vẫn còn là một vấn đề cần bàn trong hệ phân tán Vấn đề không phải là do hiệu ứng không đáng kể của tính tưng đối trong máy tính thường( trừ khi tính đến cả những máy đang di chuyển trên tàu vũ trụ), mà là các vấn đề liên quan đến khả năng hạn chế trong việc truyền thông tin từ máy này đến máy khác Bởi vì, trong phần lớn các trường hợp, đồng hồ ở các máy khác nhau chỉ có thể đồng bộ hoá bằng con đường truyền thông mạng Thông báo truyền đi bị hạn chế bởi tốc độ, nhưng điều đó không quan trọng nếu ta biết việc chuyển thông báo mất bao nhiêu thời gian Vấn đề là ở chỗ ta không thể đoán biết được thời gian cần để gửi thông báo đi Phần sau nêu những phưng pháp đồng bộ hoá xấp xỉ các đồng hồ máy tính bằng cách chuyển thông báo Song trong nhiều trường hợp vẫn không thể xác định chính xác trật tự của các biến cố ở các máy khác nhau, Một điều may mắn là chúng ta có thể xác lập trật tự của mọt số biến cố căn cứ theo luồng giữ liệu giữa các tiến trình trong hệ phân tán Trong phần này xem xét đến những đồng hồ logic dùng để xác định trật tự biến cố không cần đo thời gian vật lý mà chúng xẩy ra.
b Đồng bộ hoá các đồng hồ vật lý
Mỗi máy đều có một đồng hồ vật lý riêng: đó là một thiết bị điện tử đếm số dao động trong tinh thể với tần số xác định, và chỉ số giao động đếm được, đồng thời lưu kết quả vào thanh ghi đếm Có thể lập trình cho đồng hồ để tạo ra những quãng ngắt đều đặn, tuy nhiên ta sẽ không đi sâu vào phương tiện hoạt động này Có thể đọc đồng hồ bằng phần mềm và có giá trị đọc được này dùng để dán nhãn thời gian cho bất cứ biến cố nào của tiến trình thực hiện ở máy này ở đây ta hiểu “biến cố” là hoạt động đột nhiên xảy ra không chia tách được- như gửi hoặc nhận thông báo Các biến cố kế tiếp nhau chỉ tương ứng với các nhãn thời gian khác nhau nếu độ phân giải của đồng hồ( quãng thời gian giữa lần cập nhật cho thanh ghi giờ) nhỏ hơn tốc độ xẩy ra biến cố.
Trong những ứng dụng, chỉ cần quan tâm đến trật tự biến cố, chứ không cần qua tâm đến thời gian tuyệt đối mà biến cố xẩy ra, tức là, chỉ đòi hỏi giá trị trong bộ đếm để dán nhãn cho biến cố Tuy nhiên có thể tính được cả ngày và thời gian trong ngày từ giá trị của bộ đếm, miễn là đã biết một vái giá trị thời gian gần đây của bộ đếm.
Độ lệch giờ: Đồng hồ tinh thể trong máy tính, cũng như các đồng hồ khác, đều bị lệch giờ, tức là chúng ta đếm giờ với tốc độ khác nhau và do đó lệch nhau Những thiết kế hiện có đều cố gắng khắc phục sự biến đổi này, nhưng vẫn không triệt để Sự khác biệt về chu kỳ dao động sẽ dấn đến khác biệt rõ ràng trong thanh ghi đếm mà hai đồng hồ ghi được, dù chúng khởi động cùng giá trị Độ lệch giờ chính là sự thay đổi từng đối giữa một đồng hồ với đồng hồ tham chiếu trong một đn vị thời gian của đồng hồ tham chiếu Trong những đồng hồ tinh thể Quartz, độ lệch này khong 10-6 tức là cứ 1.000.000 giây hay 11,6 ngày thì lệch 1 giây.
Phối hợp thời gian toàn cầu: Nững đồng hồ vật lý nối tiếp chính xác nhất đều dùng bộ tạo giao động nguyên tử, độ chính xác của chúng khong 10-13 Đầu ra của
Trang 10đồng hồ nguyên tử được dùng để làm chuẩn cho thời gian thực, gọi là thời gian nguyên tử quốc tế Từ năm 1967, một giây chuẩn được xác định là 9.192.631.770 chu kỳ dịch chuyển giữa hai mức trạng thái siêu mịn của caseium-133.
Thời gian phối hợp toàn cầu ( viết tắt là UTP ) là một tiêu chuẩn quốc tế dựa trên thời gian nguyên tử, nhưng dôi khi phi chèn thêm hoặc xoá di một giây dể bằng với thời gian thiên văn.Tín hiệu UTC được dồng bộ hoá và truyền qung bá thường xuyên từ các dài radio mặt dất và vệ tinh trên khắp thề giới.Ví dụ, ở Mỹ, đài radio WWV phát tín hiệu thời gian trên một tần số sóng ngắn Các nguồn vệ tinh gồm có vệ tinh môi trường hoạt động địa tĩnh (GOES) và hệ thống định vị toàn cầu (GPS Global Positioning System).
Sóng radio có tồc độ gần bằng tốc độ ánh sáng (3 108 m/s ), vì vậy trễ truyền chúng khá bé.Ví dụ, thời gian để truyền thời gian suốt dọc chiều dài nước Mỹ (khoảng 1000km ) chỉ mất khong 3 miligiây Trễ truyền dẫn có thể tính được nếu biết chính xác tốc độ chuyền tín hiệu radio và khoảng cách từ nguồn Rủi thay tốc độ truyền lại thay đổi theo điều kiện khí quuyển và do đó làm tang sai số Nói chung, sự chính xác của tín hiệu thu được là mọt hàm bao gồm cả sự chính xác của nguồn, và khoảng cách của nguồn qua khí quyển.
Đài thu có sẵn trên thị trường So sánh với UTC “hoàn hảo”, tín hiệu thu được từ các đài mặt đất có độ chính xác từ 0, 1-10 miligiây, tuỳ theo vị trí của đài Tín hiệu thu từ vệ tinh GOES có độ chính xác khoảng 0,1 miligiay Những máycó đài thu gắn liền có thể đồng bộ các đồng hồ của chúng với những tín hiệu thời gian này Đáng tiếc là đài thu đắt tiền hơn so với trạm làm việc đặc biệt là những đài thu dùng để đồng bộ hoá với nguồn thời gian vệ tinh.
Cần chú ý rằng: độ đo thời gian có độ chính xác 10 miligiây rất hạn chế trong việc cho biết chật tự từng đối của biến cố xẩy ra ở nhiều máy khác nhau trong hệ phân tán Trong 10 miligiay với bộ sử lý tôc độ10 triệu lệnh/giâycó thể thục hiện 100000 lệnh, và thời gian đó có thể chuyển đưc một số thông báo ngắn
Bù vì lệch giờ: Nếu thời gian nhận được từ một dịch vụ thời gian (chẳng hạn dịch vụ tín hiệu thời gian phối hợp toàn cầu ), lớn hơn thời gian của máy cần đồng bộ, thì chỉ cần để đồng hồ trong máy bằng thời gian của dịch vụ, bởi vì làm như vậy sẽ gây ra sự đo lộn những ứng dụng dựa trên giả thuyết là thời gian luôn tăng Giải pháp cho trường hợp này không phải là chỉnh lại đồng bộ, mà là làm cho nó chạy chậm hơn trong các chu kỳ tiếp theo, cho đến khi nó phù hợp với thời gian cập nhật cho các ứng dụng bằng phần mềm, mà không cần thay dổi tốc độ của đồng hồ phần cứng (một việc không phải lúc nào cũng làm được với các đồng hồ phần cứng).
Ta gọi thời gian cung cấp cho các ứng dụng (số ghi của đồng hồ phần mềm) là S và thời gian trong đồng hồ phần cứng là H Giả sử hệ số bù là , như vậy S(t)=H(t) + (t) (*) Dạng đơn giản nhất để làm cho S thay đổi liên tục là: làm hàm tuyến tính của đồng hồ phần cứng: (t)=aH(t)=b, trong đó a và b là những hằng số tìm được Khi đó, thay thế giá trị của vao biểu thức (*) ta có:
S(t)= (1+ a) H(t) +b
Trang 11Giả sử giá trị của đồng hồ phần mềm là Tskew khi H=h, giả sử thời gian thực tế ở thời điểm đó là Treal Ta có Tskew > Treal hoặc Tsaw <Treal Nếu S cho biết thời gian thực tế sau N tích tắc tiếp theo, ta sẽ có:
Tsew = (1+a)h+b và Treal + N=(1+a)(h+N)+b Giải phươg trình ta có:
a = (Treal - Tsew)/N và b = Tsew-(1+a)h.
Phương pháp đồng bộ hoá đồng hồ của Christian : một cách khác để đồng bộ hoá giữa các máy trong hệ phân tán là để tiến trình dịch vụ thời gian trung tâm cung cấp thời gian theo đồng hồ của nó vào lúc có yêu cầu, như trong hình 1.4 Máy cung câp dịch vụ thời gian có thể lắp thêm một máy thu phù hợp để đồng hồ bộ hoá với UTC Nếu một tiến trình P yêu cầu thời gian trong thông báo mn, và nhận được giá trị thời gian T trong thông báo mt, thì theo nguyên tắc, nó có thể chỉnh đồng hồ ở thời gian t + Ttrans, trong đó Ttrans là thời gian chuyển mt từ S - P (t được chèn vào mt vào điểm cuối trước khi truyền từ máy S ).
Điều không may là Ttrans là đại lượng biến đổi : nó phụ thuộc vào số lượng các tiến trình khác đang cạnh tranh với S và P về tài nguyên trong mỗi máy, và những thông báo khác cạnh tranh với mt về mạng nói chung, các tham số này không thể dự đoán và thực tế không thể đo chính xác trong các cài đặt Nói chung, ta có thể xem Ttrans = min + x, trong đó x>= 0 Giá trí nhỏ nhất min chỉ có thể có được nếu không có tiến trình khác thực hiện và không có giao thông mạng nào khác diễn ra, min có thể đo được hoặc ước lượng được Giá trị x trong trường hợp cụ thể không nhận biết được, mặc dù có thể đo các giá trị phân tán cho một cài đặt cụ thể.
Cristian đề xuất sử dụng dịch vụ thời gian nối với thiết bị thu tín hiệu UTC để đồng bộ hoá các máy tính Việc đồng bộ hoá giữa dịch vụ thời gian và đài thu UTC của nó có thể thực hiện bằng phương pháp tương tự như thủ tục đồng bộ hoá giữa các máy tính Tiến trình P muốn biết thời gian của S có thể ghi lại tổng thời gian round-trip Tround (thời gian từ khi gửi yêu cầu mr và nhận phúc đáp mt ) nó có thể đo thời gian này với mức độ chình xác hợp lý nếu như độ lệch đồng hồ của nó khá nhỏ.Ví dụ, thời gian round-trip là trong khoảng 1-10 miligiây trên LAN, trong thời gian đó một đồng hồ bị lệch 10-6 chỉ khác biệt đi nhiều nhất là 10-5 miligiây.
Giả sử thời gian trở về trong thông báo mt của S là t Một ước lượng đơn giản về thời gian mà P phải chỉnh đồng hồ là t + Tround/ 2 Gi sử rằng thời gian giữa việc gửi thông báo mr và thời gian nhận thông báo mt tương ứng là min + x và min+ y Nếu giá trị min đã biết hoặc có thể ước lượng gần đúng, thì ta có thể xác định độ chính xác của kết quả có được theo lập luận sau: Thời điểm sớm nhất mà S có thể đưa giá trị thời gian vào trong mt là min, sau khi P gủi mr đi Thời điểm muộn nhất mà nó thưc hiện xong là min, trước khi mt đến P Do đó,thời gian thông báo phúc đáp đến nơi tính theo đồng hồ của S là nằm trong khoảng [t + min, t+ Tround - min] Độ rộng của khoảng này là Tround- 2*min, do đó độ chính xác là (Tround- 2*min).
Trang 12Sự biến đổi có liên quan đến việc mở rộng một số yêu cầu cho T và lấy giá trị nhỏ nhất của Tround để ước lượng với độ chính xác cao nhất Độ chính xác của các yêu cầu càng lớn, thì khả năng thực hiện được nó càng nhỏ Bởi vì những kết qu chính xác nhất chỉ có thể có được khi chuyển các thông báovào thời gian gần min nhất- tức là biến cố không thể xẩy ra khi mạng đang bận
Thuật toán của Christian: Như đã nói trên, phương pháp của cristian còn phải nghiên cứu đến trường hợp tất cả các dịch vụ được thực hiện bởi một máy chủ, mà dịch vụ thời gian của nó bị hỏng dẫn tới việc không thể đồng bộ hoá tạm thời Christian đưa ra giải pháp cung cấp thời gian bằng một nhóm dịch vụ thời gian đã được đồng bộ hoá, mỗi dịch vụ có một máy thu các tín hiệu thời gian UTC Ví dụ, một khách hàng có thể gửi yêu cầu đến mọi Server và chỉ sử dụng phúc đáp nào nhận được đầu tiên.
Nếu dịch vụ thời gian bị trục trặc thì nó sẽ phúc đáp với giá trị thời gian không xác thực, điều này có thể gây ra nỗi tiến trình: trong hệ máy tính.
Marzullo(1984) đã tìm được phương pháp phân biệt những dịch vụ tốt với những dịch vụ cho thời gian không xác thực, miễn là những dịch vụ không xác thực đó chỉ là thiểu số (không vượt quá 1/3 tổng số các dịch vụ ) Vấn đề liên quan đến đồng hồ hỏng được xử lý từng phần bằng thuật toán Berkeley mô tả dưới đây Vấn đề đồng bộ hoá thời gian, được xử lý bằng các kĩ thuật xác nhận.
Một Server kỹ thuật xác nhận về phía mình, cũng phụ thuộc vào độ chính xác của việc đồng bộ hoá.
Thuật toán Berkeley:
Guslla và Zatti (1989) mô tả thuật toán đồng bộ hoá bên trong dùng cho những máy chạy UNIX Berkeley Theo thuật toán, máy điều vận (coodinator computer) được chọn làm máy chủ (master) Không giống như giao thức của Cristian, máy này thăm dò định kì những máy khác có đồng hồ được đồng bộ hoá (gọi là các slave) các máy slave gửi các giá trị đồng hồ của chúng cho máy chủ, máy chủ ước tính đồng hồ thời gian tại chỗ của nó, bằng cách quan sát thời gian round-trip (tưng tự như kỹ thuật của Cristian ) và nó tính đến giá trị trung bình của các giá trị nhận được (kể c đọc giờ tại chỗ của nó ) Server cân bằng các khả năng chính là ở chỗ giá trị trung bình này đã chặn ngang xu hướng chạy nhanh hoặc chậm của các đồng hồ Độ chính xác của giao thức phụ thuộc vào thời gian round-trip lớn nhất đã nhận được giữa máy chủ và máy slave Máy chủ ngăn ngừa mọi trường hợp đọc thời gian lớn hơn giá trị lớn nhất đã nhận ra này.
Thay vì gửi thời gian cập nhật mới nhất cho những máy khác( những máy này có thể báo thời gian không chắc chắn do thời gian chuyển trường hợp thông báo) - máy chủ sẽ gửi giá trị thời gian mà đồng hồ trong mỗi máy slave yêu cầu điều chỉnh Giá trị thời gian này có thể dương hoặc âm.
Thuật toán nhằm loại bỏ kết quả đọc ở những đồng hồ chạy lệch qua nhiều, những đồng hồ hỏng và loại bỏ kết quả đọc không xác thực Máy chủ chỉ tính giá trị trung bình của những đồng hồ không lệch nhau quá một lượng thời gian xác định nào đó.
Trang 13Gusella và Zatti đã thí nghiện trên 15 máy tính có đồng hồ đồng bộ hoá trong khoảng 20->25 miligiây sử dụng giao trường hợp phức của chúng Mức lệch tại chỗ của các đồng hồ đo được nhỏ hơn 2x10-5và thời gian round-trip tối đa là 10 miligiây.
c Thời gian logic và đồng hồ logic
Trong trường hợp máy chủ bị hỏng, một máy khác sẽ được chọn để thực hiện chức năng của máy đó Trong phần sau sẽ mô tả một số thuật toán dùng cho việc lựa chọn máy chủ thay thế nói trên, tuy nhiên các thuật toán này không bảo đảm được chọn được máy chủ mới trong thời gian tới hạn.
Giao thức thời gian mạng: (NTP)
NTP là một kiến trúc cho dịch vụ thời gian và là một giao thức để phân tán các thông tin về thời gian trên nhiều mạng liên kết NTP được thừa nhận như là một tiêu chuẩn để đòng bộ hóa đồng hồ trên Internet Thiết kế NTP nhằm thực hiện các mục đích sau:
Cung cấp các dịch vụ giúp các khách hàng trên Internet đồng bộ hóa chính xác theo UTC, dù có thể gặp giá trị trễ lớn hoặc trễ biến đổi trong truyền thông Internet NTP áp dụng kỹ thuật thống kê để lọc giữ liệu thời gian và phân biệt chất lượng giữ liệu thời gian với các server khác.
Cung cấp các dịch vụ tin cậy, tránh bị mất kết nối lâu dài: Cần có những server dư và đường dẫn dư giữa các server Các server có thể cấu hình lại để vẫn cung cấp được dịch vụ nếu một trong số chúng không dùng được.
Giúp các client (máy khác) tái đồng bộ hóa một cách thường xuyên và hiệu quả, nhằm điều chỉnh tốc độ lệch trong hầu hết các máy tính Dịch vụ được thiết kế phục vụ cho số lượng lớn các client và server.
Để bảo vệ dịch vụ thời gian, không cho chỉnh lại dịch vụ thời gian các dịch vụ thời gian luôn sử dụng các kỹ thuật xác nhận để kiểm tra dữ liệu thời gian từ các nguồn ủy thác yêu cầu và xác nhận địa chỉ gửi thông báo cho nó.
Dich vụ giao thức thời gian mạng được cung cấp bởi mạng cáacServer định vị qua Internet Các Server quan trọng nhất được kết nối trực tiếp tới nguồn thời gian như máy thu thời gian UTC Các Server phụ được đồng bộ hóa dựa trên Server thứ nhất Các Server được kết nối theo thứ bậc logic gọi là mạng con đồng bộ (hình 1.5), các cấp được gọi là “giai tầng” Server chủ chiếm giai tầng 1: chính là gốc của cây Các Server giai tầng 2 là dịch vụ phụ, chúng được đồng bộ hóa trực tiếp từ Server chủ, các Server giai tầng 2 được đồng bộ hóa dựa trên Server giai tầng 1, và tiếp tục như vậy cho các mức thấp hơn Server mức thấp được Server Server thấp nhất được thực hiện trong các trạm của người Server sử dụng.
Các đồng hồ có quan hệ với các Server có Server số hiệu giai tầng cao có khả năng không chính xác bằng các đồng hồ có quan hệ với các dịch vụ có Server số hiệu giai tầng thấp hơn, do lỗi này sinh ở các mức đồng bộ NTP cũng tính đến tổng thời gian trễ thông báo round-trip tới gốc trong việc đánh giá chất lượng của dữ liệu đồng hồ, được cất giữ trong các dịch vụ riêng biệt.
Trang 14
Hình I.1 Một mạng con đồng bộ hóa đơn giản Server sử dụng trong cài đặt NTP (hướng mũi tên chỉ hướng điều khiển đồng bộ, các Server biểu thị các cấp) Mạng con đồng bộ hóa cũng có thể cấu hình lại như trong trường hợp các dịch vụ bị lỗi Nếu như nguồn UTC trong dịch vụ chủ bị lỗi, thì nó có thể trở thành dịch vụ phụ của giai tầng một Nếu tài nguyên dùng cho việc đồng bộ hóa trong dịch vụ phụ lỗi thì nó có thể đồng bộ với các dịch vụ khác
Dịch vụ NTP được đồng bộ nhờ một trong ba chế độ : Multicast, gọi thủ tục(procedure call) và đối xứng (Symmetric) Chế độ Multicast thường dùng trong các mạng LAN, tốc độ cao Một hoặc một số các dịch vụ định kỳ truyền bá
(Multicast) thời gian tới các dịch vụ chạy trong các máy tính khác kết nối với nó qua LAN, các đồng hồ của máy tính này xem như có trễ khá nhỏ Chế độ này chỉ thực hiện được với độ chính xác tương đối thấp, tuy nhiên chúng có khả năng duy trì một số mục đích.
Chế độ gọi thủ tục tưng tự như thuật toán xử lý của Christian mô tả trên đây Trong chế độ này một máy chủ sẽ nhận các yêu cầu từ máy tính khác, các yêu cầu đó sẽ được đáp ứng thông qua việc phuc đáp với nhãn thời gian của nó Chế độ này thích hợp cho các mạng đòi hỏi độ tin cậy cao và do đó nó có thể thực hiện trong trường hợp Multicast hoặc ở những mạng phần cứng không hỗ trợ Multicast Ví dụ, các file Server trong cùng mạng hoặc trong mạng LAN khác kết nối với nó, cần phải lưu giữ các thông tin về thời gian cho những lần truy cập file một cách chính xác, chúng cũng có thể giao tiếp với Server chủ cục bộ trong chế độ gọi thủ tục.
Cuối cùng, chế độ đối xứng thường được Serverử dụng trong các Server chủ( những máy cung cấp các thông tin thời gian trong các mạng LAN) và các con đồng bộ hóa mức cao ( giai tầng thấp ), những nơi đòi hỏi tới độ chính xác cao nhất Mỗi cặp máy chủ hoạt động trong chế độ đối xứng trao đổi các thông báo mang thông tin thời gian với nhau Dữ liệu thời gian được giữ lại như một phần của Server kết hợp giữa các máy chủ, và được duy trì nhằm làm tăng độ chính xác của việc đồng bộ hóa thời gian của chúng
Trong tất cả các chế độ nêu trên, các thông báo được chuyển phát không đáng tin cậy như trong Server sử dụng giao thức truyền thông Internet chuẩn UDP Trong chế độ gọi thủ tục và trong chế độ đối xứng các thông báo được trao dổi theo từng
1
Trang 15cặp Mỗi thông báo mang một nhãn thời gian của biến cố thông báo hiện tại bao gồm: các giá trị thời hạn cục bộ khi gửi và nhận thông báo NTP trước đó, và thời điểm truyền thông báo hiện tại Người nhận thông báo NTP sẽ ghi lại thời gian cục bộ khi nhận được thông báo Bốn đơn vị thời gian Ti-3, Ti-2, Ti-1 và Ti của các thông báo m được gửi giữa các Server A và B, được mô tả như trong hình 1.6 Chú ý rằng, không giống như thuật toán Christian, chế độ đối xứng có thể có trễ khá lớn từ lúc thông báo tới khi gửi thông báo tiếp theo Vì vậy, các thông báo có thể bị mất, nhưng các nhãn thời gian mang theo trong mỗi thông báo vẫn có giá trị
Máy chủ A Ti-2 Ti-1 thời gian
Máy chủ B Ti-3 Ti
Hình 1.6 Truyền dẫn các thông báo giữa các cặp NTP ngang hàng Với mỗi cặp các thông báo được gửi giữa hai Server, giao thức thời gian mạng NTP sẽ tính giá trị ước lượng độ lệch thực tế Oi giữa hai đồng hồ, và tổng trễ thời gian truyền dẫn hai thông báo di Nếu độ lệch của đồng hồ trong B đối với A là O, và nếu thời gian truyền dẫn cho các thông báo m và m* tương ứng là t và t*, thì ta có:
Ti-2 = Ti-3 + O và Ti = Ti-1+ t* - O đặt a=Ti-2-Ti-3 và b=Ti-1- Ti ta có:
d1= t + t* = a- b
Tương tự: O= Ti-2, Ti-3 = Oi + ( t*- t )/2, trong đó Oi=(a+b)/2;
Trên thực tế t, t* >=0, nên ta có Oi + di/2 >= 0 >=(Oi -di/2) Biểu thức này chứng tỏ Oi là một ước lượng của độ lệch, và di là một phép đo chính xác của giá trị ước tính này.
Các dịch vụ NTP áp dụng thuật toán lọc dữ liệu cho các cặp kế tiếp (Oi,di), các cặp này ước tính độ lệch O và tính toán chất lượng ước tính đó bằng hàng loạt các thống kê gọi là phân toán học Độ phân tán lọc cao biểu thị dữ liệu có độ tin cậy thấp Cũng như thuật toán Christian, giá trị của Oi tương ứng với giá trị nhỏ nhất của dj được chọn làm giá trị ước lượng O.
Tuy nhiên, giá trị độ lệch nhận được được từ truyền thông với một nguồn không cần thiết phải dùng để điều chỉnh đồng hồ địa phương Nói chung, một NTP Server trao đổi thông báo với một dịch vụ ngang hàng với nó Ngoài việc lọc dữ liệu để trao đổi với từng dịch vụ ngang hàng, NTP còn áp dụng thuật toán chọn ngang hàng Khảo sát những giá trị nhận được từ việc trao đổi với các dịch vụ ngang hàng này, sẽ tìm ra được những giá trị không tin cậy Đầu ra của thuật toán này có thể làm cho dich vụ phi thay đổi các dịch vụ ngang hàng mà lúc đầu nó đã dùng để đồng bộ hóa
Trang 16Những dịch vụ ngang hàng có chỉ số giai tầng thấp ưa chuộng hơn nhưng dịch vụ ngang hàng ở giai tầng cao, vì chúng “gần” với các nguồn thời gian cấp 1 hơn Tương tự, nhưng dịch vụ ngang hàng có độ phân tán đồng bộ hóa thấp nhất được ưa chuộng hơn Đây chính là tổng của bộ phân tán của bộ lọc đảo được giữa dịch vụ và gốc của mạng đồng bộ con, (độ phân tán đồng bộ hóa trao đổi ngang hàng trong các thông báo, cho phép tính được tổng này).
Theo Mill, trong năm 1991, khong 20->30 Server cấp 1 và hơn 2000 Server cấp 2 hoạt động trên Internet, gồm ở Mỹ, Canada, Anh và Na uy Server cấp 1 thường trao đổi thông báo với hầu hết các Server cấp 1 khác Server cấp 2 đặc biệt thường thông tin với 1 Server ngang hàng ở cùng giai tầng và hai Server ngang hàng khác ở giai tầng thấp nhất tiếp theo.
Các phép đo cho thấy lỗi đồng bộ hóa không quá 30 mili giây, nhưng chỉ 1% giá trị thời gian mẫu lấy từ các Server được đồng bộ hóa bởi NTP Hơn nữa, bằng việc c chế vòng lặp đồng hồ để điều chỉnh tần số của các đồng hồ cục bộ trong việc đáp ứng với giữ liệu bù thêm, có thể đạt được độ chính xác ở mức 1 mili giây bằng việc thực hiện nhiều chu kỳ trong một giờ Tuy nhiên không bảo đảm có giới hạn nào về sự khác nhau giữa hai đồng hồ
Mô hình vồng lặp đồng hồ pha đã được Mills đưa ra vào năm 1991 Mô hình này bao hàm cả việc chỉnh tần số đồng hồ địa phưng theo sự quan sát tốc độ lệch của nó Xét ví dụ đơn giản, nếu thấy một đồng hồ luôn chạy nhanh 4 giây trong 1 giờ thì tần số của nó có thể giảm nhẹ (bằng phần mềm hoặc bằng phần cứng) để bù cho việc chạy nhanh này Do đó, độ lệch đồng hồ trong các khoảng thời gian giữa các lần đồng bộ hóa sẽ giảm đi.
Người ta quan niệm rằng bất kì một tiến trình đơn, một biến cố nào đều có thể sắp xếp một cách duy nhất theo thời gian của đồng hồ địa phương Tuy nhiên, vì chúng ta không thể đồng bộ hóa một cách hoàn hảo các đồng hồ cục bộ trong hệ phân tán, nên nói chung ta không thể sử dụng thời gian vật lý để tìm ra trật tự của cặp biến cố bất kỳ nào xẩy ra trong nó.
Nói chung, ta có thể sử dụng một sơ đồ tương tự tính nhân quả vật lý, nhưng nó chỉ được áp dụng trong hệ phân tán, để sắp xếp một biến cố xảy ra ở các tiến trình khác nhau Việc sắp xếp này dựa trên hai điểm sau:
Nếu hai biến cố xẩy ra trong cùng một tiến trình thì chúng xẩy ra theo trật tự mà tiến trình quan sát chúng.
Khi thông báo được gửi giữa các tiến trình, biến cố gửi thông báo bao giờ cũng xẩy ra trước biến cố nhận thông báo.
Lamport gọi trật tự nhận được nhờ việc khái quát hóa của hai mối quan hệ trên là quan hệ xẩy ra trước Đôi khi nó còn được coi là trật tự nhân quả hay trật tự nhân quả tiềm tàng.
Ta sẽ viết X->p Y nếu hai biến cố X và Y xẩy ra trong cùng một tiến trình p,và X xy ra trước Y Sử dụng trật tự giới hạn này ta có thể xác định mối quan hệ xảy ra trước, biểu thị bằng kí hiệu->p như sau:
HB1: nếu tồn tại tiến trình p: X->p Y, thì X->Y.
Trang 17 HB2: đối với thông báo m bất kỳ: gửi(m)->nhận (m) Trong đó: gửi(m) là biến cố gửi thông báo, và nhận (m) là biến cố nhận thông báo.
HB3: nếu X,Y và Z là những biến cố mà Y->Yvà Y->Z, thì X->Z.
Do đó, nếu X->Y thì ta có thể tìm được một dãy các biến cố e1, e2, e3, en xảy ra trong một hoặc một số tiến trình mà x=e1 và y=en, và với i=1,2 n-1, HB1 hoặc HB2 áp dụng được giữa ei và ei+1, điều này có nghĩa là chúng xảy ra liên tiếp trong cùng tiến trình, hoặc có một thông báo m nào đó mà ei=gửi(m) và ei+1=nhận(m) dãy các biến cố e1, e2, e3…en không cần thiết phải duy nhất.
PHẦN II: TIẾN TRÌNH HỆ ĐIỀU HÀNH PHÂN TÁN.
Trang 18I TỔNG QUAN VỀ HỆ ĐIỀU HÀNH.
Hệ điều hành là một chương trình hay một hệ chương trình hoạt động giữa
người sử dụng (user) và phần cứng của máy tính Mục tiêu của hệ điều hành là cung cấp một môi trường để người sử dụng có thể thi hành các chương trình Nó làm cho máy tính dể sử dụng hơn, thuận lợi hơn và hiệu quả hơn
Hệ điều hành là một phần quan trọng của hầu hết các hệ thống máy tính Một hệ thống máy tính thường được chia làm bốn phần chính : phần cứng, hệ điều hành, các chương trình ứng dụng và người sử dụng
Các bộ xử lý thông tin với nhau thông qua các đường truyền thông như những bus tốc độ cao hay đường dây điện thoại
Các bộ xử lý trong hệ phân tán thường khác nhau về kích thước và chức năng Nó có thể bao gồm máy vi tính, trạm làm việc, máy mini, và những hệ thống máy lớn Các bộ xử lý thường được tham khảo với nhiều tên khác nhau như site, node, computer v.v tùy thuộc vào trạng thái làm việc của chúng.
Các nguyên nhân phải xây dựng hệ thống phân tán là:
Chia xẻ tài nguyên : Một người sử dụng A có thể sử dụng máy in laser của
người sử dụng B và người sử dụng B có thể truy xuất những tập tin của A Tổng quát, chia xẻ tài nguyên trong hệ thống phân tán cung cấp một cơ chế để chia xẻ tập tin ở vị trí xa, xử lý thông tin trong một cơ sở dữ liệu phân tán, in ấn tại một vị trí xa, sử dụng những thiết bị ở xa đểõ thực hiện các thao tác Tăng tốc độ tính toán : Một thao tác tính toán được chia làm nhiều phần nhỏ
cùng thực hiện một lúc Hệ thống phân tán cho phép phân chia việc tính toán trên nhiều vị trí khác nhau để tính toán song song
An toàn : Nếu một vị trí trong hệ thống phân tán bị hỏng, các vị trí khác vẫn
tiếp tục làm việc.
Thông tin liên lạc với nhau :Có nhiều lúc, chương trình cần chuyển đổi dữ
liệu từ vị trí này sang vị trí khác Ví dụ trong hệ thống Windows, thường có sự chia xẻ và chuyển dữ liệu giữa các cửa sổ Khi các vị trí được nối kết với nhau trong một hệ thống mạng, việc trao đổi dữ liệu diễn ra rất dễ Người sử dụng có thể chuyển tập tin hay các E_mail cho nhau từ cùng vị trí hay những vị trí khác.
Trong thời gian hiện tại đồng thời phát triển một số loại hệ điều hành theo các yêu cầu và các giải pháp khác nhau nhằm hỗ trợ cho việc đáp ứng yêu cầu của từng người sử dùng đến một tập thể và toàn bộ những người sử dụng máy vi tính Vì vậy, theo những yêu cầu khác nhau thì việc phát triển hệ điều hành theo các hướng khác nhau là điều đương nhiên.
Trang 19Để phân loại hệ điều hành chúng tôi phân loại theo yêu cầu của người sử dụng chúng ta có thể chia làm ba loại hệ điều chính như sau:
Hệ điều hành tập trung: Các hệ điều hành này có thể là đơn xử lý hoặc đa xử lý Hệ thống này cung cấp các khả năng tốt nhất dùng để cho một người hay một số lượng nhỏ người sử dụng yêu cầu xử lý có độ phức tạp về việc quản lý file, bộ nhớ và các bộ vi xử lý.
Hệ điều hành mạng: cấu trúc cũng giống như hệ điều hành trên nhưng chúng tập trung quản lý về việc chia sẻ tài nguyên, các giao dịch từ xa, anh ninh mạng,… nói chung tập trung vào các giao tiếp trên mạng về các tài nguyên Hệ điều hành phân tán: hệ điều hành phân tán nhìn qua thì cũng tương tự như
hệ điều hành mạng nhưng có điểm khác là tính chất trong suốt Do đó, chúng ta khi sử dụng hệ điều hành hệ phân tán chúng ta không hề cảm thấy khó khăn bởi vì toàn bộ hệ thống phân tán đều được che dấu đối với người sử dụng Trong hệ điều hành này, đối với người sử dụng không có sự phân biệt giữa truy nhập từ xa hay ngay trong hệ thống của các tài nguyên được truy nhập đến.
II TIẾN TRÌNH HỆ ĐIỀU HÀNH PHÂN TÁN.
Trước khi chúng ta nghiên cứu về các tiến trình trong hệ điều hành phân tán chúng ta cần xem kiến trúc nói chung của một hệ phân tán Qua đó, chúng ta thấy được các chức năng, vai trò của hệ điều hành phân tán Từ đó, chúng ta có thể phân tích các tiến trình trong hệ điều hành phân tán.
Hình 2.1 Kiến trúc mạng phân tán.
Kiến trúc của mạng của một hệ phân tán với thành phần là hệ điều hành hệ phân tán với hệ trung gian:
Các cổng truyền thông
Trạm làm việc Trạm làm việc máy khách
Máy chủ chuyên trách
Trang 20Hình 2.2 Kiến trúc hệ phân tán và middleware.
1. Mục đích hệ điều hành phân tán.
Ngoài các mục đích cơ bản của hệ điều hành đó là: độ tin cậy cao, an toàn, hiệu quả trong xử lý, tính kế thừa, thuận tiện cao Thì trong hệ điều hành phân tán còn phải đáp ứng các tính chất mà chúng ta luôn cần đến đó là tính bền vững Tính bền vững ở đây chính là khả năng chụi lỗi có nghĩa là hệ thống có khả năng tự khởi động lại tới trạng thái mà ở đó tính toàn vẹn của hệ thống được duy trì với một số hiệu năng bị giảm sút Chính nhờ khả năng này mà nó giúp cho hệ điều hành phân tán tăng cường độ tin cậy, an toàn và điều khiển truy nhập do chính nó thực hiện.
2. Kiến trúc hệ điều hành phân tán.
Hệ điều hành phân tán gồm hai thành phần chính đó là: các tiến trình và các file Khi có mạng, chúng ta phải thêm thành phần thứ ba: các đường truyền thông Phần cứng là các trạm làm việc và mạng Tuy nhiên, người ta không dùng liên quan tới các thành phần vật lý ngoại trừ chi phí, sự xuất hiện của hiệu năng hệ thống Trong đó người ta chia thành hai mô hình chính đó là mô hình trạm làm việc -máy chủ và mô hình xử lý nhóm tuỳ theo vào yêu cầu và mục đích của mạng phân tán.
Hình 2.3 Kiến trúc hệ điều hành phân tán.
Trang 21Như vậy các kiến trúc của hệ điều hành phân tán có 5 thành phân chính
Process manager: quản lý tiến trình đặt ở mức cao nhất là thành phần giao tiếp trực tiếp với người sử dụng.
Communication manager: Quản lý truyền thông đóng vai trò như một thành phần giao tiếp giữa các tiến trìn các luồng cũng như quản lý tài nguyên tại máy và các máy khác nhau trong hệ thống.
Thread manager: quản lý các tiểu tiến trình Memory manager: quản lý tài nguyên hệ thống.
Supervisor: Thực hiện quản lý mức thấp nhất của hệ điều hành.
3. Kiến trúc của tiến trình trong hệ điều hành phân tán.
a Tiến trình hệ điều hành phân tán.
Tiến trình là một chương trình đang xử lý, sỡ hữu một con trỏ lệnh, tập các thanh ghi và các biến Để hoàn thành tác vụ của mình, một tiến trình có thể cần đến một số tài nguyên – như CPU, bộ nhớ chính, các tập tin và thiết bị nhập/xuất…
Cần phân biệt hai khái niệm chương trình và tiến trình Một chương trình là một
thực thể thụ động, chứa đựng các chỉ thị điều khiển máy tính để tiến hành một tác vụ nào đó ; khi cho thực hiện các chỉ thị này, chương trình chuyển thành tiến trình, là một thực thể hoạt động, với con trỏ lệnh xác định chỉ thị kế tiếp sẽ thi hành, kèm theo tập các tài nguyên phục vụ cho hoạt động của tiến trình.
Trong hầu hết các hệ điều hành, mỗi tiến trình có một không gian địa chỉ và chỉ có một dòng xử lý Tuy nhiên, có nhiều tình huống người sử dụng mong muốn có nhiều dòng xử lý cùng chia sẻ một không gian địa chỉ, và các dòng xử lý này hoạt động song song tương tự như các tiến trình phân biệt (ngoại trừ việc chia sẻ không gian địa chỉ).
b Tiểu tiến trình( threads_Luồng của tiến trình).
Trong hầu hết các hệ điều hành, mỗi tiến trình có một không gian địa chỉ và chỉ có một dòng xử lý Tuy nhiên, có nhiều tình huống người sử dụng mong muốn có nhiều dòng xử lý cùng chia sẻ một không gian địa chỉ, và các dòng xử lý này hoạt động song song tương tự như các tiến trình phân biệt (ngoại trừ việc chia sẻ không gian địa chỉ).
Ví dụ : Một server quản lý tập tin thỉnh thoảng phải tự khóa để chờ các
thao tác truy xuất đĩa hoàn tất.Nếu server có nhiều dòng xử lý, hệ thống có thể xử lý các yêu cầu mới trong khi một dòng xử lý bị khoá Như vậy việc thực hiện chương trình sẽ có hiệu quả hơn Điều này không thể đạt được bằng cách tạo hai
Trang 22tiến trình server riêng biệt vì cần phải chia sẻ cùng một vùng đệm, do vậy bắt buộc phải chia sẻ không gian địa chỉ.
Chính vì các tình huống tương tự, người ta cần có một cơ chế xử lý mới cho phép có nhiều dòng xử lý trong cùng một tiến trình.
Ngày nay đã có nhiều hệ điều hành cung cấp một cơ chế như thế và gọi là
tiểu trình (threads).
c Nguyên lý chung :
Một tiểu trình là một đơn vị xử lý cơ bản trong hệ thốn Mỗi tiểu trình xử lýtuần tự đoạn code của nó, sỡ hữu một con trỏ lệnh, tập các thanh ghi và một vùngnhớ stack riêng Các tiểu trình chia sẻ CPU với nhau giống như cách chia sẻ giữacác tiến trình: một tiểu trình xử lý trong khi các tiểu trình khác chờ đến lượtù Mộttiểu trình cũng có thể tạo lập các tiến trình con, và nhận các trạng thái khác nhaunhư một tiến trình thật sự Một tiến trình có thể sỡ hữu nhiều tiểu trình
Các tiến trình tạo thành những thực thể độc lập Mỗi tiến trình có một tập tài nguyên và một môi trường riêng (một con trỏ lệnh, một Stack, các thanh ghi và không gian địa chỉ ) Các tiến trình hoàn toàn độc lập với nhau, chỉ có thể liên lạc thông qua các cơ chế thông tin giữa các tiến trình mà hệ điều hành cung cấp Ngược lại, các tiểu trình trong cùng một tiến trình lại chia sẻ một không gian địa chỉ chung, điều này có nghĩa là các tiểu trình có thể chia sẻ các biến toàn cục của tiến trình Một tiểu trình có thể truy xuất đến cả các stack của những tiểu trình khác trong cùng tiến trình Cấu trúc này không đề nghị một cơ chế bảo vệ nào, và điều này cũng không thật cần thiết vì các tiểu trình trong cùng một tiến trình thuộc về cùng một sỡ hữu chủ đã tạo ra chúng trong ý định cho phép chúng hợp tác với nhau
Hình 2.4 Các tiểu trình trong cùng một tiểu trình
d Phân bổ thông tin lưu trữ.
Trang 23Hình 2.5 Cấu trúc mô tả tiến trình và tiểu trình
Trong một số trường hợp tiểu tiến trình có thẻ gọi là “lightweight” của tiến trình Đó là do hệ điều hành sẽ chỉ biết đến khái niệm tiến trình, do vậy cận có cơ chế để liên kết các tiểu trình cùng một tiến trình với tiến trình cha trong kernel_ đối tượng này đôi lúc được gọi là LWP (lightweight process).
Hình 2.6 Tiểu tiển trình là một “lightweight proccess”
4 Các vấn đề trong quản lý tiến trình của. a Sự loại trừ lẫn nhau trong hệ phân tán.
Sự loại trừ lẫn nhau trong hệ phân tán xảy ra khi nhiều tiến trình đồng thời thực hiện một sự truy nhập nối tiếp để chia sẻ tài nguyên và dữ liệu ( ví dụ như cập nhật dữ liệu hay gửi các tín hiệu đến các thiết bị vào ra Vấn đề ở đây là trong các trường hợp đó chúng ta cần phải làm gì để sự tương xảy ra là công bằng theo các tiêu chuẩn cho trước Trong đó, các tiêu chuẩn này bao gồm: thời gian yêu cầu, thứ tự yêu tiên của yêu cầu hay sự lựa chọn Chúng ta có một số thuật toán để giải quyết tranh chấp khi xảy ra tương tranh Người dùng có thể dựa vào đó để có thể lấy quyền ưu tiên Trong đó có một số phương pháp và dạng xảy ra tương tranh dưới đây:
Loại trừ lẫn nhau dựa vào tranh chấp: là sự tranh chấp cho các phần tới hạn có thể quyết định bằng bất cứ tiêu chí vào để phá vỡ các dàng buộc khi các yêu cầu thực hiện xảy ra cùng một thời điểm Cách tốt nhất cho phép yêu cầu tới các tiến trình được hỏi đầu tiên hoặc tiển trình được dưa ra nhiều nhất từ các tiến trình khác chúng ta sẽ gọi hai cách tiếp cận khác nhau này là các sơ đồ yêu tiên nhãn thời gian và bầu cử
Loại trừ dựa vào việc chuyển Token: Đây là sự tranh chấp dựa vào thuật toán Cơ chế của thuật toán dựa trên việc cung cấp các Token cho các thành viên xảy