Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 35 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
35
Dung lượng
279,6 KB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ TÍNH TOÁN LƯỚI Đề tài: TÌM KIẾM TÀI NGUYÊN TÍNH TOÁN LƯỚI TÌM KIẾM TÀI NGUYÊN TÍNH TOÁN LƯỚI TRONG MÔI TRƯỜNG PEER-TO-PEER TRONG MÔI TRƯỜNG PEER-TO-PEER GVHD : PGS.TS Nguyễn Phi Khứ HVTH : Hàn Minh Châu - CH1101069 Thành Phố Hồ Chí Minh 07/2013 MỤC LỤC Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ Chương 1 MỞ ĐẦU Tính toán lưới (grid computing) là xu hướng đang phát triển trên thế giới nhằm mục tiêu liên kết những hệ thống tính toán đơn lẻ lại với nhau để thực hiện những bài toán xử lý dữ liệu lớn và tính toán lớn. Ở Việt Nam, tính toán lưới đã và ngày càng phát triển trong những năm gần đây. Một lưới là một hệ thống mà kết hợp các nguồn tài nguyên không có chung chủ đề để điều khiển tập trung, sử dụng các giao thức và giao diện chuẩn mở chung để cho ra chất lượng dịch vụ tốt hơn. Đo đó, tính toán lưới là phương pháp hiệu quả để xây dựng hệ thống tính toán hiệu năng cao, cho phép người sử dụng truy xuất và tích hợp hiệu quả các máy tính, dữ liệu và ứng dụng phân tán cách xa nhau về mặt địa lý để thực hiện bài toán xử lý dữ liệu lớn và tính toán lớn. Hiện nay có nhiều giải pháp cho việc khám phá tài nguyên trong hệ thống lưới nhưng cách phổ biến là giải pháp dựa trên mô hình client/server tập trung hoặc mô hình phân cấp. Trong các mô hình này có một hoặc nhiều server duy trì thông tin nguồn tài nguyên sẳn có, nhận và xử lý các yêu cầu của người sử dụng về việc tiêu thụ tài nguyên. Khi hệ thống lưới ngày càng tăng về số lượng, việc xử lý tập trung tại những server này sẽ gây quá tải, nghẽn cổ chai khi có nhiều yêu cầu gửi đến cùng một lúc và khi có sự cố tại những server này làm hệ thống lưới hoạt động kém hiệu quả. Do đó, yêu cầu đặt ra là cần có giải pháp khám phá tài nguyên phải linh hoạt (scalability), có khả năng chịu lỗi cao (fault-tolerance) và tự cấu hình (self-configuration). Mô hình Peer-to-Peer (P2P) là mô hình tính toán không tập trung (decentralized), trong đó các ứng dụng và người sử dụng có thể giao tiếp trực tiếp với nhau mà không phải thông qua bất kỳ server nào. Khả năng giao tiếp trực tiếp cho phép người sử dụng trong môi trường P2P có thể thiết lập các giao tiếp linh hoạt và độc lập mà không cần phải có sự can thiệp điều khiển của bên thứ ba. Người sử dụng và ứng dụng P2P có thể chia sẽ tài nguyên trực tiếp với nhau. Mô hình sẽ trở nên linh hoạt, có khả năng tự thích nghi cao khi một người sử dụng hay một ứng dụng có thể tham gia vào mạng hay rời mạng không cần bất kỳ sự điều khiển nào, đặc biệt khi số lượng người sử dụng tăng lên. Khi hệ thống lưới ngày càng mở rộng và những ứng dụng lưới ngày càng phức tạp đòi hỏi một hệ thống lưới cần phải có khả năng đáp ứng liên tục các yêu cầu về Trang 5 Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ nguồn tài nguyên, khả năng và hiệu suất thực hiện của ứng dụng. Trong khi đó, giải pháp khám phá tài nguyên dựa trên một hình clien/server tập trung hoặc mô hình phân cấp gặp phải những vấn đề như quá tải, nghẽn cổ chai, sự cố tại những điểm quan trọng khi kích thước hệ thống tăng. Do đó, hệ thống lưới đòi hỏi cần có những giải pháp khám phá tài nguyên linh hoạt hơn để giải quyết các vấn đề này. Trong khi đó, mô hình P2P có những đặc tính như sự linh hoạt, khả năng tự thích nghi cao, khả năng chịu lỗi có thể giải quyết tốt vấn đề này. Tất cả những yếu tố trên, tôi chọn đề tài báo cáo môn học tính toán lưới là “Tìm kiếm tài nguyên tính toán lưới trong mô hình Peer-to-Peer” nhằm đáp ứng yêu cầu ngày mở rộng của hệ thống tính toán lưới. Chương 2: Xem xét lại các kỹ thuật sử dụng trong tính toán lưới, các giải pháp tìm kiếm tài nguyên dựa trên mô hình peer-to-peer trong đó có các giải thuật ant sử dụng tìm kiếm tài nguyên trong mạng peer-to-peer. Chương 3: Trình bày giải thuật ant cải tiến để tìm kiếm tài nguyên trong mô hình peer-to-peer. Trang 6 Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ Chương 2 CÁC KỸ THUẬT KHÁM PHÁ TÀI NGUYÊN TÍNH TOÁN LƯỚI TRONG PEER TO PEER I. Mạng peer-to-peer Lịch sử ra đời và phát triển của P2P gắn liền với phần mềm ứng dụng Napster. Năm 1999, Shawn Fanning một sinh viên Đại học 18 tuổi đã rời bỏ trường Đại học để bắt đầu xây dựng phần mềm mang tên Napster. Napster được xây dựng thành công và trở thành phương pháp chia sẻ tập tin nổi tiếng, Napster đã làm thay đổi cách tải tập tin nhạc có dung lượng lớn hơn nhiều so với các chương trình chia sẻ file trước đó. Một mạng peer-to-peer (P2P) là “một hệ thống phân tán mà tất cả các node là hoàn toàn tương đương về chức năng và nhiệm vụ chúng thực hiện”. Ngược lại với mô hình clien/server, mỗi node của mạng peer-to-peer vừa là client tiêu thụ tài nguyên từ những peer khác, và vừa là server cung cấp tài nguyên đến những peer khác. Định nghĩa khác của mạng peer-to-peer đặt tập trung vào ý tưởng không có điều khiển trung tâm: Các hệ thống peer-to-peer là những hệ thống phân tán bao gồm các node được kết nối với nhau có khả năng tự tổ chức thành những cấu trúc hình học mạng cho mục đích chia sẽ tài nguyên mà không yêu cầu sự trung gian hoặc server trung tâm. Định nghĩa này nhấn mạnh rằng mỗi peer sở hữu một phần tài nguyên (như dữ liệu hoặc năng lực tính toán) có khả năng truy xuất trong mạng. Khi mỗi nguồn tài nguyên peer chỉ biết về những peer mà nó có thông tin, đây là cách nhìn cục bộ trên mạng. Trong định nghĩa này cũng bao gồm có đặc tính tự tổ chức của mạng peer-to-peer. Mạng peer-to-peer cũng có thể được xem như là một đồ thị mà các node là các peer và các cạnh là các liên kết giữa các peer này. Chỉ một vài node của tất cả các node của hạ tầng cơ sở bên dưới gia nhập trong mạng peer-to-peer và những liên kết giữa những peer này có thể bao gồm nhiều liên kết vật lý, mạng peer-to- peer cũng thường được liên hệ như là overlay network. Overlay network là mạng máy tính được xây dựng trên nền của một mạng khác. Các nodes trong mạng overlay được xem là nối với nhau bằng các liên kết ảo (logical links), mỗi liên kết ảo có thể bao gồm rất nhiều các liên kết vật lí của mạng nền. Các peer có đặc tính tự trị, tức là có thể gia nhập hoặc rời mạng bất kỳ lúc này mà không làm gián đoạn hoạt động của mạng. Vì vậy, cấu trúc peer-to-peer cung cấp khả năng chịu lỗi một cách tự nhiên, đây là một trong những đặc tính chính của mạng peer-to-peer. Một đặc tính khác đó là tính linh hoạt, không giống trong hệ thông tập Trang 7 Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ trung, việc truy xuất server sẽ gặp khó khăn hoặc nhiều lúc không thể thực hiện khi có nhiều ứng dụng dụng truy xuất vào server, trong mạng peer-to-peer tính sẳn sàng được xem xét trong giai đoạn thiết kế của hệ thống khi số lượng peer tham gia ngày căng tăng. Những yêu cầu khác của mạng peer-to-peer bao gồm hiệu suất, sự công bằng, và bảo mật. 1. Mạng peer-to-peer không cấu trúc Một mạng peer-to-peer không cấu trúc khi các liên kết giữa các nút trong mạng overlay được thiết lập ngẫu nhiên (tức là không theo qui luật nào). Những mạng như thế này dễ dàng được xây dựng vì một máy mới khi muốn tham gia mạng có thể lấy các liên kết có sẵn của một máy khác đang ở trong mạng và sau đó tự bản thân nó sẽ thêm vào các liên kết mới của riêng mình. Khi một máy muốn tìm một dữ liệu trong mạng peer-to-peer không cấu trúc, yêu cầu tìm kiếm sẽ được lan truyền trên khắp mạng để tìm ra càng nhiều máy chia sẻ tài nguyên càng tốt. Hầu hết các mạng peer-to- peer phổ biến là không cấu trúc như Napster, Gnutella, Freenet. a. Định tuyến cơ bản trong mạng không cấu trúc Flooding và expanding ring Flooding là phương pháp phổ biến để khám phá tài nguyên trong môi trường P2P. Phương pháp này được nổi tiếng với các hệ thống sử dụng phương pháp tương tự như Gnutella. Ý tưởng cơ bản của kỹ thuật này nhằm xác định một nguồn tài nguyên mong muốn. Mỗi peer sẽ gửi một danh sách các peer khác mà nó biết, được gọi là các peer lân cận. Nếu quan hệ lân cận là bắc cầu, chúng ta có các đồ thị kết nối. Trong đồ thị này, các peer có từ hai đến năm lân cận trong mạng. Việc tăng số lân cận của các peer sẽ làm giảm đường đi dài nhất từ peer này đến peer khác nhưng nó yêu cầu phải lưu trữ nhiều hơn tại mỗi peer. Khi một peer khi kết nối đến mạng overlay, có thể trao đổi thông điệp với những peer khác trong danh sách các lân cận của nó. Một loại thông điệp quan trọng là truy vấn tìm kiêm thông tin xác định. Truy vấn này chứa tiêu chuẩn tìm kiếm, như tên file hoặc từ khóa. Khi peer không biết các peer nào trong mạng có thông tin cần tìm chúng gắng gửi truy vấn đến peer mà chúng ta biết. Nếu các peer lân cận không có thông tin, peer này tiếp tục đảm nhận vai trò chuyển tiếp truy vấn đến các peer lân cận của chúng, và quá trình như thế tiếp tục xảy ra. Một vài kiểm tra cần thiết để ngăn ngừa thông điệp truyền tuần hoàn bất tận. Đầu tiên, trong trường hợp thông điệp tạo Trang 8 Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ mạch vòng hoặc được nhận nhiều hơn một đường đi, mỗi peer có thể giữ danh sách có bộ nhận dạng của thông điệp mà nó đã nhận trước đó. Nếu peer nhận lại thông điệp trước đó, nó sẽ loại bỏ thông điệp trùng lắp này. Thứ hai, để các peer không phải tìm kiếm với thời gian tùy ý, có thể gây bùng nổ số lượng lưu trữ, mỗi thông điệp có một giá TTL (time-to-live) để hạn chế thời gian sống của thông điệp. Giá trị TTL của một thông điệp được cài đặt tại peer phát truy vấn và được giảm đi 1 khi nó đến một peer. Khi giá trị TTL tiến đến 0, thông điệp sẽ không được chuyển đi tiếp. Như đã được đề cập lúc trước, mỗi peer có một danh sách các lân cận. Nó khởi tạo danh sách các lân cận khi gia nhập mạng overlay, ví dụ, có thể lấy một bản copy danh sách của peer đầu tiên trong overlay khi nó kết nối đến mạng. Theo thời gian peer có thể thêm vào hoặc loại ra các peer từ danh sách lân cận. Để cập nhật danh sách các lân cận, nó có thể gửi yêu cầu đến các lân cận hiện tại để lấy các lân cận của peer đó. Nó cũng có thể sử dụng truy vấn từ những node mà nó không nhìn thấy trước đây để thêm vào danh sách các lân cận cùa nó. Nó loại bỏ các lân cận khi chúng không trả lời thông điệp keep-alive. Khi tìm được thông tin cần thiết tại một số peer, một thông điệp trả lời được gửi ngược lại cho peer yêu cầu. Nếu đối tượng được tìm thấy trước khi TTL hết hạn, cơ cấu flooding sẽ tiếp tục truyền thông điệp truy vấn. Điều này sẽ tạo ra những thông điệp dư thừa trên mạng, sẽ không hiệu quả cho mạng. Một cách để giảm thông điệp dư thừa là bắt đầu tìm kiếm với giá trị TTL nhỏ. Nếu thành công, việc tìm kiếm sẽ dừng lại. Ngược lại, giá trị TTL sẽ tăng một lượng nhỏ và phát lại truy vấn tìm kiếm. Biến thể này của flooding được gọi là iterative deepening hoặc expanding ring và phương pháp này thực sự hiệu quả khi đối tượng tìm kiếm thường xuyên lặp lại. Random walks Để giảm lưu lượng thông tin tìm kiếm giải pháp flooding, giải thuật random walk được sử dụng, một peer sẽ gửi truy vấn đến các lân cận một cách ngẫu nhiên cho đến khi tìm được kết quả trả lời thích hợp, hoặc đạt được thông số TTL tối đa. Nếu chỉ sử dụng một walker thì khả năng tìm được kết quả thấp và rất lâu, k walker sẽ được tạo ngẫu nhiên và sử dụng để tăng quá trình xử lý. Một số giải pháp để tăng hiệu quả tìm kiếm của random walk được đề xuất: Trang 9 Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ - Thay vì sử dụng TTL để kết thúc truy vấn, nó cũng có thể sử dụng kỹ thuật tên là checking, ở đó một walker được kiểm tra định kỳ với peer phát ra truy vấn để phát hiện đã tìm được truy vấn, nếu chưa tiếp tục walking. - Trong random walk có trạng thái, mỗi truy vấn có ID duy nhất, mỗi peer lưu lại ID của truy vấn mà nó chuyển tiếp, kết hợp với bộ nhận dạng của peer lân cận. Nếu truy vấn khác có cùng với ID đến, peer sẽ chuyển nó đến lân cận khác. Tạo chỉ mục trung tâm (Centralised Indexing) Mô hình khám phá này tương tự mô hình tìm kiếm sử dụng search engine trong WWW. Trong mô hình này, một server giữ một danh sách các nguồn tài nguyên có sẵn của các peer được kết nối. Khi một peer phát ra một truy vấn tìm kiếm, truy vấn này sẽ được gửi đến server để xử lý. Kết quả sẽ được gửi trở lại cho peer phát ra truy vấn. Khi nguồn tài nguyên trong mạng P2P là động, các chỉ mục lưu trong server phải được cập nhật liên tục. Một trong những khuyết điểm của mô hình này là mạng không hoàn toàn là P2P. Nó có một mức độ điều khiển tập trung. Những server giữ các chỉ mục này có thể bị tình trạng tắt nghẽn khi nhiều peer truy vấn đến cùng một lúc, hoặc khi server bị sự cố có thể gây dừng toàn mạng. Mặc khác, nó không thích hợp cho những yêu cầu truy vấn phức tạp. b. Các hệ thống sử dụng mạng peer-to-peer không cấu trúc Napster Napster là một hệ thống chia sẽ file sử dụng một server trung tâm để lưu trử và tìm kiếm thư mục của file, nhưng việc truyền file đuợc thực hiện trong dạng P2P trực tiếp. Từ năm 1999, Napster ngày càng trở nên phổ biển, đầu tiên trở thành hệ thông chia sẽ file P2P, kế đến trở thành trường hợp thí điểm hợp pháp chia sẽ media. Ý tưởng chính của những thiết kế này là sử dụng một cơ cấu mạng không cấu trúc. Mặc dù Napster không là một hệ thống hoàn toàn P2P, nhưng nó đã phổ biến ý tưởng peer- to-peer trong việc chia sẻ tập tin và media. Gnutella Gnutella là hệ thống chia sẽ file hoàn toàn P2P và là một trong những hệ thống phổ biến và được duy trì đến ngày nay. Phiên bản đầu tiên của giao thức Gnutella sử dụng mạng không cấu trúc. Để tăng hiệu suất và làm giảm sự linh hoạt, phiên bản gần Trang 10 [...]... Một dữ liệu có thể được tìm kiếm với độ phức tạp logarithmic nếu biết trước khóa Sự thực hiện tại kỹ thuật DHT chỉ thực hiện hiệu quả cho các truy vấn 1 chiều như tìm kiếm một tài nguyên hay một thuộc tính của tài nguyên Trong khi đó, việc khám phá tài nguyên trong tính toán lưới đòi hỏi tìm kiếm tài nguyên nhiều thuộc tính và thỏa mãn nhiều ràng buộc 3 Hệ thống chỉ mục tài nguyên phân tán Cấu trúc... tài nguyên trong tính toán là bài toán có độ phức tạp cao, có thể phát triển theo hướng tổ chức, sắp xếp lại nguồn tài nguyên tính toán lưới trước khi thực hiện khám phá tài nguyên, giải thuật dựa trên ant có thể giải quyết tốt những vấn đề này Hơn nữa, giải pháp ant có thể giải quyết bài toán tìm kiếm tài nguyên trong mạng peer-to-peer Trang 34 Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ TÀI LIỆU THAM... Trang 32 Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ Trang 33 Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ Chương 4 TỔNG KẾT Khám phá tài nguyên trong môi trường lưới là một vấn đề quan trọng nhưng còn nhiều thử thách và phức tạp do số lượng tài nguyên lớn, có nhiều loại tài nguyên khác nhau tồn tại trong các platform khác nhau, nguồn tài nguyên phân tán nhiều nơi và phức tạp, đối tượng cung cấp tài nguyên. .. thuật ant khó sử dụng đặc điểm bốc hơi II Khám phá tài nguyên tính toán lưới sử dụng mô hình peer-to-peer Kỹ thuật khám phá tài nguyên hiệu quả là một trong những yêu cầu nền tảng cho những hệ thống tính toán lưới, khi nó giúp trong việc quản lý tài nguyên và scheduling của ứng dụng Hoạt động khám phá tài nguyên liên quan đến việc tìm kiếm loại tài nguyên thích hợp nhằm đáp ứng yêu cầu ứng dụng của... phá tài nguyên hiệu quả, báo cáo cũng đề xuất giải thuật ant tìm kiếm tài nguyên trong mô hình peer-to-peer Giải pháp tìm kiếm trong mô hình peerto-peer này hoàn toàn không tập trung, có thể đáp ứng yêu cầu tìm kiếm tài nguyên cho ứng dụng của người dùng khi hệ thống lưới ngày càng mở rộng và thường xuyên thay đổi Nhiều quá trình mô phỏng để đánh giá thuật này đã thực hiện Bài toán khám phá tài nguyên. .. (1) Tính toán lưới; (2) lưu trữ phân tán; Trang 23 Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ 4 Một số hệ thống khám phá tài nguyên lưới dựa trên mô hình P2P Mercury: Supporting Scalable Multi-Attribute Range Queries Mercury là một hệ thống khám phá tài nguyên hỗ trợ tìm kiếm thông tin nhiều chiều Mercury tổ chức tìm kiếm đa thuộc tính bằng cách tạo một hub định tuyến riêng cho mỗi thuộc tính tài nguyên. .. dựng một hệ thống chỉ mục tài nguyên phân tán như hình bên dưới Thành phần chính của hệ thống chỉ mục tài nguyên dựa trên Internet bao gồm: - Lớp tài nguyên: Lớp này bao gồm tất cả nguồn tài nguyên phân tán toàn cục kết nối trực tiếp đến Internet Các tài nguyên bao gồm các máy desktop, file, siêu máy tính, cluster tính toán, thiết bị lưu trữ, cơ sở dữ liệu, Một tài nguyên tính toán có thể chạy trên những... rn} Một chỉ mục r được định nghĩa r={t,d}, định nghĩa r là một con trỏ đến một loại tài nguyên t Có quan hệ một-một giữa S và T Hoạt động tìm kiếm trong DGRID dựa trên Chord nguyên thủy, chi phí tìm kiếm cho một loại tài nguyên xác định là O(logY), Y là tổng số các loại tài nguyên có sẵn trong mạng Trang 25 Tính toán lưới GVHD: PGS.TS Nguyễn Phi Khứ MAAN: Multi-Attribute Addressable Network cho các... Alchemi, SGE, PBS, - LSF) Lớp tìm kiếm: Lớp này cung cấp các dịch vụ để tìm kiếm các tài nguyên trên Internet Những thành phần chính tại lớp này là các middleware mà hỗ trợ cho việc tìm kiếm tài nguyên Internet Những đề xuất gần đây tại lớp này tận dụng các giao thức của mô hình tìm kiếm peer-to-peer có cấu trúc như Chord, CAN, Pastry và Tapestry, … và những giao thức tìm kiếm peer-to- - peer không cấu... xuất một mô hình hỗ trợ tìm kiếm tài nguyên sử dụng DHT Chord Đặc tính độc đáo về cách tiếp cận này là các thông tin tài nguyên được duy trì trong miền khởi đầu Mỗi miền trong DGRID chỉ định một máy chủ chỉ mục cho Chord dựa trên mạng GRIS Các máy chủ chỉ mục duy trì thông tin trạng thái và thuộc tính cho các tập tài nguyên cục bộ Các mô hình phân phối thông tin tài nguyên đa thuộc tính thông qua mạng . TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ TÍNH TOÁN LƯỚI Đề tài: TÌM KIẾM TÀI NGUYÊN TÍNH TOÁN LƯỚI TÌM KIẾM TÀI NGUYÊN TÍNH TOÁN LƯỚI TRONG MÔI TRƯỜNG PEER-TO-PEER TRONG MÔI TRƯỜNG. trên, tôi chọn đề tài báo cáo môn học tính toán lưới là Tìm kiếm tài nguyên tính toán lưới trong mô hình Peer-to-Peer nhằm đáp ứng yêu cầu ngày mở rộng của hệ thống tính toán lưới. Chương 2:. kỹ thuật sử dụng trong tính toán lưới, các giải pháp tìm kiếm tài nguyên dựa trên mô hình peer-to-peer trong đó có các giải thuật ant sử dụng tìm kiếm tài nguyên trong mạng peer-to-peer. Chương