Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
741,63 KB
Nội dung
ĐẠI HỌC QUỐ C GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đỗ Việt Kiên
NGHIÊN CỨUGIẢIPHÁPTÌMKIẾMTÀINGUYÊN
HIỆU QUẢTHEOTÊNMIỀNTRÊNMẠNGNGANG
HÀNG CÓCẤUTRÚC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: TS. Nguyễn Hoài Sơn
HÀ NỘI - 2010
LỜI CẢM ƠN
Em xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Công nghệ -
Đại học Quốc gia Hà Nội đã tận tình giúp đỡ và truyền đạt kiến thức cho em trong suốt
4 năm học qua để em có đủ kiến thức hoàn thành khóa luận này.
Đặc biệt, em xin gửi lời cảm ơn sâu sắc tới thầy Nguyễn Hoài Sơn – người đã
nhiệt tình giúp đỡ, định hướng cũng như động viên em trong quá trình nghiêncứu và
hoàn thành khóa luận.
Em xin cảm ơn sự nhiệt tình chia sẻ kinh nghiệm, đóng góp ý kiến của nhóm
nghiên cứu do thầy Nguyễn Hoài Sơn hướng dẫn, của các anh chị cao học.
Mặc dù đã rất cố gắng hoàn thành khóa luận này, xong khóa luận sẽ khó tránh
khỏi những thiếu sót, kính mong quý thầy cô tận tình chỉ bảo giúp em. Một lần nữa em
xin cảm ơn tất cả mọi người.
Hà Nội, tháng 5 năm 2010
Sinh viên
Đỗ Việt Kiên
Tóm tắt
Ngày nay, sự phát triển các dịch vụ cung cấp tàinguyênmạng khiến cho việc xây
dựng một hệ thống có khả năng tìmkiếm nhanh các tàinguyêntheo yêu cầu là rất cần
thiết. Thách thức đặt ra là làm sao để hệ thống có thể hoạt động tốt trong những hệ
thống mạng quy mô lớn nhưng tiềm tàng nhiều biến động. Một mối quan tâm khác là
bằng cách nào người dùng có thể diễn tả và tìmkiếm được tàinguyên mà họ mong
muốn.
Khóa luận sẽ trình bày một giảipháptìmkiếm thông tin trên hệ thống mạng
ngang hàng với thành phần là các máy phân tích, đóng vai trò như những kho dữ liệu
lưu trữ tàinguyên và xử lý các yêu cầutìm kiếm. Giảipháp thực thi việc mô tả tài
nguyên bằng một câutrúc cây thuộc tính-giá trị có khả năng biểu diễn cao, mô tả mềm
dèo và chính xác tài nguyên. Tầng phủ DHT với cơ chế ánh xạ khóa đến dữ liệu được
sử dụng giúp hệ thống đạt hiệuquả trong việc tìmkiếm nhanh và mở rộng quy mô.
Tuy nhiên, để hỗ trợ việc tìmkiếm mở rộng sử dụng truy vấn tổng quát, giảipháp sẽ
cung cấp thêm khả năng ánh xạ từ dải khóa đến tập hợp tàinguyên để cái tiến cơ chế
một – một của các mạng DHT. Ngoài ra hệ thống cũng giải quyết được vấn đề cân
bằng lưu trữ trên các máy phân tích.
Mục lục
Mở đầu 3
Chương 1. Tổng quan về tìmkiếmtàinguyênmạng 6
1.1. Tầm quan trọng của tàinguyên và các dịch vụ cung cấp tàinguyên 6
1.2. Tổng quan hệ thống tìmkiếmtàinguyênmạng 7
1.2.1. Giới thiệu 7
1.2.2. Diễn đạt tàinguyên 7
1.2.3. Kiến trúc hệ thống 10
1.2.4. Tìmkiếm và phân bổ tàinguyên 12
1.2.5. Đánh giá chung 16
Chương 2. Tìmkiếmtàinguyêntrênmạngnganghàngcócấutrúc 17
2.1. Tổng quan về mạngnganghàng 17
2.1.1. Khái niệm mạngnganghàng 17
2.1.2. Đánh giá ưu nhược điểm của mạngnganghàng 18
2.2. Mạngnganghàngcócấutrúc 19
2.2.1. Kiến trúcmạng 19
2.2.2. Giao thức Chord 20
Mô hình mạng Chord 21
Ánh xạ khóa vào một nút trong Chord 22
Tìm kiếm trong mạng Chord 22
Tham gia và ổn định mạng 23
2.3. Một số giảipháp về tìmkiếmtàinguyêntrênmạngnganghàngcócấu trúc. 23
2.3.1. Hệ thống INS/TWINE 24
2.3.2. Data Indexing
[4]
28
3.1. Vấn đề giải quyết 32
3.2. Ý tưởng 34
3.3. Chi tiết giảipháp 39
3.4. Đánh giá chung về giảipháp 43
4.1. Môi trường mô phỏng 44
4.1.1. Xây dựng chương trình mô phỏng 44
4.1.2. Các tham số mô phỏng 45
4.2. Đánh giá kết quả 47
4.2.1. Hiệuquả trong phân bổ tàinguyên 47
4.2.2. Hiệuquả trong xử lý truy vấn 52
5.1. Kết luận 55
5.2. Hướng phát triển tiếp theo của đề tài 56
Tài liệu tham khảo 57
1
Danh mục hình ảnh
Hình 1: Mô tả tàinguyên dưới dạng cây 9
Hình 2:Mô tả tàinguyên dưới dạng các cặp thẻ [thuộc tính = giá trị] 10
Hình 3: Sơ đồ kiến trúcmạng INS 11
Hình 4:Ví dụ về việc phân bổ tàinguyên trong hệ thống 14
Hình 5 :Thuật toán tìmkiếmtàinguyêntheotênmiền 15
Hình 9 : Một mạng Chord với 3 nút 21
Hình 10. Lưu giữ key trong mạng Chord 22
Hình 11: Ví dụ về mô tả tàinguyên trong INS/TWINE 24
Hình 12: Kiến trúc của hệ thống INS/TWINE 25
Hình 13: Ví dụ về việc chia nhánh từ cây avtree 25
Hình 14: Việc quản lý trạng thái trong hệ thông INS/Twine 27
Hình 15 Ví dụ về đặc tả file trong hệ thống Indexing 28
Hình 16: Đồ thị biểu diễn các câu truy vấn được đưa ra trong ví dụ 29
Hình 17 : Lược đồ chỉ mục cho dữ liệu cây thư mục (bibliographic database) 30
Hình 18 : Ví dụ về index dữ liệu 31
Hình 19: Ví dụ về mô tả tàinguyên của hệ thống 35
Hình 21 : Ví dụ về mô tả truy vấn trong giảipháp 41
Hình 22: Biều đồ phân tích số lượng bản sao thực hiện trên mỗi tài nguyên, trường
hợp cây mô tả chung chia 2 nhánh tại mỗi nút 48
Hình 23 :Biều đồ phân tích số lượng bản sao thực hiện trên mỗi tài nguyên, trường
hợp cây mô tả chung chia 3 nhánh tại mỗi nút 49
Hình 24: Biều đồ phân tích số lượng bản sao lưu trên mỗi nút mạng, trong trường
hợp cây mô tả chung chia 2 nhánh tại mỗi nút 50
2
Hình 25: Biều đồ phân tích số lượng bản sao lưu trên mỗi nút mạng, trong trường
hợp cây mô tả chung chia 4 nhánh tại mỗi nút 51
Hình 26 : Biều đồ phân tích số lượng bản sao lưu trên mỗi nút mạng, trong trường
hợp cây mô tả chung chia 6 nhánh tại mỗi nút 52
Hình 27: Biều đồ đánh giá hiệuquả của truy vấn thông qua số lượng các hope trên
mỗi truy vấn 53
Hình 28: Biểu đồ đánh giá hiệuquả của việc thực hiện truy vấn thông qua số lượng
truy vấn / 1 nút mạng 54
3
Mở đầu
Trong những năm gần đây, Internet đã không còn xa lạ đối với đời sống con
người. Sự phát triển và lớn mạnh của Internet giúp cho con người có thể trao đổi,chia
sẻ thông tin hay tàinguyên một cách dễ dàng hơn. Tuy nhiên lượng thông tin là vô
cùng lớn và không phải thông tin nào cũng hữu ích đối với tất cả mọi người, mỗi một
cá nhân khác nhau có nhu cầu về thông tin khác nhau. Do đó việc xây dựng một hệ
thống tìmkiếm thông tin, tàinguyênmạng là rất cần thiết.
Các máy tìmkiếm phổ biết nhất có thể kể đến đó là Google
[15]
, Yahoo
[16]
, ngoài
ra còn rất nhiều những hệ thống tìmkiếm tương tự khác. Điểm chung của các hệ thống
này là chỉ hỗ trợ việc tìmkiếm dựa từ khóa xuất hiện trên nội dung của các websites.
Chúng không cung cấp khả năng tìmkiếm thông tin đối với nhiều loại tàinguyên khác
nhau như các dịch vụ cung cấp thông tin trực tuyến, hay một dạng tàinguyên rất phổ
biến khác đó là các files tàinguyên được chia sẻ trênmạngngang hàng. Hệ thống
DNS
[9]
có thể được xem là một hệ thống tìmkiếmtàinguyên đơn giản, ánh xạ tên
miền tới IP. Nhưng mô tả tàinguyên trong hệ thống này là chưa hiệuquả với những tài
nguyên phức tạp có nhiều thuộc tính.
Việc xây dựng một hệ thống tìmkiếmtàinguyên là không hề đơn giản, nó phải
chịu sự tác động từ rất nhiều yếu tố. Trước tiên, hệ thống luôn phải chịu tác động của
sự thay đổi động trong trong các hệ thống mạng, ví dụ như : việc ra vào của các nút,
thay đổi vị trí, địa chỉ của các thiết bị Sự thay đổi thường xuyên trong những mạng
như vậy là thách thức với việc định vị thiết bị và tàinguyên trong quá trình tìm kiếm.
Thứ hai, là thách thức trong việc lưu trữ số lượng lớn tàinguyên trong hệ thống. Với
sự phát triển về số lượng các dịch vụ theo nhu cầu của người sử dụng thì số lượng tài
nguyên cũng không ngừng tăng lên và việc phân bổ lưu trữ chúng hợp lý sẽ là một vấn
đề quan trọng. Thêm vào đó các tàinguyên cũng cần được cập nhật thường xuyên và
hệ thống cần phải cócơ chế giúp các nhà cung cấp dịch vụ thực hiện điều này.
Để xây dựng được một hệ thống hoạt động hiệu quả, hệ thống cần hiện được một
số yêu cầu quan trọng. Thứ nhất, cần có một các thức mô tả tàinguyên tốt, mang tính
biểu đạt cao, có thể diễn đạt mềm dẻo các tích chất đa dạng của tài nguyên. Thứ hai,
hệ thống phải có khả năng mở rộng tốt để có thể triển khai trên những quy mô mạng
lớn. Thứ ba, hệ thống phải đảm bảo hiệuquả trong tìmkiếm và phân bổ tài nguyên.
Hiệu quả trong tìmkiếm được đánh giá qua thời gian thực hiện yêu cầu và việc cân
bằng tải giữa các nút trong hệ thống trước nhiều yêu cầu về tìm kiếm. Hiệuquả trong
phân bổ tàinguyên được đánh giá thông qua số lượng bản sao so với tàinguyên thực
4
và cân bằng lưu trữ tàinguyên giữa các nút mạng. Cuối cùng, cần phải luôn đảm bảo
tính sẵn sàng của hệ thống trước những vấn đề về hỏng hóc, bảo trì, hay cập nhật thiết
bị.
Khóa luận sẽ đưa ra một giảipháp cụ thể dựa trên những luận điểm trên Một hệ
thống có khả năng diễn đạt tàinguyên tốt đó là hệ thống INS với việc sử dụng bộ định
danh để biểu diễn các cặp thuộc tính – giá trị một cách có thự tự, theocấutrúc phân
cấp. Mỗi một mô tả có được khi sử dụng bộ định danh sẽ tương đương với một cây
thuộc tính – giá trị.
Để đảm bảo khả năng tìmkiếm và phân bố hiệuquả hệ thống đề xuất việc sử
dụng mạngnganghàngcócấu trúc. Trong mạngnganghàngcócấu trúc, các thông
điệp được định tuyến theo khóa một cách hiệuquả với số hop khoảng O(logN) trong
đó N là số node trong mạng. Các ưu điểm khác của mạng này là đem lại cho hệ thống
khả năng mở rộng, tính sẵn sàng trong các trường hợp xử lý lỗi và đảm bảo cân bằng
tải giữa các nút. Tuy nhiên, giải thuật bảng băm phân tán chỉ hỗ trợ tìmkiếm chính xác
tài nguyêntheo khóa tương ứng, trong khi đó hệ thống của chúng ta cần có khả năng
trả lời những truy vấn theo dải (partial query).
Khóa luận đề xuất việc tìmkiếmtheo dải ID, việc thực hiện bằng cách xây dựng
một cấutrúc cây lưu trữ dựa trên dải ID cấp phát bởi mạngnganghàng phía dưới.
Việc xây dựng như sau, tại tầng đầu nút root của cây sẽ quản lý toàn bộ dải ID, ở các
tầng tiếp theo, dải ID được chia nhỏ cho các nút con quản lý, thông tin về tàinguyên
thực sự chỉ được lưu tại các nút lá. Nhờ đó, khi tìmkiếm đến một nút hệ thống sẽ ánh
xạ đến dải ID mà nó quản lý, nếu nút không phải nút lá, dải ID của nó sẽ chứa toàn bộ
dải ID của các nút lá nhờ đó việc tìmkiếmtrên dải ID này sẽ cho kết quả là tập hợp
các tàinguyên thỏa mãn yêu cầu chứa tại các nút lá. Việc sử dụng dải ID để ánh xạ
còn giúp hệ thống chống chịu tốt hơn với việc hỏng hóc của các nút mạng, khi một nút
mạng rời đi các nút mạng cùng dải ID vẫn có thể trả lời kết quả.
Để đánh giá hiệuquả của giảipháp đề xuất, khóa luận xây dựng một chương
trình mô phỏng với số lượng lớn các nút mạng ảo và tàinguyên ảo. Các kết quả thử
nghiệm sẽ chứng minh cho hiệuquả của giảipháp đề ra.
Khóa luận được chia thành năm chương:
Chương 1: Giới thiệu tổng quan về tầm quan trọng của tàinguyên và các dịch vụ
cung cấp tài nguyên, sơ lược về một hệ thống tìmkiếmtàinguyênmạng
5
Chương 2: Đề cập đến việc thực hiện hệ thống tìmkiếmtàinguyêntrênmạng
ngang hàngcócấu trúc, ưu điểm của nó và giới thiệu một số hệ thống đã được thực thi.
Chương 3: Từ các hệ thống và phương phápgiải quyết đã được trình bày trong 2
chương trước đưa ra các đánh giá chung và mục tiêu phát triển. Trêncơ sở đó đề đạt ý
tưởng và giảipháp để xây dựng hệ thống chia sẻ tài nguyên.
Chương 4: Xây dựng chương trình mô phỏng, các bước thực thi chương trình và
những đánh giá từ kết quả đạt được.
Chương 5: Kết luận, những vấn đề nảy sinh và hướng đi tiếp theo.
[...]... trong các mạngnganghàng là không cao 2.2 Mạngnganghàngcócấutrúc Trong phần này ta sẽ tìmhiểu kĩ hơn về mạngnganghàngcócấutrúc - thế hệ thử 3 của mạngnganghàng với nhiều ưu điểm nổi trội Nó được đánh giá là một lựa chọn hoàn hảo cho các hệ thống nganghàng hiện tại và trong tương lai 2.2.1 Kiến trúcmạng Trong mạngnganghàngcócấutrúc các kết nối ở tầng phủ là cố định, và mạng thường... ngột khỏi mạng, hệ thống Chord thông thường sẽ mất toàn bộ dữ liệu được lưu tại nút đó, sau đó các nút khác sẽ cập nhật lại bảng định tuyến mà không có nút vừa rời đi 2.3 Một số giảipháp về tìm kiếmtài nguyên trênmạngnganghàngcócấutrúc Tính hiệuquả của các hệ thống mạngnganghàngcócấutrúc là không còn phải bàn cãi, chính vì vậy việc thực hiện tìmkiếmtàinguyênmạng một cách hiệuquả hiện... việc không có được khả năng mở rộng là hạn chế rất lớn, vì các ứng dụng tìm kiếmtài nguyên với tầm quan trọng của nó cần được thực hiện trên những kiến trúcmạng lớn có thể vươn tới tầm cỡ như mạng Internet Ta hy vọng sẽ tìm ra những giảipháp mới cho hệ thống để hạn chế được vấn đề này 16 Chương 2 Tìm kiếmtài nguyên trênmạngnganghàngcócấutrúc Trong chương một, khóa luận đã giới thiệu về tầm... với việc thay thế câu hỏi tìm kiếmtài nguyên ở đâu? bằng câu hỏi tìmkiếm cái gì? Rất đơn giản, chỉ cần đưa ra mô tả về tàinguyên muốn tìmkiếm hệ thống sẽ tìmkiếmtàinguyên mà không quan tâm đến việc cấutrúcmạng hay địa chỉ IP biến đổi liên tục trong hệ thống Kiến trúc phân tán đối hệ thống là không thể tách rời Tuy nhiên hệ thống cần phải có một thuật toán tìm kiếmhiệuquả hơn là truyền flooding... về tìmkiếmtàinguyênmạngTìmkiếmtàinguyên hay thuật ngữ tiếng anh là Resource Discovery đã được sử dụng từ lâu trên các hệ thống mạng đặc biết là trong mạng Internet ngày nay Trong nỗ lực khiến cho việc tìmkiếmtàinguyênmạng trở nên dễ sử dụng với người dùng nhiều hệ thống tìmkiếm trong lĩnh vực này đã được ra đời Chương này, khóa luận sẽ giới thiệu tổng quan về thế nào là tàinguyên mạng. .. 8: Mạngnganghàngcócấutrúc Chord dạng vòng tròn cách nhanh chóng nhất Hệ thống Chord là đại diện tiêu biểu nhất của hệ thống mạngnganghàngcócấutrúc DHT, được sử dụng làm nên tảng cho nhiều ứng dụng phát triển trênmạngnganghàng Một số nghiêncứu đã chỉ ra rằng: Chord không chỉ là một mạng DHT đơn thuần mà còn mang nhiều ưu điểm khác mà một số mạng DHT không có Những đặc điểm nổi bật có thể... quả được những tàinguyên mà ứng dụng tìm kiếm? Hệ thống INS[2] đã đưa ra giảipháp rất tốt để giải quyết cho vấn đề này Hệ thống INS hay chính xác là Intentional Naming System là một thiết kế và thực thi của một hệ thống tìmkiếmtàinguyên và dịch vụ trên các môi trường mạngcó tính biến thiên cao INS sử dụng tênmiền khái niệm để diễn đạt tàinguyên và ánh xạ từ tênmiền đến tàinguyên được cất giữ... ra một số giảipháp thực thi khác khả năng tìmkiếm và phân bổ tàinguyên tương đối hiệuquả Các hệ thống được trình bày đều được đặt trêncơ sở là những mạngnganghàngcócấu trúc, sử dụng bảng băm phân tán – DHT[10] để định tuyến các thông điệp 2.1 Tổng quan về mạngnganghàng 2.1.1 Khái niệm mạngnganghàngMạngnganghàng [8], là mạng mà trong đó hai hay nhiều máy tính chia sẻ tập tin và truy cập... việc mô tả tài nguyên, không chỉ giúp phân loại tàinguyên tốt, mà còn có khả năng diễn đạt tốt đối với cả máy tính và con người (những người xây dựng ứng dụng) Việc sử dụng tênmiền để tìmkiếmtàinguyên thay thế cho việc định vị chính xác tàinguyên là một giảipháp tốt phù hợp tính biến động của kiến trúcmạng ngày nay khi phải tích hợp với nhiều thiết bị di động có tính biến thiên cao Có thể nói... của tàinguyên và các dịch vụ cung cấp chúng đối với cuộc sống công nghệ thông tin ngày nay Ngoài ra khóa luận cũng đề cập đến các bước trong việc thực hiện xây dựng hệ thống tìmkiếmtàinguyên mạng, bao gồm biểu diễn tài nguyên, thiết kế thuật toán tìmkiếm và phân bổ tàinguyên trong hệ thống Tiếp theo, chương hai của khóa luận sẽ đưa ra một số giảipháp thực thi khác khả năng tìmkiếm và phân bổ tài . CÔNG NGHỆ
Đỗ Việt Kiên
NGHIÊN CỨU GIẢI PHÁP TÌM KIẾM TÀI NGUYÊN
HIỆU QUẢ THEO TÊN MIỀN TRÊN MẠNG NGANG
HÀNG CÓ CẤU TRÚC
KHOÁ LUẬN TỐT. Chord 22
Tìm kiếm trong mạng Chord 22
Tham gia và ổn định mạng 23
2.3. Một số giải pháp về tìm kiếm tài nguyên trên mạng ngang hàng có cấu trúc. 23
2.3.1.