Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,84 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ LUÂN ĐÁNH GIÁ CÁC PHƢƠNG PHÁP TÌM KIẾM THƠNG TIN TRONG HỆ THỐNG MẠNG NGANG HÀNG CĨ CẤU TRƯC LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ LUÂN ĐÁNH GIÁ CÁC PHƢƠNG PHÁP TÌM KIẾM THƠNG TIN TRONG HỆ THỐNG MẠNG NGANG HÀNG CĨ CẤU TRƯC Ngành: Cơng nghệ thơng tin Chuyên ngành: Truyền liệu mạng máy tính Mã số: LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN HOÀI SƠN HÀ NỘI - 2014 LỜI CAM ĐOAN Tôi xin cam đoan, luận văn thạc sỹ nghiên cứu thực dƣới hƣớng dẫn TS Nguyễn Hoài Sơn Để hoàn thành luận văn này, tài liệu tham khảo liệt kê luận văn, tơi cam đoan khơng chép cơng trình đề tài tốt nghiệp ngƣời khác Nếu có điều khơng đúng, tơi xin hồn tồn chịu trách nhiệm trƣớc Nhà trƣờng pháp luật./ Hà Nội, ngày tháng Học viên Đỗ Thị Luân năm 2014 LỜI CẢM ƠN Để có đƣợc kết luận văn hồn thành, trƣớc hết tơi xin bày tỏ lịng biết ơn sâu sắc tới TS Nguyễn Hoài Sơn Thầy tận tình hƣớng dẫn, giúp đỡ tơi suốt q trình làm luận văn Đồng thời tơi xin đƣợc cảm ơn thầy giáo, cô giáo trƣờng Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội giúp tơi có đƣợc kiến thức chun ngành hệ thống mạng máy tính kiến thức sở để hồn thành luận văn Cuối cùng, tơi xin cảm ơn gia đình, ngƣời thân, đồng nghiệp bạn bè giúp đỡ, động viên suốt trình làm luận văn tốt nghiệp Hà Nội, ngày tháng Học viên Đỗ Thị Luân năm 2014 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC HÌNH ẢNH LỜI MỞ ĐẦU CHƢƠNG TÌM HIỂU MẠNG NGANG HÀNG VÀ CÁC ỨNG DỤNG 1.1 TỔNG QUAN MẠNG NGANG HÀNG 1.1.1 Định nghĩa mạng ngang hàng: 1.1.2 So sánh mơ hình mạng ngang hàng p2p với mơ hình client/ server 1.1.3 Lịch sử phát triển P2P 1.1.4 Ứng dụng P2P 10 1.1.4.1 Mạng máy tính gia đình: 10 1.1.4.2 Mạng máy tính chia sẻ tệp tin: 10 1.1.4.3 Phần mềm ứng dụng P2P 10 1.2 PHÂN LOẠI MẠNG NGANG HÀNG 12 1.2.1 Mạng ngang hàng không cấu trúc (unstructured) 12 1.2.1.1 Mạng ngang hàng tập trung (Centralized): 13 1.2.1.2 Mạng ngang hàng túy (Pure): 13 1.2.1.3 Mạng ngang hàng lai (Hybrid) 14 1.2.2 Mạng ngang hàng có cấu trúc (Structured) 15 CHƢƠNG TỔNG QUAN VỀ MẠNG NGANG HÀNG CĨ CẤU TRƯC 16 2.1 MẠNG NGANG HÀNG CĨ CẤU TRƯC 16 2.2 GIAO THỨC CHORD 17 2.2.1 Mơ hình mạng Chord 17 2.2.2 Ánh xạ khóa vào nút mạng Chord 19 2.2.3 Tìm kiếm mạng Chord 20 2.2.4 Nút tham gia ổn định mạng 22 2.3 PHƢƠNG PHÁP TÌM KIẾM THƠNG TIN TRÊN MẠNG NGANG HÀNG 23 2.3.1 Tìm kiếm xác 23 2.3.2 Tìm kiếm theo thuộc tính – giá trị 24 2.3.3 Tìm kiếm theo khoảng 25 CHƢƠNG MỘT SỐ GIẢI PHÁP TÌM KIẾM THƠNG TIN THEO GIÁ TRỊ THUỘC TÍNH TRÊN MẠNG NGANG HÀNG CĨ CẤU TRÖC 27 3.1 GIẢI PHÁP INS/TWINE 27 3.1.1 Mô tả tài nguyên 27 3.1.2 Tổng quan kiến trúc hệ thống 28 3.1.3 Đánh giá 31 3.2 GIẢI PHÁP CDS (Content Discovery System) 31 3.2.1 Mô tả tài nguyên 31 3.2.2 Kiến trúc hệ thống 32 3.2.3 Đăng ký tên tài nguyên 33 3.2.4 Xử lý truy vấn 34 3.2.5 Khả cân tải 35 3.3 GIẢI PHÁP D-AVTree 38 3.3.1 Mô tả tài nguyên 38 3.3.2 Kiến trúc hệ thống 38 3.3.3 Phân bổ tài nguyên 39 3.3.4 Truy vấn thông tin 40 3.3.5 Cải tiến hiệu giải pháp 41 3.4 SO SÁNH GIẢI PHÁP 42 CHƢƠNG ĐÁNH GIÁ HIỆU NĂNG CỦA CÁC GIẢI PHÁP 44 4.1 TỔNG QUAN VỀ ĐÁNH GIÁ HIỆU NĂNG MẠNG 44 4.1.1 Các phƣơng pháp đánh giá hiệu mạng 44 4.1.2 Các tham số đánh giá hiệu mạng 46 4.2 MÔ PHÕNG ĐÁNH GIÁ HIỆU NĂNG CÁC GIẢI PHÁP 46 4.2.1 Tìm hiểu chƣơng trình mơ đƣợc xây dựng 46 4.2.2 Thực mô đánh giá hiệu giải pháp 47 4.2.2.1 Đánh giá tính hiệu (System efficiency) 48 4.2.2.2 Đánh giá độ cân tải (Load balancing): 51 4.2.2.3 Đánh giá tỷ lệ truy vấn thành công (query hit ratio) 56 4.2.2.4 Tổng hợp nhận xét kết mô KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TIẾP THEO 58 61 DANH MỤC HÌNH ẢNH Hình 1.1 Mơ hình Client/Server Hình 1.2 Mơ hình mạng ngang hàng P2P Hình 1.3 Mơ hình mạng ứng dụng Kazaa Hình 1.5 Phân loại mạng ngang hàng Hình 1.6 Mạng ngang hàng tập trung hệ thứ (Napster) Hình 1.7 Mạng ngang hàng túy (Gnutella 4.0, FreeNet) Hình 1.8 Mạng ngang hàng lai (Hybird) Hình 2.1 Bảng băm phân tán – DHT Hình 2.2 Mơ hình mạng chord với nút, khơng gian định danh m = bit Hình 2.3 Bảng mơ tả tham số bảng finger Hình 2.4 Bảng Finger nút mạng Chord Hình 2.5 Mơ tả việc lƣu giữ khóa k mạng Chord Hình 2.6 Bảng Finger nút mạng Chord Hình 2.7 Mơ tả q trình tìm kiếm nút có id 54 (p54) dựa bảng Finger Hình 2.8 Các bảng finger sau nút tham gia vào mạng Hình 2.9 Các finger sau nút rời mạng Hình 2.10 Mạng ngang hàng có cấu trúc Chord Hình 2.11 Ví dụ tài nguyên đƣợc biểu diễn dƣới dạng cặp thuộc tính giá trị Hình 2.12 Minh hoạ u cầu tìm kiếm theo khoảng Hình 3.1 Biểu diễn tài nguyên AVTree tƣơng ứng Hình 3.2 Kiến trúc hệ thống INS/Twine Hình 3.3 Tách AVTree mơ tả tài nguyên thành nhánh tƣơng ứng Hình 3.4 Ví dụ tên tài ngun Hình 3.5 Kiến trúc nút mạng CDS Hình 3.6 Ví dụ đăng ký xử lý truy vấn với tập RP Hình 3.7 Ma trận cân tài LBM cho cặp {ai, vi} Hình 3.8 Đăng ký với ma trận cân tải Hình 3.9 Khoảng khóa phân bổ ứng với tên tài nguyên chứa {(A1, V1), (A2, V2)} Hình 3.10 Số nút bị truy vấn (khi thay đổi hệ số h α) Hình 4.1 Sử dụng Ns2 để mơ Hình 4.2 Biểu đồ số ban tài nguyên tài nguyên Hình 4.3 Biểu đồ số nút cần truy vấn để thực truy vấn Hình 4.4 Biểu đồ độ trễ truy vấn zipf = 0,6 Hình 4.5 Biểu đồ độ trễ truy vấn zipf = 0,6 tham số (h, 1/alpha) Hình 4.6 Biểu đồ độ trễ truy vấn zipf = tham số (h, 1/alpha) Hình 4.7 Biểu đồ số nút lƣu trữ 0,4% tổng số tài nguyên Hình 4.8 Biểu đồ tỷ lệ lƣu trữ tài nguyên nút với tham số (6, 25) Hình 4.9 Biểu đồ tỷ lệ lƣu trữ tài nguyên nút với tham số (2, 128) Hình 4.10 Biểu đồ tỷ lệ lƣu trữ tài nguyên nút với tham số zipf = Hình 4.11 Biểu đồ tỷ lệ số truy vấn tối đa nút phải thực Hình 4.12 Biểu đồ tỷ lệ số nút không thực truy vấn 8 11 12 13 14 15 17 18 19 19 20 21 21 22 23 24 25 26 27 28 29 32 32 34 36 37 40 41 45 48 49 50 50 51 52 53 53 53 54 54 Hình 4.13 Biểu đồ tỷ lệ số truy vấn nút phải thực với zipf = 0,6 (6, 25) Hình 4.14 Biểu đồ tỷ lệ số truy vấn nút phải thực với zipf = 0,6 (2 tham số) Hình 4.15 Biểu đồ tỷ lệ số truy vấn nút phải thực với zipf = (2 tham số) Hình 4.16 Biểu đồ tỷ lệ số truy vấn thành cơng với zipf = Hình 4.17 Biểu đồ tỷ lệ số truy vấn thành công với zipf = 0,6 Hình 4.18 Biểu đồ tỷ lệ số truy vấn thành cơng Twine zipf thay đổi Hình 4.19 Biểu đồ tỷ lệ số truy vấn thành công CDS zipf thay đổi PHỤ LỤC CÁC BẢNG SỐ LIỆU MÔ PHỎNG 55 55 55 56 57 57 58 58 63 LỜI MỞ ĐẦU Mơ hình mạng ngang hàng bắt đầu xuất giới từ năm 1999 đƣợc sử dụng rộng rãi nhiều ứng dụng, đặc biệt nhƣ ứng dụng chia sẻ file, video streaming, … Trong mơ hình mạng ngang hàng, node tham gia mạng chia sẻ tài nguyên nhƣ file, liệu cho Điều làm tăng tài nguyên mạng Tuy nhiên, tài nguyên đƣợc lƣu trữ cách phân tán, việc tìm kiếm thông tin tài nguyên cách hiệu vấn đề quan trọng mạng ngang hàng Trong thời kỳ đầu phát triển, việc tìm kiếm mạng ngang hàng sử dụng máy chủ lƣu trữ thông tin tài nguyên, đƣợc thực theo kiểu phát tràn thông báo, gây tốn băng thông mạng Các ứng dụng sau bƣớc cải tiến giao thức định tuyến thông báo, làm mạng hoạt động hiệu hơn, nhƣng chƣa đảm bảo việc tìm kiếm thơng tin thành cơng Mạng ngang hàng có cấu trúc sử dụng giải thuật Bảng băm phân tán (Distributed Hash Table – DHT [10]) khắc phục nhƣợc điểm cách tổ chức node mạng theo cấu trúc khơng gian khóa định nhƣ mạch vòng (giao thức Chord [6]) hay không gian n-chiều (giao thức CAN[5]) định tuyến thông báo dựa cấu trúc Tuy nhiên, mạng ngang hàng có cấu trúc hỗ trợ phƣơng pháp tìm kiếm xác, tức tìm kiếm tài ngun có tên trùng với từ khố tìm kiếm Tuy nhiên, thực tế ngƣời dùng thƣờng khơng thể biết xác thơng tin cần tìm kiếm mà biết số thơng tin Vì vậy, việc tìm kiếm theo khoảng theo cặp thuộc tính giá trị cần thiết Luận văn tập trung tìm hiểu giải pháp tìm kiếm thơng tin theo cặp thuộc tính - giá trị đƣợc đề xuất nhƣ INS/Twine [9], Contens Distribution System [8], D-AVTree [4], … đánh giá hiệu tìm kiếm, khả cân tải giải pháp thông qua mô Luận văn gồm có chƣơng, chƣơng đầu giới thiệu tổng quan mạng ngang hàng, mạng ngang hàng có cấu trúc giải pháp tìm kiếm thơng tin hệ thống mạng ngang hàng có cấu trúc Chƣơng sâu tìm hiểu giải pháp tìm kiếm thơng tin theo cặp thuộc tính - giá trị nhƣ INS/Twine, CDS, D-AVTree so sánh giải pháp Chƣơng cuối cùng, luận văn tập trung đánh giá mơ giải pháp tìm kiếm nêu trên, đƣa đánh giá chi tiết hiệu hệ thống, khả cân tải, … giải pháp đề xuất lựa chọn giải pháp tùy theo yêu cầu hệ thống CHƢƠNG TÌM HIỂU MẠNG NGANG HÀNG VÀ CÁC ỨNG DỤNG 1.1 TỔNG QUAN MẠNG NGANG HÀNG Chƣơng trình bày tổng quan mạng ngang hàng, khái niệm, phân loại nêu rõ ƣu, nhƣợc điểm mạng ngang hàng so với mạng dựa mơ hình client/ server 1.1.1 Định nghĩa mạng ngang hàng: Q trình trao đổi thơng tin hai máy tính hệ thống mạng diễn theo mơ hình: mơ hình khách hàng/ ngƣời phục vụ (client/ server) (hình 1.1.) hay mơ hình mạng ngang hàng peer to peer (hình 1.2) Hình 1.1 Mơ hình Client/Server Mạng ngang hàng (còn gọi mạng peer to peer, viết tắt P2P) mạng đƣợc tạo hay nhiều máy tính đƣợc kết nối với chia sẻ tài nguyên (nhƣ tệp tin, máy in, ) mà thông qua máy chủ riêng Hình 1.2 Mơ hình mạng ngang hàng P2P Trong hệ thống mạng ngang hàng, máy tính kết nối với qua cổng USB để truyền tệp tin (file) (2 máy tính), kết nối nhiều máy tính văn phịng nhỏ cáp đồng, kết nối số lƣợng lớn máy tính với giao thức, ứng dụng đặc biệt Có thể hiểu, mạng ngang hàng kiểu mạng đƣợc thiết kế cho thiết bị có chức khả thiết bị nhƣ Mạng ngang hàng P2P khơng có khái niệm máy trạm (client) hay máy chủ (server), mà có khái niệm nốt (peers) đóng vai trị nhƣ client server 54 Hình 4.11 Biểu đồ tỷ lệ số truy vấn tối đa nút phải thực Hình 4.12 Biểu đồ tỷ lệ số nút khơng thực truy vấn Qua biểu đồ hình 4.11 4.12, ta thấy tỷ lệ số truy vấn tối đa mà nút phải thực CDS Random query lớn giải pháp (7,68%), thấp Twine (0,24%), D-AVTree (0,6%) D-AVTree+ (0,44%) có tỷ lệ thấp CDS, dạng trung bình tƣơng đƣơng với CDS OPT query (0,4%) Tuy nhiên, tỷ lệ số nút không thực truy vấn D-AVTree+ thấp (5,36%, h giảm 1,12%), cao Twine (50,06%), CDS OPT D-AVTree mức trung bình tƣơng ứng 23,2% 19,12%, CDS Ran (11,44%) tƣơng đƣơng với D-AVTree+ (10,3%) với tham số h 1/alpha (6, 25) Khi h giảm, tỷ lệ số truy vấn tối đa mà 55 nút phải thực D-AVTree D-AVTree+ tăng, tỷ lệ số nút không thực truy vấn lại giảm h giảm số truy nút bị truy vấn tăng Nhƣ vậy, khả cân tải nút tận dụng khả hoạt động nút thực truy vấn D-AVTree+ tốt D-AVTree, tốt giải pháp khác, khả Twine Hình 4.13 4.14 dƣới thể kết mô số truy vấn nút phải thực Hình 4.13 Biểu đồ tỷ lệ số truy vấn nút phải thực với zipf = 0,6 (6, 25) Hình 4.14 Biểu đồ tỷ lệ số truy vấn nút phải thực với zipf = 0,6 (2 tham số) Qua biểu đồ hình 4.13 4.14, ta thấy, tỷ lệ số nút phải thực dƣới 0,001% tổng số truy vấn số tỷ lệ truy vấn 0,01% tổng số truy 56 vấn tỷ lệ số nút phải thực số truy vấn tăng Đây mốc để xác định tỷ lệ số nút không thực truy vấn nào, đƣợc đánh giá Tỷ lệ số nút phải thực 0,4% tổng số truy vấn D-AVTree+ thấp (0,02%), D-AVTree cao (0,18%), cao CDS Ran 50,22% Khi h giảm tỷ lệ DAVTree+ tăng, 7,5% D-AVTree 2,44% Nhƣ vậy, D-AVTree DAVTree+ có khả cân tải truy vấn vƣợt trội hẳn giải pháp cịn lại Hình 4.15 Biểu đồ tỷ lệ số truy vấn nút phải thực với zipf = (2 tham số) Khi zipf tăng lên (hình 4.15) tỷ lệ số truy vấn nút phải thực cao so với zipf = 0,6 4.2.2.3 Đánh giá tỷ lệ truy vấn thành công (query hit ratio) Để đánh giá tỷ lệ truy vấn thành công (Query hit ratio), ta giả sử tài nút nhƣ Nếu số tên tài nguyên đƣợc lƣu nút vƣợt tải nút tên tài nguyên bị loại bỏ Ta định nghĩa tỷ lệ truy vấn thành công (query hit ratio) tỷ lệ tên tài nguyên đƣợc trả thành công cho nút thực truy vấn so với tổng số tên tài nguyên mà thực tế đáp ứng với tên truy vấn Ta thực đánh giá với 100.000 tài nguyên, 10.000 nút, 5.000 truy vấn, với tải nút tăng dần Kết mô nhƣ biểu đồ dƣới Với tham số zipf, tải tăng, tỷ lệ truy vấn thành công giải pháp tăng đến mức tải (ứng với giải pháp), tỷ lệ đạt 100% Kết mô cho thấy, tỷ lệ truy vấn thành công Twine thấp Với tải dƣới 1%, tỷ lệ truy vấn thành công D-AVTree+ tốt hẳn, gấp D-AVTRee, gần gấp lần so với CDS, nhƣng tải tăng, tỷ lệ truy vấn thành cơng giải 57 pháp tăng, chênh lệch D-AVTree+ với CDS giảm dần chúng gần tải >= 1% Tỷ lệ truy vấn thành cơng CDS đạt 100% sớm nhất, sau đến D-AVTree+ D-AVTree Query hit ratio, node capactity, zipf = 1,0 h = 2, 1/alpha = 128 100,00% Query hit ratio 80,00% 60,00% Ins/Twine 40,00% CDS Ran D-AVTree 20,00% D-AVTree+ 0,00% 0,1% CDS OPT 0,2% 0,4% 1,0% 2% Node Capacity Hình 4.16 Biểu đồ tỷ lệ số truy vấn thành công với zipf = Với zipf = 0,6 0,8 tỷ lệ truy vấn giải pháp tăng so với kết zipf = 1, D-AVTree+ cho thấy hiệu vƣợt trội zipf giảm, CDS DAVTree tƣơng đƣơng Query hit ratio, node capactity, zipf = 0,6 h = 2, 1/alpha = 128 100,00% Query hit ratio 80,00% 60,00% Ins/Twine 40,00% CDS Ran 20,00% D-AVTree D-AVTree+ CDS OPT 0,00% 0,1% 0,2% 0,4% 1,0% 2% Node Capacity Hình 4.17 Biểu đồ tỷ lệ số truy vấn thành công với zipf = 0,6 Nhƣ vậy, zipf giảm, tỷ lệ truy vấn thành công giải pháp đƣợc cải thiện (tăng) Đặc biệt, zipf giảm, tải nút cao, D-AVTree+ có tỷ lệ truy vấn 58 thành công tƣơng đƣơng CDS D-AVTRee gần đạt 100%, tỷ lệ truy vấn thành công Twine thấp Bởi zipf giảm, phổ biến cặp AV tên tài nguyên giảm, nên khả cần tải nút tốt Do đó, hiệu truy vấn giải pháp tốt Dƣới biểu đồ so sánh riêng cho Ins/Twine CDS zipf thay đổi Tỷ lệ truy vấn thành công Tỷ lệ truy vấn thành công Twine zipf tải nút thay đổi 100,0% 80,0% 60,0% Twine với Zipf 40,0% Twine với Zipf 0,8 20,0% Twine với Zipf 0,6 0,0% 0,4% 1% 2% 5% 10% 20% 30% 50% Tải nút Hình 4.18 Biểu đồ tỷ lệ số truy vấn thành công Twine zipf thay đổi Tỷ lệ truy vấn thành công Tỷ lệ truy vấn thành công CDS zipf tải nút thay đổi 100,0% 80,0% 60,0% CDS với Zipf 40,0% CDS với Zipf 0,8 20,0% CDS với Zipf 0,6 0,0% 0,4% 1% 2% 5% 10% Tải nút Hình 4.19 Biểu đồ tỷ lệ số truy vấn thành công CDS zipf thay đổi 4.2.2.4 Tổng hợp nhận xét kết mô Qua kết mô phỏng, đánh giá hiệu giải pháp, luận văn đƣa bảng tóm tắt, tổng kết đánh giá theo tiêu chí mơ nhƣ bảng dƣới 59 Tiêu chí đánh giá Nhận xét kết mơ Đề xuất lựa chọn giải pháp tùy theo trƣờng hợp Đánh giá hiệu giải pháp - Khi số tài nguyên tăng, số tài nguyên số - Số Twine cao D-AVTree D- Số tên tài - Số D-AVTree D-AVTree+ AVTree+ lựa nguyên thấp nhất, thay chọn tốt đổi h, alpha - Không thay đổi zipf thay đổi - Khi số tài nguyên tăng: D-AVTree+ cao D-AVTree (không đáng kể) số, CDS tăng dần, CDS Ran tăng - Số nút cần trả lời mạnh cao CDS OPT cho truy vấn - Khi h tăng, số nút cần thực truy vấn D-AVTree D-AVTree+ giảm nhiều - Không thay đổi zipf thay đổi - Độ trễ truy vấn Với số tài nguyên nhỏ, CDS cần nút bị truy vấn thực truy vấn giải pháp khác Ngƣợc lại, số tài nguyên lớn, DAVTree+ với tham số h cao lựa chọn tốt Tăng dần số nút, độ trễ truy vấn giải pháp tăng dần, nhƣng không đáng kể; độ trễ truy vấn CDS cao gấp đôi so với D-AVTree, giải pháp khác AVTree+ - Khi zipf tăng, độ trễ truy vấn CDS, Twine tốt Twine hầu nhƣ không đổi, D-AVTree DCDS AVTree+ có tăng nhƣng khơng đáng kể Dvà - Khi h giảm, độ trễ truy vấn D-AVTree D-AVTree + tăng Độ cân tải D-AVTree+ 60 D-AVTree trội vƣợt - D-AVTree D-AVTree+ có độ cân tải lƣu trữ tài nguyên tốt giải pháp - Số tên tài nguyên khác Tỷ lệ tài nguyên lƣu trữ nút lƣu trữ nút h thay đổi D-AVTree DAVTree+ gần nhƣ nhau, không thayđổi - CDS Ran phải thực số truy vấn tối đa lớn nhất, Twine thấp nhất, lại kết tƣơng đƣơng, D-AVTree cao D-AVTree+ - Số truy vấn - Twine có số nút khơng thực truy vấn nút phải thực nhiều nhất, thấp D-AVTree+, h tăng, số DAVTree tăng - Khi zipf tăng số truy vấn nút phải thực tăng - Khi tải tăng, tỷ lệ truy vấn thành công tăng, kết Twine thấp nhất, DAVTree+ CDS tƣơng đƣơng DAVTree+ cao giải pháp khác tải nút thấp Tỷ lệ truy vấn - Khi zipf giảm, tỷ lệ truy vấn thành công thành công giải pháp tăng Đặc biệt, tải nút thấp (1%), D-AVTree+, CDS D-AVTRee tƣơng đƣơng, Twine thấp Khi tải cao, giải pháp D-AVTree+, D-AVTree CDS lựa chọn tốt Nhƣng tải thấp, DAVTree+ lựa chọn tốt so với CDS DAVTree 61 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TIẾP THEO Luân văn tìm hiểu tổng quan mạng ngang hàng, mạng ngang hàng có cấu trúc tìm hiểu sâu giải pháp tìm kiếm thơng tin theo thuộc tính giá trị mạng ngang hàng có cấu trúc Luận văn đánh giá hiệu tìm kiếm, khả cân tải giải pháp tìm kiếm thông tin với thay đổi số lƣợng tài nguyên, số node, tải node , tham số hệ thống đặc biệt thay đổi tham số phổ biến cặp thuộc tính giá trị tên tài nguyên (phân bổ zipf) Kết mô cho thấy: - Khi phân bố zipf thay đổi, số tài nguyên hay số nút cần truy vấn để thực truy vấn hầu nhƣ không bị ảnh hƣởng Độ trễ truy vấn giải pháp có thay đổi, nhƣng khơng đáng kể Qua phần đánh giá hiệu giải pháp, với số tài nguyên lớn, D-AVTree+ lựa chọn tối ƣu - Về độ cân tải lƣu trữ truy vấn nút, D-AVTree+ cho thấy rõ vƣợt trội mình, giải pháp tận dụng đƣợc tối đa khả lƣu trữ truy vấn đa số nút hệ thống mạng, không nhƣ Twine hay CDS (rất nhiều nút không thực truy vấn tỷ lệ tài nguyên lƣu trữ nút thấp) - Với tiêu chí Tỷ lệ truy vấn thành cơng, tải cao, giải pháp D-AVTree+, D-AVTree CDS lựa chọn tốt Nhƣng tải thấp, D-AVTree+ DAVTree lựa chọn tốt so với CDS Nhƣ vậy, với tiêu chí đánh giá hiệu giải pháp tìm kiếm thơng tin hệ thống mạng ngang hàng có cấu trúc (dựa theo cặp thuộc tính - giá trị), tùy theo tiêu chí đánh giá, thuộc tính có ƣu điểm riêng Tuy nhiên, đánh giá tiêu chí cho thấy D-AVTree+ D-AVTree có ƣu điểm CDS Twine, đặc biệt tải thấp, D-AVTree+ có ƣu điểm CDS Ngƣời dùng, áp dụng giải pháp tìm kiếm thơng tin hệ thống mạng ngang hàng có cấu trúc, cần vào yêu cầu mục đích tốn, dựa ƣu, nhƣợc điểm giải pháp để lựa chọn giải pháp phù hợp, đảm bảo có kết tốt ƣu nhất, đáp ứng u cầu tốn Kết mơ phỏng, đánh giá luận văn kết mô phỏng, đánh giá giải pháp đƣợc đề xuất, để nhà nghiên cứu tham khảo, tùy theo yêu cầu, điều kiện cụ thể, lựa chọn phƣơng pháp tìm kiếm thông tin hệ thống mạng ngang hàng để nhằm đặt hiệu tốt nhất, đáp ứng yêu cầu tốn nhà nghiên cứu Ngồi nghiên cứu, đề xuất giải pháp tối ƣu để khắc phục nhƣợc điểm phát huy tối đa ƣu điểm giải pháp Đây hƣớng nghiên cứu phát triển luận văn có thời gian điều kiện cho phép 62 TÀI LIỆU THAM KHẢO Tiếng Anh A Rowstron and P Druschel, “Pastry: Scalable, distributed object location and routing for large-scale peer-to-peer systems”, In Proceedings of IFIP/ACM International Conference on Distributed Systems Platforms, Nov 2001 Ashwin R Bharambe, Mukesh Agrawal, Srinivasan Seshan, “Mercury: Supporting Scalable MultiAttribute Range Queries”, Proceedings of the 2004 conference on Applications, technologies, architectures, and protocols for computer communications, August 2004 Artur Andrzejak and Zhichen Xu Hewlett-Packard Laboratories, Palo Alto, “Scalable, Efficient Range Queries for Grid Information Services”, IEEE Computer Society Washington, DC, USA Hoai son Nguyen, Yasue TAN, Yoichi SHINODA, “D-AVTree: DHT based Search System to Support Scalable Mutil-attribute Queries”, IEICE Trans Commun, 2013 S.Ratnasamy, P Francis, M Handley and R Karp, “A Scalable ContentAddressable Network”, In Proceedings of ACM SIGCOMM’01, Aug 2001 Ion Stoicay, Robert Morrisz, David Liben-Nowellz, David R Kargerz, M Frans Kaashoekz, Frank Dabekz, Hari Balakrishnanz, “Chord: A Scalable Peer-to-peer Lookup Service for Internet Applications”, IEEE/ACM Transactions on Networking (TON), Year of Publication: 2003 Jun Gao, Peter Steenkiste, “An Adaptive Protocol for Efficient Support of Range Queries in DHT-based Systems”, Proceedings of the 12th IEEE International Conference on Network Protocols (ICNP’04) 1092-1648/04 $ 20.00 IEEE Jun Gao, Peter Steenkiste, "Design and Evaluation of a Distributed Scalable Content Discovery System", Journal on Selected Areas in Communications, November, 2003 M Balazinska, H Balakrishnan, and D Karger, "INS/Twine: A Scalable Peer-toPeer Architecture for Intentional Resource Discovery", In Proceedings of International Conference on Pervasive Computing, August 2002 10 Matthew Harren, Joseph M Hellerstein, Ryan Huebsch, Boon Thau Loo, Scott Shenker, Ion Stoica, “Complex Queries in DHT-based Peer-to-Peer Networks”, Revised Papers from the First International Workshop on Peer-to-Peer Systems, March 2002 11 http://en.wikipedia.org/wiki/ 63 PHỤ LỤC CÁC BẢNG SỐ LIỆU MÔ PHỎNG Số tên tài nguyên tài nguyên: zipf = 0,6 Số tài nguyên D- D- AVTree AVTree+ INS/ Twine CDS CDS D- D- (random (optimizat AVTree AVTree+ query) ion query) (2, 128) (2, 128) (6, 25) (6, 25) 10.000 4,75 4,75 20,91 12,17 12,17 4,75 4,75 50.000 4,74 4,74 20,86 12,14 12,14 4,74 4,74 100.000 4,75 4,75 20,86 12,16 12,16 4,75 4,75 200.000 4,75 4,75 20,88 12,16 12,16 4,75 4,75 Số nút cần trả lời cho truy vấn D- AVTree (6, 25) AVTree+ (6, 25) 10.000 4,09 5,32 1,12 1,00 11,14 16,44 50.000 4,09 5,32 3,72 1,02 11,14 16,44 100.000 4,09 5,32 16,50 1,25 11,14 16,44 200.000 4,09 5,32 47,51 4,71 11,14 16,44 Số tài nguyên CDS CDS D- (optimiz (random ation query) query) DAVTree (2, 128) D-AVTree + (2, 128) Số hop count trung bình truy vấn, zipf = 0,6 Number of nodes D-AVTree (h=6, 1/alpha=25) D-AVTree+ (h=6, 1/alpha=25) 1.000 5,92 6,07 5,81 15,81 17,09 2.000 6,54 6,63 6,35 16,96 17,36 5.000 7,32 7,50 6,97 17,61 17,32 10.000 7,95 8,19 7,52 17,49 18,20 INS/ Twine CDS Ran CDS OPT (zipf = 0,6) (zipf =0,6) (zipf =0,6) 64 Số hop count trung bình truy vấn, zipf = 0,6 D-AVTree D-AVTree+ (h=6, D-AVTree+ (h=6, (h=2, (h=2, 1/alpha=25) 1/alpha=25) 1/alpha=128) 1/alpha=128) 1.000 5,92 6,07 6,27 6,50 2.000 6,54 6,63 7,12 7,37 5.000 7,32 7,50 8,40 8,75 10.000 7,95 8,19 9,56 9,94 Số nút D-AVTree Số hop count trung bình truy vấn, zipf = 1,0 D-AVTree (h=6, 1/alpha=25) D-AVTree+ (h=6, 1/alpha=25) INS/Twine CDS Ran CDS OPT 1.000 5,95 6,50 5,80 15,75 16,91 2.000 6,52 7,16 6,35 16,97 17,40 5.000 7,30 8,02 7,02 16,91 17,13 10.000 7,93 8,85 7,47 17,82 18,22 Number of nodes Số hop count trung bình truy vấn, zipf = 1, Number of nodes D-AVTree (h=6, 1/alpha=25) D-AVTree+ (h=6, 1/alpha=25) D-AVTree (h=2, 1/alpha=128) D-AVTree+ (h=2, 1/alpha=128) 1.000 5,95 6,50 6,29 7,39 2.000 6,52 7,16 7,12 8,42 5.000 7,30 8,02 8,36 9,87 10.000 7,93 8,85 9,55 11,15 65 DTwine D- AVTRee AVTRee+ (6, 25) Nội dung CDS (6, 25) 100 0,10% D-AVTree D-AVTree+ (2, 128) (2, 128) 36 119 70 0,04% 0,12% 0,07% Ran số nút lƣu trữ >0,4% tổng 1777 1458 số tài nguyên % số nút lƣu >0,4% tổng 1,78% 1,46% số tài nguyên Tỷ lệ tài Tỷ lệ số nút lƣu trữ số tài nguyên nhỏ số cột x nguyên lƣu trữ nút Twine (x) CDS Ran DAVTree DAVTRee+ DAVTree DAVTree+ (2, 128) (2, 128) 10,0000% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 5,0000% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 2,0000% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 1,0000% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 0,4000% 64,46% 70,84% 98,00% 99,28% 97,62% 98,60% 0,2000% 43,06% 49,84% 91,90% 92,30% 90,08% 90,80% 0,1000% 26,56% 31,02% 77,36% 73,88% 74,12% 70,58% 0,0500% 14,76% 18,86% 58,22% 50,88% 54,20% 46,48% 0,0200% 6,64% 10,06% 32,96% 26,36% 30,48% 22,40% 0,0100% 3,68% 6,84% 20,22% 15,22% 18,42% 12,14% 0,0050% 2,12% 5,00% 12,44% 9,32% 11,38% 7,30% 0,0020% 1,10% 4,00% 6,98% 4,76% 6,46% 3,88% 0,0010% 0,88% 3,58% 4,96% 3,10% 4,20% 2,56% 0,0005% 0,48% 2,96% 2,90% 1,58% 2,24% 1,28% 66 Nội dung D- CDS D- Ran Twine CDS D- OPT AVTree AVTree+ D- AVTree (2, 128) AVTree+ (2, 128) Số truy vấn max mà nút phải thực 12 384 20 30 22 77 49 0,24% 7,68% 0,40% 0,60% 0,44% 1,54% 0,98% 2503 572 1160 956 515 268 56 10,30% 5,36% 1,12% Tỷ lệ max/ tổng số truy vấn Số nút không thực truy vấn Tỷ lệ số nút không thực 50,06% 11,44% 23,20% 19,12% truy vấn Tỷ lệ số truy vấn nút phải thực Tỷ lệ số nút phải thực tỷ lệ số truy vấn DAVTree DAVTRee+ DAVTree (2, 128) 10,0000% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 5,0000% 100,00% 99,64% 100,00% 100,00% 100,00% 100,00% 100,00% 2,0000% 100,00% 90,02% 100,00% 100,00% 100,00% 100,00% 100,00% 1,0000% 100,00% 73,82% 100,00% 100,00% 100,00% 99,96% 100,00% 0,4000% 100,00% 49,78% 100,00% 99,82% 99,98% 97,56% 92,50% 0,2000% 99,98% 34,96% 98,40% 98,28% 98,64% 86,70% 72,52% 0,1000% 98,24% 24,24% 83,98% 89,66% 84,50% 57,92% 38,54% 0,0500% 87,56% 17,14% 54,30% 61,64% 47,22% 24,66% 10,76% 0,0200% 75,52% 14,52% 40,22% 42,26% 27,88% 14,08% 4,70% Twine CDS Ran CDS OPT DAVTree+ (2, 128) 67 0,0100% 50,06% 11,44% 23,20% 19,12% 10,30% 5,36% 1,12% 0,0050% 50,06% 11,44% 23,20% 19,12% 10,30% 5,36% 1,12% 0,0010% 50,06% 11,44% 23,20% 19,12% 10,30% 5,36% 1,12% Query hit ratio với zipf = Tải Tỷ lệ tải Ins/Twine CDS D-AVTree D-AVTree+ 400 0,4% 7,6% 69,5% 46,98% 87,83% 1.000 1% 14,3% 99,9% 71,27% 95,17% 2.000 2% 21,5% 100,0% 84,68% 98,83% 5.000 5% 37,1% 100,0% 96,88% 100,00% 10.000 10% 56,6% 100,0% 100,00% 100,00% 20.000 20% 82,8% 100,0% 100,00% 100,00% 30.000 30% 98,0% 100,0% 100,00% 100,00% 50.000 50% 100,0% 100,0% 100,00% 100,00% Query hit ratio với zipf = 0,8 Tải Tỷ lệ tải Ins/Twine CDS D-AVTree D-AVTree+ 400 0,4% 13,0% 99,7% 75,45% 97,43% 1.000 1% 35,5% 100,0% 93,66% 100,00% 2.000 2% 53,0% 100,0% 98,01% 100,00% 5.000 5% 86,2% 100,0% 100,00% 100,00% 10.000 10% 100,0% 100,0% 100,00% 100,00% Query hit ratio với zipf = 0,6 Tải Tỷ lệ tải Ins/Twine CDS D-AVTRee D-AVTRee+ 400 0,4% 32,1% 94,6% 96,06% 99,87% 68 1.000 1% 51,4% 100,0% 99,92% 100,00% 2.000 2% 66,9% 100,0% 100,00% 100,00% 5.000 5% 94,5% 100,0% 100,00% 100,00% 10.000 10% 100,0% 100,0% 100,00% 100,00% Tỷ lệ tải Twine với Zipf Twine với Zipf 0,8 Twine với Zipf 0,6 0,4% 7,6% 13,0% 32,1% 1% 14,3% 35,5% 51,4% 2% 21,5% 53,0% 66,9% 5% 37,1% 86,2% 94,5% 10% 56,6% 100,0% 100,0% 20% 82,8% 100,0% 100,0% 30% 98,0% 100,0% 100,0% 50% 100,0% 100,0% 100,0% Tỷ lệ tải CDS với Zipf CDS với Zipf 0,8 CDS với Zipf 0,6 0,4% 69,5% 99,7% 94,6% 1% 99,9% 100,0% 100,0% 2% 100,0% 100,0% 100,0% 5% 100,0% 100,0% 100,0% 10% 100,0% 100,0% 100,0% ... mạng ngang hàng có cấu trúc 16 CHƢƠNG TỔNG QUAN VỀ MẠNG NGANG HÀNG CĨ CẤU TRƯC Chƣơng giới thiệu tổng quan hệ thống mạng ngang hàng có cấu trúc số phƣơng pháp tìm kiếm thơng tin hệ thống mạng ngang. .. nút rời mạng 2.3 PHƢƠNG PHÁP TÌM KIẾM THƠNG TIN TRÊN MẠNG NGANG HÀNG Có nhiều phƣơng pháp tìm kiếm thơng tin hệ thống mạng ngang hàng, có phƣơng pháp bản, bao gồm: tìm kiếm xác, tìm kiếm dựa... tính có giá trị theo khoảng yêu cầu Tuy nhiên để tìm kiếm theo khoảng mạng ngang hàng có cấu trúc khó mạng ngang hàng có cấu trúc hỗ trợ tìm kiếm xác Tức có thơng tin xác tìm đƣợc mạng ngang hàng