Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
326,05 KB
Nội dung
i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI THỊ LỆ HẰNG SỬ DỤNG THÔNG TIN GẦN KỀ VỊ TRÍ TRONG KHẢO DUYỆT WEB THEO PHƯƠNG THỨC MẠNG NGANG HÀNG LUẬN VĂN THẠC SĨ Hà Nội - 2009 ii LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đƣợc luận văn sản phẩm riêng cá nhân Trong toàn nội dung luận văn, điều đƣợc trình bầy cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tôi xin hoàn toàn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng 12 năm 2009 Người cam đoan Bùi Thị Lệ Hằng iii LỜI CẢM ƠN Trong trình học tập hoàn thành luận văn tốt nghiệp, nhận đƣợc rẩt nhiều giúp đỡ, động viên từ thầy cô, gia đình bạn bè Tôi muốn bày tỏ tri ân sâu sắc tới tất luận văn Tôi xin bày tỏ cám ơn đặc biệt tới TS Nguyễn Đại Thọ, ngƣời định hƣớng cho lựa chọn đề tài, đƣa nhận xét quý giá trực tiếp hƣớng dẫn suốt trình nghiên cứu hoàn thành luận văn tốt nghiệp Tôi xin cảm ơn thầy cô khoa CNTT - Trƣờng Đại học Công nghệ - ĐHQG Hà Nội truyền kiến thức cho suốt khoảng thời gian học tập trƣờng Tôi xin cảm ơn toàn thể bạn bè đồng nghiệp Trung tâm Công nghệ Thông tin Ngân hàng Đầu tƣ Phát triển Việt Nam, đơn vị mà công tác, chia sẻ, giúp đỡ tạo điều kiện cho tham gia khoá học hoàn thành khoá luận Xin cảm ơn tất bạn bè giúp đỡ suốt trình học tập công tác Cuối cùng, xin gửi lời cảm ơn sâu sắc tới gia đình mình, nguồn động viên cổ vũ lớn lao, động lực giúp thành công công việc sống Hà Nội, ngày tháng 12 năm 2009 Bùi Thị Lệ Hằng MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ .i DANH MỤC CÁC BẢNG BIỂU ii DANH MỤC HÌNH VẼ iii MỞ ĐẦU Chƣơng 1: MẠNG NGANG HÀNG CÓ CẤU TRÚC Error! Bookmark not defined 1.1 Khái quát mạng ngang hàng Error! Bookmark not defined iv 1.2 Mạng ngang hàng có cấu trúc Error! Bookmark not defined 1.3 CHORD - Mạng ngang hàng dựa có cấu trúc dựa DHT Error! Bookmark not defined 1.4 Kết luận Error! Bookmark not defined Chƣơng 2: KHẢO DUYỆT WEB THEO KIẾN TRÚC MẠNG NGANG HÀNG Error! Bookmark not defined 2.1 Giới thiệu chung Error! Bookmark not defined 2.2 Giới thiệu khảo duyệt web Error! Bookmark not defined 2.3 Khảo duyệt web theo kiến trúc mạng ngang hàngError! Bookmark not defined 2.3 Kiến trúc khảo duyệt Apoidea Error! Bookmark not defined 2.4 Kết luận Error! Bookmark not defined Chƣơng 3: SỬ DỤNG THÔNG TIN GẦN KỀ VỊ TRÍ TRONG MẠNG NGANG HÀNG CÓ CẤU TRÚC Error! Bookmark not defined 3.1 defined Giới thiệu chung thông tin gần kề vị tríError! 3.2 Thiết kế mô hình LDHT Error! Bookmark not defined 3.3 Đánh giá hiệu suất LDHT Error! Bookmark not defined 3.4 Kết luận Error! Bookmark not defined Bookmark not Chƣơng 4: GIẢI PHÁP SỬ DỤNG THÔNG TIN LIỀN KỀ VỊ TRÍ TRONG KHẢO DUYỆT WEB NGANG HÀNG Error! Bookmark not defined 4.1 Mô hình mạng phủ D-Chord Error! Bookmark not defined 4.2 Kiến trúc hệ thống D-Apoidea Error! Bookmark not defined 4.3 Ổn định mạng D-Chord Error! Bookmark not defined 4.4 Đánh giá hệ thống D-Apoidea Error! Bookmark not defined CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂNError! defined Bookmark not TÀI LIỆU THAM KHẢO i DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ ASN Bloom filter Bootstrap peer Autonomous System Number Bloom filter Bootstrap peer Crawler Crawler Crawling web Decentralized P2P system DHT Distributed crawler DNS NFS LDHT Crawling web Decentralized P2P system Distributed Hash Table Distributed crawler Overlay network RTT Tên miền Name System Network File System Locality-aware Distributed Hash Table Overlay network Round trip time P2P Peer Trade-off peer to peer Peer Trade-off URL WWW Uniform Resource Locator World Wide Web Số hiệu nhà cung cấp dịch vụ mạng Bộ lọc bloom Là nút môi giới mạng bao phủ dùng để cung cấp thông tin ban đầu cấu hình cho nút gia nhập vào mạng Bộ thu thập thông tin, chƣơng trình tự động duyệt qua cấu trúc siêu liên kết để thu thập tài liệu & cách đệ quy nhận tất tài liệu có liên kết với tài liệu Khảo duyệt web Hệ thống mạng ngang hàng phi tập trung Bảng băm phân tán Bộ thu thập thông tin phân tán Là hệ thống phân giải tên miền Network File System Tính liền kề vị trí DHT Mạng bao phủ Là thời gian tính từ gói tin đƣợc gửi bên gửi nhận ACK Mạng ngang hàng Nút Sự thỏa hiệp, việc cân yếu tố khác để đạt đƣợc kết hợp tốt Địa URL World Wide Web ii DANH MỤC CÁC BẢNG BIỂU Bảng Bảng định nghĩa trƣờng bảng định tuyến Chord Error! Bookmark not defined Bảng Độ dài đƣờng trung bình (ms) LDHTError! defined Bookmark not Bảng RDP trung bình LDHT Error! Bookmark not defined Bảng Bảng chứa thông tin định tuyến D-ChordError! defined Bookmark not Bảng Danh sách nhà cung cấp dịch vụ AS nút khảo duyệt Error! Bookmark not defined Bảng Giá trị băm nút tên miền thực tếError! defined Bookmark not iii DANH MỤC HÌNH VẼ Hình Mạng bao phủ Error! Bookmark not defined Hình Phân loại mạng ngang hàng Error! Bookmark not defined Hình Bảng băm phân tán Error! Bookmark not defined Hình Không gian khoá đƣợc phân hoạch cho nútError! defined Bookmark not Hình Mạng Chord với n = Error! Bookmark not defined Hình Lƣu giữ khoá mạng Chord Error! Bookmark not defined Hình Bảng định tuyến khóa lƣu giữ tham giaError! Bookmark not defined Hình Bảng định tuyến khóa lƣu giữ nút rời khỏi mạng Error! Bookmark not defined Hình Bộ lọc bloom có hàm băm Error! Bookmark not defined Hình 10 Phân chia công việc Apoidea Error! Bookmark not defined Hình 11 Kiểm tra trùng lặp nội dung ApodieaError! defined Bookmark not Hình 12 Kiến trúc hệ thống nút Apoidea Error! Bookmark not defined Hình 13 Lƣu đồ thực LDHT Error! Bookmark not defined Hình 14 Mô hình mạng phủ D-Chord Error! Bookmark not defined Hình 15 Ví dụ danh sách ánh xạ nút Error! Bookmark not defined Hình 16 Quá trình tìm kiếm vòng L-Chord Nút tìm kiếm nút A, id = 15 Error! Bookmark not defined Hình 17 Quá trình tìm kiếm vòng V-Chord Nút tìm kiếm nút A, id = Error! Bookmark not defined Hình 18 Mạng D-Chord trƣờng hợp chƣa có nút DError! Bookmark not defined Hình 19 Kết sau nút D chạy hàm L_init_finger_table(A) Error! Bookmark not defined Hình 20 Kết sau nút D chạy hàm L_update_others()Error! Bookmark not defined Hình 21 Kết sau nút D chạy hàm update_other_mapping_list () Error! Bookmark not defined iv Hình 22 Mô hình hệ thống D-Apoidea Error! Bookmark not defined Hình 23 Mô hình phân chia công việc vòng V-ChordError! Bookmark not defined Hình 24 Phần mềm Gnuplot Error! Bookmark not defined Hình 25 Không gian định danh khoá với nút Error! Bookmark not defined Hình 26 Tổng dung lƣợng khảo duyệt hut.edu.vn theo thời gian từ Việt Nam, Nhật, Anh, Mỹ Error! Bookmark not defined Hình 27 Tổng dung lƣợng khảo duyệt theo thời gian tên miền Apoidea D-Apoidea Error! Bookmark not defined Hình 28 So sánh tổng dung lƣợng khảo duyệt đƣợc theo thời gian Apoidiea DApoidea Error! Bookmark not defined Hình 29 So sánh băng thông trung bình nút theo thời gian Apoidiea DApoidea Error! Bookmark not defined Hình 30 So sánh URL trung bình khảo duyệt đƣợc nút giây Error! Bookmark not defined Hình 31 So sánh tổng URL khảo duyệt đƣợc theo thời gianError! Bookmark not defined 5 MỞĐẦU Công nghệ máy tìm kiếm đóng vai trò vô quan trọng trính lớn mạnh WWW Khả tìm kiếm đƣợc nội dung mong muốn lƣợng lớn liệu khổng lồ giúp ích nhiều lĩnh vực Một thành phần quan trọng công nghệ là trình thu thập thông tin hay gọi khảo duyệt Quá trình khảo duyệt trình xem xét WWW cách lần theo hyperlink lƣu trữ trang web tải Hiện nay, hầu hết hệ thống khảo duyệt web nhƣ Google [5], Mercator [6] sử dụng mô hình client/server Với mô hình này, việc khảo duyệt đƣợc thực thông qua nhiều máy có liên hệ chặt chẽ để phân chia công việc thu thập kết thu đƣợc đƣợc quản lý hệ thống tập trung Giải pháp tập trung hóa đƣợc biết đến có nhiều vấn đề nhƣ tắc nghẽn nút dẫn tới tƣợng thắt nút cổ chai, điểm trì kết nối bị lỗi khiến toàn hệ thống sụp đổ việc quản trị tốn Với phát triển thành công ứng dụng nhƣ Gnutella, Kazaa, Freenet,… công nghệ mạng ngang hàng đƣợc nhìn nhận lại tầm cao vài năm qua Các hệ thống ngang hàng hệ thống tính toán phân tán mà nút tham gia kết nối trực tiếp với để thực nhiệm vụ phân phối trao đổi thông tin thực thi nhiệm vụ Mạng ngang hàng dựa DHT hệ thống ngang hàng có cấu trúc đóng vai trò quan trọng trình định tuyến Kiến trúc mạng ngang hàng dựa DHT nhƣ Chord [3], CAN [8], Tapestry [10], Pastry [11] có số đặc điểm đối lập so với kiến trúc client/server truyền thống, kiến trúc có khả mở rộng phạm vi rộng lớn, nên ứng dụng có đƣợc đặc tính mong muốn nhƣ khả mở rộng, tự quản lý, tự tổ chức… Mặc dù ứng dụng nhƣ tên miền chia sẻ file hệ thống lƣu trữ thu đƣợc nhiều lợi ích từ việc sử dụng kiến trúc mạng ngang hàng nhƣng chƣa đạt đến thành ứng dụng cốt lõi nhiều dịch vụ sử dụng công nghệ ngang hàng quy mô toàn cầu Lý hệ thống khó đáp ứng đƣợc hai yêu cầu: khả mở rộng, thông tin gần kề vị trí Cân hệ thống điều kiện cần thiết cho khả mở rộng mạng dựa DHT gồm cân định tuyến cân tải Tính cân tải hệ thống DHT đƣợc giới thiệu nhiều nghiên cứu nhƣ [3] Với yêu cầu thứ hai khái niệm gần kề vị trí đƣợc hiểu nút hệ thống DHT phải đƣợc phân bố theo cấu trúc topo mạng Các nút mạng phủ đƣợc bố trí phản ánh mô hình mạng vật lý thật Để làm đƣợc điều này, mạng phủ cần có thông tin về vị trí không gian nút kề Khái niệm gần kề vị trí đƣợc đề cập [4] đƣợc gọi LDHT Tác giả [4] TÀI LIỆU THAM KHẢO [1] Singh, A., Srivatsa, M., Liu, L., and Miller, T Apoidea: A decentralized peer-to-peer architecture for crawling the world wide web In Proceedings of the SIGIR 2003 Workshop on Distributed Information Retrieval (Aug 2003) [2] Efthymiopoulos Nikolaos, Christakidis Athanasios, Denazis Spiros, Koufopavlou Odysseas, Enabling locality in a balanced peer-to-peer overlay, Global Telecommunications Conference, 2006 [3] I Stoica, R Morris, D Karger, M.F Kaashoek, H Balakrisnan, “Chord: A Scalable peer-topeer lookup service for Internet applications”, IEEE/ACM Transactions on Networking, 2003 [4] Weiyu WU, Yang Chen, Xinyi Zhang, Xiaohui Shi, Lin Cong, Beixing Deng, Xing Li LDHT: Locality-aware Distributed Hash Tables In Proc of the International Conference on Information Networking 2008 (ICOIN’08), Busan, Korea, Jan 2008 [5] Sergey Brin and Lawrence Page The anatomy of a large-scale hypertextual Web máy tìm kiếm Computer Networks and ISDN Systems, 1998 [6] Allan Heydon and Marc Najork Mercator: A scalable, extensible web crawler World Wide Web, 1999 [7] Burton Bloom Space/time trade-offs in hash coding with allowable errors Communications of the ACM, July 1970 [8] S Ratnasamy, P Francis, M Handley and R Karp, “A Scalable Content-Addressable Network”, In Proceedings of ACM SIGCOMM’01, Aug 2001 [9] M Castro, P Druschel, Y C Hu, and A Rowstron Exploiting network proximity in peer-topeer overlay networks, 2002 Submitted for publication [10] B Y Zhao, L Huang, J Stribling, S C Rhea, A D Joseph, and J D.Kubiatowicz, “Tapestry: A resilient global-scale overlay for service deployment” IEEE Journal on Selected Areas in Communications, January 2004 [11] Antony Rowstron and Peter Druschel, “Pastry: Scalable, decentralized object location and routing for large-scale peer-to-peer systems” in Proc IFIP/ACM International Conference on Distributed Systems Platforms (Middleware’01), 2001 [12] Jiping Xiong, Youwei Zhang, Peilin Hong and Jinsheng Li, “Chord6: IPv6 based topologyaware Chord,” in Proc ICNS’05, 2005 [13] Shuheng Zhou, Gregory R Ganger and Peter Steenkiste, “Locationbased node IDs: enabling explicit locality in DHTs,” Carnegie Mellon University, Tech Rep CMU-CS-03-171, 2003 [14] http://www.cc.gatech.edu/projects/disl/Apoidea/ [15] http://build.software.informer.com/download-build-p2p-web-crawler-source/ [16] The GT-ITM homepage: http://www.cc.gatech.edu/projects/gtitm/ [17] The PlanetLab homepage: http://www.planet-lab.org [18] Nguyễn Đại Thọ, Bài giảng công nghệ mạng ngang hàng, Bộ môn Mạng & Truyền thông Máy tính Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội, 2006-2007 [...]... [16] The GT-ITM homepage: http://www.cc.gatech.edu/projects/gtitm/ [17] The PlanetLab homepage: http://www.planet-lab.org [18] Nguyễn Đại Thọ, Bài giảng công nghệ mạng ngang hàng, Bộ môn Mạng & Truyền thông Máy tính Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội, 2006-2007 ... not defined Chƣơng 3: SỬ DỤNG THÔNG TIN GẦN KỀ VỊ TRÍ TRONG MẠNG NGANG HÀNG CÓ CẤU TRÚC Error! Bookmark not defined 3.1 defined Giới thiệu chung thông tin gần kề vị tríError! 3.2 Thiết kế... phân bố theo cấu trúc topo mạng Các nút mạng phủ đƣợc bố trí phản ánh mô hình mạng vật lý thật Để làm đƣợc điều này, mạng phủ cần có thông tin về vị trí không gian nút kề Khái niệm gần kề vị trí. .. not defined Bookmark not Chƣơng 4: GIẢI PHÁP SỬ DỤNG THÔNG TIN LIỀN KỀ VỊ TRÍ TRONG KHẢO DUYỆT WEB NGANG HÀNG Error! Bookmark not defined 4.1 Mô hình mạng phủ D-Chord Error! Bookmark not defined