Tìm kiếm thơng tin theo giá trị thuộc tính mạng ngang hàng có cấu trúc Phạm Thị Huế Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Mạng truyền thông; Mã số: 01 10 Người hướng dẫn: TS Nguyễn Hoài Sơn Năm bảo vệ: 2008 Abstract: Giới thiệu tổng quan mạng ngang hàng, khái niệm sơ lược lịch sử phát triển mạng ngang hàng Trình bày sâu thêm nhánh mạng ngang hàng: mạng ngang hàng có cấu trúc; giới thiệu chi tiết giao thức Chord, giao thức sử dụng để triển khai mạng phủ DHT xây dựng chương trình mơ Trình bày số giải pháp phân bổ tìm kiếm thơng tin theo thuộc tính/giá trị mạng ngang hàng có cấu trúc tiêu biểu; giải pháp tìm kiếm thơng tin theo thuộc tính/giá trị mạng ngang hàng có cấu trúc Đánh giá hiệu giải pháp tìm kiếm thơng tin theo thuộc tính/giá trị mạng ngang hàng có cấu trúc lý thuyết qua chương trình mơ Keywords: Mạng máy tính; Mạng ngang hàng; Truyền liệu; Tìm kiếm thông tin Content MỞ ĐẦU Công nghệ mạng ngang hàng (peer-to-peer network) phát triển nhanh chóng mạng Internet thời gian gần với xuất hàng loạt ứng chia xẻ file ngang hàng Napster, Gnutella, Freenet, BitTorrent, Edonkey,… Qua ứng dụng nói trên, việc chia sẻ tìm kiếm tài nguyên mạng trở lên dễ dàng nhanh chóng hết, ngồi ra, người sử dụng chia sẻ file trực tiếp cho mà không cần thông qua máy chủ dịch vụ Sở dĩ mơ hình mạng P2P phát triển mơ hình phù hợp với tính phân tán liệu, đồng thời đảm bảo quyền quản lý liệu người dùng nên khuyến khích việc chia sẻ liệu, làm tăng nguồn tài ngun mạng Mơ hình P2P sử dụng để xử lý toán phức tạp tận dụng khả tính tốn phân tán tích hợp liệu từ peer tham gia mạng Trong mơ hình P2P, peer vừa đóng vai trò Client, vừa đóng vai trò Server Tổng sức mạnh xử lý peer có lớn nhiều lần khả xử lý Server lớn Như vậy, mơ hình P2P khơng làm tăng lượng tài nguyên mạng, mà làm tăng sức mạnh xử lý đáp ứng yêu cầu dịch vụ, nâng cao tính sẵn sàng phục vụ mạng Tuy nhiên, thời kỳ đầu phát triển, việc tìm kiếm mạng ngang hàng thường thực theo kiểu phát tràn thông báo, gây tốn băng thông mạng Các ứng dụng sau bước cải tiến giao thức định tuyến thông báo, làm mạng hoạt động hiệu hơn, chưa đảm bảo việc tìm kiếm thơng tin thành cơng Mạng ngang hàng có cấu trúc sử dụng giải thuật Bảng băm phân tán (Distributed Hash Table – DHT) khắc phục nhược điểm cách tổ chức node mạng theo cấu trúc khơng gian khóa định mạch vòng (giải thuật Chord[7]) hay khơng gian n-chiều (giải thuật CAN[10]) định tuyến thông báo dựa cấu trúc Nội dung thơng tin gắn với khóa k giá trị băm đặc tả đặc trưng nội dung thơng tin (gọi tên nội dung) phân bổ đến node phụ trách khóa k Mỗi node mạng chịu trách nhiệm quản lý tập khóa khơng gian khóa, lưu giữ thơng tin số node khác mạng Việc tìm kiếm thơng tin qua câu truy vấn q thực cách băm q để khóa kq, chuyển q đến node quản lý khóa kq, node thực việc tìm kiếm địa phương trả kết cho câu truy vấn Bằng phương pháp này, giải thuật DHT cho phép xây dựng mạng ngang hàng với khả mở rộng cao, định tuyến hiệu gói tin thơng báo tới đích kháng lỗi tốt Tuy nhiên, giải thuật DHT hỗ trợ tìm kiếm xác, tức tìm kiếm nội dung thơng tin gắn với khóa k Trong thực tế, khơng phải lúc người tìm kiếm biết xác đặc tả thơng tin cần tìm, đó, nhiều giải pháp hỗ trợ tìm kiếm nâng cao nhiều tổ chức, cá nhân giới nghiên cứu ứng dụng Một số giải pháp điển tìm kiếm theo khoảng, tìm kiếm theo thuộc tính/giá trị, tìm kiếm gần đúng, … Trong số kiểu tìm kiếm nâng cao P2P, tìm kiếm theo thuộc tính/giá trị gần quan tâm nghiên cứu phù hợp việc biểu diễn đặc tả thông tin thơng qua cặp thuộc tính/giá trị Qua phương pháp này, tên nội dung khơng băm thành giá trị khóa nữa, mà ánh xạ vào tập khóa tương ứng với giá trị băm cặp thuộc tính/giá trị có mặt tên nội dung Sau đó, tập khóa chuyển đến tập node quản lý chúng dựa giao thức DHT Bằng cách này, nội dung thông tin lưu trữ nhiều node hơn, làm tăng tính sẵn sàng sử dụng khắc phục lỗi mạng có vào node Đồng thời, thơng tin tìm kiếm dễ dàng hơn, cần biết phần đặc tả thông tin (ứng với cặp thuộc tính/giá trị tên nội dung thơng tin) Có nhiều giải pháp tìm kiếm theo thuộc tính/giá trị khác đưa ra, chủ yếu nhấn mạnh vào việc phân bổ thuộc tính/giá trị đến node, tiến hành xử lý truy vấn Có giải pháp đưa cách xây dựng AVTree từ cặp thuộc tính/giá trị (trong INS/Twine), tính khóa phân bổ cách băm nhánh Có giải pháp đưa cách xây dựng Xpath từ đặc tả kiểu XML tên nội dung, dùng để tạo truy vấn,…Mỗi giải pháp có điểm mạnh riêng, song nhiều hạn chế cần khắc phục để mạng cân tải tìm kiếm hiệu Việc nghiên cứu giải pháp để từ đó, tìm giải pháp tìm kiếm tốt P2P có cấu trúc việc làm cần thiết để phát triển ứng dụng P2P phù hợp với thực tế Luận văn Tìm kiếm thơng tin theo giá trị thuộc tính mạng ngang hàng có cấu trúc vào nghiên cứu đánh giá giải pháp tìm kiếm theo thuộc tính/giá trị có, từ tìm cách cải tiến để đưa giải pháp Giải pháp triển khai luận văn không nằm xu hướng nghiên cứu chung, đồng thời đánh giá qua chương trình mơ cho kết tốt Về bố cục, nội dung luận văn bao gồm chương: Chương 1: Giới thiệu tổng quan mạng ngang hàng, khái niệm sơ lược lịch sử phát triển mạng ngang hàng Chương 2: Trình bày sâu thêm nhánh mạng ngang hàng: mạng ngang hàng có cấu trúc Đồng thời giới thiệu chi tiết giao thức Chord, giao thức sử dụng để triển khai mạng phủ DHT xây dựng chương trình mơ Chương 3: Trình bày nghiên cứu liên quan, cụ thể số giải pháp phân bổ tìm kiếm thơng tin theo thuộc tính/giá trị mạng ngang hàng có cấu trúc tiêu biểu Chương 4: Trình bày chi tiết giải pháp “Tìm kiếm thơng tin theo thuộc tính/giá trị mạng ngang hàng có cấu trúc” Chương 5: Đánh giá hiệu giải pháp “Tìm kiếm thơng tin theo thuộc tính/giá trị mạng ngang hàng có cấu trúc” lý thuyết qua chương trình mơ Chương 6: Cuối phần kết luận nêu tóm tắt vấn đề trình bày luận văn, rút điểm đạt chưa đạt được, đồng thời đưa số hướng nghiên cứu, phát triển Ngồi ra, luận văn có thêm danh mục thuật ngữ, từ viết tắt, danh mục bảng biểu, hình vẽ danh mục tài liệu tham khảo để thuận tiện cho việc tìm hiểu tra cứu nội dung luận văn References Tiếng Việt Nguyễn Hồi Sơn, Hồ Sĩ Đàm, “Tìm kiếm thơng tin theo giá trị thuộc tính mạng ngang hàng có cấu trúc”, Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội, 2008 TS Nguyễn Đại Thọ, “Công nghệ mạng ngang hàng”, Bộ môn Mạng & Truyền thơng Máy tính Khoa Cơng nghệ Thơng tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, 2006-2007 Tiếng Anh W Adjie-Winoto, E Schwartz, H Balakrishnan and J Lilley, “The Design and Implementation of an Intentional Naming Systems”, In Proceedings of ACM Symposium on Operating Systems Principles, Dec 1999 M Balazinska, H Balakrishnan, and D Karger, "INS/Twine: A Scalable Peer-to-Peer Architecture for Intentional Resource Discovery", In Proceedings of International Conference on Pervasive Computing, August 2002 J Gao and P Steenkiste, "Design and Evaluation of a Distributed Scalable Content Discovery System", IEEE Journal on Selected Areas in Communications, January, January 2004 L Garc´es-Erice, P.A Felber, E.W Biersack, G Urvoy-Keller K.W Ross, “Data Indexing in Peer-to-Peer DHT Networks”, In Proceedings of 24rd International Conference on Distributed Computing Systems, March 2004 K Gummadi_, R Gummadiy, S Gribblez, S Ratnasamyx, S Shenker, I Stoica, “The Impact of DHT Routing Geometry on Resilience and Proximity”, SIGCOMM’03, August 25–29, 2003, Karlsruhe, Germany Matthew Harren, Joseph M Hellerstein, Ryan Huebsch, Boon Thau Loo, Scott Shenker, Ion Stoica, “ Complex Queries in DHT-based Peer-to-Peer Networks” Wolfgang Nejdl, Boris Wolf, Changtao Qu_ , Stefan Decker_ , Michael Sintek_Ambjă orn Naeve, Mikael Nilsson, Matthias Palmer_ , Tore Risch, “EDUTELLA: A P2P Networking Infrastructure Based on RDF”, Honolulu, Hawaii, USA, May 7–11, 2002 10 S Ratnasamy, P Francis, M Handley and R Karp, “A Scalable Content-Addressable Network”, In Proceedings of ACM SIGCOMM’01, Aug 2001 11 A Rowstron and P Druschel, “Pastry: Scalable, distributed object location and routing for large-scale peer-to-peer systems”, In Proceedings of IFIP/ACM International Conference on Distributed Systems Platforms, Nov 2001 12 I Stoica, R Morris, D Karger, M.F Kaashoek, H Balakrisnan, “Chord: A Scalable peer-to-peer lookup service for Internet applications”, In Proceedings of ACM SIGCOMM’01, August 2001 13 Gerhard Weikum, “Peer-to-Peer Information Systems”, 2002 14 http://www.mac-p2p.com/p2p-history/ 15 http://en.wikipedia.org/wiki/Gnutella 16 http://iml.jou.ufl.edu/projects/Fall02/Moody/history.html 17 http://www.readwriteweb.com/archives/skyrider_and_p2pfuture.php ... bổ tìm kiếm thơng tin theo thuộc tính /giá trị mạng ngang hàng có cấu trúc tiêu biểu Chương 4: Trình bày chi tiết giải pháp Tìm kiếm thơng tin theo thuộc tính /giá trị mạng ngang hàng có cấu trúc ... với thực tế Luận văn Tìm kiếm thơng tin theo giá trị thuộc tính mạng ngang hàng có cấu trúc vào nghiên cứu đánh giá giải pháp tìm kiếm theo thuộc tính /giá trị có, từ tìm cách cải tiến để đưa... theo thuộc tính /giá trị, tìm kiếm gần đúng, … Trong số kiểu tìm kiếm nâng cao P2P, tìm kiếm theo thuộc tính /giá trị gần quan tâm nghiên cứu phù hợp việc biểu diễn đặc tả thông tin thơng qua cặp thuộc