Đánh giá hệ thống D-Apoidea

Một phần của tài liệu Sử dụng thông tin gần kề vị trí trong khảo duyệt Web theo phương thức mạng ngang hàng (Trang 79)

Khả năng mở rộng và các đặc điểm về thông tin vị trí mạng của hệ thống khảo duyệt Apoidea đã đƣợc tác giả bài báo [1] chứng minh thông qua kết quả đo đạc số liệu từ phần mền khảo duyệt. Để kiểm tra đặc điểm thông tin vị trí mạng, tác giả [1] đã thực hiện khảo duyệt từ phòng thí nghiệm của Viện công nghệ Georgia tới bốn tên miền khác nhau ở Mỹ, Nhật, Úc và Ấn Độ. Số lƣợng URL trong bài báo [1] đƣợc khảo duyệt theo thời gian của một nút khảo duyệt từ Mỹ tới tên miền ở Mỹ là tốt nhất, sau đó đến Úc, Nhật và Ấn Độ. Về tính năng mở rộng của Apoidea, tác giả [1] đã tiến hành thử nghiệm gia tăng số nút khảo duyệt lên 16 nút cùng thuộc phạm vi Viện công nghệ Georgia. Từ kết quả đo đạc tổng số URL đƣợc khảo duyệt trên giây tại một nút (URL/giây/nút) khi số nút tham gia khảo duyệt gia tăng không bị ảnh hƣởng.

Dựa trên cơ sở mô phỏng từ Apoidea [1], chúng tôi xây dựng các thí nghiệm mô phỏng để kiểm tra tính liền kề vị trí của hệ thống Apoidea và D-Apoidea. Từ phần mềm viết bằng java đƣợc xây dựng của bài báo Apoidea [1], chúng tôi đã cải tiến chƣơng trình phần mềm khảo duyệt web theo thiết kế đã đề xuất D-Apoidea và đƣa ra các kết quả đánh giá so sánh hai mô hình Apoidea và D-Apodiea.

4.4.1 Thiết lập cấu hình

Để đánh giá thông tin liền kề vị trí, chúng tôi thực hiện khảo duyệt bốn tên miền thuộc các trƣờng đài học khác nhau gồm đại học Bách Khoa ở Việt Nam http://www.hut.edu.vn, viện công nghệ Georgia ở Mỹ http://www.gatech.edu, trƣờng đại học Oxford http://www.comlab.ox.ac.uk, đại học Tokyo Nhật Bản http://www.u-tokyo.ac.jp.

Các nút tham gia khảo duyệt đƣợc đặt tại Việt Nam có địa chỉ IP 123.24.64.159, nút ở Mỹ có địa chỉ IP 68.100.188.63, nút ở Anh có địa chỉ IP 86.30.182.182, nút ở Nhật có địa chỉ IP 150.65.133.107.

Từ địa chỉ IP của các nút khảo duyệt, chúng tôi kiểm tra lại thông tin chính xác các nhà cung cấp dịch vụ AS của các nút có đúng thuộc quốc gia nút đó không bằng cách sử dụng WHOIS http://tools.whois.net/whoisbyip/, kết quả cho thấy nhà cung cấp dịch vụ AS cho các nút này đều cùng thuộc về quốc gia đó.

Địa chỉ IP Inetnum Netname Quốc gia

123.24.64.159 123.16.0.0 - 123.31.255.255 VNPT-VNNIC-VN VN

68.100.188.63 68.100.0.0 - 68.100.255.255 NETBLK-NV-RDC US

86.30.182.182 86.30.176.0 - 86.30.187.255 NTL Infrastructure Oxford GB

150.65.133.107 150.26.0.0 - 150.100.255.255 JAPAN150 JP

Bảng 5. Danh sách các nhà cung cấp dịch vụ AS của các nút khảo duyệt

Từ các địa chỉ IP này, chúng tôi sử dụng vòng không gian định danh m = 32 (232

nút), băm địa chỉ IP của 4 nút và 4 tên miền trên theo thuật toán băm SHA và phân bố trên không gian khoá sẽ cho kết quả

Quốc gia Địa chỉ IP Giá trị băm

VN 123.24.64.159 abd05865 US 68.100.188.63 c42f7b05 EN 86.30.182.182 e3f3b98c JP 150.65.133.107 72b368b4 VN http://www.hut.edu.vn/ ed5c2962 US http://www.gatech.edu 1cd018e8 EN http://www.comlab.ox.ac.uk/ fb4b469c JP http://www.u-tokyo.ac.jp 4d8f2ea8

4.4.2 Phƣơng pháp xử lý số liệu

Chúng tôi tiến hành chạy phần mềm khảo duyệt 4 tên miền http://www.hut.edu.vn/, http://www.gatech.edu, http://www.comlab.ox.ac.uk, http://www.u-tokyo.ac.jp tại các máy tính đặt tại Việt Nam, Mỹ, Anh và Nhật. Kết quả thu đƣợc là file *.txt gồm các thông tin thời gian, số URL đƣợc khảo duyệt, dung lƣợng tải về (Byte)

1264337259406 0 0 1264337289406 172 4237817 1264337319406 384 10099745 1264337349406 603 16250585 1264337379406 838 22486069 …………

Từ file kết quả này, chúng tôi xử lý số liệu thông qua excel thu đƣợc dữ liệu mong muốn gồm: thời gian (giây), URL/giây/nút, tổng URL, băng thông (KBps), tổng băng thông (MB) 0 0.00 0 0.00 0 30 5.73 172 137.95 4237817 60 7.07 384 190.82 10099745 90 7.30 603 200.22 16250585 120 7.83 838 202.98 22486069 150 8.30 1087 200.95 28659272 180 7.43 1310 202.13 34868647 …………

Chúng tôi sử dụng phần mềm Gnuplot để vẽ đồ thị cho kết quả thí nghiệm trên. Gnuplot là phần mềm vẽ đồ thị cho phép ngƣời dùng viết câu lệnh sử dụng đƣợc trên hệ điều hành nhƣ MS Windows, Linux, OS/2…

Hình 24. Phần mềm Gnuplot

4.4.3 Kết quả dựa trên phân tích định tính

Từ bảng 6 giá trị băm của các nút và tên miền, đƣợc minh hoạ theo hình vẽ 25. Chú ý với vòng 32 bit chúng tôi chỉ vẽ hình phân bố tƣơng đối theo vị trí mà không vẽ chính xác từng id trên vòng 32 có 232nút hay id của vòng. Theo hệ thống Apoidea thì nút tại Nhật sẽ thực hiện khảo duyệt tất cả các tên miền trên do các tên miền có giá trị băm đều thuộc nút ở Nhật chịu trách nhiệm khảo duyệt.

Theo hệ thống D-Apodiea, việc phân bố công việc khảo duyệt cho các nút sẽ đƣợc phân chia theo vị trí mạng, tức là nút ở Việt Nam sẽ khảo duyệt ở tên miền Việt Nam, nút ở Mỹ khảo duyệt tên miền ở Mỹ, nút ở Anh khảo duyệt tên miền ở Anh, nút ở Nhật khảo duyệt tên miền ở Nhật.

Xét về mặt định tính có thể nhận thấy rằng hệ thống D-Apoidea sẽ cho kết quả tốt hơn vì việc khảo duyệt web của các nút có cùng vị trí mạng với tên miền đó sẽ nhanh hơn rất nhiều so với các nút khảo duyệt tên miền có vị trí mạng khác nhau. Nhƣ ở Việt Nam khảo duyệt tên miền có cùng nhà cung cấp dịch vụ AS ở Việt Nam chắc chắn sẽ nhanh hơn ở Mỹ khảo duyệt tên miền có nhà cung cấp dịch vụ AS ở Việt Nam.

Hình 25. Không gian định danh khoá với 4 nút

Từ đó xét về mặt định tính hệ thống D-Apoidea sẽ có kết quả khảo duyệt tốt hơn là hệ thống khảo duyệt Apodiea.

4.4.4 Kết quả dựa thí nghiệm thực tế

Trƣớc hết, chúng tôi đƣa ra kết quả khảo duyệt tên miền ở Việt Nam http://www.hut.edu.vn/ tại các nút ở Anh, Nhật, Mỹ và Việt Nam. Từ kết quả trả về trên, chúng tôi phân tích số liệu và sử dụng công cụ vẽ đồ thị Gnuplot để đƣa ra kết quả cuối cùng. Hình 26 dƣới đây là kết quả phân tích đồ thị trả đánh giá dung lƣợng khảo duyệt tên miền có nhà cung cấp dịch vụ ở Việt Nam từ các nƣớc khác nhau.

Nhƣ kết quả trên, ta thấy tốc độ khảo duyệt đƣợc từ Việt Nam đến trang Việt Nam là tốt nhất so với các nƣớc khác. Chúng tôi đã làm thử nghiệm tƣơng tự với các trang ở Nhập, Anh, Mỹ và đều có đƣợc kết quả tƣơng ứng. Tức là tốc độ khảo duyệt từ nút cùng quốc gia với tên miền là tốt nhất. Kết quả này giống với kết quả thí nghiệm của bài báo [1]. (adsbygoogle = window.adsbygoogle || []).push({});

gatech.edu JP 150.65.133.107 u-tokyo.ac.jp VN 123.24.64.159 US 68.100.188.63 EN 86.30.182.182 hut.edu.vn comlab.ox.ac.uk

Hình 26. Tổng dung lƣợng khảo duyệt hut.edu.vn theo thời gian từ ở Việt Nam, Nhật, Anh, Mỹ.

Tiếp theo, chúng tôi đƣa ra kết quả khảo duyệt 4 tên miền từ 4 nút ở 4 quốc gia Việt Nam, Anh, Nhật, Mỹ sử dụng hai mô hình Apoidea và D-Apoidea. Trƣớc hết, chúng tôi đƣa ra kết quả khảo duyệt của từng tên miền của từng mô hình.

Hình 27. Tổng dung lƣợng khảo duyệt theo thời gian đối với từng tên miền của Apoidea và D-Apoidea.

Chú ý là trong đồ thị của hình vẽ 27, đƣờng thể hiện khảo duyệt tên miền tại nhật của Apoidea và D-Apoidea là trùng nhau và là đƣờng trên cùng. Nhƣ ta đã

thấy trên đồ thị, 4 đƣờng trên cùng thể hiện tốc độ khảo duyệt tốt nhất đều thuộc về mô hình D-Apoidea. Điều này thể hiện tốc độ khảo duyệt của D-Apoidea đối với từng tên miền là tốt hơn so với mô hình Apoidea.

Sau đây chúng tôi đƣa ra các đồ thị kết quả thể hiện tổng dung lƣợng (MB), băng thông trung bình tại từng nút (MBps/nút), tổng URL, URL trung bình khảo duyệt đƣợc tại từng nút trong 1 giây của hai mô hình Apoidea và D-Apoidea.

Hình 29. So sánh băng thông trung bình tại từng nút theo thời gian Apoidiea và D-Apoidea

Hình 30. So sánh URL trung bình khảo duyệt đƣợc tại từng nút trong 1 giây

Hình 31. So sánh tổng URL khảo duyệt đƣợc theo thời gian

Từ kết quả trên đồ thị tại các hình 28, 29, 30 và 31, ta có thể dễ dàng thấy là hệ thống D-Apoidea đạt kết quả tốt hơn so với hệ thống Apoidea về cả dung lƣợng và URL khảo duyệt đƣợc. Trong đồ thị về dung lƣợng trung bình tại từng nút và số URL trung bình tại từng nút, có nhiều thời điểm hiệu suất của mô hình giảm mạnh,

tạo ra các vết lõm trên đồ thị. Kết quả này là do chúng tôi thực hiện trên mạng thật, nên có nhiều lúc mạng bị down hoặc bị tắc nghẽn.

Nhƣng nói chung, ta có thể nhận thấy là hệ thống D-Apoidea do có sử dụng tính chất liền kề tuyệt đối về mặt địa lý mạng nên đạt kết quả khảo duyệt tốt hơn hẳn so với hệ thống Apoidea. Tuy kết quả này đạt đƣợc khi thử nghiệm trong phạm vi nhỏ, nhƣng chúng tôi tin tƣởng rằng mô hình D-Apoidea khi áp dụng trong quy mô lớn hơn vẫn cho kết quả tốt.

CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Báo cáo luận văn đã giới thiệu kiến trúc mạng ngang hàng có cấu trúc đƣợc ứng dụng trong việc khảo duyệt web. Chúng tôi đã đề cập chi tiết thiết kế và cấu trúc của hệ thống khảo duyệt web Apoidea sử dụng mô hình mạng phủ Chord. Trong luận văn, chúng tôi đề xuất một mô hình mạng phủ D-Chord vừa phản ánh cấu trúc mạng vật lý vừa đảm bảo thuộc tính cân bằng tải của hệ thống. Về mặt thiết kế, hệ thống khảo duyệt web mới này hoạt động nhƣ một framework cho bất kì thuật toán nào đảm bảo tính cân bằng tải áp dụng cho vòng V-Chord, mà không ảnh hƣởng đến tính chất liền kề tuyệt đối của vòng L-Chord. Với phƣơng thức nhƣ vậy, chúng tôi đã tạo ra sự kết hợp tốt nhất giữa việc khai thác cấu trúc mạng vật lý với việc cân bằng tải.

Từ thiết kế D-Chord mới này, báo cáo luận văn đề xuất một hệ thống khảo duyệt cải tiến mới từ Apoidea là D-Apoidea. Hệ thống D-Apoidea là hệ thống khảo duyệt web theo mô hình ngang hàng, sử dụng mô hình mạng phủ D-Chord và là sự kết hợp giữa hệ thống Apoidea và bảng băm phân tán LDHT. Hệ thống D-Apoidea tổng hợp các ƣu điểm của hệ thống Apoidea và mô hình mạng phủ LDHT, đồng thời đƣa ra cơ chế lựa chọn nút chịu trách nhiệm khảo duyệt nhằm tăng tốc độ khảo duyệt web của hệ thống. Chúng tôi cũng đƣa ra thí nghiệm mô phỏng và từ kết quả thu đƣợc cho thấy là hệ thống D-Apoidea do có sử dụng tính chất liền kề tuyệt đối về mặt địa lý mạng nên đạt kết quả khảo duyệt tốt hơn hẳn so với hệ thống Apoidea.

Tuy kết quả mô phỏng phù hợp với kết quả tính toán, nhƣng chúng tôi mới tiến hành mô phỏng ở phạm vi nhỏ theo phƣơng pháp tƣơng tự nhƣ các tác giả của Apoidea [1], tất nhiên đã có cải tiến để có thể đánh giá đƣợc giải pháp sử dụng thông tin gần kề vị trí. Trong tƣơng lai, chúng tôi muốn chạy hệ thống D-Apoidea trên phạm vi rộng lớn hơn. Chúng tôi muốn kiểm tra thiết kế nhờ môi trƣờng GT- ITM [17] và chạy giả lập diện rộng trên môi trƣờng Planet-Lab [18]. Planet-Lab là hệ thống mạng toàn cầu dùng chung của các học viện, khu công nghiệp và hệ thống máy tính của chính phủ. Planet-Lab nền tảng đƣợc duy trì bởi cộng đồng đƣợc sử dụng rộng dãi mang tính toàn cầu dành cho các nhà nghiên cứu xây dựng, phát triển và đánh giá các ứng dụng phân bố rộng lớn nhƣ hệ thống mạng ngang hàng. Bài báo [4] đã vận dụng hai GT-ITM và Planet-Lab này để chứng minh ƣu điểm khi áp dụng LDHT đối với mô hình Chord, Symphony và Kademlia. Về mặt nghiên cứu, chúng tôi muốn tìm hiểu về vấn đề bảo mật bởi vấn đề bảo mật cũng là một vấn đề chính khi sử dụng một tập các nút tự quản lý, vì mô hình hiện tại không đủ để bảo vệ hệ thống khỏi những tác nhân cố tình phá hoại. Chúng tôi có dự định tìm hiểu về các vấn đề ngăn chặn các hành vi nguy hiểm trong mạng ngang hàng.

TÀI LIỆU THAM KHẢO

[1]Singh, A., Srivatsa, M., Liu, L., and Miller, T. Apoidea: A decentralized peer-to- peer architecture for crawling the world wide web. In Proceedings of the SIGIR 2003 Workshop on Distributed Information Retrieval (Aug. 2003).

[2]Efthymiopoulos Nikolaos, Christakidis Athanasios, Denazis Spiros, Koufopavlou Odysseas, Enabling locality in a balanced peer-to-peer overlay,

Global Telecommunications Conference, 2006.

[3]I. Stoica, R. Morris, D. Karger, M.F. Kaashoek, H. Balakrisnan, “Chord: A Scalable peer-to-peer lookup service for Internet applications”, IEEE/ACM Transactions on Networking, 2003

[4]Weiyu WU, Yang Chen, Xinyi Zhang, Xiaohui Shi, Lin Cong, Beixing Deng, Xing Li. LDHT: Locality-aware Distributed Hash Tables. In Proc. of the International Conference on Information Networking 2008 (ICOIN’08), Busan, Korea, Jan. 2008

[5]Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web máy tìm kiếm. Computer Networks and ISDN Systems, 1998.

[6]Allan Heydon and Marc Najork. Mercator: A scalable, extensible web crawler. World Wide Web, 1999.

[7]Burton Bloom. Space/time trade-offs in hash coding with allowable errors.

Communications of the ACM, July 1970.

[8]S. Ratnasamy, P. Francis, M. Handley and R. Karp, “A Scalable Content- Addressable Network”, In Proceedings of ACM SIGCOMM’01, Aug. 2001 [9] M. Castro, P. Druschel, Y. C. Hu, and A. Rowstron. Exploiting network

proximity in peer-to-peer overlay networks, 2002. Submitted for publication. [10] B. Y. Zhao, L. Huang, J. Stribling, S. C. Rhea, A. D. Joseph, and J.

D.Kubiatowicz, “Tapestry: A resilient global-scale overlay for service deployment” IEEE Journal on Selected Areas in Communications, January 2004. [11] Antony Rowstron and Peter Druschel, “Pastry: Scalable, decentralized object location and routing for large-scale peer-to-peer systems” in Proc. IFIP/ACM International Conference on Distributed Systems Platforms (Middleware’01), (adsbygoogle = window.adsbygoogle || []).push({});

[12] Jiping Xiong, Youwei Zhang, Peilin Hong and Jinsheng Li, “Chord6: IPv6 based topology-aware Chord,” in Proc. ICNS’05, 2005.

[13] Shuheng Zhou, Gregory R. Ganger and Peter Steenkiste, “Locationbased node IDs: enabling explicit locality in DHTs,” Carnegie Mellon University, Tech. Rep. CMU-CS-03-171, 2003.

[14] http://www.cc.gatech.edu/projects/disl/Apoidea/

[15] http://build.software.informer.com/download-build-p2p-web-crawler-source/ [16] The GT-ITM homepage: http://www.cc.gatech.edu/projects/gtitm/.

[17] The PlanetLab homepage: http://www.planet-lab.org.

[18] Nguyễn Đại Thọ, Bài giảng công nghệ mạng ngang hàng, Bộ môn Mạng & Truyền thông Máy tính Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội, 2006-2007

Một phần của tài liệu Sử dụng thông tin gần kề vị trí trong khảo duyệt Web theo phương thức mạng ngang hàng (Trang 79)