Bài báo [4] đã sử dụng ba giao thức cơ bản của DHT gồm Chord, Symphony và Kademlia kết hợp với phƣơng pháp đề suất để tạo nên hệ thống dựa trên LDHT. Hiệu suất của LDHT đƣợc đánh giá và so sánh với ba giao thức DHT gốc theo hai topo mạng, một là theo chuẩn của GT-ITM [16] và hai là theo mô hình Internet thật.
Mô hình mô phỏng dựa trên cấu trúc Chord, Symphony và Kademlia kết hợp với thiết kế LDHT. Để chứng minh tính hiệu quả của hệ thống, tác giả [4] đã thực hiện trên hai mô hình mạng cho việc đánh giá hiệu suất là topo 1 và topo 2.
Topo 1 (TP1) đƣợc tạo mởi GT-ITM trong phạm vi 4000 nút. Topo 1 là topy hai mức. Mức trên cùng gồm 200 AS trong 150 bởi lƣới 150. Mức dƣới gồm số lƣợng nút ngẫu nhiên trong AS 10 bởi 10 grid.
Topo 2 (TP2) là tập hợp danh sách khoảng cách Internet thật của 226 PlanetLab [17] dùng trong phạm vi 4520 nút. Danh sách này cho độ trễ giữa các nút trong PlanetLab theo cách ping để đo độ trễ giống nhƣ môi trƣờng thật. Với 226 nút PlanetLab đƣợc phân tán thuộc 80 AS khác nhau.
Sử dụng thuật toán băm SHA-1 dùng để băm địa chỉ IP với độ dài là 160 bit và có 4*104 khoá ngẫu nhiên cho mạng phủ. Đối với mỗi hệ thống, thực hiện 4*104
lần các câu truy vấn ngẫu nhiên để thu đƣợc kết quả mô phỏng trung bình và kết quả thống kê (tức là thêm 4*104
khóa ngẫu nhiên vào mạng phủ).
Để đánh giá thuật toán, xem nhƣ các đại lƣợng đo đƣợc hiểu theo cách sau: - Độ dài đƣờng đi: độ trễ thời gian của một truy vấn từ một nút nguồn đến nút
đích. Đại lƣợng đo này có hiệu quả cao nhƣng vẫn chƣa chính xác để do cấu trúc mạng và hiệu suất phân phối dữ liệu trong các mạng phủ khác nhau. - RDP (Relative delay penalty): tỷ lệ của độ trễ định tuyến nút nguồn tới nút
đích giữa một cặp nút so với đƣờng dẫn IP trực tiếp trên một truy vấn. RDP đƣợc hiểu là chi phí định tuyến tƣơng đối trong mạng phủ. Tỷ lệ này nhỏ thì sẽ cho kết quả đƣờng đi trên mạng phủ tốt hơn hay đƣờng đi này phù hợp với đƣờng đi trên mạng IP.
- Số lƣợng nút trung gian (hop): số lƣợng nút trung gian theo mỗi đƣờng đi của một truy vấn từ nút nguồn đến nút địch trong mạng phủ
Kết quả mô phỏng của bài báo [4] trong bảng 2 cho thấy hệ thống dựa trên LDHT có độ dài đƣờng đi nhỏ hơn so với hệ thống ban đầu đối với cả ba giao thức trên dựa trên DHT trong cả hai mô hình topo. Điều này cho thấy LDHT hiệu quả hơn về khía canh độ trễ giữa nút đầu và nút cuối. Trên thực tế, đƣờng đi truy vấn trên mạng phủ dựa LDHT có nhiều kết nối intra-domain giữa các nút hàng xóm, sẽ nhanh hơn theo thuật ngữ độ trễ của kết nối inter-domain. Vì trong mạng phủ DHT ban đầu không có thuộc tính vị trí mạng cho từng nút, nhiều kết nối tới nút hàng xóm có liên kết inter-domain độ trễ cao.
Bảng 3 cho thấy RDP trung bình của mỗi giao thức và topo. Có thể nhận thấy rằng trong cả hai topo, RDP của ba hệ thống dựa trên LDHT thấp hơn so với dựa trên DHT. Điều này đồng nghĩa với đƣờng đi điểm đầu-cuối giữa hai nút trong mạng phủ LDHT nhỏ hơn so với DHT ban đầu trong mạng IP vật lý. Chi phí định tuyến tƣơng đối của mạng phủ LDHT ít hơn so với mạng phủ DHT.
Bảng 3. RDP trung bình trong LDHT
Về độ đo số lƣợng nút trung gian, các kết quả [4] chỉ ra rằng số lƣợng nút trung gian của hệ thống dựa trên LDHT cho kết quả giống nhƣ hệ thống dựa DHT gốc. Lý do là thiết kế LDHT chỉ thay đổi theo cách thức gán định danh, mà không thay đổi chiến lƣợc định tuyến DHT gốc và bảng lựa chọn hàng xóm nào cả.
Bài báo [4] phát triển Chord, Symphony và Kademlia dựa trên LDHT để đánh giá hiệu suất của thiết kế theo ba giao thức trên. Mô phỏng đƣợc thực hiện trên cả hai topo GT-ITM và mô hình Internet thật trên Planet Lab. Kết quả đã chứng minh đƣợc tính hiệu quả LDHT.
Ƣu điểm của LDHT so với DHT truyền thống là cho hiệu suất hệ thống tốt hơn theo khái niệm độ trễ giữa hai nút nhƣ độ dài đƣờng đi và RDP mà không tốn thêm số nút trung gian. Đồng thời, LDHT hỗ trợ đƣợc cho nhiều giao thức DHT cơ bản khác nhau và hoạt động tốt theo nhiều mô hình topo.
Từ đó, [4] cho thấy rằng LDHT có thể áp dụng cho nhiều giao thức DHT và topo khác nhau. So sánh với hệ thống dựa trên DHT gốc, hệ thống dựa trên LDHT có hiệu năng tốt hơn về độ trễ giữa nút đầu cuối, mà không tốn thêm nhiều hop trong mạng phủ.
3.4 Kết luận
Bố trí mạng lƣới địa lý có thể là cách tiếp cận hợp lý cho giao thức CAN nhƣng có thể có ảnh hƣởng đối với các giao thức dựa trên DHT khác do tác động đến khả năng chịu lỗi. Các giao thức DHT nhƣ Pastry và Chord dựa vào danh sách các nút hàng xóm trong không gian định danh để đảm bảo tính toàn vẹn định tuyến và khả năng khôi phục cặp khóa/giá trị. Việc áp dụng thông tin liền kề vị trí theo phƣơng pháp bố trí mạng lƣới địa lý cho các giao thức này có thể làm gia tăng mối quan tâm. Ngay cả trong giao thức CAN, xây dựng bố trí địa lý trong hệ thống tự tổ
chức hoàn thiện là rất khó khăn. Khi sử dụng server landmark thì cần phải quản lý server này và việc này cũng gây nên hiện tƣợng thắt nút cổ chai khi tải cao hoặc loại tấn công từ chối dịch vụ.
Định tuyến gần kề không yêu cầu phải thay đổi cấu trúc bảng định tuyến và kỹ thuật quản lý hệ thống, trong khi phƣơng pháp lựa chọn hàng xóm liền kề đòi hỏi kỹ thuật tốn kém hơn nhiều. Đổi lại, phƣơng pháp lựa chọn hàng xóm liền kề hiệu quả hơn do các entry trong bảng định tuyến đƣợc chỉ đến các nút gần hơn trong lựa chọn đầu tiên. Tuy nhiên, định tuyến gần kề nên cần đƣợc thiết kế kỹ lƣỡng để tránh các trƣờng hợp xấu có thể xảy ra nhƣ định tuyến đến một châu lục khác rồi quay lại vị trí ban đầu. Mức độ hiệu quả của phƣơng áp lựa chọn hàng xóm liền kề phụ thuộc vào thuật toán định tuyến sử dụng DHT. Các thuật toán có entry bảng định tuyến đƣợc lựa chọn giữa danh sách các nút có khoảng cách hop trung bình thấp hơn so với việc áp dụng nhiều ràng buộc trong các thực thể của bảng định tuyến. Do đó, kỹ thuật này có hiệu quả hơn trong Pastry và Tapestry.
Thuật toán đƣợc mô tả trong [4] cho thấy rằng lựa chọn hàng xóm liền kề có thể đƣợc thực hiện trong Pastry với tổng chi phí thấp và rằng nó rất có hiệu quả đối với khai thác vấn đề liền kề mạng; do có độ trễ thấp và hội tụ định tuyến nhanh chóng. Kinh nghiệm với các ứng dụng đƣợc xây dựng trên tầng trên cùng của Pastry cho thấy rằng điều này là rất quan trọng. Nó hiện tại đang là một câu hỏi mở là phƣơng pháp lựa chọn hàng xóm có hiệu quả có thể đƣợc áp dụng cho CAN và Chord không, hoặc nếu khác, liệu có hiệu quả bằng so với các kỹ thuật hiện tại để khai thác vấn đề liền kề mạng trong các giao thức nhƣ CAN và Chord.
Chƣơng này cũng đã trình bày về khái niệm thông tin gần kề vị trí trong mạng ngang hàng và thiết kế DHT có thuộc tính gần kề vị trí đƣợc gọi là LDHT. Thay vì ngán ngẫu nhiên định danh nút nhƣ trong mô hình DHT truyền thống, các nút trong LDHT đƣợc gán theo định danh liền kề vị trí theo tham số ASN, nhằm khai thác thuộc tính vị trí mạng vào hệ thống dựa trên DHT. Việc gán định danh của nút vào lớp phủ địa lý theo cách các nút có định danh gần nhau trong không gian định danh sẽ gần nhau trong mô hình mạng thật, vì thế nút trong không gian định danh sẽ có nhiều hàng xóm gần hơn số lƣợng hàng xóm cách xa ở mô hình mạng vật lý, và độ trễ mỗi truy vấn giữa hai nút cũng giảm xuống.
Tác giả [4] đã đánh giá thiết kế LDHT theo các hệ thống DHT (Chord, Symphony, Kademlia) và theo nhiều topo khác nhau bằng thực nghiệm. Theo đánh giá của [4] LDHT cải tiến hơn rất nhiều các giao thức DHT truyền thống về độ trễ giữa các nút đầu cuối. LDHT có thể phù hợp với nhiều hệ thống dựa trên DHT và
có thể hoạt động hiệu quả trên hầu hết các hệ thống ngang hàng có cấu trúc gồm Chord, Symphony, Kademlia.
Từ kết quả nghiên cứu của bài báo [4], chúng tôi đã dựa trên LDHT để xây dựng mô hình mạng phủ DHT có thông tin vị trí liền kề hay phản ánh đƣợc mô hình mạng thật và sẽ đƣợc đề cập chi tiết trong chƣơng tiếp theo.
Chƣơng 4: GIẢI PHÁP SỬ DỤNG THÔNG TIN LIỀN KỀ VỊ TRÍ TRONG KHẢO DUYỆT WEB NGANG HÀNG
Với sự phát triển thành công của các ứng dụng nhƣ Gnutella, Kazaa, và Freenet,… công nghệ mạng ngang hàng đã đƣợc nhìn nhận lại ở tầm cao hơn trong một vài năm qua. Các hệ thống ngang hàng là các hệ thống tính toán phân tán mà trong đó các nút tham gia kết nối trực tiếp với nhau để thực hiện nhiệm vụ phân phối hoặc trao đổi thông tin hoặc thực thi nhiệm vụ. Mạng ngang hàng dựa trên DHT là một trong các hệ thống ngang hàng có cấu trúc. Kiến trúc mạng ngang hàng dựa trên DHT nhƣ Chord [3], CAN [8], Tapestry [10], Pastry [11] có một số đặc điểm đối lập so với kiến trúc client/server truyền thống, vì kiến trúc này có khả năng mở rộng trên phạm vi rộng lớn nên các ứng dụng có đƣợc các đặc tính mong muốn nhƣ khả năng mở rộng, tự quản lý, tự tổ chức… Mặc dù các ứng dụng nhƣ tên miền chia sẻ file và hệ thống lƣu trữ đã thu đƣợc nhiều lợi ích từ việc sử dụng kiến trúc mạng ngang hàng nhƣng vẫn chƣa đạt đến thành các ứng dụng cốt lõi và có khá nhiều dịch vụ sử dụng công nghệ ngang hàng ở quy mô toàn cầu. Lý do chính ở đây là các hệ thống này khó đáp ứng đƣợc cả hai yêu cầu: khả năng mở rộng, và khái niệm về gần kề vị trí.
Cân bằng hệ thống là điều kiện cần thiết cho khả năng mở rộng trên mạng dựa trên DHT gồm cân bằng định tuyến và cân bằng tải. Tính năng cân bằng tải của hệ thống DHT đã đƣợc giới thiệu trong khá nhiều các nghiên cứu nhƣ [3]. Với yêu cầu thứ hai về khái niệm gần kề vị trí đƣợc hiểu là nút trong hệ thống DHT phải đƣợc phân bố theo cấu trúc topo mạng. Các nút trong mạng phủ đƣợc bố trí làm sao có thể phản ánh chính là mô hình trên mạng vật lý thật. Để làm đƣợc điều này, mạng phủ cần có thông tin về về vị trí và không gian giữa các nút kề nhau. Theo khái niệm này, cần phân biệt hai loại nút kề nhau trong mạng DHT: liền kề tương đối (relative proximity) và liền kề tuyệt đối (absolute proximity). Liền kề tƣơng đối đƣợc hiểu là hàng xóm của một nút trong mạng phủ không nhất thiết phải là các nút gần nhau về mặt vật lý. Ngƣợc lại là liền kề tuyệt đối nút gần kề trong mạng phủ cũng sẽ là nút gần nhất trong mạng vật lý thật. Và nhƣ theo khái niệm liền kề trong chƣơng 3 liền kề tuyệt đối chính là phƣơng pháp tiếp cận lớp phủ địa lý. Khái niệm về gần kề vị trí cũng đã đƣợc đề cập trong [4] đƣợc gọi là LDHT. Tác giả [4] thay vì gán ngẫu nhiên định danh nút trong mô hình DHT truyền thống đã sử dụng ASN để thực hiện gán định danh nút theo vị trí địa lý mạng. Theo cách này, các nút gần nhau về mạng vật lý cũng sẽ gần nhau trong không gian khoá.
Đã có một số nghiên cứu đề xuất kiến trúc thoả mãn của hai yêu cầu trên. Nhƣ trong bài báo [2] đã đề xuất một kiến trúc dựa trên DHT đáp ứng đƣợc yêu cầu
về liền kề vị trí trong mạng phủ mà không mất đi thuộc tính cân bằng tải hệ thống. Tác giả [2] đã áp dụng xây dựng trên mô hình CAN và đƣa ra hai mạng phủ, V- CAN dùng để duy trì cân bằng hệ thống và L-CAN dùng để phản ánh mô hình mạng sử dụng thông tin gần kề vị trí. Theo tác giả [2] hệ thống này có thể đƣợc sử dụng hiệu quả cho các ứng dụng mạng trong phạm vi rộng lớn. Tuy nhiên bài báo cũng mới chỉ đề ra kiến trúc nền tảng mà chƣa đƣa ra cách thức xây dựng L-CAN phản ánh đƣợc mô hình mạng vật lý thật.
Chính nhờ vào những ƣu điểm nổi bật của mạng ngang hàng mà đặc biệt là mạng ngang hàng dựa trên DHT, nên đã có khá nhiều hệ thống khảo duyệt web dựa trên mạng ngang hàng nhƣ Apoidea [3], Odissea, UbiCrawler. Hệ thống khảo duyệt Apoidea do có mô hình gần giống với mạng Chord nên đã đáp ứng đƣợc các yêu cầu của hệ thống khảo duyệt web trên mạng ngang hàng nhƣ cân bằng tải giữa các nút, hiệu quả trong việc tìm kiếm nút chịu trách nhiệm, có tính mở rộng và khả năng chịu lỗi. Tuy nhiên [3] mới chỉ đề cập vấn đề gần kề về mặt địa lý của các nút sau khi các nút này đã đƣợc phân bố trên không gian định danh nên rất có thể việc phân bố ngẫu nhiên đó có thể cho kết quả các nút khảo duyệt tên miền không gần nhau về mặt địa lý mạng với server đƣợc khảo duyệt, trong khi đó có nhiều nút khác gần hơn có thể khảo duyệt tốt hơn. Vì vậy vấn đề đặt ra ở đây là làm sao có thể áp dụng thông tin gần kề vị trí để cải tiến về tốc độ khảo duyệt web và tốc độ tìm kiếm của hệ thống Apoidea? Với ý tƣởng này, chúng tôi đề xuất một mô hình kiến trúc mạng phủ D-Chord có thể phản ánh đƣợc thuộc tính liền kề vị trí mà không làm mất đi tính cân bằng tải của hệ thống, để từ đó áp dụng mô hình kiến trúc này vào hệ thống khảo duyệt web Apoidea, phát triển thành hệ thống khảo duyệt web D-Apoidea.