Giới thiệu chung về thông tin gần kề vị trí

Một phần của tài liệu Sử dụng thông tin gần kề vị trí trong khảo duyệt Web theo phương thức mạng ngang hàng (Trang 48)

Các mạng phủ ngang hàng tự tổ chức giống nhƣ CAN [8], Chord [3], Pastry và Tapestry (hay cũng đƣợc gọi là DHT) là nền tảng lý thuyết cho rất nhiều các hệ thống phân tán phi tập trung. Các hệ thống này cung cấp tính năng mở rộng, khả năng chịu lỗi, cân bằng tải và khá nhiều ƣu điểm khác. Một khía cạnh quan trọng khác trong các hệ thống này là làm thế nào khai thác đƣợc thông tin liền kề vị trí trong tầng dƣới của Internet.

Bảng băm phân tán DHT là cơ sở cho hệ thống mạng ngang hàng có cấu trúc. DHT hỗ trợ cơ chế lƣu trữ và khôi phục từ cặp {khóa, giá trị} trên mạng phủ. Các hệ thống dựa trên DHT là thành phần quan trọng trong kiến trúc định tuyến của mạng ngang hàng. Trong các hệ thống dựa trên DHT, các nút đƣợc gán với một số định danh ngẫu nhiên duy nhất trong không gian định danh rộng lớn. Các đối tƣợng dữ liệu (hay còn gọi là giá trị) đƣợc đặt tại nút có định danh chịu trách nhiệm khóa duy nhất, khóa đƣợc chọn từ cùng không gian định danh khóa. Các truy vấn tìm kiếm đƣợc chuyển tiếp qua mạng phủ để tới các nút một cách nhanh chóng nhờ vào các định danh gần với khóa trong không gian định danh. Các hệ thống dựa trên DHT có thể đảm bảo bất kỳ đối tƣợng dữ liệu nào cũng có thể định vị thấy với một số nhỏ O(Log n) lần hop trong mạng phủ, trong đó n là số lƣợng các nút trong hệ thống. Tuy nhiên, số lƣợng hop trong mạng phủ không đủ để đánh giá hiệu năng của hệ thống dựa trên DHT. Một thƣớc đo khác là độ trễ giữa hai nút trong mạng phủ. Thuật toán định tuyến thƣờng bỏ qua tham số độ trễ giữa các hop đơn lẻ do độ trễ trên đƣờng đi thƣờng lớn hơn nhiều so với độ trễ giữa các nút trung gian.

Nếu xem nhƣ không có tính chất vị trí mạng trong DHT, thì đƣờng đi giữa hai nút trong mạng vật lý sẽ khác xa đáng kể so với đƣờng đi giữa hai nút đó trong mạng phủ. Do đó, độ trễ tìm kiếm trong mạng phủ có thể là khá lớn và ảnh hƣởng không tốt đến hiệu năng của các ứng dụng chạy trên DHT.

Có ba cách tiếp cận đƣợc đƣa ra trong khai thác thông tin liền kề vị trí trong giao thức DHT [4, 9] gồm:

- Định tuyến liền kề - Proximity Routing

- Lựa chọn hàng xóm kề cận - Proximity Neighbor Selection - Lớp phủ địa lý - Geographic Layout

Lựa chọn nút hàng xóm kề cận đã đƣợc áp dụng trong Tapestry và Pastry. Giao thức Chord và CAN cơ bản không áp dụng thông tin gần kề vị trí. Tuy nhiên, có thể áp dụng lớp phủ địa lý và định tuyến liền kề CAN [8], đối với giao thức Chord cũng có thể áp dụng lớp phủ địa lý và lựa chọn nút hàng xóm liền kề.

3.1.1 Định tuyến liền kề

Định tuyến liền kề là phƣơng pháp lựa chọn cách định tuyến tức không chỉ lựa chọn nút hàng xóm có thể chuyển tiếp khóa “tốt nhất”, mà còn là chọn nút hàng xóm để có độ trễ “thấp nhất”. Tại mỗi nút trung gian, một nút gần kề đƣợc lựa chọn trong các nút trong bảng định tuyến. Phƣơng pháp này nhằm cân bằng giữa quá trình định tuyến tới nút đích trong không gian định danh và việc chọn bảng ghi nào trong bảng định tuyến có nút gần nhất về mặt vị trí mạng.

Định tuyến liền kề đã đƣợc đề xuất đầu tiên trong CAN [8]. CAN không cần thay đổi việc duy trì và cấu trúc bảng định tuyến vì các bảng định tuyến đƣợc tạo ra không dựa trên đặc điềm liền kề vị trí mạng. Nhƣng mỗi nút trong CAN cần đo thời gian RTT tới các hàng xóm của mình (dựa trên entry trong bảng định tuyến) và chuyển tiếp các gói tin tới hàng xóm với tỷ lệ tối đa quá trình xử lý không gian d- chiều (d-dimensional) trên RTT. Vì số lƣợng hàng xóm trong CAN là nhỏ (trung bình 2d) và các hàng xóm lân cận đƣợc phân bố ngẫn nhiên trên topo mạng, nên khoảng cách tới hàng xóm gần nhất trong CAN lớn hơn đáng kể so với khoảng cách tới nút gần nhất trong mạng phủ. Thêm vào đó, các tiếp cận này nhằm đạt mục tiêu là giảm khoảng cách giữa các nút trên đƣờng đi, tuy nhiên điều này có thể làm gia tăng số nút trung gian. Vì những hạn chế của kỹ thuật này nên kỹ thuật này ít hiệu quả hơn kỹ thuật bố trí mạng lƣới theo địa lý.

Vấn đề định tuyến liền kề ảnh hƣởng khá nhiều đến việc cải thiện hiệu suất định tuyến, nhƣng việc cải tiến này là có giới hạn vì trên thực tế có số ít các nút đƣợc lấy ra trong không gian định danh là nút gần nhất trong mạng vật lý. Trong cấu trúc bảng định tuyến của Pastry và Tapestry có phép tự do lựa chọn đƣợc nhiều nút trong danh sách các entry nhƣng cũng chính điều này cũng ảnh hƣởng đánh kể đến hiệu suất định tuyến.

3.1.2 Lựa chọn hàng xóm liền kề

Phƣơng pháp này là một biến thể của ý tƣởng trên, thông tin liền kề đƣợc sử dụng khi một nút lựa chọn hàng xóm của mình, không chỉ đơn thuần đƣợc dùng khi lựa chọn nút trung gian tiếp theo. Các entry trong bảng định tuyến đƣợc lựa chọn theo tiêu chí là các nút gần với nhau trong mô hình topo mạng thực, giữa các nút đang hoạt động có định danh thích hợp.

Lựa chọn hàng xóm liền kề đƣợc sử dụng trong cấu trúc bảng định tuyến của giao thức Tapestry [10] and Pastry [11]. Hai giao thức này lựa chọn nút gần nhất trong mô hình mạng thật dựa trên độ đo liền kề mạng giữa các nút mà định danh của nút có thêm tiền tố thích hợp.

3.1.3 Lớp phủ địa lý

Lớp phủ địa lý là cách mô tả vị trí mạng thật thông qua định danh nút. Với mục đích này, định danh nút đƣợc gán theo một cách nào đó mà đảm bảo các nút gần nhau trong mô hình mạng thật cũng gần nhau trong không gian khóa.

Các giao thức Chord và CAN cơ bản đều không có thuộc tính gần kề mạng. Tuy nhiên, lớp phủ địa lý có thể áp dụng đối với giao thức CAN và Chord.

Lớp phủ địa lý đƣợc biết đến là kỹ thuật cải tiến hiệu suất định tuyến trong CAN. Kỹ thuật này ánh xạ không gian d-chiều để mô tả mạng vật lý, tức là các nút là hàng xóng trong không gian d-chiều (và dó đó có trong bảng định tuyến của mỗi nút) thì gần nhau trong mạng vật lý. Để thực hiện điều này, các nút đo RTT giữa chúng và có một tập các server landmark thực hiện tính toán vị trí toạ đọa các nút trong không gian CAN. Kỹ thuật này có thể cho hiệu suất tốt nhƣng có một số nhƣợc điểm là nó không hoàn toàn là hệ thống tự tổ chức; vì cần đến nhiều server landmark. Ngoài ra, kỹ thuật này có thể là mất tính cân bằng đáng kể trong việc phân phối các nút trong không gian CAN dẫn tới tập trung nhiều tại một số nút.

Khi xem xét phƣơng pháp này trong Chord, Tapestry và Pastry sẽ có một số vấn đề phát sinh thêm. Trong khi bố trí mạng lƣới theo địa lý cung cấp thông tin gần kề trong quá trình định tuyến, sẽ cần bỏ qua một số các nút hàng xóm trong

không gian định danh khoá, điều này sẽ có kết quả là không còn tính năng mềm dẻo và khả năng phục hồi cặp khoá/giá trị. Tính toàn vẹn định tuyến của giao thức Chord và Pasty có thể bị phá vỡ khi một entry rời khỏi hệ thống hoặc successor bị lỗi. Tƣơng tự nhƣ vậy, cả hai giao thức cần khôi phục lại cặp khoá/giá trị của nút hàng xóm trong không gian tên để đáp ứng khả năng chịu lỗi. Với việc gán định danh nút dựa trên thông tin liền kề, các nút hàng xóm lân cận nhiều khả năng bị thất bại.

Hiện nay đã có một số nghiên cứu đƣa ra phƣơng áp dụng lớp địa lý vào các giao thức dựa trên DHT nhƣ Chord6 [12, 13]. Trong giao thức Chord6 [12] là một phiên bản Chord dựa trên Ipv6 đƣợc xây dựng thoả mãn mục tiêu lớp phủ địa lý. Giao thức này thừa kế các đặc điểm địa chỉ Ipv6. Trong Chord6, định danh của một nút gồm hai phần gồm bit cao thu đƣợc bằng cách băm tiền tố địa chỉ Ipv6 của nút, trong đó phần bit thấp là giá trị băm trên phần còn lại địa chỉ Ipv6. Trong [13], tác giả đã đề xuất gán định danh nút dựa trên thuộc tính vị trí để phản ánh vị trí mạng vật lý. Định danh nút dựa trên thuộc tính vị trí là một chuỗi tiền tố đại diện cho vùng địa lý của nút đó thuộc về và hậu tố là các bit đƣợc sinh ra ngẫu nhiên. Lƣợc đồ này dựa trên đặc điểm vị trí địa lý tức là các tiền tố khác nhau là đại diện của các vùng địa lý khác nhau.

3.2 Thiết kế mô hình LDHT 3.2.1 Ý tƣởng căn bản

Một phần của tài liệu Sử dụng thông tin gần kề vị trí trong khảo duyệt Web theo phương thức mạng ngang hàng (Trang 48)