Tìm kiếm nội dung 29.

Tìm kiếm là một bước quan trọng trong truy cập dữ liệu. Điều đó là chắc chắn là trường hợp của truy cập nội dung P2P. Mạng P2P tận dụng ưu điểm của các nguồn phân phối tại các nút peer. Nội dung nằm rải rác và trùng lặp trong mạng P2P một cách phân tán.

Do đó, nội dung thu hồi trong mạng P2P cần phải suy tính với mô hình mạng cụ thể cũng như các đặc điểm của nội dung được truy cập. Lý tưởng nhất, một thuật toán tìm

kiếm nội dung P2P nên bao gồm việc hỗ trợ các truy vấn phức tạp, chi phí thấp trong thực hiện, và khả năng trả lại truy vấn nhanh chóng với độ chính xác cao. Ngày nay, hầu hết mạng P2P có cấu trúc hỗ trợ khóa và ID tĩnh dựa trên tra cứu đối tượng trong khi các mạng P2P không có cấu trúc có thể xử lý một số loại hình phức tạp của các truy vấn, chẳng hạn như phạm vi truy vấn. Mặc dù truy vấn ngữ nghĩa và truy vấn dựa trên nội dung có thể làm phong phú thêm kinh nghiệm người dùng trong tìm kiếm nội dung, nhưng họ hầu như không được hỗ trợ bởi bất kỳ các hệ thống phân phối nội dung P2P nào hiện nay. Điều này là do những loại truy vấn này vẫn còn đặt ra những thách thức lớn về kỹ thuật.

Tổ chức và khả năng tìm kiếm nội dung chủ yếu phụ thuộc vào việc lập chỉ mục nội dung và tổ chức quản lý cũng như topology mạng P2P. Bảng 6 tóm tắt việc tổ chức lập chỉ mục P2P. Trong một hệ thống lập chỉ mục tập trung, nơi chỉ mục được lưu giữ tại một vị trí trung tâm trong hệ thống P2P, tìm kiếm nội dung nói chung thực hiện bằng cách chuyển tiếp bản tin truy vấn đến máy chủ chỉ mục tập trung để tạo điều kiện cho tra cứu đối tượng. Máy chủ trả về kết quả tra cứu, trong đó có vị trí của các đối tượng nội dung mong muốn. Nội dung được truyền đi sau đó trong một kiểu P2P. Tổ chức lập chỉ mục định vị, phân tán và lai ghép có thể có tác dụng giảm nguy cơ gián đoạn mạng do tính chất phân phối của chúng. Sự bảo dưỡng phải được thực hiện khi thiết kế các lược đồ truy vấn để giảm chi phí liên quan đến chuyển tiếp và tràn lụt bản tin truy vấn.

Nhiều người kết hợp tìm kiếm DHT với P2P. Điều này là do tra cứu DHT dựa trên đối tượng là một lược đồ tìm kiếm được chấp nhận rộng rãi trong các cấu trúc mạng P2P. Hầu hết các DHT dựa trên lược đồ dựa vào các khóa bằng số để lập chỉ mục và truy vấn các đối tượng trong mạng P2P. Tìm kiếm đối tượng được thực hiện bằng cách sử dụng khoảng cách khóa và định tuyến theo hướng các peer có các khóa gần nhất với khóa của đối tượng truy vấn. Nó mang lại key hoặc ID hiệu quả dựa trên tra cứu ràng buộc chính xác với các trả về truy vấn đảm bảo. Tuy nhiên, quản lý một DHT phù hợp yêu cầu nỗ lực đáng kể do tính động của các topology mạng. Một nhược điểm của hệ thống dựa trên DHT là chúng không có khả năng hỗ trợ các truy vấnphức tạp. Trong hầu hếtcác ứng dụng, rõ ràng, cáctruy vấn phạm vi, từ khóa, và ngữ nghĩalàhữu ích hơnso vớikhóahoặcIDdựa trêntìm kiếmso sánh chính xác.

Bảng6:Lược đồ lập chỉ mụcP2P Lược đồ lập chi mục Chi mụcvị trí

Truy vấnlan truyền Cung cấp đối tượng nội dung Hạn chế khóa Chỉ mục Máy chủ trung

Truy vấn được gửi tới các máy chủ trung tâm

Truy vấn peer nhận được vị trí đối tượng nội

Tính dễ tổn thương khi

tập trung

tâm và giải quyết trực tiếp tại máy chủ trung tâm

dung, tức là địa chỉ của peer nguồn nơi có đối tượng nội dung, sau đó nó sẽ gửi một yêu cầu để phân phối tới peer nguồn trực tiếp,đối tượng nội dung bây giờ có thể được chuyển từ peer nguồn đến peer đích một cách trực tiếp máy chủ bị tấn công và khả năng xảy ra hiệu ứng thắt cổ chai tại máy chủ Chỉ mục cục bộ Peer cục bộ

Truy vấn được lan truyền peer to peer cho đến khi các chỉ mục đối tượng nội dung mong muốn được tìm thấy

Truy vấn peer nhận được vị trí của các đối tượng nội dung, gửi một yêu cầu tới các peer nguồn, và sau đó nhận được các đối tượng nội dung từ peer nguồn Chi phí cao liên quan đến truy vấn tràn lụt và hiệu quả phục hồi đối tượng thấp Chỉ mục phân tán Phân tángiữa cácpeer

Truy vấn được gửi tới peer hàng xóm dựa trên bảng định tuyến peer cho đến khi các chỉ mục đối tượng đích được tìm thấy

Truy vấn peer nhận được vị trí của các đối tượng nội dung, gửi một yêu cầu tới các peer nguồn, và sau đó nhận được các đối tượng nội dung từ peer nguồn Có thể có trễ tại peer khi gia nhập do thiết lập chỉ mục Chỉ mục lai ghép Siêu nút; các siêu nút và các nút peer cục bộ Truy vấn trước hết sẽ tìm kiếm cục bộ tại peer cục bộ và siêu nút được kết nối trực tiếp với các peer cục bộ. Nếu đối tượng nội dung không có trong các chỉ mục cục bộ, truy vấn được lan truyền tới siêu nút khác theo bảng định tuyến cho đến khi nó được tìm thấy hoặc đạt tới một ngưỡng Time-To-Live được định trước (TTL)

Truy vấn peer nhận được vị trí của các đối tượng nội dung, gửi một yêu cầu tới các peer nguồn, và sau đó nhận được các đối tượng nội dung từ peer nguồn Siêu nút để duy trì truy vấn tràn lụt thường xuyên là cần thiết

Từ khoá tìm kiếm có thể được nhận ra trong các mạng P2P sử dụng mô hình không gian vector phổ biến và/hoặc dựa trên phương pháp tiếp cận lập chỉ mục ngược. Chi phí cao liên quan đến truy vấn tràn lụt là một trong những nhược điểm chính của những phương pháp tiếp cận trên nếu một lưu đồ chỉ mục không tập trung được sử dụng. Khi các chỉ mục được phân phối qua peer, một truy vấn đơn giản có thể gây ra một số lượng lớn dữ liệu được truyền qua mạng. Để giảm chi phí, người ta có thể tận dụng lợi thế của các phương án phục hồi thông tin thông thường. Ví dụ, nội dung tóm tắt dựa trên chỉ mục ngược đã được đề xuất trong [120]. Từ khi một truy vấn có thể được xử lý bằng cách truyền một danh sách ứng cử viên nhỏ hơn nhiều, nhu cầu băng thông truy vấn tràn lụt có thể được giảm đáng kể. Đổi lại là yêu cầu thêm không gian lưu trữ và quan trọng nhất là giảm tỷ lệ thu hồi trong DHT dựa trên lớp phủ được cấu trúc. Ngày nay, làm thế nào để triển khai các từ khóa tìm kiếm hiệu quả vẫn còn là một vấn đề thách thức trong P2P. So với lớp phủ được cấu trúc, lớp phủ phi cấu trúc đã tự do hơn trong việc thực hiện các truy vấn phức tạp. Tràn lụt (flooding), lặp lại sâu (iterative depending), và đi bộ ngẫu nhiên (random walk) thường được áp dụng với phương pháp tìm kiếm trong P2P phi cấu trúc.

Bảng 7 liệt kê các thuộc tính của các loại phương án tìm kiếm trong mạng P2P phi cấu trúc.

Bảng 7: So sánh các phương án tìm kiếm trong P2P phi cấu trúc

Sơ đồ tìm

kiếm Đặc điểm Chi phí

Tràn lụt (flooding)

Yêu cầu truy vấn đượ tràn lụt thông qua mạng P2P với peer truy vấn ở trung tâm của tràn lụt

Cao.Số lượnglớn các bản tin truy vấn được truyền cho một truy vấn đơn

Lặp lại sâu (iterative depending)

Một vòng phát triển được sử dụng để lặp đi lặp lại tràn lụt sâu phạm vi truy vấn cho đến khi các đối tượng đích được tìm thấy[121]

Cao nhưng thấp hơn so với phương pháp tiếp cận dựa vào tràn lụt. Số lượng lớn các bản tin truy vấn được truyền cho một truy vấn đơn

Đi bộ ngẫu nhiên

(random walk)

Các truy vấn nút chuyển tiếp (đi bộ) thông điệp truy vấn(người đi bộ) tới một hàng xóm lựa chọn ngẫu nhiên mà hàng xóm lựa chọn ngẫu nhiên của nó chuyển tiếp bản tin truy vấn cho đến khi các đối tượng đích được định vị.

Thấp tới trung bình. Trong một sơ đồ đi bộ ngẫu nhiên K, chi phí tỷ lệ thuận với K, trong khi trễ là tỷ lệ nghịch với K

Tìm kiếm

được dẫn

"Dẫn hướng" vào nơi mà bản tin truy vấn chuyển tiếp được sử dụng

Thấp. Mặc dù tỷ lệ thu hồi có thể được giảm đáng kể nếu

hướng (Guided search)

để nâng cao hiệu quả truy vấn. Từ khoá vector, truy vấn chức năng tương tự, phân loại peer và hồ sơ [122] có thể được sử dụng để dẫn hướng việc chuyển tiếp truy vấn

chức năng "dẫn hướng" không hoàn hảo

Một truy vấn phục hồi tất cả các đối tượng từ một biên phía trên và một biên phía dưới, ví dụ, một phạm vi chuyên biệt, được gọi là một khoảng truy vấn. Tương tự như vậy, một truy vấn phục hồi tất cả các đối tượng trong phạm vi đa chiều được gọi là một loạt truy vấn phạm vi đa chiều. Phương pháp giải quyết các truy vấn trong phạm vi trong các vấn đề cơ sở dữ liệu cổ điển có thể dễ dàng nhập vào trong mạng P2P phi cấu trúc. Tuy nhiên, sẽ tương đối khó khăn hơn để đạt được trong P2P cấu trúc do bản chất "rõ ràng" của DHT. Nếu phạm vi kết các hợp khóa bằng số được tạo ra, phạm vi truy vấn có thể được hỗ trợ trong các hệ thống dựa DHT.

Thuật toán băm nhạy cảm cục bộ (LSH - Locality Sensitive Hashing) [123] là một trong những cách tiếp cận thuật toán băm các phân vùng dữ liệu tương tự với nhận diện gần và phạm vi tương tự như các peer giống nhau với xác suất cao. Đáng chú ý, LSH có khả năng mở rộng kém. SkipIndex [124], một phân vùng khác dựa trên sơ đồ cung cấp giải pháp tới khoảng truy vấn cũng đã chứng minh kết quả ấn tượng ở các mạng P2P quy mô nhỏ. Làm thế nào để thiết kế một sơ đồ truy vấn phạm vi có thể mở rộng và làm thế nào để thiết kế một sơ đồ có thể cung cấp khả năng mở rộng và hỗ trợ truy vấn phạm vi đa chiều hiệu quả cho DHT dựa trên P2P vẫn còn những thách thức. Một hệ thống thông tin truyền thống, các kiểu tìm kiếm khó khăn nhất là tìm kiếm ngữ nghĩa và tìm kiếm dựa trên nội dung. Điều này là chắc chắn đúng với các mạng P2P. Làm sao để hỗ trợ tìm kiếm ngữ nghĩa và tìm kiếm dựa trên nội dung hiệu quả cho truy cập nội dung đa phương tiện sẽ cần sự nỗ lực đáng kể và nghiên cứu liên tục.

P2P treaming và downloading