1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm thông tin theo các giá trị thuộc tính trên mạng ngang hàng có cấu trúc

71 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 1,29 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Huế TÌM KIẾM THƠNG TIN THEO CÁC GIÁ TRỊ THUỘC TÍNH TRÊN MẠNG NGANG HÀNG CĨ CẤU TRÚC Ngành: Công nghệ Thông tin Chuyên ngành: Truyền liệu Mạng máy tính Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN HOÀI SƠN Hà Nội - 2008 Trường Cao Đẳng Giao Thông VậnTải Lời cảm ơn Tôi xin bày tỏ lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin – Đại học Công nghệ - ĐHQG Hà Nội, đặc biệt thầy cô giáo môn Mạng truyền liệu, tạo điều kiện thuận lợi giúp đỡ thời gian tơi học tập Tơi xin bày tỏ lịng biết ơn chân thành, lời cảm ơn sâu sắc thầy giáo TS Nguyễn Hồi Sơn tận tình hướng dẫn, định hướng cho giải vấn đề luận văn Tôi xin bày tỏ lời cảm ơn cha mẹ, gia đình, đồng nghiệp bạn học viên lớp Cao học K12T3 động viên, giúp đỡ, góp ý cho tơi nhiều q trình hồn thành luận văn Hà Nội, ngày tháng 11 năm 2008 Phạm Thị Huế Lời cam đoan Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tôi, tổng hợp từ nguồn tài liệu khác Tất tài liệu tham khảo điều có xuất xứ rõ ràng, trích dẫn hợp pháp liệt kê đầy đủ mục tài liệu tham khảo luận văn Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 03 tháng 11 năm 2008 Phạm Thị Huế MỤC LỤC Trang phụ bìa Lời cam đoan Lời cảm ơn Mục lục Danh mục thuật ngữ từ viết tắt Danh mục bảng biểu Danh mục hình vẽ MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ MẠNG NGANG HÀNG 10 1.1 Khái niệm mạng ngang hàng 10 1.2 Ưu, nhược điểm mạng ngang hàng 15 1.3 Kết luận 16 CHƯƠNG MẠNG NGANG HÀNG CÓ CẤU TRÚC 18 2.1 Mạng ngang hàng có cấu trúc dựa DHT 18 2.1.1 Khái niệm mạng ngang hàng có cấu trúc 18 2.1.2 Các tính chất mạng DHT 19 2.2 Mạng ngang hàng có cấu trúc CHORD 20 2.2.1 Mơ hình mạng Chord 20 2.2.2 Ánh xạ khóa vào node Chord 21 2.2.3 Tìm kiếm mạng Chord 22 2.2.4 Tham gia ổn định mạng 22 2.3 Kết luận 23 CHƯƠNG MỘT SỐ GIẢI PHÁP PHÂN PHỐI VÀ TÌM KIẾM THƠNG TIN TRÊN MẠNG NGANG HÀNG CÓ CẤU TRÚC 24 3.1 INS/Twine 24 3.1.1 Giải pháp 24 3.1.2 Nhận xét 28 3.2 CDS 29 3.2.1 Giải pháp 29 3.2.2 Nhận xét 34 3.3 Data Indexing 35 3.3.1 Giải pháp 35 3.3.2 Nhận xét 41 3.4 Kết luận 41 CHƯƠNG GIẢI PHÁP TÌM KIẾM THƠNG TIN THEO CÁC THUỘC TÍNH/GIÁ TRỊ TRÊN MẠNG NGANG HÀNG CÓ CẤU TRÚC 42 4.1 Ý tưởng 42 4.2 Mơ hình giải pháp SMAV 44 4.2.1 4.2.2 4.2.3 4.2.4 Khái quát 44 Ánh xạ tên miền-khóa phân bổ nội dung 45 Truy vấn thông tin 51 Quản lý trạng thái mạng thay đổi 54 CHƯƠNG ĐÁNH GIÁ HIỆU QUẢ CỦA GIẢI PHÁP “TÌM KIẾM THƠNG TIN THEO CÁC THUỘC TÍNH/GIÁ TRỊ TRÊN MẠNG NGANG HÀNG CÓ CẤU TRÚC” 55 5.1 Đánh giá định tính 55 5.2 Đánh giá dựa mô 56 5.2.1 Các tham số mô 56 5.2.2 Kết 58 5.3 Mở rộng hệ thống cho phù hợp với yếu tố thực tế 64 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66 DANH MỤC CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT AV (Attribute/Value) Based -DHT Bibliographic database Broadcast CAN (ContentAddressable Network) CDS (Content discovery System) Chord Client/Server DHT (Distributed Hash Table ) Entry Identify JXTA Key LBM (Load Balancing Matrix) Load-balancing Node Node Rendezvous Points P2P (Peer to Peer network) Partial query Thu c tính/giá tr D a b ng băm phân tán Cây th m c G i phát tràn (qu ng bá) M t giao th c m ng ngang hàng d a DHT th c hi n vi c phân b qu n lý khóa khơng gian n chi u H th ng phát hi n n i dung M t giao th c m ng ngang hàng d a DHT th c hi n vi c phân b qu n lý khóa theo d ng vòng (ring) Máy khách/ Máy ch B ng băm phân tán M t b n ghi b ng dùng đ l u thông tin v đ c t tài nguyên t i m i node Đ nh danh M t c s h t ng m ng ngang hàng d a mã ngu n m Khóa Ma tr n cân b ng t i Cân b ng t i Th c th có kh th c hi n m t công vi c h u ích trao đ i k t qu v i th c th khác qua m ng m t cách tr c ti p ho c gián ti p Đi m nút môi gi i M ng ngang hàng Truy v n t ng ph n Partition Query Replication Trade-off XML (Extensible Markup Language) Ph n, vùng Truy v n B n (th b n) S th a hi p hay vi c cân b ng gi a y u t khác đ đ t đ c s k t h p t t nh t Ngôn ng đánh d u m r ng DANH MỤC BẢNG BIỂU Bảng 2-1 Bảng định nghĩa trường Finger Table 21 Bảng 4-1 Bảng ánh xạ khóa phân bổ - nội dung thông tin 49 Bảng 4-2 Bảng ánh xạ khóa thứ cấp 50 Bảng 4-3 Bảng ánh xạ khóa khơng phổ biến 50 Bảng 4-4 Bảng ánh xạ khóa đặc biệt 50 DANH MỤC HÌNH VẼ Hình 1.1-1 Mơ hình client/Server 10 Hình 1.1-2 Mơ hình P2P 11 Hình 1.1-3 Mơ hình mạng Napster 12 Hình 1.1-4 Mơ hình xử lý truy vấn mạng Gnutella 12 Hình 2.2-1 Một mạng Chord với node 0, 1, bảng Finger Table ứng với node N = bit nên Finger Table có entry 21 Hình 2.2-2 Lưu giữ key mạng Chord: node lưu key 6, node lưu key node lưu key 22 Hình 3.1-1 Một ví dụ đặc tả tài nguyên AVTree 24 Hình Hình Hình Hình 3.1-2 Mơ hình hoạt động hệ thống INS/Twine 25 3.1-3 Trích rút AVTree thành strand 26 3.1-4 Việc quản lý trạng thái hệ thông INS/Twine 28 3.2-1 Kiến trúc node sử dụng CDS 29 Hình 3.2-2 Ví dụ việc đăng ký tên miền xử lý truy vấn với tập điểm môi giới RPs 30 Hình 3.2-3 Ma trận cân tải cho cặp thuộc tính aivi 31 Hình 3.3-1 Ví dụ đặc tả file 36 Hình 3.3-2 Ví dụ cấu trúc câu truy vấn 37 Hình 3.3-3 Đồ thị biểu diễn câu truy vấn đưa hình 3.3-2 37 Hình 3.3-4 Lược đồ mục cho liệu thư mục (bibliographic database) 38 Hình 3.3-5 Ví dụ mục phân tán cho tài liệu đưa hình 3.3-1 lược đồ mục hình 3.3-4 39 Hình 3.3-6 Việc ánh xạ câu truy vấn cho hình 3.3-5 39 Hình Hình Hình Hình 4.2-1 Lược đồ phân bổ tên nội dung thơng tin theo giải thuật SMAV 46 4.2-2 Ánh xạ khóa thứ cấp 49 4.2-3 Lược đồ truy vấn thông tin theo giải thuật SMAV 52 5.2-1-A: Tỷ lệ phần trăm tần số xuất thuộc tính/giá trị 59 Hình 5.2-2-B Tần số xuất AV node 59 Hình 5.2-3 So sánh tải nội dung phương pháp phân bổ tên nội dung: Phân phối bình thường dựa DHT-Chord phân phối theo SMAV 60 Hình 5.2-4 So sánh tải truy vấn phương pháp phân bổ tên nội dung: Phân phối bình thường dựa DHT-Chord phân phối theo SMAV 61 Hình 5.2-5 Số ánh xạ sinh tên nội dung sử dụng giải thuật SMAV 61 Hình 5.2-6 Thời gian truy vấn 63 MỞ ĐẦU Công nghệ mạng ngang hàng (peer-to-peer network) phát triển nhanh chóng mạng Internet thời gian gần với xuất hàng loạt ứng chia xẻ file ngang hàng Napster, Gnutella, Freenet, BitTorrent, Edonkey,… Qua ứng dụng nói trên, việc chia sẻ tìm kiếm tài nguyên mạng trở lên dễ dàng nhanh chóng hết, ngồi ra, người sử dụng chia sẻ file trực tiếp cho mà không cần thông qua máy chủ dịch vụ Sở dĩ mơ hình mạng P2P phát triển mơ hình phù hợp với tính phân tán liệu, đồng thời đảm bảo quyền quản lý liệu người dùng nên khuyến khích việc chia sẻ liệu, làm tăng nguồn tài nguyên mạng Mơ hình P2P sử dụng để xử lý toán phức tạp tận dụng khả tính tốn phân tán tích hợp liệu từ peer tham gia mạng Trong mô hình P2P, peer vừa đóng vai trị Client, vừa đóng vai trị Server Tổng sức mạnh xử lý peer có lớn nhiều lần khả xử lý Server lớn Như vậy, mơ hình P2P khơng làm tăng lượng tài nguyên mạng, mà làm tăng sức mạnh xử lý đáp ứng yêu cầu dịch vụ, nâng cao tính sẵn sàng phục vụ mạng Tuy nhiên, thời kỳ đầu phát triển, việc tìm kiếm mạng ngang hàng thường thực theo kiểu phát tràn thông báo, gây tốn băng thông mạng Các ứng dụng sau bước cải tiến giao thức định tuyến thông báo, làm mạng hoạt động hiệu hơn, chưa đảm bảo việc tìm kiếm thơng tin thành cơng Mạng ngang hàng có cấu trúc sử dụng giải thuật Bảng băm phân tán (Distributed Hash Table – DHT) khắc phục nhược điểm cách tổ chức node mạng theo cấu trúc khơng gian khóa định mạch vịng (giải thuật Chord[7]) hay không gian n-chiều (giải thuật CAN[10]) định tuyến thông báo dựa cấu trúc Nội dung thơng tin gắn với khóa k giá trị băm đặc tả đặc trưng nội dung thơng tin (gọi tên nội dung) phân bổ đến node phụ trách khóa k Mỗi node mạng chịu trách nhiệm quản lý tập khóa khơng gian khóa, lưu giữ thơng tin số node khác mạng Việc tìm kiếm thơng tin qua câu truy vấn q thực cách băm q để khóa kq, chuyển q đến node quản lý khóa kq, node thực việc tìm kiếm địa phương trả kết cho câu truy vấn Bằng phương pháp này, giải thuật DHT cho phép xây dựng mạng ngang hàng với khả mở rộng cao, định tuyến hiệu gói tin thơng báo tới đích kháng lỗi tốt 54 {(aq1,vq1),kq1}, {(aq2,vq2),kq2}, , {(aqn,vqn),kqn} Bảng ánh xạ khóa thứ cấp bảng ánh xạ khóa đặc biệt entry: {(aqi,vqi),…,(aqj,vqj), kqi}, i, j = 1, …, n tương ứng với khoa truy vấn kq Với entry, cặp thuộc tính/giá trị entry có câu truy vấn ((a1,v1), ,(ai,vi)), khóa kqi trở thành ứng viên khóa truy vấn Ứng viên khóa truy vấn có số lượng nội dung thơng tin gắn với nhỏ trở thành khóa truy vấn Nếu khóa truy vấn khóa thứ cấp khóa đặc biệt, node phụ trách khóa truy vấn gửi yêu cầu truy vấn đến nút phụ trách khóa Nếu khóa truy vấn khóa khơng phổ biến, node phụ trách khóa truy vấn gửi yêu cầu truy vấn đến nút phụ trách khóa khơng phổ biến Trong trường hợp này, node phụ trách khóa truy vấn khơng tìm kiếm nội dung thơng tin mà lưu giữ Đó node phụ trách khóa truy vấn lưu giữ tất các nội dung thơng tin cần tìm có 4.2.4 Quản lý trạng thái mạng thay đổi Giải pháp trình bày chưa xét đến khả tải node, tức coi node có khả chịu tải Với giả thiết , node tham gia vào hay rời khỏi mạng, hoạt động phân phối truy vấn mạng diễn bình thường theo nguyên lý hoạt động mạng phủ DHT Vì, theo hoạt động Chord thì: Khi node tham gia vào mạng, chia sẻ khoảng khóa với node sussessor nó, tất thơng tin liên quan đến khoảng khóa chuyển sang cho node  Khi node rời khỏi mạng, node sussessor quản lý khóa  node rời với tất thông tin liên quan đến khóa Do ánh xạ lưu ánh xạ dạng key - to - key nên khơng bị ảnh hưởng node chuyển đổi khoảng khóa cho Khi node muốn update thơng tin tên nội dung đó, đầu tiên, gửi thơng tin đến node lưu giữ tên nội dung cũ để yêu cầu loại bỏ tên nội dung, tiến hành phân bổ lại tên nội dung vừa update phân bổ tên nội dung Để đảm bảo khả chịu lỗi hệ thống, việc update thay đổi kho tên thông tin thực cách định kỳ Để tiết kiệm băng thông mạng, chu kỳ update khoảng thời gian dài 55 CHƯƠNG ĐÁNH GIÁ HIỆU QUẢ CỦA GIẢI PHÁP “TÌM KIẾM THƠNG TIN THEO CÁC THUỘC TÍNH/GIÁ TRỊ TRÊN MẠNG NGANG HÀNG CÓ CẤU TRÚC” 5.1 Đánh giá định tính Thuật tốn đánh giá dựa ba yếu tố: Hiệu phân bổ nội dung thông tin: đánh giá số lượng khóa tạo Dư thừa (overhead) việc phân bổ khóa tỷ lệ thuận với số lượng khóa tạo ứng với tên nội dung Hiệu tìm kiếm thơng tin: đánh giá số lượng node cần truy vấn thời gian truy vấn Mức cân tải node: đánh giá phân bố số lượng nội dung thông tin số truy vấn node Trong giải pháp này, số khóa phân bổ tạo ứng với nội dung thông tin tùy thuộc vào số lượng tính phổ biến cặp thuộc tính/giá trị có tên nội dung nội dung thơng tin Giả sử số lượng cặp thuộc tính/giá trị tên nội dung N số lượng cặp thuộc tính/giá trị phổ biến X1 số khóa thứ cấp bậc (tương ứng với hai cặp thuộc tính/giá trị) tạo X1(X1-1)/2 Nếu gọi Xa số lượng khóa thứ cấp phổ biến bậc a (tương ứng với a cặp thuộc tính/giá trị, a>1) số khóa thứ cấp bậc a+1 tạo ứng với khóa thứ cấp bậc a X1 –a (bằng số cặp thuộc tính/giá trị phổ biến trừ số cặp thuộc tính/giá trị ứng với khóa thứ cấp bậc a) Do nội dung thông tin không lưu node phụ trách khóa tương ứng với cặp/các cặp thuộc tính/giá trị phổ biến nên tổng số khóa tạo tương ứng với tên nội dung là: X1 X 1 1 N  X ( X  1) /  X a 2 a ( X  a)   X a a 1 Tổng số khóa phân bổ thứ cấp tương đương với số ánh xạ tên nội dung – khóa phân bổ ánh xạ khóa phân bổ - khóa thứ cấp tạo tương ứng với tên nội dung Như vậy, tổng số ánh xạ tên nội dung – khóa phân bổ ánh xạ khóa phân bổ - khóa thứ cấp tính theo cơng thức Ngồi ra, tên nội dung lưu ứng với khóa khóa tạo ánh xạ liên kết với thuộc tính/giá trị khơng phổ biến tên nội dung Do số khóa khơng phổ biến tên nội dung N- X1 nên số ánh xạ loại N- X1 Vậy tổng số ánh xạ sinh phân bổ tên nội dung là: 56 X 1 X1 N  N  X  X ( X  1) /   X ( N  a)   X a 1 a a2 a 1 Ví dụ: cho tên nội dung với N=12, X = tổng số ánh xạ tạo 12*2-4+4*3/2+6*2+12*1-1-2-3-4 = 40 Để hạn chế số khóa phân bổ tạo phải hạn chế số cặp thuộc tính/giá trị phổ biến cách chọn cận Nmax lớn Tuy nhiên việc dẫn đến việc node phụ trách cặp thuộc tính/giá trị phổ biến phải chịu tải lớn dẫn đến cân tải Vì vậy, việc lựa chọn cận Nmax quan Thực tế cho thấy, số tên nội dung thơng tin liên quan đến khóa phụ thuộc vào tổng số cặp thuộc tính/giá trị sử dụng để xây dựng nên tên nội dung số khóa sinh từ cặp thuộc tính/giá trị qua hàm băm Nói cách khác, ta ước lượng Nmax thông qua tổng độ dài tên nội dung tồn mạng số khóa node sử dụng để lưu giữ tên nội dung Truy vấn thông tin tùy thuộc vào phổ biến cặp thuộc tính/giá trị có câu truy vấn Nếu tồn cặp thuộc tính/giá trị khơng phổ biến câu truy vấn việc truy vấn thơng tin thực với truy vấn Nếu không, việc truy vấn thông tin thực nhiều lần tùy thuộc vào số lượng nội dung thơng tin tìm kiếm Các đánh giá dừng lại mức độ định tính Trong phần thực mô giải thuật đề xuất tiến hành đánh giá giải thuật cách định lượng chi tiết 5.2 Đánh giá dựa mô 5.2.1 Các tham số mơ Chương trình mơ xây dựng ngôn ngữ C# MS Visual studio 2008 Để thực việc so sánh, chương trình mơ cài đặt thuật toán phân phối tên nội dung:  Phân phối tên nội dung theo cách thông thường, tức dựa DHTChord, thực việc tính khóa từ AV có tên nội dung, phân phối trực tiếp đến node quản lý khóa theo cách thức hoạt động Chord Do cách phân bổ tên nội dung nên việc xử lý truy vấn thực cách chọn ngẫu nhiên cặp thuộc tính/giá 57 trị có câu truy vấn gửi truy vấn tới node phụ trách khóa cặp thuộc tính/giá trị chọn  Phân phối tên nội dung theo thuật toán SMAV Để tập trung vào đánh giá hiệu giải thuật, chương trình mơ cần xây dựng dựa mạng phủ DHT mà hiệu tính ổn định mạng cơng nhận Ở đây, chọn Chord làm mạng phủ Kiến trúc hoạt động Chord giới thiệu kỹ chương Gán tham số: tham số bao gồm tham số liên quan đến việc thành lập mạng Chord như: Số bit cho khơng gian khóa: m  Số node mạng: n  Số nội dung thông tin: NumberName  Số thuộc tính lớn tên nội dung: NumberAttribute  Cận số tên nội dung gắn với khóa: Nmax tính thơng qua tổng số cặp thuộc tính/giá trị tất tên nội dung chia sẻ mạng  số khóa liên quan đến cặp thuộc tính/giá trị Trong mơ này, chúng tơi tính Nmax cơng thức sau: Nmax = α* SL/SK+β Trong đó: SL tổng chiều dài tên nội dung, SK số khóa khác hay cặp thuộc tính/giá trị khác xuất tên nội dung, α, β tham số điều chỉnh, có giá trị nguyên, dùng để điều chỉnh Nmax lớn nhỏ, SL/SK phụ thuộc nhiều vào phân bố zipf Trong mô này, chọn α=1, β=5 Tuy nhiên, với tham số α, β khác nhau, kết mô cho thấy xu hướng chung, kết luận so sánh phương pháp dựa DHT bình thường SMAV khơng thay đổi Sinh thuộc tính: sinh ngẫu nhiên thuộc tính Số thuộc tính lấy tương đương với số thuộc tính thường thấy đặc tả tên thơng tin Ví dụ: đặc tả sách gồm thuộc tính như: mã sách, tiêu đề, tác giả, năm xuất bản, nhà xuất bản, số trang, loại sách, tập, nước xuất bản, …Thơng thường trung bình số thuộc tính 10 Sinh cặp thuộc tính/giá trị (AV – Attribute/Value): từ thuộc tính sinh trên, ta sinh tiếp cặp AV theo qui tắc:  Với thuộc tính A, sinh số ngẫu nhiên giá trị gán cho thuộc tính A để tạo thành cặp AV 58 Sinh tên nội dung từ cặp AV nói trên, xác suất xuất  cặp AV tuân theo phân bố Zipf Phân phối tên nội dung đến node quản lý chúng Sinh loạt query từ cặp av Gửi ngẫu nhiên query đến node Thực truy vấn thống kê:  Số tên nội dung thông tin node phải quản lý: nhằm đánh giá cân tải nội dung Số lần truy vấn node: để đo cân tải truy vấn node  Số node tham gia giải câu truy vấn: từ tính thời gian  số lần chuyển trung bình cho truy vấn suy hiệu xử lý truy vấn giải thuật SMAV 5.2.2 Kết Qua thực mô với tham số như:  Số node: n =2.000  Số bit cho không gian khóa: m = 16 Số tên nội dung thơng tin: 20.000 Content names  Số câu truy vấn: 5.000 Với tham số đầu vào trên, thống kê kết thực mô cho  Phần trăm số thuộc tính/giá trị thấy: tổng chiều dài tên nội dung gần 190.000, số khóa hay cặp thuộc tính/giá trị khác xuất tên nội dung 33.000 cặp Do đó, theo cơng thức nói trên, Nmax tính 10 Kết thực mô thể chi tiết đồ thị phía 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Phần trăm số thuộc tính 11 16 21 Tần số xuất cặp thuộc tính/giá trị 26 59 Hình 5.2-1-A: Tỷ lệ phần trăm tần số xuất thuộc tính/giá trị 25 Tần số xuất 20 15 Tần số xuất 10 10001 20001 30001 Thứ hạng (rank) thuộc tính/giá trị theo tần số xuất Hình 5.2-2-B: Tần số xuất AV node Hai hình minh họa phân bố cặp thuộc tính/giá trị tên nội dung thông tin mô Do tuân theo luật phân bố Zipf nên ta thấy có số thuộc tính/giá trị xuất với tần số lớn Đó thuộc tính/giá trị phổ biến, xuất hầu hết tên nội dung Kết mô cho thấy với 20.000 tên nội dung, số lượng thuộc tính/giá trị phổ biến chiếm 5% tổng số thuộc tính/giá trị, song tần số xuất lại lớn, có thuộc tính/giá trị xuất tới 8.152 lần, tức xuất 42% tên nội dung Chính thuộc tính/giá trị gây lên cân tải nội dung ta thực việc phân bổ tên nội dung dựa DHT, node quản lý khóa thuộc tính/giá trị nói phải quản lý tới 42% tên nội dung Hình 5.2-2-A cho thấy gần 70% cặp thuộc tính/giá trị xuất lần tên nội dung, khoảng 91% thuộc tính/giá trị xuất với tần số nhỏ lần Như vậy, nói đa số thuộc tính/giá trị thuộc tính/giá trị khơng phổ biến, xuất lần số tên nội dung Một số lượng nhỏ thuộc tính/giá trị thuộc tính/giá trị phổ biến, chúng xuất nhiều tên nội dung khác 60 2000 Số tên nội dung/1 node 1800 1600 1400 Phân phối bình thường 1200 1000 800 Phân phối theo SMAV 600 400 200 501 1001 1501 2001 Thứ hạng (rank) node theo số tên nội dung Hình 5.2-3: So sánh tải nội dung phương pháp phân bổ tên nội dung: Phân phối bình thường dựa DHT-Chord phân phối theo SMAV Hình 5.2-3 cho thấy, cách sử dụng thuật tốn SMAV, tải nội dung node mạng phân phối cân nhiều so với phân phối dựa DHT thông thường, đặc biệt với node chịu tải lớn khác biệt nhận thấy rõ ràng Đồ thị SMAV cân hơn, với node có tải nội dung thấp, SMAV có xu hướng cao so với phân phối bình thường, với node chịu tải cao, SMAV lại thấp rõ rệt Đó tải nội dung node chịu tải cao chia sẻ bớt cho node có tải thấp Trong tải nội dung số node theo cách phân phối dựa DHT bình thường lên tới gần 8.200, tải nội dung node chịu tải lớn theo SMAV vào khoảng 800, thấp tới 10 lần Từ kết trên, khẳng định SMAV thực giải pháp giúp mạng đạt cân tải nội dung hiệu quả, thỏa mãn yêu cầu đề xuất ý tưởng xây dựng giải thuật 61 4500 4000 Số truy vấn/ node 3500 Truy vấn bình thường 3000 2500 Truy vấn theo SMAV 2000 1500 1000 500 501 1001 1501 2001 Thứ hạng (rank) node theo số truy vấn Hình 5.2-4: So sánh tải truy vấn phương pháp phân bổ tên nội dung: Phân phối bình thường dựa DHT-Chord phân phối theo SMAV Theo cách thức hoạt động SMAV, tên nội dung phân bổ node nên việc xử lý truy vấn liên quan đến tên nội dung node so với phương pháp DHT bình thường Đồ thị hình 5.2-4 cho thấy, xét với 5.000 truy vấn khác node thực truy vấn chọn ngẫu nhiên 2.000 node mạng, tải truy vấn phương pháp SMAV phân bố đều, node Phần trăm số tên nội dung nhiều phải xử lý gần 750, theo phương pháp truy vấn DHT bình thường, có node phải xử lý tới 4.000 truy vấn 0.9 0.8 0.7 0.6 Phần trăm số tên nội dung 0.5 0.4 0.3 0.2 0.1 0 50 100 150 200 250 300 Số ánh xạ Hình 5.2-5: Số ánh xạ sinh tên nội dung sử dụng giải thuật SMAV 62 Hình 5.2-5 cho thấy đồ thị biểu diễn phần trăm số tên nội dung theo số ánh xạ sinh tên nội dung q trình phân bổ thơng tin Ánh xạ tính tổng số tất ánh xạ loại mà node cần lưu trữ ánh xạ khóa phân bổ tên nội dung, ánh xạ khóa thứ cấp bậc khác nhau, ánh xạ không phổ biến ánh xạ đặc biệt Có 65% số tên nội dung sinh 32 ánh xạ theo giải thuật phân bố SMAV Số tên nội dung sinh nhiều 77 ánh xạ chiếm khoảng 10% tổng số tên nội dung Đây số tên nội dung chứa nhiều cặp thuộc tính/giá trị, có nhiều cặp thuộc tính/giá trị phổ biến Kết mơ cho thấy, trung bình tên nội dung thông tin sinh khoảng 30 ánh xạ Như nói, mơ tổng chiều dài tên nội dung gần 190.000, tên nội dung có trung bình khoảng gần 10 cặp thuộc tính/giá trị Theo lý thuyết, khó đưa cơng thức tính số cặp thuộc tính/giá trị trung bình có tên nội dung cách xác, thân khóa K khơng phải khóa phổ biến, xong K trùng với khóa thứ cấp subkey, tổng số tên nội dung gắn với K tăng lên tới Nmax K lại trở thành khóa phổ biến Tuy nhiên, số cặp thuộc tính/giá trị phổ biến trung bình lớn Xmax tên nội dung ước tính thơng qua tổng số lần xuất thuộc tính/giá trị có tần số >Nmax Trong mô này, Nmax = 10, tổng số lần xuất thuộc tính/giá trị có tần số >Nmax gần 120.000, từ suy ra, Xmax ~ Theo cơng thức tính tổng số ánh xạ cần lưu tối đa tương ứng với tên nội dung trung bình lớn là: 10*2-6+6*5/2+15*4+60*3+180*2+360-1-2-3-4-5-6 = 968 Ta thấy lượng ánh xạ trung bình lớn tính theo lý thuyết vượt xa so với số ánh xạ trung bình thực tế Sở dĩ có kết nguyên nhân:  Xmax trung bình số thuộc tính/giá trị phổ biến lớn có thể, thực tế, số thuộc tính/giá trị phổ biến trung bình

Ngày đăng: 16/03/2021, 12:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w