1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 18 - TS.Nguyễn Bá Ngọc

25 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Mời các bạn cùng tìm hiểu ''Bài giảng Tìm kiếm và trình diễn thông tin: Bài 18'' do TS.Nguyễn Bá Ngọc biên soạn với vấn đề tìm kiếm trên Web hướng đến trình bày những đặc điểm Web; khó khăn với tìm kiếm trên Web; sao lưu Web; đặc điểm đồ thị Web; những thuộc tính đồ thị cơ bản;...

(IT4853) Tìm kiếm trình diễn thơng tin Vấn đề tìm kiếm Web Giảng viên     TS Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung    Đặc điểm Web Ước lượng kích thước Căn tìm kiếm Web Khó khăn với tìm kiếm Web Web toàn cầu:        Phân tán; Thay đổi thường xuyên; Rất lớn; Phi cấu trúc; Nhiều trùng lặp; Chất lượng không đồng nhất; Đa ngôn ngữ Sao lưu Web    http://www.archive.org Thu gom Alexa Compaq Năm 2001 quy mô tỉ trang (40 TB)   Năm 2002: 100TB Được ví “cỗ máy thời gian” với khả hiển thị trang web khứ Đặc điểm đồ thị Web   Coi trang web (được xác định url nhất) đỉnh độ thị, siêu liên kết cạnh có hướng đồ thị Broder et al (2000), WWW9   Cơng trình nghiên cứu tính chất đồ thị web quy mơ lớn Dữ liệu thu thập hai lần từ AltaVista   Tháng năm 99: 203M trang, 1.5 tỉ liên kết; Tháng 10 năm 99: 271M trang, 2.1 tỉ liên kết Những thuộc tính đồ thị    Bậc-vào đỉnh số cạnh tới nút Bậc-ra: số cạnh từ nút Đường kính   Giá trị cực đại độ dài ngắn tất cặp đỉnh (u, v) Thành phần liên kết   Thành phần liên kết yếu (WCC – Weakly connected component) tập đỉnh đồ thị vơ hướng, ln tồn đường hai nút bất kỳ; Thành phần liên kết mạnh (SCC – Strongly connected component) thành phần liên kết đồ thị có hướng Kết nghiên cứu  Broder et al (2000), WWW9  Số lượng trang với bậc vào i ∝ 1/i2.1   Thống với nghiên cứu quy mô nhỏ Kích thước thành phần liên kết tuân theo quy luật lũy thừa  WCC lớn 91%, SCC lớn 26% Kết cấu web, hình nơ Đường dẫn tính liên thơng  Đường kính tối thiểu SCC 28   Đường kính tồn Web 500 Khơng phải tất cặp đỉnh liên thông  Cho cặp (u, v) ngẫu nhiên, P(path(u, v))=0,24   Độ dài trung bình đường dẫn có hướng 16   Xác suất tồn đường từ u đến v 0,24 Đường dẫn vô hướng Tuy nhiên trường hợp tổng qt, Web có mức liên thơng cao  Nếu loại bỏ đỉnh với bậc vào > 5, Web tồn thành phần liên thông yếu ~ 59M nút 10 Nội dung    Đặc điểm Web Ước lượng kích thước Căn tìm kiếm Web 11 Web lớn tới mức  Kích thước web vơ hạn    Nội dung động Soft 404: www.yahoo.com/ Web tĩnh chứa nhiều trùng lặp (~30%) 12 Kích thước mục tìm kiếm   Cơng cụ tìm kiếm đánh mục web tĩnh Các cơng cụ tìm kiếm khác có mục khác nhau:   Độ sâu url, luật phát spam, độ ưu tiên v.v … thu thập nội dung khác từ URL 13 Sec 19.5 Tỉ lể mục Lấy mẫu ngẫu nhiên URLs từ A, kiểm tra có B; ngược lại A B A B = A B = (1/2) * Size A (1/6) * Size B (1/2)*Size A = (1/6)*Size B \ Size A / Size B = (1/6)/(1/2) = 1/3 Phép thử: (i) Lấy mẫu (ii) Kiểm tra 14 Sec 19.5 Các truy vấn nghiên cứu Lawrence Giles           adaptive access control neighborhood preservation topographic hamiltonian structures right linear grammar pulse width modulation neural unbalanced prior probabilities ranked assignment method internet explorer favourites importing karvel thornber zili liu           softmax activation function bose multidimensional system theory gamma mlp dvi2pdf john oliensis rieke spikes exploring neural video watermarking counterpropagation network fat shattering dimension abelson amorphous computing 15 Ước lượng kích thước Web [Lawr98, Bhar98a]  Giả sử công cụ tìm kiếm đánh mục tập ngẫu nhiên Web Nếu E2 chứa x% E1, E2 chứa x% Web Biết kích thước E2 Kích thước Web = 100*E2/x Bharat & Broder: 200 M (Nov 97), 275 M (Mar 98) Lawrence & Giles: 320 M (Dec 97) E2 E1 WEB Lấy mẫu URLs    Lý tưởng: Sinh ngẫu nhiên URL kiểm tra tồn mục Vấn đề: Khó xây dựng giải thuật sinh ngẫu nhiên URL! Có thể sinh ngẫu nhiên URL có mục cơng cụ tìm kiếm Giải pháp 1: Sinh ngẫu nhiên URL mục cơng cụ tìm kiếm   Xác định tỉ lệ mục Giải pháp 2: Random walks / địa IP  Trên lý thuyết xác định kích thước Web 17 Tỉ lệ đánh mục Web   Lawrence and Giles (1998) xác định cận Web: 320M trang đánh mục Cơng cụ tìm kiếm phủ phần nhỏ Web:       HotBot phủ 34%, AltaVista, 28% Northern Light, 20% Excite, 14% Infoseek, 10% Lycos, 3% 18 Nội dung    Đặc điểm Web Ước lượng kích thước Căn tìm kiếm Web 19 Tìm kiếm hoạt động thường xuyên Web 20 Tổng quan công cụ tìm kiếm Web 21 Vai trị cơng cụ tìm kiếm web  Là động lực thúc đẩy người dùng công bố nội dung web    Có nên cơng bố thơng tin khơng đọc nó? Có nên cơng bố nội dung khơng thu lợi nhuận? Tìm kiếm giải vấn đề kinh phí vận hành web   Máy chủ, thiết bị mạng, việc biên soạn nội dung v.v Ngày phần lớn chi phí trả nhờ quảng cáo tìm kiếm; 22 Nhu cầu thông tin  Need [Brod02, RL04]     Thông tin (Informational): Học vấn đề (~40%/65%) Định vị (Navigational): Địa trang cụ thể (~25%/15%) Giao dịch (transactional): Dịch vụ, tải liệu, mua sắm, v.v., (~35%) Trung gian (Gray areas) 23 Phạm vi tìm kiếm kết (Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf) 24 25 ... www.yahoo.com/ Web tĩnh chứa nhiều trùng lặp (~30%) 12 Kích thước mục tìm kiếm   Cơng cụ tìm kiếm đánh mục web tĩnh Các cơng cụ tìm kiếm khác có mục khác nhau:   Độ sâu url, luật phát spam, độ ưu... điểm Web Ước lượng kích thước Căn tìm kiếm Web 19 Tìm kiếm hoạt động thường xuyên Web 20 Tổng quan cơng cụ tìm kiếm Web 21 Vai trị cơng cụ tìm kiếm web  Là động lực thúc đẩy người dùng công bố... cụ tìm kiếm phủ phần nhỏ Web:       HotBot phủ 34%, AltaVista, 28% Northern Light, 20% Excite, 14% Infoseek, 10% Lycos, 3% 18 Nội dung    Đặc điểm Web Ước lượng kích thước Căn tìm kiếm

Ngày đăng: 08/05/2021, 13:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w