Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 110 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
110
Dung lượng
6,6 MB
Nội dung
KHAIPHÁ WEB
CHƯƠNG 6.TÌMKIẾM WEB
Giảng viên: HàQuang Thụy
email: thuyhq@coltech.vnu.vn
Hà Nội, 11-2010
1
CHƯƠNG 6.TÌMKIẾM VĂN BẢN
VÀ MÁY TÌM KIẾM
•
Bài toán tìmkiếm văn bản
–
Khái niệm
–
Đánh giá
–
Tìm kiếm xấp xỉ
•
Máy tìm kiếm
–
Công cụ tìmkiếm trên Internet
–
Một số máy tìmkiếm điển hình
–
Các thành phần cơ bản
–
Crawling
–
Đánh chỉ số và lưu trữ
–
Tính hạng và tìm kiếm
2
CHƯƠNG 6.TÌMKIẾM VĂN BẢN
VÀ MÁY TÌM KIẾM
•
Máy tìmkiếm thực thể
–
Khái niệm
–
Một số nội dung cơ bản
–
Một số nghiên cứu tìmkiếm thực thể
•
Máy tìmkiếm ở Việt Nam
3
6.1. BÀI TOÁN TÌMKIẾM VĂN BẢN
•
Nguồn tài nguyên
–
D = {d
i
: các văn bản}
–
cho trước: trong CSDL
–
văn bản web trên Internet: cần thu thập về (máy tìm kiếm)
•
Đầu vào
–
q: Câu hỏi người dùng (q ∈D)
–
Từ khóa/ Cụm từ khóa/ "Biểu thức" hỏi
•
Kết quả
–
Tập R (q) các văn bản thuộc D "liên quan" tới câu hỏi q
–
"liên quan": ngầm định một ánh xạ {q}→ 2
D
–
Hệ thống tìmkiếm "xấp xỉ" ánh xạ nói trên
4
6.1. BÀI TOÁN TÌMKIẾM VĂN BẢN
•
Lời giải
∀q: hệ thống cho tập R'(q) xấp xỉ R(q)
–
Đánh giá hệ thống: đối sánh R'(q) với R(q)
–
R chưa biết → Đánh giá qua các ví dụ đã có
–
Học ánh xạ R': xấp xỉ R cho hệ thống
•
Phân loại tìm kiếm
–
Tìm kiếm theo lựa chọn (Document Selection)
–
Tìm kiếm theo tính hạng liên quan (Document Ranking)
–
Kết hợp cả lựa chọn lẫn ranking
5
TÌM KIẾM THEO LỰA CHỌN
•
Học hàm f (d, q): D×D → {0,1}
–
Chọn/Không chọn
–
Thực tiễn: Module tìmkiếm của hệ thống.
–
Ngôn ngữ hỏi và "ngữ nghĩa" cho từng câu hỏi
∀ câu hỏi q: Câu trả lời là R'(q)={d| f(d,q)=1}
•
Ví dụ
–
hệ thống thư viện điện tử Greenstone
–
hệ thống tài liệu điện tử CiteSeer:
http://citeseer.ist.psu.edu/
•
Nhận xét
–
Đơn giản, dễ thực hiện
–
Hạn chế
•
Câu hỏi q "quá phổ dụng": kết quả có rất nhiều văn bản
•
Câu hỏi q "quá chuyên biệt": rất ít hoặc không có văn bản
6
TÌM KIẾM THEO TÍNH HẠNG
•
Học hàm (mô hình) f (d, q): D×D → [0,1]
–
"Liên quan": Độ gần nhau giữa các tài liệu, hạng
–
Hạng tính trước, hạng với câu hỏi
∀
∀ câu hỏi q: Câu trả lời là R'(q)={d| f(d,q) ≥α}
–
Hệ thống có ngưỡng α >0
•
Yêu cầu học
–
f (d, q) cần thỏa tính đơn điệu: d
1
"liên quan" tới q nhiều hơn d
2
thì
f(d,q
1
) ≥ f(d,q
2
)
–
Kiểm nghiệm: công nhận tương đối
•
Ví dụ
–
Máy tìm kiếm
•
Nhận xét
–
Mềm dẻo, khắc phục hạn chế của lựa chọn
7
BÀI TOÁN HỌC (NHẮC LẠI)
•
Có sẵn tập ví dụ học D
E
⊆ D
∀d ∈D
E
đã biết R(d) ⊆ D
•
Thuật toán học
1. Chia ngẫu nhiên tập D
E
thành hai tập D
learn
và D
test
, |D
test
| ≈ |
D
learn
|/2.
2. Dùng D
learn
học mô hình (xác định tham số)
3. Dùng D
test
đánh giá mô hình
4. Kiểm tra điều kiện kết thúc: chưa kết thúc về 1
•
Thông thường kết thúc ngay
•
Sử dụng đánh giá chéo (cross validation)
–
thông qua k lần thực hiện quá trình trên: Kết hợp đánh giá
k lần.
8
ĐÁNH GIÁ MÔ HÌNH TÌM KIẾM
•
Giải thích ký hiệu
–
R, R' liên quan đến các văn bản trong D
test
•
R: tập đúng hoàn toàn, R' là tập hệ thống cho là đúng
•
Độ hồi phục (recall) ρ
•
Độ chính xác (precision) π
•
Độ đo F
β
và độ đo F
1 .
Độ đo F
β
là tổng quát còn
F
1
là thông dụng.
9
TÌM KIẾM XẤP XỈ
•
Đặt vấn đề
–
Tính xấp xỉ trong ngôn ngữ tự nhiên: từ đồng nghĩa, từ gần
nghĩa, phù hợp ngữ cảnh
–
Tính xấp xỉ trong biểu diễn văn bản
•
Biểu diễn vectơ: cô đọng, tiện lợi xử lý song tính ngữ nghĩa kém bỏ
đi nhiều thứ (chẳng hạn, vị trí xuất hiện của các từ khóa)
•
Biểu diễn “xâu các từ”: có ngữ nghĩa cao hơn song lưu trữ và xử lý
phức tạp, bỏ đi một số yêu tố ngữ nghĩa (từ dừng )
–
Vấn đề tìmkiếm xấp xỉ là vấn đề tự nhiên
•
Độ hồi phục (recall) ρ
•
Độ chính xác (precision) π
•
Độ đo F
β
và độ đo F
1 .
Độ đo F
β
là tổng quát còn F
1
là thông dụng.
10
[...]... http://searchengineland.com/the-state-of-search-engine-marketing-201 0-3 8826 2010 at 5:00pm ET) Mar 25, 25 MÁY TÌM KIẾM: THỊ TRƯỜNG Năm 2010: Kinh phí tiếp thị trên máy tìmkiếm •http://searchengineland.com/the-state-of-search-engine-marketing-201 0-3 8826 Mar 25, •Search engine optimization (SEO): nâng cao khả năng hiện thị trên máy tìmkiếm theo kết quả tìm kiếm, mở rộng giải pháp tiếp thị •Search engine... searching (Tìm kiếm) • trả về danh sách tài liệu thỏa mãn yêu cầu người dùng module interface (giao diện) Tổ chức dữ liệu • • Hệ thống file Các cấu trúc dữ liệu 28 CÁC THÀNH PHẦN CƠ BẢN CỦA MÁY TÌMKIẾM Máy tìmkiếm Google 29 CÁC THÀNH PHẦN CƠ BẢN CỦA MÁY TÌMKIẾM Máy tìmkiếm AltaVista 30 MÁY TÌMKIẾM ASPSEEK Máy tìmkiếm Vietseek (trên nền ASPseek) 31 CRAWLING • Giới thiệu – – • Chức năng – – – • một thành.. .6.2 MÁY TÌMKIẾM • • • • • • • Công cụ tìmkiếm trên Internet Một số máy tìmkiếm điển hình Một số đặc trưng và xu thế phát triển Các thành phần cơ bản Crawling Đánh chỉ số và lưu trữ Tính hạng và tìmkiếm 11 CÔNG CỤ TÌMKIẾM TRÊN INTERNET • Hai kiểu công cụ tìmkiếm điển hình – – • Thư mục phân lớp – – – – – • Máy tìmkiếm (search engine) Thư mục phân lớp (classified directory) số lượng ít tài liệu. .. www.netpart.com, Cora 16 MÁY TÌMKIẾM CORA 17 SƠ BỘ QUÁ TRÌNH PHÁT TRIỂN MÁY TÌMKIẾM • 1994 – – – – • 1997 (khi xuất hiện Google) – – • Máy tìmkiếm đầu tiên WWWW (WWW Worm) McBryan Index chừng 110.000 trang web 3/199 4-4 /1994: nhận 1500 câu hỏi hàng ngày WebCrawler: 2 triệu -> Watch 100 triệu trang web Alta Vista nhận 20 triệu câu hỏi / ngày 2000-nay – – – Tăng nhanh về số lượng hàng tỷ trang web hàng trăm triệu... mục phân lớp & hệ tìmkiếm http://citeseer.ist.psu.edu/ 15 CÔNG CỤ TÌMKIẾM TRÊN INTERNET • • Máy tìmkiếm – – – Hạn chế – • Có trước tập lớn các tài liệu WebTìmkiếm dựa theo từ khóa Kết quả: danh sách tài liệu theo tập xếp hạng số lượng từ khóa ít, danh sách kết quả dài, ngữ nghĩa kém Phân loại – Máy tìmkiếm chung • • – độ chính xác thấp AltaVista, Hotbot, Infoseek Dịch vụ tìmkiếm • • • Miền thu... MÁY TÌMKIẾM ALTA VISTA • Hệ thống – – • Một module tìmkiếm Log câu hỏi Module tìmkiếm – – Mô hình viector có trọng số Ngôn ngữ hỏi: hai mode hỏi • • • Đơn giản: từ khóa/dãy từ khóa (hoặc phép toán OR)/-word (tài liệu không chứa word -phép toán NOT)/+word : tài liệu chứa cả word/"dãy từ": tài liệu chứa dãy từ có thứ tự chặt như câu hỏi mở rộng : phép toán lôgic and, or, not thực hiện theo tài liệu; ... dữ liệu log 20 SƠ BỘ MÁY TÌMKIẾM GOOGLE • Tên gọi và tác giả – – – • tên gọi: chơi chữ 10100: máy tìmkiếm lớn từ năm 1997 Sergey Brin và Lawren Page: hai nghiên cứu sinh Stanfort Một số thông số – – Định hướng người dùng: có log câu hỏi Yêu cầu • • • • crawling nhanh: thu thập tài liệuweb và cập nhật vào kho Hệ thống lưu trữ hiệu quả: chỉ số và chính tài liệu Hệ thống index: hàng trăm gigabyte dữ. .. Theo Google Scholar, số bài chứa “Search Engine”: mọi nơi: 424.000 bài; tiêu đề: 6350 (2730 bài từ 2006-nay) • Theo thư viện bài báo khoa học của ACM (ACM Digital Library): có trên 40.400 bài báo khoa học trong thư viên có liên quan tới “search engine” Nguồn: http://academic.research.microsoft.com/CSDirectory/Org_category_8.htm 27 CÁC THÀNH PHẦN CƠ BẢN CỦA MÁY TÌMKIẾM • Một số thành phần cơ bản – Module... độ thời gian • Môđun được viết trên Java và kết nối CSDL MySQL - Tại sao Java mà không phải C++ hay ngôn ngữ khác ? -Chương trình trên ngôn ngữ khác chạy nhanh hơn - đặc biệt khi được tối ưu hóa mã - Crawler: nhiều vào-ra mà không quá nhiều xử lý của CPU - thời gian đáng kể mạng và đọc/ghi đĩa - độ nhanh - chậm CPU Java và C++ không khác - Java độc lập nền hạ tầng (dịch sang mã byte) − ⇒ di chú crawler... (classified directory) số lượng ít tài liệuWeb tổ chức dạng thư mục tìmkiếm theo thư mục kết quả danh sách theo thư mục Lycos, Yahoo, CiteSeer thư mục phân lớp điển hình Kết hợp thư mục phân lớp vào máy tìmkiếm – – AltaVista: có các dịch vụ catalog; Lycos: trộn dịch vụ vào chức năng Northern Light: có dịch vụ tìmkiếm tổ chức động kết quả của tìm theo từ khóa thành nhóm theo chủ đề tương tự hoặc nguồn/kiểu . KHAI PHÁ WEB
CHƯƠNG 6. TÌM KIẾM WEB
Giảng viên: Hà Quang Thụy
email: thuyhq@coltech.vnu.vn
Hà Nội, 1 1-2 010
1
CHƯƠNG 6. TÌM KIẾM VĂN BẢN
VÀ MÁY TÌM KIẾM
•
Bài. TÌM KIẾM
•
Bài toán tìm kiếm văn bản
–
Khái niệm
–
Đánh giá
–
Tìm kiếm xấp xỉ
•
Máy tìm kiếm
–
Công cụ tìm kiếm trên Internet
–
Một số máy tìm kiếm điển