Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ

Một phần của tài liệu LUẬN VĂN:BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB potx (Trang 27 - 28)

Bài báo [25] [17] sử dụng chính máy tìm kiếm, cùng độ tương đồng từ để áp dụng cho bài toán tìm từ khóa cho trang web. Phương pháp đã được dùng trong thương mại đó là việc áp dụng dựa vào tìm kiếm lân cận (proximity search) để sinh từ khóa. Proximity Search là cách dựa vào máy tìm kiếm, với một query đầu vào gọi là từ khoá hạt giống (seed keyword) và tìm ra được những từ khoá từ những trang liên quan trả về từ máy tìm kiếm. Kĩ thuật này nhằm tìm từ khóa cho một trang chủ, portal. Quy trình của phương pháp này có thể được miêu tả như sau:

Bước 1: Tải về toàn bộ các trang thuộc cùng domain với trang này(có thể phải

giới hạn số trang lấy về)

Bước 2: Trích xuất các từ khóa cho các trang web này dựa vào độ đo (tf x idf).

Lưu trữ dưới dạng một tập từ điển ban đầu (lấy trong các ngưỡng xác định, loại bỏ từ dừng...)

Bước 3: Với mỗi từ khóa trong bộ từ điển từ khóa, tìm kiếm những trang web

liên quan nhờ các máy tìm kiếm. Chỉ lấy các trang đầu trả về của máy tìm kiếm.

Bước 4: Tải các trang trong kết quả máy tìm kiếm trả về, sinh từ khóa cho các

trang web này dựa vào tần số xuất hiện của từ, so sánh độ tương đồng ngữ nghĩa của từ tìm kiếm và các từ khóa này. Nếu thỏa mãn các ngưỡng về độ tương đồng, tần số xuất hiện thì thêm vào từ điển những từ khóa này.

Bước 5: Thống kê lại các từ khóa nhờ vào tần số xuất hiện trong từ điển.

Kết quả của phương pháp này khá là hiệu quả và tốt, nhưng chi phí cho nó là rất nhiều, và nó phù hợp cho các trang mà độ nhiễu trong các trang khác nhau là không quá lớn. Việc so sánh ngữ nghĩa của các từ khóa tốt là thành công cho phương pháp này.

19

Một phần của tài liệu LUẬN VĂN:BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB potx (Trang 27 - 28)

Tải bản đầy đủ (PDF)

(59 trang)