Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ

Một phần của tài liệu Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web (Trang 27 - 28)

Bài báo [25][17] sử dụng chính máy tìm kiếm, cùng độ tương đồng từ để áp dụng cho bài tốn tìm từ khĩa cho trang web. Phương pháp đã được dùng trong thương mại đĩ là việc áp dụng dựa vào tìm kiếm lân cận (proximity search) để sinh từ khĩa. Proximity Search là cách dựa vào máy tìm kiếm, với một query đầu vào gọi là từ khố hạt giống (seed keyword) và tìm ra được những từ khố từ những trang liên quan trả về từ máy tìm kiếm. Kĩ thuật này nhằm tìm từ khĩa cho một trang chủ, portal. Quy trình của phương pháp này cĩ thể được miêu tả như sau:

Bước 1: Tải về tồn bộ các trang thuộc cùng domain với trang này(cĩ thể phải

giới hạn số trang lấy về)

Bước 2: Trích xuất các từ khĩa cho các trang web này dựa vào độ đo (tf x idf).

Lưu trữ dưới dạng một tập từ điển ban đầu (lấy trong các ngưỡng xác định, loại bỏ từ dừng...)

Bước 3: Với mỗi từ khĩa trong bộ từ điển từ khĩa, tìm kiếm những trang web

liên quan nhờ các máy tìm kiếm. Chỉ lấy các trang đầu trả về của máy tìm kiếm.

Bước 4: Tải các trang trong kết quả máy tìm kiếm trả về, sinh từ khĩa cho các

trang web này dựa vào tần số xuất hiện của từ, so sánh độ tương đồng ngữ nghĩa của từ tìm kiếm và các từ khĩa này. Nếu thỏa mãn các ngưỡng về độ tương đồng, tần số xuất hiện thì thêm vào từ điển những từ khĩa này.

Bước 5: Thống kê lại các từ khĩa nhờ vào tần số xuất hiện trong từ điển.

Kết quả của phương pháp này khá là hiệu quả và tốt, nhưng chi phí cho nĩ là rất nhiều, và nĩ phù hợp cho các trang mà độ nhiễu trong các trang khác nhau là khơng quá lớn. Việc so sánh ngữ nghĩa của các từ khĩa tốt là thành cơng cho phương pháp này.

19

Một phần của tài liệu Bài toán trích xuất từ khóa cho trang web áp dụng phương pháp phân tích thẻ HTML và đồ thị web (Trang 27 - 28)

Tải bản đầy đủ (PDF)

(59 trang)