Bài báo [25] [17] sử dụng chính máy tìm kiếm, cùng độ tương đồng từ để áp dụng cho bài toán tìm từ khóa cho trang web. Phương pháp đã được dùng trong thương mại đó là việc áp dụng dựa vào tìm kiếm lân cận (proximity search) để sinh từ khóa. Proximity Search là cách dựa vào máy tìm kiếm, với một query đầu vào gọi là từ khoá hạt giống (seed keyword) và tìm ra được những từ khoá từ những trang liên quan trả về từ máy tìm kiếm. Kĩ thuật này nhằm tìm từ khóa cho một trang chủ, portal. Quy trình của phương pháp này có thể được miêu tả như sau:
Bước 1: Tải về toàn bộ các trang thuộc cùng domain với trang này(có thể phải
giới hạn số trang lấy về)
Bước 2: Trích xuất các từ khóa cho các trang web này dựa vào độ đo (tf x idf).
Lưu trữ dưới dạng một tập từ điển ban đầu (lấy trong các ngưỡng xác định, loại bỏ từ dừng...)
Bước 3: Với mỗi từ khóa trong bộ từ điển từ khóa, tìm kiếm những trang web
liên quan nhờ các máy tìm kiếm. Chỉ lấy các trang đầu trả về của máy tìm kiếm.
Bước 4: Tải các trang trong kết quả máy tìm kiếm trả về, sinh từ khóa cho các
trang web này dựa vào tần số xuất hiện của từ, so sánh độ tương đồng ngữ nghĩa của từ tìm kiếm và các từ khóa này. Nếu thỏa mãn các ngưỡng về độ tương đồng, tần số xuất hiện thì thêm vào từ điển những từ khóa này.
Bước 5: Thống kê lại các từ khóa nhờ vào tần số xuất hiện trong từ điển.
Kết quả của phương pháp này khá là hiệu quả và tốt, nhưng chi phí cho nó là rất nhiều, và nó phù hợp cho các trang mà độ nhiễu trong các trang khác nhau là không quá lớn. Việc so sánh ngữ nghĩa của các từ khóa tốt là thành công cho phương pháp này.
19