Một vấn đề của quảng cáo theo ngữ cảnh, đó là sự khác biệt về từ vựng giữa trang web và các quảng cáo. Ribeiro Neto và các cộng sự [24] đã tập trung vào việc giải quyết vấn đề này bằng cách mở rộng tập từ vựng của các trang web.
Nhìn chung, một quảng cáo thường ngắn, cô đọng và tập trung vào một chủ đề
chính. Tuy nhiên, một trang web lại có nội dung lớn hơn và thuộc một không gian ngữ
cảnh lớn hơn. Một trang web có thể nói về rất nhiều chủđề và với các từ khóa khác nhau. Vấn đề tìm kiếm những quảng cáo phù hợp với một trang web sử dụng những chủ đề có trong nội dung trang đang là một vấn đề cần được quan tâm.
Ribeiro và các cộng sự [24] đã khảo sát 10 phương pháp so khớp các quảng cáo và trang web. Họ tiến hành thực nghiệm với một cơ sở dữ liệu lớn trên 93 nghìn quảng cáo và 100 trang web.
Với 5 phương pháp đầu tiên, họ so sánh các trang web và quảng cáo dựa vào mô hình véc tơ. Hạng của mỗi quảng cáo được tính dựa trên độ tương đồng cosin giữa quảng cáo và trang web. Các đặc trưng được sử dụng là tiêu đề, mô tả và các từ khóa quảng cáo. Phương pháp tốt nhất trong những phương pháp này là AAK, “so khớp sử dụng các từ
khóa quảng cáo xuất hiện trong nội dung trang web”, kết quả của phương pháp này được sử dụng để so sánh với các phương pháp “impedance coupling”.
Nhưđã giới thiệu ở trên, có một sự khác biệt lớn giữa tập từ vựng của trang web và quảng cáo. Để giải quyết vấn đề này, Ribeiro và các cộng sự [24] mở rộng tập từ vựng của trang web với những từ khóa lấy từ các trang web có nội dung tương tự sử dụng mô hình Bayes. Những từ khóa mở rộng này có thể xuất hiện trong tập từ khóa của quảng cáo và làm tăng hiệu quả của hệ thống. Họ sử dụng 5 phương pháp so khớp khác nhau gọi là các phương pháp “impedance coupling”.
Trong thực nghiệm, họ sử dụng một cơ sở dữ liệu với 6 triệu trang web để phục vụ
cho việc mở rộng tập từ vựng. Kết quả thu được khi sử dụng các nội dung đã được mở
rộng tốt hơn so với phương pháp AAK ở trên. Phương pháp tốt nhất được đưa ra đó là so khớp sử dụng nội dung trang web mở rộng và nội dung của trang web được quảng cáo trỏ
tới. Thực nghiệm của Ribeiro-Neto và các cộng sự đã chứng tỏ rằng, việc giảm sự khác biệt về tập từ vựng giữa trang web và quảng cáo có thể hỗ trợ tốt cho việc tìm kiếm quảng cáo phù hợp với ngữ cảnh.