Dựa trên những nghiên cứu về xử lý truy vấn và mở rộng câu truy vấn, Andrei Z.Broder và các cộng sự [11] đã đưa ra mô hình quảng cáo trên máy tìm kiếm sử dụng phản hồi liên quan. Với một truy vấn đầu vào gọi là truy vấn gốc, Andrei Z.Broder tiến hành tìm kiếm trên các máy tìm kiếm và thu thập một số kết quả trong danh sách các kết quảđầu tiên. Từ truy vấn gốc và những kết quảđó, xây dựng một truy vấn mới gọi là truy vấn quảng cáo - và tiến hành tìm kiếm trên tập quảng cáo đã có bằng truy vấn này. Cách tiếp cận này cho phép khai thác những thông tin mở rộng thu được từ máy tìm kiếm nhằm tạo ra những đặc trưng giàu thông tin hơn cho việc tìm kiếm. Hơn nữa, việc sử dụng những đặc trưng mô tả toàn bộ quảng cáo tốt hơn so với việc chỉ sử dụng những từ khóa riêng biệt của nó, điều này còn giúp cho người quảng cáo không phải xác định trước các từ khóa của quảng cáo.
Truy vấn quảng cáo và các quảng cáo được họ biểu diễn thông quang 3 loại đặc trưng chính: từ khóa, phân lớp và các cụm từ Prisma.
- Từ khóa: họ tập hợp tất cả các từ khóa riêng biệt có trong tập quảng cáo, lựa chọn số từ khóa phù hợp, sử dụng mỗi từ khóa này như một đặc trưng sau đó tiến hành tính trọng số cho các đặc trưng theo TF-IDF.
- Phân lớp: để tránh trường hợp một quảng cáo và một truy vấn có sự liên quan lớn, nhưng chúng sử dụng các từ khác nhau để biểu diễn, ngoài các từ khóa, họ sử dụng một đặc trưng ở mức cao hơn đó là phân lớp của truy vấn. Sử dụng một taxonomy lớn về
những chủđề liên quan tới thương mại, xây dựng bộ phân lớp cho phép ánh xạ một đoạn văn bản với một số lớp liên quan. Từ tập kết quả tìm được với truy vấn gốc, họ tiến hành phân lớp với từng kết quả, sau đó chọn ra những lớp phù hợp nhất với truy vấn gốc. Các lớp này sẽđược sử dụng như các đặc trưng của truy vấn quảng cáo, trọng số tại các đặc trưng sẽđược xác định bằng độ tin cậy trả về từ bộ phân lớp.
- Cụm từ Prisma: sử dụng công cụ của Altavista’s Prisma, đây là một công cụ cho phép trích chọn các cụm từ thường được sử dụng trên web, và một tập các cụm từ Prisma cho tiếng anh gồm 10 triệu cụm từ, họ xác định các cụm từ Prisma xuất hiện trong tập kết quả của truy vấn gốc, lựa chọn những cụm từ phù hợp nhất với truy vấn gốc và sử dụng chúng như các đặc trưng cho truy vấn quảng cáo. Trọng số tại các đặc trưng được tính theo TF-IDF.
Trong thực nghiệm Andrei Z.Broder và các cộng sự [11] thiết lập 4 hệ thống khác nhau, với các tham số trộn giữa các loại đặc trưng là khác nhau trên mỗi hệ thống. Sử
dụng một tập 700 truy vấn, mỗi truy vấn được xây dựng như sau. Bắt đầu với tập tất cả
các truy vấn của Yahoo trong tuần từ 23-29, 2007. Chia 10 triệu truy vấn được tìm kiếm nhiều nhất thành các nhóm theo tần suất tìm kiếm, lựa chọn ngẫu nhiên 50 truy vấn từ
mỗi nhóm. Ngoài ra, lấy ngẫu nhiên 200 truy vấn trong số những truy vấn còn lại (không thuộc 10 triệu truy vấn nói trên). Với một truy vấn, tìm 3 quảng cáo đối với mỗi hệ thống
ở trên, tiến hành 9000 cặp truy vấn-quảng cáo như vậy. Một nhóm gồm 6 nhà phân tích, tất cảđều có khả năng tốt về tiếng Anh, tiến hành đánh giá và phân chia mỗi kết quả vào một trong các nhóm: Perfect, Certainly Attractive, Probably Attractive, Somewhat Attractive, Probably Not Attractive, and Certainly Not Attractive. Để tính toán độ chính xác và độ hồi tưởng, họ coi 4 nhóm đầu tiên là phù hợp, và hai nhóm cuối là không phù hợp.
Kết quả thực nghiệm thu được được so sánh với mô hình không sử dụng truy vấn mở rộng (chỉ sử dụng truy vấn ban đầu) và có độ chính xác vượt trội. Độ chính xác của mô hình ở 4 hệ thống lần lượt là 35%, 40%, 42% và 45 % so với 16% của mô hình không sử dụng việc mở rộng truy vấn. Hình 7 mô tả kiến trúc hệ thống của họ.
Hình 7. Kiến trúc hệ thống quảng cáo sử dụng phản hồi liên quan [11]
Mô hình quảng cáo sử dụng phản hồi liên quan của Andrei Z.Broder và các cộng sự đã đưa ra được một phương pháp mở rộng câu truy vấn sử dụng các kết quả tìm kiếm. Họ đã đề xuất một phương pháp xây dựng các đặc trưng dựa trên những tri thức mở rộng, mô hình này giúp những người quảng cáo không nhất thiết phải định nghĩa rõ ràng những từ
khóa tương ứng với quảng cáo của họ.