Dựa trên việc sử dụng CTR để xếp hạng các quảng cáo, Matthew Richardson và các cộng sự [25] đã đưa ra một mô hình ước lượng CTR đối với những quảng cáo mới dựa trên những thông tin đã có từ trước. Những quảng cáo với CTR cao sẽđược xếp hạng cao hơn so với những quảng cáo có CTR thấp.
Matthew Richardson xem xét vấn đề ước lượng CTR với một tập các đặc trưng cho trước như một bài toán hồi quy và sử dụng hồi quy logic (logistic regression) với đầu ra là các xác suất tương ứng với các giá trị ước lượng nằm trong khoảng [0, 1]. Các đặc trưng
được sử dụng:
• Diện mạo quảng cáo: có bao nhiêu từ trong tiêu đề, trong nội dung, nội dung có gồm nhiều kí hiệu, dấu câu hay không, sử dụng các từ ngắn hay dài….
• Mức độ thu hút: tiêu đề, nội dung quảng cáo có chứa những từ mô tả hành động như “mua”, “tham gia”, “đăng ký” hay không…
• Danh tiếng: URL có kết thúc bởi .com, .net, .org… hay không, độ dài URL ra sao, URL gồm nhiều đoạn hay ít đoạn, ví dụ: books.com sẽ tốt hơn so với books.something.com. URL có chứa nhiều dấu sổ hay các con số hay không…
• Chất lượng trang web quảng cáo trỏ tới: liệu trang web có chứa flash hay không, những phần nào được bao bởi ảnh, có sử dụng stylesheet hay không, có nhiều quảng cáo trên trang web hay không.
• Độ phù hợp: liệu từ khóa (bid-term) có xuất hiện trong tiêu đề, trong nội dung hay không, trong phần nào của nội dung…
Với 5 loại đặc trưng nói trên, họ sử dụng 81 đặc trưng. Ngoài ra còn sử dụng các đặc trưng sau:
• Các từ xuất hiện trong tập quảng cáo: lấy ra 10000 từ phổ biến nhất trong tập quảng cáo, thêm một đặc trưng với giá trị 1 nếu từ xuất hiện trong quảng cáo đang xét, ngược lại là giá trị 0.
• CTR: sử dụng CTR của những quảng cáo khác có chung từ khóa (keywords, bid term). Ngoài ra, số lượng các quảng cáo có cùng từ khóa với quảng cáo đang xét cũng được sử dụng như một đặc trưng.
• Bên cạnh những quảng cáo có từ khóa chung, CTR của những quảng cáo có từ
khóa liên quan cũng được sử dụng. Ví dụ từ khóa “red shoes” và “buy red shoes” là những từ khóa có liên quan và CTR của quảng cáo ứng với “buy red shoes” có thểđược sử dụng trong việc ước lượng CTR của quảng cáo ứng với “red shoes”. Về dữ liệu, họ sử dụng một tập các quảng cáo của máy tìm kiếm MSN, mỗi quảng cáo có các thông tin như: URL, các từ khóa tương ứng với quảng cáo, tiêu đề, nội dung và
đặc biệt là tổng số lần quảng cáo đã được click và tổng số lần quảng cáo đc xem kể từ khi
được đưa vào hệ thống. Tập dữ liệu được chia làm ba phần: 70% cho việc training, 10% cho việc kiểm định và 20% cho việc test.
Trong thực nghiệm, họ sử dụng độ trung bình KL-divergence [20] được tính bởi kết quảước lượng CTR của mô hình và CTR thực sự của quảng cáo trong tập test. Xây dựng 1 số hệ thống với các đặc trưng khác nhau, tiến hành so sánh với mô hình ước lượng CTR chỉ sử dụng tập train một cách đơn giản (sử dụng một đặc trưng duy nhất CTR của chính quảng cáo), được gọi là baseline. Kết quả thu được là khá tốt, mức độ cải tiến so với baseline từ 13.28% tới 19.67%.