ngữ cảnh
Dựa trên ý tưởng mở rộng nội dung trang web và quảng cáo sẽ hỗ trợ tốt hơn cho việc tìm kiếm và xếp hạng quảng cáo. Lê Diệu Thu [27] đã đề xuất một hướng tiếp cận trong quảng cáo theo ngữ cảnh, tập trung vào phân tích chủđề ẩn nhằm làm giàu nội dung trang web cũng như quảng cáo bằng những từ khóa mở rộng. Để khái quát hóa ngữ cảnh của các trang web và quảng cáo, tác giả tiến hành xây dựng một mô hình phân tích chủđề ẩn trên một tập dữ liệu lớn, từđó phát hiện những chủđề và các mối quan hệ giữa chủđề
với từ hay giữa từ với từ. Mô hình này còn cho phép xác định phân bố xác suất của các
chủđề trên từng trang web hay quảng cáo, từđó làm giàu nội dung của chúng với những từ khóa của các chủđề có liên quan.
Lê Diệu Thu xây dựng một bộ dữ liệu với kích thước lớn, gọi là Universal Dataset, và sử dụng bộ dữ liệu này cho quá trình phân tích chủ đề ẩn. Bộ dữ liệu được thu thập từ
VnExpress [7], một trong những trang báo điện tử lớn nhất của Việt Nam, bao gồm các chủ đề khác nhau như: xã hội, tin tức thế giới, đời sống, văn hóa, thể thao, khoa học… Hơn 220 Megabyte dữ liệu gồm khoảng 40 nghìn trang web được thu thập sử dụng Nutch [37] và được tiền xử lý bằng cách loại bỏ các thẻ HTML, phân tách câu, tách từ, loại bỏ
những từ không thích hợp. Sau khi xử lý, thu được bộ dữ liệu 53 Megabyte với 40,268 tài liệu.Tiến hành phân tích chủđề ẩn trên bộ dữ liệu thu được sử dụng GibbsLDA [16], một
ứng dụng của mô hình LDA và Gibb Sampling.
Để tiến hành thực nghiệm, tác giả sử dụng một tập 100 trang web và 2607 quảng cáo khác nhau. Các trang web được lựa chọn ngẫu nhiên từ tập 27,763 trang web thu thập
được từ báo điện tử VnExpress, các trang web được chọn từ các chủ đề: ẩm thực, mua bán, dược phẩm, nhà đất, thị trường chứng khoán, việc làm… Các quảng cáo được thu thập bằng cách sử dụng các tiêu đề, mô tả và từ khóa của các trang web trên danh bạ
website Việt Nam [5].
Để đánh giá ảnh hưởng của các từ khóa trong tìm kiếm theo ngữ cảnh, Lê Diệu Thu cài đặt hai phương pháp tìm kiếm theo hướng tiếp cận của Ribeiro-Neto [24]. Phương pháp thứ nhất gọi là AD, chỉ sử dụng tiêu đề và mô tả của quảng cáo trong tìm kiếm. Phương pháp thứ hai là AD_KW, tìm kiếm quảng cáo sử dụng cả tiêu đề, mô tả của quảng cáo lẫn các từ khóa.
Để đánh giá ảnh hưởng của chủ đề ẩn, tác giả tiến hành 6 thực nghiệm khác nhau. Trong mỗi thực nghiệm, sử dụng một mô hình chủđề ẩn khác nhau với các tham số khác nhau. Các mô hình chủđềẩn được sử dụng lần lượt là mô hình với 60, 120 và 200 chủđề. Sau khi suy luận chủđề ẩn cho tất cả các trang web và quảng cáo, tiến hành mở rộng tập từ vựng của chúng theo các chủđề liên quan. Kết quả thực nghiệm cho thấy, việc sử dụng chủđềẩn làm tăng độ chính xác của mô hình từ 64% lên 72%.
Nghiên cứu của Lê Diệu Thu [27] đã đưa ra một mô hình nhằm giải quyết bài toán tìm kiếm và xếp hạng quảng cáo trong quảng cáo theo ngữ cảnh. Chỉ ra những ảnh hưởng tích cực của việc sử dụng chủ đề ẩn nhằm mở rộng tập từ khóa của trang web cũng như
quảng cáo. Kết quảđạt được rất khả quan, mô hình khắc phục được vấn đề so khớp giữa quảng cáo và trang web có tập từ vựng khác nhau bằng việc khai thác mối quang hệ ngữ
nghĩa ẩn trong nội dung của chúng. Cách tiếp cận này có thể được mở rộng và sử dụng một cách hiệu quả trong quảng cáo trên máy tìm kiếm.
Chương 3. Hệ thống quảng cáo trực tuyến sử dụng xếp hạng và chủ đề ẩn