Mô hình tìm kiếm và xếp hạng sử dụng chủ đề ẩn trong quảng cáo theo ngữ cảnh

Một phần của tài liệu Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng (Trang 31 - 34)

ngữ cảnh

Dựa trên ý tưởng mở rộng nội dung trang web và quảng cáo sẽ hỗ trợ tốt hơn cho việc tìm kiếm và xếp hạng quảng cáo. Lê Diệu Thu [27] đã đề xuất một hướng tiếp cận trong quảng cáo theo ngữ cảnh, tập trung vào phân tích chủđề ẩn nhằm làm giàu nội dung trang web cũng như quảng cáo bằng những từ khóa mở rộng. Để khái quát hóa ngữ cảnh của các trang web và quảng cáo, tác giả tiến hành xây dựng một mô hình phân tích chủđề ẩn trên một tập dữ liệu lớn, từđó phát hiện những chủđề và các mối quan hệ giữa chủđề

với từ hay giữa từ với từ. Mô hình này còn cho phép xác định phân bố xác suất của các

chủđề trên từng trang web hay quảng cáo, từđó làm giàu nội dung của chúng với những từ khóa của các chủđề có liên quan.

Lê Diệu Thu xây dựng một bộ dữ liệu với kích thước lớn, gọi là Universal Dataset, và sử dụng bộ dữ liệu này cho quá trình phân tích chủ đề ẩn. Bộ dữ liệu được thu thập từ

VnExpress [7], một trong những trang báo điện tử lớn nhất của Việt Nam, bao gồm các chủ đề khác nhau như: xã hội, tin tức thế giới, đời sống, văn hóa, thể thao, khoa học… Hơn 220 Megabyte dữ liệu gồm khoảng 40 nghìn trang web được thu thập sử dụng Nutch [37] và được tiền xử lý bằng cách loại bỏ các thẻ HTML, phân tách câu, tách từ, loại bỏ

những từ không thích hợp. Sau khi xử lý, thu được bộ dữ liệu 53 Megabyte với 40,268 tài liệu.Tiến hành phân tích chủđề ẩn trên bộ dữ liệu thu được sử dụng GibbsLDA [16], một

ứng dụng của mô hình LDA và Gibb Sampling.

Để tiến hành thực nghiệm, tác giả sử dụng một tập 100 trang web và 2607 quảng cáo khác nhau. Các trang web được lựa chọn ngẫu nhiên từ tập 27,763 trang web thu thập

được từ báo điện tử VnExpress, các trang web được chọn từ các chủ đề: ẩm thực, mua bán, dược phẩm, nhà đất, thị trường chứng khoán, việc làm… Các quảng cáo được thu thập bằng cách sử dụng các tiêu đề, mô tả và từ khóa của các trang web trên danh bạ

website Việt Nam [5].

Để đánh giá ảnh hưởng của các từ khóa trong tìm kiếm theo ngữ cảnh, Lê Diệu Thu cài đặt hai phương pháp tìm kiếm theo hướng tiếp cận của Ribeiro-Neto [24]. Phương pháp thứ nhất gọi là AD, chỉ sử dụng tiêu đề và mô tả của quảng cáo trong tìm kiếm. Phương pháp thứ hai là AD_KW, tìm kiếm quảng cáo sử dụng cả tiêu đề, mô tả của quảng cáo lẫn các từ khóa.

Để đánh giá ảnh hưởng của chủ đề ẩn, tác giả tiến hành 6 thực nghiệm khác nhau. Trong mỗi thực nghiệm, sử dụng một mô hình chủđề ẩn khác nhau với các tham số khác nhau. Các mô hình chủđềẩn được sử dụng lần lượt là mô hình với 60, 120 và 200 chủđề. Sau khi suy luận chủđề ẩn cho tất cả các trang web và quảng cáo, tiến hành mở rộng tập từ vựng của chúng theo các chủđề liên quan. Kết quả thực nghiệm cho thấy, việc sử dụng chủđềẩn làm tăng độ chính xác của mô hình từ 64% lên 72%.

Nghiên cứu của Lê Diệu Thu [27] đã đưa ra một mô hình nhằm giải quyết bài toán tìm kiếm và xếp hạng quảng cáo trong quảng cáo theo ngữ cảnh. Chỉ ra những ảnh hưởng tích cực của việc sử dụng chủ đề ẩn nhằm mở rộng tập từ khóa của trang web cũng như

quảng cáo. Kết quảđạt được rất khả quan, mô hình khắc phục được vấn đề so khớp giữa quảng cáo và trang web có tập từ vựng khác nhau bằng việc khai thác mối quang hệ ngữ

nghĩa ẩn trong nội dung của chúng. Cách tiếp cận này có thể được mở rộng và sử dụng một cách hiệu quả trong quảng cáo trên máy tìm kiếm.

Chương 3. H thng qung cáo trc tuyến s dng xếp hng và ch đề n

Một phần của tài liệu Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng (Trang 31 - 34)