Phân tích chủ đề trong quảng cáo trực tuyến hướng câu truy vấn

MỤC LỤC

Khái quát về quảng cáo trực tuyến

  • Quảng cáo trực tuyến
    • Quảng cáo trực tuyến ở Việt Nam

      Điều này khiến doanh thu của quảng cáo trực tuyến ở Việt Nam tập trung tại một vài trang web có lượng truy cập cao nhất (chủ yếu là các báo điện tử, trang tin tức như VnExpress, Dân Trí, Vietnamnet, 24h.com.vn..) thay vì có thể phân bổ ở các website đặc thù (du lịch, giải trí, thương mại..). Trong cả hai loại quảng cáo nói trên, số lượng các quảng cáo được đưa ra cho mỗi lần hiển thị thường rất ít, từ 4 đến 5 quảng cáo, người dùng thông thường chỉ chú ý đến một vài quảng cáo đầu tiên, do vậy yêu cầu đối với hệ thống quảng cáo là: phải tìm ra những quảng cáo phù hợp nhất với truy vấn của người dùng và đưa chúng lên đầu danh sách.

      Hình 1. Doanh thu quảng cáo trực tuyến nửa đầu và cuối những năm từ 1999 đến 2008 ở  Mĩ [33]
      Hình 1. Doanh thu quảng cáo trực tuyến nửa đầu và cuối những năm từ 1999 đến 2008 ở Mĩ [33]

      Các phương pháp quảng cáo thông qua tìm kiếm

        Phương pháp tốt nhất trong những phương pháp này là AAK, “so khớp sử dụng các từ khóa quảng cáo xuất hiện trong nội dung trang web”, kết quả của phương pháp này được sử dụng để so sánh với các phương pháp “impedance coupling”. - Cụm từ Prisma: sử dụng công cụ của Altavista’s Prisma, đây là một công cụ cho phép trích chọn các cụm từ thường được sử dụng trên web, và một tập các cụm từ Prisma cho tiếng anh gồm 10 triệu cụm từ, họ xác định các cụm từ Prisma xuất hiện trong tập kết quả của truy vấn gốc, lựa chọn những cụm từ phù hợp nhất với truy vấn gốc và sử dụng chúng như các đặc trưng cho truy vấn quảng cáo. Matthew Richardson xem xét vấn đề ước lượng CTR với một tập các đặc trưng cho trước như một bài toán hồi quy và sử dụng hồi quy logic (logistic regression) với đầu ra là các xác suất tương ứng với các giá trị ước lượng nằm trong khoảng [0, 1].

        Về dữ liệu, họ sử dụng một tập các quảng cáo của máy tìm kiếm MSN, mỗi quảng cáo có các thông tin như: URL, các từ khóa tương ứng với quảng cáo, tiêu đề, nội dung và đặc biệt là tổng số lần quảng cáo đã được click và tổng số lần quảng cáo đc xem kể từ khi được đưa vào hệ thống. Để khái quát hóa ngữ cảnh của các trang web và quảng cáo, tác giả tiến hành xây dựng một mô hình phân tích chủ đề ẩn trên một tập dữ liệu lớn, từ đó phát hiện những chủ đề và các mối quan hệ giữa chủ đề với từ hay giữa từ với từ. Các trang web được lựa chọn ngẫu nhiên từ tập 27,763 trang web thu thập được từ báo điện tử VnExpress, các trang web được chọn từ các chủ đề: ẩm thực, mua bán, dược phẩm, nhà đất, thị trường chứng khoán, việc làm… Các quảng cáo được thu thập bằng cách sử dụng các tiêu đề, mô tả và từ khóa của các trang web trên danh bạ website Việt Nam [5].

        Hình 7.  Kiến trúc hệ thống quảng cáo sử dụng phản hồi liên quan [11]
        Hình 7. Kiến trúc hệ thống quảng cáo sử dụng phản hồi liên quan [11]

        Hệ thống quảng cáo trực tuyến sử dụng xếp hạng và chủ đề ẩn

        Xếp hạng

        • Học xếp hạng và SVM Rank .1 Học xếp hạng

          Việc xếp hạng các kết quả trả về từ máy tìm kiếm là rất phức tạp, mỗi tài liệu có nhiều đặc trưng khác nhau, cần tìm ra mối quan hệ giữa các đặc trưng đó.Và từ đó kết hợp các đặc trưng lại để xây dựng hàm tính hạng phù hợp. Hơn nữa, không có sự khác biệt giữa các cặp tài liệu thuộc các hạng khác nhau, trong khi trên thực tế, ảnh hưởng của việc xếp hạng sai giữa những tài liệu có hạng cao với tài liệu có hạng thấp là lớn hơn so với việc xếp hạng sai giữa những tài liệu có hạng thấp với nhau. DCG (Discounted cumulative gain) là một độ đo mức hiệu quả của các thuật toán trên hệ thống máy tìm kiếm hay những ứng dụng tương tự, và thường được sử dụng trong tìm kiếm thông tin (Information Retrieval).

          Discounted cumulative gain: tiền đề của DCG là những tài liệu có độ phù hợp cao hơn nhưng lại xuất hiện ở những vị trí thấp hơn sẽ dẫn tới một mức “phạt” (penalty) bằng cách giảm độ phù hợp của tài liệu đi một lượng bằng logarit của vị trí trong kết quả. Trong đó: IDCGp (Ideal Discounted cumulative gain) là giá trị DCG trong trường hợp kết quả đưa ra là hoàn hảo, nhận được khi tất cả các tài liệu đều được xếp đúng vị trí tương ứng với độ phù hợp của chúng. Ngoài hai độ đo trên, một số độ đo khác cũng được sử dụng như: trung bình nghịch đảo thứ hạng (MRR), số đối tượng đúng ở mức k (Match@K), trung bình tổng nghịch đảo thứ hạng của các đối tượng đúng (MTRR) [2].

          Chủ đề ẩn

            Trước hết, để tạo ra một tài liệu mới, ta cần chọn ra một phân phối những chủ đề cho tài liệu đó, điều này có nghĩa tài liệu được tạo nên từ những chủ đề khác nhau, với những phân phối khác nhau. Một cách hoàn toàn ngược lại, cho một tập các tài liệu, ta có thể xác định một tập các chủ đề ẩn cho mỗi tài liệu và phân phối xác suất của các từ trên từng chủ đề. Tuy nhiên, theo phân tích của Blei và các cộng sự (2003) [10], mặc dù LPSA là một bước quan trọng trong việc mô hình hóa dữ liệu văn bản, tuy nhiên nó vẫn còn chưa hoàn thiện ở chỗ chưa xây dựng được một mô hình xác suất tốt ở mức độ tài liệu.

            Điều đó dẫn đến vấn đề gặp phải khi phân phối xác suất cho một tài liệu nằm ngoài tập dữ liệu học, ngoài ra số lượng các tham số có thể tăng lên một cách tuyến tính khi kích thước của tập dữ liệu tăng. Về bản chất, LDA là một mô hình Bayesian 3 cấp (three-level hierarchical Bayes model: corpus level, document level, word level) trong đó mỗi phần của mô hình được coi như một mô hình trộn hữu hạn trên cơ sở tập các xác suất chủ đề [27]. Trong mỗi lần lấy mẫu lại: các tham số tương ứng với các topic và term cũ giảm đi 1, các tham số tương ứng với các topic và term mới tăng lên 1.

            Hình 9. Mô hình biểu diễn của LDA[15]
            Hình 9. Mô hình biểu diễn của LDA[15]

            Mô hình quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

              Với F(q, a) trả về độ phù hợp của quảng cáo a đối với truy vấn q, độ phù hợp càng lớn quảng cáo sẽ được xếp hạng càng cao. Zeng [29] và Xu [29] đã chỉ ra rằng, sử dụng thuật toán SVM ranking đem lại kết quả tốt trong việc xếp hạng cũng như phân cụm kết quả tìm kiếm, khi sử dụng cả truy vấn, title và snippet (nội dung tóm tắt) trong quá trình học. Từ những nghiên cứu đã được đề cập ở trên, chúng tôi đề xuất hệ thống quảng cáo trên máy tìm kiếm sử dụng phân tích chủ đề ẩn và kĩ thuật tính hạng.

              Key word Matching (5). Mô hình tổng quan hệ thống quảng cáo sử dụng chủ đề ẩn Mô hình gồm các bước chính sau:. 1) Xây dựng tập dữ liệu học. Tập dữ liệu học được xây dựng bằng cách phân tích các query logs, thu thập các tiêu đề, mô tả của trang web và coi chúng như một quảng cáo (tài liệu). 2) Xây dựng mô hình chủ đề ẩn, xác định các chủ đề và phân phối xác suất của các chủ đề trên từng tài liệu. 3) Xây dựng tập dữ liệu học với đặc trưng mới, các đặc trưng ở đây gồm có tần suất xuất hiện của từ khóa và xác suất để mỗi tài liệu thuộc vào một chủ đề. 4) Xây dựng hàm xếp hạng từ tập dữ liệu học thu được. Hàm xếp hạng được xây dựng sử dụng thuật toán SVM-Rank. 5) Tìm kiếm các quảng cáo phù hợp với truy vấn. 6) Xác định chủ đề ẩn của quảng cáo và biểu diễn quảng cáo theo đặc trưng mới. 7) Xếp hạng các quảng cáo sử dụng hàm xếp hạng đã được xây dựng từ tập dữ liệu học. Trong mô hình này, chúng ta coi mỗi quảng cáo (bao gồm nội dung, tiêu đề) là một tài liệu.

              Hình 11.  Mô hình tổng quan hệ thống quảng cáo sử dụng chủ đề ẩn
              Hình 11. Mô hình tổng quan hệ thống quảng cáo sử dụng chủ đề ẩn

              Thực nghiệm và đánh giá

              • Môi trường thực nghiệm 1 Cấu hình phần cứng
                • Quá trình thực nghiệm

                  • Module tfidf_lda: Véc tơ hóa các tài liệu thu được theo đặc trưng về tần suất xuất hiện của từ khóa, TF-IDF và đặc trưng về xác suất xuất hiện của tài liệu trong từng chủ đề ẩn. • Module test: Từ các quảng cáo đã được sắp xếp theo ý kiến người dùng, tiến hành véc tơ hóa các quảng cáo theo đặc trưng về tần suất xuất hiện các từ khóa, sau đó xếp hạng các kết quả này bằng hàm xếp hạng. Việc sử dụng tiêu đề và mô tả (description) của trang web không hẳn là phương pháp tối ưu để xây dựng tập dữ liệu học, tuy nhiên nó có thể tốt hơn việc sử dụng toàn bộ nội dung trang web, điều mà có thể gây nhiễu lớn trong quá trình học.

                  • Việc sử dụng tiêu đề và mô tả trang web làm dữ liệu học: nội dung tiêu đề và mô tả của trang web thường có tác dụng cho chúng ta một cái nhìn tổng quan về trang web đó. Tuy nhiên, với một số trang web được xây dựng không tốt, không theo tiêu chuẩn, tiêu đề và mô tả của trang web đó có thể không có hoặc nội dung không liên quan tới nội dung trang web. Từ những kết quả trên, ta thấy việc sử dụng mô hình chủ đề ẩn nhằm xây dựng các đặc trưng mới để biểu diễn quảng cáo có tác dụng tốt trong việc xếp hạng quảng cáo theo truy vấn của người dùng.

                  Bảng 2 Cấu hình phần cứng sử dụng trong thực nghiệm
                  Bảng 2 Cấu hình phần cứng sử dụng trong thực nghiệm