1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình keyword topic cho quảng cáo dựa trên ngữ cảnh (tt)

30 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Đỗ Việt Phương MƠ HÌNH KEYWORD-TOPIC CHO QUẢNG CÁO DỰA TRÊN NGỮ CẢNH Chuyên ngành: Truyền liệu mạng máy tính Mã số: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Từ Minh Phương Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỤC LỤC MỤC LỤC MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ QUẢNG CÁO TRỰC TUYẾN 1.1 Giới thiệu loại hình quảng cáo trực tuyến 1.1.1 Tổng quan quảng cáo trực tuyến 1.1.2 Tốc độ tăng trƣởng thị phần 1.1.3 Các hình thức quảng cáo trực tuyến 1.1.4 Quảng cáo dựa ngữ cảnh 1.2 Các phƣơng pháp tiếp cận triển khai 1.2.1 Mơ hình trích xuất từ khóa nội dung trang Web 1.2.2 Mơ hình so độ tƣơng đồng với tập từ vựng mở rộng 1.2.3 Mơ hình tối ƣu xếp hạng với thuật tốn di truyền 1.2.4 Phƣơng pháp so sánh dựa ngữ nghĩa 1.2.5 Chủ đề ẩn CHƢƠNG MƠ HÌNH KEYWORD-TOPIC 2.1 Phƣơng pháp 2.1.1 Khái niệm thành phần 2.1.2 Phƣơng pháp 2.2 LDA (Latent Dirichlet Allocation) 11 2.2.1 Nguyên lý 11 2.2.2 Mơ hình sinh cho tài liệu 11 2.3 Mơ hình từ khóa-chủ đề ( keyword-topic) 12 2.3.1 Mơ hình dùng cho toán 13 2.3.2 Sử dụng mơ hình từ khóa-chủ đề 13 2.3.3 Biểu diễn quảng cáo trang Web 16 2.3.4 Kết hợp phƣơng pháp biểu diễn 17 CHƢƠNG KẾT QUẢ THỰC NGHIỆM 18 3.1 Tập liệu tiền xử lý 18 3.1.1 Tập liệu thực nghiệm 18 3.1.2 Tiền xử lý liệu 18 3.2 Cài đặt thử nghiệm 19 3.2.1 Công cụ sử dụng 19 3.2.2 Phƣơng pháp sử dụng để đánh giá 19 3.2.3 Các phƣơng pháp cài đặt để so sánh 20 3.2.4 Kết thực nghiệm 21 3.2.5 Phân tích đánh giá mơ hình KT 22 TÀI LIỆU THAM KHẢO 26 MỞ ĐẦU Mục tiêu đề tài luận văn nghiên cứu kỹ thuật hỗ trợ quảng cáo theo ngữ cảnh – dạng quảng cáo trực tuyến Web Thông thƣờng, quảng cáo Web đƣợc chia thành hai loại chính, Quảng cáo tìm kiếm đƣợc tài trợ (Sponsored Search) Quảng cáo dựa ngữ cảnh (Contextual advertising) Hình thức quảng cáo tìm kiếm đƣợc tài trợ hiển thị quảng cáo trang kết đƣợc trả cơng cụ tìm kiếm chẳng hạn nhƣ Google hay Yahoo Trong trƣờng hợp này, cơng cụ tìm kiếm đóng vai trị nhƣ đại lý phân phối quảng cáo Ngƣợc lại, quảng cáo dựa ngữ cảnh hay đƣợc gọi Quảng cáo dựa nội dung đặt lƣợng nhỏ quảng cáo lên trang Web có nội dung mà ngƣời dùng xem Lợi ích việc Quảng cáo dựa ngữ cảnh hỗ trợ nhiều nhà xuất nội dung khác nhƣ trang Web hay blog so với hình thức Quảng cáo tìm kiếm đƣợc tài trợ Một hệ thống Quảng cáo ngữ cảnh điển hình bao gồm bốn bên tham gia, nhà xuất bản, nhà quảng cáo, hệ thống phân phối ngƣời sử dụng Nhà xuất chủ sở hữu trang Web mà quảng cáo hiển thị Các nhà quảng cáo cung cấp nội dung quảng cáo để quảng bá sản phẩm dịch vụ họ Các mạng quảng cáo hoạt động nhƣ cầu nối nhà quảng cáo nhà xuất bản, lựa chọn quảng cáo tốt để đặt vào nội dung trang Web Ngƣời sử dụng ngƣời xem nội dung trang Web Quảng cáo đƣợc lựa chọn trang đích có nội dung nhiều liên quan đến nội dung trang Web Khi ngƣời sử dụng mở trang Web, họ trơng thấy quảng cáo thơng qua đoạn văn mô tả đƣờng liên kết Khi ngƣời dùng nhấp chuột vào đƣờng liên kết này, đƣa ngƣời dùng đến với trang đích quảng cáo Mơ hình định giá đƣợc sử dụng rộng rãi ngày mơ hình PPC (Pay- per-click) Nhà tạo quảng cáo trả số tiền định cho lần nhấp chuột vào liên kết quảng cáo, ngồi nhà tạo quảng cáo lựa chọn hình thức khác nhƣ PPI (Pay-per-Impression) hay PPA (Pay-peraction) Đƣợc trình bày nghiên cứu trƣớc [6] hành vi ngƣời dùng, để tăng trải nghiệm ngƣời dùng nhƣ tăng khả nhấp chuột vào quảng cáo cần lựa chọn hiển thị quảng cáo có nội dung phù hợp với trang Web mà ngƣời dùng xem Bằng việc sử dụng phƣơng pháp truyền thống, điều thực việc tính tốn độ liên quan quảng cáo nội dung trang Web Do quảng cáo thƣờng sử dụng ngôn ngữ đặc biệt để gây ấn tƣợng cho ngƣời đọc, việc so sánh nội dung từ quảng cáo với từ trang Web thƣờng khơng thể xác liên quan nội dung Trong nhiều trƣờng hợp, biểu diễn quảng cáo khơng chứa từ nội dung trang Web hai văn có liên quan đến Vấn đề đƣợc biết đến nhƣ “rào cản từ vựng” nghiên cứu Ribeiro-Neto et al.[14] Một khó khăn khác diện từ đa nghĩa đồng nghĩa làm giảm độ xác trình so khớp Với thực tế vấn đề đƣợc trình bày trên, luận văn tiến hành nghiên cứu đề xuất mơ hình tính tốn so khớp nội dung quảng cáo trang hiển thị thơng qua đề tài “Mơ hình Keyword-Topic cho quảng cáo dựa ngữ cảnh” để cải thiện chất lƣợng toán so khớp quảng cáo với nội dung trang ngôn ngữ Tiếng Việt thị trƣờng quảng cáo Việt Nam Luận văn đề xuất việc kết hợp mơ hình xử lý ngôn ngữ đƣợc công bố, với biểu diễn đặc trƣng áp dụng cho toán quảng cáo để cải thiện độ xác lên tới khoảng 90% Kết bƣớc đầu đạt đƣợc tƣơng đối khả quan, đƣợc ứng dụng thực tế công ty Vccorp, có khả phát triển thành giải pháp tổng thể quảng cáo ngữ cảnh Kết nghiên cứu phạm vi luận văn đƣợc công bố Hội nghị quốc tế SoICT 2012 [22] Luận văn đƣợc chia thành phần sau CHƢƠNG TỔNG QUAN VỀ QUẢNG CÁO TRỰC TUYẾN Giới thiệu loại hình quảng cáo trực tuyến 1.1 1.1.1 Tổng quan quảng cáo trực tuyến Quảng cáo hình thức tuyên truyền, giới thiệu hàng hoá, dịch vụ nhằm tạo hấp dẫn kích thích ngƣời mua để đẩy mạnh việc bán hàng nhƣ thực dịch vụ Các hình thức có tác dụng tức thời, đập vào mắt, tai ngƣời xem Quảng cáo trực tuyến loại hình quảng cáo thể Internet đặc biệt trang Web Việc sử dụng Internet World Wide Web ngày trở nên phổ biến, Internet trở thành phƣơng tiện quảng cáo quan trọng ngày 1.1.2 Tốc độ tăng trưởng thị phần a) Thị trƣờng quảng cáo quốc tế b) Thị trƣờng quảng cáo Việt Nam Việt Nam quốc gia có tốc độ tăng trƣởng số lƣợng ngƣời dùng đứng đầu giới Theo số liệu Tổng cục Thống kê tháng 7/2010, số ngƣời sử dụng Internet thời điểm cuối tháng 7/2010 đạt 25,1 triệu ngƣời Theo kế hoạch quốc gia, Internet phủ đến khoảng 70% dân số đất nƣớc vào năm 2015, có nghĩa thời điểm số lƣợng ngƣời sử dụng Internet vào khoảng 40 triệu ngƣời Ngoài ra, Việt Nam có nhiều doanh nghiệp nhỏ vừa, đối tƣợng phù hợp với quảng cáo trực tuyến 1.1.3 Các hình thức quảng cáo trực tuyến Quảng cáo trực tuyến đa dạng hình thức nhƣ loại hình Nhƣng chủ yếu đƣợc phân thành hai loại “hợp pháp” thƣờng thơng qua mạng quảng cáo “không hợp pháp” Hiện quảng cáo “hợp pháp” đƣợc chuộng bao gồm hình thức quảng cáo theo số lần nhấp chuột (CPC) hay theo số lần hiển thị (CPM) Và nay, CPC sử dụng hình thứ quảng cáo theo ngữ cảnh để tăng hiệu quảng cáo 1.1.4 Quảng cáo dựa ngữ cảnh Hình 1.1 Kiến trúc tổng quan cho mơ hình quảng cáo dựa ngữ cảnh Khác với loại quảng cáo đƣợc tài trợ đƣợc đặt bên cạnh kết tìm kiếm liên quan đến truy vấn ngƣời dùng, quảng cáo ngữ cảnh đƣợc hiển thị lên trang Web có nội dung liên quan với quảng cáo Nhiệm vụ hệ thống quảng cáo thông qua ngữ cảnh định xem quảng cáo đƣợc hiển thị thứ tự hiển thị chúng theo mức độ phù hợp với nội dung trang Web (ngữ cảnh) Do vậy, tốn phù hợp nội dung hay cịn gọi phù hợp ngữ cảnh đƣợc áp dụng rộng rãi quảng cáo trực tuyến 1.2 1.2.1 Các phƣơng pháp tiếp cận triển khai Mơ hình trích xuất từ khóa nội dung trang Web Đây mơ hình quảng cáo theo ngữ cảnh Dựa tƣ tƣởng quảng cáo máy tìm kiếm, ta coi trang Web nhƣ truy vấn dài bao gồm nhiều từ khóa Yih cộng [21] đề xuất mơ hình học giám sát cách trích xuất từ khóa nội dung trang Web Tiến hành học từ tập trang Web đƣợc định nghĩa từ khóa từ trƣớc, họ xây dựng phân lớp sử dụng học máy với thuật toán hồi quy logic (logistic regression) Tuy nhiên độ phù hợp quảng cáo dựa từ khóa chƣa đƣợc kiểm chứng qua thực nghiệm, nữa, nhƣ đề cập từ trƣớc vấn đề giao từ vựng quảng cáo nội dung khác Ngoài ra, việc thực “truy vấn dài” gây lên tƣợng thiếu xác gặp phải nhiều từ vựng gây nhiễu truy vấn kết phƣơng pháp áp dụng khơng đƣợc cao 1.2.2 Mơ hình so độ tương đồng với tập từ vựng mở rộng Một vấn đề quảng cáo theo ngữ cảnh, khác biệt từ vựng trang Web quảng cáo Tập từ vựng trang Web đa dạng phong phú, đó, tập từ vựng quảng cáo đặc thù đến vài lĩnh vực cụ thể Ribeiro Neto cộng [14] tập trung vào việc giải vấn đề cách mở rộng tập từ vựng trang Web Tuy nhiên, phƣơng pháp chƣa giải đƣợc vấn đề ngữ nghĩa cụ thể từ “đồng nghĩa” “đa nghĩa” Không riêng ngơn ngữ nói, từ vựng quảng cáo sử dụng nhiều từ khác để nói đến vấn đề Nếu dùng riêng đặc trƣng “từ khóa” dẫn đến vấn đề thiếu xác ngữ nghĩa so khớp văn với 1.2.3 Mơ hình tối ưu xếp hạng với thuật tốn di truyền Từ nghiên cứu có đƣợc, Lacerda cộng [8] đƣa hƣớng tiếp cận dựa thuật toán di truyền để tối ƣu hàm xếp hạng Sử dụng đặc trƣng khác nhƣ từ khóa, tần suất xuất từ, độ dài văn kích thƣớc tập liệu, phƣơng pháp học máy, họ xây dựng hàm so khớp nhằm tối ƣu độ phù hợp trang Web quảng cáo Tuy nhiên mơ hình sử dụng đặc trƣng tƣơng tự nhƣ mơ hình Ribeiro [14], cải thiện thuật toán, nhƣng chƣa giải đƣợc vấn đề ngữ nghĩa kết độ xác chƣa đƣợc cao 1.2.4 Phương pháp so sánh dựa ngữ nghĩa Phƣơng pháp dựa việc tách chọn từ khóa cịn gặp phải vấn đề “ngữ nghĩa” Một quảng cáo “sản phẩm dƣỡng da” khơng phù hợp trang Web có nội dung “da giày xuất nhập khẩu” Một phƣơng pháp Andrei Broder [4] đề xuất việc so sánh độ phù hợp dựa yếu tố ngữ nghĩa cấu trúc Đối với yếu tố ngữ nghĩa, tác giả phân loại trang Web lẫn liệu quảng cáo vào phân loại lớn gồm 6000 nút Mỗi nút chứa tập câu truy vấn Mơ hình huấn luyện sử dụng nhiều phƣơng pháp phân loại nhƣ SVN, log-regression , K-means Đối với yếu tố cấu trúc, tác giả dùng số tf-idf để tính trọng số cho thuật ngữ (term) trang Web hay quảng cáo Phƣơng pháp bổ sung thêm yếu tố phân loại độ liên quan, quảng cáo nội dung trang Web nằm node xa nhau, độ liên quan giảm dần Phƣơng pháp tác giả tốt giải đƣợc hầu hết vấn đề toán so khớp, nhƣng việc xây dựng 6000 nút nhƣ cách làm không khả thi Việt Nam mà tập liệu báo đƣợc thu thập từ một công ty có dịch vụ lớn nhƣ Yahoo Ngồi ra, việc xây dựng hệ thống để lƣu trữ nút liệu truy vấn nhƣ tốn công sức nhƣ tiền bạc điều ngƣợc lại với mục đích ban đầu luận văn 1.2.5 Chủ đề ẩn Tác giả Hieu X.P cộng [13] sử dụng phƣơng pháp LDA để tự động phân loại chủ đề để giải toán xếp hạng so khớp Phƣơng pháp giải đƣợc vấn đề ngữ nghĩa nhƣ cấu trúc Tác giả đƣa phƣơng pháp để giải vấn đề kho từ vựng việc tạo kho liệu từ vựng đủ lớn để bao phủ từ vựng quảng cáo lẫn trang Web Tác giả thu thập liệu từ trang báo lớn Vnexpress sau dùng liệu làm tập huấn luyện cho mơ hình LDA Đối với quảng cáo hay nội dung trang Web, thơng qua mơ hình này, đƣợc biểu diễn dƣới dạng vector đặc trƣng chủ đề Kết hợp vector đặc trƣng chủ đề với trọng số xác suất chủ đề với biểu diễn “bag-of-words” Sau đó, chúng để so khớp với Với cách làm này, tác giả đạt đƣợc độ xác khoảng 80% so với tập liệu thực nghiệm Phƣơng pháp có điểm tƣơng đồng với phƣơng pháp đề xuất em sử dụng hai mơ hình chủ đề Sự khác biệt cách thức chọn mơ hình liệu huấn luyện Ngồi ra, phƣơng pháp cịn chƣa tận dụng hết đặc trƣng quảng cáo Việt Nam nhƣ việc kết hợp từ khóa/chuyên mục đƣợc gán ngƣời dùng cho quảng cáo 14 page) mô tả quảng cáo thành dạng gọi văn quảng cáo Quá trình sinh tập văn đƣợc bắt đầu việc lấy mẫu phân phối từ t cách độc lập cho chủ đề ẩn T từ phân phối Dirichlet Dir() Sau đó, văn d với tập từ khóa kd đƣợc sinh nhƣ sau  Với từ i tài liệu d: o Lựa chọn ngẫu nhiên từ khóa xi từ kd o Với từ khóa xi : lấy mẫu phân phối thông qua chủ đề từ phân phối Dirichlet: xi ~ Dir()  Chọn chủ đề ngẫu nhiên zi từ phân phối xác suất xi : zi ~ xi  Chọn “từ” từ phân phối Dirichlet: wi ~  zi Em sử dụng mơ hình kí hiệu đƣợc biểu diễn Hình 2.2 Các kí hiệu mờ rõ lần lƣợt tƣơng ứng với biến quan sát đƣợc không quan sát đƣợc, khung hình chữ nhật biểu diễn cho vịng lặp lấy mẫu Mỗi xi, đƣợc chọn từ tập từ khóa, đƣợc kết hợp với phân phối đa thức thông qua chủ đề  Một từ đƣợc lấy mẫu từ phân phối  tƣơng ứng với chủ đề chịu trách nhiệm cho từ Cả   đƣợc vẽ từ phân phối Dirichlet với siêu thông số lần lƣợt   (trong hệ đối xứng, tất tham số có giá trị nhƣ nhau, vậy,   vô hƣớng) Keyword-Topic kd   x Z β  W T Nd D Hình 2.2 Mơ hình từ khóa-chủ đề Ƣớc lƣợng hai ma trận tham số   cho thông tin chủ đề thƣờng kết hợp với từ khóa nào, hay thơng tin cách văn 15 đƣợc biểu diễn thuật ngữ chủ đề Điều cho phép so sánh độ phù hợp biểu diễn chủ đề “từ khóa” thay so sánh thân từ khóa Thực tế nhận rằng, khơng thể nội suy mơ hình cách xác mà thay vào sử dụng mơ hình xấp xỉ Theo [17], luận văn này, em sử dụng mơ hình lấy mẫu Gibbs - trƣờng hợp đặc biệt mơ hình chuỗi Markov Monte Carlt - cho việc suy luận ƣớc lƣợng tham số với mơ hình KT Tiếp theo, em mơ tả cách ngắn thuật tốn lấy lẫu Gibbs cho ngƣời đọc hiểu thuật toán Ngƣời đọc xem lại mục 2.2.2 tham khảo thêm [17][16] để biết thêm chi tiết Nhắc lại tham số z, em biểu diễn gán từ riêng lẻ tới chủ đề Phƣơng pháp sử dụng lấy mẫu Gibbs để đánh giá z sau sử dụng giá trị z để suy diễn   Trong lấy mẫu Gibbs, biến đƣợc lấy mẫu từ phân phối chúng, có điều kiện tất biến cịn lại mơ hình Trong trƣờng hợp em, phần tử z đƣợc lấy mẫu lặp lặp lại từ phân phối tồn cục biến khác, phụ thuộc   đƣợc tích hợp Khi có hai tập hợp biến ẩn mơ hình KT: z k; thuật toán lấy mẫu cặp (zi, ki), điều kiện tất biến lại: C KT   CWT mj   kj P( zi  j, ki  l | wi  m, z i , k i , w i )  WT WT  C '  V  C '  T m j m' j ' kj (2.8) Ở zi = j, ki = l lần lƣợt biểu diễn việc gán từ thứ i tài liệu tới chủ đề j, lần lƣợt từ khóa l; wi = m có nghĩa từ thứ i có thứ tự m từ điển; z-i, k-i biểu diễn toàn từ khóa chủ đề gán từ thứ i cho chủ đề j, bao gồm từ thời Tƣơng tự nhƣ vậy, WT C mj C kjKT số lần từ m đƣợc gán số lần từ k đƣợc gán cho chủ đề j, bao gồm từ thời V T lần lƣợt kích thƣớc tập từ vựng chủ đề Một lần lấy mẫu z đƣợc thực hiện, đƣợc dùng để đánh giá   nhƣ dƣới CWT mj   mj  WT  C '  V m' m j 16 C KT   kj kj  WT  C '  T j ' kj 2.3.3 (2.9) Biểu diễn quảng cáo trang Web Sau mơ hình KT đƣợc huấn luyện, em sử dụng để suy diễn chủ đề “từ khóa” văn (ở trang Web quảng cáo) Với tài liệu mới, thủ tục lấy mẫu Gibbs thực với từ tài liệu Quá trình bắt đầu việc gán cách ngẫu nhiên từ khóa chủ đề tới “ký tự” Sau lấy mẫu z k cho từ văn mới, sử dụng phƣơng trình (2.8) Q trình thơng thƣờng hội tụ nhanh (thông thƣờng sau khoảng từ 10 đến 15 vịng lặp hầu hết q trình tính tốn) sau kết z k đƣợc lƣu lại Chủ đề gán vector z cung cấp thông tin chủ đề đƣợc kết hợp với đoạn văn (quảng cáo hay nội dung trang Web), cung cấp cho cách biểu diễn văn theo chủ đề Với văn d, em đếm số lần từ đƣợc gán cho chủ đề Sau đó, em chuẩn hóa vector việc gán theo dạng phân bố xác suất sử dụng nhƣ biểu diễn dựa chủ đề Ft tài liệu d: Ft (d )  (t1 , , tT ), (2.10) Trong t1,…,tT lần lƣợt tần suất gán từ tới chủ đề 1,…,T văn d Cũng giống nhƣ vậy, em đếm số lần từ đƣợc gán cho “từ khóa” văn d việc sử dụng k biểu diễn chúng dƣới dạng dựa từ khóa Fk cho văn d: Fk (d )  (k1 , , kT ), (2.11) Trong k1,…,kT lần lƣợt tần suất gán từ tới “từ khóa” 1,…,K văn d Một điểm ý với quảng cáo đƣợc gán “từ khóa” ngƣời tạo quảng cáo Bằng việc bỏ qua từ khóa gốc sử dụng từ khóa đƣợc suy diễn mơ hình KT, em nhận đƣợc “từ khóa” mịn biểu diễn quảng cáo Q trình thực nghiệm rằng, hầu hết trƣờng hợp, từ khóa đƣợc gán mơ hình có quán với từ khóa gán ngƣời dùng cho kết hội tụ tốt 17 2.3.4 Kết hợp phương pháp biểu diễn Để tính tốn độ tƣơng đồng nội dung quảng cáo trang Web, em tính tốn cosine vector đặc trƣng chúng, sử dụng tất kiểu biểu diễn đƣợc giới thiệu phần trƣớc cụ thể : “bag-of-words” tf-idf, biểu diễn “chủ đề” biểu diễn “từ khóa” mơ hình KT Có vài cách đề kết hợp biểu diễn việc tính tốn điểm tƣơng đồng từ việc kết hợp vector đặc trƣng lại với [13] tới việc học đa nhân phức tạp [2] Trong luận văn này, em đơn giản kết hợp tuyến tính cosine biểu diễn vector Công thức cho Web page p quảng cáo a, độ tƣơng đồng simKT p a đƣợc tính tốn thơng qua cơng thức : simKT ( p, a)  w1 cos( Fbow( p), Fbow(a))  w2 cos( Ft ( p), Ft (a))  w3 cos( Fk ( p), Fk (a)) , w1  w2  w3 (2.12) Trong w1, w2, w3 trọng số điều chỉnh độ quan trọng kiểu biểu diễn việc tính tốn độ tƣơng đồng Trong thực nghiệm, em sử dụng trọng số ngang hàng nhau, việc điều chỉnh trọng số để dành cho công việc sau 18 CHƢƠNG KẾT QUẢ THỰC NGHIỆM 3.1 Tập liệu tiền xử lý 3.1.1 Tập liệu thực nghiệm Trong luận văn này, em sử dụng tập liệu trang Web quảng cáo từ trang Web đến từ Việt Nam để làm tập liệu đánh giá kiểm thử Đối với liệu Web, em sử dụng 100 báo từ http://dantri.com – tờ báo mạng tiếng hàng đầu Việt Nam Số lƣợng 100 trang đủ nhỏ để đánh giá đƣợc kết thực nghiệm ngƣời, số đƣợc sử dụng nghiên cứu trƣớc [4][13][14] Các trang đƣợc lựa chọn trải rộng lĩnh vực nhƣ văn hóa, kinh doanh, điện tử, khoa học/ công nghệ vvv Để tạo liệu quảng cáo, em thu thập 32.000 quảng cáo từ Admarket (http://admarket.admicro.vn) công ty quảng cáo trực tuyến Việt Nam Từ liệu đó, em lấy 30.000 quảng cáo cho việc huấn luyện 2000 quảng cáo cho việc đánh giá 3.1.2 Tiền xử lý liệu Em áp dụng thủ tục sau để tiền xử lý liệu cho trang Web quảng cáo - Trích xuất nội dung văn trang, mơ tả quảng cáo trang đích quảng cáo sử dụng Jsoup (http://jsoup.org/) - Khôi phục dấu tiếng Việt kiểm tra tả Tiếng Việt ngơn ngữ có dấu, nhƣng phần nhỏ liệu đƣợc viết mà dấu Do em sử dụng phần mềm VietMarker để khơi phục lại dấu với mục đích để tăng độ xác cho tính tốn sau Ngồi ra, em cịn sử dụng ViCheckSpelling2 để tìm sửa tả viết sai cho tiếng Việt - Loại bỏ “stopwords”, em sử dụng vnTokenizer 4.1.1c3 Những ký tự hay từ xuất lần tập văn đƣợc loại bỏ http//www.4shared.com/file/155848296/3e0453c0/VietMarker.htm http://sourceforge.net/projects/vicheckcode/ http://www.loria.fr/~lehong/tools/vnTokenizer.php 19 3.2 Cài đặt thử nghiệm 3.2.1 Công cụ sử dụng Công cụ sử dụng Em sử dụng phiên đƣợc chỉnh sửa để phù hợp với mơ hình luận văn, chƣơng trình đƣợc viết Steyvers Grifiths (http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm) dùng cho việc huấn luyện suy diễn với mơ hình KT Theo [16] hai hệ số  β đƣợc thiết lập lần lƣợt 50/T 0.01, T số lƣợng chủ đề Em chạy thủ tục lấy mẫu Gibbs với 1000 vịng lặp sau z k đƣợc lƣu trữ lại để suy diễn chủ đề từ khóa sau Đối với trang Web quảng cáo mới, 10 vòng lặp khác đƣợc chạy trƣớc lấy mẫu z k, đầu vector đặc trƣng văn Thực nghiệm với LDA với tham số tập liệu trên, em sử dụng gói LDA đƣợc chỉnh sửa để chạy cụm Hadoop (Một hệ thống tính tốn liệu phân tán đƣợc phát triển Apache http://hadoop.apache.org ) 3.2.2 Phương pháp sử dụng để đánh giá Phương pháp đánh giá Em sử dụng thủ tục sau để đánh giá độ xác phƣơng pháp thực nghiệm Đầu tiên, em tạo tập trang Web truy vấn sử dụng phƣơng pháp gọi “bể chứa quảng cáo” (pooling) đƣợc sử dụng rộng rãi TREC( Text Retrieval Conference) Em chọn quảng cáo thu đƣợc phƣơng pháp, đặt chúng vào bể chứa xếp chúng theo thứ tự giảm dần độ liên quan Do vậy, bể chứa tối đa khoảng 40 quảng cáo cho 10 phƣơng pháp thử nghiệm Em nhờ hai đồng nghiệp duyệt loại bỏ quảng cáo không liên quan từ bể chứa xếp chúng theo thứ tự giảm dần độ liên quan Trung bình, với bể chứa em thu đƣợc 6-7 quảng cáo trang Web thử nghiệm Sau thu đƣợc liệu phục vụ cho việc đánh giá, em sử dụng MAP (mean average precision)- tiêu chuẩn đo lƣờng độ xác TREC [9] để đánh giá phƣơng pháp thử nghiệm Đặt Q tập bao gồm 100 trang Web truy vấn Với trang qj  Q, lấy Aj= {a1 , ,am j } tập quảng cáo liên quan qi Rjk đƣợc thiết lập top k quảng cáo đƣợc trả phƣơng pháp thực nghiệm MAP đƣợc tính tốn theo cơng thức sau: 20 MAP(Q)  |Q| mj |Q|   Precision(R mj j 1 jk ) (3.1) k 1 Trong Precision(.) thƣớc đo tiêu chuẩn truy vấn thông tin Precision ( R jk )  | A j  R jk | | R jk | (3.2) Ví dụ: Giả sử có đối tƣợng tƣơng ứng là: a, b, c, d, e Trong a, b, c đối tƣợng phù hợp d, e đối tƣợng không phù hợp Một xếp hạng đối tƣợng cần đánh giá là: c, a, d, b, e Khi ta có: p@1 = 1; P@2 =1; P@3 = 2/3; P@4 = 3/4; P@5 = 3/5 3.2.3 Các phương pháp cài đặt để so sánh Em thử nghiệm phƣơng pháp đề xuất với tên gọi KT tập liệu đƣợc mô tả phần trƣớc, so sánh chúng với vài phƣơng pháp trƣớc Các phƣơng pháp thực nghiệm đƣợc tổng kết lại Bảng 3.1 Em trình bày chi tiết dƣới Bảng 3.1 Tên gọi mô tả phƣơng pháp thực nghiệm sử dụng cho việc so sánh Phƣơng pháp Mô tả AD So sánh với tiêu đề mô tả nội dung quảng cáo trang Web sử dụng lƣợc đồ tf-idf, phƣơng trình (2.1) (2.2)(2.3)(2.4)(2.5) AAK Phƣơng pháp AAK mơ tả [14] (xem chi tiết phƣơng trình (2.6) ) LDA_PAG_50 Sử dụng LDA với tập huấn luyện liệu trang Web đƣợc mô tả [13] với 50 chủ đề ẩn LDA_PAG_100 Sử dụng LDA với tập huấn luyện liệu trang Web đƣợc mô tả [13] với 100 chủ đề ẩn LDA_AD_50 Sử dụng LDA với tập huấn luyện liệu quảng cáo với 50 chủ đề ẩn LDA_AD_100 Sử dụng LDA với tập huấn luyện liệu quảng cáo với 100 chủ đề ẩn KT_50 Phƣơng pháp đề xuất KT với 50 chủ đề ẩn 21 KT_100 Phƣơng pháp đề xuất KT với 100 chủ đề ẩn KT_LDA_50 Kết hợp KT_50 với LDA_PAG_50 KT_LDA_100 Kết hợp KT_100 với LDA_PAG_100 3.2.4 Kết thực nghiệm Đầu tiên em so sánh hiệu phƣơng pháp với thuật ngữ/ độ đo MAP Thêm vào đó, em lƣu trữ độ xác với thiết lập mj= tới phƣơng trình (3.2), lấy kết từ đến từ phƣơng pháp Độ xác chúng đƣợc kí hiệu P@1, ,P@4 Bảng 3.2 biểu diễn độ xác theo độ đo P@k giá trị MAP Bảng 3.2 Điểm P@k cho phƣơng pháp thực nghiệm Method P@1 P@2 P@3 P@4 MAP AD 0.63 0.57 0.46 0.46 0.529 AAK 0.67 0.65 0.61 0.58 0.627 LDA_PAG_50 0.83 0.75 0.66 0.58 0.705 LDA_PAG_100 0.85 0.78 0.68 0.58 0.723 LDA_AD_50 0.83 0.73 0.64 0.58 0.696 LDA_AD_100 0.84 0.76 0.64 0.58 0.706 KT_50 0.85 0.82 0.66 0.59 0.728 KT_100 0.85 0.81 0.70 0.62 0.744 KT_LDA_50 0.90 0.81 0.66 0.66 0.756 KT_LDA_100 0.90 0.83 0.72 0.70 0.786 Kết thu đƣợc chứng tỏ rằng, phƣơng pháp cải thiện AAK tốt phƣơng pháp “bag-of-words:” AD: mơ hình AAK đạt đƣợc đƣợc giá trị MAP vào khoảng 0.627 so với 0.537 AD Sử dụng kỹ thuật mơ hình chủ đề giúp nâng đƣợc độ xác MAP tất giá trị P@x Giữa phƣơng pháp chủ đề, LDA_AD_50 đạt đƣợc giá trị MAP thấp nhất; nhiên giá trị MAP cao phƣơng pháp AAK (vào khoảng xấp xỉ 7%) Kết cho ta thấy lợi ích mơ hình chủ đề nhƣ thơng tin bổ sung bên ngồi trình so sánh độ phù hợp 22 Chúng ta thấy rằng, việc sử dụng 100 chủ đề đạt kết cao so với 50 chủ đề cho toàn phƣơng pháp dựa chủ đề thực nghiệm Do vậy, để so sánh phƣơng pháp chủ đề với nhau, em bỏ qua số chủ đề từ tên phƣơng pháp thực nghiệm, với giả thiết kết chúng với 100 chủ đề Giữa phƣơng pháp sử dụng LDA, với tên LDA_PAG LDA_AD, điểm MAP tốt thuộc LDA_PAG, mơ hình đƣợc huấn luyện từ tập liệu từ trang Web Có thể giải thích vƣợt trội LDA_PAG so với LDA_AD trang Web thơng thƣờng có nhiều từ đa dạng, có lƣợng từ vựng tốt so với quảng cáo, cung cấp thơng tin tốt so với LDA_AD Kết phƣơng pháp đề xuất KT vƣợt trội so với LDA lẫn phƣơng pháp truyền thống KT_100 đạt 0.744 điểm MAP so với 0.723 điểm MAP đạt đƣợc LDA_PAG_100 0.706 LDA_AD_100 Sự cải thiện điểm MAP mơ hình KT chứng minh tính hữu ích việc kết hợp thơng tin từ khóa/tên chun mục mơ hình chủ đề Những kết rằng, phƣơng pháp đề xuất vƣợt trội so với mơ hình LDA đƣợc huấn luyện với tập quảng cáo nhƣ với tập liệu giầu thông tin nhƣ nội dung trang Web Kết tốt đƣợc phƣơng pháp KT_LDA_100 Phƣơng pháp đạt tới 90% độ xác xem xét kết đứng đầu Điểm MAP 0.786, đạt đƣợc khoảng 4% cao so với phƣơng pháp đứng thứ KT_100 Các kết khơng có đáng ngạc nhiên mà KT_LDA đƣợc thiết kế để kết hợp đƣợc điểm mạnh việc sử dụng thêm thông tin phong phú để huấn luyện mơ hình chủ đề việc sử dụng mơ hình KT sử dụng thêm thơng tin “từ khóa” hay “chuyên mục” đƣợc gán cho quảng cáo tay 3.2.5 Phân tích đánh giá mơ hình KT a) Chủ đề từ khóa thu đƣợc từ mơ hình KT Để tìm hiểu sâu phƣơng pháp KT làm việc nhƣ xem xét vào từ khóa chủ đề đƣợc khơi phục với mơ hình KT Bảng 3.3 cho ta thấy chủ đề 100 chủ đề lấy mẫu từ mơ hình KT sau 1000 vòng lặp Phần cột hiển thị từ với xác suất cao nhất, phần dƣới bảng hiển thị từ khóa/chuyên mục mà có khả liên kết cao tƣơng ứng với chủ đề 23 Bảng 3.3 Bốn chủ đề thu đƣợc từ tập liệu huấn luyện quảng cáo Mỗi cột hiển thị chủ đề từ từ khóa/chuyên mục có nhiều khả liên kết với chủ đề tiếng Việt Ngoặc đơn chứa dịch sang tiếng Anh Topic Topic Topic Topic miễn_phí chống liên_thơng bếp (free) (anti) (transfer) (kitchen) mini nhăn tuyển_sinh gas (mini) (wrinkled) (enrollment) (gas) chơi lão_hóa văn_bằng nội_thất (play) (aging) (diploma) (interior) cài_đặt gel muốn văn_phịng (installed) (gel) (want) ( office) việt_nam lơng giảng_viên uy_tín (viet_nam) (feather) (teacher) (prestige) cần làn_da trƣờng_học cao_cấp (needed) (skin) (school) (higher) Gps triệt cao_đẳng thiết_kế (gps) (removal) (colleage) (design) Thuật ngữ Từ khóa\chun mục Game thẩm_mĩ tuyển_sinh văn_phịng (game) (sense) (enrollment) (office) phụ_kiện Spa dịch_vụ thiết_kế (accessory) (spa) (service) (design) doanh_nghiệp mỹ_phẩm tƣ_vấn dịch_vụ (business) (cosmetics) (advisory) (service) máy_tính phụ_kiện thời_trang doanh_nghiệp (computer) (accessory) (fashion) (business) Nhƣ kết thể hiện, từ ngữ liên quan đến chủ đề hiển thị nội dung ngữ nghĩa chủ đề cách trực quan Ví dụ, hầu hết từ đại diện chủ 24 đề việc chăm sóc da Chúng ta quan sát thấy chủ đề có liên quan với số từ khóa / chuyên mục thƣờng tạo thành hỗn hợp gắn kết với để chuyển tải tóm tắt ngữ nghĩa chủ đề Ví dụ, chủ đề hỗn hợp hƣớng kinh doanh bao gồm trò chơi phụ kiện cho máy tính Đồng thời, từ khóa đƣợc liên kết với số chủ đề, ví dụ, từ khóa “dịch vụ” xuất chủ đề Từ khóa chung có xu hƣớng đƣợc liên kết với nhiều chủ đề so với từ khóa cụ thể Những kết cho thấy biểu diễn dựa chủ đề từ khóa cung cấp thơng tin mức độ chi tiết khác việc kết hợp hai biểu diễn mang lại lợi ích phù hợp nội dung b) Tác động số lƣợng chủ đề Các kết từ phần trƣớc số lƣợng chủ đề, thơng số mơ hình dựa chủ đề, có ảnh hƣởng đến kết trình so khớp Để kiểm tra xem tham số có ảnh hƣởng đến mơ hình KT sao, em thay đổi số lƣợng chủ đề ghi điểm P@k Hình 3.1 cho giá trị P@k với số lƣợng chủ đề khác từ 50 đến 150 Nhƣ đƣợc thể hiện, số lƣợng chủ đề tăng từ 50, độ xác tăng lên thu đƣợc kết tốt với 100 chủ đề Sau đó, kết bắt đầu suy giảm cho thấy việc sử dụng chủ đề nhiều làm giảm độ xác hệ thống 0.9 0.8 Precision 0.7 0.6 0.5 KT 50 0.4 KT 100 0.3 KT 120 0.2 KT 150 0.1 P@1 P@2 P@3 P@4 P@N Hình 3.1 Tác động số lƣợng chủ đề ẩn đƣợc sử dụng mơ hình KT 25 KẾT LUẬN Trong luận văn, em đề xuất đƣợc phƣơng pháp quảng cáo dựa ngữ cảnh Phƣơng pháp kết hợp đƣợc mạnh phƣơng pháp từ khóa với kỹ thuật chủ đề ẩn việc sử dụng mơ hình chủ đề thêm thơng tin từ khóa hay chun mục đƣợc gán cho quảng cáo Bằng cách biểu diễn tài liệu với từ, chủ đề, từ khóa/chuyên mục đƣợc suy tự động, phƣơng pháp cho phép sử dụng thông tin cấp độ khác Bằng cách này, phƣơng pháp làm giảm bớt phụ thuộc nhƣ không phù hợp từ vựng vấn đề khác có tác động khơng tốt đến thuật toán Trong thực nghiệm này, phƣơng pháp đề xuất vƣợt trội so với phƣơng pháp dùng từ khóa mơ hình LDA Thêm vào đó, phƣơng pháp đề xuất luận văn tự phục hồi chủ đề từ khóa liệu Phƣơng pháp luận văn sử dụng kết hợp với phƣơng pháp khác để tiếp tục cải thiện độ xác Một cách tốt kết hợp phƣơng pháp em mơ hình LDA đƣợc huấn luyện từ tập hợp liệu từ lƣợng lớn trang Web từ báo từ Wikipedia Trong tƣơng lai, em có dự định mở rộng thiết lập từ khóa/ chuyên mục đƣợc tổ chức phân loại ngữ nghĩa, từ có khả cải thiện độ xác 26 TÀI LIỆU THAM KHẢO [1] A Anagnostopoulos, A Broder, E Gabrilovich, and L Riedel.2007, V Josifovski Just-in time contextual advertising In Proc of the sixteenth ACM conference on Conference on information and knowledge management (Lisbon, Portugal, 2007), pages 331–340, 2007 DOI = http://dx.doi.org/10.1145/1321440.1321488 [2] F.R Bach, G R G Lanckriet, M.I Jordan 2004 Multiple Kernel Learning, Conic Duality, and the SMO Algorithm In Proc of ICML 2004 Banf Canada, 2004 [3] D M Blei, A.Y Ng, M.I Jordan 2003 Latent Dirichlet Allocation Journal of Machine Learning Research 3(2003) page 993-1022 [4] A Broder, M Fontoura, V Josifovski, and L Riedel 2007 A semantic approach to contextual advertising In Proc of the 30th annual international ACM SIGIR conference on Research and development in information retrieval (Amsterdam, The Netherlands, 2007) DOI = http://dx.doi.org/10.1145/1277741.1277837 [5] D Chakrabarti, D Agarval and V Josifovski 2008 Contextual advertising by combining relevance with click feedback In Proc of the 17th international conference on World Wide Web (ACM New York, NY, USA 2008) DOI= http://dx.doi.org/10.1145/1367497.1367554 [6] Patrali Chatterjee, Donna L Hoffman, and Thomas P Novak 2003 Modeling the clickstream: Implications for Web-based advertising efforts Marketing Science, 22(4):520–541, 2003 [7] Ciaramita, M., V Murdock, V Plachouras, (2008) Semantic Associations for Contextual Advertising In Journal of Electronic Commerce Research Special Issue on Online Advertising and Sponsored Search, Volume 9, Issue 1, p.115(2008) [8] A Lacerda, M Cristo, M André, Goncalves, W Fan, Nivio Ziviani, B RibeirNeto 2006 Learning to advertise In Proc SIGIR’06 of the 29th annual international ACM SIGIR conference on Research and development in information 27 retrieval ( New York, NY, USA, 2006) DOI = http://dx.doi.org/10.1145/1148170.1148265 [9] C.D Manning, P Raghavan H Schutze 2008 Introduction to Information Retrieval, Cambridge University Press 2008 [10] V Murdock, M Ciaramita and V Plachouras 2007 A noisy-channel approach to contextual advertising In Proc of the 1st international workshop on Data mining and audience intelligence for advertising (San Jose, California, 2007), pages 21–27, 2007 DOI = http://dx.doi.org/10.1145/1348599.1348603 [11] Alexander N Pak and Chin-Wan Chung 2010 A Wikipedia matching Approach to Contextual Advertising In Journal World Wide Web ( Volume 13 Issue 3, September 2010) Hingham, MA, USA DOI= http://dx.doi.org/10.1007/s11280-010-0084-2 [12] S Papadopoulos, F Menemenis, Y Kompatsiaris B Bratu 2009 Lexical Graphs for Improved Contextual Ad Recommendation In Proc of the 31st European Conference on IR Research on Advances in Information Retrieval ( Springer-Verlag Berlin, Heidelberg, 2009) DOI= http://dx.doi.org/10.1007/978-3642-00958-7_21 [13] X.H Phan, C.T Nguyen, D.T Le, S Horiguchi, L.M Nguyen, and Q.T Ha 2011 A Hidden Topic-Based Framework toward Building Applications with Short Web Documents Knowledge and Data Engineering, IEEE Transactions on (Volume 23, Issue 7), page 961-976, July 2011 [14] B Ribeiro-Neto, M Cristo, P.B Golgher, E.S de Moura 2005 Impedance coupling in content-targeted advertising In Proc of the 28th annual international ACM SIGIR conference on Research and development in information retrieval (Salvador, Brazil, 2005), pages 496–503, 2005 DOI = http://dx.doi.org/10.1145/1076034.1076119 [15] B Ribeiro-Neto and Ricardo Baeze-Yates 2008 Modern Information retrieval Addison-Wesley, USA 2008 28 [16] M Rosen-Zvi, M Steyvers, P Smyth,T Griffiths, 2004 The author-topic model for authors and documents In Proc of the 20th conference on Uncertainty in artificial intelligence (AUAI Press Arlington, Virginia, US, 2004) [17] M Steyvers, Padhraic Smyth, M Rosen-Zvi, T Griffiths.2004 Probabilistic author-topic models for information discovery In Processing KDD’04 Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining( ACM New York, NY, USA) [18] M Steyvers, T Griffiths 2006 Probabilistic topic models In T Landauer, D McNamara, S Dennis, and W Kintsch (eds), Latent Semantic Analysis: A Road to Meaning Laurence Erlbaum 2006 [19] Guandong Xu, , Jianfeng Lu, Rong Pan, Yanchun Zhang, Zhiwen Hu, Zongda Wu 2011 Leveraging Wikipedia concept and category information to enhance contextual advertising In Proc of the 20th ACM international conference on Information and knowledge management (New York, NY, USA, 2011) DOI= http://dx.doi.org/10.1145/2063576.2063901 [20] X Wei W Bruce Croft 2006 LDA-based document models for ad-hoc retrieval In Proc SIGIR’2006 Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2006) DOI = http://dx.doi.org/10.1145/1148170.1148204 [21] W.Yih, J.Goodman, andV.R.Carvalho Finding advertising keywords on Web pages In WWW06, ACM: Proc Of the 15th intl conf on World Wide Web, pages 213222, NewYork, NY, 2006 [22] Phuong Do, Tu Minh Phuong A keyword-topic model for contextual advertising In proceeding SoICT '12 Proceedings of the Third Symposium on Information and Communication Technology Pages 63-70 ... hình thứ quảng cáo theo ngữ cảnh để tăng hiệu quảng cáo 6 1.1.4 Quảng cáo dựa ngữ cảnh Hình 1.1 Kiến trúc tổng quan cho mơ hình quảng cáo dựa ngữ cảnh Khác với loại quảng cáo đƣợc tài trợ đƣợc... phân phối quảng cáo Ngƣợc lại, quảng cáo dựa ngữ cảnh hay đƣợc gọi Quảng cáo dựa nội dung đặt lƣợng nhỏ quảng cáo lên trang Web có nội dung mà ngƣời dùng xem Lợi ích việc Quảng cáo dựa ngữ cảnh hỗ... đƣợc trình bày trên, luận văn tiến hành nghiên cứu đề xuất mơ hình tính tốn so khớp nội dung quảng cáo trang hiển thị thông qua đề tài “Mơ hình Keyword- Topic cho quảng cáo dựa ngữ cảnh? ?? để cải

Ngày đăng: 19/03/2021, 17:58

Xem thêm:

TỪ KHÓA LIÊN QUAN

w