Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
1,07 MB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Đỗ Việt Phương
MÔ HÌNH KEYWORD-TOPIC CHOQUẢNGCÁO
DỰA TRÊNNGỮCẢNH
Chuyên ngành: Truyền dữ liệu và mạng máy tính
Mã số: 60.48.15
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2013
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS Từ Minh Phương
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
1
MỤC LỤC
MỤC LỤC 1
MỞ ĐẦU 3
CHƢƠNG 1. TỔNG QUAN VỀ QUẢNGCÁO TRỰC TUYẾN 5
1.1 Giới thiệu về các loại hìnhquảngcáo trực tuyến 5
1.1.1 Tổng quan về quảngcáo trực tuyến 5
1.1.2 Tốc độ tăng trƣởng và thị phần 5
1.1.3 Các hình thức quảngcáo trực tuyến 5
1.1.4 Quảngcáodựatrênngữcảnh 6
1.2 Các phƣơng pháp tiếp cận đã triển khai 6
1.2.1 Môhình trích xuất từ khóa trong nội dung trang Web 6
1.2.2 Môhình so độ tƣơng đồng với tập từ vựng mở rộng 7
1.2.3 Môhình tối ƣu xếp hạng với thuật toán di truyền 7
1.2.4 Phƣơng pháp so sánh dựatrênngữ nghĩa 7
1.2.5 Chủ đề ẩn 8
CHƢƠNG 2. MÔHÌNH KEYWORD-TOPIC 9
2.1 Phƣơng pháp cơ bản 9
2.1.1 Khái niệm và những thành phần chính 9
2.1.2 Phƣơng pháp cơ bản 9
2.2 LDA (Latent Dirichlet Allocation) 11
2.2.1 Nguyên lý 11
2.2.2 Môhình sinh cho tài liệu 11
2.3 Môhình từ khóa-chủ đề ( keyword-topic) 12
2.3.1 Môhình dùng cho bài toán 13
2.3.2 Sử dụng môhình từ khóa-chủ đề 13
2.3.3 Biểu diễn quảngcáo và trang Web 16
2.3.4 Kết hợp các phƣơng pháp biểu diễn 17
CHƢƠNG 3. KẾT QUẢ THỰC NGHIỆM 18
3.1 Tập dữ liệu và tiền xử lý 18
3.1.1 Tập dữ liệu thực nghiệm 18
3.1.2 Tiền xử lý dữ liệu 18
3.2 Cài đặt thử nghiệm 19
3.2.1 Công cụ sử dụng 19
2
3.2.2 Phƣơng pháp sử dụng để đánh giá 19
3.2.3 Các phƣơng pháp cài đặt để so sánh 20
3.2.4 Kết quả thực nghiệm 21
3.2.5 Phân tích và đánh giá môhình KT 22
TÀI LIỆU THAM KHẢO 26
3
MỞ ĐẦU
Mục tiêu của đề tài luận văn là nghiên cứu kỹ thuật hỗ trợ quảngcáo theo ngữ
cảnh – một dạng quảngcáo trực tuyến trên Web. Thông thƣờng, quảngcáotrên Web
đƣợc chia thành hai loại chính, đó là Quảngcáo tìm kiếm đƣợc tài trợ (Sponsored
Search) và Quảngcáodựatrênngữcảnh (Contextual advertising). Hình thức quảng
cáo tìm kiếm đƣợc tài trợ hiển thị quảngcáotrên các trang kết quả đƣợc trả về bởi
công cụ tìm kiếm chẳng hạn nhƣ Google hay Yahoo. Trong trƣờng hợp này, các công
cụ tìm kiếm đóng vai trò nhƣ một đại lý phân phối quảng cáo. Ngƣợc lại, quảngcáo
dựa trênngữcảnh hay còn đƣợc gọi là Quảngcáodựatrên nội dung đặt một lƣợng nhỏ
các quảngcáo lên các trang Web có nội dung mà ngƣời dùng đang xem. Lợi ích của
việc Quảngcáodựatrênngữcảnh là hỗ trợ nhiều nhà xuất bản nội dung khác nhau
nhƣ một trang Web hay một blog so với hình thức Quảngcáo tìm kiếm đƣợc tài trợ.
Một hệ thống Quảngcáongữcảnh điển hình bao gồm bốn bên tham gia, đó là
nhà xuất bản, nhà quảng cáo, hệ thống phân phối và ngƣời sử dụng. Nhà xuất bản là
chủ sở hữu các trang Web mà quảngcáo hiển thị. Các nhà quảngcáo cung cấp các nội
dung quảngcáo để quảng bá sản phẩm và dịch vụ của họ. Các mạng quảngcáo hoạt
động nhƣ một chiếc cầu nối giữa nhà quảngcáo và nhà xuất bản, nó lựa chọn các
quảng cáo tốt nhất để đặt vào trong nội dung của một trang Web. Ngƣời sử dụng là
ngƣời xem nội dung trên các trang Web. Quảngcáo đƣợc lựa chọn trên trang đích có
nội dung ít nhiều liên quan đến nội dung của trang Web. Khi một ngƣời sử dụng mở
một trang Web, họ có thể trông thấy các quảngcáo thông qua một đoạn văn bản mô tả
và một đƣờng liên kết. Khi ngƣời dùng nhấp chuột vào đƣờng liên kết này, nó sẽ đƣa
ngƣời dùng đến với trang đích quảng cáo. Môhình định giá đƣợc sử dụng rộng rãi
ngày nay đó là môhình PPC (Pay- per-click). Nhà tạo quảngcáo trả một số tiền nhất
định cho mỗi lần nhấp chuột vào liên kết quảng cáo, ngoài ra nhà tạo quảngcáo cũng
có thể lựa chọn các hình thức khác nhƣ PPI (Pay-per-Impression) hay PPA (Pay-per-
action).
Đƣợc trình bày bởi các nghiên cứu trƣớc đây [6] về hành vi ngƣời dùng, để tăng
trải nghiệm ngƣời dùng cũng nhƣ tăng khả năng nhấp chuột vào một quảngcáo cần
lựa chọn hiển thị những quảngcáo có nội dung phù hợp với trang Web mà ngƣời dùng
đang xem. Bằng việc sử dụng các phƣơng pháp truyền thống, điều này có thể thực hiện
4
bằng việc tính toán độ liên quan giữa quảngcáo và nội dung trang Web. Do các quảng
cáo thƣờng sử dụng ngôn ngữ đặc biệt để gây ấn tƣợng cho ngƣời đọc, việc so sánh
nội dung các từ trong quảngcáo với các từ trong trang Web thƣờng không thể hiện
chính xác sự liên quan về nội dung. Trong nhiều trƣờng hợp, biểu diễn của một quảng
cáo có thể không chứa bất kì từ nào trong nội dung của một trang Web mặc dù hai văn
bản này có liên quan đến nhau. Vấn đề này đã từng đƣợc biết đến nhƣ là “rào cản về
từ vựng” trong nghiên cứu của Ribeiro-Neto et al.[14]. Một khó khăn khác đó là sự
hiện diện của từ đa nghĩa và đồng nghĩa làm giảm độ chính xác của quá trình so khớp.
Với thực tế và những vấn đề đƣợc trình bày ở trên, luận văn tiến hành nghiên
cứu và đề xuất môhình tính toán và so khớp giữa nội dung quảngcáo và trang hiển thị
thông qua đề tài “Mô hình Keyword-Topic choquảngcáodựatrênngữ cảnh” để
cải thiện chất lƣợng của bài toán so khớp quảngcáo với nội dung trang đối với ngôn
ngữ là Tiếng Việt trong thị trƣờng quảngcáo tại Việt Nam. Luận văn đã đề xuất việc
kết hợp các môhình xử lý ngôn ngữ đã đƣợc công bố, với các biểu diễn đặc trƣng áp
dụng cho bài toán quảngcáo để cải thiện độ chính xác lên tới khoảng 90%. Kết quả
bƣớc đầu đạt đƣợc tƣơng đối khả quan, đã đƣợc ứng dụng thực tế tại công ty Vccorp,
và có khả năng phát triển thành một giải pháp tổng thể trong quảngcáongữ cảnh.
Kết quả nghiên cứu trong phạm vi luận văn đã đƣợc công bố tại Hội nghị quốc
tế SoICT 2012 [22].
Luận văn đƣợc chia thành các phần sau.
5
CHƢƠNG 1. TỔNG QUAN VỀ QUẢNGCÁO TRỰC TUYẾN
1.1 Giới thiệu về các loại hìnhquảngcáo trực tuyến
1.1.1 Tổng quan về quảngcáo trực tuyến
Quảng cáo là hình thức tuyên truyền, giới thiệu hàng hoá, dịch vụ nhằm tạo sự
hấp dẫn và kích thích ngƣời mua để đẩy mạnh việc bán hàng cũng nhƣ thực hiện dịch
vụ. Các hình thức này có tác dụng tức thời, đập ngay vào mắt, tai ngƣời xem.
Quảng cáo trực tuyến là một loại hìnhquảngcáo được thể hiện trên Internet và
đặc biệt là các trang Web. Việc sử dụng Internet và World Wide Web ngày càng trở
nên phổ biến, do vậy Internet đã trở thành một trong những phƣơng tiện quảngcáo
quan trọng nhất ngày nay.
1.1.2 Tốc độ tăng trưởng và thị phần
a) Thị trƣờng quảngcáo quốc tế
b) Thị trƣờng quảngcáo tại Việt Nam
Việt Nam hiện giờ là một trong những quốc gia có tốc độ tăng trƣởng số lƣợng
ngƣời dùng đứng đầu thế giới. Theo số liệu của Tổng cục Thống kê tháng 7/2010, số
ngƣời sử dụng Internet tại thời điểm cuối tháng 7/2010 đạt 25,1 triệu ngƣời. Theo kế
hoạch quốc gia, Internet sẽ phủ đến khoảng 70% dân số đất nƣớc vào năm 2015, có
nghĩa là tại thời điểm đó số lƣợng ngƣời sử dụng Internet sẽ vào khoảng 40 triệu
ngƣời. Ngoài ra, Việt Nam có nhiều doanh nghiệp nhỏ và vừa, đối tƣợng phù hợp nhất
với quảngcáo trực tuyến.
1.1.3 Các hình thức quảngcáo trực tuyến
Quảng cáo trực tuyến rất đa dạng về hình thức cũng nhƣ loại hình. Nhƣng chủ
yếu đƣợc phân ra thành hai loại chính đó là “hợp pháp” thƣờng thông qua các mạng
quảng cáo và “không hợp pháp”. Hiện nay quảngcáo “hợp pháp” đƣợc chuộng hơn cả
bao gồm các hình thức quảngcáo theo số lần nhấp chuột (CPC) hay theo số lần hiển
thị (CPM). Và hiện nay, CPC vẫn đang sử dụng hình thứ quảngcáo theo ngữcảnh để
tăng hiệu quả của quảng cáo.
6
1.1.4 Quảngcáodựatrênngữcảnh
Hình 1.1 Kiến trúc tổng quan chomôhìnhquảngcáodựatrênngữcảnh
Khác với loại quảngcáo đƣợc tài trợ đƣợc đặt bên cạnh kết quả tìm kiếm liên
quan đến truy vấn của ngƣời dùng, thì các quảngcáongữcảnh đƣợc hiển thị lên các
trang Web có nội dung liên quan với quảng cáo.
Nhiệm vụ chính của một hệ thống quảngcáo thông qua ngữcảnh là quyết định
xem quảngcáo nào sẽ đƣợc hiển thị và thứ tự hiển thị của chúng theo mức độ phù hợp
với nội dung trang Web (ngữ cảnh). Do vậy, bài toán phù hợp nội dung hay còn gọi là
phù hợp về ngữcảnh đã và đang đƣợc áp dụng rộng rãi trong quảngcáo trực tuyến.
1.2 Các phƣơng pháp tiếp cận đã triển khai
1.2.1 Môhình trích xuất từ khóa trong nội dung trang Web
Đây là một môhình của quảngcáo theo ngữ cảnh. Dựatrên tƣ tƣởng của quảng
cáo trên máy tìm kiếm, ta có thể coi trang Web hiện tại nhƣ một truy vấn dài bao gồm
nhiều từ khóa. Yih và các cộng sự [21] đã đề xuất môhình học giám sát bằng cách
trích xuất các từ khóa trong nội dung trang Web. Tiến hành học từ một tập các trang
Web đã đƣợc định nghĩa các từ khóa từ trƣớc, họ xây dựng một bộ phân lớp sử dụng
học máy với thuật toán hồi quy logic (logistic regression).
Tuy nhiên độ phù hợp của các quảngcáodựatrên các từ khóa này vẫn chƣa
đƣợc kiểm chứng qua thực nghiệm, hơn thế nữa, nhƣ đã đề cập từ trƣớc vấn đề giao
nhau giữa bộ từ vựng của quảngcáo và nội dung khá khác nhau. Ngoài ra, việc thực
hiện một “truy vấn dài” cũng gây lên hiện tƣợng thiếu chính xác do gặp phải nhiều từ
7
vựng gây nhiễu trong truy vấn do vậy kết quả của các phƣơng pháp áp dụng cũng
không đƣợc cao.
1.2.2 Môhình so độ tương đồng với tập từ vựng mở rộng
Một vấn đề của quảngcáo theo ngữ cảnh, đó là sự khác biệt về từ vựng giữa
trang Web và của các quảng cáo. Tập từ vựng của các trang Web thì đa dạng và phong
phú, trong khi đó, tập từ vựng của quảngcáo thì đặc thù đến một vài lĩnh vực cụ thể.
Ribeiro Neto và các cộng sự [14] đã tập trung vào việc giải quyết vấn đề này bằng
cách mở rộng tập từ vựng của các trang Web.
Tuy nhiên, phƣơng pháp trên vẫn chƣa giải quyết đƣợc vấn đề ngữ nghĩa cụ
thể là từ “đồng nghĩa” và “đa nghĩa”. Không chỉ riêng ngôn ngữ nói, từ vựng trong
quảng cáo đều sử dụng nhiều từ khác nhau để cùng nói đến một vấn đề. Nếu chỉ dùng
riêng đặc trƣng về “từ khóa” sẽ dẫn đến vấn đề thiếu chính xác về ngữ nghĩa khi so
khớp các văn bản với nhau.
1.2.3 Môhình tối ưu xếp hạng với thuật toán di truyền
Từ những nghiên cứu đã có đƣợc, Lacerda và các cộng sự [8] đã đƣa ra một
hƣớng tiếp cận dựatrên thuật toán di truyền để tối ƣu hàm xếp hạng. Sử dụng các đặc
trƣng khác nhau nhƣ từ khóa, tần suất xuất hiện của từ, độ dài văn bản và kích thƣớc
tập dữ liệu, bằng phƣơng pháp học máy, họ xây dựng một hàm so khớp nhằm tối ƣu độ
phù hợp giữa trang Web và các quảng cáo. Tuy nhiên môhình này vẫn sử dụng đặc
trƣng tƣơng tự nhƣ môhình của Ribeiro [14], mặc dù đã cải thiện về thuật toán, nhƣng
cũng chƣa giải quyết đƣợc vấn đề về ngữ nghĩa do vậy kết quả về độ chính xác cũng
chƣa đƣợc cao.
1.2.4 Phương pháp so sánh dựatrênngữ nghĩa
Phƣơng pháp dựatrên việc tách chọn các từ khóa còn gặp phải vấn đề đó là
“ngữ nghĩa”. Một quảngcáo về “sản phẩm dƣỡng da” sẽ không phù hợp đối với trang
Web có nội dung về “da giày xuất nhập khẩu”. Một phƣơng pháp do Andrei Broder
[4] đề xuất đó là việc so sánh độ phù hợp dựatrên cả 2 yếu tố ngữ nghĩa và cấu trúc.
Đối với yếu tố ngữ nghĩa, tác giả đã phân loại cả các trang Web lẫn dữ liệu
quảng cáo vào cùng một bộ phân loại lớn gồm 6000 nút. Mỗi một nút chứa một tập các
8
câu truy vấn. Môhình huấn luyện sử dụng nhiều phƣơng pháp phân loại nhƣ SVN,
log-regression , K-means.
Đối với yếu tố cấu trúc, tác giả dùng chỉ số tf-idf để tính trọng số cho mỗi thuật
ngữ (term) của trang Web hay các quảng cáo. Phƣơng pháp này bổ sung thêm yếu tố
phân loại về độ liên quan, khi quảngcáo và nội dung trang Web nằm ở 2 node càng xa
nhau, độ liên quan càng giảm dần.
Phƣơng pháp của tác giả khá tốt khi đã giải quyết đƣợc hầu hết các vấn đề về
bài toán so khớp, nhƣng việc xây dựng 6000 nút nhƣ trong cách làm là không khả thi ở
Việt Nam khi mà tập dữ liệu của bài báo đƣợc thu thập từ một một công ty có dịch vụ
lớn nhƣ Yahoo. Ngoài ra, việc xây dựng hệ thống để lƣu trữ các nút và dữ liệu truy
vấn nhƣ vậy là khá tốn kém về công sức cũng nhƣ về tiền bạc và điều này đi ngƣợc lại
với mục đích ban đầu của luận văn.
1.2.5 Chủ đề ẩn
Tác giả Hieu X.P và cộng sự [13] sử dụng phƣơng pháp LDA để tự động phân
loại các chủ đề để giải quyết bài toán xếp hạng và so khớp. Phƣơng pháp này giải
quyết đƣợc vấn đề về ngữ nghĩa cũng nhƣ cấu trúc. Tác giả cũng đƣa ra phƣơng pháp
để giải quyết vấn đề về kho từ vựng bằng việc tạo một kho dữ liệu từ vựng đủ lớn để
bao phủ từ vựng của quảngcáo lẫn trang Web. Tác giả thu thập dữ liệu này từ trang
báo lớn là Vnexpress sau đó dùng dữ liệu làm tập huấn luyện chomôhình LDA. Đối
với mỗi quảngcáo hay nội dung trang Web, thông qua môhình này, đƣợc biểu diễn
dƣới dạng các vector đặc trƣng về chủ đề. Kết hợp vector đặc trƣng về chủ đề với
trọng số là xác suất của các chủ đề với biểu diễn “bag-of-words”. Sau đó, chúng để so
khớp với nhau.
Với cách làm này, tác giả đạt đƣợc độ chính xác khoảng 80% so với tập dữ liệu
thực nghiệm. Phƣơng pháp này có một điểm khá tƣơng đồng với phƣơng pháp đề xuất
của em trong đó sử dụng cả hai môhình chủ đề. Sự khác biệt là cách thức chọn mô
hình và dữ liệu huấn luyện. Ngoài ra, phƣơng pháp này còn chƣa tận dụng hết các đặc
trƣng của quảngcáo tại Việt Nam nhƣ việc kết hợp các từ khóa/chuyên mục đƣợc gán
bởi ngƣời dùng cho từng quảng cáo.
[...]... luyện Môhình huấn luyện Môhình huấn luyện Keyword_ Topic Keyword_ TopicMôhình KT Trang web Quảngcáo Đặc trưng Trang web SUY DIỄN CHỦ ĐỀ So khớp SUY DIỄN TỪ KHÓA Xếp hạng quảngcáo Đặc trưng QuảngcáoHình 2.1 Môhình tổng quan áp dụng phƣơng pháp từ khóa-chủ đề cho quảngcáo dựa trênngữcảnh 2.3.2 Sử dụng môhình từ khóa-chủ đề Giả sử rằng, em có một tập lớn dữ liệu các quảng cáo, em gọi nó là tập... thiệu cho một mục đích hoàn toàn khác nhƣng trong luận văn này, nó đƣợc chỉ ra rằng có thể thích hợp cho việc cài đặt quảngcáodựatrênngữcảnh 2.3.1 Môhình dùng cho bài toán Hệ thống sử dụng môhình từ khóa-chủ đề bao gồm các bƣớc sau: Thu thập một tập dữ liệu quảngcáo và sử dụng nó để huấn luyện môhình từ khóa-chủ đề (keyword- topic) Ứng với mỗi nội dung trang Web hay quảngcáo mới, áp dụng mô. .. bộ dữ liệu quảng cáo, em thu thập 32.000 quảngcáo từ Admarket (http://admarket.admicro.vn) một công ty quảngcáo trực tuyến tại Việt Nam Từ dữ liệu đó, em lấy ra 30.000 quảng cáocho việc huấn luyện và 2000 quảng cáocho việc đánh giá 3.1.2 Tiền xử lý dữ liệu Em áp dụng các thủ tục sau để tiền xử lý dữ liệu cho cả trang Web và quảngcáo - Trích xuất nội dung văn bản của trang, mô tả quảngcáo và trang... mỗi một quảng cáo, giả sử rằng, em lấy đƣợc những thông tin về tiêu đề, mô tả và nội dung của trang đích mà quảngcáo điều hƣớng tới (landing page) và những chuyên mục hay từ khóa mà ngƣời tạo quảngcáo gán cho nó Một vài hệ thống quảngcáo thƣờng định nghĩa trƣớc một tập các chuyên mục (thông thƣờng tổ chức theo dạng cây) Khi một quảngcáo đƣợc tạo trong hệ thống quảngcáo này, ngƣời tạo quảngcáo đƣợc... quảngcáo là nhƣ nhau, mà không thể hiện đƣợc tính đặc trƣng của mỗi loại quảngcáoMở rộng phƣơng pháp trên, em sử dụng thêm một số thông tin đặc trƣng của quảngcáo đó là các từ khóa (hay là chuyên mục) của quảngcáo đƣợc tạo bởi ngƣời dùng Bằng việc áp dụng môhình tƣơng tự nhƣ môhình chủ đề -tác giả [16], qua thực nghiệm, em thấy đặc trƣng này giúp cải thiện rõ rệt kết quả hiển thị của quảng cáo. .. [18] Một cách đơn giản của việc áp dụng LDA đối với quảngcáo trực tuyến dựatrênngữcảnh là việc sử dụng một tập hợp các trang Web và quảngcáo để huấn luyện môhình và sau đó sử dụng môhình này để biểu diễn trang Web và quảngcáo theo phân phối xác suất các chủ đề Một cách tiếp cận tốt hơn là sử dụng một lƣợng lớn tài liệu mở rộng làm đầu vào cho quá trình huấn luyện, do đó nâng cao độ che phủ... các môhình chủ đề bằng việc sử dụng môhình KT và sử dụng thêm các thông tin về “từ khóa” hay “chuyên mục” đƣợc gán cho quảngcáo bằng tay 3.2.5 Phân tích và đánh giá môhình KT a) Chủ đề và từ khóa thu đƣợc từ môhình KT Để tìm hiểu sâu hơn phƣơng pháp KT làm việc nhƣ thế nào là xem xét vào từ khóa và các chủ đề đƣợc khôi phục với môhình KT Bảng 3.3 cho ta thấy 4 chủ đề của 100 chủ đề lấy mẫu từ mô. .. cầu mô tả rõ ràng một hoặc nhiều chuyên mục phù hợp với nội dung quảngcáo mà họ chọn Một vài hệ thống quảngcáo khác chỉ yêu cầu ngƣời tạo quảngcáomô tả những “từ khóa” để tóm tắt quảngcáo Khi đó tên của một chuyên mục có thể đƣợc hiểu một cách tƣơng tự nhƣ một “từ khóa”, trong phạm vi luận văn, giả sử rằng em đều có đƣợc thông tin về từ khóa của quảngcáo đƣợc cung cấp bởi ngƣời tạo quảng cáo. .. quả hiển thị của quảngcáo tƣơng đồng 2.3 Môhình từ khóa-chủ đề ( keyword- topic) Em đặt tên môhình này là môhình từ khóa-chủ đề ( keyword- topic viết tắt là KT), nó là sự kết hợp mỗi “từ khóa” hay “chuyên mục” với phân phối xác suất các “chủ đề”, trong đó mỗi “chủ đề” là một phân phối xác suất thông qua các từ Nếu một quảngcáo chứa nhiều từ khóa, quảngcáo đƣợc biểu diễn nhƣ là một hỗn hợp xác suất... đƣợc trong môhình so khớp đều đạt đƣợc đƣợc do sử dụng những “từ khóa” quan trọng Môhình này tập trung vào những “từ khóa” của quảngcáo với từ khóa xuất hiện trên nội dung của một trang Web nhƣ là một “điều kiện bắt buộc” để quyết định xem một quảngcáo có đƣợc coi là tƣơng tự đối với một trang Web hay không Trong môhình này, viết tắt là AAK [15], độ tƣơng đồng giữa trang p và một quảngcáo a đƣợc . dụng hình thứ quảng cáo theo ngữ cảnh để
tăng hiệu quả của quảng cáo.
6
1.1.4 Quảng cáo dựa trên ngữ cảnh
Hình 1.1 Kiến trúc tổng quan cho mô hình. lý phân phối quảng cáo. Ngƣợc lại, quảng cáo
dựa trên ngữ cảnh hay còn đƣợc gọi là Quảng cáo dựa trên nội dung đặt một lƣợng nhỏ
các quảng cáo lên các