Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

65 753 3
Tài liệu đã được kiểm tra trùng lặp
Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tài liệu tham khảo công nghệ thông tin Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 3

Lời cảm ơn

Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Cử nhân Nguyễn Minh Tuấn, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp

Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu tại trường Đại Học Công Nghệ

Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ liệu” đã giúp đỡ và hỗ trợ tôi rất nhiều về kiến thức chuyên môn và trong việc thu thập dữ liệu

Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp

Tôi xin chân thành cảm ơn !

Sinh viên Nguyễn Hữu Phương

Trang 4

Tóm tắt

Quảng cáo trên máy tìm kiếm hiện đang là hình thức quảng cáo thu hút được nhiều sự chú ý nhất ngày nay, trong đó các quảng cáo được hiển thị bên cạnh kết quả tìm kiếm theo truy vấn của người dùng Điều này dẫn đến một bài toán là làm thế nào để hiển thị những quảng cáo phù hợp nhất với truy vấn

Khóa luận này tập trung nghiên cứu các phương pháp xếp hạng quảng cáo trên máy tìm kiếm theo độ phù hợp với truy vấn, đề xuất mô hình quảng cáo sử dụng phân tích chủ đề ẩn và kĩ thuật tính hạng Đồng thời đưa ra phương pháp biểu diễn các quảng cáo theo những đặc trưng mới, đặc trưng về chủ đề ẩn Tiến hành thực nghiệm dựa trên việc sử dụng query logs trong xây dựng tập dữ liệu học, mô hình đã khai thác được các thông tin hữu ích từ hành vi người dùng và đem lại kết quả khá khả quan Độ chính xác trung bình của kết quả xếp hạng vào khoảng 82%-84%

Trang 5

Mục lục

Lời mở đầu 1

Chương 1 Khái quát về quảng cáo trực tuyến 3

1.1 Giới thiệu về quảng cáo 3

1.2 Quảng cáo trực tuyến 4

1.2.1 Tốc độ tăng trưởng và thị phần 4

1.2.2 Các hình thức quảng cáo trực tuyến 5

1.3 Quảng cáo trực tuyến ở Việt Nam 6

1.3.1 Tổng quan về quảng cáo trực tuyến ở Việt Nam 7

1.3.2 Những tài nguyên chưa được khai thác và thị trường quảng cáo trực tuyến 10

1.4 Quảng cáo thông qua tìm kiếm 13

Chương 2 Các phương pháp quảng cáo thông qua tìm kiếm 16

2.1 Mô hình trích xuất từ khóa trong nội dung trang web 16

2.2 Mô hình so khớp với tập từ vựng mở rộng (impedance coupling) 17

2.3 Mô hình tối ưu xếp hạng với thuật toán di truyền (Genetic Programming) 18

2.4 Mô hình quảng cáo sử dụng phản hồi liên quan 19

2.5 Mô hình ước lượng CTR (Click Through Rate) 21

2.6 Mô hình tìm kiếm và xếp hạng sử dụng chủ đề ẩn trong quảng cáo theo ngữ cảnh 22

Chương 3 Hệ thống quảng cáo trực tuyến sử dụng xếp hạng và chủ đề ẩn 25

3.2.1 Latent Dirichlet Allocation (LDA) 34

3.2.2 Mô hình sinh trong LDA 35

3.2.3 Ước lượng tham số và suy luận 36

3.3 Mô hình quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng 39

3.3.1 Mô tả bài toán 39

3.3.2 Mô hình tổng quan 40

3.3.3 Xác định đặc trưng cho mô hình 41

Chương 4 Thực nghiệm và đánh giá 43

4.3.2 Thu thập thông tin từ các URL có được 46

4.3.3 Véc tơ hóa dữ liệu 47

4.3.4 Thiết kế thực nghiệm 47

4.4 Kết quả thực nghiệm 48

4.5 Đánh giá kết quả thực nghiệm 50

Trang 6

Kết luận 52Tài liệu tham khảo 53

Trang 7

Danh sách các bảng

Bảng 1 Một số website lớn cung cấp dịch vụ quảng cáo trực tuyến ở Việt Nam 9

Bảng 2 Cấu hình phần cứng sử dụng trong thực nghiệm 44

Bảng 3 Danh sách các phần mềm mã nguồn mở được sử dụng 44

Bảng 4 Giá trị các độ đo tại một số truy vấn khác nhau 50

Trang 8

Danh sách các hình

Hình 1 Doanh thu quảng cáo trực tuyến nửa đầu và cuối những năm từ 1999 đến 2008 ở Mĩ 5

Hình 2 Phân loại doanh thu quảng cáo trực tuyến trong 6 tháng đầu năm 2007 và 2008 ở Mĩ 6

Hình 3 Quảng cáo trực tuyến tại một trang báo điện tử Việt Nam 8

Hình 4 Doanh thu từ quảng cáo trực tuyến của VnExpress và VietnamNet trong 3 năm 2004, 2005, 2006 12

Hình 5 Mô tả nội dung một quảng cáo 14

Hình 6 Kiến trúc cơ bản của hệ thống quảng cáo thông qua tìm kiếm 14

Hình 7 Kiến trúc hệ thống quảng cáo sử dụng phản hồi liên quan 20

Hình 8 Thuật toán ước lượng tham biến τ 30

Hình 9 Mô hình biểu diễn của LDA 35

Hình 10 Mô hình sinh đầy đủ cho LDA 36

Hình 11 Mô hình tổng quan hệ thống quảng cáo sử dụng chủ đề ẩn 40

Hình 12 Trung bình các độ đo trên tất cả các truy vấn 49

Hình 13 Trung bình độ đo NDCG@5 tại các sô lượng truy vấn khác nhau 49

Hình 14 Trung bình độ đo MAP tại các số lượng truy vấn khác nhau 50

Trang 9

PLSA Probabilistic Latent Semantic Analysis PLSI Probabilistic Latent Semantic Indexing PPC Pay Per Click

Trang 10

Lời mở đầu

Quảng cáo trực tuyến đang ngày càng phát triển và đem lại những khoản lợi nhuận khổng lồ trong các năm gần đây, lên đến 47.5 tỉ đô la [33] Quảng cáo trên máy tìm kiếm là hình thức quảng cáo trực tuyến phổ biến nhất, trong đó các quảng cáo được hiển thị bên cạnh kết quả tìm kiếm trả về cho người dùng Trong 5 năm gần đây, nhằm tìm kiếm và đưa ra một thứ tự quảng cáo phù hợp nhất, rất nhiều công trình trong nước cũng như trên thế giới đã được công bố [11], [22], [24], [25], [27], [30]

Lê Diệu Thu [27] đã đi theo một hướng tiếp cận mới trong quảng cáo theo ngữ cảnh bằng việc mở rộng tập từ khóa quảng cáo sử dụng kỹ thuật phân tích chủ đề ẩn Tác giả đã chỉ ra những ảnh hưởng tích cực của chủ đề ẩn trong việc tìm kiếm và xếp hạng quảng cáo

Khóa luận này tiếp tục xem xét bài toán xếp hạng quảng cáo trên máy tìm kiếm và đề xuất mô hình xếp hạng quảng cáo sử dụng kỹ thuật phân tích chủ đề ẩn theo hướng tiếp cận mới Khác với cách tiếp cận ở [27], mô hình của khóa luận này biểu diễn quảng cáo theo những đặc trưng về chủ đề ẩn và khai thác sự giúp đỡ của query logs trong việc xây dựng tập dữ liệu học và đã thu được những kết quả khả quan Khóa luận gồm bốn chương được mô tả sơ bộ dưới đây:

Chương 1 Khái quát về quảng cáo trực tuyến trình bày về tình hình quảng cáo

trực tuyến trên thế giới cũng như ở Việt Nam, đồng thời giới thiệu về hình thức quảng cáo trên máy tìm kiếm và bài toán xếp hạng quảng cáo trên máy tìm kiếm

Chương 2 Các phương pháp quảng cáo thông qua tìm kiếm trình bày những

công trình đã được đưa ra trong những năm gần đây nhằm giải quyết bài toán xếp hạng quảng cáo, chỉ ra ưu, nhược điểm của mỗi phương pháp

Chương 3 Hệ thống quảng cáo trực tuyến sử dụng kĩ thuật xếp hạng và phân tích chủ đề ẩn Chương này trình bày về kĩ thuật xếp hạng, phương pháp học xếp hạng

SVM Rank, kĩ thuật phân tích chủ đề ẩn và đề xuất mô hình xếp hạng quảng cáo sử dụng chủ đề ẩn

Chương 4 Thực nghiệm và đánh giá mô hình trình bày về dữ liệu được sử dụng,

các giai đoạn xử lý dữ liệu và thực nghiệm, đưa ra kết quả của mô hình, nhận xét và phân

Trang 11

Phần kết luận Tổng kết và tóm lược nội dung chính của khóa luận

Trang 12

Chương 1 Khái quát về quảng cáo trực tuyến

1.1 Giới thiệu về quảng cáo

Quảng cáo là hình thức tuyên truyền, giới thiệu hàng hoá, dịch vụ nhằm tạo sự hấp

dẫn và kích thích người mua để đẩy mạnh việc bán hàng cũng như thực hiện dịch vụ Trong chừng mực nhất định, quảng cáo cũng có tác dụng tích cực, tuy nhiên nó làm tăng giá cả của hàng hoá Trong nền kinh tế hàng hoá, chi phí về quảng cáo thường rất lớn Hình thức quảng cáo rất phong phú: áp phích đặc biệt, đăng báo, phát thanh, vô tuyến truyền hình, điện ảnh, triển lãm chế phẩm, nhãn hiệu sản xuất, tủ kính bày hàng ở các cửa hàng hay các xí nghiệp, thư tín, quà biếu [6]

Theo một tài liệu khác, quảng cáo là một hiện tượng phức tạp, gắn bó mật thiết với xã hội, văn hóa, lịch sử và kinh tế, nó không tuân theo bất cứ một định nghĩa đơn giản hay

riêng biệt nào Một vài khía cạnh của quảng cáo rất phổ dụng trong khi một vài khía cạnh khác lại mang đặc trưng cụ thể về văn hóa Quảng cáo biến đổi từ nghệ thuật bán hàng cá nhân tới truyền thông gián tiếp, cung cấp những thông tin mới nhằm thuyết phục con người Bên cạnh những thông báo nhằm mục đích bán hàng nó còn ẩn chứa những giá trị văn hóa và các ý kiến xã hội Tùy thuộc vào từng quan điểm khác nhau, quảng cáo có thể có tác dụng tích cực hay tiêu cực tới xã hội và kinh tế [8]

Cũng theo [39] thì cha đẻ của hình thức quảng cáo là một người Ai Cập cổ Ông ta đã dán tờ thông báo đầu tiên trên tường thành Thebes vào khoảng năm 3000 trước Công nguyên Vài thế kỷ sau đó, ở Hy Lạp hình thức thông báo này trở nên rất phổ biến khi các thông tin dành cho công chúng được vẽ lên các tấm bảng gỗ trưng bày ở quảng trường thành phố Nếu như các bảng quảng cáo đã phát triển nhanh sau sự ra đời của phương pháp in (bức áp phích đầu tiên do Caxton, người Anh, in từ năm 1477), thì họa sĩ Pháp J.Chéret (1835-1932) lại là người phát minh ra hình thức quảng cáo hiện đại Đó là tờ quảng cáo một buổi biểu diễn năm 1867, gồm một câu ngắn và một hình ảnh màu mè gây ấn tượng mạnh Tuy nhiên, chính họa sĩ Italy L.Cappiello (1875-1942) mới là người đầu tiên thực sự đề cập tới áp phích quảng cáo với tấm biển quảng cáo kẹo chocolate "Klaus" của ông năm 1903

Trang 13

Ngày nay quảng cáo đã có những bước phát triển mới và được tiến hành thông qua các phương tiện thông tin đại chúng như: truyền hình, báo chí, phát thanh, quảng cáo qua bưu điện và đặc biệt, là quảng cáo trực tuyến qua Internet

1.2 Quảng cáo trực tuyến

Quảng cáo trực tuyến là một loại hình quảng cáo được thể hiện trên Internet và đặc biệt là các trang web [8] Việc sử dụng Internet và World Wide Web ngày càng trở nên

phổ biến, do vậy Internet đã trở thành một trong những phương tiện quảng cáo quan trọng nhất ngày nay

Một trong các lợi ích của việc quảng cáo trực tuyến là cho phép công bố thông tin và nội dung ngay lập tức mà không bị giới hạn bởi vị trí địa lý hay thời gian Nó cho phép truyền đạt thông tin quảng cáo ở mức độ toàn cầu, tới một lượng lớn người dùng với một chi phí rất thấp

Quảng cáo trực tuyến đem lại hiệu quả đầu tư lớn cho khách hàng quảng cáo, nó cho phép tuỳ chỉnh các quảng cáo, bao gồm nội dung và các trang web mà quảng cáo sẽ được đăng lên Một ví dụ đó là, AdWords và AdSense của Google cho phép quảng cáo được hiển thị trên các trang web có liên quan hoặc hiển thị bên cạnh kết quả tìm kiếm trên máy tìm kiếm đối với một số từ khóa được định nghĩa trước

Một trong các ưu điểm của quảng cáo trực tuyến là cách thức thanh toán, việc thanh toán được thực hiện với nhiều cách thức khác nhau, dựa vào phản ứng của người dùng đối với quảng cáo Một số cách thức thanh toán như: CPM (Cost Per Mile/Thousand), CPV (Cost Per Visitor), CPC (Cost Per Click), CPA (Cost Per Action), CTR(Click Through Rate) [27]

1.2.1 Tốc độ tăng trưởng và thị phần

Năm 1994, quảng cáo trực tuyến bắt đầu xuất hiện trên trình duyệt web thương mại đầu tiên, Netscape Navigator 1.0, dưới hình thức là các banner quảng cáo [32] Những quảng cáo đầu tiên trên web là những nội dung tĩnh hay logo của các công ty Chúng thường xuất hiện ở đầu mỗi trang web vì đó thường là nơi dễ được quan sát nhất

Khi công nghệ ngày càng phát triển, mở ra nhiều cơ hội mới, rất nhiều hình thức quảng cáo trực tuyến đã xuất hiện Một vài công ty tiến hành quảng cáo thông qua web site bởi những pop-up, như DoubleClick, AdForce và Windwire Họ cung cấp một vài

Trang 14

thông tin hình ảnh và trình duyệt web sẽ thực thi một số công việc khi người dùng click vào một quảng cáo [32]

Một thập niên sau khi xuất hiện, những người quảng cáo trên thị trường Mĩ đã chi 9.6 tỉ đô la cho quảng cáo trực tuyến, năm 2004 tăng hơn 31.5% so với năm 2003; so sánh với 10% cho quảng cáo trên truyền hình, 7.4 % cho những dịch vụ quảng cáo khác nói

chung và 6.6% cho GDP của nền kinh tế Mĩ (Hình 1) Theo báo cáo của IAB [33] vào

năm 2008, doanh thu từ quảng cáo trực tuyến đã đạt tới hơn 23 tỉ đô la vào cuối năm 2008

Hình 1 Doanh thu quảng cáo trực tuyến nửa đầu và cuối những năm từ 1999 đến 2008 ở Mĩ [33]

Theo báo cáo mới nhất của Strategy Analytics [38], tổng chi phí cho quảng cáo trực tuyến trên toàn thế giới đã lên tới gần 47.5 tỉ đô la vào năm 2007 và có thể vượt 100 tỉ đô la vào năm 2012

Những thông tin trên cho thấy tốc độ phát triển nhanh chóng của quảng cáo trực tuyến trong những năm qua và còn hứa hẹn những mức doanh thu khổng lồ trong các năm tới

1.2.2 Các hình thức quảng cáo trực tuyến

Quảng cáo trực tuyến có thể được phân loại thành hai loại: hợp pháp (các mạng

Trang 15

Quảng cáo spam thường xâm nhập vào hệ thống và được gọi là Spyware, Adware hay quảng cáo Pop-up Ví dụ, khi một trình duyệt mới được mở, pop-up quảng cáo xuất hiện và chuyển hướng người dùng tới website quảng cáo Điều này gây nhiều bức xúc cho người dùng, vì vậy nhiều trình duyệt hỗ trợ chức năng chặn pop-up để giới hạn các pop-up không hợp pháp Spyware và Adware thường là những ứng dụng mở rộng, một vài trong số chúng có thể gây hại, ví dụ như Trojan

Những quảng cáo hợp pháp có thể được phân loại thành: Quảng cáo trưng bày, email, phân loại và đấu giá, Lead Generation, đa phương tiện và tìm kiếm Chi tiết về các hình thức quảng cáo này có thể tìm thấy tại [27] Dưới đây là biểu đồ mô tả thu nhập của các loại này trong 6 tháng đầu của năm 2007 và năm 2008 tại Mĩ [33]

Hình 2 Phân loại doanh thu quảng cáo trực tuyến trong 6 tháng đầu năm 2007 và 2008 ở Mĩ [33]

Như chúng ta thấy trên (Hình 2), search advertising, mà trong nội dung khóa luận này ta gọi là quảng cáo thông qua tìm kiếm, là loại hình quảng cáo phổ biến nhất và có doanh thu lớn nhất tại thị trường Mĩ từ năm 2007 đến năm 2008 Nó chiếm 41% tổng thu nhập từ quảng cáo trực tuyến trong 6 tháng đầu năm 2007 và 46% trong 6 tháng đầu năm 2008

1.3 Quảng cáo trực tuyến ở Việt Nam

Cùng với sự phát triển của quảng cáo trực tuyến trên thế giới, quảng cáo trực tuyến tại Việt Nam cũng từng bước phát triển và đã đạt được những thành công bước đầu

Trang 16

1.3.1 Tổng quan về quảng cáo trực tuyến ở Việt Nam 1.3.1.1 Thị phần

Theo số liệu của Trung tâm Internet Việt Nam (VNNIC), hiện có xấp xỉ 19 triệu người - chiếm 22,47% dân số Việt Nam - thường xuyên tiếp cận với lnternet Số lượng người sử dụng Internet đông đảo và tăng trưởng nhanh (năm 2007 có thêm 4 triệu người sử dụng so với 2006) là một môi trường tiềm tàng để khai thác quảng cáo trực tuyến

Tuy nhiên, quảng cáo trực tuyến ở Việt Nam vẫn đang ở thời kỳ mới khai phá và hình thành Theo số liệu của Hiệp hội quảng cáo Việt Nam (VAA), trên 80% thị phần quảng cáo trong nước thuộc về các đài truyền hình, sau đó là quảng cáo trên ấn phẩm báo chí.

Quảng cáo trực tuyến ở Việt Nam có doanh thu vào khoảng 64 tỉ VNĐ năm 2006, 160 tỉ VNĐ vào năm 2007 và trong những năm tới sẽ tăng trưởng 100% để đạt tới con số 500 tỉ VND vào năm 2010 Tuy nhiên doanh thu của quảng cáo trực tuyến trên tổng ngành quảng cáo tại VN ở mức khoảng 1,5% (2007) [4].

1.3.1.2 Các hình thức quảng cáo trực tuyến ở Việt Nam

Về hình thức, quảng cáo trực tuyến ở Việt Nam chủ yếu hướng tới việc quảng cáo thương hiệu với hình thức logo/banner (Hình 3) Tại các website lớn, logo/banner chi chít bất chấp các tiêu chuẩn về hiệu quả gây ấn tượng (nhiều nhất 4 quảng cáo/một màn hình) Các dạng quảng cáo như qua từ khóa, quảng cáo theo ngữ cảnh, theo hành vi còn là những khái niệm mới mẻ Và hiện nay, cũng chưa có một chuẩn nào đối với các mẫu thiết kế cho quảng cáo trực tuyến (kích thước, vị trí ) Điều này khiến khách hàng mất thêm nhiều thời gian và chi phí khi tiến hành quảng cáo tại các website khác nhau [4]

Khách hàng của quảng cáo trực tuyến mới chỉ tập trung ở một vài ngành Khảo sát tại những website có đông quảng cáo nhất, những doanh nghiệp đứng ở những vị trí đắt nhất thường là các doanh nghiệp viễn thông, ngân hàng, kế đến là các doanh nghiệp, cơ sở trong ngành điện máy, giáo dục, ẩm thực

Trang 17

Hình 3 Quảng cáo trực tuyến tại một trang báo điện tử Việt Nam

Ngoài ra, chưa có một tổ chức đủ uy tín đóng vai trò trung gian để đánh giá một cách khách quan về số lượng người dùng của các website cũng như hiệu quả khi tiến hành quảng cáo trực tuyến Không ít các website đưa ra thông tin về số lượng người dùng với những con số khổng lồ Điều này khiến doanh thu của quảng cáo trực tuyến ở Việt Nam tập trung tại một vài trang web có lượng truy cập cao nhất (chủ yếu là các báo điện tử, trang tin tức như VnExpress, Dân Trí, Vietnamnet, 24h.com.vn ) thay vì có thể phân bổ ở các website đặc thù (du lịch, giải trí, thương mại )

Về hình thức thanh toán, vẫn sử dụng những hình thức thanh toán truyền thống như quảng cáo trên báo chí, số tiền người quảng cáo trả cho công ty quảng cáo được tính theo kích thước của banner, số lần hiển thị quảng cáo trên trang web cùng thứ hạng của trang web quảng cáo (phương pháp CPM) Thứ hạng của các trang web thường được xác định bởi một vài công cụ trên Internet, ví dụ alexa.com Giá thành quảng cáo được quyết định bởi số lượt người dùng truy cập vào website và vị trí của banner

Những hình thức thanh toán khác như CPC hay CPA vẫn còn rất hiếm, cần phải có một mạng quảng cáo đáng tin cậy để cung cấp những thông tin cho các hình thức thanh toán này Đây là một vấn đề quan trọng, nó giải thích nguyên nhân vì sao quảng cáo theo ngữ cảnh, theo hành vi, quảng cáo trên máy tìm kiếm ở Việt Nam chưa phát triển Tuy

Trang 18

nhiên, một vài công ty đã nắm bắt được điều này và họ đã đưa ra những mô hình thử nghiệm làm việc với phương pháp CPC, ví dụ như Hura Ad1, daugia 247 – ECOM JSC2và VietAd3, các hệ thống này đã từng được đưa ra thử nghiệm ở Việt Nam (tuy nhiên chúng đã bị loại bỏ để cải tiến, theo VietnamNet )

Bảng 1 Một số website lớn cung cấp dịch vụ quảng cáo trực tuyến ở Việt Nam

8 Công ty Cổ phần Quảng cáo dịch vụ trực tuyến www.24h.com.vn9 Công ty Truyền thông đa phương tiện (VTC) www.vtc.com.vn

Tóm lại, quảng cáo trực tuyến ở Việt Nam hiện nay mới có số lượng người tham gia ít ỏi và chưa phong phú về hình thức Các hình thức quảng cáo chủ yếu là banner và được thanh toán dựa vào kich thước, vị trí banner và thứ hạng của trang web

1 http://ad.hurahost.com

2 http://daugia247.com

3 http://vietad.vn

Trang 19

1.3.2 Những tài nguyên chưa được khai thác và thị trường quảng cáo trực tuyến

Ở phần trước khóa luận đã giới thiệu một cái nhìn tổng quan về quảng cáo trực tuyến ở Việt Nam, tuy còn mới mẻ nhưng đang được mở rộng và có nhiều tiềm năng Trong phần này, khóa luận sẽ trình bày kĩ hơn về những tài nguyên chưa được khai thác và thị trường quảng cáo trực tuyến, từ đó chỉ ra tiềm lực và những vấn đề nổi trội của quảng cáo trực tuyến tại Việt Nam trong các năm tới

1.3.2.1 Tốc độ phát triển nhanh chóng của thương mại điện tử ở Việt Nam

Thương mại điện tử là một nhân tố quan trọng của quảng cáo trực tuyến, đặc biệt cho việc thanh toán của các hệ thống quảng cáo theo ngữ cảnh, hành vi hay quảng cáo qua máy tìm kiếm Khi thương mại điện tử phát triển, nhiều ngành thương mại khác có thể dễ dàng thực hiện trao đổi thông qua internet tạo điều kiện cho các công ty giới thiệu sản phẩm của họ tới khách hàng, hỗ trợ cho sự phát triển của quảng cáo trực tuyến

Vào đầu năm 2006, thương mại điện tử đã bắt đầu phát triển, nhiều bộ luật mới đã được ban hành Cùng sự hỗ trợ của chính phủ, thương mại điện tử ở Việt Nam ngày càng phát triển và có những bước tiến rõ rệt

Đến cuối năm 2008, kết quả điều tra với 1600 doanh nghiệp trên cả nước của Bộ Công Thương cho thấy, hầu hết các doanh nghiệp đã triển khai ứng dụng thương mại điện tử ở những mức độ khác nhau Đầu tư cho thương mại điện tử đã được chú trọng và mang lại hiệu quả rõ ràng cho doanh nghiệp [1]

Các doanh nghiệp đã quan tâm tới việc trang bị máy tính, đến nay hầu như 100% doanh nghiệp đều có máy tính Tỷ lệ doanh nghiệp có từ 11–20 máy tính tăng dần qua các năm và đến năm 2008 đã đạt trên 20% Tỷ lệ doanh nghiệp đã xây dựng mạng nội bộ năm 2008 đạt trên 88% so với 84% của năm 2007 Đến nay, có tới 99% số doanh nghiệp đã kết nối Internet, trong đó kết nối băng thông rộng chiếm 98% Tỷ lệ doanh nghiệp có website năm 2008 đạt 45%, tăng 7% so với năm 2007 Tỷ lệ website được cập nhật thường xuyên và có chức năng đặt hàng trực tuyến đều tăng nhanh

Một trong những điểm sáng nhất về ứng dụng thương mại điện tử của doanh nghiệp là tỷ lệ đầu tư cho phần mềm tăng trưởng nhanh, chiếm 46% trong tổng đầu tư cho công nghệ thông tin của doanh nghiệp năm 2008, tăng gấp 2 lần so với năm 2007 Trong khi đó, đầu tư cho phần cứng giảm từ 55,5% năm 2007 xuống còn 39% vào năm 2008 Sự

Trang 20

dịch chuyển cơ cấu đầu tư này cho thấy doanh nghiệp đã bắt đầu chú trọng đầu tư cho các phần mềm ứng dụng để triển khai thương mại điện tử sau khi ổn định hạ tầng công nghệ thông tin Doanh thu từ thương mại điện tử đã rõ ràng và có xu hướng tăng đều qua các năm, 75% doanh nghiệp có tỷ trọng doanh thu từ thương mại điện tử chiếm trên 5% tổng doanh thu trong năm 2008 Nhiều doanh nghiệp đã quan tâm bố trí cán bộ chuyên trách về thương mại điện tử

1.3.2.2 Sự bùng nổ của xã hội trực tuyến và các mạng xã hội

Thời gian gần đây, việc sử dụng công nghệ World Wide Web và thiết kế web cho phép người dùng chia sẽ thông tin một cách dễ dàng hơn ví dụ như những trang web mạng xã hội, các trang wiki, blog và diễn đàn Cùng với đó, số lượng người Việt Nam sử dụng Internet cũng ngày càng tăng lên, tạo thành một cộng đồng trực tuyến rộng lớn giữa những người Việt Nam Theo VNNIC (VietNam Internet Association), vào tháng 3 năm 2008, số lượng người Việt Nam sử dụng Internet đã lên tới trên 19 triệu người (chiếm 19.41% dân số) và con số này đang ngày càng tăng lên [4] Thị trường này lớn hơn so với ở Thái Lan, Philippines và Indonesia Trong một vài năm qua, các cộng đồng trực tuyến đã được chứng kiến sự phát triển và cạnh tranh của các trang web mạng xã hội, ví dụ như: Yahoo! 360 blog, Tamtay, Yobanbe, Cyworld, Zoomban,

Tuy nhiên, có một khoảng cách lớn về sự phát triển của thương mại điện tử giữa ở Việt Nam và các nước phát triển trên thế giới mà phần lớn là ở thói quen người dùng và thu nhập

1.3.2.3 Thị trường quảng cáo trực tuyến, cái nhìn lâu dài

Tốc độ phát triển nhanh chóng của thương mại điện tử, sự bùng nổ của cộng đồng trực tuyến và các cổng thông tin web ở Việt Nam đã tạo nền tảng vững chắc cho sự phát triển của quảng cáo trực tuyến Trong thời gian gần đây, các nhà quảng cáo lớn như Yahoo và Google đã bắt đầu quan tâm tới thị trường quảng cáo trực tuyến tại Việt Nam, họ bắt đầu xây dựng những chiến lược tiếp thị và các dịch vụ khác nhau cho người dùng Việt Nam Theo VietnamNet, Google đã tiến hành dịch các dịch vụ của họ sang tiếng Việt, ví dụ như dịch vụ quảng cáo AdWords4 Yahoo đang nắm giữ số lượng người dùng

4

Trang 21

Việt Nam lớn nhất (theo xếp hạng từ alexa) Họ đã ra mắt phiên bản yahoo tiếng Việt và phiên bản blog 360 plus nhằm thu hút người dùng Việt Nam vào thị trường này Những quảng cáo về các dịch vụ mới của họ được phát đi trên hệ thống truyền hình Việt Nam từ tháng 5 năm 2008 [27]

Tuy nhiên, thị trường quảng cáo trực tuyến đã thu hút không chỉ các công ty nước ngoài mà còn cả các công ty trong nước Một vài công ty mới đã bắt đầu mở rộng thị trường và nhắm tới quảng cáo trực tuyến Một số báo điện tử được biết đến nhiều nhất ở Việt Nam như VnExpress và VietnamNet, thu nhập của họ từ quảng cáo trực tuyến có tốc độ tăng trưởng khá cao và VnExpress vẫn giữ vị trí số một trong lĩnh vực quảng cáo trực tuyến ở Việt Nam (Hình 4)

Hình 4 Doanh thu từ quảng cáo trực tuyến của VnExpress và VietnamNet trong 3 năm 2004, 2005, 2006 [1]

Tóm lại, thị trường quảng cáo trưc tuyến ở Việt Nam tuy vẫn còn ở giai đoạn mới phát triển, nhưng đã thu hút được rất nhiều sự chú ý của cả các công ty trong nước cũng như ngoài nước Điều này dẫn đến nhu cầu về một mạng quảng cáo trực tuyến ở Việt Nam, nhằm hỗ trợ các hình thức quảng cáo mới phát triển, ví dụ như quảng cáo trên máy tìm kiếm hay quảng cáo theo hành vi, ngữ cảnh

Google và Yahoo đã đạt được những thành công lớn trên thị trường thế giới, tuy nhiên rào cản về ngôn ngữ và văn hóa vẫn còn là một hạn chế để họ có thể tiếp cận với thị

5

Trang 22

trường Việt Nam Một bài học từ sự thành công của Baidu (máy tìm kiếm hàng đầu của Trung Quốc) đã chứng tỏ rằng những công ty quảng cáo lớn như Google và Yahoo không phải luôn luôn thành công ở thị trường khu vực, đặc biệt là ở Châu Á [32] Người dùng Việt Nam vẫn luôn chờ đợi một mạng tiếng Việt từ các công ty trong nước Việc xây dựng và phát triển quảng cáo trực tuyến ở Việt Nam đã trở thành một yêu cầu thiết yếu trong sự phát triển lâu dài, và người Việt Nam sẽ sớm được chứng kiến những bước phát triển mới trong thị trường quảng cáo những năm tiếp theo

1.4 Quảng cáo thông qua tìm kiếm

Quảng cáo thông qua tìm kiếm là hình thức quảng cáo mà các quảng cáo được hiển thị dựa vào các từ khóa hay các cụm từ được xác định từ trước [22] Quảng cáo thông qua tìm kiếm bao gồm các nhân tố chính sau:

- Nội dung quảng cáo: nội dung quảng cáo được người quảng cáo cung cấp cho các công ty quảng cáo, nội dung quảng cáo thường gồm: tiêu đề, mô tả, url, và các từ khóa tương ứng với quảng cáo

- Chi phí cho mỗi từ khóa: là chi phí mà người quảng cáo phải trả cho công ty quảng cáo đối với từng từ khóa hay cụm từ cụ thể

- Các quá trình kiểm tra tự động hoặc bằng tay nhằm đảm bảo nội dung quảng cáo phù hợp với các từ khóa

- Tìm kiếm các quảng cáo phù hợp với truy vấn người dùng (quảng cáo trên máy tìm kiếm) hay phù hợp với nội dung trang web (quảng cáo theo ngữ cảnh)

- Hiển thị các nội dung quảng cáo theo thứ tự phù hợp

- Thu thập thông tin, đo số lần click của người dùng, xác định các hành động của người dùng và yêu cầu người quảng cáo trả tiền theo các thông tin đó

Hình 5 là một ví dụ về quảng cáo trên máy tìm kiếm MSN, khi người dùng tìm kiếm với từ khóa “hotel”, một danh sách các quảng cáo có liên quan tới khách sạn sẽ được hiển thị

Trang 23

Hình 5 Mô tả nội dung một quảng cáo [36]

Hình 6 dưới đây mô tả kiến trúc cơ bản của một hệ thống quảng cáo thông qua tìm kiếm

Hình 6 Kiến trúc cơ bản của hệ thống quảng cáo thông qua tìm kiếm [27]

Thông qua mạng quảng cáo (Advertising network) các quảng cáo được hiển thị tới người dùng tùy thuộc vào nội dung trang web họ đang xem (với quảng cáo ngữ cảnh) hay tùy thuộc vào truy vấn họ đang tìm kiếm (quảng cáo trên máy tìm kiếm) Khi người dùng click vào quảng cáo hay thực hiện một vài hành động như đăng ký, thanh toán… mạng

Trang 24

quảng cáo sẽ ghi nhận các hành động của người dùng Người quảng cáo sẽ phải trả tiền cho mạng quảng cáo tùy thuộc vào các hành động đã được ghi nhận đó Hiện nay có rất nhiều mạng quảng cáo nổi tiếng như: Google, Yahoo, MSN, Publisher Network (YPN), Amazon.com

Quảng cáo thông qua tìm kiếm có hai loại chính: quảng cáo trên máy tìm kiếm và quảng cáo theo ngữ cảnh

Quảng cáo trên máy tìm kiếm là quảng cáo được thực hiện trên máy tìm kiếm, khi

người dùng tìm kiếm theo một truy vấn, bên cạnh kết quả tìm kiếm, một danh sách các quảng cáo được hiển thị tương ứng với truy vấn của người dùng Các quảng cáo được sắp xếp theo hai tiêu chí: độ phù hợp với truy vấn và số tiền người quảng cáo sẽ trả cho công ty quảng cáo cho việc hiển thị quảng cáo của họ Quảng cáo trên máy tím kiếm là hình thức quảng cáo trực tuyến phổ biến nhất hiện nay

Quảng cáo theo ngữ cảnh khác với quảng cáo trên máy tìm kiếm, danh sách quảng

cáo thu được từ việc so sánh các cụm từ, từ khóa của quảng cáo với nội dung trang web và được trả về dựa theo độ phù hợp của nội dung trang web với các quảng cáo

Trong cả hai loại quảng cáo nói trên, số lượng các quảng cáo được đưa ra cho mỗi lần hiển thị thường rất ít, từ 4 đến 5 quảng cáo, người dùng thông thường chỉ chú ý đến một vài quảng cáo đầu tiên, do vậy yêu cầu đối với hệ thống quảng cáo là: phải tìm ra những quảng cáo phù hợp nhất với truy vấn của người dùng và đưa chúng lên đầu danh sách Một bài toán được đặt ra là xếp hạng các quảng cáo trả về theo mức độ phù hợp với truy vấn của người dùng

Xếp hạng quảng cáo là một bài toán nhận được rất nhiều sự quan tâm hiện nay Có rất nhiều phương pháp và mô hình đã được đưa ra, ví dụ như “mô hình quảng cáo sử dụng phản hồi liên quan” [11], “mô hình ước lượng CTR(Click Through Rate)” [25] hay cách tiếp cận “trích xuất từ khóa quảng cáo từ nội dung trang web” [30], “impedance coupling” [24] và “ranking optimization” [22] Các phương pháp này sẽ được trình bày kĩ ở chương sau

Trang 25

Chương 2 Các phương pháp quảng cáo thông qua tìm kiếm

Nhiệm vụ chính của một hệ thống quảng cáo thông qua tìm kiếm là quyết định các quảng cáo nào sẽ được hiển thị và thứ tự hiển thị của chúng theo mức độ phù hợp với truy vấn của người dùng hay nội dung trang web (ngữ cảnh) Khi người dùng tìm kiếm, mục đích chính của họ là tìm kiếm những tài liệu liên quan đến từ khóa chứ không phải tìm kiếm các quảng cáo, do vậy người dùng sẽ chỉ thực sự chú ý đến quảng cáo khi những quảng cáo được đưa ra có tính phù hợp cao với điều mà họ quan tâm Mặt khác, việc hiển thị các quảng cáo phù hợp có thể giúp người dùng có thêm những thông tin hữu ích, tiếp cận những dịch vụ mong muốn, ngược lại nếu các quảng cáo được đưa ra không phù hợp có thể làm người dùng cảm thấy khó chịu và giảm mức độ hài lòng với máy tìm kiếm

Trong 5 năm gần đây, có rất nhiều phương pháp trên thế giới và một số phương pháp ở Việt Nam đã được công bố nhằm giải quyết vấn đề này, dưới đây là một số phương pháp nổi bật

2.1 Mô hình trích xuất từ khóa trong nội dung trang web

Đây là một mô hình của quảng cáo theo ngữ cảnh Dựa trên tư tưởng của quảng cáo trên máy tìm kiếm, ta có thể coi trang web hiện tại như một truy vấn dài bao gồm nhiều từ khóa Yih và các cộng sự [30] đã đề xuất một mô hình học giám sát cho phép trích xuất các từ khóa trong nội dung trang web Tiến hành học từ một tập các trang web đã được định nghĩa các từ khóa từ trước, họ xây dựng một bộ phân lớp sử dụng học máy với thuật toán hồi quy logic (logistic regression)

Để xác định những từ khóa và cụm từ mô tả chính xác nhất về trang web họ sử dụng một vài phương pháp và tiến hành thực nghiệm để tìm ra phương pháp đem lại kết quả tốt nhất Ba phương pháp được đưa ra đó là: MoS, MoC và DeS M (Monolithic) nghĩa là sử dụng toàn bộ cụm từ trong trích chọn D (Decomposed) xem mỗi từ trong cụm như một cá thể riêng biệt S (Separate) là coi mỗi từ hay cụm từ bất kể giống nhau hay khác nhau như các cá thể riêng biệt, và C (Combined) kết hợp các từ, cụm từ giống nhau làm một

Một điểm quan trọng trong công trình của họ đó là việc sử dụng 7.5 triệu truy vấn từ query logs của MSN [36] như một đặc trưng cho quá trình trích chọn, cùng với đó là 11

Trang 26

đặc trưng khác như tần suất xuất hiện của từ khóa, đặc trưng thuộc về ngôn ngữ học (pos tagging), đặc trưng kiểm tra từ có được viết hoa hay không, đặc trưng về siêu văn bản (từ có nằm trong một liên kết hay không), tiêu đề trang, đặc trưng về độ dài các cụm từ, các câu,…

Trong thực nghiệm, họ sử dụng 828 trang web được lấy từ Internet Archive [34] để sử dụng cho quá trình học và kiểm thử hệ thống Kết quả cho thấy hệ thống MoC (các cụm từ tương đương được kết hợp làm một) đem lại kết quả tốt nhất, trong khi đó MoS đem lại kết quả thấp nhất Ngoài ra, hệ thống DeS (xem mỗi từ như một cá thể riêng biệt) đem lại kết quả thấp hơn so với hệ thống Monolothic(xem mỗi cụm từ như một cá thể riêng biệt) Độ chính xác của hệ thống tốt nhất là 30.06% và của hệ thống tồi nhất là 13.01%

Để xác định sự đóng góp của mỗi đặc trưng, họ tiến hành thực nghiệm trên cùng một hệ thống với các đặc trưng được thêm vào lần lượt Kết quả chỉ ra rằng, đặc trưng query log và tần xuất xuất hiện của từ khóa đóng vai trò quan trọng nhất

Nghiên cứu của Yih và các cộng sự [30] cho thấy một hướng tiếp cận khác của quảng cáo theo ngữ cảnh Hệ thống của họ cho phép xếp hạng các quảng cáo dựa trên những từ khóa trích xuất ra được từ trang web Tuy nhiên độ phù hợp của các quảng cáo dựa trên các từ khóa này vẫn chưa được kiểm chứng qua thực nghiệm

2.2 Mô hình so khớp với tập từ vựng mở rộng (impedance coupling)

Một vấn đề của quảng cáo theo ngữ cảnh, đó là sự khác biệt về từ vựng giữa trang web và các quảng cáo Ribeiro Neto và các cộng sự [24] đã tập trung vào việc giải quyết vấn đề này bằng cách mở rộng tập từ vựng của các trang web

Nhìn chung, một quảng cáo thường ngắn, cô đọng và tập trung vào một chủ đề chính Tuy nhiên, một trang web lại có nội dung lớn hơn và thuộc một không gian ngữ cảnh lớn hơn Một trang web có thể nói về rất nhiều chủ đề và với các từ khóa khác nhau Vấn đề tìm kiếm những quảng cáo phù hợp với một trang web sử dụng những chủ đề có trong nội dung trang đang là một vấn đề cần được quan tâm

Ribeiro và các cộng sự [24] đã khảo sát 10 phương pháp so khớp các quảng cáo và trang web Họ tiến hành thực nghiệm với một cơ sở dữ liệu lớn trên 93 nghìn quảng cáo

Trang 27

Với 5 phương pháp đầu tiên, họ so sánh các trang web và quảng cáo dựa vào mô hình véc tơ Hạng của mỗi quảng cáo được tính dựa trên độ tương đồng cosin giữa quảng cáo và trang web Các đặc trưng được sử dụng là tiêu đề, mô tả và các từ khóa quảng cáo Phương pháp tốt nhất trong những phương pháp này là AAK, “so khớp sử dụng các từ khóa quảng cáo xuất hiện trong nội dung trang web”, kết quả của phương pháp này được sử dụng để so sánh với các phương pháp “impedance coupling”

Như đã giới thiệu ở trên, có một sự khác biệt lớn giữa tập từ vựng của trang web và quảng cáo Để giải quyết vấn đề này, Ribeiro và các cộng sự [24] mở rộng tập từ vựng của trang web với những từ khóa lấy từ các trang web có nội dung tương tự sử dụng mô hình Bayes Những từ khóa mở rộng này có thể xuất hiện trong tập từ khóa của quảng cáo và làm tăng hiệu quả của hệ thống Họ sử dụng 5 phương pháp so khớp khác nhau gọi là các phương pháp “impedance coupling”

Trong thực nghiệm, họ sử dụng một cơ sở dữ liệu với 6 triệu trang web để phục vụ cho việc mở rộng tập từ vựng Kết quả thu được khi sử dụng các nội dung đã được mở rộng tốt hơn so với phương pháp AAK ở trên Phương pháp tốt nhất được đưa ra đó là so khớp sử dụng nội dung trang web mở rộng và nội dung của trang web được quảng cáo trỏ tới Thực nghiệm của Ribeiro-Neto và các cộng sự đã chứng tỏ rằng, việc giảm sự khác biệt về tập từ vựng giữa trang web và quảng cáo có thể hỗ trợ tốt cho việc tìm kiếm quảng cáo phù hợp với ngữ cảnh

2.3 Mô hình tối ưu xếp hạng với thuật toán di truyền (Genetic Programming)

Từ những nghiên cứu đã có được [24], Lacerda và các cộng sự [22] đã đưa ra một hướng tiếp cận dựa trên thuật toán di truyền để tối ưu hàm xếp hạng Sử dụng các đặc trưng khác nhau như từ khóa, tần suất xuất hiện của từ, độ dài văn bản và kích thước tập dữ liệu, bằng phương pháp học máy, họ xây dựng một hàm so khớp nhằm tối ưu độ phù hợp giữa trang web và các quảng cáo Hàm này được thể hiện dưới dạng cây với nút là các phép toán và các đặc trưng là các lá Sử dụng tập dữ liệu học và đánh giá tương tự như ở [24], mô hình này đem lại kết quả tốt hơn so với phương pháp tốt nhất được mô tả ở đó là 61.7%

Trang 28

2.4 Mô hình quảng cáo sử dụng phản hồi liên quan

Dựa trên những nghiên cứu về xử lý truy vấn và mở rộng câu truy vấn, Andrei Z.Broder và các cộng sự [11] đã đưa ra mô hình quảng cáo trên máy tìm kiếm sử dụng phản hồi liên quan Với một truy vấn đầu vào gọi là truy vấn gốc, Andrei Z.Broder tiến hành tìm kiếm trên các máy tìm kiếm và thu thập một số kết quả trong danh sách các kết quả đầu tiên Từ truy vấn gốc và những kết quả đó, xây dựng một truy vấn mới gọi là truy vấn quảng cáo - và tiến hành tìm kiếm trên tập quảng cáo đã có bằng truy vấn này Cách tiếp cận này cho phép khai thác những thông tin mở rộng thu được từ máy tìm kiếm nhằm tạo ra những đặc trưng giàu thông tin hơn cho việc tìm kiếm Hơn nữa, việc sử dụng những đặc trưng mô tả toàn bộ quảng cáo tốt hơn so với việc chỉ sử dụng những từ khóa riêng biệt của nó, điều này còn giúp cho người quảng cáo không phải xác định trước các từ khóa của quảng cáo

Truy vấn quảng cáo và các quảng cáo được họ biểu diễn thông quang 3 loại đặc trưng chính: từ khóa, phân lớp và các cụm từ Prisma

- Từ khóa: họ tập hợp tất cả các từ khóa riêng biệt có trong tập quảng cáo, lựa chọn số từ khóa phù hợp, sử dụng mỗi từ khóa này như một đặc trưng sau đó tiến hành tính trọng số cho các đặc trưng theo TF-IDF

- Phân lớp: để tránh trường hợp một quảng cáo và một truy vấn có sự liên quan lớn, nhưng chúng sử dụng các từ khác nhau để biểu diễn, ngoài các từ khóa, họ sử dụng một đặc trưng ở mức cao hơn đó là phân lớp của truy vấn Sử dụng một taxonomy lớn về những chủ đề liên quan tới thương mại, xây dựng bộ phân lớp cho phép ánh xạ một đoạn văn bản với một số lớp liên quan Từ tập kết quả tìm được với truy vấn gốc, họ tiến hành phân lớp với từng kết quả, sau đó chọn ra những lớp phù hợp nhất với truy vấn gốc Các lớp này sẽ được sử dụng như các đặc trưng của truy vấn quảng cáo, trọng số tại các đặc trưng sẽ được xác định bằng độ tin cậy trả về từ bộ phân lớp

- Cụm từ Prisma: sử dụng công cụ của Altavista’s Prisma, đây là một công cụ cho phép trích chọn các cụm từ thường được sử dụng trên web, và một tập các cụm từ Prisma cho tiếng anh gồm 10 triệu cụm từ, họ xác định các cụm từ Prisma xuất hiện trong tập kết quả của truy vấn gốc, lựa chọn những cụm từ phù hợp nhất với truy vấn gốc và sử dụng chúng như các đặc trưng cho truy vấn quảng cáo Trọng số tại các đặc trưng được tính

Trang 29

Trong thực nghiệm Andrei Z.Broder và các cộng sự [11] thiết lập 4 hệ thống khác nhau, với các tham số trộn giữa các loại đặc trưng là khác nhau trên mỗi hệ thống Sử dụng một tập 700 truy vấn, mỗi truy vấn được xây dựng như sau Bắt đầu với tập tất cả các truy vấn của Yahoo trong tuần từ 23-29, 2007 Chia 10 triệu truy vấn được tìm kiếm nhiều nhất thành các nhóm theo tần suất tìm kiếm, lựa chọn ngẫu nhiên 50 truy vấn từ mỗi nhóm Ngoài ra, lấy ngẫu nhiên 200 truy vấn trong số những truy vấn còn lại (không thuộc 10 triệu truy vấn nói trên) Với một truy vấn, tìm 3 quảng cáo đối với mỗi hệ thống ở trên, tiến hành 9000 cặp truy vấn-quảng cáo như vậy Một nhóm gồm 6 nhà phân tích, tất cả đều có khả năng tốt về tiếng Anh, tiến hành đánh giá và phân chia mỗi kết quả vào một trong các nhóm: Perfect, Certainly Attractive, Probably Attractive, Somewhat Attractive, Probably Not Attractive, and Certainly Not Attractive Để tính toán độ chính xác và độ hồi tưởng, họ coi 4 nhóm đầu tiên là phù hợp, và hai nhóm cuối là không phù hợp

Kết quả thực nghiệm thu được được so sánh với mô hình không sử dụng truy vấn mở rộng (chỉ sử dụng truy vấn ban đầu) và có độ chính xác vượt trội Độ chính xác của mô hình ở 4 hệ thống lần lượt là 35%, 40%, 42% và 45 % so với 16% của mô hình không sử dụng việc mở rộng truy vấn Hình 7 mô tả kiến trúc hệ thống của họ

Hình 7 Kiến trúc hệ thống quảng cáo sử dụng phản hồi liên quan [11]

Trang 30

Mô hình quảng cáo sử dụng phản hồi liên quan của Andrei Z.Broder và các cộng sự đã đưa ra được một phương pháp mở rộng câu truy vấn sử dụng các kết quả tìm kiếm Họ đã đề xuất một phương pháp xây dựng các đặc trưng dựa trên những tri thức mở rộng, mô hình này giúp những người quảng cáo không nhất thiết phải định nghĩa rõ ràng những từ khóa tương ứng với quảng cáo của họ

2.5 Mô hình ước lượng CTR (Click Through Rate)

Dựa trên việc sử dụng CTR để xếp hạng các quảng cáo, Matthew Richardson và các cộng sự [25] đã đưa ra một mô hình ước lượng CTR đối với những quảng cáo mới dựa trên những thông tin đã có từ trước Những quảng cáo với CTR cao sẽ được xếp hạng cao hơn so với những quảng cáo có CTR thấp

Matthew Richardson xem xét vấn đề ước lượng CTR với một tập các đặc trưng cho trước như một bài toán hồi quy và sử dụng hồi quy logic (logistic regression) với đầu ra là các xác suất tương ứng với các giá trị ước lượng nằm trong khoảng [0, 1] Các đặc trưng được sử dụng:

• Diện mạo quảng cáo: có bao nhiêu từ trong tiêu đề, trong nội dung, nội dung có gồm nhiều kí hiệu, dấu câu hay không, sử dụng các từ ngắn hay dài…

• Mức độ thu hút: tiêu đề, nội dung quảng cáo có chứa những từ mô tả hành động như “mua”, “tham gia”, “đăng ký” hay không…

• Danh tiếng: URL có kết thúc bởi com, net, org… hay không, độ dài URL ra sao, URL gồm nhiều đoạn hay ít đoạn, ví dụ: books.com sẽ tốt hơn so với books.something.com URL có chứa nhiều dấu sổ hay các con số hay không… • Chất lượng trang web quảng cáo trỏ tới: liệu trang web có chứa flash hay không,

những phần nào được bao bởi ảnh, có sử dụng stylesheet hay không, có nhiều quảng cáo trên trang web hay không

• Độ phù hợp: liệu từ khóa (bid-term) có xuất hiện trong tiêu đề, trong nội dung hay không, trong phần nào của nội dung…

Với 5 loại đặc trưng nói trên, họ sử dụng 81 đặc trưng Ngoài ra còn sử dụng các đặc trưng sau:

Trang 31

• Các từ xuất hiện trong tập quảng cáo: lấy ra 10000 từ phổ biến nhất trong tập quảng cáo, thêm một đặc trưng với giá trị 1 nếu từ xuất hiện trong quảng cáo đang xét, ngược lại là giá trị 0

• CTR: sử dụng CTR của những quảng cáo khác có chung từ khóa (keywords, bid term) Ngoài ra, số lượng các quảng cáo có cùng từ khóa với quảng cáo đang xét cũng được sử dụng như một đặc trưng

• Bên cạnh những quảng cáo có từ khóa chung, CTR của những quảng cáo có từ khóa liên quan cũng được sử dụng Ví dụ từ khóa “red shoes” và “buy red shoes” là những từ khóa có liên quan và CTR của quảng cáo ứng với “buy red shoes” có thể được sử dụng trong việc ước lượng CTR của quảng cáo ứng với “red shoes” Về dữ liệu, họ sử dụng một tập các quảng cáo của máy tìm kiếm MSN, mỗi quảng cáo có các thông tin như: URL, các từ khóa tương ứng với quảng cáo, tiêu đề, nội dung và đặc biệt là tổng số lần quảng cáo đã được click và tổng số lần quảng cáo đc xem kể từ khi được đưa vào hệ thống Tập dữ liệu được chia làm ba phần: 70% cho việc training, 10% cho việc kiểm định và 20% cho việc test

Trong thực nghiệm, họ sử dụng độ trung bình KL-divergence [20] được tính bởi kết quả ước lượng CTR của mô hình và CTR thực sự của quảng cáo trong tập test Xây dựng 1 số hệ thống với các đặc trưng khác nhau, tiến hành so sánh với mô hình ước lượng CTR chỉ sử dụng tập train một cách đơn giản (sử dụng một đặc trưng duy nhất CTR của chính quảng cáo), được gọi là baseline Kết quả thu được là khá tốt, mức độ cải tiến so với baseline từ 13.28% tới 19.67%

2.6 Mô hình tìm kiếm và xếp hạng sử dụng chủ đề ẩn trong quảng cáo theo ngữ cảnh

Dựa trên ý tưởng mở rộng nội dung trang web và quảng cáo sẽ hỗ trợ tốt hơn cho việc tìm kiếm và xếp hạng quảng cáo Lê Diệu Thu [27] đã đề xuất một hướng tiếp cận trong quảng cáo theo ngữ cảnh, tập trung vào phân tích chủ đề ẩn nhằm làm giàu nội dung trang web cũng như quảng cáo bằng những từ khóa mở rộng Để khái quát hóa ngữ cảnh của các trang web và quảng cáo, tác giả tiến hành xây dựng một mô hình phân tích chủ đề ẩn trên một tập dữ liệu lớn, từ đó phát hiện những chủ đề và các mối quan hệ giữa chủ đề với từ hay giữa từ với từ Mô hình này còn cho phép xác định phân bố xác suất của các

Trang 32

chủ đề trên từng trang web hay quảng cáo, từ đó làm giàu nội dung của chúng với những từ khóa của các chủ đề có liên quan

Lê Diệu Thu xây dựng một bộ dữ liệu với kích thước lớn, gọi là Universal Dataset, và sử dụng bộ dữ liệu này cho quá trình phân tích chủ đề ẩn Bộ dữ liệu được thu thập từ VnExpress [7], một trong những trang báo điện tử lớn nhất của Việt Nam, bao gồm các chủ đề khác nhau như: xã hội, tin tức thế giới, đời sống, văn hóa, thể thao, khoa học… Hơn 220 Megabyte dữ liệu gồm khoảng 40 nghìn trang web được thu thập sử dụng Nutch [37] và được tiền xử lý bằng cách loại bỏ các thẻ HTML, phân tách câu, tách từ, loại bỏ những từ không thích hợp Sau khi xử lý, thu được bộ dữ liệu 53 Megabyte với 40,268 tài liệu.Tiến hành phân tích chủ đề ẩn trên bộ dữ liệu thu được sử dụng GibbsLDA [16], một ứng dụng của mô hình LDA và Gibb Sampling

Để tiến hành thực nghiệm, tác giả sử dụng một tập 100 trang web và 2607 quảng cáo khác nhau Các trang web được lựa chọn ngẫu nhiên từ tập 27,763 trang web thu thập được từ báo điện tử VnExpress, các trang web được chọn từ các chủ đề: ẩm thực, mua bán, dược phẩm, nhà đất, thị trường chứng khoán, việc làm… Các quảng cáo được thu thập bằng cách sử dụng các tiêu đề, mô tả và từ khóa của các trang web trên danh bạ website Việt Nam [5]

Để đánh giá ảnh hưởng của các từ khóa trong tìm kiếm theo ngữ cảnh, Lê Diệu Thu cài đặt hai phương pháp tìm kiếm theo hướng tiếp cận của Ribeiro-Neto [24] Phương pháp thứ nhất gọi là AD, chỉ sử dụng tiêu đề và mô tả của quảng cáo trong tìm kiếm Phương pháp thứ hai là AD_KW, tìm kiếm quảng cáo sử dụng cả tiêu đề, mô tả của quảng cáo lẫn các từ khóa

Để đánh giá ảnh hưởng của chủ đề ẩn, tác giả tiến hành 6 thực nghiệm khác nhau Trong mỗi thực nghiệm, sử dụng một mô hình chủ đề ẩn khác nhau với các tham số khác nhau Các mô hình chủ đề ẩn được sử dụng lần lượt là mô hình với 60, 120 và 200 chủ đề Sau khi suy luận chủ đề ẩn cho tất cả các trang web và quảng cáo, tiến hành mở rộng tập từ vựng của chúng theo các chủ đề liên quan Kết quả thực nghiệm cho thấy, việc sử dụng chủ đề ẩn làm tăng độ chính xác của mô hình từ 64% lên 72%

Nghiên cứu của Lê Diệu Thu [27] đã đưa ra một mô hình nhằm giải quyết bài toán tìm kiếm và xếp hạng quảng cáo trong quảng cáo theo ngữ cảnh Chỉ ra những ảnh hưởng

Ngày đăng: 23/11/2012, 15:04

Hình ảnh liên quan

Bảng các từ viết tắt - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Bảng c.

ác từ viết tắt Xem tại trang 9 của tài liệu.
thông tin hình ảnh và trình duyệt web sẽ thực thi một số công việc khi người dùng click vào một quảng cáo [32] - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

th.

ông tin hình ảnh và trình duyệt web sẽ thực thi một số công việc khi người dùng click vào một quảng cáo [32] Xem tại trang 14 của tài liệu.
Hình 2. Phân loại doanh thu quảng cáo trực tuyến trong 6 tháng đầu năm 2007 và 2008 ở Mĩ [33]  - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Hình 2..

Phân loại doanh thu quảng cáo trực tuyến trong 6 tháng đầu năm 2007 và 2008 ở Mĩ [33] Xem tại trang 15 của tài liệu.
Hình 3. Quảng cáo trực tuyến tại một trang báo điện tử Việt Nam - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Hình 3..

Quảng cáo trực tuyến tại một trang báo điện tử Việt Nam Xem tại trang 17 của tài liệu.
nhiên, một vài công ty đã nắm bắt được điều này và họ đã đưa ranh ững mô hình thử - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

nhi.

ên, một vài công ty đã nắm bắt được điều này và họ đã đưa ranh ững mô hình thử Xem tại trang 18 của tài liệu.
Hình 4. Doanh thu từ quảng cáo trực tuyến của VnExpress và VietnamNet trong 3 năm 2004, 2005, 2006 [1] - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Hình 4..

Doanh thu từ quảng cáo trực tuyến của VnExpress và VietnamNet trong 3 năm 2004, 2005, 2006 [1] Xem tại trang 21 của tài liệu.
Hình 6 dưới đây mô tả kiến trúc cơ bản của một hệ thống quảng cáo thông qua tìm kiếm.  - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Hình 6.

dưới đây mô tả kiến trúc cơ bản của một hệ thống quảng cáo thông qua tìm kiếm. Xem tại trang 23 của tài liệu.
Hình 5. Mô tả nội dung một quảng cáo [36] - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Hình 5..

Mô tả nội dung một quảng cáo [36] Xem tại trang 23 của tài liệu.
Kết quả thực nghiệm thu được được so sánh với mô hình không sử dụng truy vấn mở rộng (chỉ sử dụng truy vấn ban đầu) và có độ chính xác vượt trội - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

t.

quả thực nghiệm thu được được so sánh với mô hình không sử dụng truy vấn mở rộng (chỉ sử dụng truy vấn ban đầu) và có độ chính xác vượt trội Xem tại trang 29 của tài liệu.
3.2.2 Mô hình sinh trong LDA - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

3.2.2.

Mô hình sinh trong LDA Xem tại trang 44 của tài liệu.
- multinomial sampling acc. (decrements from previous step): (zzw) - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

multinomial.

sampling acc. (decrements from previous step): (zzw) Xem tại trang 47 của tài liệu.
Với mô hình ước lượng LDA đã cho, có thể suy luận chủ đề cho các tài liệu mới bằng các thủ tục lấy mẫu tương tự - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

i.

mô hình ước lượng LDA đã cho, có thể suy luận chủ đề cho các tài liệu mới bằng các thủ tục lấy mẫu tương tự Xem tại trang 47 của tài liệu.
3.3.2 Mô hình tổng quan - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

3.3.2.

Mô hình tổng quan Xem tại trang 49 của tài liệu.
Bảng 3. Danh sách các phần mềm mã nguồn mở được sử dụng - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Bảng 3..

Danh sách các phần mềm mã nguồn mở được sử dụng Xem tại trang 53 của tài liệu.
Bảng 2C ấu hình phần cứng sử dụng trong thực nghiệm - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Bảng 2.

C ấu hình phần cứng sử dụng trong thực nghiệm Xem tại trang 53 của tài liệu.
Hình 13 .T - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Hình 13.

T Xem tại trang 58 của tài liệu.
Hình 12. Trrung bình ccác độ đo ttrên tất cả các truy vấấn - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Hình 12..

Trrung bình ccác độ đo ttrên tất cả các truy vấấn Xem tại trang 58 của tài liệu.
Hình 14 cho thấy trung bình độ đo MAP của RHT cao hơn so với hệ thống RTF. Giá trị cực đại đạt được là 0.79 tại số truy vấn 10 và cực tiểu là 0.75 tại số truy vấn 40 - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Hình 14.

cho thấy trung bình độ đo MAP của RHT cao hơn so với hệ thống RTF. Giá trị cực đại đạt được là 0.79 tại số truy vấn 10 và cực tiểu là 0.75 tại số truy vấn 40 Xem tại trang 59 của tài liệu.
Hình 14. Trung bình độ đo MAP tại các số lượng truy vấn khác nhau - Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng

Hình 14..

Trung bình độ đo MAP tại các số lượng truy vấn khác nhau Xem tại trang 59 của tài liệu.

Tài liệu liên quan