Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
613,71 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Đặng Hữu Hải
NGHIÊN CỨUXÂYDỰNGCÔNGCỤQUẢNGCÁOTHEONGỮCẢNH
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2013
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: ……………………………………………………………
(Ghi rõ học hàm, học vị)
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
1
MỞ ĐẦU
Với sự phát triển không ngừng của Internet, quảngcáo trực tuyến thực sự đã trở
thành “mỏ vàng” của các nhà sản xuất và cung cấp, các công ty muốn truyền thông sản
phẩm của mình. Vài năm gần đây đã bắt đầu xuất hiện một loại hình quảngcáo trực
tuyến mới : quảngcáotheongữ cảnh. Ở Việt Nam, mặc dù đã bắt đầu xuất hiện nhưng đa
phần quảngcáo trên các trang web vẫn là dạng quảngcáo “tĩnh”, chưa có tính chất
“động” của quảngcáotheongữ cảnh.
Các nhà quảngcáo đã nhận ra rằng quảngcảo dạng “tĩnh” sẽ kém hiệu quả hơn
rất nhiều các quảngcáo dạng “động” theongữ cảnh. Các nhà quảngcáo và các đơn vị có
nhu cầu quảngcáo mong muốn thông tin về sản phẩm đến với các đối tượng phù hợp, đó
là xu hướng quảngcáo mới trên thế giới: đưa quảngcáo đến với tập khách hàng có tiềm
năng nhất, là những người có khả năng sẽ mua sản phẩm cao nhất, việc này phải được
thực hiện một cách hoàn toàn tự động
Từ nhu cầu thực tế trên, luận văn tiến hành nghiêncứu lý thuyết và xâydựng thử
nghiệm một hệ thống máy quảngcáo (tạm gọi là AdSense) . AdSense cho phép phân phối
động các quảngcáo đến các trang web nhận đăng quảngcáo sao cho phù hợp với nội
dung của trang hiện tại.
Trong đề tài này, luận văn tìm hiểu và đề xuất hướng giải quyết cho 1 số vấn đề
như: bóc tách nội dung văn bản web, phân lớp văn bản vào các chủ đề cho trước…
Đề tài tập trung tìm hiểu thực trạng quảngcáo trực tuyến ở Việt Nam và trên thế
giới, trong đó đi sâu và hình thức quảngcáotheongữcảnh mới xuất hiện gần đây và các
phương pháp phân lớp, so sánh dữ liệu , để từ đó ứng dụngxâydựng 1 côngcụquảng
cáo theongữcảnh đơn giản.
Luận văn sẽ trình bày về vấn đề phân loại một văn bản web vào một trong các chủ
đề có sẵn, từ đó có cơ sở để xác định các quảngcáo phù hợp cho trang web.
Trong luận văn cũng có phần trình bày ứng dụng các nghiêncứu ở trên để xây
dựng thử nghiệm một hệ thống quảngcáo AdSense đơn giản và các kết quả đạt được.
2
Nội dung chính của luận văn được trình bày theo cấu trúc như sau:
Chương 1: Luận văn sẽ trình bày sơ lược về quảngcáo trực tuyến cũng như quảng
cáo theongữcảnh nội dung. Tiếp đến là phần sơ lược về hệ thống quảngcáotheongữ
cảnh AdSense mà luận văn sẽ xâydựng ở mức độ thử nghiệm.
Chương 2: Luận văn sẽ trình bày về vấn đề làm mịn nội dung văn bản web và giới
thiệu một số hướng tiếp cận vấn đề phân lớp văn bản, trên cơ sở đó sẽ xác định mô hình
được áp dụng trong Luận văn.
Chương 3: Luận văn sẽ đi vào phân tích và xâydựng thử nghiệm một hệ thống
quảng cáotheongữcảnh với những tính năng cơ bản nhất và đánh giá kết quả hoạt động
của hệ thống này dựa trên một tập dữ liệu đã thu thập được từ các bài báo trên Internet.
Phần cuối của luận văn sẽ là tổng kết đánh giá và hướng phát triển đề tài.
3
Chương 1 GIỚI THIỆU VỀ BÀI TOÁN QUẢNGCÁOTHEO
NGỮ CẢNH
1.1 Giới thiệu về quảngcáo trực tuyến
Tiềm năng của quảngcáo trực tuyến trên internet
Tỷ lệ người dân sử dụng internet để tìm kiếm thông tin về các sản phẩm họ quan
tâm ngày càng tăng theo xu hướng chung trên toàn cầu, các nghiêncứu gần đây cho thấy
Internet đã trở thành kênh truyền thông phổ biến thứ 2, chỉ sau truyền hình.
Quảng cáo trực tuyến
Quảng cáo trên Web khác hẳn quảngcáo trên các phương tiện thông tin đại chúng
khác, nó giúp người tiêu dùng có thể tương tác với quảng cáo. Khách hàng có thể nhấn
vào quảngcáo để lấy thông tin hoặc mua sản phẩm cùng mẫu mã trên quảngcáo đó, thậm
chí họ còn có thể mua cả sản phẩm từ các quảngcáo trực tuyến trên website.
1.2 Các đặc điểm của quảngcáo trực tuyến
Những ưu điểm của quảngcáo trực tuyến:
- Khả năng nhắm chọn
- Khả năng theo dõi
- Tính linh hoạt và khả năng phân phối
- Tính tương tác
Hạn chế của quảngcáo trực tuyến:
- Khác với các phương tiện quảngcáo khác, để tiếp cận được với quảngcáo trực
tuyến đối tượng tiềm năng của bạn phải có máy tính và máy tính phải được nối mạng
Internet.
- Người dùng phải có kỹ năng duyệt web.
- Ở các nước phát triển, việc tin tưởng vào quảngcáo và mua hàng trực tuyến đang
rất phổ biến, còn ở nước ta, đây mới chỉ là xu hướng và chỉ thực sự có hiệu lực cho một
số ngành nghề phù hợp.
- Các văn bản và chính sách đang trong quá trình hoàn thiện, còn nhiều kẽ hở cho
lừa đảo trực tuyến phát triển cũng làm giảm độ tin cậy của quảngcáo trực tuyến.
4
1.3 Những hình thức quảngcáo trực tuyến cơ bản
Quảng cáo trực tuyến tại Việt Nam hiện nay thường theo các hình thức sau:
- Thông qua các cỗ máy tìm kiếm.
- Đặt logo hoặc banner tại các website có lượng người truy cập lớn
- Thông qua hệ thống thư điện tử (email)
- Quảngcáo đa phương tiện
1.4 Tiếp cận quảngcáotheongữcảnh
Hệ thống quảngcáotheongữcảnh sẽ quét nội dung trên một trang web để tìm kiếm
các từ khoá và trả lại một danh sách những quảngcáo thích hợp có liên quan tới nội dung
đang được xem trên trang web đó.
1.5 Mô hình hệ thống quảngcáotheongữcảnh AdSense
Mô hình nghiệp vụ:
Hệ thống AdSense đóng vai trò như là nhà trung gian, tiếp nhận các quảngcáo từ
các nhà quảngcáo (tạm gọi là Subcriber) và thực hiện phân phối lại các quảngcáo này
trên mạng lưới các trang web thành viên của nó
Mô hình hoạt động
Hệ thống cho phép các nhà quảngcáo đăng ký các mẩu quảng cáo. Các mẩu quảng
cáo được đại diện bởi một số từ khóa do nhà quảngcáo tự xác định. Sau đó, các quảng
cáo này sẽ được hệ thống phân phối và hiển thị trên mạng lưới các trang web thành viên
đồng ý nhận đăng quảngcáo thông qua một đoạn mã nhúng javascript. Đoạn mã nhúng
này sẽ tự động phân tích nội dung hiện tại của trang web để tìm kiếm các từ khóa đại
diện, sau đó sẽ tiến hành tìm kiếm trong hệ thống để lấy ra các quảngcáo có các từ khóa
tương đồng. Sau cùng nó tải về danh sách các quảngcáo được tìm thấy và hiển thị lên
trang web thành viên.
5
Hình 1.3: Mô hình quảngcáo thông qua hệ thống trung gian AdSense
1.6 Kết luận chương
Trong chương này luận văn đã bước đầu giới thiệu và tìm hiểu về các đặc điểm cơ
bản của một hệ thống quảngcáo trực tuyến, đồng thời cũng nêu ra đề xuất về mô hình
cho một hệ thống quảngcáotheongữcảnh với tên gọi AdSense. Dựa trên các phác thảo
về mô hình nghiệp vụ và mô hình hoạt động của hệ thống AdSense này, luận văn sẽ đi
sâu vào phân tích về mặt lý thuyết các giải pháp kỹ thuật để hiện giải quyết các bài toán
thuộc phạm vi hệ thống, đồng thời sẽ phân tích thiết kế và xâydựng thử nghiệm một hệ
thống quảngcáo nhằm hiện thực hóa các nội dung lý thuyết ở trên.
6
Chương 2 PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN WEB
2.1 Giới thiệu về các phương pháp phân lớp văn bản
Hiện nay có nhiều thuật toán phân lớp văn bản, dưới đây là một số thuật toán tiêu
biểu:
+ SVM
+ K-means (KNN)
+ Naïve Bayes
2.2 Một số phương pháp xác định phần nội dung chính của văn bản web
Tại sao cần phải bóc tách nội dung chính? Khối lượng thông tin lưu trữ trên
Internet ngày càng tăng theo thời gian. Từ đây đã làm nảy sinh các nhu cầu nghiên cứu,
xử lý trên khối lượng dữ liệu thông tin này sao cho hiệu quả và nhanh chóng nhất.
2.3 Một số nghiêncứu gần đây về bóc tách nội dung trang web
2.3.1 Tiếp cận theo hướng loại bỏ các tag HTML
2.3.2 Tiếp cận theo hướng rút trích các Text node
2.3.3 Tiếp cận theo hướng so sánh khung mẫu
2.3.4 Tiếp cận theo hướng phân tích mã HTML và xử lý ngôn ngữ tự nhiên
2.3.5 Tiếp cận theo hướng phân đoạn trang web
2.4 Các hướng tiếp cận vấn đề phân lớp văn bản
2.4.1 Hướng tiếp cận dựa vào thống kê
Hướng tiếp cận này thường sử dụng thông tin thống kê tần số xuất hiện để từ đó
chọn ra các từ khóa (key word) quan trọng trong văn bản, các từ khóa này được sử dụng
để làm cơ sở cho việc dự đoán xem văn bản thuộc về lớp nào. Hướng tiếp cận này có ưu
điểm là có thể áp dụng dễ dàng cho nhiều ngôn ngữ.
Thông tin thống kê thường bao gồm 2 độ đo quan trọng: độ đo cục bộ và độ đo
toàn cục. Độ đo cục bộ là độ đo thống kê của một từ trong nội bộ văn bản cần phân lớp,
còn độ đo toàn cục là độ đo thống kê của từ đó trong một tập hợp nhiều văn bản khác
nhau cho trước.
7
2.4.2 Hướng tiếp cận dựa trên máy học
Theo cách tiếp cận này, một quá trình xử lý quy nạp chung (cũng được gọi là quá
trình học) xâydựng tự động một phân lớp cho một loại ci bằng quan sát các đặc trưng
của tập hợp các tài liệu đã được phân bằng tay vào ci hay
i
c
bởi chuyên gia về lĩnh vực
này, từ đó, quá trình qui nạp thu lượm các đặc trưng để phân lớp một tài liệu mới (không
nhìn thấy) vào ci.
Một số thuật toán dựa trên tiếp cận máy học được sử dụng phổ biến hiện nay gồm:
Cây quyết định, K-Nearest Neighbor, Support Vector Machine, thuật toán Naïve Bayes,
Neural Network.
2.5 Mô hình tiếp cận của luận văn
2.5.1 Cơ sở lý thuyết
a. Ba giai đoạn xâydựng hệ thống phân loại
Ta có thể nhận ra ba giai đoạn khác nhau trong việc thiết kế hệ thống phân loại văn
bản: biểu diễn tài liệu, xâydựng bộ phân loại, đánh giá bộ phân loại.
b. Các vấn đề mà hệ thống phân loại cần phải quan tâm và giải quyết
- Độ chính xác: Dựa vào phần trăm của văn bản đúng so với văn bản đưa
vào phân loại. Tỉ lệ càng cao thì hệ thống sẽ được đánh giá là tốt .
- Tốc độ:Một hệ thống có tốc độ phân loại nhanh nhưng độ chính xác thấp
hoặc hệ thống có tốc độ thấp nhưng độ chính xác cao thì không được cho là
hệ thống tốt vì vậy phải đảm bảo tính tốc độ và chính xác cho hệ thống.
- Dễ hiểu: Một hệ thống phân loại dễ hiểu sẽ tạo cho người sử dụng tin
tưởng hơn vào hệ thống, đồng thời cũng giúp cho người sử dụng tránh được
việc hiểu lầm kết quả của một luật được đưa ra bởi hệ thống.
- Thời gian để học: Yêu cầu hệ thống phải học rất nhanh một luật phân lớp
hoặc nhanh chóng điều chỉnh một luật đã được học cho phù hợp với thực tế.
8
2.5.2 Xác định ngữcảnhquảngcáo dựa trên việc phân lớp văn bản vào các
chủ đề cho trước
Sau khi có được kết quả phân lớp văn bản web, tức là đã biết được trang web đó
thuộc về chủ đề nào, ta tiến hành lấy ra các quảngcáo tương ứng với chủ đề đó và trả về
để hiển thị trên trang web.
Trong khuôn khổ luận văn, việc sắp xếp các quảngcáo vào các chủ đề tương ứng
được thực hiện thủ công bằng tay qua hệ thống quản trị, sau đó ở phía máy chủ xử lý làm
nhiệm vụ gửi quảngcáo về ta tiến hành lấy ngẫu nhiên 1 hoặc 1 nhóm các quảngcáo
thuộc chủ đề đó để hiển thị trên trang web.
Việc gửi về các đoạn quảngcáo và vị trí được thực hiện bởi 1 ngôn ngữ nào đó
như Javascript…
2.5.3 Áp dụng thuật toán Naïve Bayes trong phân lớp văn bản
Ý tưởng:
Ý tưởng cơ bản của cách tiếp cận Naïve Bayes là sử dụng xác suất có điều kiện giữa
từ và chủ đề để dự đoán xác suất chủ đề của một văn bản cần phân loại. Điểm quan trọng
của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong văn
bản đều độc lập với nhau. Giả định đó làm cho việc tính toán NB hiệu quả và nhanh
chóng hơn các phương pháp khác vì không sử dụng việc kết hợp các từ để đưa ra phán
đoán chủ đề. Kết quả dự đoán bị ảnh hưởng bởi kích thước tập dữ liệu, chất lượng của
không gian đặc trưng…
Cài đặt thuật toán:
Mô tả vector đặc trưng của văn bản: Là vector có số chiều là số đặc trưng trong toàn
tập dữ liệu, các đặc trưng này đôi một khác nhau. Nếu văn bản có chứa đặc trưng đó sẽ có
giá trị 1, ngược lại là 0.
Thuật toán gồm 2 giai đoạn huấn luyện và phân lớp:
Huấn luyện: tính
và
Đầu vào:
[...]... hệ quảngcáotheongữcảnh tiếng Việt 16 KẾT LUẬN Nhu cầu xây dựng một hệ thống quảngcáotheongữcảnh tiếng Việt nhằm khai thác các lợi ích từ quảngcáo trực tuyến là một trong những ưu tiên của các đơn vị kinh doanh quảngcáo và các đơn vị truyền thông ở nước ta hiện nay Trong đó vấn đề xác định phương pháp để xử lý ngữcảnh tiếng Việt là một phần quan trọng trong quá trình xâydựng hệ thống quảng. .. dựng hệ thống quảngcáotheongữcảnh Luận văn này tiếp cận các vấn đề nói trên, tiến hành tìm hiểu và đề xuất lựa chọn phương pháp xác định ngữcảnh dựa trên việc phân lớp nội dung văn bản Kết quả thu được Luận văn đã tìm hiểu và giới thiệu về một hệ thống quảngcáotheongữcảnh cơ bản, và đã đề xuất áp dụng phương pháp phân lớp văn bản để tạo ra các nội dungquảngcáo sát với ngữcảnh của trang web... quảngcáo trực tuyến theongữcảnh tiếng Việt như: làm mịn văn bản web, trích xuất nội dung chính, tách từ tiếng Việt, phương pháp phân lớp nội dung văn bản - Nghiêncứu lý thuyết về bài toán phân lớp văn bản sử dụng thuật toán phân lớp Naïve Bayes để làm cơ sở cho việc xác định ngữcảnh của một văn bản - Đồng thời luận văn cũng đưa ra mô hình và xây dựng thử nghiệm một hệ thống quảngcáotheongữ cảnh. .. trình xâydựng một hệ thống quảngcáo trực tuyến theongữcảnh là vấn đề bóc tách nội dung chính của trang web và vấn đề phân lớp văn bản cho nội dung trang web cũng đã được đề cập và nêu ra một số hướng tiếp cận dựa trên các kết quả nghiên cứu gần đây của các nhà nghiên cứu và các trường đại học Luận văn đã đạt được những kết quả sau: - Tìm hiểu những vấn đề cần quan tâm khi xây dựng một hệ thống quảng. .. 92.1% 3.5 Kết luận chương Với mục đích kiểm chứng các nghiêncứu và tìm hiểu về mặt lý thuyết ở các chương 1 và 2, trong chương 3 này luận văn đã xâydựng và hoàn thiện một hệ thống quảngcáotheongữcảnh ở mức độ thử nghiệm Quá trình xâydựng hệ thống đã làm rõ hơn các vấn đề lý thuyết ở chương 1 và chương 2, đồng thời đã chỉ ra cách giải quyết cụ thể một số vấn đề kỹ thuật nằm trong bài toán chung... hệ thống hoạt động được với ngữcảnh của một số ngôn ngữ phổ biến như tiếng Anh Hệ thống cũng bị hạn chế ở chỗ các nhà quảng cáo, những người bỏ tiền ra để quảngcáo cho sản phẩm của mình không biết được quảngcáo mà mình mua sẽ hiển thị ở những trang web nào, nhà quảngcáo cũng chưa thể chọn lựa danh sách các trang web mình muốn hiển thị quảngcáo ... thuyết và phương pháp đã nghiêncứu tìm hiểu ở trên Kết quả thử nghiệm ban đầu của hệ thống và đánh giá độ chính xác cũng như các yếu tố khác cho thấy hệ thống thử nghiệm mà luận văn xâydựng về cơ bản đáp ứng được các tiêu chí cho một hệ thống phân phối quảngcáo ở mức độ đơn giản 17 Trong khuôn khổ luận văn, với mục đích nghiêncứu và tìm hiểu nên luận văn chỉ dừng lại ở mức độ xâydựng thử nghiệm 1 hệ... trên ngữcảnh đơn giản, được đặt tên là AdSense Hệ thống có các chức năng chính sau: - Cho phép lưu trữ dữ liệu huấn luyện trong Database - Cho phép quản lý các nội dungquảngcáo - Có module nhúng để hiển thị nội dungquảngcáo trên các trang web đã đăng ký trước - Có khả năng bóc tách, làm mịn nội dung của các trang web - Có module xử lý việc tính toán và trả về quảngcáo phù hợp cho từng ngữ cảnh. .. SERVER Trang web nhận đăng quảngcáo Nội dung trang web Gửi yêu cầu Loại bỏ các thẻ HTML (dùng thư viện Jsoup) Nhận phản hồi và hiển thị Module nhúng Tập ngữ liệu đã gán nhãn (file txt, html) Loại bỏ chữ số và stopwords Tách từ tiếng Việt (dùng thư viện VnTokenizer) Tập dữ liệu huấn luyện (lưu trong CSDL) Và từ điển Phân lớp Naïve Bayes Nội dungquảngcáo phù hợp Các nội dungquảngcáo Hình 3.1: Tổng quan... VietnameseTokenizer - Tiếp theo, dữ liệu sau khi tách từ được đưa vào bộ phân loại sử dụng thuật toán Naïve Bayes để phân lớp cho văn bản - Dựa vào kết quả phân lớp, hệ thống lấy đó làm căn cứ để chọn ra nội dungquảngcáo phù hợp với nội dung văn bản Trong trường hợp văn bản không được phân vào một lớp nào, hệ thống sẽ đưa ra 1 quảngcáo mặc định - Ở bước cuối, hệ thống gửi phản hồi nội dungquảngcáo về cho trang .
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Đặng Hữu Hải
NGHIÊN CỨU XÂY DỰNG CÔNG CỤ QUẢNG CÁO THEO NGỮ CẢNH
Chuyên ngành:. thống thư điện tử (email)
- Quảng cáo đa phương tiện
1.4 Tiếp cận quảng cáo theo ngữ cảnh
Hệ thống quảng cáo theo ngữ cảnh sẽ quét nội dung trên một