Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
613,78 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Đặng Hữu Hải NGHIÊN CỨU XÂY DỰNG CÔNG CỤ QUẢNG CÁO THEO NGỮ CẢNH Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: …………………………………………………………… (Ghi rõ học hàm, học vị) Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Với phát triển không ngừng Internet, quảng cáo trực tuyến thực trở thành “mỏ vàng” nhà sản xuất cung cấp, công ty muốn truyền thông sản phẩm Vài năm gần bắt đầu xuất loại hình quảng cáo trực tuyến : quảng cáo theo ngữ cảnh Ở Việt Nam, bắt đầu xuất đa phần quảng cáo trang web dạng quảng cáo “tĩnh”, chưa có tính chất “động” quảng cáo theo ngữ cảnh Các nhà quảng cáo nhận quảng cảo dạng “tĩnh” hiệu nhiều quảng cáo dạng “động” theo ngữ cảnh Các nhà quảng cáo đơn vị có nhu cầu quảng cáo mong muốn thông tin sản phẩm đến với đối tượng phù hợp, xu hướng quảng cáo giới: đưa quảng cáo đến với tập khách hàng có tiềm nhất, người có khả mua sản phẩm cao nhất, việc phải thực cách hoàn toàn tự động Từ nhu cầu thực tế trên, luận văn tiến hành nghiên cứu lý thuyết xây dựng thử nghiệm hệ thống máy quảng cáo (tạm gọi AdSense) AdSense cho phép phân phối động quảng cáo đến trang web nhận đăng quảng cáo cho phù hợp với nội dung trang Trong đề tài này, luận văn tìm hiểu đề xuất hướng giải cho số vấn đề như: bóc tách nội dung văn web, phân lớp văn vào chủ đề cho trước… Đề tài tập trung tìm hiểu thực trạng quảng cáo trực tuyến Việt Nam giới, sâu hình thức quảng cáo theo ngữ cảnh xuất gần phương pháp phân lớp, so sánh liệu , để từ ứng dụng xây dựng công cụ quảng cáo theo ngữ cảnh đơn giản Luận văn trình bày vấn đề phân loại văn web vào chủ đề có sẵn, từ có sở để xác định quảng cáo phù hợp cho trang web Trong luận văn có phần trình bày ứng dụng nghiên cứu để xây dựng thử nghiệm hệ thống quảng cáo AdSense đơn giản kết đạt 2 Nội dung luận văn trình bày theo cấu trúc sau: Chương 1: Luận văn trình bày sơ lược quảng cáo trực tuyến quảng cáo theo ngữ cảnh nội dung Tiếp đến phần sơ lược hệ thống quảng cáo theo ngữ cảnh AdSense mà luận văn xây dựng mức độ thử nghiệm Chương 2: Luận văn trình bày vấn đề làm mịn nội dung văn web giới thiệu số hướng tiếp cận vấn đề phân lớp văn bản, sở xác định mơ hình áp dụng Luận văn Chương 3: Luận văn vào phân tích xây dựng thử nghiệm hệ thống quảng cáo theo ngữ cảnh với tính đánh giá kết hoạt động hệ thống dựa tập liệu thu thập từ báo Internet Phần cuối luận văn tổng kết đánh giá hướng phát triển đề tài 3 Chương GIỚI THIỆU VỀ BÀI TOÁN QUẢNG CÁO THEO NGỮ CẢNH 1.1 Giới thiệu quảng cáo trực tuyến Tiềm quảng cáo trực tuyến internet Tỷ lệ người dân sử dụng internet để tìm kiếm thơng tin sản phẩm họ quan tâm ngày tăng theo xu hướng chung toàn cầu, nghiên cứu gần cho thấy Internet trở thành kênh truyền thông phổ biến thứ 2, sau truyền hình Quảng cáo trực tuyến Quảng cáo Web khác hẳn quảng cáo phương tiện thơng tin đại chúng khác, giúp người tiêu dùng tương tác với quảng cáo Khách hàng nhấn vào quảng cáo để lấy thơng tin mua sản phẩm mẫu mã quảng cáo đó, chí họ cịn mua sản phẩm từ quảng cáo trực tuyến website 1.2 Các đặc điểm quảng cáo trực tuyến Những ưu điểm quảng cáo trực tuyến: - Khả nhắm chọn - Khả theo dõi - Tính linh hoạt khả phân phối - Tính tương tác Hạn chế quảng cáo trực tuyến: - Khác với phương tiện quảng cáo khác, để tiếp cận với quảng cáo trực tuyến đối tượng tiềm bạn phải có máy tính máy tính phải nối mạng Internet - Người dùng phải có kỹ duyệt web - Ở nước phát triển, việc tin tưởng vào quảng cáo mua hàng trực tuyến phổ biến, nước ta, xu hướng thực có hiệu lực cho số ngành nghề phù hợp - Các văn sách q trình hồn thiện, cịn nhiều kẽ hở cho lừa đảo trực tuyến phát triển làm giảm độ tin cậy quảng cáo trực tuyến 4 1.3 Những hình thức quảng cáo trực tuyến Quảng cáo trực tuyến Việt Nam thường theo hình thức sau: - Thơng qua cỗ máy tìm kiếm - Đặt logo banner website có lượng người truy cập lớn - Thông qua hệ thống thư điện tử (email) - Quảng cáo đa phương tiện 1.4 Tiếp cận quảng cáo theo ngữ cảnh Hệ thống quảng cáo theo ngữ cảnh quét nội dung trang web để tìm kiếm từ khoá trả lại danh sách quảng cáo thích hợp có liên quan tới nội dung xem trang web 1.5 Mơ hình hệ thống quảng cáo theo ngữ cảnh AdSense Mơ hình nghiệp vụ: Hệ thống AdSense đóng vai trị nhà trung gian, tiếp nhận quảng cáo từ nhà quảng cáo (tạm gọi Subcriber) thực phân phối lại quảng cáo mạng lưới trang web thành viên Mơ hình hoạt động Hệ thống cho phép nhà quảng cáo đăng ký mẩu quảng cáo Các mẩu quảng cáo đại diện số từ khóa nhà quảng cáo tự xác định Sau đó, quảng cáo hệ thống phân phối hiển thị mạng lưới trang web thành viên đồng ý nhận đăng quảng cáo thông qua đoạn mã nhúng javascript Đoạn mã nhúng tự động phân tích nội dung trang web để tìm kiếm từ khóa đại diện, sau tiến hành tìm kiếm hệ thống để lấy quảng cáo có từ khóa tương đồng Sau tải danh sách quảng cáo tìm thấy hiển thị lên trang web thành viên 5 Hình 1.3: Mơ hình quảng cáo thơng qua hệ thống trung gian AdSense 1.6 Kết luận chương Trong chương luận văn bước đầu giới thiệu tìm hiểu đặc điểm hệ thống quảng cáo trực tuyến, đồng thời nêu đề xuất mơ hình cho hệ thống quảng cáo theo ngữ cảnh với tên gọi AdSense Dựa phác thảo mơ hình nghiệp vụ mơ hình hoạt động hệ thống AdSense này, luận văn sâu vào phân tích mặt lý thuyết giải pháp kỹ thuật để giải toán thuộc phạm vi hệ thống, đồng thời phân tích thiết kế xây dựng thử nghiệm hệ thống quảng cáo nhằm thực hóa nội dung lý thuyết 6 Chương PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN WEB 2.1 Giới thiệu phương pháp phân lớp văn Hiện có nhiều thuật tốn phân lớp văn bản, số thuật toán tiêu biểu: + SVM + K-means (KNN) + Naïve Bayes 2.2 Một số phương pháp xác định phần nội dung văn web Tại cần phải bóc tách nội dung chính? Khối lượng thơng tin lưu trữ Internet ngày tăng theo thời gian Từ làm nảy sinh nhu cầu nghiên cứu, xử lý khối lượng liệu thông tin cho hiệu nhanh chóng 2.3 Một số nghiên cứu gần bóc tách nội dung trang web 2.3.1 Tiếp cận theo hướng loại bỏ tag HTML 2.3.2 Tiếp cận theo hướng rút trích Text node 2.3.3 Tiếp cận theo hướng so sánh khung mẫu 2.3.4 Tiếp cận theo hướng phân tích mã HTML xử lý ngôn ngữ tự nhiên 2.3.5 Tiếp cận theo hướng phân đoạn trang web 2.4 Các hướng tiếp cận vấn đề phân lớp văn 2.4.1 Hướng tiếp cận dựa vào thống kê Hướng tiếp cận thường sử dụng thông tin thống kê tần số xuất để từ chọn từ khóa (key word) quan trọng văn bản, từ khóa sử dụng để làm sở cho việc dự đoán xem văn thuộc lớp Hướng tiếp cận có ưu điểm áp dụng dễ dàng cho nhiều ngôn ngữ Thông tin thống kê thường bao gồm độ đo quan trọng: độ đo cục độ đo toàn cục Độ đo cục độ đo thống kê từ nội văn cần phân lớp, cịn độ đo tồn cục độ đo thống kê từ tập hợp nhiều văn khác cho trước 7 2.4.2 Hướng tiếp cận dựa máy học Theo cách tiếp cận này, trình xử lý quy nạp chung (cũng gọi trình học) xây dựng tự động phân lớp cho loại ci quan sát đặc trưng tập hợp tài liệu phân tay vào ci hay ci chuyên gia lĩnh vực này, từ đó, trình qui nạp thu lượm đặc trưng để phân lớp tài liệu (khơng nhìn thấy) vào ci Một số thuật toán dựa tiếp cận máy học sử dụng phổ biến gồm: Cây định, K-Nearest Neighbor, Support Vector Machine, thuật tốn Nạve Bayes, Neural Network 2.5 Mơ hình tiếp cận luận văn 2.5.1 Cơ sở lý thuyết a Ba giai đoạn xây dựng hệ thống phân loại Ta nhận ba giai đoạn khác việc thiết kế hệ thống phân loại văn bản: biểu diễn tài liệu, xây dựng phân loại, đánh giá phân loại b Các vấn đề mà hệ thống phân loại cần phải quan tâm giải - Độ xác: Dựa vào phần trăm văn so với văn đưa vào phân loại Tỉ lệ cao hệ thống đánh giá tốt - Tốc độ:Một hệ thống có tốc độ phân loại nhanh độ xác thấp hệ thống có tốc độ thấp độ xác cao khơng cho hệ thống tốt phải đảm bảo tính tốc độ xác cho hệ thống - Dễ hiểu: Một hệ thống phân loại dễ hiểu tạo cho người sử dụng tin tưởng vào hệ thống, đồng thời giúp cho người sử dụng tránh việc hiểu lầm kết luật đưa hệ thống - Thời gian để học: Yêu cầu hệ thống phải học nhanh luật phân lớp nhanh chóng điều chỉnh luật học cho phù hợp với thực tế 8 2.5.2 Xác định ngữ cảnh quảng cáo dựa việc phân lớp văn vào chủ đề cho trước Sau có kết phân lớp văn web, tức biết trang web thuộc chủ đề nào, ta tiến hành lấy quảng cáo tương ứng với chủ đề trả để hiển thị trang web Trong khuôn khổ luận văn, việc xếp quảng cáo vào chủ đề tương ứng thực thủ công tay qua hệ thống quản trị, sau phía máy chủ xử lý làm nhiệm vụ gửi quảng cáo ta tiến hành lấy ngẫu nhiên nhóm quảng cáo thuộc chủ đề để hiển thị trang web Việc gửi đoạn quảng cáo vị trí thực ngơn ngữ Javascript… 2.5.3 Áp dụng thuật tốn Nạve Bayes phân lớp văn Ý tưởng: Ý tưởng cách tiếp cận Naïve Bayes sử dụng xác suất có điều kiện từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Giả định làm cho việc tính tốn NB hiệu nhanh chóng phương pháp khác khơng sử dụng việc kết hợp từ để đưa phán đoán chủ đề Kết dự đốn bị ảnh hưởng kích thước tập liệu, chất lượng không gian đặc trưng… Cài đặt thuật tốn: Mơ tả vector đặc trưng văn bản: Là vector có số chiều số đặc trưng toàn tập liệu, đặc trưng đơi khác Nếu văn có chứa đặc trưng có giá trị 1, ngược lại Thuật toán gồm giai đoạn huấn luyện phân lớp: Huấn luyện: tính Đầu vào: Các vector đặc trưng văn tập huấn luyện (Ma trận MxN, với M số vector đặc trưng tập huấn luyện, N số đặc trưng vector) Tập nhãn/lớp cho vector đặc trưng tập huấn luyện Đầu ra: Các giá trị xác suất làm trơn Laplace[8] Công thức tính Trong đó: |docsi|: số văn tập huấn luyện thuộc phân lớp i |total docs|: số văn tập huấn luyện m số phân lớp Cài đặt: Khởi tạo mảng A, B có kích thước m Duyệt qua văn tập liệu, đếm số văn phân lớp lưu vào A Tính xác suất cho phân lớp theo công thức lưu vào mảng B Cơng thức tính làm trơn Laplace [4]: Trong đó: : Số văn trong phân lớp i có đặc trưng thứ k mang giá trị xk (hay số văn lớp i, có xuất hiện/khơng xuất đặc trưng k) Cài đặt: : Số văn tập huấn luyện thuộc phân lớp i Số giá trị có đặc trưng thứ k 10 Với vector đặc trưng mô tả bên trên, dk mang giá trị 2, tương ứng với xuất không xuất Do có giá trị, ta tính nhanh xác suất không xuất theo công thức Khởi tạo mảng chiều C, chiều có kích thước m (số phân lớp), chiều có kích thước N (số đặc trưng), chiều có kích (dk) để lưu giá trị Duyệt qua văn tập liệu, tiến hành thống kê số cần thiết để tính xác suất theo công thức lưu vào mảng C Phân lớp: Đầu vào: Vector đặc trưng văn cần phân lớp Các giá trị xác suất Đầu ra: Nhãn/lớp văn cần phân loại Cơng thức tính xác suất thuộc phân lớp i biết trước mẫu X Dựa vào vector đặc trưng văn cần phân lớp, áp dụng cơng thức tính xác suất thuộc phân lớp cho văn bản, chọn lớp có xác suất cao 2.6 Kết luận chương Trong chương luận văn giới thiệu số hướng tiếp cận cho tốn hệ thống quảng cáo thử nghiệm mà luận văn xây dựng, toán làm mịn văn web, toán tách từ tiếng Việt toán phân lớp văn Với toán luận văn đề xuất phương pháp mà hệ thống AdSense áp dụng để giải quyết, cụ thể: với toán làm mịn văn sử dụng thư viện dự án Jsoup, với toán tách từ tiếng Việt sử dụng lại kết dự án VnTokenizer Đại học quốc gia 11 HCM, cuối thuật toán phân lớp Bayes sử dụng để phân lớp văn giai đoạn cuối Chương THỬ NGHIỆM HỆ THỐNG QUẢNG CÁO TRỰC TUYẾN 3.1 Đặt toán Luận văn tiến hành xây dựng thử nghiệm hệ thống quảng cáo trực tuyến dựa ngữ cảnh đơn giản, đặt tên AdSense Hệ thống có chức sau: - Cho phép lưu trữ liệu huấn luyện Database - Cho phép quản lý nội dung quảng cáo - Có module nhúng để hiển thị nội dung quảng cáo trang web đăng ký trước - Có khả bóc tách, làm mịn nội dung trang web - Có module xử lý việc tính tốn trả quảng cáo phù hợp cho ngữ cảnh yêu cầu trang web gắn module nhúng 3.2 Kiến trúc tổng quan hệ thống Hệ thống thiết kế với module module phối hợp với để đảm bảo hoạt động luồng thông tin liệu trao đổi client server 12 CLIENT AdSense SERVER Trang web nhận đăng quảng cáo Nội dung trang web Gửi yêu cầu Loại bỏ thẻ HTML (dùng thư viện Jsoup) Nhận phản hồi hiển thị Module nhúng Tập ngữ liệu gán nhãn (file txt, html) Loại bỏ chữ số stopwords Tách từ tiếng Việt (dùng thư viện VnTokenizer) Tập liệu huấn luyện (lưu CSDL) Và từ điển Phân lớp Naïve Bayes Nội dung quảng cáo phù hợp Các nội dung quảng cáo Hình 3.1: Tổng quan hệ thống AdSense 3.3 Hoạt động hệ thống 3.3.1 Mô tả nguồn liệu đầu vào tập mẫu Dữ liệu đầu vào: Dữ liệu đưa vào hệ thống AdSense trình duyệt khách gửi lên dạng text thông qua đoạn mã Java script , liệu chưa loại bỏ thẻ HTML, từ tầm thường (stop-word) làm mịn; q trình bóc tách làm mịn server thực Tập liệu huấn luyện (tập mẫu) hệ thống: Tập liệu huấn luyện thu thập từ báo Báo điện tử Dantri.com.vn, Vnexpress.net, Vietnamnet.vn Với phân lớp lấy từ trang tin điện tử trên, luận văn lựa chọn lớp 1000 tin Sau tiến hành phân chia tập liệu sau: - Tập liệu huấn luyện ban đầu: lớp lấy 700 tin làm liệu huấn luyện mơ hình ban đầu - Tập liệu kiểm tra: lớp lấy 300 tin làm liệu kiểm tra 13 3.3.2 Mô tả tập chủ đề tập quảng cáo theo chủ đề Danh sách chủ đề đưa cho hệ thống mô tả bảng đây: Bảng 3.2: Danh sách chủ đề phân lớp ID Tên chủ đề Nguồn Kích cỡ tập Kích cỡ tập liệu liệu huấn luyện kiểm thử (dvt: (dvt: viết) viết) Giáo dục Dantri.com.vn 700 300 Công nghệ Vnexpress.net 700 300 Giải trí Vtc.vn 700 300 Kinh tế Vietnamnet.vn 700 300 Thể thao Dantri.com.vn 700 300 3.3.3 Cách thức hoạt động hệ thống Các bước trình hoạt động hệ thống sau: - Khi trang web có nhúng đoạn mã Javascript hệ thống cung cấp mở ra, đoạn mã nhúng gửi toàn nội dung trang web (là mã nguồn trang web đó) lên server - Trên server tiếp nhận nội dung trang web gửi lên việc làm mịn liệu Ở bước có giai đoạn loại bỏ thẻ HTML loại bỏ chữ số, từ tầm thường (stop word) o Việc loại bỏ thẻ HTML thực cách tạo mẫu lọc để lọc thẻ thuộc tính thẻ HTML khỏi văn bản, sử dụng thư viện có sẵn hỗ trợ việc này; luận văn hệ thống sử dụng lại chức loại bỏ thẻ HTML thư viện Jsoup o Giai đoạn loại bỏ chữ số vô nghĩa từ tầm thường khỏi văn bản, danh sách từ tầm thường mà luận văn đề xuất xin xem phụ lục, tiếng Việt chưa có danh sách từ tầm thường (stop 14 word) chuẩn nên việc định nghĩa từ tầm thường luận văn tương đối luận văn tự thiết kế - Bước trình xử lý liệu việc tách từ tiếng Việt, khác với tiếng Anh, tiếng Việt có cấu trúc từ ghép, cum từ, việc tách từ tiếng Việt từ văn u cầu phải có thuật tốn kết hợp với từ điển tốt Luận văn sử dụng lại API dự án tách từ tiếng Việt VietnameseTokenizer - Tiếp theo, liệu sau tách từ đưa vào phân loại sử dụng thuật tốn Nạve Bayes để phân lớp cho văn - Dựa vào kết phân lớp, hệ thống lấy làm để chọn nội dung quảng cáo phù hợp với nội dung văn Trong trường hợp văn không phân vào lớp nào, hệ thống đưa quảng cáo mặc định - Ở bước cuối, hệ thống gửi phản hồi nội dung quảng cáo cho trang web để hiển thị Đoạn mã javascript module nhúng đảm nhận việc hiển thị nội dung lên trang web mở cửa sổ khách hàng click vào quảng cáo 3.4 Kết thử nghiệm Để kiểm tra tính hiệu thuật tốn Naïve Bayes đề xuất trên, làm thí nghiệm: Thí nghiệm 1: Kiểm thử với liệu thuộc lớp chủ đề Thí nghiệm 2: Kiểm thử liệu không thuộc lớp hệ thống Bảng 3.3: Kết thử nghiệm với liệu thuộc lớp chủ dề Lớp Số tài liệu Số tài liệu bị phân Tỷ lệ chủ đề phân vào sai lớp so với phân lớp lớp tay 232 28 90.6% 291 97% 274 26 91.3% 15 261 39 87% 284 16 94.6% Kết trung bình Số tài liệu khơng phân lớp: 62 4.1% Số tài liệu bị phân sai lớp: 118 7.87% Độ xác trung bình: 92.1% 3.5 Kết luận chương Với mục đích kiểm chứng nghiên cứu tìm hiểu mặt lý thuyết chương 2, chương luận văn xây dựng hoàn thiện hệ thống quảng cáo theo ngữ cảnh mức độ thử nghiệm Quá trình xây dựng hệ thống làm rõ vấn đề lý thuyết chương chương 2, đồng thời cách giải cụ thể số vấn đề kỹ thuật nằm toán chung hệ thống Kết thử nghiệm hệ thống cho thấy hệ thống hoạt động với mong muốn đáp ứng số yêu cầu hệ quảng cáo theo ngữ cảnh tiếng Việt 16 KẾT LUẬN Nhu cầu xây dựng hệ thống quảng cáo theo ngữ cảnh tiếng Việt nhằm khai thác lợi ích từ quảng cáo trực tuyến ưu tiên đơn vị kinh doanh quảng cáo đơn vị truyền thông nước ta Trong vấn đề xác định phương pháp để xử lý ngữ cảnh tiếng Việt phần quan trọng trình xây dựng hệ thống quảng cáo theo ngữ cảnh Luận văn tiếp cận vấn đề nói trên, tiến hành tìm hiểu đề xuất lựa chọn phương pháp xác định ngữ cảnh dựa việc phân lớp nội dung văn Kết thu Luận văn tìm hiểu giới thiệu hệ thống quảng cáo theo ngữ cảnh bản, đề xuất áp dụng phương pháp phân lớp văn để tạo nội dung quảng cáo sát với ngữ cảnh trang web Hai vấn đề gặp phải q trình xây dựng hệ thống quảng cáo trực tuyến theo ngữ cảnh vấn đề bóc tách nội dung trang web vấn đề phân lớp văn cho nội dung trang web đề cập nêu số hướng tiếp cận dựa kết nghiên cứu gần nhà nghiên cứu trường đại học Luận văn đạt kết sau: - Tìm hiểu vấn đề cần quan tâm xây dựng hệ thống quảng cáo trực tuyến theo ngữ cảnh tiếng Việt như: làm mịn văn web, trích xuất nội dung chính, tách từ tiếng Việt, phương pháp phân lớp nội dung văn - Nghiên cứu lý thuyết toán phân lớp văn sử dụng thuật tốn phân lớp Nạve Bayes để làm sở cho việc xác định ngữ cảnh văn - Đồng thời luận văn đưa mơ hình xây dựng thử nghiệm hệ thống quảng cáo theo ngữ cảnh tiếng Việt dựa sở lý thuyết phương pháp nghiên cứu tìm hiểu Kết thử nghiệm ban đầu hệ thống đánh giá độ xác yếu tố khác cho thấy hệ thống thử nghiệm mà luận văn xây dựng đáp ứng tiêu chí cho hệ thống phân phối quảng cáo mức độ đơn giản 17 Trong khn khổ luận văn, với mục đích nghiên cứu tìm hiểu nên luận văn dừng lại mức độ xây dựng thử nghiệm hệ thống đơn giản với tính tối thiểu, nhiên phát triển thành hệ thống mang tính thương mại Hướng phát triển Bên cạnh kết đạt luận văn cịn nhiều điểm phải nâng cấp, phát triển, đặc biệt việc tối ưu thuật toán thay đổi thiết kế chi tiết hệ thống, thay đổi công nghệ tầng hệ thống nhằm giúp hệ thống chạy nhanh ổn định, tính tin cậy cao Do cịn nhiều mặt hạn chế chủ quan học viên nên luận văn dừng lại mức thử nghiệm tập liệu tự thu thập Để tạo thành sản phẩm có tính thương mại, cịn nhiều vấn đề phải bổ sung khắc phục, quan trọng việc tối ưu hiệu thuật tốn bổ sung phân tích chức thiết yếu khác hệ thống như: quản lý chống gian lận lượt click, lượt hiển thị quảng cáo, thống kê doanh thu quảng cáo cho đại lý… Các module hệ thống AdSense cần tối ưu bổ sung thêm số kỹ thuật nâng cao như: loại bỏ từ đồng nghĩa dư thừa, toán tự động thêm dấu cho đoạn văn tiếng Việt gõ khơng dấu Ngồi cần phát triển hệ thống để tự động phát ngôn ngữ, bổ sung thêm để hệ thống hoạt động với ngữ cảnh số ngôn ngữ phổ biến tiếng Anh Hệ thống bị hạn chế chỗ nhà quảng cáo, người bỏ tiền để quảng cáo cho sản phẩm khơng biết quảng cáo mà mua hiển thị trang web nào, nhà quảng cáo chưa thể chọn lựa danh sách trang web muốn hiển thị quảng cáo ... đa phần quảng cáo trang web dạng quảng cáo “tĩnh”, chưa có tính chất “động” quảng cáo theo ngữ cảnh Các nhà quảng cáo nhận quảng cảo dạng “tĩnh” hiệu nhiều quảng cáo dạng “động” theo ngữ cảnh Các... thực trạng quảng cáo trực tuyến Việt Nam giới, sâu hình thức quảng cáo theo ngữ cảnh xuất gần phương pháp phân lớp, so sánh liệu , để từ ứng dụng xây dựng cơng cụ quảng cáo theo ngữ cảnh đơn giản... 1: Luận văn trình bày sơ lược quảng cáo trực tuyến quảng cáo theo ngữ cảnh nội dung Tiếp đến phần sơ lược hệ thống quảng cáo theo ngữ cảnh AdSense mà luận văn xây dựng mức độ thử nghiệm Chương