Quảng cáo trực tuyến trở thành xu thế mới đối với hoạt động kinh doanh Các doanh nghiệp khai thác tối đa thế mạnh của Internet để đưa sản phẩm nhanh chóng tiếp cận với người tiêu dùng Tuy nhiên thông tin đến với người tiêu dùng thường thiếu chọn lọc Việc xây dựng hệ thống quảng cáo trực tuyến theo ngữ cảnh sẽ cung cấp giải pháp khả thi giải quyết vấn đề trên Hệ thống quảng cáo trực tuyến theo ngữ cảnh đã được xây dựng thông qua việc nghiên cứu áp dụng phương pháp tự động xác định phần nội dung chính của một trang web bằng mô hình có mịn hóa histogram với gom cụm nghiên cứu kỹ thuật rút trích từ khóa bằng cách xác định độ quan trọng của từ dựa trên cách kết hợp độ phân bố cục bộ χ2 và độ đo toàn cục IDF trên văn bản tiếng Việt xây dựng một hệ thống thử nghiệm Adcenter dựa trên 3 module chính và các module này phối hợp với nhau để đảm bảo hoạt động của luồng thông tin và dữ liệu trao đổi giữa client và server Kết quả hệ thống được xây dựng gồm Giao diện Subcriber Giao diện Webmaster và Hệ thống phân phối quảng cáo Tiến hành cài đặt thử nghiệm trên phạm vi đề xuất và đánh giá kết quả theo các tiêu chí kết quả hệ thống hoạt động đúng với mong muốn và đáp ứng được yêu cầu cơ bản của một hệ quảng cáo theo ngữ cảnh tiếng Việt
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN MINH TRÍ XÂY DỰNG GIẢI PHÁP QUẢNG CÁO TRỰC TUYẾN THEO NGỮ CẢNH TIẾNG VIỆT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN MINH TRÍ XÂY DỰNG GIẢI PHÁP QUẢNG CÁO TRỰC TUYẾN THEO NGỮ CẢNH TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS HUỲNH CÔNG PHÁP Đà Nẵng - Năm 2017 i LỜI CAM ĐOAN Tác giả cam đoan cơng trình nghiên cứu tác giả Các kết nghiên cứu kết luận thực nghiên cứu thực tế, khơng chép Việc trích dẫn nguồn gốc tài liệu ghi tài liệu tham khảo thực theo qui định Tác giả luận văn Nguyễn Minh Trí ii TĨM TẮT LUẬN VĂN XÂY DỰNG GIẢI PHÁP QUẢNG CÁO TRỰC TUYẾN THEO NGỮ CẢNH TIẾNG VIỆT Quảng cáo trực tuyến trở thành xu hoạt động kinh doanh Các doanh nghiệp khai thác tối đa mạnh Internet để đưa sản phẩm nhanh chóng tiếp cận với người tiêu dùng Tuy nhiên, thông tin đến với người tiêu dùng thường thiếu chọn lọc Việc xây dựng hệ thống quảng cáo trực tuyến theo ngữ cảnh cung cấp giải pháp khả thi giải vấn đề Hệ thống quảng cáo trực tuyến theo ngữ cảnh xây dựng thông qua việc nghiên cứu, áp dụng phương pháp tự động xác định phần nội dung trang web mơ hình có mịn hóa histogram với gom cụm; nghiên cứu kỹ thuật rút trích từ khóa cách xác định độ quan trọng từ dựa cách kết hợp độ phân bố cục χ2 độ đo toàn cục IDF văn tiếng Việt; xây dựng hệ thống thử nghiệm Adcenter dựa module module phối hợp với để đảm bảo hoạt động luồng thông tin liệu trao đổi client server Kết hệ thống xây dựng gồm: Giao diện Subcriber, Giao diện Webmaster Hệ thống phân phối quảng cáo Tiến hành cài đặt thử nghiệm phạm vi đề xuất đánh giá kết theo tiêu chí, kết quả: hệ thống hoạt động với mong muốn đáp ứng yêu cầu hệ quảng cáo theo ngữ cảnh tiếng Việt Từ khóa – quảng cáo trực tuyến, quảng cáo theo ngữ cảnh, adcenter, rút trích nội dung trang web, rút trích từ khóa Resolution of contextual advertising that using Vietnamese on the Internet Internet advertising has become a new trend in business Enterprises exploit the strengths of the Internet to bring products quickly to reach consumers However, the information on internet that reaches to consumer often lack selection Building a contextual online advertising system will provide a viable to solve this problem The contextual online advertising system has been developed by researching and application of a method of automatically identifying the main content of a web page using a histogram model with clustering; Studying the technique of keyword extraction by determining the importance of the word based on the combination of local distribution χ2 and global IDF on the Vietnamese text; from this building an Adcenter testing system based on three main modules and modules that work together to ensure the flow of information and data exchanged between the client and the server The system that was built include: Subcriber Interface, Webmaster Interface and Ad Distribution System Conduct test installation on the proposed scope and evaluate the results according to the criteria and results: the system works properly and meets the basic requirements of a Vietnamese contextual advertising system Key words – internet advertising, contextual advertising, adcenter, web scraping, keyword extraction iii MỤC LỤC LỜI CAM ĐOAN .i TÓM TẮT LUẬN VĂN ii MỤC LỤC iii DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH .vi MỞ ĐẦU 1 Lí chọn đề tài Mục tiêu Đối tượng nghiên cứu Phạm vi nghiên cứu Phương pháp nghiên cứu Ý nghĩa CHƯƠNG TỔNG QUAN VỀ QUẢNG CÁO THEO NGỮ CẢNH 1.1 Giới thiệu quảng cáo .4 1.2 Quảng cáo trực tuyến 1.2.1 Các đặc điểm quảng cáo trực tuyến 1.2.2 Những hình thức quảng cáo trực tuyến 1.3 Tiếp cận quảng cáo theo ngữ cảnh 10 1.4 Mơ hình hệ thống quảng cáo theo ngữ cảnh AdCenter 11 CHƯƠNG THIẾT KẾ VÀ TỔ CHỨC NGHIÊN CỨU 15 2.1 Các kỹ thuật xác định phần nội dung trang web 15 2.1.1 Đặt vấn đề 15 2.1.2 Mơ hình đề xuất luận văn: 16 2.1.3 Phân tích nội dung trang web dạng lược đồ Histogram 16 2.1.4 Phương pháp mịn hóa Histogram 25 2.1.5 Kỹ thuật gom nhóm Histogram 28 2.1.6 Kết thử nghiệm 29 2.2 Phương pháp trích xuất từ khóa tự động trang web Tiếng Việt 32 2.2.1 Đặt vấn đề 32 2.2.2 Một số nghiên cứu có liên quan .33 2.2.2.1 Hướng tiếp cận dựa máy học 33 2.2.2.2 Hướng tiếp cận dựa vào thống kê .33 2.2.3 Mơ hình tiếp cận luận văn 34 2.2.3.1 Tiền xử lý 35 2.2.3.2 Độ đo cục chi-bình phương χ2 .37 2.2.3.3 Chọn gom nhóm từ khóa phổ biến 37 2.2.3.4 Tính độ phân bố (χ2) từ: 39 iv 2.2.4 Độ đo toàn cục IDF 40 2.2.5 Độ đo kết hợp 40 2.2.6 Kết thử nghiệm 40 CHƯƠNG THỬ NGHIỆM HỆ THỐNG QUẢNG CÁO TRỰC TUYẾN 42 3.1 Đặt vấn đề 42 3.2 Thiết kế hệ thống 42 3.3 Hoạt động hệ thống 43 3.4 Kết luận chương 47 KẾT LUẬN 48 HƯỚNG PHÁT TRIỂN 48 TÀI LIỆU THAM KHẢO 50 PHỤ LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN v DANH MỤC CÁC BẢNG Số bảng 2.1 2.2 2.3 2.4 2.5 Tên bảng Kết thử nghiệm bóc tách nội dung phân đoạn trang web với phép thử khác So sánh kết với phương pháp khác Danh sách từ tách với tỷ lệ số lần xuất chúng văn Độ đo χ2 từ Kết thử nghiệm rút trích từ khóa tự động so sánh với Trang 31 31 36 39 41 vi DANH MỤC CÁC HÌNH Số hiệu hình 1.1 1.2 1.3 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.1 3.2 3.3 3.4 3.5 3.6 Tên hình Trang Ứng dụng quảng cáo theo nội dung ngữ cảnh Mơ hình quảng cáo truyền thống Mơ hình quảng cáo thông qua hệ thống trung gian AdCenter Node chứa nội dung văn Thuật tốn VIPS, phân đoạn trang web dựa cấu trúc DOM Ước lượng độ quan trọng khối phân đoạn Trang web dantri.com.vn dùng để minh họa việc xác định nội dung Lược đồ trang web http://dantri.com.vn/suc-khoe/nhieutruong-mam-non-bi-dich-tay-chan-mieng-tan-cong Thuật tốn lọc trung bình Lược đồ sau xử lý lọc trung bình So sánh lược đồ trước (a) sau (b) mịn hóa lọc trung bình Lược đồ nhìn lại dạng điểm Phân đoạn trang web cách gom nhóm node có tỷ trọng trội gần Trong hình cụm thể màu khác Tổng quan hệ thống AdCenter Nhà quảng cáo đăng nhập để đăng ký quảng cáo Hệ thống dành cho WebMaster để lấy mã nhúng tùy chỉnh giao diện quảng cáo Hệ thống dành cho WebMaster để lấy mã nhúng tùy chỉnh giao diện quảng cáo Quảng cáo AdCenter xuất trang web(A) Tuổi Trẻ Quảng cáo Subcriber xuất trang web Master 10 12 13 18 19 21 24 24 26 26 27 29 42 44 44 45 46 46 MỞ ĐẦU Lí chọn đề tài: Cơng nghệ thơng tin ngày phát triển, ảnh hưởng mạnh mẽ đến tất lĩnh vực đời sống xã hội Cùng với bùng nổ giới g nghệ xu hướng tiếp cận khai thác thông tin phát triển theo hướng đại, khai thác hiệu mạnh khoa học công nghệ Các cách tiếp cận từ sách, báo, tạp chí, phát thanh, truyền hình… dần thay đổi sang hình thức mới, phong phú hơn, đa dạng Internet Sự xuất internet tạo điều kiện cho khoảng cách giới ngày thu hẹp lại, xu hướng kết nối cộng đồng chia sẻ thơng tin ngày hình thành rõ rệt Internet chứng tỏ sức hút mạnh mẽ nhiều lĩnh vực đời sống xã hội từ văn hóa, y học, giáo dục, kinh tế… Internet khơng cịn khái niệm xa lạ xa xỉ hầu hết chục năm trước Theo số liệu thống kê, tốc độ tăng trưởng người dùng internet từ năm 2009- 2017 số tăng gần gấp đôi, từ 27% lên đến 52 % dân số ( Đinh Lê Đạt – chuyên gia Big Data in Advertising, Data-Driven Marketing, AdTechVietnam Evangelist, 2015) Số lượng người dùng internet ngày tăng, kéo theo thay đổi xu hướng mua sắm hàng hóa, dịch vụ thay đổi theo chiều hướng khác Bắt kịp xu thay đổi hành vi người dùng, trước ta thường hay đọc quảng cáo sách báo, tạp chí Gần ta xem quảng cáo truyền hình nghe sóng phát Và ngày nay, với Internet băng thông rộng, quảng cáo dần thay đổi, người tiêu dùng có xu hướng chuyển sang xem quảng cáo trực tuyến Chiến lược tiếp thị công ty, doanh nghiệp dần thay đổi để quảng bá sản phẩm đến người tiêu dùng hiệu nhờ Inetrnet Việc thay đổi cách thức truyền thông nhằm tác động đến quyền chọn mua sản phẩm người tiêu dùng ngày ý đầu tư khai thác Hiệu từ internet mang lại tính riêng lĩnh vực kinh doanh, góp phần tăng doanh thu hiệu Theo thống kê Cục Quảng cáo tương tác (IAB), doanh thu quảng cáo trực tuyến Mĩ đạt $16.9 tỉ năm 2006 Năm 2016 doanh thu $72.5 tỉ , tăng lần vòng thập kỷ Chính lẽ mà bên cạnh kênh quảng cáo truyền thống, quảng cáo ngày dần chuyển phần sang kênh thông tin trực tuyến Tại Việt Nam, doanh thu quảng cáo trực tuyến tăng liên tục từ 2010- 2015 Cụ thể: năm 2010 $26.1 triệu, đến năm 2015 $329 triệu Chứng tỏ sức hút mạnh mẽ quảng cáo trực tuyến doanh nghiệp Hình thức quảng cáo trực tuyến ngày thể tính ưu việt kinh doanh Tại thị trường Việt Nam, Vaughan Ryan - CEO Nielsen Vietnam, xác định xu tiêu dùng 2016: khả tự chủ mua sắm, mua sắm cho thân, vận động nhu cầu kết nối internet cao (Hội nghị CEO thường niên “Kinh Tế Việt Nam – Triển Vọng Năm 2016”, 11/2015) Như vậy, xu hướng tiêu dùng Việt Nam theo hướng tiếp cận với mua sắm trực tuyến Vì vậy, lĩnh vực thương mại điện tử nói chung xét riêng quảng cáo trực tuyến chuyển biến theo hướng tích cực, khai thác đầu tư Tuy nhiên, câu hỏi đặt ra: quảng cáo trực tuyến Việt Nam đầu tư mức, có nhiều tiện ích tương xứng với kỳ vọng người tiêu dùng chưa? Hay quanh quẩn quảng cáo phân phối trang web dạng hình ảnh, banner Chính tính phổ biến chia sẻ internet, thông tin sản phẩm đến với người dùng đa dạng thiếu chọn lọc Các quảng cáo dạng hình ảnh, banner hoàn toàn “tĩnh”, nghĩa cho dù bạn vào trang web vào lúc nữa, bạn có thích chúng hay khơng, bạn ln thấy chúng (nếu chưa bị gỡ xuống), cho dù nội dung trang web có thay đổi Quảng cáo dạng khơng hiệu thơng tin đến khách hàng bị nhiễu, không tập trung Mục tiêu nhà quảng cáo quảng cáo sản phẩm đến khách hàng mong muốn Ví dụ muốn quảng cáo xe máy nên đăng quảng cáo trang web liên quan đến mua bán ô tô xe cộ Điều giúp nhà quảng cáo hướng đến phân khúc đối tượng người dùng hơn, tránh quảng cáo tràn lan, không hiệu Nếu quảng cáo đặt hợp lý hiệu quảng cáo cao chi phí giảm đáng kể Bên cạnh đó, người dùng cảm thấy thích quảng cáo chúng liên quan đến nội dung mà họ tìm kiếm Vì vậy, việc xác định khách hàng mục tiêu chiến lược quảng cáo quan trọng Hình thức quảng cáo theo ngữ cảnh giải pháp hiệu quá, góp phần định vị sản phẩm doanh nghiệp Đây phương pháp quảng cáo “động” theo nội dung ngữ cảnh, xu hướng quảng cáo giới Từ nhu cầu thực tế trên, luận văn tiến hành thực xây dựng thử nghiệm hệ thống máy quảng cáo AdCenter cho phép phân phối “động” quảng cáo trực tuyến mạng Internet Các trang web nhận đăng quảng cáo AdCenter có quảng cáo tự động thay đổi cho phù hợp với nội dung Mục tiêu: - Tìm hiểu quảng cáo trực tuyến, cơng cụ quảng cáo trực tuyến, quảng cáo theo ngữ cảnh - Tìm hiểu kỹ thuật rút trích văn trang web - Tìm hiểu kỹ thuật rút trích từ khóa - Xây dựng thử nghiệm hệ thống công cụ quảng cáo theo ngữ cảnh Đối tượng nghiên cứu: quảng cáo trực tuyến, phương pháp đọc bóc tách nội dung trang web, phương pháp rút trích từ khóa, quảng cáo theo ngữ cảnh 49 thuật tốn gom cụm khác khơng cần rõ trước số cụm EM (Expectation Maximization), … để xem kết có cải thiện khơng Thuật tốn rút trích từ khóa cần kết hợp thêm độ đo trọng lượng từ văn (như độ đo Luhn [9],…) để cải thiện chất lượng từ khóa thu Ngồi số lượng từ khóa rút trích nên phù thuộc cách hợp lý với độ dài tài liệu Các mô-đun hệ thống AdCenter góc độ dừng lại mức thử nghiệm, cần cải thiện thêm tốc độ xử lý thêm nhiều chức khác cho hồn thiện Bên cạnh đó, việc so khớp độ tương đồng từ khóa với dừng cấp độ so sánh trực tiếp, cần cải thiện độ xác việc so khớp từ khóa cách thêm vào tính so sánh từ khóa theo ngữ nghĩa Với N tổng số tài liệu tập tài liệu n(qi) số tài liệu có chứa qi Ngồi ra, sử dụng từ điển đồng nghĩa xây dựng từ điển Wordnet cho tiếng Việt để mở rộng ngữ nghĩa cho từ Hệ thống cần mở rộng để hỗ trợ thêm cho tiếng Anh thứ tiếng khác cách tự động xác định loại ngôn ngữ văn để đưa hướng xử lý phù hợp 50 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Tim Weninger and William H Hsu (2008), “Text Extraction from the Web via Text-to-Tag Ratio”, 2008 19th International Conference on Database and Expert Systems Application, pp 23 – 28 [2] Ying Li, Arun C.Surendran, and Dou Shen (2007), “Data Mining and Audience Intelligence for Advertising”, Microsoft adCenter Lab, Redmond, WA 98074 USA [3] Y.MATSUO (2003), “Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information”, National Institute of Advanced Industrial Science and Technology [4] Hoang Kiem, Do Phuc (2005), “Extracting main ideas in Vietnamese Documents Supporting Content Summarization” [5] Deng Cai, Shipeng Yu, Ji-Rong Wen, Wei-Ying Ma (2004), “VIPS: a Visionbased Page Segmentation Algorithm”, Microsoft Research, Redmond, WA [6] Ruihua Song, Haifeng Liu, Ji-Rong Wen, Wei-Ying Ma (2004), “Learning Block Importance Models for Web Pages”, Microsoft Research Asia [7] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh (2008), “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, Language and Automata Theory and Applications, pp 240 – 249 [8] Vibhanshu Abhishek (2007), “Keyword Generation for Search Engine Advertising using Semantic Similarity between Terms”, Fair Isaac Corporation, Bangalore, India [9] H.P Luhn (1958), “The automatic creation of literature abstracts”, IBM Journal, pp 159 – 165 [10] A Tombros and M Sanderson (1998), “Advantages of query biased summaries in information retrieval”, In SIGIR98, Melbourne, pp – 10 [11] Suhit Gupta, Gail Kaiser (2005), “Extracting Content From Accessible Web Pages”, In proceedings of the 2005 International Cross-Disciplinary Workshop on Web Accessibility, Chiba, Japan, pp 26 – 30 [12] H.R.Kim, P.K.Chan (2003), “Learning implicit user interest hierarchy for context in personalization”, In proceedings of the 8th international conference on Intelligent user interfaces, Miami, Florida, USA, pp 101 – 108 [13] D S Hirschberg (1977), “Algorithms for the Longest Common SubSequence Problem”, Journal of ACM, vol 24, no 4, pp 664 – 675 [14] Ho Ngoc Duc, Nguyen Thi Thao, “Towards Building a WordNet for Vietnamese”, Ha Noi University of Technology, Viet Nam 51 [15] P S Hiremath, S S Benchalli, Siddu P Algur, Renuka V Udapudi (2005), “MiningData Regions from Web Pages”, International Conference on Management of Data [16] Ian H.Witten, Gordon W.Paynter, Eibe Frank, Carl Gutwin, Craig G.NevillManning (1999), “KEA: Practical Automatic Keyphrase Extraction”, Proc of Digital Libraries, pp 254 – 256 [17] Yang and Pedersen (1997), “A Comparative Study On Feature Selection In Text Categorization”, ICML97 [18] A.Hulth (2003), “Improved Automatic Keyword Extraction given more Linguistic Knowledge”, Proc of EMNLP03 [19] Taeho Jo, Malrey Lee, Thomas M.Gatton (2006), “Keyword Extraction from Documents Using a Neural Network Model”, Proceedings of the 2006 International Conference on Hybrid Information Technology, pp 194 – 197 Tiếng Việt [20] Trần Việt Cường, Nguyễn Văn Tuấn, Nguyễn Hồng Tú Anh, “Rút trích từ khóa tiếng Việt tự động dựa vào đồng từ”, khoa CNTT, ĐHQG TPHCM [21] Ngơ Quốc Hưng (2008), "Tìm kiếm tự động văn song ngữ Anh-Việt từ Internet", Luận văn Thạc sỹ, ĐH KHTN TP.HCM, tr – 10 Liên kết Internet [22] http://www.codeplex.com/htmlagilitypack [23] http://www.librow.com/articles/article-5 [24] http://en.wikipedia.org/wiki/Probabilistic_relevance_model_(BM25) PHỤ LỤC A Thuật tốn lọc Trung Bình (Mean filter) Lọc trung bình kỹ thuật lọc tuyến tính, hoạt động lọc thông thấp, sử dụng nhiều xử lý ảnh để lọc ảnh có dạng muối tiêu Ý tưởng thuật tốn lọc Trung bình sau: ta sử dụng cửa sổ lọc (trong trường hợp mảng hai chiều ma trận 3×3) quét qua điểm ảnh ảnh đầu vào input Tại vị trí điểm ảnh lấy giá trị điểm ảnh tương ứng vùng 3×3 ảnh gốc "lấp" vào ma trận lọc Giá trị điểm ảnh ảnh đầu giá trị trung bình tất điểm ảnh cửa sổ lọc Việc tính tốn đơn giản với hai bước gồm tính tổng thành phần cửa sổ lọc sau chia tổng cho số phần tử cửa sổ lọc Sẽ dễ hình dung mơ tả hình đây: Giá trị phần tử ma trận cập nhật giá trị trung bình phần tử cửa sổ lọc Sơ lược cách ngắn gọn bước giải thuật: Quét cửa sổ lọc lên thành phần ảnh đầu vào; điền giá trị quét vào cửa sổ lọc Xử lý cách thao tác thành phần cửa sổ lọc Tính giá trị trung bình thành phần cửa sổ lọc: i k r Array (i ) ek i k r 2r Với ek phần tử thứ k mảng r bán kính cửa sổ lọc, thường chọn r = Gán giá trị trung bình cho ảnh đầu Trong trường hợp mảng chiều cửa sổ lọc mảng có độ dài (thường chọn - với phần tử phần tử hai bên) Một lưu ý nhỏ lập trình trường hợp cửa sổ lọc quét qua phần tử cuối phần bên trái bên phải phần tử khơng tồn Để xử lý trường hợp cần phải mở rộng mảng hai phía trước thực lọc, mơ tả hình sau: Tương tự cho loại mảng nhiều chiều B Thuật tốn tìm chuỗi chung dài LCS (Longest Common Substring) Thuật tốn LCS dùng để tìm chuỗi chung dài chuỗi với Sau hàm tham khảo viết C#: public static int LongestCommonSubstring(string str1, string str2, out string sequence) { sequence = string.Empty; if (String.IsNullOrEmpty(str1) || String.IsNullOrEmpty(str2)) return 0; int[,] num = new int[str1.Length, str2.Length]; int maxlen = 0; int lastSubsBegin = 0; StringBuilder sequenceBuilder = new StringBuilder(); for (int i = 0; i < str1.Length; i++) { for (int j = 0; j < str2.Length; j++) { if (str1[i] != str2[j]) num[i,j] = 0; else { if ((i == 0) || (j == 0)) num[i, j] = 1; else num[i, j] = + num[i - 1, j - 1]; if (num[i, j] > maxlen) { maxlen = num[i, j]; int thisSubsBegin = i - num[i, j] + 1; if (lastSubsBegin == thisSubsBegin) {//if the current LCS is the same as the last time this block ran sequenceBuilder.Append(str1[i]); } else //this block resets the string builder if a different LCS is found { lastSubsBegin = thisSubsBegin; sequenceBuilder.Remove(0, sequenceBuilder.Length);//clear it sequenceBuilder.Append(str1.Substring(lastSubsBegin, (i + 1) – lastSubsBegin)); } } } } } sequence = sequenceBuilder.ToString(); return maxlen; } C Danh sách số hư từ tiếng Việt (stopword) Danh sách tham khảo số từ tầm thường (hư từ) tiếng Việt: Hay bạn mày họ cần bạn mày ngồi bạn mà tơi sau vừa bị trước chúng anh trái gồm chị phải bao gồm chúng tao bên bên trái chúng mày bên phải chúng tơi anh đồng thời tao chị mày vài cụ thể lại tớ tiếp đến sau mi thuộc đằng sau khoảng tiếp tục đằng trước phía khoảng mãi bên năm chừng nghĩa bên nên Sáu cỡ chừng thơi nhiều tám bảy chí chín mà mà mặc kệ hồi với lúc nè lúc riêng tức mà lúc nhiều mà vào lúc thật tức khắc thật vậy dù theo nên mặc lại dù đủ chưa lẫn lúc trước cho ... Việc xây dựng hệ thống quảng cáo trực tuyến theo ngữ cảnh cung cấp giải pháp khả thi giải vấn đề Hệ thống quảng cáo trực tuyến theo ngữ cảnh xây dựng thông qua việc nghiên cứu, áp dụng phương pháp. .. thanh, quảng cáo qua bưu điện đặc biệt, quảng cáo trực tuyến qua Internet 1.2 Quảng cáo trực tuyến Quảng cáo trực tuyến loại hình quảng cáo thể Internet đặc biệt trang web Quảng cáo trực tuyến. .. Các đặc điểm quảng cáo trực tuyến 1.2.2 Những hình thức quảng cáo trực tuyến 1.3 Tiếp cận quảng cáo theo ngữ cảnh 10 1.4 Mơ hình hệ thống quảng cáo theo ngữ cảnh AdCenter