PHÁT TRIỂN hệ THỐNG PHÁT HIỆN CHỦ đề ĐANG được QUAN tâm TRÊN MẠNG xã hội

68 140 0
PHÁT TRIỂN hệ THỐNG PHÁT HIỆN CHỦ đề ĐANG được QUAN tâm TRÊN MẠNG xã hội

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Trước tiên em xin gửi lời cảm ơn chân thành đến thầy PGS.TS Quản Thành Thơ Cảm ơn thầy dành nhiều công sức hướng dẫn em tận tình để em hồn tất đề tài cách thuận lợi Cảm ơn quý thầy cô giảng dạy cao học trường Đại học công nghệ thông tin cung cấp cho em tri thức bổ ích, tạo động lực cho em nghiên cứu khoa học thực tốt đề tài Em xin chân thành cảm ơn Tp Hồ Chí Minh, tháng năm 2017 Hứa Phước Trường LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn kết nghiên cứu thực cá nhân hướng dẫn PGS.TS Quản Thành Thơ Tôi xin hồn tồn chịu trách nhiệm luận văn Học viên Hứa Phước Trường MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU Chương TỔNG QUAN 10 1.1 Lý chọn đề tài 10 1.2 Mục đích nghiên cứu 11 1.3 Đối tượng phạm vi nghiên cứu 12 1.3.1 Facebook Graph API 12 1.3.2 Web crawling methodology 13 1.3.3 Máy học 13 1.3.4 Cấu trúc liệu giải thuật 14 1.4 Các nghiên cứu liên quan 14 1.5 Ý nghĩa khoa học thực tiễn đề tài 15 1.6 Cấu trúc luận văn 16 Chương CƠ SỞ LÝ THUYẾT 18 2.1 Phân phối chuẩn 18 2.2 Degeneracy 19 2.2.1 Định nghĩa 19 2.2.2 Giải thuật 20 2.3 Bron–Kerbosch 20 2.3.1 Định nghĩa 20 2.3.2 Nguyên tắc hoạt động 21 2.3.3 Một số giải thuật tương đồng khác 23 2.4 Binary Index Tree (Fenwick Tree) 25 2.5 Fibonacci Heap 27 2.5.1 Định nghĩa 27 2.5.2 Binomial Heap 28 2.5.3 Lý lựa chọn Fibonacci Heap 29 2.6 Readability 30 2.7 Support Vector Machine 30 2.8 TF-IDF 31 Chương HƯỚNG TIẾP CẬN 33 3.1 Hệ điều hành 33 3.2 Hệ quản trị sở liệu quan hệ 35 3.2.1 Oracle 36 3.2.2 PostgreSQL 37 3.2.3 MySQL 38 3.2.4 Hướng tiếp cận sử dụng PostgreSQL 38 3.3 Mơ hình phân tán CSDL 39 3.3.1 Khái niệm 39 3.3.2 Hướng tiếp cận kết hợp sharding nhân 39 3.4 Nhận diện nội dung 40 3.4.1 Nhận diện nội dung trang web Regular Expression 40 3.4.2 Nhận diện nội dung trang web XPath 40 3.4.3 Nhận diện nội dung nhiều trang web scoring dấu hiệu 40 3.5 Phân loại nội dung 40 Chương CÀI ĐẶT 41 4.1 Cài đặt cải tiến Readability 41 4.2 Xây dựng hệ thống thu thập sở liệu phân tán 42 4.2.1 Zie Stack 43 4.2.2 Zie Crawler 43 4.2.3 Zie Data 44 4.3 Xây dựng hệ thống phân tích nội dung lan truyền internet 44 4.4 Tìm chủ đề lan tỏa nhiều 46 Chương THỬ NGHIỆM 48 5.1 Module thu thập 48 5.2 Module phân loại thảo luận 51 5.3 Module nhận diện nội dung 52 5.4 Module phân tích nội dung lan tỏa internet 55 5.4.1 Kiểm thử tốc độ index liệu 55 5.4.2 Kiểm thử tốc độ xuất liệu tần số keyword 56 5.4.3 Social Proof (bằng chứng xã hội) 57 5.4.4 Đề xuất phương pháp kiểm thử 57 5.4.5 Kết 62 5.4.6 Kiểm thử tốc độ phân tích chủ đề 62 Chương KẾT LUẬN 63 6.1 Các kết đạt 63 6.2 Hạn chế 63 6.3 Hướng phát triển 64 DANH MỤC TÀI LIỆU THAM KHẢO 65 DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Viết đầy đủ Ý nghĩa CNTT Công nghệ thông tin Công nghệ thông tin HĐH Hệ điều hành Hệ điều hành DB Database Cơ sở liệu API Application program Bộ giao thức lập trình ứng interface dụng Nondeterministic Thuật tốn bất định thời polynomial time gian đa thức Support Vector Machine Kỹ thuật máy học sử dụng NP SVM vector hỗ trợ DANH MỤC CÁC BẢNG Bảng 2-1 Benchmark so sánh giải thuật BronKerbosch Tomita 24 Bảng 3-1 So sánh hướng tiếp cận hệ điều hành 33 Bảng 5-1 Bảng đối chiếu độ tự tin 48 Bảng 5-2 Tỷ lệ sai sót với độ tự tin 98% 49 Bảng 5-3 Tỷ lệ sai số với độ tự tin 95% 49 Bảng 5-4 Tỷ lệ sai số với độ tự tin 80% 50 Bảng 5-5 Sai số áp dụng hệ số điều chỉnh 51 Bảng 5-6 Kết phân tích nội dung lan truyền ngày 10/7/2017 58 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1-1 Dự đoán tăng trưởng người dùng Facebook Việt Nam 10 Hình 1-2 Cấu trúc Facebook Graph API 13 Hình 1-3 Luồng xử lý crawler 13 Hình 2-1 Hàm mật độ phân phối Gauss 18 Hình 2-2 Đồ thị Degeneracy 19 Hình 2-3 Giải thuật BronKerbosch đơn giản 22 Hình 2-4 Giải thuật BronKerbosch cải tiến 23 Hình 2-5 Giải thuật Tomita 23 Hình 2-6 Cấu trúc BIT 26 Hình 2-7 Fibonacci heap 27 Hình 2-8 Binomial Heap 28 Hình 2-9 Ví dụ SVM tuyến tính 31 Hình 2-10 Tương quan tần số xếp hạng ngram 32 Hình 4-1 API nhận diện nội dung sử dụng Readability 42 Hình 4-2 Sơ đồ thành phần mơ hình phân tán hệ thống thu thập 42 Hình 4-3 Cây AVL Tree 4gram 45 Hình 4-4 Cấu trúc Fenwick Tree node Fibonacci Heap 46 Hình 4-5 Ví dụ đồ thị 2gram 47 Hình 5-1 Danh sách chuyên mục phân loại 52 Hình 5-2 Readability khơng nhận diễn eva.vn 53 Hình 5-3 Readability nhận diện nội dung webtretho 54 Hình 5-4 Kiểm thử tốc độ index liệu 55 Hình 5-5 Kiểm thử với nhiều test case ngẫu nhiên 56 Chương Thử nghiệm Hình 5-1 Danh sách chuyên mục phân loại 5.3 Module nhận diện nội dung Thử nghiệm liệu input ngẫu nhiên từ số trang tin Việt Nam Kết cho thấy hầu hết trang tin lớn Việt Nam nhận diện xác nội dung Tuy nhiên, nhận diện sai nhiều 52 Chương Thử nghiệm Hình 5-2 Readability khơng nhận diễn eva.vn 53 Chương Thử nghiệm Hình 5-3 Readability nhận diện nội dung webtretho 54 Chương Thử nghiệm 5.4 Module phân tích nội dung lan tỏa internet 5.4.1 Kiểm thử tốc độ index liệu Hình 5-4 Kiểm thử tốc độ index liệu Kiểm thử tốc độ index liệu với tập 4000 viết ngẫu nhiên từ database: 55 Chương Thử nghiệm Hình 5-5 Kiểm thử với nhiều test case ngẫu nhiên Ta thấy tốc độ index liệu trung bình hệ thống máy ảo core thread 2GB RAM 68,18 viết giây Như với khả thu thập triệu 400 nghìn viết ngày hệ thống thu thập, hệ thống phân tích thực index 1.400.000 / 68.18 * 3600 = 5,7 Như hoàn toàn đáp ứng khả hệ thống thu thập khơng có tình trang bottle neck hệ thống thu thập thu thập nhanh hệ thống xử lý Và với hiệu suất này, hệ thống thu thập mở rộng tới 68,18 * 86400 = 5.890.752 viết ngày Giúp giảm tỷ lệ error rate xuống lần 5.4.2 Kiểm thử tốc độ xuất liệu tần số keyword Các Heap AVL Tree hệ thống xuất với độ phức tạp O(1) Top 4gram có tần số xuất cao xuất với độ phức tạp O(n) n số lượng 4gram cần trích xuất Tổng tần số top 4gram trích xuất với độ phức tạp O(n + log(m)), n số lượng 4gram cần trích xuất m độ dài thời gian cần trích xuất tính phút Hầu hết thao tác trả kết 56 Chương Thử nghiệm 5.4.3 Social Proof (bằng chứng xã hội) “Social Proof” hay gọi “Informational social influence (tạm dịch: “hiệu ứng lan truyền thông tin”) hành vi marketing, định nghĩa cách tương đối sau: “Đây tượng tâm lý người tìm kiếm xác nhận, giả định mơ lại từ hành động người khác nỗ lực nhằm phản ánh hành vi tình xã hội định Hiệu ứng thường bật tình xã hội không rõ ràng mà người xác định chế hành vi thích hợp, họ bị thúc đẩy giả định cho người xung quanh nắm bắt tình hình tốt hơn.” Nói cách dễ hiểu, người thường có xu hướng tin tưởng người trước, cụ thể người sử dụng sản phẩm dịch vụ có đánh giá chúng Những ý kiến xuất phát từ chủ quan lại gây nên sức ảnh hưởng định tới số đông vốn e dè chưa muốn thử Đối với mạng xã hội Facebook, Social Proof dễ dàng xác định thông qua số Like, Share, Comment 5.4.4 Đề xuất phương pháp kiểm thử Đối với tính chất thực tế đề tài, phương pháp kiểm thử xác lấy ý kiến phản hồi người dùng, kết hợp với đo lường theo vết hành vi người dùng người dùng tiếp xúc với nội dung hệ thống phân tích Tuy nhiên, phương pháp tốn chi phí nhiều thời gian đồ án không đủ để thực phương pháp Nên phương pháp kiểm thử dành cho module phân tích nội dung, đề tài kiểm thử dựa số social proof thử nghiệm viết fanpage Thật Vi Diệu (https://www.facebook.com/tvd.vn/) Thành phần phạm vi đề án thành phần khó xác định tính xác nhất, viết lan tỏa internet kiểm thử 57 Chương Thử nghiệm cảm giác người dùng chuyên gia ngành nghiên cứu thị trường internet Trong phạm vi đề tài này, kết module phân tích nội dung lan tỏa internet kiểm thử cách truy cập trực tiếp vào nguồn sinh thông tin kiểm thử số chứng xã hội (social proof) nội dung Do thời gian phát triển có giới hạn nguồn lực khơng đủ, việc xác thực số social proof không đề cập Bảng 5-6 Kết phân tích nội dung lan truyền ngày 10/7/2017 Icon Score Likes Shares Url http://m.nld.com.vn/thoi-su-trong# 1407 95 nuoc/benh-vien-nhiet-tinh-den- 32 noi-con-toi-chet-roi-van-tiemthuoc-20170710114611971.htm http://dantri.com.vn/viec# 1044 25 lam/formosa-xin-dua-8426-lao- 105 dong-nuoc-ngoai-vao-vung-ang1409531263.htm http://vnexpress.net/tin-tuc/cong# 908 65 dong/y-kien-cua-toi/xin-canh-sat- 11 giao-thong-dung-phi-than-chanxe-tren-cao-toc-3610989.html # 908 195 http://vietnamweek.net/trinh-vinh- 52 binh-kien-chinh-phu-vn-doi-1-ty58 Chương Thử nghiệm usd/ http://vietnamweek.net/tac-gia# 862 131 cua-bai-tho-duoc-thu-tuong-trich- 20 dan-sai-tac-gia-ay-la-toi-con-songdo-trung-quan/ http://baodatviet.vn/chinh-tri-xa# 862 94 hoi/tin-tuc-thoi-su/cong-an-xa-chi- 11 can-tot-nghiep-tieu-hoc-qua-dedai-3313298/ http://m.dantri.com.vn/viec# lam/formosa-xin-dua-8426-lao862 54 dong-nuoc-ngoai-vao-vung-ang1409531263.htm?commentId=604 866 # # 772 https://www.youtube.com/watch?v =uDxim-AN9W0 http://thanhnien.vn/thoi-su/viet772 27 nam-se-lap-ky-luc-xa-thai-xuongbien-853877.html 59 Chương Thử nghiệm https://www.facebook.com/photo # 10 772 823 php?fbid=1022062817936691&set 647 =a.157454841064164.40856.1000 03989467372&type=3 http://doisongvietnam.vn/lau-dai# 11 772 78 hoanh-trang-o-son-la-la-cua-em- trai-chu-nhiem-ubkt-tinh-son-la25059-3.html # 12 http://petrotimes.vn/thu-tuong681 37 33 trung-quoc-bac-kinh-se-chiembien-dong-391916.html http://tuoitre.vn/tin/chinh-tri-xa# 13 681 30 hoi/20170710/khong-the-loi-dung- danh-nghia-quan-doi-de-trucloi/1349101.html # 14 635 31 oaYoung/videos/17065282696570 89/ # 15 https://www.facebook.com/BienH http://www.geektime.vn/2017/07/ 590 52 43 10/my-che-tao-thanh-cong-chiecdien-thoai-khong-can-pin-lan-sim/ 60 Chương Thử nghiệm http://www.rfa.org/vietnamese/ne # 16 ws/reportfromvn/fellow590 42 compatriots-of-beheadedcrewmen-speak-out07102017074833.html http://m.baodatviet.vn/chinh-tri# 17 590 24 xa-hoi/tin-tuc-thoi-su/cong-an-xa- chi-can-tot-nghiep-tieu-hoc-quade-dai-3313298/ http://trithucvn.net/the-gioi/vi-saokhong-cam-nguoi-dan-su-dung# 18 590 65 sung.html?utm_content=bufferd9f 26 0f&utm_medium=social&utm_so urce=facebook.com&utm_campai gn=buffer http://vietnamnet.vn/vn/thoi# 19 544 22 su/chong-tham-nhung/tai-san-10- ty-nho-nuoi-lon-ga-khong-aichap-nhan-noi-382928.html # 20 https://www.facebook.com/hongbi 544 14 en247.vn/videos/25736641475811 1/ 61 Chương Thử nghiệm 5.4.5 Kết Dựa cảm quan, viết hệ thống phân tích hồn tồn có tính chất nội dung lan truyền mạng xã hội Dựa social proof, viết thường có lượt tương tác cao, bao gồm likes, shares comments Nội dung Bảng 5-1 thơng số social proof không cao số viết nội dung thu thập gần sớm (sớm tùy vào hiệu suất hệ thống), số social proof không cập nhật lại theo thời gian 5.4.6 Kiểm thử tốc độ phân tích chủ đề Các chủ đề phân tích từ đồ thị 4gram Do thời gian phát triển dự án cần tập trung vào thành phần thường xuyên truy xuất index liệu thu thập nên phần phân tích chủ đề viết ngôn ngữ script PHP Tùy thuộc vào số lượng chủ đề lan truyền nhanh xãy ngày, thời gian xử lý script nhanh chậm Kiểm thử thực tế cho thấy script có tốc độ xử lý từ giây tới 15 phút xử lý chủ đề bật ngày Về bản, thành phần che tầng cache liệu không cho phép người dùng truy xuất trực tiếp Nhìn chung, hiệu suất hệ thống đảm bảo không bị ảnh hưởng 62 Chương KẾT LUẬN 6.1 Các kết đạt Sau quãng thời gian dài nghiên cứu tri thức cần thiết để xây dựng đề tài, cao học viên đạt số kết quả: Nắm số kiến thức cần thiết lĩnh vực khoa học máy tính như khái niệm, phân loại, cách mà chương trình máy học thực thi hướng tiếp cận thường sử dụng để huấn luyện máy học, tiền xử lý liệu Thu thập tri thức mơ hình máy học SVM, mạng nơ-ron nhân tạo, mơ hình phân tán hệ thống, mơ hình thiết kế microservice… Xây dựng thành công hướng tiếp cận dựa mơ hình lý thuyết nghiên cứu, từ tiến hành cài đặt thành chương trình có giao diện tương đối tảng web, hiển thị hỗ trợ trích lọc, phân loại viết, nội dung hot internet Nhiều giải thuật lập trình nghiên cứu áp dụng vào trình cài đặt Fibonacci Heap, AVL Tree, Bron-Kerbosch, Tomita, Binrary Index Tree… Đến thời điểm tại, cao học viên với nhóm làm việc xây dựng hai sản phẩm dựa kết phân tích số đưa vào khai thác Cơng ty TNHH Thật Vi Diệu sản phẩm lại trình hình thành kết hợp Công ty TNHH YouthDev Công ty CP Buzzmetrics Cao học viên nhóm nghiên cứu cơng bố báo khóa học diễn đàn Hội nghị khoa học trẻ trường Đại học Công Nghệ Thông Tin – ĐHQG TP HCM năm 2013 6.2 Hạn chế Bên cạnh số kết khả quan đạt được, nhiều hạn chế tồn động đòi hỏi phải tiến hành giải nghiên cứu sau này: 63  Đề tài tập trung vào phần hệ thống công nghệ thông tin mà chưa có nhiều nghiên cứu giao diện người dùng, tính dễ sử dụng  Việc lựa chọn thông số chủ yếu dựa vào thực nghiệm thơng số mặc định, giải thuật tính toán so sánh đa phần heuristic đề xuất cao học viên, chưa có nghiên cứu tổng quát việc lựa chọn tất thông số mức độ ảnh hưởng thông số đến kết sau  Thời gian xử lý số module chậm đặc thù việc phải giải toán NP  Hiệu suất hệ thống thu thập cao khả thu thập chưa đủ lớn để có độ xác cao 6.3 Hướng phát triển Để chuẩn bị cho nghiên cứu xa hơn, nhiều vấn đề cần phải xem xét giải định hướng phát triển:  Hồn thành thành phần khơng có giá trị sâu phạm vi báo cáo có giá trị thực tiễn thiết kế giao diện, trải nghiệm người dùng, công cụ quản lý, theo dõi sức khỏe hệ thống  Vận dụng tốt kĩ thuật lập trình để khắc phục phần hao phí tài ngun trình xử lý  Tỉ lệ phân loại nội dung nhầm tương đối hạn chế lớn, cần xây dựng giải pháp để giảm bớt tỉ lệ phân loại nội dung nhầm  Nâng cấp hệ thống thu thập mơ hình phân tán để có liệu mẫu lớn cho độ xác cao  Cần tham khảo thêm mơ hình thực tiễn thành cơng giới nhằm mục đích tối giản hóa thao tác cần thiết để vận hành, bảo trì hệ thống 64 DANH MỤC TÀI LIỆU THAM KHẢO [1] (n.d.) Retrieved from Binary Indexed Trees - TopCoder: https://www.topcoder.com/community/data-science/data-sciencetutorials/binary-indexed-trees/ [2] (n.d.) Retrieved from Statista - The Statistics Portal for Market Data, Market Research and Market Studies: https://www.statista.com/ [3] (2015, Octobor 9) Được truy lục từ Giới Thiệu Về Mơ Hình SVM - STDIO: https://www.stdio.vn/articles/read/436/gioi-thieu-ve-mo-hinh-svm [4] (2016) Được truy lục từ TF-IDF ( term frequency – inverse document frequency) - VIBLO: https://viblo.asia/p/tf-idf-term-frequency-inverse- document-frequency-JQVkVZgKkyd [5] (2017) Retrieved from Bron–Kerbosch algorithm - Wikipedia: https://en.wikipedia.org/wiki/Bron%E2%80%93Kerbosch_algorithm [6] (2017) Retrieved from Degeneracy (graph theory) - Wikipedia: https://en.wikipedia.org/wiki/Degeneracy_(graph_theory) [7] (2017) Retrieved from Binomial Heap - Wikipedia: heap - Wikipedia: https://en.wikipedia.org/wiki/Binomial_heap [8] (2017) Retrieved from Fibonacci https://en.wikipedia.org/wiki/Fibonacci_heap [9] (2017) Retrieved from Phân phối chuẩn - Wikipedia: https://vi.wikipedia.org/wiki/Ph%C3%A2n_ph%E1%BB%91i_chu%E1%BA% A9n 65 [10] Aggarwal, C C (2011) An Introduction to Social Network Data Analytics London: Social Network Data Analytics, New York Dordrecht Heidelberg [11] Aggarwal, C C (2011) Text Mining in Social Networks New York Dordrecht Heidelberg London: Social Network Data Analytics, Springer [12] Ceren Budak, D A (2011) Structural Trend Analysis for Online Social Networks Proceedings of the VLDB Endowment,Vol 4, (No 10) [13] Gabor Cselle, K A (2007) BuzzTrack: Topic Detection and Tracking in Email 8092 Zurich, Switzerland: ETH Zurich, Distributed Computing Group [14] Geoffrey Barbier, H L (2011) Data Mining in Social Media London: Social Network Data Analytics, Springer, New York Dordrecht Heidelberg [15] Levent Bolelli, S E (2009) Topic and Trend Detection in Text Collections using Latent Dirichlet Allocation USA: Pennsylvania State University, University Park, PA, 16802 [16] Mario Cataldi, L D (2010) Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation Torino, Italy: Università di Torino [17] Q.T Tho, A F (2007) A scholarly semantic web system for advanced search functions Online Information Review, Vol 31 No.3, pp.353 - 364 [18] Review of the Bron-Kerbosch algorithm and variations (2013) In A Conte School of Computing Science - University of Glasgow 66 ... mạng xã hội Việc phân tích giúp tìm người có ảnh hưởng tới mạng xã hội Trong trường hợp đề tài này, node ngram cụm ngram chủ đề mức độ ảnh hưởng node tới node khác ngram bàn luận nhiều mạng xã. .. loại chủ đề Việc đánh giá chung tất loại chủ đề dẫn tới bất công loại chủ đề gây khó khăn cho doanh nghiệp, người dùng phân tích Ví dụ: theo kinh nghiệm kiểm thử hệ thống thực tế, phần lớn chủ đề. .. tác giả đề xuất phương pháp phân tích chủ đề lan truyền mạng xã hội Twitter chủ yếu phương pháp thống kê dựa phân tích keyword lan truyền xây dựng đồ thị keyword để phân tích tìm chủ đề Đây nghiên

Ngày đăng: 23/12/2018, 06:13

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan