Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 89 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
89
Dung lượng
2,85 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI VĂN MINH KIỂM DUYỆT BÀI VIẾT VÀ BÌNH LUẬN TIẾNG VIỆT CĨ NỘI DUNG KHƠNG PHÙ HỢP TRÊN MẠNG XÃ HỘI FACEBOOK LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN Hà Nội, tháng 12/2021 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI VĂN MINH KIỂM DUYỆT BÀI VIẾT VÀ BÌNH LUẬN TIẾNG VIỆT CĨ NỘI DUNG KHƠNG PHÙ HỢP TRÊN MẠNG XÃ HỘI FACEBOOK Ngành: Cơng nghệ thơng tin Chun ngành: An tồn thông tin Mã số: 8480202.01 LUẬN VĂN THẠC SĨ AN TỒN THƠNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Đình Thanh Hà Nội, tháng 12/2021 LỜI CAM ĐOAN Tôi cam đoan rằng, luận văn “Kiểm duyệt viết bình luận tiếng Việt có nội dung khơng phù hợp mạng xã hội Facebook” cơng trình nghiên cứu riêng Những số liệu sử dụng luận văn trung thực rõ nguồn trích dẫn Kết nghiên cứu chưa cơng bố cơng trình nghiên cứu từ trước đến Tơi hồn tồn chịu trách nhiệm với lời cam đoan Hà Nội, ngày tháng 12 năm 2021 Người cam đoan Bùi Văn Minh LỜI CẢM ƠN Để hoàn thành luận văn này, cố gắng thân, nhận giúp đỡ nhiều tập thể, cá nhân ngồi trường Tơi xin bày tỏ lịng biết ơn đến TS Lê Đình Thanh ln tận tình hướng dẫn, động viên thực luận văn Tôi xin bày tỏ lịng biết ơn tới q thầy Ngành An tồn thơng tin, Khoa Cơng nghệ Thơng tin nói riêng Trường Đại học Cơng nghệ ĐHQGHN nói chung tạo điều kiện tốt cho tơi q trình học tập, nghiên cứu hồn thiện luận văn Cuối cùng, xin cảm ơn gia đình, đồng nghiệp, bạn bè, người thân động viên, khích lệ tơi q trình học tập nghiên cứu Mặc dù thân có nhiều cố gắng luận văn không tránh khỏi khiếm khuyết, hạn chế Vì vậy, tơi mong góp ý chân thành quý thầy cô, đồng nghiệp bạn đọc để luận văn hoàn thiện Xin trân trọng cảm ơn! Hà Nội, tháng 12 năm 2021 Tác giả luận văn Bùi Văn Minh MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH SÁCH CÁC HÌNH DANH SÁCH CÁC BẢNG 10 DANH SÁCH CHỮ VIẾT TẮT 11 LỜI MỞ ĐẦU 12 CHƯƠNG 1: CƠ SỞ KHOA HỌC 14 1.1 Nội dung phản động Facebook 14 1.2 Tác hại nội dung phản động Facebook 17 1.3 Kiểm duyệt nội dung phản động Facebook 19 1.4 Mục tiêu nghiên cứu luận văn 20 1.5 Cấu trúc luận văn 21 CHƯƠNG 2: ĐỀ XUẤT PHƯƠNG PHÁP 23 2.1 Danh sách đen 23 2.1.1 User Facebook phản động 23 2.1.2 Fanpage Facebook phản động 24 2.1.3 Group Facebook phản động 24 2.1.4 Website, blog phản động 24 2.2 Phương pháp học máy 25 2.2.1 Trích chọn đặc trưng nội dung phản động 25 2.2.2 Mô hình, thuật tốn phân loại phổ biến 39 2.3 Sử dụng Hệ số tương quan Matthews 44 CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM 46 3.1 Mơ hình kiểm duyệt nội dung phản động 46 3.2 Xây dựng blacklist phản động 47 3.3 Xây dựng tập liệu mẫu 51 3.3.1 Thu thập liệu 51 3.3.2 Gán nhãn liệu 54 3.4 Xây dựng từ điển phản động 55 3.5 Xây dựng vector đặc trưng 56 3.6 Các mơ hình thử nghiệm 58 3.6.1 SVM-3f 59 3.6.2 SVM-2f 60 3.6.3 MLP-2f 60 3.6.4 MLP-3f 61 3.6.5 SVM-BERT 61 3.6.6 MLP-BERT 62 CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 72 4.1 Kết luận 72 4.2 Hướng phát triển 72 TÀI LIỆU THAM KHẢO 74 PHỤ LỤC 78 Mục 1: Trích xuất liệu bình luận vào CSDL 78 Mục 2: Xây dựng vector đặc trưng 78 Mục 3: Một số kết thực nghiệm 85 Mục 4: Kiểm duyệt nội dung phản động Facebook 88 DANH SÁCH CÁC HÌNH Hình 2.1: Quy trình NLP 26 Hình 2.2 Kết thử nghiệm mơ hình phân loại văn tiếng Việt nhóm Underthesea 32 Hình 2.3 Kiến trúc mơ hình BERT 34 Hình 2.4 Mơ hình chung Word2Vec 38 Hình 2.5 Support Vectors SVM 41 Hình 2.6 Margin SVM 41 Hình 2.7: Cấu tạo mạng MLP 43 Hình 2.8: Sử dụng mơ hình MLP cho toán phân loại văn 43 Hình 3.1: Mơ hình kiểm duyệt 02 lớp viết, bình luận phản động 46 Facebook 46 Hình 3.2: Minh họa thu thập viết Selenium 52 Hình 3.3: Minh họa thu thập bình luận Selenium 53 Hình 3.4: Mẫu liệu viết thu thập 54 Hình 3.5: Mẫu liệu bình luận thu thập 54 Hình 3.6: Mẫu liệu bình luận sau gán nhãn 55 Hình 3.7: Danh sách từ điển phản động xây dựng 56 Hình 3.8: Tham số C tốt 59 Hình 3.9: Kết thử nghiệm vector đặc trưng bao gồm Blacklist word phản động, hình thái, n-gram với thuật tốn SVM 60 Hình 3.10: Kết thử nghiệm vector đặc trưng bao gồm Blacklist word phản động, hình thái với thuật tốn SVM 60 Hình 3.11: Kết huấn luyện vector đặc trưng bao gồm Blacklist word phản động hình thái với mơ hình MLP 60 Hình 3.12: Kết huấn luyện vector đặc trưng bao gồm Blacklist word phản động, hình thái n-gram với mơ hình MLP 61 Hình 3.13: Kết huấn luyện mơ hình sử dụng pretrained PhoBERT kết hợp với thuật toán SVM 61 Hình 3.14: Kết huấn luyện mơ hình sử dụng pretrained PhoBERT kết hợp với mơ hìnhMLP 62 Hình 3.15: Kết thực nghiệm mơ hình 62 Hình 3.16: Cấu trúc thư mục extension 64 Hình 3.17: File manifest.json 64 Hình 3.18: Giao diện extension Chrome 66 Hình 3.19: Cài đặt extension thành công 66 Hình 3.20: Trước sử dụng extension 67 Hình 3.21: Extension chặn nhóm độc hại, chống phá 68 Hình 3.22: Extension chặn người dùng có hành vi phản động 68 Hình 3.23: Extension chặn trang mạng có hành vi phản động 69 Hình 3.24: Kết hoạt động extension viết 69 Hình 3.25: Sau viết bị ẩn (bài viết bị làm mờ) 70 Hình 3.26: Kết hoạt động extension bình luận 71 Hình 3.27: Sau bình luận bị ẩn 71 Hình 3.28: Code tách comment json Python 78 Hình 3.29: Mã nguồn đọc liệu bao gồm 20.000 viết, bình luận Facebook từ nhiều user, fanpage, group khác 78 Hình 3.30: Mẫu liệu sử dụng cho huấn luyện kiểm tra mơ hình 79 Hình 3.31: Mã nguồn tính tốn độ phản động viết, bình luận 79 Hình 3.32: Hàm tính tốn tỉ lệ ký tự viết hoa bình luận, viết 80 Hình 3.33: Hàm tính độ dài viết 80 Hình 3.34: Hàm tính tần suất sử dụng ký tự khơng phải alphabet 80 Hình 3.35: Hàm tính tần suất sử dụng ký tự đặc biệt 81 Hình 3.36: Hàm tính độ dài trung bình từ 81 Hình 3.37: Hàm tính tần suất sử dụng từ viết tắt 82 Hình 3.38: Sử dụng bigram trigram mức ký tự cho viết, bình luận 82 Hình 3.39: Đặc trưng độ phản động 83 Hình 3.40: Đặc trưng hình thái 83 Hình 3.41: Đặc trưng n-gram 83 Hình 3.42: Phân chia liệu tính tốn vector đặc trưng 83 Hình 3.43: Thuật tốn GridSearchCV tìm tham số C tối ưu 84 Hình 3.44: Load pretrained PhoBERT model tiền xử lý văn 84 Hình 3.45: Tạo features từ PhoBert 85 Hình 3.46: Kết huấn luyện SVM-3f 86 Hình 3.47: Kết huấn luyện SVM-2f 86 Hình 3.48: Kết huấn luyện MLP-2f 86 Hình 3.49: Kết huấn luyện MLP-3f 87 Hình 3.50: Kết huấn luyện SVM-BERT 87 Hình 3.51: Kết huấn luyện MLP-BERT 87 Hình 3.52: Mã nguồn Server backend 88 Hình 3.53: Kiểm tra xuất đường link URL đến website, blog phản động nội dung viết, bình luận Facebook 89 Hình 3.54: Một số thẻ div sử dụng để lấy thông tin từ viết, bình luận 89 10 DANH SÁCH CÁC BẢNG Bảng 3.1: Danh sách số user Facebook phản động 47 Bảng 3.2: Danh sách số fanpage Facebook phản động 48 Bảng 3.3: Danh sách số group Facebook phản động 49 Bảng 3.4: Danh sách số website, blog phản động 50 75 pretraining/bert_vn.html 14.Mã hóa one-hot https://machinelearningcoban.com/tabml_book/ch_data_processing/oneho t.html Tiếng Anh 15.Ying Chen, Sencun Zhu, Yilu Zhou, Heng Xu (2012), Detecting Offensive Language in Social Media to Protect Adolescent Online Safety, International Conference on Privacy, Security, Risk and Trust and 2012 International Confernece on Social Computing, Amsterdam, Netherlands 16.Chikashi Nobata, Joel Tetreault, Achint Thomas, Yashar Mehdad, Yi Chang (2016), Abusive Language Detection in Online User Content, WWW '16: Proceedings of the 25th International Conference on World Wide Web, pp 145-153, Montréal Québec, Canada 17.Anna Schmidt, Michael Wiegand (2017), A Survey on Hate Speech Detection using Natural Language Processing, Saarbrucken, Germany 18.Chu, Theodora, Kylie Jue and Max Wang “Comment Abuse Classification with Deep Learning.” (2017) 19.Jeffrey Pennington, Richard Socher, Christopher D Manning 2014 Glove: Global vectors for word representation , Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) 20.Cao Van Viet, Do Ngoc Quynh, Le Anh Cuong Building and Evaluating Vietnamese Language Models VNU Jounal of science, Mathermatics Physics 27 (2011) 134-146 21.Chung, Sungyup et al “N-gram language modeling of Japanese using bunsetsu boundaries.” INTERSPEECH (2004) 22.Ito, Akinori & Kohda, M (1996) Language modeling by string pattern Ngram for Japanese speech recognition 490 - 493 vol.1 10.1109/ICSLP.1996.607161 23.S Yang, H Zhu, A Apostoli and P Cao, “N-gram Statistics in English and Chinese: Similarities and Differences”, International Conference on Semantic Computing (ICSC 2007), 2007, pp 454-460, doi: 10.1109/ICSC.2007.46 24.Ha, Le Quan et al “Extension of Zipf's Law to Word and Character Ngrams for English and Chinese.” Int J Comput Linguistics Chin Lang Process (2003): n pag 25.Nguyen, Dat Quoc and Anh Gia-Tuan Nguyen “PhoBERT: Pre-trained language models for Vietnamese.” ArXiv abs/2003.00744 (2020): n pag 26.Devlin, Jacob et al “BERT: Pre-training of Deep Bidirectional 76 Transformers for Language Understanding.” NAACL (2019) 27.Radford, Alec and Karthik Narasimhan “Improving Understanding by Generative Pre-Training.” (2018) Language 28.Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov RoBERTa: A Robustly Optimized BERT Pretraining ApproacharXiv:1907.11692 29.Yang Liu Fine-tune arXiv:1903.10318 BERT for Extractive Summarization 30.Sun, Chi et al “Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence.” NAACL (2019) 31.Xu, Hu et al “BERT Post-Training for Review Reading Comprehension and Aspect-based Sentiment Analysis.” NAACL (2019) 32.Tianda Li , Jia-Chen Gu , Xiaodan Zhu , Quan Liu , Zhen-Hua Ling , Zhiming Su , Si Wei DialBERT: A Hierarchical Pre-Trained Model for Conversation Disentanglement arXiv:2004.03760 33.Raphael Scheible, Fabian Thomczyk, Patric Tippmann, Victor Jaravine, Martin Boeker GottBERT: a pure German Language Model arXiv:2012.02110 34.Abdelali, Ahmed et al “Pre-Training BERT on Arabic Tweets: Practical Considerations.” ArXiv abs/2102.10684 (2021): n pag 35.Le, Hang & Vial, Loïc & Frej, Jibril & Segonne, Vincent & Coavoux, Maximin & Lecouteux, Benjamin & Allauzen, Alexandre & Crabbé, Bent & Besacier, Laurent & Schwab, Didier (2019) FlauBERT: Unsupervised Language Model Pre-training for French 36.Jose Canete, Gabriel Chaperon, Rodrigo Fuentes, Jou-Hui Ho, Hojin Kang, Jorge Perez, SPANISH PRE-TRAINED BERT MODEL AND EVALUATION DATA, PML4DC, ICLR 2020 37.Zheng, Xiaoqing et al “Learning Context-Specific Word/Character Embeddings.” AAAI (2017) 38.Feng, Jiangtao and Xiaoqing Zheng “Geometric Relationship between Word and Context Representations.” AAAI (2018) 39.Huang, Eric Hsin-Chun et al “Improving Word Representations via Global Context and Multiple Word Prototypes.” ACL (2012) 40.T Mikolov, K Chen, G Corrado, J Dean - Efficient Estimation of Word Representations in Vector Space arXiv preprint arXiv:1301.3781, 2013 41.George A Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, and Katherine Miller - Introduction to WordNet: An On-line Lexical Database 1995 77 42.Bojanowski, Piotr & Grave, Edouard & Joulin, Armand & Mikolov, Tomas (2016) Enriching Word Vectors with Subword Information Transactions of the Association for Computational Linguistics 10.1162/tacl_a_00051 43.Vapnik, Vladimir N The Nature of Statistical Learning Theory New York: Springer, 1995 44.Proxy Crawl Scale https://proxycrawl.com/ 45.Facebook Scraping Case Study | Scraping Facebook Groups (2017) https://www.octoparse.com/tutorial/facebook-scraping-case-studyscraping-facebook-groups/?qu 46.GNU Wget https://www.gnu.org/software/wget/ 47.Facepager https://github.com/strohne/Facepager/releases 48.Graph API https://developers.facebook.com/docs/graph-api/ 49.Selenium with Python https://selenium-python.readthedocs.io/ 50.MongoDB https://www.mongodb.com/ 51.Davide Chicco, Giuseppe Jurman (2020), The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation, https://doi.org/10.1186/s12864-0196413-7 52.Scikit-learn Machine Learning in Python https://scikit-learn.org/stable/ 53.Google Colab https://colab.research.google.com 54.Zaghloul, W., Lee, S.M and Trimi, S (2009), "Text classification: neural networks vs support vector machines", Industrial Management & Data Systems, Vol 109 No 5, pp 708-717 https://doi.org/10.1108/02635570910957669 78 PHỤ LỤC Mã nguồn dịch vụ kiểm duyệt viết, bình luận phản động Facebook Mục 1: Trích xuất liệu bình luận vào CSDL Hình 3.28: Code tách comment json Python Mục 2: Xây dựng vector đặc trưng Hình 3.29: Mã nguồn đọc liệu bao gồm 20.000 viết, bình luận Facebook từ nhiều user, fanpage, group khác 79 Hình 3.30: Mẫu liệu sử dụng cho huấn luyện kiểm tra mơ hình Hình 3.31: Mã nguồn tính tốn độ phản động viết, bình luận 80 Hình 3.32: Hàm tính tốn tỉ lệ ký tự viết hoa bình luận, viết Hình 3.33: Hàm tính độ dài viết Hình 3.34: Hàm tính tần suất sử dụng ký tự khơng phải alphabet 81 Hình 3.35: Hàm tính tần suất sử dụng ký tự đặc biệt Hình 3.36: Hàm tính độ dài trung bình từ 82 Hình 3.37: Hàm tính tần suất sử dụng từ viết tắt Hình 3.38: Sử dụng bigram trigram mức ký tự cho viết, bình luận 83 Hình 3.39: Đặc trưng độ phản động Hình 3.40: Đặc trưng hình thái Hình 3.41: Đặc trưng n-gram Hình 3.42: Phân chia liệu tính tốn vector đặc trưng 84 Hình 3.43: Thuật tốn GridSearchCV tìm tham số C tối ưu Hình 3.44: Load pretrained PhoBERT model tiền xử lý văn 85 Hình 3.45: Tạo features từ PhoBert Mục 3: Một số kết thực nghiệm 86 Hình 3.46: Kết huấn luyện SVM-3f Hình 3.47: Kết huấn luyện SVM-2f Hình 3.48: Kết huấn luyện MLP-2f 87 Hình 3.49: Kết huấn luyện MLP-3f Hình 3.50: Kết huấn luyện SVM-BERT Hình 3.51: Kết huấn luyện MLP-BERT 88 Mục 4: Kiểm duyệt nội dung phản động Facebook Hình 3.52: Mã nguồn Server backend 89 Hình 3.53: Kiểm tra xuất đường link URL đến website, blog phản động nội dung viết, bình luận Facebook Hình 3.54: Một số thẻ div sử dụng để lấy thông tin từ viết, bình luận ... thực trạng báo động viết bình luận tiếng Việt có nội dung phản động MXH Facebook; nhu cầu cần thiết việc kiểm duyệt nội dung viết bình luận tiếng Việt có nội dung phản động MXH Facebook; tìm hiểu... vụ trình duyệt Google Chrome nhằm tự động kiểm duyệt viết, bình luận tiếng Việt có nội dung phản động MXH Facebook Dịch vụ bao gồm Backend có chức phát viết, bình luận tiếng Việt có nội dung phản... phản động Facebook Luận văn phát triển mô-đun dịch vụ phát nội dung phản động viết bình luận tiếng Việt MXH Facebook Với mơđun này, viết, bình luận tiếng Việt có nội dung phản động kiểm duyệt ẩn