Hướng phát triển

Một phần của tài liệu Kiểm duyệt bài viết và bình luận tiếng việt có nội dung không phù hợp trên mạng xã hội facebook (Trang 72 - 89)

Trong phạm vi luận văn này, dịch vụ kiểm duyệt nội dung phản động mới chỉ đơn giản là tổng hợp một số đặc trưng để tính mức độ phản động của bài viết, bình luận; kết hợp với việc sử dụng các blacklist user, fanpage, group, website, blog phản động. Để nâng cao hiệu quả kiểm duyệt và đạt độ chính xác cao hơn, cần xác định thêm các đặc trưng phản động khác; thử nghiệm trên các mơ hình, thuật tốn khác nhau để tìm ra được mơ hình, thuật tốn hiệu quả nhất.

Từ đĩ ứng dụng để phát triển các cơng cụ, phần mềm hỗ trợ hiệu quả cho việc ngăn chặn, kiểm duyệt các nội dung phản động trên các nền tảng MXH nĩi chung và trên Facebook nĩi riêng. Tiến tới nghiên cứu, cài đặt thuật tốn trên Forward Proxy Server để áp dụng tại các cơ quan, tổ chức, trường học... nhằm hạn chế người dùng tiếp cận các nội dung khơng phù hợp (phản động) trên MXH Facebook./.

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Hơn 35 thống kê và sự kiện của Facebook cho năm 2021 (2021). https://www.websitehostingrating.com/vi/research/facebook-statistics/ 2. Số liệu thống kê: Việt Nam cĩ 69.280.000 người sử dụng Facebook

(2020). https://vietnamnet.vn/vn/goc-nhin/so-lieu-thong-ke-viet-nam-co- 69-280-000-nguoi-su-dung-facebook-700013.html

3. Kiên quyết đấu tranh với thủ đoạn lợi dụng internet và mạng xã hội để

thúc đẩy “tự diễn biến”, “tự chuyển hĩa”.

http://tinhuyhoabinh.vn/chuyenmuc/chitietchuyenmuc/tabid/236/title/759 1/ctitle/234/Default.aspx?TopMenuId=6&cMenu1=234

4. Các thế lực thù địch đang lợi dụng dịch Covid-19 để chống phá Đảng, Nhà nước (2021). https://vov.vn/phap-luat/cac-the-luc-thu-dich-dang-loi- dung-dich-covid-19-de-chong-pha-dang-nha-nuoc-875534.vov

5. Cần xử lý nghiêm hành vi của Trương Châu Hữu Danh và các thành viên nhĩm “Báo Sạch” (2021). https://cand.com.vn/Lan-theo-dau-vet-toi- pham/can-xu-ly-nghiem-hanh-vi-cua-truong-chau-huu-danh-va-cac-

thanh-vien-nhom-bao-sach-i628982/

6. Facebook sẽ chặn quảng cáo chính trị từ các tài khoản phản động (2020). https://congan.com.vn/tin-chinh/facebook-se-chan-quang-cao-chinh-tri-tu- cac-tai-khoan-phan-dong_100905.html

7. Khoản 1, Điều 8 của Luật An ninh mạng 2018 quy định “Các hành vi bị nghiêm cấm về an ninh mạng”

8. Khoản 1, Điều 16 của Luật An ninh mạng 2018 quy định “Thơng tin trên khơng gian mạng cĩ nội dung tuyên truyền chống Nhà nước Cộng hịa xã hội chủ nghĩa Việt Nam”

9. Khoản 2, Điều 16 của Luật An ninh mạng 2018 quy định “Thơng tin trên khơng gian mạng cĩ nội dung kích động gây bạo loạn, phá rối an ninh, gây rối trật tự cơng cộng”

10.Khoản 4, Điều 64, Nghị định 174/2013/NĐ-CP ngày 13/11/2013 của Chính phủ quy định về “xử phạt vi phạm hành chính trong lĩnh vực bưu chính, viễn thơng, cơng nghệ thơng tin và tần số vơ tuyến điện”

11.Vietlex. http://www.vietlex.com/

12.Phân loại văn bản tiếng Việt (2019).

https://github.com/undertheseanlp/classification

13.Biểu diễn Mã hĩa hai chiều từ Transformer (BERT). https://d2l.aivivn.com/chapter_natural-language-processing-

pretraining/bert_vn.html 14.Mã hĩa one-hot.

https://machinelearningcoban.com/tabml_book/ch_data_processing/oneho t.html

Tiếng Anh

15.Ying Chen, Sencun Zhu, Yilu Zhou, Heng Xu (2012), Detecting Offensive Language in Social Media to Protect Adolescent Online Safety, International Conference on Privacy, Security, Risk and Trust and 2012 International Confernece on Social Computing, Amsterdam, Netherlands. 16.Chikashi Nobata, Joel Tetreault, Achint Thomas, Yashar Mehdad, Yi

Chang (2016), Abusive Language Detection in Online User Content, WWW '16: Proceedings of the 25th International Conference on World Wide Web, pp 145-153, Montréal Québec, Canada.

17.Anna Schmidt, Michael Wiegand (2017), A Survey on Hate Speech Detection using Natural Language Processing, Saarbrucken, Germany 18.Chu, Theodora, Kylie Jue and Max Wang. “Comment Abuse

Classification with Deep Learning.” (2017).

19.Jeffrey Pennington, Richard Socher, Christopher D Manning 2014 Glove: Global vectors for word representation , Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)

20.Cao Van Viet, Do Ngoc Quynh, Le Anh Cuong Building and Evaluating Vietnamese Language Models VNU Jounal of science, Mathermatics - Physics 27 (2011) 134-146

21.Chung, Sungyup et al. “N-gram language modeling of Japanese using bunsetsu boundaries.” INTERSPEECH (2004).

22.Ito, Akinori & Kohda, M. (1996). Language modeling by string pattern N- gram for Japanese speech recognition. 1. 490 - 493 vol.1. 10.1109/ICSLP.1996.607161.

23.S. Yang, H. Zhu, A. Apostoli and P. Cao, “N-gram Statistics in English and Chinese: Similarities and Differences”, International Conference on Semantic Computing (ICSC 2007), 2007, pp. 454-460, doi: 10.1109/ICSC.2007.46.

24.Ha, Le Quan et al. “Extension of Zipf's Law to Word and Character N- grams for English and Chinese.” Int. J. Comput. Linguistics Chin. Lang. Process. 8 (2003): n. pag.

25.Nguyen, Dat Quoc and Anh Gia-Tuan Nguyen. “PhoBERT: Pre-trained language models for Vietnamese.” ArXiv abs/2003.00744 (2020): n. pag. 26.Devlin, Jacob et al. “BERT: Pre-training of Deep Bidirectional

Transformers for Language Understanding.” NAACL (2019).

27.Radford, Alec and Karthik Narasimhan. “Improving Language Understanding by Generative Pre-Training.” (2018).

28.Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov RoBERTa: A Robustly Optimized BERT Pretraining ApproacharXiv:1907.11692

29.Yang Liu Fine-tune BERT for Extractive Summarization arXiv:1903.10318

30.Sun, Chi et al. “Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence.” NAACL (2019).

31.Xu, Hu et al. “BERT Post-Training for Review Reading Comprehension and Aspect-based Sentiment Analysis.” NAACL (2019).

32.Tianda Li , Jia-Chen Gu , Xiaodan Zhu , Quan Liu , Zhen-Hua Ling , Zhiming Su , Si Wei DialBERT: A Hierarchical Pre-Trained Model for Conversation Disentanglement arXiv:2004.03760

33.Raphael Scheible, Fabian Thomczyk, Patric Tippmann, Victor Jaravine, Martin Boeker GottBERT: a pure German Language Model arXiv:2012.02110

34.Abdelali, Ahmed et al. “Pre-Training BERT on Arabic Tweets: Practical Considerations.” ArXiv abs/2102.10684 (2021): n. pag.

35.Le, Hang & Vial, Lọc & Frej, Jibril & Segonne, Vincent & Coavoux, Maximin & Lecouteux, Benjamin & Allauzen, Alexandre & Crabbé, Benoỵt & Besacier, Laurent & Schwab, Didier. (2019). FlauBERT: Unsupervised Language Model Pre-training for French.

36.Jose Canete, Gabriel Chaperon, Rodrigo Fuentes, Jou-Hui Ho, Hojin Kang, Jorge Perez, SPANISH PRE-TRAINED BERT MODEL AND EVALUATION DATA, PML4DC, ICLR 2020

37.Zheng, Xiaoqing et al. “Learning Context-Specific Word/Character Embeddings.” AAAI (2017).

38.Feng, Jiangtao and Xiaoqing Zheng. “Geometric Relationship between Word and Context Representations.” AAAI (2018).

39.Huang, Eric Hsin-Chun et al. “Improving Word Representations via Global Context and Multiple Word Prototypes.” ACL (2012).

40.T Mikolov, K Chen, G Corrado, J Dean - Efficient Estimation of Word Representations in Vector Space arXiv preprint arXiv:1301.3781, 2013 41.George A. Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross,

and Katherine Miller - Introduction to WordNet: An On-line Lexical Database 1995

42.Bojanowski, Piotr & Grave, Edouard & Joulin, Armand & Mikolov, Tomas. (2016). Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics. 5. 10.1162/tacl_a_00051.

43.Vapnik, Vladimir N. The Nature of Statistical Learning Theory. New York: Springer, 1995

44.Proxy. Crawl. Scale. https://proxycrawl.com/

45.Facebook Scraping Case Study | Scraping Facebook Groups (2017). https://www.octoparse.com/tutorial/facebook-scraping-case-study-

scraping-facebook-groups/?qu

46.GNU Wget. https://www.gnu.org/software/wget/

47.Facepager. https://github.com/strohne/Facepager/releases 48.Graph API. https://developers.facebook.com/docs/graph-api/ 49.Selenium with Python. https://selenium-python.readthedocs.io/ 50.MongoDB. https://www.mongodb.com/

51.Davide Chicco, Giuseppe Jurman (2020), The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation, https://doi.org/10.1186/s12864-019- 6413-7

52.Scikit-learn. Machine Learning in Python. https://scikit-learn.org/stable/ 53.Google Colab. https://colab.research.google.com

54.Zaghloul, W., Lee, S.M. and Trimi, S. (2009), "Text classification: neural networks vs support vector machines", Industrial Management & Data Systems, Vol. 109 No. 5, pp. 708-717. https://doi.org/10.1108/02635570910957669

PHỤ LỤC

Mã nguồn dịch vụ kiểm duyệt bài viết, bình luận phản động trên Facebook

Mục 1: Trích xuất dữ liệu bình luận vào CSDL

Hình 3.28: Code tách comment json bằng Python

Mục 2: Xây dựng vector đặc trưng

Hình 3.29: Mã nguồn đọc bộ dữ liệu bao gồm 20.000 bài viết, bình luận trên Facebook từ nhiều user, fanpage, group khác nhau.

Hình 3.30: Mẫu dữ liệu sử dụng cho huấn luyện và kiểm tra mơ hình

Hình 3.32: Hàm tính tốn tỉ lệ ký tự viết hoa trong bình luận, bài viết

Hình 3.33: Hàm tính độ dài bài viết

Hình 3.35: Hàm tính tần suất sử dụng các ký tự đặc biệt

Hình 3.37: Hàm tính tần suất sử dụng các từ viết tắt

Hình 3.39: Đặc trưng về độ phản động

Hình 3.40: Đặc trưng về hình thái

Hình 3.41: Đặc trưng n-gram

Hình 3.43: Thuật tốn GridSearchCV tìm tham số C tối ưu

Hình 3.45: Tạo features từ PhoBert

Hình 3.46: Kết quả huấn luyện SVM-3f

Hình 3.47: Kết quả huấn luyện SVM-2f

Hình 3.49: Kết quả huấn luyện MLP-3f

Hình 3.50: Kết quả huấn luyện SVM-BERT

Mục 4: Kiểm duyệt nội dung phản động trên Facebook

Hình 3.53: Kiểm tra sự xuất hiện của các đường link URL đến website, blog phản động trong nội dung bài viết, bình luận trên Facebook.

Một phần của tài liệu Kiểm duyệt bài viết và bình luận tiếng việt có nội dung không phù hợp trên mạng xã hội facebook (Trang 72 - 89)

Tải bản đầy đủ (PDF)

(89 trang)