6. Tổng quan vấn đề nghiên cứu
3.3.2 Một số nghiên cứu liên quan
-https://www.miai.vn/2020/06/27/chi-tiet-cach-login-va-crawl-du-lieu-tu- facebook-bang-python/ - https://mcivietnam.com/huong-dan-lay-du-lieu-tu-web-bang-python/ 3.3.3 Đánh giá kết quả Tập học Tập kiểm tra Độ chính xác 99,12% Độ chính xác 70,35%
a. Kiểm tra kết quả
Kết quả với dữ liệu huấn luyện, tập học
Việc huấn luyến sẽ gồm 994 mẫu câu đã được gán nhãn sẵn. Mô hình sẽ có 681,600 Layer Embedding và 570,368 Layer LSTM và 525,312 layer LSTM và 514 layer desense. Tổng cộng là 1,777,794 Params cho việc thực hiện huấn luyện.
Với tập dữ liệu được miêu ta ở trên và việc điều chỉnh các tham số của mô hình để cho ra kết quả có độ lỗi thấp nhất. Ta thu được kết quả huấn luyện của mô hình như sau.
Bảng 3.1. Bảng dữ liệu sau khi fit 25 epoch
STT Epoch Thời gian (s) Loss Accuracy
1 1/25 28 0.6806 0.6440 2 2/25 8 0.6647 0.6717 3 3/25 8 0.6363 0.6818 4 4/25 8 0.5909 0.6843 5 5/25 8 0.6027 0.6893 6 6/25 8 0.5440 0.7006 7 7/25 8 0.5581 0.7157 8 8/25 8 0.5184 0.7484 9 9/25 8 0.4256 0.7799 10 10/25 8 0.3877 0.8327 11 11/25 8 0.2738 0.8843 12 12/25 8 0.2235 0.9208 13 13/25 8 0.1824 0.9321 14 14/25 8 0.1499 0.9472 15 15/25 8 0.1240 0.9522 16 16/25 8 0.1125 0.9635 17 17/25 8 0.0874 0.9711 18 18/25 8 0.0788 0.9736 19 19/25 8 0.0733 0.9686 20 20/25 8 0.0529 0.9862 21 21/25 8 0.0513 0.9811 22 22/25 8 0.0434 0.9874 23 23/25 8 0.0318 0.9962 24 24/25 8 0.0359 0.9912 25 25/25 8 0.0261 0.9912 Evaluate 70.35
Độ chính xác của mô hình sau khi huấn luyện là 70.35% với độ lỗi 0.0261% và thời gian học là 8 giây.
Kết quả với dữ liệu kiểm tra
Sau khi tiến hành kiểm tra với các trường hợp khác nhau ta thu được kết quả như sau:
Từ kết quả bảng trên cho thấy được độ chính xác mô hình và hệ thống khá cao với dữ liệu khác với dữ liệu huấn luyện trước.
b. Đánh giá hệ thống
Sau khi thực hiện kiểm thử hệ thống cũng cho thấy độ chính xác mô hình sau khi huấn luyện là 75.38% với độ lỗi 0.58%
Từ kết quả trên cho thấy rằng việc huấn luyện một mô hình máy học phụ thuộc rất nhiều vào độ chuẩn hóa của dữ liệu đầu vào và tính bao quát chung của tập dữ liệu. Các mô hình được huấn luyện ở trên cho kết quả độ chính xác khá cao. Tuy nhiên do dữ liệu của mô hình chưa chuẩn nên việc huấn luyện cho kết quả chưa thật sự cao, kéo theo tỉ lệ chính xác của hệ thống giảm xuống.
KẾT LUẬN
Kết luận
Qua một thời gian nghiên cứu và cài đặt chương trình bằng mô hình huấn luyện:
- Qua việc thực hiện đề tài đã thực hiện giúp tôi hiểu sâu về mô hình và cách thức huấn luyện dữ liệu và ứng dụng mô hình vào bài toán thực tế.
- Hiểu được cách thức hoạt động của việc thu thập dữ liệu từ các nguồn. - Xây dựng được hệ thống tự động truy xuất dữ liệu từ các trang thông tin điện tử và phân tích cảm xúc tích cực hay tiêu cực.
Hạn chế
- Dữ liệu còn ít và độ chuẩn hóa chưa cao nên không phát huy hết khả năng bao quát của hệ thống.
- Chương trình demo còn nhiều thiếu sót.
Một số hướng mở rộng đề tài
- Áp dụng những kiến thức đã có để xây dựng mô hình hoàn thiện và phát triển mô hình mới dựa trên nền tảng trong đề tài này.
- Tiếp tục phát triển cải tiến chương trình này sao cho phù hợp nhất với nhu cầu thực tế.
- Trí tuệ nhân tạo là công nghệ của tương lai dựa trên mô hình của đề tài này có thể thực hiện huấn luyện phân loại các nội dung khác. Ví dụ như: phát hiện tin giả mạo dựa trên nội dung được phân tích cảm xúc, Bài toán nhận biết được bài viết bán hàng là tích cực hay tiêu cực từ đó đưa ra các giải pháp để khắc phục.
[1] Lê Thị Thu Hằng, 2016, “Nghiên cứu về mạng neural tích chập và ứng dụng cho bài toán nhận dạng biển số xe”, luận văn Thạc sỹ năm 2016.
[2] Phan Anh, 2019, “Nghiên cứu và ứng dụng phương pháp học máy trong phân lớp lúa sử dụng ảnh viễn thám”, Luận văn thạc sỹ năm 2019.
[3] Phạm Quang Hiển, 2020, “Nghiên cứu phương pháp trích xuất đặc trưng trên ảnh vệ tinh sử dụng các kỹ thuật học sâu”, Luận văn Thạc sỹ năm 2020.
[4] Lê Duy Nhật (8/12/2019), "Fake news mạng xã hội gây hại lớn về kinh tế", Báo Tiền Phong. Truy cập ngày 13/5/2020.
[5] Phạm Tuyết (14/04/2019), "Tin giả, hậu quả thật", báo tin tức, truy cập ngày 14/5/2020.
[6] Hải Đăng (06/08/2017), "Mạng xã hội là kênh lan truyền tin tức giả mạo lớn nhất". VOV, Truy cập ngày 13/5/2020
[7] Danh Trọng (15/03/2020), "Hơn 654 người bị xử lý vì đăng tin thất thiệt về COVID-19", báo Tuổi trẻ, truy cập ngày 14/05/2020.
[8] NGỌC MINH, (25/03/2020) "Nguồn gốc và cách phát hiện tin tức giả mạo", Techtimes. Truy cập ngày 14/05/2020.
[9] (Thứ 2 10/12/2018) "Fake news là gì?" Thông tin điện tử. Truy cập ngày 14/05/2020.
[10] Mạnh Chung (16/04/2018), "Hệ lụy tin giả và ứng xử của doanh nghiệp", Vietnameconomy. Truy cập vào ngày 14/5/2020.
Tài liệu tiếng Anh:
[11] Felix A. Gers; Jürgen Schmidhuber, Fred Cummins, 2000, "Learning to Forget: Continual Prediction with LSTM", in IEEE và các nhà xuất bản khác.
[12] Cho và đồng nghiệp, 2014, "Sequence to Sequence Learning with Neural Networks".
[14] Jan Koutník, Klaus Greff, Faustino Gomez,Jurgen Schmidhuber, 2014, "A Clockwork RNN", in arXiv:1402.3511v1 [cs.NE] 14 Feb 2014.
[15] Klaus Greff, Rupesh K. Srivastava, Jan Koutník, Bas R. Steunebrink, Jurgen Schmidhuber, 2017, "LSTM: A Search Space Odyssey", in arXiv:1503.04069v2 [cs.NE] 4 Oct 2017.
[16] Rafal Jozefowicz, Wojciech Zaremba, Ilya Sutskever, 2015, "An Empirical Exploration of Recurrent Network Architectures".
[17] Cootes, T.F., G.J. Edwards and C.J. Taylor, 2001. Active Appearance Models. IEEE transactions on pattern analysis and machine intelligence, 23 (6): 681-685.
[18] Verónica Pérez-Rosas, Bennett Kleinberg, Alexandra Lefevre, and Rada Mihalcea. Automatic detection of fake news. arXivarXiv:1708.07104, 201.
[19] Hannah Rashkin, Eunsol Choi, Jin Yea Jang, Svitlana Volkova, and Yejin Choi. Truth of varying shades: Analyzing language in fake news and political fact- checking. In Proc. Empirical Methods in Natural Language Processing, pages 2931– 2937, 2017.
[20] Victoria Rubin, Niall Conroy, Yimin Chen, and Sarah Cornwell. Fake news or truth? using satirical cues to detect potentially misleading news. In Proc. Computational Approaches to Deception Detection, pages 7–17, 2016.
[21] Kai Shu, H Russell Bernard, and Huan Liu. Studying fake news via network analysis: detection and mitigation. In Emerging Research Challenges and Opportunities in Computational Social Network Analysis and Mining, pages 43–65. Springer, 2019.
[22] Eugenio Tacchini, Gabriele Ballarin, Marco L Della Vedova, Stefano Moret, and Luca de Alfaro. Some like it hoax: Automated fake news detection in social networks. arXiv:1704.07506, 2017.
[24] Liu, Huan; Tang, Jiliang; Wang, Suhang; Sliva, Amy; Shu, Kai (ngày 7 tháng 8 năm 2017). "Fake News Detection on Social Media: A Data Mining Perspective". ACM SIGKDD Explorations Newsletter. arXiv:1708.01967v3. Bibcode:2017arXiv170801967S. Lưu trữ 2020-07-31 tại Wayback Machine.
[25] "Is 'fake news' a fake problem?". Columbia Journalism Review. Truy cập 19/02/2017.
[26] Binns, Amy (August 2012). "Don't Feed the Trolls!" (PDF). Journalism Practice. 6 (4): 547–562. doi:10.1080/17512786.2011.648988 – via EBSCOhost.
[27] Wei Wei and Xiaojun Wan (2016), "Learning to Identify Ambiguous and Misleading News Headlines". Institute of Computer Science and Technology, Peking University, Truy cập ngày 13/5/2020.
[28] Soll, Jacob (ngày 18 tháng 12 năm 2016). “The Long and Brutal History of Fake News”. POLITICO Magazine (bằng tiếng Anh). Truy cập ngày 25 tháng 3 năm 2019.
[29] "The Real Story of 'Fake News': The term seems to have emerged around the end of the 19th century". Merriam-Webster. Truy cập ngày 13 tháng 10 năm 2017.
[30] Michael M. Bronstein, 10 Feb 2019, “Fake News Detection on Social Media using Geometric Deep Learning” in ArXiv:1902.06673v1 [cs.SI] 10 Feb 2019.
[31] Kai Shu, Amy Sliva, Suhang Wang, Jiliang Tang, Huan Liu, 06/2017, “ACM SIGKDD Explorations Newsletter”, Fake News Detection on Social Media: A Data Mining Perspective, Tập 19, Trang 22-36.
[32] Sadia Afroz, Michael Brennan, and Rachel Greenstadt. Detecting hoaxes, frauds, and deception in writing style online. In ISSP'12.
[34] Michele Banko, Michael J. Cafarella, Stephen Soderland, Matthew Broadhead, and Oren Etzioni. Open information extraction from the web. In IJCAI'07.
[35] Paul R Brewer, Dannagal Goldthwaite Young, and Michelle Morreale. The impact of real news about fake news: Intertextual processes and political satire. International Journal of Public Opinion Research, 25(3):323--343, 2013.
[36] Niall J. Conroy, Victoria L. Rubin, and Yimin Chen. Automatic deception detection: Methods for finding fake news. Proceedings of the Association for Information Science and Technology, 52(1):1--4, 2015.
[37] Michela Del Vicario, Gianna Vivaldo, Alessandro Bessi, Fabiana Zollo, Antonio Scala, Guido Caldarelli, and Walter Quattrociocchi. Echo chambers: Emotional contagion and group polarization on facebook. Scientific Reports, 6, 2016.
[38] Adrien Guille, Hakim Hacid, Cecile Favre, and Djamel A Zighed. Information diffusion in online social networks: A survey. ACM Sigmod Record, 42(2):17--28, 2013.
[39] Zhiwei Jin, Juan Cao, Yu-Gang Jiang, and Yongdong Zhang. News credibility evaluation on microblog with a hierarchical propagation model. In ICDM'14.
[40] Zhiwei Jin, Juan Cao, Yongdong Zhang, and Jiebo Luo. News verification by exploiting conicting social viewpoints in microblogs. In AAAI'16.
[41] Victoria L. Rubin, Yimin Chen, and Niall J. Conroy. Deception detection for news: three types of fakes. Proceedings of the Association for Information Science and Technology, 52(1):1--4, 2015.
[43] L. Wu, F. Morstatter, X. Hu, and H. Liu. Chapter 5: Mining misinformation in social media, 2016.
Trang web:
[44] GABRIEL ATKIN, 2020, “Simple GRU Fake News Detection (Given Only Title)”, tại website https://www.kaggle.com/gcdatkin/simple-gru-fake-news- detection-given-only-title.
[45] Ben Roshan, 2020, “Fake news classifier on US Election News”, tại website https://www.analyticsvidhya.com/blog/2020/12/fake-news-classifier-on-us- election-news%F0%9F%93%B0-lstm-%F0%9F%88%9A/
[46] TEK4.VN, 2021, “Phát Hiện Fake News Với Python – Machine Learning Project”, tại website https://tek4.vn/phat-hien-fake-news-voi-python-machine- learning-project/
[47] Trần Thị Hương, Phạm Văn Hạnh, 2019, “MỘT CÁCH TIẾP CẬN KẾT HỢP MẠNG NƠ-RON HỒI QUY VÀ TẬP LUẬT CHO PHÁT HIỆN XÂM
NHẬP MẠNG”, tại website
https://www.researchgate.net/publication/339361259_MOT_CACH_TIEP_CAN_K ET_HOP_MANG_NO-
RON_HOI_QUY_VA_TAP_LUAT_CHO_PHAT_HIEN_XAM_NHAP_MANG [48] daiquocnguyen, 2018, “VnCoreNLP: A Vietnamese natural language processing toolkit”, tại website https://github.com/vncorenlp/VnCoreNLP.