- Dữ liệu được sử dụng trong huấn luyện và kiểm thử hoàn toàn là dữ liệu thu thập từ mạng xã hội: mặc dù đã qua quá trình tiền xử lý, nhưng vẫn có thể có những mẫu không theo một chuẩn mực cú pháp, từ đó tạo thành các điểm nhiễu khi mô hình học. (Ví dụ: những câu quá ngắn; những câu không có dấu; câu có sử dụng tiếng nước ngoài; v.v…).
- Sự đa nghĩa của tiếng Việt: cũng là một thách thức lớn với nghiên cứu này, đặc biệt với mạng xã hội do các trào lưu sử dụng từ mới, từ lóng, (những từ không có trong từ điển; …), câu có hàm ý mỉa mai, … xuất hiện cùng với những từ bình thường khiến dữ liệu bị nhiễu.
- Sự bao hàm của chủ đề chính trị: Vì chính trị là một chủ đề tương đối lớn, dữ liệu khi thu thập cũng sẽ thuộc phạm trù của nhiều chủ đề con: cách vận hành của nhà nước; đường lối ngoại giao của nhà nước; bổ nhiệm nhân sự của nhà nước; hoạt động, chính sách; … Dẫn đến tập từ vựng của dữ liệu tương đối dàn trải, chưa cô đọng, ảnh hưởng đến độ chính xác của mô hình trong quá trình học.
- Một số hướng giải quyết với các lỗi trên:
+ Tiếp cận các nguồn dữ liệu khác: có định dạng cấu trúc, ngữ nghĩa, và đa dạng hơn về hình thức từ các đơn vị, ban ngành như viện dư luận xã hội, ban tuyên giáo trung ương, cổng dữ liệu quốc gia, …. Những dữ liệu này có thể có thêm trọng số (đánh giá, thang điểm, …) nên nếu thu thập được, sẽ mang lại giá trị cao cho nghiên cứu.
+ Kết hợp với các phương pháp khác: như đã trình bày tại các đề mục trên, ở các mô hình phân tích quan điểm, một phương pháp mang lại nhiều hứa hẹn là các mô hình học lai: kết hợp nhiều phương pháp nhằm mang đến kết quả tốt hơn. Đây cũng là một xu hướng mà nhiều nghiên cứu đang theo đuổi, hứa hẹn mang kết quả đáng mong chờ.
4.8. Nhận định và bàn luận 4.8.1. Nhận định
Mô hình phân tích quan điểm, cảm xúc (tích cực, trung lập, tiêu cực) các bài viết tiếng Việt có nội dung liên quan đến chính trị đã thực hiện được trong quá trình nghiên cứu đề tài này:
- Tìm hiểu, nghiên cứu về thực trạng vấn đề hiện tại, từ đó đưa ra được phát biểu của bài toán và lộ trình nghiên cứu thực hiện.
- Nghiên cứu, tìm hiểu một số công trình trong và ngoài nước có liên quan từ đó học hỏi được nhiều kiến thức, kinh nghiệm trong các lĩnh vực: học máy, xử lý ngôn ngữ tự nhiên, dữ liệu lớn, v.v… áp dụng vào chương trình.
- Phát triển, xây dựng hai bộ từ điển là từ điển Social Language và từ điển hư từ phục vụ cho quá trình tiền xử lý dữ liệu. Tuy nhiên chủ yếu dựa vào những kiến thức chủ quan và quá trình tìm kiếm trên Internet nên vẫn còn nhiều hạn chế và thiếu sót về từ vựng.
- Thu thập dữ liệu liên quan đến các khía cạnh đề tài sử dụng, lên đến khoản 21 nghìn tài liệu bằng các công cụ lập trình.
- Thực hiện tiến trình tiền xử lý dữ liệu ứng dụng hai bộ từ điển nêu trên, thư viện xử lý để thực hiện theo các tiến trình: chuẩn hóa dữ liệu, tách từ, loại bỏ hư từ.
- Thực hiện mã hóa dữ liệu vào không gian vector theo mô hình Word2Vec.
- Xây dựng, phát triển hai mô hình sử dụng mạng nơ-ron RNN và cụ thể là mô hình LSTM ứng dụng cho mô hình phân tích quan điểm để phân tích quan điểm Tích cực, Trung lập hay Tiêu cực.
- Thực hiện đánh giá các kết quả đạt được dựa trên dữ liệu ta có kết quả: + Những mẫu thuộc lớp Trung lập có thể bị mô hình nhầm lẫn thành nhãn tích cực và nhãn tiêu cực (là 0.13 và 0.16).
+ Những mẫu lớp Tích cực vẫn có một tỉ lệ không nhỏ (0.25) bị phân lớp sai thành mẫu tiêu cực.
+ Những mẫu lớp Tiêu cực có tỉ lệ phân lớp chính xác cao hơn (0.83) và hiệu quả hơn so với 02 lớp còn lại.
4.8.2. Bàn luận
Theo kết quả đạt được thì định hướng phát triển về sau sẽ tốt hơn về giải thuật, dữ liệu và ứng dụng.
Bên cạnh đề tài cho lĩnh vực chính trị chương trình sẽ có thể mở rộng cho các lĩnh vực khác như: văn hóa, thể thao, xã hội hoặc kết hợp nhiều lĩnh vực.
Khả năng thu thập dữ sẽ được nâng lên, tạo được nguồn dữ liệu lớn hơn cho các hệ thống dữ liệu từ điển phân tích tiếng việt giúp tạo nguồn dữ liệu lớn, phân tích sâu hơn cho các chương trình có liên quan về sau. Từ đó kết quả sẽ đạt độ chính xác cao hơn.
4.9. Kết chương
Các số liệu thể hiện bên trên là kết quả của quá trình thực nghiệm mô hình huấn luyện đã được xây dựng. Có thể kết quả thu được thực sự chưa như mong muốn nhưng đây là quá trình xây dựng chương trình.
Với độ chính xác khoảng 75% về cơ bản hệ thống đã đáp ứng được yêu cầu về phân tích quan điểm trong lĩnh vực chính trị. Từ đó đạt được mục tiêu là xây dựng một hệ thống Phân tích Quan điểm chính trị từ mạng xã hội.
Với những gì đã thực hiện, bản thân cũng tích lũy được một số kinh nghiệm trong lĩnh vực Machine Learning, Deep Learning trên cơ sở đó việc đề ra các hướng để hoàn thiện và vận dụng vào các lĩnh vực khác nhau ngoài lĩnh vực chính trị của chương trình.
KẾT LUẬN VÀ KIẾN NGHỊ
Qua thời gian thực hiện đề tài và kết quả đạt được của đề tài, bản thân nhận thấy đã đem lại lượng kiến thức lớn và có tính ứng dụng cao trong công việc hiện tại.
Mặc dù hạn chế thời gian thực hiện, cùng với số lượng dữ liệu thu thập để thực hiện còn chỉ gói gọn trong một lĩnh vực chính trị và chưa nhiều chỉ mới khoản 21 nghìn từ mạng xã hội Facebook, bên cạnh đó làm quen với nguyên tắc gán nhãn cho ba phân lớp cho dữ liệu dùng cho chính trị và việc các mẫu kết quả phân loại còn có chút ít nhằm lẫn: Những mẫu thuộc lớp Trung lập có thể bị mô hình nhầm lẫn thành nhãn tích cực và nhãn tiêu cực (là 0.13 và 0.16); Những mẫu lớp Tích cực vẫn có một tỉ lệ không nhỏ (0.25) bị phân lớp sai thành mẫu tiêu cực; Những mẫu lớp Tiêu cực có tỉ lệ phân lớp chính xác cao hơn (0.83) và hiệu quả hơn so với 02 lớp còn lại. Nhưng kết quả của chương trình cũng nằm trong ngưỡng mong muốn. Chương trình sẽ tiếp tục được bỗ sung cơ sở dữ liệu cung như nâng cấp hơn nữa các thuật toán tăng khả năng training để đạt được kết quả ngày càng tốt hơn.
Về mặt học thuật đề tài cũng đã có đưa ra được các nghiên cứu có liên quan gần với nội dung đề tài, nhưng cũng có nhiều nét riêng mà đề tại mạng lại cho thực tiễn của chương trình cũng như ngôn ngữ tiếng Việt Nam. Với tính ứng dụng thực tiễn chương trình sẽ tiếp tục được nghiên cứu mở rộng quy mô của chương trình ra nhiều lĩnh vực hơn nữa, thu thập thêm nhiều nguồn dữ liệu không chỉ của Facebook mà còn nhiều trang mạng xã hội hoặc các trang thông tin có tính tương tác cao, cũng như từng bước hình thành một chương trình có tính ứng dụng cao hơn trong tương lai không xa.
TÀI LIỆU THAM KHẢO Các luận văn/Luận án
[1] Alexander Park et al (2015). Twitter as a Corpus for Sentiment
Analysis and Opinion Mining, European Language Resources Association
[2] Nguyễn Đăng Thành (2016). Phân tích cảm xúc trong giáo dục
đại học qua các hông tin tiếng Việt trên web.
[3] Trần Văn Tiến, Nguyễn Minh Trường (2017). Nghiên cứu kỹ thuật phân tích Cảm xúc ứng dụng vào cải tiến chất lượng đào tạo đại học, http://thuvien.uit.edu.vn/DigitalDocument/Detail?treeId=660&fileId=9266
[4] Quản Thành Thơ (2017). Phân tích cảm xúc tiếng Việt trong viễn
cảnh Big Data: Hướng tiếp cận Deep Learning, https://www.slideshare.net/GrokkingVN/grokking-techtalk-18a-vietnamese- sentime nt-analysis-in-a-big-data-scenario-the-deep-learning-approach.
[5] Hung T. Vo et al (2016). Topic classification and sentiment
analysis for Vietnamese Education survey system, 92 https://www.researchgate.net/publication/303786096_Topic_classification_a nd_sen timent_analysis_for_Vietnamese_education_survey_system
[6] Thor Pham Blog, Published: April 24, 2018 by Categories:
Deep-learning, Tags: machine learning, python from: <https://thorpham.github.io/blog/2018/04/24/word2vec/>
Các tài liệu từ internet/website:
[8] https://viblo.asia/
Tiếng Anh
[9] AHMAD, Shakeel, et al. Detection and classification of social media-based extremist affiliations using sentiment analysis techniques. Human-centric Computing and Information Sciences, 2019, 9.1: 24.
[10] KHAI TRAN, Thien; THI PHAN, Tuoi. Deep Learning Application to Ensemble Learning—The Simple, but Effective, Approach to Sentiment Classifying. Applied Sciences, 2019, 9.13: 2760.
[11] Bang, T. S., Haruechaiyasak, C., & Sornlertlamvanich, V. (2015, November). Vietnamese sentiment analysis based on term feature selection approach. In Proceedings of the tenth international conference on knowledge,
information and creativity support systems (KICSS2015), Phuket.
[12] DOHAIHA, Hai Ha, et al. Deep learning for aspect-based sentiment analysis: a comparative review. Expert Systems With Applications, 2018.
[13] MAI, Long; LE, Bac. Aspect-Based Sentiment Analysis of Vietnamese Texts with Deep Learning. In: Asian Conference on Intelligent
Information and Database Systems. Springer, Cham, 2018. p. 149-158.
[14] Vo Q. H., Nguyen, H. T., Le, B., & Nguyen, M. L. (2017, October). Multi-channel LSTM-CNN model for Vietnamese sentiment analysis. In 2017 9th international conference on knowledge and systems
PHỤ LỤC 1. THƯ VIỆN XỬ LÝ NGÔN NGỮ TỰ NHIÊN UNDERTHESEA
Là bộ các module Python, tập dữ liệu và hướng dẫn mã nguồn mở hỗ trợ nghiên cứu và phát triển trong Xử lý ngôn ngữ tự nhiên tiếng Việt. – Nguồn: https://underthesea.readthedocs.io/en/latest/
PHỤ LỤC 2. THƯ VIỆN VÀ MÔ HÌNH NGÔN NGỮ TIẾNG VIỆT FASTTEX
FastText là một thư viện để học hiệu quả các cách biểu diễn từ và phân loại câu. FastText là một thư viện mã nguồn mở, miễn phí, nhẹ, cho phép người dùng tìm hiểu các cách biểu diễn văn bản và phân loại văn bản. Nó hoạt động trên phần cứng thông thường, tiêu chuẩn. Các mô hình sau đó có thể được giảm kích thước để phù hợp với các thiết bị di động. - Nguồn: https://github.com/facebookresearch/fastText.