Phân tích cảm xúc trong câu đang là một trong những bài toán quan trọng của lĩnh vực xử lý ngôn ngữ tự nhiên. Đã có rất nhiều các phương pháp học máy được đề xuất để giải quyết bài toán này. Tuy nhiên, các phương pháp đó chỉ thực hiện ở những bộ dữ liệu nhỏ và ít so sánh đánh giá với các phương pháp khác.
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY GIẢI QUYẾT BÀI TỐN PHÂN TÍCH CẢM XÚC TRONG CÂU Ma Thị Hồng Thu1 Phùng Thị Thu Trang2 Tóm tắt: Phân tích cảm xúc câu tốn quan trọng lĩnh vực xử lý ngơn ngữ tự nhiên Đã có nhiều phương pháp học máy đề xuất để giải toán Tuy nhiên, phương pháp thực liệu nhỏ so sánh đánh giá với phương pháp khác Trong báo này, đưa phương pháp học máy khác so sánh chúng sở liệu Foody.vn Các đặc trưng đưa vào phương pháp 1000, 1500 2000 đặc trưng Sau so sánh, kết cho thấy khác biệt độ xác phương pháp không nhiều (khoảng 2%) độ chênh lệnh kết đặc trưng khác khoảng 4% Có thể thấy rằng, việc lựa chọn phương pháp học máy phức tạp hay đơn giản không ảnh hưởng nhiều đến kết tốn mà phụ thuộc vào lượng đặc trưng sử dụng Từ khóa: Phân tích cảm xúc câu, học máy, trí tuệ nhân tạo, học sâu, xử lý ngôn ngữ tự nhiên Giới thiệu Phân tích cảm xúc câu nhiệm vụ lĩnh vực xử lý ngôn ngữ tự nhiên thu hút lượng lớn nhà nghiên cứu thời gian gần Mỗi ngày trơi qua có hàng triệu bình luận đăng lên mạng xã hội hay trang web bán hàng trực tuyến siêu thị điện máy, nhà hàng, khách sạn… Một yêu cầu thiết yếu đặt gán nhãn cho bình luận/ý kiến người dùng lớp định Số lượng lớp nhiều tùy thuộc vào nhu cầu người sử dụng Trong phạm vi báo này, sử dụng hai lớp tích cực tiêu cực Hay nói cách khác, bình luận/ý kiến mang tính chất khen ngợi, ca tụng, hài lòng đưa vào lớp tích cực, ngược lại bình luận mang tính phê bình, phàn nàn, khiếu nại phân loại vào lớp tiêu cực Nhiệm vụ toán phân tích cảm xúc câu từ câu bình luận đầu vào, phân loại chúng thành hai lớp tích cực tiêu cực, câu thuộc lớp Ngày nay, mơ hình học máy ngày đa dạng từ đơn giản đến phức tạp áp dụng khắp lĩnh vực, đặc biệt xử lý ngôn ngữ tự nhiên Đối với tốn phân tích cảm xúc câu nghiên cứu đề xuất nhiều phương pháp Đối Đại học Tân Trào Đại học Thái Nguyên 104 SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY Phần báo tổ chức sau: Phần nêu mơ hình tổng quan phương pháp học máy Các kết thực nghiệm so sánh đề cập phần Cuối kết luận tài liệu tham khảo Một số phương pháp học máy Hình mơ hình tổng quan cho phương pháp học máy giải tốn phân tích cảm xúc câu Trong đó: - Đầu vào: câu bình luận dạng văn tiền xử lý như: loại bỏ ký hiệu đặc biệt, biểu tưởng cảm xúc, từ dừng, - Trích chọn đặc trưng: thao tác nhằm xử lý câu để lọc đặc trưng câu Trong báo này, sử dụng kỹ thuật tf-idf [6] - Đầu ra: phân lớp tích cực tiêu cực mơ hình học máy ứng với câu bình luận nhập từ đầu vào Hình Mơ hình tổng quan giải tốn phân tích cảm xúc câu 2.1 Hồi quy tuyến tính (Linear Regression) Phân tích hồi quy tuyến tính phương pháp phân tích quan hệ biến phụ thuộc y với hay nhiều biến độc lập x Đây coi mơ hình đơn giản học máy Ý tưởng mơ hình xây dựng hàm tuyến tính cách kết hợp biến đầu vào cho y [7] Trong đó, , …, (với ví dụ k = 3) gọi tham số mơ hình, w0 gọi bias đặc trưng đưa vào mơ hình y đại diện cho lớp đầu ra, với toán này, y = tương ứng với tiêu cực, y = tương ứng với tích cực kết dự đốn mơ hình học máy, , câu đầu vào dự câu kết luận thuộc lớp tích cực đốn thuộc lớp tiêu cực, ngược lại Ưu điểm: - Đơn giản, dễ cài đặt sử dụng Nhược điểm: - Dễ nhạy cảm với nhiễu - Không biểu diễn mơ hình phức tạp 2.2 Máy vectơ hỗ trợ (SVM) Như biết, với toán phân loại nhị phân tuyến tính ta cần vẽ mặt phân tách (với khơng gian chiều mặt phẳng đường phân tách): để phân biệt liệu Khi dấu hàm ước lượng thể điểm liệu x nằm cụm liệu SVM biện pháp để 106 Ma Thị Hồng Thu, Phùng Thị Thu Trang thực phép lấy mặt phẳng [7] Một máy vector hỗ trợ thực phân loại viết thành lớp tích cực tiêu cực cách lập đồ phi tuyến tập liệu huấn luyện thành khơng gian đặc trưng đa chiều Sau đó, xây dựng siêu phẳng (ranh giới định) N-chiều để tách liệu thành hai cụm tích cực tiêu cực Hình Ví dụ đường thẳng khác cho phép tách liệu thành cụm Hình cho thấy liệu tuyến tính tách biệt không gian chiều với hai cách khác để phân biệt chúng Chất lượng siêu phẳng định khoảng cách (được gọi biên) điểm liệu gần lớp đến mặt phẳng Khoảng cách biên lớn phân chia điểm thành hai lớp tốt, nghĩa đạt kết phân loại tốt Đối với toán phân tích tình cảm câu, bình luận đầu vào cho n đặc trưng thông qua kỹ thuật tf-idf Do đó, câu biểu diễn thành điểm liệu không gian n chiều Nhiệm vụ sử dụng SVM để xây dựng siêu phẳng làm biên tương ứng cho lớp tích cực tiêu cực cho khoảng cách biên lớn Ưu điểm: - Hiệu không gian sâu - Vẫn hiệu trường hợp kích thước khơng gian lớn số mẫu - Dễ tùy chỉnh với nhiều hàm kernel khác Nhược điểm: - Nếu sử dụng số lượng đặc trưng lớn nhiều số lượng mẫu dễ xảy tượng over-fitting - Các SVM không trực tiếp cung cấp ước tính xác suất, chúng tính tốn cách sử dụng five-fold cross-validation 2.3 Mạng nơron nhiều tầng (Multi Layer Perceptron) Mạng neural network (NN) kết hợp của tầng perceptron hay gọi perceptron đa tầng (multilayer perceptron) hình Một mạng NN có kiểu tầng: 107 SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY * Tầng vào (input layer): Là tầng bên trái mạng thể cho đầu vào mạng Đối với tốn này, tầng đầu vào n đặc trưng câu sau áp dụng kỹ thuật trích chọn đặc trưng * Tầng (output layer): Là tầng bên phải mạng thể cho đầu mạng Đối với toán này, có nút đầu thể cho kết dự đốn tích cực tiêu cực mơ hình Hình Ví dụ mạng NN * Tầng ẩn (hidden layer): Là tầng nằm tầng vào tầng thể cho việc suy luận logic mạng Tất nốt mạng (nơ-ron) kết hợp đôi với theo chiều từ tầng vào tới tầng Hay nói cách khác, việc suy luận mạng NN suy luận tiến (feedforward) công thức (2) (3) [7][8]: (2) (3) nút mạng thứ j tầng l Trong đó, n(l) số lượng nút tầng l tương ứng Còn tham số trọng lượng đầu vào nút mạng thứ i tầng l+1 độ lệch (bias) nút mạng thứ i tầng l+1 Đầu nút mạng biểu diễn ứng với hàm kích hoạt tương ứng Ưu điểm: - Đơn giản, dễ cài đặt - Có thể sử dụng để giải nhiều toán dạng phân lớp học máy Nhược điểm: - Khi số lượng hidden layers lớn lên, số lượng hệ số cần tối ưu lớn lên mơ hình trở nên phức tạp Sự phức tạp ảnh hưởng tới hai khía cạnh: * Thứ nhất, tốc độ tính tốn bị chậm nhiều * Thứ hai, mơ hình q phức tạp, biểu diễn tốt training data, lại không biểu diễn tốt test data 2.4 Mạng nơron tích chập (Convolutional Neural Network) Mạng nơron tích chập (CNN) loại mạng neuron đặc biệt để xử lý liệu có cấu trúc dạng lưới Chẳng hạn, liệu dạng chuỗi thời gian (time-series) xem lưới chiều chứa mẫu lấy khoảng thời gian định, hay liệu hình 108 SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY chúng điều chỉnh cẩn thận nhóm gọi cổng (gate) Hiện nay, có nhiều biến thể LSTM đề xuất như: Bi-LSTM, GRU, … Trong toán này, đầu vào đầu mạng LSTM thiết lập tương tự mạng CNN Ưu điểm: - Thường áp dụng cho đối tượng văn âm có khả ghi nhớ tốt - Khơng cần phải huấn luyện để nhớ được, Do đó, giải vấn đề phụ thuộc xa mà RNN không làm Nhược điểm: - Phức tạp mạng RNN tốc độ thường chậm - Do có tập cơng thức, khiến cho LSTM trở nên khó hiểu Thực nghiệm 3.1 Bộ sở liệu Foody.vn thiết lập Foody.vn trang web Công ty Cổ phần FOODY xây dựng nhằm mục đích tìm kiếm đánh giá nhà hàng, khách sạn, địa điểm du lịch… Việt Nam cách chi tiết, thuận lợi cho người sử dụng Hiện Foody.vn lưu trữ 38 triệu người sử dụng, triệu bình luận, 500 nghìn check-in triệu ảnh Bơ sử liệu Foody.vn lấy từ bình luận trang web foody.vn Với việc phân loại cảm xúc tích cực tiêu cực dựa số điểm trung bình bình luận Theo đó, bình luận tiêu cực lấy mức điểm đánh giá từ 0,1 tới 5,7 điểm Còn bình luận tích cực lấy mức điểm từ 8,5 tới 10,0 Tổng số lượng mẫu data_train data_test 50.000 mẫu liệu bình luận (review) Được phân chia sau: * Số lượng mẫu tập train 30.000 bình luận * Số lượng mẫu tập validation 10.000 bình luận * Số lượng mẫu tập test 10.000 bình luận Để tải liệu này, bạn đọc truy cập website [11]: Để so sánh phương pháp học máy với nhau, sử dụng thuật tốn tf-idf để trích chọn đặc trưng bình luận Tất mơ hình học máy cài đặt ngôn ngữ python máy tính với cấu hình CPU 3.6GHz x 8, RAM 20GB, hệ điều hành Ubuntu 16.04 Mã nguồn chương trình cung cấp địa chỉ: https://tinyurl.com/y2tgsfxn 3.2 Kết thảo luận Theo hình 6, thấy số lượng đặc trưng trích rút câu tăng lên độ xác phương pháp tăng lên Phương pháp đơn giản 110 SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TÀI LIỆU THAM KHẢO [1] V Hatzivassiloglou and J M Wiebe, "Effects of adjective orientation and gradability on sentence subjectivity," in Proceedings of the 18th conference on Computational linguistics-Volume 1, 2000, pp 299-305 [2] P D Turney, "Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews," in Proceedings of the 40th annual meeting on association for computational linguistics, 2002, pp 417-424 [3] Phan Dang-Hung, Cao Tuan-Dung (2014), “Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews”, Proceedings of the Fifth Symposium on Information and Communication Technology (SoICT) ACM, Ha Noi, pp 232 – 239 [4] Duyen Nguyen Thi, Ngo Xuan Bach, Tu Minh Phuong, "An empirical study on sentiment analysis for Vietnamese", Advanced Technologies for Communications (ATC) International Conference on IEEE, 2014 [5] Q Vo, H Nguyen, B Le and M Nguyen (2017), “Multi-channel LSTM-CNN model for Vietnamese sentiment analysis”, 9th International Conference on Knowledge and Systems Engineering (KSE), Hue, pp 24-29 [6] Kỹ thuật trích chọn đặc trưng tf-idf, https://en.wikipedia.org/wiki/Tf%E2%80%93idf [7] Vũ Hữu Tiệp (2018), “Machine Learning bản”, Nhà xuất khoa học kỹ thuật [8] Bishop, Christopher M (2006), “Pattern recognition and Machine Learning”, Nhà xuất Springer [9] Yoon Kim (2014), “Convolutional neural networks for sentence classification”, Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Qatar, pp 1746–1751 [10] Hochreiter Schmidhuber (1997), “Long Short Term Memory networks”, Journal of Neural Computation, MIT Press, 9(8):1735 – 1780 [11] Bộ sở liệu Foody.vn, Link: https://github.com/congnghia0609/ntc-scv/tree/ master/data 112 Ma Thị Hồng Thu, Phùng Thị Thu Trang Title: A COMPARISON OF MACHINE LEARNING APPROACHES TO SENTIMENT ANALYSIS IN SENTENCES MA THI HONG THU Tan Trao University PHUNG THI THU TRANG Thai Nguyen University Abstract: Sentiment analysis is one of the most important problems in natural language processing There have been many machine learning approaches proposed to solve this problem However, these approaches only work on small datasets and they are less compared to others This paper presents different machine learning approaches and makes a comparison between them on the same database of Foody.vn 1000, 1500 and 2000 specificities are respectively incorporated into these five approaches to draw distinctions The results show that the difference in accuracy and results between these approaches is not much, about 2% and % respectively It can be seen that the outcome of the problem is not affected by the choice of a complex or simple machine learning approach, but it depends on the sum of specificity used Keywords: Sentiment analysis, machine learning, artificial intelligence, deep learning, natural language processing 113 ... SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY Phần báo tổ chức sau: Phần nêu mơ hình tổng quan phương pháp học máy Các kết thực nghiệm so sánh đề cập phần Cuối kết luận tài liệu tham khảo Một số phương. .. phương pháp học máy Hình mơ hình tổng quan cho phương pháp học máy giải tốn phân tích cảm xúc câu Trong đó: - Đầu vào: câu bình luận dạng văn tiền xử lý như: loại bỏ ký hiệu đặc biệt, biểu tưởng cảm. .. Kết thảo luận Theo hình 6, thấy số lượng đặc trưng trích rút câu tăng lên độ xác phương pháp tăng lên Phương pháp đơn giản 110 SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TÀI LIỆU THAM KHẢO [1] V Hatzivassiloglou