Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
465,57 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN THANH HUY NHẬN DIỆN CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT BẰNG MƠ HÌNH MÁY HỌC Chun ngành: Hệ thống thơng tin Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ TPHCM - NĂM 2022 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS NGUYỄN TUẤN ĐĂNG Phản biện 1: ………………………………………………… Phản biện 2: ………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Lý chọn đề tài Với phát triển không ngừng lĩnh vực công nghệ, việc nhận diện cảm xúc văn tiếng Việt ứng dụng nhiều lĩnh vực như: quản trị doanh nghiệp, quản trị thương hiệu sản phẩm, quản trị quan hệ khách hàng, khảo sát ý kiến khách hàng hay dễ hiểu phân tích đánh giá, ý kiến phản hồi khách hàng sản phẩm, … Việc dự đốn vơ quan trọng ý kiến, đánh giá khách hàng ngày trở nên có giá trị thiết thực Tổng quan vấn đề nghiên cứu Trong năm gần đây, phân tích nhận diện cảm xúc ngày trở nên phổ biến để xử lý liệu truyền thông xã hội cộng đồng trực tuyến, blog, wiki, tảng tiểu blog phương tiện cộng tác trực tuyến khác Bài tốn phân tích cảm xúc có số phương pháp [7] giải sau: • Phương pháp thủ cơng (dị từ khóa) • Phương pháp Deep Learning Neural Network [8]: • Phương pháp kết hợp rule-based corpusbased [8] Mục đích nghiên cứu Tìm hiểu lí thuyết cần thiết để xây dựng mơ hình giải tốn nhận diện cảm xúc người dùng tiếng Việt qua ý kiến đánh giá, phản hồi với cảm xúc mong đợi hai dạng định tính: - Nhận diện tính tích cực – tiêu cực văn - Xác định tính chủ quan – khách quan văn Đối tượng nghiên cứu Đối tượng nghiên cứu: Nhận diện cảm xúc cho văn tiếng việt theo văn đặc trưng văn Từ kết nhận diện cảm xúc, xây dụng mơ hình nhận diện cảm xúc cho văn tiếng việt Phạm vi nghiên cứu: Nhận diện cảm xúc văn tiếng Việt với phản hồi, ý kiến đánh giá sản phẩm website bán hàng shopee.vn, Lazada.vn Phương pháp nghiên cứu Trong luận văn sử dụng phương pháp nghiên cứu lý thuyết kết hợp với xây dựng mơ hình ứng dụng thực nghiệm: Thu thập tài liệu, nghiên cứu liên quan đến đề tài Về mặt lý thuyết, luận án tìm hiểu tổng quan cảm xúc văn tiếng việt, phương pháp nhận dạng cảm xúc, đồng thời trình bày số mơ hình nhận diện cảm xúc tổng hợp từ tài liệu, báo khoa học Về mặt thực nghiệm, sử dụng công cụ để tính tốn, phân tích, thống kê đánh giá tham số đặc trưng, tiến hành nghiên cứu thực thực nghiệm để nhận diện cảm xúc dựa mơ hình với hai loại cảm xúc tích cực, tiêu cực, từ đánh giá kết đạt để xác nhận giá trị mơ hình tham số sử dụng CHƯƠNG TỔNG QUAN TÀI LIỆU 1.1 Ngôn ngữ tự nhiên Một số vấn đề khái quát ngôn ngữ tự nhiên 1.2 Ngôn ngữ tiếng Việt Tiếng Việt ngôn ngữ đơn lập, nghĩa âm tiết phát âm tách rời biểu diễn chữ viết cụ thể Đặc điểm thể tất mặt ngữ âm, từ vựng, ngữ pháp Đặc điểm ngữ âm Đặc điểm từ vựng [1] Đặc điểm ngữ pháp 1.3 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (Natural Language Processing) [2] lĩnh vực khoa học máy tính kết hợp Trí tuệ nhân tạo & Ngơn ngữ học tính tốn chủ yếu tập trung xử lý tương tác người máy tính cho máy tính hiểu ngôn ngữ người CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Các mơ hình mạng neuron dùng học sâu Các mạng nơ ron nhân tạo Một phương pháp học sâu thành công mạng nơron nhân tạo [34] Phương pháp mạng nhớ dài ngắn hạn (LSTM) [34] Mạng neuron sâu (DNN-Deep neural Network) [34] Các mạng neuron sâu tích chập (CNN) [26] sử dụng thành cơng lĩnh vực thị giác máy tính 2.2 Word2Vec Text Embedding Phương thức hoạt động Có hai dạng mơ hình Word2Vec: Continuous Bag of Words với Continuous Skip-Gram có hai thuật tốn sử dụng Word2Vec Hierarchical Softmax Negative Sampling [21] Về mơ hình: - Continuous Bag of Words: Ý tưởng mơ hình CBOW mơ hình dự đốn từ dựa từ xung quanh hay từ ngữ cảnh Ngữ cảnh câu, đoạn văn hay tập từ đứng cạnh [23] Đầu vào mơ hình CBOW tập hợp tất ngữ cảnh đầu từ mà cần dự đoán - Continuous Skip-gram: Kiến trúc Continuous Skip-gram giống với Continuos Bag of Word, nhiên thay dự đốn từ dựa ngữ cảnh, mơ hình tập trung vào việc tối ưu hóa việc phân loại từ dựa từ khác câu Về thuật toán: - Phương pháp để biểu diễn tất từ có từ điển chúng tơi sử dụng nhị phân Ứng với từ biểu diễn Với tồn đường từ gốc tới lá, từ đường sử dụng để ước lượng xác suất từ biểu diễn - Negative Sampling đơn giản cập nhật mẫu đầu từ vịng lặp Từ đầu mục tiêu giữ mẫu cập nhật thêm vài từ mẫu âm tính 2.3 GloVe Vectors Text Embedding GloVe (Vectơ toàn cầu cho đại diện từ) [22] phương pháp dùng thay để tạo nhúng từ Phương pháp dựa kỹ thuật phân tích nhân tử ma trận ma trận ngữ cảnh từ 2.4 Các mơ hình nhận diện cảm xúc văn a Phân tích cảm xúc tiếp cận theo xử lý ngôn ngữ tự nhiên [2] b Phân tích cảm xúc tiếp cận theo phương pháp học máy c Mơ hình nghiên cứu tổng quan Trong nghiên cứu này, trước tiên tiến hành thu thập liệu thô từ trang web shopee.vn, lazada.vn Sau liệu thơ tiền xử lý gán nhãn trước tiến hành học máy Dữ liệu chia thành hai nhóm: tập liệu huấn luyện (training data), tập liệu kiểm tra (test data) Giai đoạn huấn luyện: giai đoạn học tập tập liệu huấn luyện mơ hình phân loại cảm xúc văn Ở bước này, mơ hình học từ liệu có nhãn (trong ảnh nhãn Tích cực, Tiêu cực) Dữ liệu văn số hóa thơng qua trích xuất đặc trưng để mẫu liệu tập huấn luyện trở thành vector nhiều chiều Thuật toán máy học học tối ưu tham số để đạt kết tốt tập liệu Nhãn liệu dùng để đánh giá Chuyển chử số thành số Ví dụ: ‘năm mươi lăm’ thành ’55’ Thay giá trị cho loại chúng Ví dụ ‘$100’ -> ‘money’ Chuẩn hóa từ viết tắt Ví dụ : ‘VN’ -> ‘Việt Nam’ Chuẩn hóa định dạng ngày tháng Sữa lỗi tả: viết bình luận người dùng thường viết sai tả nhiều làm giảm biến thể từ dựng Thay cho từ gặp thành từ đồng nghĩa thông dụng 3.3 Vector hóa văn [24] a Phương pháp word embedding cổ điển Bag of words(BoW) BoW [24] phương pháp biểu diễn vector cổ điển sử dụng nhiều nhất.Khi từ biểu diễn thành vector có số chiều với số từ từ vựng ứng với vị trí từ túi từ, phần tử đánh dấu 1, cịn vị trí lại đánh dấu TF_IDF [24] TF-IDF phương pháp thống kê nhằm giúp phản ánh độ quan trọng từ văn toàn liệu đầu vào TF(Term frequency) : Tần suất xuất từ đoạn văn IDF( Invert Document Frequency) : Được dùng để đánh giá mức độ quan trọng từ văn Khi tính TF mức độ quan trọng từ Cách tính TF-IDF cho cơng thức sau: tfi = ni/Ni Trong đó: i: 1….D ni: Tần số xuất từ văn i Ni : Tổng số từ văn i Idfi = log2D/d Trong đó: D : Tổng số document tập liệu d : Số lương document có xuất từ tfidfi = tfi * idfi b Phương pháp Neural Embedding Word2vec Có cách xây dựng mơ hình Word2vec dùng để biểu diễn phân tán từ không gian vector: Sử dụng ngữ cảnh để dự đoán mục tiêu (CBOW) Sử dụng từ để dự đoán ngữ cảnh mục tiêu (Continuous skip-gram) xem xét từ ngữ cảnh xung quanh đánh giá tốt so với từ ngữ cảnh vị trí xa Glove Thuật tốn GloVe [26] dựa tương phản có lợi với dự đoán ma trận đồng xuất sử dụng thuật toán Distributional Embedding, sử dụng phương pháp Neural Embedding để phân tích ma trận đồng xuất thành vector có ý nghĩa có tỷ trọng 3.4 Mơ hình nhận diện cảm xúc sử dụng học sâu Bài toán nhận diện cảm xúc giải mơ hình học sâu recurrent neural network với phương pháp sử dụng mơ hình học máy khơng giám sát , mơ hình máy học có giám sát mơ hình Nạve Bayes, kết hợp với mơ hình vector hóa từ Word2vector với kiến trúc Continuous Bag of Words mơ hình vector hóaTF-IDF Để thực mơ hình địi hỏi phải có tập liệu lớn tốt để tạo Word2Vec CBOW Tf-IDF đạt chất lượng tốt liệu đươc gán nhãn đủ lớn để tao tập huấn luyện tập kiểm tra mơ hình máy học có giám sát Tù chúng tơi đánh giá độ xác thơng qua mơ hình CHƯƠNG THỰC NGHIỆM 4.1 Xây dựng ngữ liệu 4.1.1 Cơ sở lý thuyết liệu Với mục tiêu xây dựng hệ thống nhận diện cảm xúc văn tiếng Việt, luận văn tập trung vào khía cạnh phân tích cảm xúc bình luận, đánh giá sản phẩm website Shopee.vn, Lazada.vn, 4.1.2 Xây dựng liệu Với nội dung tìm hiểu chủ đề phản hồi, đánh giá khách hàng, liệu thu thập từ trang bán hàng trực tuyến phân tích sẳn thành tập huấn luyện tập kiểm tra Trong tập huấn luyện chiếm 80%, tập kiểm tra chiếm 20% 4.1.3 Tiền xử lý liệu [31] Đối với luận văn này, liệu input đầu vào phản hồi, đánh giá khách hàng sản phẩm Dữ liệu thường khơng chuẩn, ta phải tiến hành xử lý liệu: Loại bỏ dãy html: Loại bỏ dấu ngoặc vuông: Loại bỏ văn nhiễu Loại bỏ ký tự đặc biệt Đưa từ văn từ gốc Loại bỏ từ dừng tiếng Việt Ở chúng tơi áp dụng thuật tốn Tokenziner để vec tơ hóa kho ngữ liệu văn 4.2 Huấn luyện mơ hình Sơ đồ huấn luyện: Hình 4.2 Mơ hình huấn luyện Theo sơ đồ trên, chúng tơi sử dụng đầu vào mơ hình học có giám sát LSTMs(Long short-term memory) tập tin gán nhãn, chứa đoạn văn xử lý tách từ cơng cụ Tokenizer mơ hình Word2Vector Mơ hình Word2Vector kết trình huấn luyện nơng dựa mơ hình Bags of words TF-IDF để vector hóa từ, hay nói cách khác đưa từ vào khơng gian vector Kết q trình huấn luyện ta thu được: Xây dựng mô hình phân lớp để có liệu xác định lieu phân lớp Một trọng số mạng nơron LSTMs [28] lưu xuống file với siêu tham số cấu hình mạng LSTMs mà chúng tơi thiết lập Hai tập tin tải vào mạng LSTMs để kiểm tra, vận hành tiếp tục huấn luyện sau Sơ đồ kiểm tra Hình 4.3 Mơ hình kiểm tra Ở giai đoạn kiểm tra: - Mơ hình LSTMs [28] sẻ tải lên file cấu hình file lưu trọng số mạng nơ ron Đồng thời sử dụng đến mô hình Word2Vector mơ hình TF-IDF với vai trị hệ tri thức từ vựng - Mơ hình Classifier :dữ liệu tập kiểm tra đua vào mơ hình để tiến hành phân lớp Trong trình kiểm tra, đưa vào liệu bao gồm tập tin chứa đoạn văn gán nhãn tách từ cơng cụ Tokenizer trước Kết phân lớp đầu sẻ ghi nhận lại để so sánh với nhãn mong đợi ban đầu liệu, từ cho chúng tơi kết độ xác mơ hình 4.3 Thực nghiệm đánh giá kết Tồn q trình chạy thực nghiệm tiến hành cấu hành máy IDE với cấu sau: Mã máy: HP Elitebook 2540p CPU: Core i7-640LM SSD: 120GB RAM 6GB, DDR3 1333Mhz (PC3-10666) Ngôn ngữ : Python Thực thi: https://colab.research.google.com/drive Các thuật toán sử dụng: Bảng 4.1 Kết hợp mơ hình vector hóa liệu với phương pháp phân lớp Tên Mơ hình vector hóa Phương pháp phân lớp BoW Logistic Regression BoW Linear SVM BoW Naive Bayes TF-IDF Logistic Regression TF-IDF Linear SVM TF-IDF Naive Bayes CNN Tensorflow Thực nghiêm để phân lớp đánh giá [31] Kết sau thực nghiệm với tập liệu: Bảng 4.2 Hiệu suất phương pháp phân lớp cảm xúc (đo F1) Tên Precisi on 74 75 78 76 76 78 Tích cực Recall F1 63 63 61 61 61 61 68 68 69 68 68 68 Tiêu cực Precision Recall 67 67 67 67 66 67 77 78 82 80 80 82 Average F1 72 72 74 73 72 73 F1 70 70 71 70 70 71 Ngoài ra, luận văn chúng tơi cịn thực nghiệm mạng nơ ron nhân tạo với phương pháp Tensorflow [26] sử dụng Kết thu mơ hình với độ xác 50,55% độ mát Nan KẾT LUẬN VÀ KIẾN NGHỊ Các kết đạt luận văn Sau thời gian tìm hiểu nghiên cứu, chúng tơi áp dụng mơ hình giải toán gồm bước: Tiền xử lý liệu, vector hóa liệu phân loại cảm xúc mơ hình nhận diện cảm xúc sử dụng học sâu đạt kết khả quan.Sau huấn luyện kiểm tra tập liệu ban đầu phương pháp vectơ hóa liệu TF-IDF kết hợp với phương pháp phân lớp Naïve Bayes cho hiệu suất 71%( tính theo F1) tốt Để làm điều đó, chúng tơi hồn tất việc sau: - Tìm hiểu đặc điểm ngôn ngữ tiếng Việt, xử lý ngôn ngữ tự nhiên xử lý ngơn ngữ tiếng Việt Tìm hiểu, phân tích xây dựng thành cơng mơ hình giải toán phân lớp cảm xúc người dùng với định tính “Xác định tính tích cực – tiêu cực văn bản” - Nghiên cứu áp dụng phương pháp vector hóa liệu Word2Vec, TF-IDF CNN - Nghiên cứu phương pháp tiền xử lý tiếng Việt nhằm cải thiện hiệu suất tiến hành huấn luyện - Nghiên cứu áp dụng phương pháp phân lớp kết hợp với ba mơ hình vector hóa liệu kể để chọn phương pháp máy học tốt cho phân lớp cảm xúc người dùng - Áp dụng kết hợp phương pháp xử lý văn tiếng Việt thuật toán phân lớp để đánh giá liệu - Xây dựng gán nhãn cho liệu (Dataset) Nhận xét, đề xuất, khuyến nghị 2.1 Nhận xét Tất mơ hình kết hợp với phương pháp xử lý liệu sử dụng cần lượng lớn liệu đầu vào Nếu liệu thiếu cân bằng, độ xác tiến hành phương pháp phân lớp bị ảnh hưởng không ổn định 2.2 Đề xuất Luận văn áp dụng them số phương pháp tiền xử lý liệu áp dụng them thuật toán phân lớp hay tối ưu thuật toán phân lớp có để mơ hình giải tốn nhận diên cảm xúc văn tiếng Việt tốt 2.3 Kiến nghị Phân tích cảm xúc nói riêng xử lý ngơn ngữ tự nhiên nói chung nhánh nghiên cứu phức tạp lợi ích mà mang lại Cánh mạng công nghiệp 4.0 tai Việt Nam lớn Nếu đề tài đầu tư phát triển tốt áp dụng rộng rãi lĩnh vực giáo dục, y tế, kinh doanh, giải trí, … Vì tất lĩnh vực cần mơ hình để xây dựng phân lớp nhận diện cảm xúc người dùng hiệu đề tài Hướng nghiên cứu Trong nghiên cứu tiếp theo, tiếp tục nghiên cứu để cải thiện hiệu suất phân loại nhận diện cảm xúc văn tiếng Việt Kể tiếp, tiến hành thu thâp thêm liệu thực nghiệm để ổn định hiệu suất mơ hình Cùng với đó, chúng tơi tiến hành thực nghiệm liệu phong phú số lượng, khía cạnh, ý kiến người dùng