(Luận văn thạc sĩ) phát hiện câu chứa gợi ý trên diễn đàn trực tuyến sử dụng mạng NƠRON

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TỐNG NGUYÊN SƠN PHÁT HIỆN CÂU CHỨA GỢI Ý TRÊN DIỄN ĐÀN TRỰC TUYẾN SỬ DỤNG MẠNG NƠ - RON LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - TỐNG NGUYÊN SƠN PHÁT HIỆN CÂU CHỨA GỢI Ý TRÊN DIỄN ĐÀN TRỰC TUYẾN SỬ DỤNG MẠNG NƠ-RON Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ XUÂN BÁCH HÀ NỘI – 2020 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi hướng dẫn Tiến sĩ Ngô Xuân Bách Các kết đạt luận văn sản phẩm riêng cá nhân, không chép người khác Nội dung luận văn có tham khảo sử dụng số thông tin, tài liệu từ nguồn sách, tạp chí liệt kê danh mục tài liệu tham khảo Tác giả luận văn ký ghi rõ họ tên Tống Nguyên Sơn ii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến Thầy TS Ngơ Xn Bách, người tận tình hướng dẫn, hỗ trợ giúp đỡ nhiều nghiên cứu luận văn Thầy đưa định hướng, nhận xét góp ý quý giá để luận văn hồn thành tốt Kính gửi lời cảm ơn đến quý Thầy, Cô giảng viên tận tình giảng dạy truyền đạt kiến thức chun mơn cần thiết q trình tơi học tập Học viện Cơng nghệ Bưu Viễn thơng Xin gửi lời biết ơn đến gia đình khơng ngừng quan tâm, động viên, ủng hộ mặt tinh thần lẫn vật chất suốt thời gian tham gia khóa học thực luận văn Cảm ơn bạn lớp Cao học M18CQIS02B giúp đỡ đồng hành năm tháng học tập nhà trường Thời gian thực luận văn ngắn, kinh nghiệm lĩnh vực xử lý ngơn ngữ tự nhiên thân cịn hạn chế, luận văn cịn nhiều thiếu sót mong nhận ý kiến đóng góp q Thầy Cơ bạn để tơi hồn thiện luận văn cách tốt Xin trân trọng cảm ơn! iii MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN ii MỤC LỤC iii BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH .v DANH MỤC BẢNG BIỂU vi DANH MỤC HÌNH vii LỜI NÓI ĐẦU CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN PHÂN LOẠI CÂU CHỨA GỢI Ý 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.2 Bài toán phát câu chứa gợi ý diễn đàn trực tuyến .4 1.2.1 Phân loại liệu văn 1.2.2 Phát biểu toán phân loại phát câu chứa gợi ý .5 1.2.3 Ý nghĩa toán: 1.3 Các nghiên cứu liên quan 1.4 Kết luận chương CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN CÂU CHỨA GỢI Ý SỬ DỤNG HỌC MÁY 2.1 Phương pháp giải toán: .8 2.1.1 Tiền xử lý liệu .10 2.1.2 Lọc nhiễu (loại bỏ từ không mang nghĩa) 10 2.1.3 Loại bỏ từ phổ biến (stop word): .10 2.2 Giới thiệu chung mô hình mạng Nơ-ron: .11 2.2.1 Mạng Nơ-ron nhân tạo (ANN) 11 2.2.2 Mạng nơ-ron sinh học 12 2.2.3 Kiến trúc tổng quát mạng neural nhân tạo: 13 2.3 Mạng nơron tích chập CNN: 16 2.4 Mạng nơron hồi quy RNN: .20 2.5 Mạng nơ-ron có nhớ ngắn dài LSTM: .23 iv 2.6 Kết luận chương 2: 29 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 30 3.1 Thông tin liệu 30 3.2 Môi trường thực nghiệm: 31 3.2.1 Ngơn ngữ lập trình python: 31 3.3 Phương pháp thực nghiệm: .34 3.3.1 Cách chia liệu: .34 3.4 Tiến hành thực nghiệm 39 3.4.1 Xây dựng thành phần chung cho mơ hình: 39 3.5 Kết chạy thực nghiệm 48 3.6 Nhận xét đánh giá .54 KẾT LUẬN 55 DANH MỤC TÀI LIỆU THAM KHẢO .56 DANH MỤC WEBSITE THAM KHẢO 58 v BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH Viết tắt Tiếng Anh Tiếng Việt Social Network Trực tuyến Social media phenomena Cộng đồng mạng Fanpage Trang thông tin trực tuyến Neural Mạng nơron Deep neural network Mạng nơron sâu Deep Learning Là phương pháp học sâu AI Filter Bộ lọc Convolutional Tích chập (Xoắn) NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên TF Term Frequency Tần số xuất từ văn N-Gram N-Gram Tần suất xuất n kí tự liên tiếp IDF Inverse Document Frequency AI Word embedding Từ nhúng (chuyển từ thành vector số) NN Neural Network Mạng nơron nhân tạo NLP Natural language processing Xử lý ngôn ngữ tự nhiên CNN Convolutional Neural Network Tần số nghịch từ tập văn Mạng nơron tích chập RNN Recurrent Neural Network Mạng nơron tái phát GRU Gated Recurrent Unit Là chế gating mạng neural tái phát LSTM Long short-term memory Là chế mạng nơron tái phát vi DANH MỤC BẢNG BIỂU Bảng 3.1: Mô tả liệu thực nghiệm .30 Bảng 3.2: Mô tả phân loại nhãn cho tập liệu thực nghiệm 30 Bảng 3.3: Bảng xếp hạng ngơn ngữ lập trình năm 2020 32 Bảng 3.4: Mô tả rank tensor 33 Bảng 3.5: Mô tả cú pháp shape tensor .33 Bảng 3.6: Mô tả kiểu liệu tensorflow 33 Bảng 3.7: Kết sử dụng mơ hình CNN 49 Bảng 3.8: Kết sử dụng mơ hình RNN 50 Bảng 3.9: Kết sử dụng mô hình LSTM 51 Bảng 3.10: Kết so sánh mơ hình 52 vii DANH MỤC HÌNH Hình 2.1 Mơ hình giai đoạn huấn luyện Hình 2.2: Mơ hình giai đoạn phân lớp .9 Hình 2.3: Một số stopword tiếng Anh [18] .11 Hình 2.4: Mơ hình mạng nơ ron sinh học 12 Hình 2.5: Mạng neural lớp ẩn 14 Hình 2.6: Mơ hình cấu tạo neural 14 Hình 2.7: Cơng thức tính hàm tổng Nơ-Ron .17 Hình 2.8: Cơng thức tính hàm chuyển đổi 17 Hình 2.9: Mơ hình thuật tốn CNN [15] 17 Hình 2.10: Cách nhân tích chập ma trận input với lọc 19 Hình 2.11: Mơ hình mạng RNN khơng kiểm sốt 21 Hình 2.12: Cơng thức tính vector trạng thái ẩn thời điểm t 22 Hình 2.13: Hàm softmax 22 Hình 2.14: Module xử lý tính ht RNN .24 Hình 2.15: Module lặp lại mạng LSTM chứa lớp tương tác 24 Hình 2.16: Cell state LSTM giống băng chuyền .25 Hình 2.17: Cổng trạng thái LSTM 25 Hình 2.18: Cổng chặn ft 26 Hình 2.19: Cổng vào it 26 Hình 2.20: Giá trị state Ct 27 Hình 2.21: Giá trị cổng vector trạng thái ẩn ht 27 Hình 2.22: Mơ hình LSTM luận văn sử dụng 28 Hình 3.1: Mơ tả cú pháp, dòng lệnh Python 41 Hình 3.2: Lựa chọn mơ hình dựa validation 35 Hình 3.3: Cơng thức tính độ đo 35 Hình 3.4: Mơ hình mạng CNN nghiên cứu 43 Hình 3.5: Mơ hình conv-maxpool mạng CNN 44 Hình 3.6: Mơ hình mạng RNN nghiên cứu .45 Hình 3.7: Biểu đồ so sánh mơ hình CNN, RNN, LSTM với nhãn “Gợi ý” 52 viii Hình 3.8: Biểu đồ so sánh mơ hình CNN, RNN, LSTM với nhãn“Khơng gợi ý” 53 Hình 3.9: Biểu đồ so sánh độ xác mơ hình .54 44 Hình 3.5: Mơ hình conv-maxpool mạng CNN 3.4.2.2 Mơ hình mạng neural RNN (Lớp ẩn sử dụng GRU cell) Dữ liệu đầu vào input từ nhúng (embedding word) chiều dạng [None, sequence_length, embedding_size], chuyển đổi sang dãy vector chiều dạng [None, embedding_size] Trong RNN vector chiều lặp lại (recurrent) từ gru_cell_0 đến gru_cell_38 Mỗi cell cho dropout_ kết cell, bên cạnh truyền tải kết cho cell Đầu RNN dãy vector có dạng [None, hidden_unit] 45 Mơ hình mạng TensorBoard: Hình 3.6: Mơ hình mạng RNN nghiên cứu 3.4.2.3 Mơ hình LSTM: Để huấn luyện mơ hình LSTM đưa vào mơ hình batch_size số câu lượt huấn luyện Cách đưa vào batch_size khơng đưa tồn mơ hình dựa tư tưởng thuật toán Mini-batch Gradient Decent Thuật tốn lấy ngẫu nhiên khơng lặp lại batch_size liệu từ tập huấn luyện Xây dựng mơ hình LSTM sử dụng thư viện TensorFlow [23] Trước tiên, cần tạo TensorFlow graph Để xây dựng TensorFlow graph, định nghĩa số siêu tham số (hyperparameter) batch_size, số lượng LSTM units, số lượng vòng lặp train vocab_size = 20000 batch_size = 512 lstm_units = 64 iterations = 100000 Đối với TensorFlow graph, định nghĩa placeholders liệu nhãn dựa 46 số chiều ma trận tương ứng import TensorFlow as tf tf.reset_default_graph() labels = tf.placeholder(tf.float32, [batch_size, numClasses]) input_data = tf.placeholder(tf.int32, [batch_size, max_seq_len]) data = tf.Variable(tf.zeros([batch_size, max_seq_len, num_feature]),dtype=tf.float32) data = tf.nn.embedding_lookup(wordVectors,input_data) Sử dụng hàm embedding_lookup cho việc embedding batch_size câu đầu vào Số chiều data (batch_size x max_seq_len x num_feature) tơi đưa data vào mơ hình LSTM việc sử dụng hàm tf.nn.rnn_cell.BasicLSTMCell Hàm BasicLSTMCell đầu vào siêu tham số lstm_units số lượng units layer LSTM Tham số phải tinh chỉnh phù hợp tập liệu để đạt kết tốt Ngồi ra, huấn luyện mơ hình mạng neural, nên dropout bớt tham số để tránh mơ hình bị overfitting lstmCell = tf.contrib.rnn.BasicLSTMCell(lstm_units) lstmCell = tf.contrib.rnn.DropoutWrapper(cell=lstmCell, output_keep_prob=0.75) value, _ = tf.nn.dynamic_rnn(lstmCell, data, dtype=tf.float32) Việc mô hình hóa LSTM tơi có nhiều cách để xây dựng tơi xếp chồng nhiều lớp LSTM lên nhau, vector ẩn cuối lớp LSTM thứ đầu vào lớp LSTM thứ Việc xếp chồng nhiều lớp LSTM lên coi cách tốt để lưu giữ phụ thuộc ngữ cảnh xa lâu dài Tuy nhiên số lượng tham số tăng gấp số lớp lần, đồng thời tăng thời gian huấn luyện, cần thêm liệu dễ bị overfitting Trong khuôn khổ tập liệu thu thập luận văn, khơng xếp chồng lớp LSTM thử nghiệm với nhiều lớp LSTM không hiệu gây overfitting Đầu mơ hình LSTM vector ẩn cuối 47 cùng, vector thay đổi để tương ứng với dạng vector kết đầu cách nhân với ma trận trọng số weight = tf.Variable(tf.truncated_normal([lstm_units, numClasses])) bias = tf.Variable(tf.constant(0.1, shape=[numClasses])) value = tf.transpose(value, [1, 0, 2]) last = tf.gather(value, int(value.get_shape()[0]) - 1) prediction = (tf.matmul(last, weight) + bias) Tính tốn độ xác (accuracy) dựa kết dự đốn mơ hình nhãn Kết dự đốn mơ hình giống với kết nhãn thực tế mơ hình có độ xác cao correctPred = tf.equal(tf.argmax(prediction,1), tf.argmax(labels,1)) accuracy = tf.reduce_mean(tf.cast(correctPred, tf.float32)) Kết dự đốn mơ hình khơng phải ln ln giống nhãn, gọi la lỗi Để huấn luyện mơ hình tơi cần tối thiểu hóa giá trị lỗi Định nghĩa hàm tính lỗi cross entropy layer softmax sử dụng thuật toán tối ưu Adam với learning_rate lựa chọn siêu tham số loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=prediction, labels=labels)) optimizer = tf.train.AdamOptimizer(learning_rate=0.0001).minimize(loss) Lưu trữ độ xác giá trị hàm lỗi qua vịng lặp huấn luyện sửa dụng tensorboard sess = tf.InteractiveSession() 48 saver = tf.train.Saver() tf.summary.scalar('Loss', loss) tf.summary.scalar('Accuracy', accuracy) logdir = "tensorboard/" str(maxSeqLength) + +"dict="+str(vocab_size) "_batch=" + str(batchSize) + + "_maxSeq=" + "_dimens=" + str(numDimensions) + "/" writer = tf.summary.FileWriter(logdir, sess.graph) merged = tf.summary.merge_all() Thực với mơ hình LSTM có nhiều loại tham số cần turning thay đổi tập liệu Ví dụ lựa chọn giá trị echpo,bacth size, learning_rate, lựa chọn hàm tối ưu, số lượng units LSTM, kích thước từ điển, số lượng đặc trưng từ, số vòng lặp thực huấn luyện LSTM … Dựa nhiều thử nghiệm, rút số tham số ảnh hưởng nhiều hay đến kết thực 3.5 Kết chạy thực nghiệm Với mạng Nơron nhận thấy mơ hình mạng CNN,RNN,LSTM tham số ảnh hưởng tới mạng mơ hình Epoch Batch size Trong mơ hình mạng ma trận lớp gần nhận thấy tham số Epoch Bath size có ảnh hưởng định tới kết mơ hình đạo tạo Epoch hyperparameter ANN, dùng để định nghĩa số lần learning algorithm hoạt động model, epoch hoàn thành tất liệu training đưa vào mạng neural network lần (đã bao gồm bước forward backward cho việc cập nhật internal model parameters) Thường cần số lượng lớn Epoch để training cho ANN (10, 100, 500, 1000…) nhiên tùy thuộc vào tốn tài ngun máy tính Một cách khác sử dụng Learning Curve để tìm số epoch Một tập training dataset chia nhỏ thành batches (sets, parts) 49 Một batch chứa training samples, số lượng samples gọi batch size Cần lưu ý có khái niệm khác batch size number of batches (số lượng batches) or iterations Tùy thuộc vào batch size mà GD có biến thể khác nhau: ● Batch Gradient Descent: Batch Size = Size of Training Dataset ● Stochastic Gradient Descent: Batch Size = ● Mini-Batch Gradient Descent: < Batch Size < Size of Training Set Thông thường thi Mini-Batch Gradient Descent sử dụng nhiều cho tốn tối ưu tính hội tụ ổn định so với Stochastic Gradient Descent Dữ liệu trước đưa vào dạng thường chọn cách ngẫu nhiên từ training dataset Đối với Mini-Batch Gradient Descent batch size thường chọn lũy thừa (32, 64, 128, 256…) tốc độ tính tốn tối ưu cho arithmetic algorithms CPU GPU Cách chọn batch size tùy theo u cầu tốn Trường hợp chia khơng “chẵn” số batch size theo training dataset batch cuối có samples batches khác Nhận thấy điều tơi thiết lập mơ hình với cặp tham số Epoch Batch size, với Epoch tơi chạy với vịng lặp 5,10,20, với Batch size tơi chạy với vịng lặp 32,64,128 với số lượng đặc trưng không đổi cho kết thể bảng sau: a, Kết thực nghiệm:  Kết với mơ hình CNN: Bảng 3.7: Kết sử dụng mơ hình CNN CNN Epoch Batch size 32 Accuracy % 71.16 Độ đo Pre% Re% F1% Gợi ý 77.58 70.20 73.71 Không gợi ý 77.32 72.03 74.62 10 64 74.25 Pre% Re% F1% 80.98 78.32 79.63 77.99 78.67 78.33 Dựa vào bảng kết 3.7 ta thấy: Pre% 84.07 88.91 20 128 81.52 Re% 79.16 82.42 F1% 81.45 83.04 50  Với Epoch= 20 Batch size = 128 cho kết cao với độ xác accuracy 81.52%  Với Epoch= 10 Batch size = 64 cho kết thấp với độ xác accuracy 74.25%  Với Epoch= Batch size = 32 cho kết thấp với độ xác accuracy 71.16%  Chênh lệch độ xác accuracy kết cao thấp 10.36%  Độ xác cao với cặp tham số Epoch= 20 Batch size = 128 tập trung vào nhãn “Gợi ý” với độ đo trung bình điều hịa F1 81.45% , nhãn “ Không gợi ý” với độ đo trung bình điều hịa F1 83.04%  Với mơ hình CNN, ta thấy kết khả quan sử dụng với cặp tham số Epoch= 20 Batch size = 128  Kết với mô hình RNN: Bảng 3.8: Kết sử dụng mơ hình RNN RNN Epoch 10 20 Batch size 32 64 128 69.46 71.28 76.81 Accuracy % Độ đo Pre% Re% F1% Pre% Re% F1% Pre% Re% Gợi ý 69.49 60.67 64.81 80.76 67.02 73.03 82.35 73.68 77.81 Không gợi ý 54.6 89.0 67.7 76.92 66.56 71.42 72.72 86.02 78.88 Dựa vào bảng kết 3.8 ta thấy:  Với Epoch= 20 Batch size = 128 cho kết cao với độ xác accuracy 76.81%  Với Epoch= 10 Batch size = 64 cho kết thấp với độ xác accuracy 71.28%  Với Epoch= Batch size = 32 cho kết thấp với độ xác accuracy 69.46% F1% 51  Chênh lệch độ xác accuracy kết cao thấp 7.35%  Độ xác cao với cặp tham số Epoch= 20 Batch size = 128 tập trung vào nhãn “Gợi ý” với độ đo trung bình điều hịa F1 77.81% , nhãn “ Khơng gợi ý” với độ đo trung bình điều hịa F1 78.88%  Với mơ hình RNN, ta thấy kết khả quan sử dụng với cặp tham số Epoch= 20 Batch size = 128  Kết với mơ hình LSTM: Bảng 3.9: Kết sử dụng mơ hình LSTM LSTM Epoch 10 20 Batch size 32 64 128 72.42 75.07 83.26 Accuracy % Độ đo Pre% Re% F1% Pre% Re% F1% Pre% Re% F1% Gợi ý 68.18 80.03 73.61 72.72 86.02 78.81 75.93 89.70 82.29 Không gợi ý 66.29 83.09 73.75 72.47 88.76 79.76 83.57 86.22 84.87 Dựa vào bảng kết 3.9 ta thấy:  Với Epoch= 20 Batch size = 128 cho kết cao với độ xác accuracy 83.26%  Với Epoch= 10 Batch size = 64 cho kết thấp với độ xác accuracy 75.07%  Với Epoch= Batch size = 32 cho kết thấp với độ xác accuracy 72.42%  Chênh lệch độ xác accuracy kết cao thấp 10.84%  Độ xác cao với cặp tham số Epoch= 20 Batch size = 128 tập trung vào nhãn “Gợi ý” với độ đo trung bình điều hịa F1 82.29% , nhãn “ Khơng gợi ý” với độ đo trung bình điều hịa F1 84.87% Với mơ hình LSTM, ta thấy kết khả quan sử dụng với cặp tham số Epoch= 20 Batch size = 128 52 b, So sánh kết thực nghiệm ba mơ hình CNN,RNN,LSTM: Thực lấy kết tốt cặp tham số Epoch= 20 Batch size = 128 mơ hình cho kết để thực so sánh biểu diễn qua bảng sau: Bảng 3.10: Kết so sánh mơ hình Mơ hình Accuracy % CNN 81.52 RNN 76.81 LSTM 83.26 Độ đo Pre% Re% F1% Pre% Re% F1% Pre% Re% F1% Gợi ý 84.07 79.16 81.45 82.35 73.68 77.81 75.93 89.70 82.29 Không gợi ý 88.91 82.42 83.04 72.72 86.02 78.88 83.57 86.22 84.87 Sau tiến hành thực nghiệm cho kết thuật toán CNN,RNN LSTM thực so sánh kết phương pháp theo nhãn “ Gợi ý”, “Không gợi ý” biểu diễn biểu đồ sau: 100 90 80 70 60 Precision 50 Recall 40 F1-score 30 20 10 CNN RNN LSTM Hình 3.7: Biểu đồ so sánh mơ hình CNN, RNN, LSTM với nhãn “Gợi ý” Dựa vào kết bảng 3.10 hình 3.7 với nhãn “ Gợi ý” ta thấy :  Thuật tốn mơ hình LSTM cho kết cao với độ xác F1 82.29 %  Thuật tốn mơ hình CNN cho kết thấp với độ xác F1 81.45%  Thuật tốn mơ hình RNN cho kết thấp với độ xác F1 77.81% 53  Độ chênh lệch F1 kết cao thấp là: 4,48%  Với nhãn “ Gợi ý” ta thấy kết khả quan sử dụng mơ hình LSTM 100 90 80 70 60 Precision 50 Recall 40 F1-score 30 20 10 CNN RNN LSTM Hình 3.8: Biểu đồ so sánh mơ hình CNN, RNN, LSTM với nhãn “Không gợi ý” Dựa vào kết bảng 3.10 hình 3.8 với nhãn “ Khơng gợi ý” ta thấy :  Thuật tốn mơ hình LSTM cho kết cao với độ xác F1 84.87 %  Thuật tốn mơ hình CNN cho kết thấp với độ xác F1 83.04%  Thuật tốn mơ hình RNN cho kết thấp với độ xác F1 78.88%  Độ chênh lệch F1 kết cao thấp là: 5.99%  Với nhãn “ Khơng gợi ý” ta thấy kết khả quan sử dụng mô hình LSTM 54 Acuracy% 84 82 80 78 Acuracy% 76 74 72 CNN RNN LSTM Hình 3.9: Biểu đồ so sánh độ xác mơ hình Từ bảng kết hình 3.9 bảng 3.10, tơi thấy :  Mơ hình LSTM có kết xác acuracy cao 83.26%,  Mơ hình CNN có kết xác acuracy thấp 81.52%  Mơ hình RNN có kết xác acuracy thấp 76.81%  Chênh lệch độ xác accuracy kết cao thấp 6.45% Điều chứng tỏ, độ chệnh lệch mơ hình khơng q cao Ta thấy độ xác dù chênh lêch kết hai mơ hình khơng nhiều phương pháp giúp cải thiện độ xác việc phân loại 3.6 Nhận xét đánh giá Dựa vào số liệu trên, kết ngữ liệu tiếng Anh tốt, kết sử dụng model LSTM cho kết tốt so với thuật toán CNN, RNN để lựa chọn mơ hình áp dụng cho đề tài “ Phát câu chứa gợi ý diễn đàn trực tuyến sử dụng mạng Nơ-Ron”, đề xuất đánh giá cao mơ hình LSTM Bên cạnh đó, số liệu trung bình độ chênh lệch độ xác mơ hình LSTM cho kết khả quan Tóm lại mơ hình mạng neural CNN RNN, LSTM cho thấy cách nhìn việc phân loại câu văn nói riêng xử lý ngơn ngữ tự nhiên nói chung, 55 cách sử dụng học chun sâu kết hợp mơ hình mạng neural Luận văn đưa nhận xét, đánh giá so sánh mơ hình, phân lớp, từ đưa mơ hình tốt việc giải tốn phân loại câu chưa gợi ý người dùng diễn đàn trực tuyến nêu KẾT LUẬN Xử Lý Ngôn Ngữ Tự Nhiên nói chung đặc biệt phân loại câu chứa gợi ý người dùng nói riêng ngày đóng vai trị quan trọng hoạt động thương mại, mua bán,du lịch… nay.Trong luận văn này, tiến hành nghiên cứu phương pháp nhằm cải thiện độ xác cho tốn phân loại câu văn bản, cụ thể cải thiện độ xác cho toán phân loại câu chứa gợi ý diễn đàn trực tuyến Bài toán xác định tốn có độ phức tạp có nhiều ứng dụng thực tế Phương pháp giải luận văn tập trung vào việc nâng cao 56 độ xác việc phân loại ý định người dùng thông qua diễn đàn trực tuyến Bằng việc sử dụng mơ hình phân lớp quen thuộc CNN RNN,LSTM với tập liệu thu từ diễn đàn trực tuyến, luận văn đưa số phương pháp để giải cho toán đề Quá trình thực nghiệm đạt kết khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, đồng thời hứa hẹn nhiều tiềm phát triển hồn thiện Nhìn chung, luận văn đạt số kết như: - Trình bày cách khái quát, tổng quan nêu lên ý nghĩa, vai trò quan trọng toán phân loại câu chứa gợi ý người dùng diễn đàn trực tuyến - Nghiên cứu mơ hình khác cho toán phân loại câu chứa gợi ý - Nghiên cứu làm thực nghiệm với thuật toán học máy khác - So sánh phân tích kết thực nghiệm, đưa kết tốt Luận văn số hạn chế như: - Nghiên cứu dựa số lượng liệu cịn chưa đầy đủ - Kết thực nghiệm đạt chưa thực cao - Chỉ thử nghiệm tập liệu tiếng anh Về hướng phát triển tương lai, tiến hành thu thập phát triển tập liệu lớn dựa nhiều đặc trưng để góp phần cải thiện khả phân loại Bên cạnh chúng tơi nghiên cứu thử nghiệm với số thuật tốn khác để tìm thuật toán phù hợp với toán phân loại câu chứa gợi ý người dùng trực tuyến tiếng Việt Khắc phục lỗi trình xử lý để nâng cao kết thực nghiệm DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Bùi Công Cường, Nguyễn Doãn Phước (2001) Hệ mờ, mạng nơ-ron ứng dụng Nhà xuất Khoa học kỹ thuật Hà Nội [2] Ngo Xuan Bach, Tu Minh Phuong, “Leveraging User Ratings for Resource- Poor Sentiment Classification”, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp 322–331, 2015 57 [3] Nguyễn Minh Thành, Phân loại văn bản, Luận văn môn học Xử lý ngôn ngữ tự nhiên, Đại học quốc gia Thành phố Hồ Chí Minh, 01/2011 [4] Từ Minh Phương Giáo trình nhập mơn trí tuệ nhân tạo Nhà xuất Thông tin Truyền thông, 2016 Tiếng Anh [5] https://github.com/Semeval2019Task9/Subtask-A [6] Zhang Y, Wallace B A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification arXiv preprint arXiv:151003820 2015; PMID: 463165 [7] Ahmed Husseini Orabi, Prasadith Buddhitha, Mahmoud Husseini Orabi, Diana Inkpen, “Deep Learning for Depression Detection of Twitter Users”, 2018 [8] Awais Athar, Simone Teufel, “Detection of Implicit Citations for Sentiment Detection”, 2012 [9] B Liu (2009), Handbook Chapter: Sentiment Analysis and Subjectivity Handbook of Natural Language Processing, Handbook of Natural Language Processing Marcel Dekker, Inc New York, NY, USA [10] Maria Karanasou, Christos Doulkeridis, Maria Halkidi, “DsUniPi: An SVMbased Approach for Sentiment Analysis of Figurative Language on Twitter”, 2015 [11] Peng Chen, Zhongqian Sun Lidong Bing, Wei Yang, “Recurrent Attention Network on Memory for Aspect Sentiment Analysis”, 2017 [12] Peng Zhou, Zhenyu Qi, Suncong Zheng, Jiaming Xu, Hongyun Bao, Bo Xu, “Text Classification Improved by Integrating Bidirectional LSTM with Twodimensional Max Pooling”, 2016 [13] Kröll, M., & Strohmaier, M (2009, September) Analyzing human intentions in natural language text In Proceedings of the fifth international conference on Knowledge capture (pp 197-198) ACM [14] Kim Y Convolutional Neural Networks for Sentence Classification 2014 [15] Zhang Y, Wallace B A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification arXiv preprint 58 arXiv:151003820 2015; PMID: 463165 DANH MỤC WEBSITE THAM KHẢO [16] Wikipedia: http://www.wikipedia.org [17] Google : https://www.google.com [18] Danh sách stop word tiêu chuẩn http://www.ranks.nl/stopwords [19] https://d2l.ai/chapter_convolutional-neural-networks/index.html [20] http://karpathy.github.io/2015/05/21/rnn-effectiveness/ [21] http://colah.github.io/posts/2015-08-Understanding-LSTMs/ [22] https://www.python.org/ [23] https://www.tensorflow.org [24] https://cs231n.github.io/neural-networks-1/ [25] Andrej Karpathy (2015), The Unreasonable Effectiveness of Recurrent Neural Network at Andrej Karpathy blog [26] https://machinelearningcoban.com/2017/03/04/overfitting/ [27] http://www.joshuakim.io/understanding-how-convolutional-neural-networkcnn-perform-text-classification-with-word-embeddings/ ... toán phân loại phát câu chứa gợi ý Bài toán phân loại câu, phân loại văn thấy nhiều ứng dụng NLP (xử lý ngôn ngữ tự nhiên) Bài toán phát câu chứa gợi ý diễn đàn trực tuyến sử dụng mạng Nơ- ron... giảm hiệu phát câu chứa gợi ý dựa cách xử lý truyền thống 6 Phát câu chứa gợi ý toán cho câu S, dự đốn nhãn L cho S L ∈ {có chứa gợi ý, khơng chứa gợi ý} Để xử lý cần có Tập liệu câu S phân... áp dụng phương pháp học máy phân lớp phương pháp biểu diễu đặc trưng mơ hình tốn phát câu chứa gợi ý diễn đàn trực tuyến sử dụng mạng Nơ ron Chương trình bày hệ thống phát câu chứa gợi ý diễn đàn

Định dạng
Số trang	68
Dung lượng	1,79 MB