(Luận văn) phát hiện câu chứa gợi ý trên diễn đàn trực tuyến sử dụng mạng nơron

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu TỐNG NGUYÊN SƠN an n va gh tn to p ie PHÁT HIỆN CÂU CHỨA GỢI Ý TRÊN DIỄN ĐÀN d oa nl w TRỰC TUYẾN SỬ DỤNG MẠNG NƠ - RON ll u nf va an lu oi m z at nh LUẬN VĂN THẠC SĨ KỸ THUẬT z (Theo định hướng ứng dụng) m co l gm @ an Lu n va HÀ NỘI - 2020 ac th si HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TỐNG NGUYÊN SƠN lu an n va p ie gh tn to PHÁT HIỆN CÂU CHỨA GỢI Ý TRÊN DIỄN ĐÀN TRỰC TUYẾN SỬ DỤNG MẠNG NƠ-RON w d oa nl Chuyên ngành: Hệ thống thông tin u nf va an lu Mã số: 8.48.01.04 ll LUẬN VĂN THẠC SĨ KỸ THUẬT oi m z at nh (Theo định hướng ứng dụng) z m co l gm @ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ XUÂN BÁCH an Lu n va HÀ NỘI – 2020 ac th si LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi hướng dẫn Tiến sĩ Ngô Xuân Bách Các kết đạt luận văn sản phẩm riêng cá nhân, không chép người khác Nội dung luận văn có tham khảo sử dụng số thơng tin, tài liệu từ nguồn sách, tạp chí liệt kê danh mục tài liệu tham khảo Tác giả luận văn ký ghi rõ họ tên lu an n va tn to Tống Nguyên Sơn p ie gh d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến Thầy TS Ngô Xuân Bách, người tận tình hướng dẫn, hỗ trợ giúp đỡ nhiều nghiên cứu luận văn Thầy đưa định hướng, nhận xét góp ý q giá để luận văn hồn thành tốt Kính gửi lời cảm ơn đến quý Thầy, Cơ giảng viên tận tình giảng dạy truyền đạt kiến thức chuyên môn cần thiết q trình tơi học tập Học viện Cơng nghệ Bưu Viễn thơng Xin gửi lời biết ơn đến gia đình khơng ngừng quan tâm, động viên, ủng hộ lu an mặt tinh thần lẫn vật chất suốt thời gian tơi tham gia khóa học thực n va luận văn tn to Cảm ơn bạn lớp Cao học M18CQIS02B giúp đỡ đồng hành Thời gian thực luận văn ngắn, kinh nghiệm lĩnh vực xử lý p ie gh năm tháng học tập nhà trường ngôn ngữ tự nhiên thân hạn chế, luận văn nhiều thiếu sót oa nl w mong nhận ý kiến đóng góp q Thầy Cơ bạn để tơi hồn thiện luận văn cách tốt d an lu ll u nf va Xin trân trọng cảm ơn! oi m z at nh z m co l gm @ an Lu n va ac th si MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN ii MỤC LỤC iii BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH v DANH MỤC BẢNG BIỂU vi DANH MỤC HÌNH .vii LỜI NÓI ĐẦU .1 CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN PHÂN LOẠI CÂU CHỨA GỢI Ý lu an 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên n va 1.2 Bài toán phát câu chứa gợi ý diễn đàn trực tuyến 1.2.2 Phát biểu toán phân loại phát câu chứa gợi ý .5 1.2.3 Ý nghĩa toán: .6 p ie gh tn to 1.2.1 Phân loại liệu văn 1.3 Các nghiên cứu liên quan oa nl w 1.4 Kết luận chương CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN CÂU CHỨA GỢI Ý SỬ DỤNG d an lu HỌC MÁY .8 va 2.1 Phương pháp giải toán: ll u nf 2.1.1 Tiền xử lý liệu 10 oi m 2.1.2 Lọc nhiễu (loại bỏ từ không mang nghĩa) .10 z at nh 2.1.3 Loại bỏ từ phổ biến (stop word): 10 2.2 Giới thiệu chung mơ hình mạng Nơ-ron: 11 z 2.2.1 Mạng Nơ-ron nhân tạo (ANN) 11 @ gm 2.2.2 Mạng nơ-ron sinh học 12 l 2.2.3 Kiến trúc tổng quát mạng neural nhân tạo: .13 m co 2.3 Mạng nơron tích chập CNN: .16 2.4 Mạng nơron hồi quy RNN: 20 an Lu 2.5 Mạng nơ-ron có nhớ ngắn dài LSTM: 23 n va ac th si 2.6 Kết luận chương 2: 29 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 30 3.1 Thông tin liệu .30 3.2 Môi trường thực nghiệm: 31 3.2.1 Ngơn ngữ lập trình python: 31 3.3 Phương pháp thực nghiệm: 34 3.3.1 Cách chia liệu: 34 3.4 Tiến hành thực nghiệm 39 3.4.1 Xây dựng thành phần chung cho mơ hình: .39 lu 3.5 Kết chạy thực nghiệm 48 an n va 3.6 Nhận xét đánh giá 54 DANH MỤC TÀI LIỆU THAM KHẢO 56 gh tn to KẾT LUẬN 55 p ie DANH MỤC WEBSITE THAM KHẢO 58 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH Tiếng Việt Social Network Trực tuyến Social media phenomena Cộng đồng mạng Fanpage Trang thông tin trực tuyến Neural Mạng nơron Deep neural network Mạng nơron sâu Deep Learning Là phương pháp học sâu AI Filter Bộ lọc Convolutional Tích chập (Xoắn) NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên TF Term Frequency Tần số xuất từ văn N-Gram N-Gram Tần suất xuất n kí tự liên tiếp IDF Inverse Document Frequency AI Word embedding Từ nhúng (chuyển từ thành vector số) Neural Network Mạng nơron nhân tạo Natural language processing Xử lý ngôn ngữ tự nhiên lu Tiếng Anh ie Viết tắt an n va gh tn to p d oa nl NLP w NN Tần số nghịch từ tập văn lu Mạng nơron tích chập va an CNN Convolutional Neural Network Recurrent Neural Network GRU Gated Recurrent Unit u nf RNN Mạng nơron tái phát ll Là chế gating mạng neural tái m oi phát Long short-term memory Là chế mạng nơron tái phát z at nh LSTM z m co l gm @ an Lu n va ac th si DANH MỤC BẢNG BIỂU Bảng 3.1: Mô tả liệu thực nghiệm 30 Bảng 3.2: Mô tả phân loại nhãn cho tập liệu thực nghiệm 30 Bảng 3.3: Bảng xếp hạng ngơn ngữ lập trình năm 2020 32 Bảng 3.4: Mô tả rank tensor .33 Bảng 3.5: Mô tả cú pháp shape tensor 33 Bảng 3.6: Mô tả kiểu liệu tensorflow .33 Bảng 3.7: Kết sử dụng mơ hình CNN .49 Bảng 3.8: Kết sử dụng mơ hình RNN .50 lu an Bảng 3.9: Kết sử dụng mơ hình LSTM 51 n va Bảng 3.10: Kết so sánh mơ hình 52 p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si DANH MỤC HÌNH Hình 2.1 Mơ hình giai đoạn huấn luyện Hình 2.2: Mơ hình giai đoạn phân lớp Hình 2.3: Một số stopword tiếng Anh [18] 11 Hình 2.4: Mơ hình mạng nơ ron sinh học 12 Hình 2.5: Mạng neural lớp ẩn .14 Hình 2.6: Mơ hình cấu tạo neural 14 Hình 2.7: Cơng thức tính hàm tổng Nơ-Ron 17 Hình 2.8: Cơng thức tính hàm chuyển đổi .17 lu Hình 2.9: Mơ hình thuật tốn CNN [15] 17 an va Hình 2.10: Cách nhân tích chập ma trận input với lọc 19 n Hình 2.11: Mơ hình mạng RNN khơng kiểm sốt 21 tn to Hình 2.12: Cơng thức tính vector trạng thái ẩn thời điểm t .22 ie gh Hình 2.13: Hàm softmax .22 p Hình 2.14: Module xử lý tính ht RNN 24 w Hình 2.15: Module lặp lại mạng LSTM chứa lớp tương tác 24 oa nl Hình 2.16: Cell state LSTM giống băng chuyền 25 d Hình 2.17: Cổng trạng thái LSTM 25 lu an Hình 2.18: Cổng chặn ft 26 u nf va Hình 2.19: Cổng vào it 26 ll Hình 2.20: Giá trị state Ct 27 oi m Hình 2.21: Giá trị cổng vector trạng thái ẩn ht 27 z at nh Hình 2.22: Mơ hình LSTM luận văn sử dụng 28 z Hình 3.1: Mô tả cú pháp, dòng lệnh Python 41 @ gm Hình 3.2: Lựa chọn mô hình dựa validation 35 m co l Hình 3.3: Cơng thức tính độ đo .35 Hình 3.4: Mơ hình mạng CNN nghiên cứu 43 an Lu Hình 3.5: Mơ hình conv-maxpool mạng CNN .44 Hình 3.6: Mơ hình mạng RNN nghiên cứu 45 n va ac th si Hình 3.7: Biểu đồ so sánh mơ hình CNN, RNN, LSTM với nhãn “Gợi ý” 52 Hình 3.8: Biểu đồ so sánh mơ hình CNN, RNN, LSTM với nhãn“Không gợi ý” .53 Hình 3.9: Biểu đồ so sánh độ xác mơ hình 54 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si lu an n va p ie gh tn to d oa nl w lu va an Hình 3.5: Mơ hình conv-maxpool mạng CNN u nf 3.4.2.2 Mơ hình mạng neural RNN (Lớp ẩn sử dụng GRU cell) ll Dữ liệu đầu vào input từ nhúng (embedding word) chiều dạng [None, m oi sequence_length, embedding_size], chuyển đổi sang dãy vector chiều z at nh dạng [None, embedding_size] Trong RNN vector chiều lặp lại (recurrent) từ gru_cell_0 đến gru_cell_38 Mỗi cell cho dropout_ z gm @ kết cell, bên cạnh truyền tải kết cho cell Đầu RNN dãy vector có dạng [None, hidden_unit] m co l an Lu n va ac th si Mô hình mạng TensorBoard: lu an n va p ie gh tn to w oa nl Hình 3.6: Mô hình mạng RNN nghiên cứu d 3.4.2.3 Mơ hình LSTM: lu an Để huấn luyện mơ hình LSTM đưa vào mơ hình batch_size số câu u nf va lượt huấn luyện Cách đưa vào batch_size khơng đưa tồn mơ hình dựa tư ll tưởng thuật toán Mini-batch Gradient Decent Thuật toán lấy ngẫu nhiên oi m không lặp lại batch_size liệu từ tập huấn luyện z at nh Xây dựng mơ hình LSTM sử dụng thư viện TensorFlow [23] Trước tiên, cần tạo TensorFlow graph Để xây dựng TensorFlow graph, định nghĩa số siêu tham số z (hyperparameter) batch_size, số lượng LSTM units, số lượng vòng lặp m co l an Lu lstm_units = 64 iterations = 100000 gm vocab_size = 20000 batch_size = 512 @ train n va ac th si Đối với TensorFlow graph, định nghĩa placeholders liệu nhãn dựa số chiều ma trận tương ứng import TensorFlow as tf tf.reset_default_graph() labels = tf.placeholder(tf.float32, [batch_size, numClasses]) input_data = tf.placeholder(tf.int32, [batch_size, max_seq_len]) lu data = tf.Variable(tf.zeros([batch_size, max_seq_len, an num_feature]),dtype=tf.float32) n va tn to data = tf.nn.embedding_lookup(wordVectors,input_data) gh Sử dụng hàm embedding_lookup cho việc embedding batch_size câu đầu p ie vào Số chiều data (batch_size x max_seq_len x num_feature) tơi đưa data w vào mơ hình LSTM việc sử dụng hàm tf.nn.rnn_cell.BasicLSTMCell Hàm oa nl BasicLSTMCell đầu vào siêu tham số lstm_units số lượng units layer d LSTM Tham số phải tinh chỉnh phù hợp tập liệu để an lu đạt kết tốt Ngồi ra, huấn luyện mơ hình mạng neural, nên dropout u nf va bớt tham số để tránh mơ hình bị overfitting lstmCell = tf.contrib.rnn.BasicLSTMCell(lstm_units) ll oi m lstmCell = tf.contrib.rnn.DropoutWrapper(cell=lstmCell, output_keep_prob=0.75) z at nh value, _ = tf.nn.dynamic_rnn(lstmCell, data, dtype=tf.float32) Việc mơ hình hóa LSTM tơi có nhiều cách để xây dựng tơi xếp chồng z nhiều lớp LSTM lên nhau, vector ẩn cuối lớp LSTM thứ @ gm đầu vào lớp LSTM thứ Việc xếp chồng nhiều lớp LSTM lên coi m co l cách tốt để lưu giữ phụ thuộc ngữ cảnh xa lâu dài Tuy nhiên số lượng tham số tăng gấp số lớp lần, đồng thời tăng thời gian huấn luyện, cần thêm an Lu liệu dễ bị overfitting Trong khuôn khổ tập liệu thu thập luận văn, không xếp chồng lớp LSTM thử nghiệm với n va ac th si nhiều lớp LSTM không hiệu gây overfitting Đầu mơ hình LSTM vector ẩn cuối cùng, vector thay đổi để tương ứng với dạng vector kết đầu cách nhân với ma trận trọng số weight = tf.Variable(tf.truncated_normal([lstm_units, numClasses])) bias = tf.Variable(tf.constant(0.1, shape=[numClasses])) value = tf.transpose(value, [1, 0, 2]) last = tf.gather(value, int(value.get_shape()[0]) - 1) lu prediction = (tf.matmul(last, weight) + bias) an va n Tính tốn độ xác (accuracy) dựa kết dự đốn mơ hình tn to nhãn Kết dự đốn mơ hình giống với kết nhãn thực tế mơ hình p ie gh có độ xác cao correctPred = tf.equal(tf.argmax(prediction,1), tf.argmax(labels,1)) w d oa nl accuracy = tf.reduce_mean(tf.cast(correctPred, tf.float32)) lu va an Kết dự đốn mơ hình khơng phải ln ln giống nhãn, gọi la lỗi Để huấn luyện mơ hình tơi cần tối thiểu hóa giá trị lỗi Định nghĩa hàm tính u nf ll lỗi cross entropy layer softmax sử dụng thuật toán tối ưu Adam với m oi learning_rate lựa chọn siêu tham số labels=labels)) z at nh loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=prediction, z optimizer = tf.train.AdamOptimizer(learning_rate=0.0001).minimize(loss) gm @ dụng tensorboard an Lu sess = tf.InteractiveSession() m co l Lưu trữ độ xác giá trị hàm lỗi qua vòng lặp huấn luyện sửa n va ac th si saver = tf.train.Saver() tf.summary.scalar('Loss', loss) tf.summary.scalar('Accuracy', accuracy) logdir = "tensorboard/" str(maxSeqLength) + +"dict="+str(vocab_size) "_batch=" + str(batchSize) + + "_maxSeq=" + "_dimens=" + lu str(numDimensions) + "/" writer = tf.summary.FileWriter(logdir, sess.graph) an n va merged = tf.summary.merge_all() tn to gh Thực với mơ hình LSTM có nhiều loại tham số cần turning thay đổi p ie tập liệu Ví dụ lựa chọn giá trị echpo,bacth size, learning_rate, w lựa chọn hàm tối ưu, số lượng units LSTM, kích thước từ điển, số lượng đặc trưng oa nl từ, số vòng lặp thực huấn luyện LSTM … Dựa nhiều thử nghiệm, d rút số tham số ảnh hưởng nhiều hay đến kết thực an lu 3.5 Kết chạy thực nghiệm u nf va Với mạng Nơron nhận thấy mô hình mạng CNN,RNN,LSTM tham số ảnh hưởng tới mạng mơ hình Epoch Batch size Trong mơ hình ll oi m mạng ma trận lớp gần nhận thấy tham số Epoch Bath size có ảnh z at nh hưởng định tới kết mơ hình đạo tạo Epoch hyperparameter ANN, dùng để định nghĩa số lần z learning algorithm hoạt động model, epoch hoàn thành tất liệu @ gm training đưa vào mạng neural network lần (đã bao gồm bước forward l backward cho việc cập nhật internal model parameters) m co Thường cần số lượng lớn Epoch để training cho ANN (10, an Lu 100, 500, 1000…) nhiên tùy thuộc vào tốn tài ngun máy tính Một cách khác sử dụng Learning Curve để tìm số epoch n va ac th si Một tập training dataset chia nhỏ thành batches (sets, parts) Một batch chứa training samples, số lượng samples gọi batch size Cần lưu ý có khái niệm khác batch size number of batches (số lượng batches) or iterations Tùy thuộc vào batch size mà GD có biến thể khác nhau: ● Batch Gradient Descent: Batch Size = Size of Training Dataset ● Stochastic Gradient Descent: Batch Size = ● Mini-Batch Gradient Descent: < Batch Size < Size of Training Set Thông thường thi Mini-Batch Gradient Descent sử dụng nhiều cho lu tốn tối ưu tính hội tụ ổn định so với Stochastic Gradient Descent Dữ an n va liệu trước đưa vào dạng thường chọn cách ngẫu nhiên từ chọn lũy thừa (32, 64, 128, 256…) tốc độ tính tốn tối ưu cho gh tn to training dataset Đối với Mini-Batch Gradient Descent batch size thường ie arithmetic algorithms CPU GPU Cách chọn batch size tùy theo yêu p cầu toán Trường hợp chia không “chẵn” số batch size theo training dataset nl w batch cuối có samples batches khác d oa Nhận thấy điều tơi thiết lập mơ hình với cặp tham số Epoch an lu Batch size, với Epoch tơi chạy với vịng lặp 5,10,20, với Batch size u nf thể bảng sau: va chạy với vòng lặp 32,64,128 với số lượng đặc trưng không đổi cho kết ll a, Kết thực nghiệm: Kết với mô hình CNN: oi m  z at nh Bảng 3.7: Kết sử dụng mơ hình CNN CNN 10 64 74.25 Pre% Re% F1% 80.98 78.32 79.63 77.99 78.67 78.33 z m co l gm @ Epoch Batch size 32 Accuracy % 71.16 Độ đo Pre% Re% F1% Gợi ý 77.58 70.20 73.71 Không gợi ý 77.32 72.03 74.62 Pre% 84.07 88.91 20 128 81.52 Re% 79.16 82.42 F1% 81.45 83.04 an Lu n va ac th si Dựa vào bảng kết 3.7 ta thấy:  Với Epoch= 20 Batch size = 128 cho kết cao với độ xác accuracy 81.52%  Với Epoch= 10 Batch size = 64 cho kết thấp với độ xác accuracy 74.25%  Với Epoch= Batch size = 32 cho kết thấp với độ xác accuracy 71.16%  Chênh lệch độ xác accuracy kết cao thấp 10.36% lu an  Độ xác cao với cặp tham số Epoch= 20 Batch size = 128 n va tập trung vào nhãn “Gợi ý” với độ đo trung bình điều hịa F1 81.45% , nhãn “ tn to Khơng gợi ý” với độ đo trung bình điều hịa F1 83.04%  gh Với mơ hình CNN, ta thấy kết khả quan sử dụng Kết với mơ hình RNN:  p ie với cặp tham số Epoch= 20 Batch size = 128 nl w Bảng 3.8: Kết sử dụng mơ hình RNN 10 20 32 64 128 69.46 71.28 76.81 an lu Epoch d oa RNN va Batch size Pre% Re% F1% F1% Pre% Re% Gợi ý 69.49 60.67 64.81 80.76 67.02 73.03 82.35 73.68 77.81 Không gợi ý 54.6 89.0 67.7 76.92 66.56 71.42 72.72 86.02 78.88 m Độ đo oi ll u nf Accuracy % Pre% Re% F1% z at nh z m co l Với Epoch= 20 Batch size = 128 cho kết cao với độ xác accuracy 76.81% Với Epoch= 10 Batch size = 64 cho kết thấp với độ xác accuracy 71.28% an Lu  gm  @ Dựa vào bảng kết 3.8 ta thấy: n va ac th si  Với Epoch= Batch size = 32 cho kết thấp với độ xác accuracy 69.46%  Chênh lệch độ xác accuracy kết cao thấp 7.35%  Độ xác cao với cặp tham số Epoch= 20 Batch size = 128 tập trung vào nhãn “Gợi ý” với độ đo trung bình điều hịa F1 77.81% , nhãn “ Khơng gợi ý” với độ đo trung bình điều hịa F1 78.88%  Với mơ hình RNN, ta thấy kết khả quan sử dụng với cặp tham số Epoch= 20 Batch size = 128 lu an  Kết với mơ hình LSTM: n va Bảng 3.9: Kết sử dụng mơ hình LSTM 10 20 Batch size 32 64 128 p Epoch 72.42 75.07 83.26 ie gh tn to LSTM Re% F1% Pre% Re% F1% Pre% Re% F1% 68.18 80.03 73.61 72.72 86.02 78.81 75.93 89.70 82.29 an Pre 73.75 72.47 88.76 79.76 83.57 86.22 84.87 % d oa nl Độ đo w Accuracy % lu Gợi ý 66.29 83.09 ll u nf va Không gợi ý Với Epoch= 20 Batch size = 128 cho kết cao với độ xác accuracy 83.26% Với Epoch= 10 Batch size = 64 cho kết thấp với độ xác z  gm m co l Với Epoch= Batch size = 32 cho kết thấp với độ xác accuracy 72.42% Chênh lệch độ xác accuracy kết cao thấp 10.84% an Lu  @ accuracy 75.07%  z at nh  oi m Dựa vào bảng kết 3.9 ta thấy: n va ac th si  Độ xác cao với cặp tham số Epoch= 20 Batch size = 128 tập trung vào nhãn “Gợi ý” với độ đo trung bình điều hịa F1 82.29% , nhãn “ Khơng gợi ý” với độ đo trung bình điều hịa F1 84.87% Với mơ hình LSTM, ta thấy kết khả quan sử dụng với cặp tham số Epoch= 20 Batch size = 128 b, So sánh kết thực nghiệm ba mơ hình CNN,RNN,LSTM: Thực lấy kết tốt cặp tham số Epoch= 20 Batch size = 128 mơ hình cho kết để thực so sánh biểu diễn qua bảng sau: lu an Bảng 3.10: Kết so sánh mơ hình n va Mơ hình Accuracy % CNN 81.52 RNN 76.81 LSTM 83.26 p ie gh tn to Độ đo Pre% Re% F1% Pre% Re% F1% Pre% Re% F1% Gợi ý 84.07 79.16 81.45 82.35 73.68 77.81 75.93 89.70 82.29 Không gợi ý 88.91 82.42 83.04 72.72 86.02 78.88 83.57 86.22 84.87 nl w Sau tiến hành thực nghiệm cho kết thuật toán CNN,RNN oa LSTM thực so sánh kết phương pháp theo nhãn “ Gợi ý”, d “Không gợi ý” biểu diễn biểu đồ sau: an lu 100 va u nf 90 ll 80 m 70 oi z at nh 60 50 z 40 Precision Recall F1-score @ 30 gm 20 RNN LSTM an Lu CNN m co l 10 Hình 3.7: Biểu đồ so sánh mơ hình CNN, RNN, LSTM với nhãn “Gợi ý” n va ac th si Dựa vào kết bảng 3.10 hình 3.7 với nhãn “ Gợi ý” ta thấy :  Thuật tốn mơ hình LSTM cho kết cao với độ xác F1 82.29 %  Thuật tốn mơ hình CNN cho kết thấp với độ xác F1 81.45%  Thuật tốn mơ hình RNN cho kết thấp với độ xác F1 77.81%  Độ chênh lệch F1 kết cao thấp là: 4,48%  Với nhãn “ Gợi ý” ta thấy kết khả quan sử dụng mơ hình lu an LSTM va 100 n 80 gh tn to 90 p ie 70 60 Precision Recall F1-score w oa nl 50 40 d an lu 30 va 20 ll u nf 10 RNN LSTM oi CNN m z at nh Hình 3.8: Biểu đồ so sánh mơ hình CNN, RNN, LSTM với nhãn “Không gợi ý” Dựa vào kết bảng 3.10 hình 3.8 với nhãn “ Khơng gợi ý” ta thấy : z Thuật tốn mơ hình LSTM cho kết cao với độ xác F1 84.87 @  l  gm % Thuật tốn mơ hình CNN cho kết thấp với độ xác F1 Thuật tốn mơ hình RNN cho kết thấp với độ xác F1 an Lu  m co 83.04% n va ac th si 78.88%  Độ chênh lệch F1 kết cao thấp là: 5.99%  Với nhãn “ Khơng gợi ý” ta thấy kết khả quan sử dụng mơ hình LSTM Acuracy% 84 82 lu an 80 va Acuracy% n 78 74 CNN RNN LSTM oa nl w 72 p ie gh tn to 76 d Hình 3.9: Biểu đồ so sánh độ xác mơ hình lu an Từ bảng kết hình 3.9 bảng 3.10, thấy : Mơ hình LSTM có kết xác acuracy cao 83.26%,  Mơ hình CNN có kết xác acuracy thấp 81.52%  Mơ hình RNN có kết xác acuracy thấp 76.81%  Chênh lệch độ xác accuracy kết cao thấp ll u nf va  oi m z at nh 6.45% z Điều chứng tỏ, độ chệnh lệch mơ hình khơng q cao Ta có @ gm thể thấy độ xác dù chênh lêch kết hai mơ hình khơng nhiều 3.6 Nhận xét đánh giá m co l phương pháp giúp cải thiện độ xác việc phân loại an Lu Dựa vào số liệu trên, kết ngữ liệu tiếng Anh tốt, kết sử dụng model LSTM cho kết tốt so với thuật toán CNN, RNN để lựa n va ac th si chọn mơ hình áp dụng cho đề tài “ Phát câu chứa gợi ý diễn đàn trực tuyến sử dụng mạng Nơ-Ron”, đề xuất đánh giá cao mơ hình LSTM Bên cạnh đó, số liệu trung bình độ chênh lệch độ xác mơ hình LSTM cho kết khả quan Tóm lại mơ hình mạng neural CNN RNN, LSTM cho thấy cách nhìn việc phân loại câu văn nói riêng xử lý ngơn ngữ tự nhiên nói chung, cách sử dụng học chuyên sâu kết hợp mơ hình mạng neural Luận văn đưa nhận xét, đánh giá so sánh mơ hình, phân lớp, từ đưa mơ hình tốt việc giải toán phân loại câu lu chưa gợi ý người dùng diễn đàn trực tuyến nêu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ KẾT LUẬN an Lu Xử Lý Ngôn Ngữ Tự Nhiên nói chung đặc biệt phân loại câu chứa gợi ý n va ac th si người dùng nói riêng ngày đóng vai trị quan trọng hoạt động thương mại, mua bán,du lịch… nay.Trong luận văn này, tiến hành nghiên cứu phương pháp nhằm cải thiện độ xác cho tốn phân loại câu văn bản, cụ thể cải thiện độ xác cho tốn phân loại câu chứa gợi ý diễn đàn trực tuyến Bài toán xác định tốn có độ phức tạp có nhiều ứng dụng thực tế Phương pháp giải luận văn tập trung vào việc nâng cao độ xác việc phân loại ý định người dùng thông qua diễn đàn trực tuyến Bằng việc sử dụng mơ hình phân lớp quen thuộc CNN RNN,LSTM với tập liệu thu từ diễn đàn trực tuyến, luận văn đưa số phương pháp để giải cho toán đề Quá trình thực nghiệm đạt lu an kết khả quan, cho thấy tính đắn việc lựa chọn kết hợp n va phương pháp, đồng thời hứa hẹn nhiều tiềm phát triển hồn thiện - Trình bày cách khái qt, tổng quan nêu lên ý nghĩa, vai trò gh tn to Nhìn chung, luận văn đạt số kết như: ie quan trọng toán phân loại câu chứa gợi ý người dùng diễn đàn trực p tuyến Nghiên cứu mô hình khác cho tốn phân loại câu chứa gợi ý nl w - Nghiên cứu làm thực nghiệm với thuật toán học máy khác - So sánh phân tích kết thực nghiệm, đưa kết tốt d oa - lu va an Luận văn số hạn chế như: Nghiên cứu dựa số lượng liệu chưa đầy đủ - Kết thực nghiệm đạt chưa thực cao - Chỉ thử nghiệm tập liệu tiếng anh ll u nf - oi m z at nh Về hướng phát triển tương lai, tiến hành thu thập phát triển tập liệu lớn dựa nhiều đặc trưng để góp phần cải thiện khả z phân loại Bên cạnh chúng tơi nghiên cứu thử nghiệm với số @ gm thuật tốn khác để tìm thuật toán phù hợp với toán phân loại câu chứa m co nâng cao kết thực nghiệm l gợi ý người dùng trực tuyến tiếng Việt Khắc phục lỗi trình xử lý để DANH MỤC TÀI LIỆU THAM KHẢO an Lu Tiếng Việt n va ac th si [1] Bùi Công Cường, Nguyễn Doãn Phước (2001) Hệ mờ, mạng nơ-ron ứng dụng Nhà xuất Khoa học kỹ thuật Hà Nội [2] Ngo Xuan Bach, Tu Minh Phuong, “Leveraging User Ratings for ResourcePoor Sentiment Classification”, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp 322–331, 2015 [3] Nguyễn Minh Thành, Phân loại văn bản, Luận văn môn học Xử lý ngôn ngữ tự nhiên, Đại học quốc gia Thành phố Hồ Chí Minh, 01/2011 [4] Từ Minh Phương Giáo trình nhập mơn trí tuệ nhân tạo Nhà xuất Thông tin lu Truyền thông, 2016 an n va Tiếng Anh [6] Zhang Y, Wallace B A Sensitivity Analysis of (and Practitioners’ Guide to) gh tn to [5] https://github.com/Semeval2019Task9/Subtask-A ie Convolutional Neural Networks for Sentence Classification arXiv preprint p arXiv:151003820 2015; PMID: 463165 nl w [7] Ahmed Husseini Orabi, Prasadith Buddhitha, Mahmoud Husseini Orabi, Diana d oa Inkpen, “Deep Learning for Depression Detection of Twitter Users”, 2018 va Detection”, 2012 an lu [8] Awais Athar, Simone Teufel, “Detection of Implicit Citations for Sentiment u nf [9] B Liu (2009), Handbook Chapter: Sentiment Analysis and Subjectivity ll Handbook of Natural Language Processing, Handbook of Natural Language m oi Processing Marcel Dekker, Inc New York, NY, USA z at nh [10] Maria Karanasou, Christos Doulkeridis, Maria Halkidi, “DsUniPi: An SVMbased Approach for Sentiment Analysis of Figurative Language on Twitter”, 2015 z gm @ [11] Peng Chen, Zhongqian Sun Lidong Bing, Wei Yang, “Recurrent Attention Network on Memory for Aspect Sentiment Analysis”, 2017 l m co [12] Peng Zhou, Zhenyu Qi, Suncong Zheng, Jiaming Xu, Hongyun Bao, Bo Xu, “Text Classification Improved by Integrating Bidirectional LSTM with Two- an Lu dimensional Max Pooling”, 2016 n va ac th si [13] Kröll, M., & Strohmaier, M (2009, September) Analyzing human intentions in natural language text In Proceedings of the fifth international conference on Knowledge capture (pp 197-198) ACM [14] Kim Y Convolutional Neural Networks for Sentence Classification 2014 [15] Zhang Y, Wallace B A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification arXiv preprint arXiv:151003820 2015; PMID: 463165 DANH MỤC WEBSITE THAM KHẢO lu an [16] Wikipedia: http://www.wikipedia.org n va [17] Google : https://www.google.com tn to [18] Danh sách stop word tiêu chuẩn http://www.ranks.nl/stopwords gh [19] https://d2l.ai/chapter_convolutional-neural-networks/index.html p ie [20] http://karpathy.github.io/2015/05/21/rnn-effectiveness/ [21] http://colah.github.io/posts/2015-08-Understanding-LSTMs/ oa nl w [22] https://www.python.org/ [23] https://www.tensorflow.org d an lu [24] https://cs231n.github.io/neural-networks-1/ ll u nf va [25] Andrej Karpathy (2015), The Unreasonable Effectiveness of Recurrent Neural Network at Andrej Karpathy blog [26] https://machinelearningcoban.com/2017/03/04/overfitting/ [27] http://www.joshuakim.io/understanding-how-convolutional-neural-network- oi m z at nh cnn-perform-text-classification-with-word-embeddings/ z m co l gm @ an Lu n va ac th si

Định dạng
Số trang	68
Dung lượng	1,09 MB