Phát hiện câu chứa gợi ý trên diễn đàn trực tuyến sử dụng mạng NƠRON

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TỐNG NGUYÊN SƠN PHÁT HIỆN CÂU CHỨA GỢI Ý TRÊN DIỄN ĐÀN TRỰC TUYẾN SỬ DỤNG MẠNG NƠ - RON LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - TỐNG NGUYÊN SƠN PHÁT HIỆN CÂU CHỨA GỢI Ý TRÊN DIỄN ĐÀN TRỰC TUYẾN SỬ DỤNG MẠNG NƠ-RON Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ XUÂN BÁCH HÀ NỘI – 2020 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi hướng dẫn Tiến sĩ Ngô Xuân Bách Các kết đạt luận văn sản phẩm riêng cá nhân, không chép người khác Nội dung luận văn có tham khảo sử dụng số thông tin, tài liệu từ nguồn sách, tạp chí liệt kê danh mục tài liệu tham khảo Tác giả luận văn ký ghi rõ họ tên Tống Nguyên Sơn LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến Thầy TS Ngơ Xn Bách, người tận tình hướng dẫn, hỗ trợ giúp đỡ nhiều nghiên cứu luận văn Thầy đưa định hướng, nhận xét góp ý quý giá để luận văn hồn thành tốt Kính gửi lời cảm ơn đến quý Thầy, Cô giảng viên tận tình giảng dạy truyền đạt kiến thức chun mơn cần thiết q trình tơi học tập Học viện Cơng nghệ Bưu Viễn thơng Xin gửi lời biết ơn đến gia đình khơng ngừng quan tâm, động viên, ủng hộ mặt tinh thần lẫn vật chất suốt thời gian tham gia khóa học thực luận văn Cảm ơn bạn lớp Cao học M18CQIS02B giúp đỡ đồng hành năm tháng học tập nhà trường Thời gian thực luận văn ngắn, kinh nghiệm lĩnh vực xử lý ngơn ngữ tự nhiên thân cịn hạn chế, luận văn cịn nhiều thiếu sót mong nhận ý kiến đóng góp q Thầy Cơ bạn để tơi hồn thiện luận văn cách tốt Xin trân trọng cảm ơn! MỤC LỤC BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH Viết tắt Tiếng Anh Tiếng Việt Social Network Trực tuyến Social media phenomena Cộng đồng mạng Fanpage Trang thông tin trực tuyến Neural Mạng nơron Deep neural network Mạng nơron sâu Deep Learning Là phương pháp học sâu AI Filter Convolutional Bộ lọc Tích chập (Xoắn) NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên TF Term Frequency Tần số xuất từ văn N-Gram N-Gram Tần suất xuất n kí tự liên tiếp IDF Inverse Document Frequency AI Word embedding Từ nhúng (chuyển từ thành vector số) NN Neural Network Mạng nơron nhân tạo NLP Natural language processing Xử lý ngôn ngữ tự nhiên CNN Convolutional Neural Network Tần số nghịch từ tập văn Mạng nơron tích chập RNN Recurrent Neural Network Mạng nơron tái phát GRU Gated Recurrent Unit Là chế gating mạng neural tái Long short-term memory phát Là chế mạng nơron tái phát LSTM DANH MỤC BẢNG BIỂU DANH MỤC HÌNH LỜI NĨI ĐẦU Trong thời gian qua, nhu cầu sử dụng mạng xã hội trực tuyến người dùng không ngừng tăng lên, trang mạng xã hội trực tuyến phổ biến Facebook, Twitter, Instagram, youtube, G+, blog v.v ngày phát triển Con người sử dụng mạng xã hội trực tuyến khơng để giải trí như: cập nhật trạng thái, kết bạn, tán gẫu, nói chuyện mà họ cịn dùng mạng xã hội trực tuyến nơi để chia sẻ thông tin, ý kiến trao đổi nhu cầu, mong muốn, ý định hay dự định họ diễn đàn trực tuyến Xuất phát từ thực tế việc phát hiện, phân loại lời gợi ý mong muốn, ý định người dùng mang lại giá trị thương mại, dịch vụ lớn Trong luận văn này, chúng tơi tập trung vào tốn phát câu chứa gợi ý diễn đàn trực tuyến Đây tốn có đầu vào câu người dùng đăng lên diễn đàn trực tuyến, câu chia sẻ ,trao đổi cảm nhận, kinh nghiệm sản phẩm, dịch vụ, vấn đề đời sống thứ xung quanh mà người dùng trải nghiệm cần phải xác định xem chia sẻ, câu có chứa gợi ý hay khơng? Nếu câu có chứa gợi ý người dùng gợi ý nhu cầu, mong muốn, ý định v.v người dùng vấn đề : du lịch, đồ ăn, thức uống, nghề nghiệp, giáo dục, hàng hóa & dịch vụ, kiện & hoạt động, khơng có ý định cụ thể Bên cạnh đó, khơng phải tất chia sẻ người dùng thể lời gợi ý rõ ràng nguồn liệu, tài ngun có ích Vì vậy, luận văn tập trung chủ yếu vào phát phân loại câu có chứa gợi ý người dùng diễn đàn trực tuyến Việc phát hiện, phân loại câu chứa gợi ý người dùng đề tài nghiên cứu thời sự, mang tính cấp thiết Với khách hàng, doanh nghiệp hay nhà cung cấp dịch vụ việc biết gợi ý, mong muốn người dùng giúp họ cải tiến tốt sản phẩm, hệ thống để đảm bảo cung cấp nội dung khách hàng cần, mở rộng số lượng người dùng quan tâm, quảng bá thương hiệu, hình ảnh Hơn nữa, kết toán phân loại câu chứa gợi ý người dùng ứng dụng làm đầu vào cho nhiều nghiên cứu khác xây dựng hệ tư vấn xã hội dựa gợi ý người dùng, dự đốn sở thích người dùng, dự đốn xu hướng tương lai 10 Luận văn “Phát câu chứa gợi ý diễn đàn trực tuyến sử dụng mạng Nơ-Ron” thực khảo sát, nghiên cứu phương pháp xây dựng hệ thống phân loại câu chứa gợi ý quan tâm Từ đưa phương pháp phân loại câu phù hợp cho hệ thống phân loại câu tiếng Anh Dựa hướng tiếp cận đề cập trên, luận văn này, tiến hành áp dụng làm thực nghiệm dựa kết hợp số đặc trưng ngôn ngữ tiếng Anh Các đặc trưng biểu diễn dạng vectơ làm đầu vào cho thuật tốn Sau thu kết mơ hình phân lớp CNN, RNN,LSTM luận văn sử dụng phương pháp để kiểm tra lựa chọn kết tốt Kết thực nghiệm tốt đạt sử dụng thuật toán LSTM Cụ thể kết thực nghiệm cho kết tốt với toán “ Phát câu chứa gợi ý diễn đàn trực tuyến sử dụng mạng Nơ-Ron” Nội dung luận văn gồm 03 chương: Chương 1: Giới thiệu toán phân loại câu chứa gợi ý Nội dung chương, tổng quan gợi ý người dùng diễn đàn trực tuyến, toán phân loại câu chứa gợi ý diễn đàn trực tuyến cuối hướng tiếp cận nhằm giải toán đề Chương 2: Phương pháp học máy cho toán phân loại câu chứa gợi ý diễn đàn trực tuyến Nội dung chương trình bày số phương pháp trích chọn lấy đặc trưng để giải toán, phương pháp học máy thống kê sử dụng để tiến hành thực nghiệm cho toán phân loại câu chứa gợi ý diễn trực tuyến sử dụng mạng Nơ Ron Chương 3: Thực nghiệm đánh giá Nội dung chương nhằm nêu rõ chi tiết bước q trình giải tốn Trong chương trình bày trình thực thực nghiệm, đưa số đánh giá, nhận xét kết thu Phần kết luận: Tóm lược kết đạt luận văn Đồng thời đưa hạn chế, điểm cần khắc phục đưa định hướng nghiên cứu thời gian tới 51 Mơ hình mạng TensorBoard: Hình 3.4: Mô hình mạng CNN nghiên cứu Ở đây, W ma trận lọc h kết việc áp dụng độ phi tuyến cho đầu xoắn Mỗi lọc trượt toàn nhúng, thay đổi từ bao gồm "VALID" padding có nghĩa mơ hình lướt lọc qua câu mà không cần thêm đệm vào, thực chập có giới hạn cho đầu với hình dạng [1, sequence_length - filter_size + 1, 1, 1] Thực max-pooling đầu kích thước lọc cụ thể cho tensor hình dạng [batch_size, 1, 1, num_filters] Đây thực chất vector đặc tính, kích thước cuối tương ứng với tính mơ hình có dạng [None, 1, 1, num_filters] 52 Hình 3.5: Mơ hình conv-maxpool mạng CNN 3.4.2.2 Mơ hình mạng neural RNN (Lớp ẩn sử dụng GRU cell) Dữ liệu đầu vào input từ nhúng (embedding word) chiều dạng [None, sequence_length, embedding_size], chuyển đổi sang dãy vector chiều dạng [None, embedding_size] Trong RNN vector chiều lặp lại (recurrent) từ gru_cell_0 đến gru_cell_38 Mỗi cell cho dropout_ kết cell, bên cạnh truyền tải kết cho cell Đầu RNN dãy vector có dạng [None, hidden_unit] 53 Mơ hình mạng TensorBoard: Hình 3.6: Mơ hình mạng RNN nghiên cứu 3.4.2.3 Mơ hình LSTM: Để huấn luyện mơ hình LSTM đưa vào mơ hình batch_size số câu lượt huấn luyện Cách đưa vào batch_size khơng đưa tồn mơ hình dựa tư tưởng thuật toán Mini-batch Gradient Decent Thuật tốn lấy ngẫu nhiên khơng lặp lại batch_size liệu từ tập huấn luyện Xây dựng mơ hình LSTM sử dụng thư viện TensorFlow [23] Trước tiên, cần tạo TensorFlow graph Để xây dựng TensorFlow graph, định nghĩa số siêu tham số (hyperparameter) batch_size, số lượng LSTM units, số lượng vòng lặp train vocab_size = 20000 batch_size = 512 lstm_units = 64 iterations = 100000 54 Đối với TensorFlow graph, định nghĩa placeholders liệu nhãn dựa số chiều ma trận tương ứng import TensorFlow as tf tf.reset_default_graph() labels = tf.placeholder(tf.float32, [batch_size, numClasses]) input_data = tf.placeholder(tf.int32, [batch_size, max_seq_len]) data = tf.Variable(tf.zeros([batch_size, num_feature]),dtype=tf.float32) max_seq_len, data = tf.nn.embedding_lookup(wordVectors,input_data) Sử dụng hàm embedding_lookup cho việc embedding batch_size câu đầu vào Số chiều data (batch_size x max_seq_len x num_feature) tơi đưa data vào mơ hình LSTM việc sử dụng hàm tf.nn.rnn_cell.BasicLSTMCell Hàm BasicLSTMCell đầu vào siêu tham số lstm_units số lượng units layer LSTM Tham số phải tinh chỉnh phù hợp tập liệu để đạt kết tốt Ngồi ra, huấn luyện mơ hình mạng neural, nên dropout bớt tham số để tránh mơ hình bị overfitting lstmCell = tf.contrib.rnn.BasicLSTMCell(lstm_units) lstmCell = tf.contrib.rnn.DropoutWrapper(cell=lstmCell, output_keep_prob=0.75) value, _ = tf.nn.dynamic_rnn(lstmCell, data, dtype=tf.float32) Việc mơ hình hóa LSTM tơi có nhiều cách để xây dựng tơi xếp chồng nhiều lớp LSTM lên nhau, vector ẩn cuối lớp LSTM thứ đầu vào lớp LSTM thứ Việc xếp chồng nhiều lớp LSTM lên coi cách tốt để lưu giữ phụ thuộc ngữ cảnh xa lâu dài Tuy nhiên số lượng tham số tăng gấp số lớp lần, đồng thời tăng thời gian huấn luyện, cần thêm liệu dễ bị overfitting Trong khuôn khổ tập liệu thu thập luận văn, không xếp chồng lớp LSTM thử nghiệm với nhiều lớp LSTM không hiệu gây overfitting Đầu mơ hình LSTM vector ẩn cuối cùng, vector thay đổi để tương ứng với dạng vector kết đầu cách nhân với ma trận trọng số 55 weight = tf.Variable(tf.truncated_normal([lstm_units, numClasses])) bias = tf.Variable(tf.constant(0.1, shape=[numClasses])) value = tf.transpose(value, [1, 0, 2]) last = tf.gather(value, int(value.get_shape()[0]) - 1) prediction = (tf.matmul(last, weight) + bias) Tính tốn độ xác (accuracy) dựa kết dự đốn mơ hình nhãn Kết dự đốn mơ hình giống với kết nhãn thực tế mơ hình có độ xác cao correctPred = tf.equal(tf.argmax(prediction,1), tf.argmax(labels,1)) accuracy = tf.reduce_mean(tf.cast(correctPred, tf.float32)) Kết dự đốn mơ hình khơng phải ln ln giống nhãn, gọi la lỗi Để huấn luyện mơ hình tơi cần tối thiểu hóa giá trị lỗi Định nghĩa hàm tính lỗi cross entropy layer softmax sử dụng thuật toán tối ưu Adam với learning_rate lựa chọn siêu tham số loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=prediction, labels=labels)) optimizer = tf.train.AdamOptimizer(learning_rate=0.0001).minimize(loss) Lưu trữ độ xác giá trị hàm lỗi qua vịng lặp huấn luyện sửa dụng tensorboard sess = tf.InteractiveSession() saver = tf.train.Saver() tf.summary.scalar('Loss', loss) tf.summary.scalar('Accuracy', accuracy) logdir = "tensorboard/" +"dict="+str(vocab_size) + "_maxSeq=" str(maxSeqLength) + "_batch=" + str(batchSize) + "_dimens=" str(numDimensions) + "/" writer = tf.summary.FileWriter(logdir, sess.graph) + + 56 merged = tf.summary.merge_all() Thực với mơ hình LSTM có nhiều loại tham số cần turning thay đổi tập liệu Ví dụ lựa chọn giá trị echpo,bacth size, learning_rate, lựa chọn hàm tối ưu, số lượng units LSTM, kích thước từ điển, số lượng đặc trưng từ, số vòng lặp thực huấn luyện LSTM … Dựa nhiều thử nghiệm, rút số tham số ảnh hưởng nhiều hay đến kết thực 3.5 Kết chạy thực nghiệm Với mạng Nơron nhận thấy mơ hình mạng CNN,RNN,LSTM tham số ảnh hưởng tới mạng mơ hình Epoch Batch size Trong mơ hình mạng ma trận lớp gần nhận thấy tham số Epoch Bath size có ảnh hưởng định tới kết mơ hình đạo tạo Epoch hyperparameter ANN, dùng để định nghĩa số lần learning algorithm hoạt động model, epoch hoàn thành tất liệu training đưa vào mạng neural network lần (đã bao gồm bước forward backward cho việc cập nhật internal model parameters) Thường cần số lượng lớn Epoch để training cho ANN (10, 100, 500, 1000…) nhiên tùy thuộc vào tốn tài ngun máy tính Một cách khác sử dụng Learning Curve để tìm số epoch Một tập training dataset chia nhỏ thành batches (sets, parts) Một batch chứa training samples, số lượng samples gọi batch size Cần lưu ý có khái niệm khác batch size number of batches (số lượng batches) or iterations Tùy thuộc vào batch size mà GD có biến thể khác nhau: ● Batch Gradient Descent: Batch Size = Size of Training Dataset ● Stochastic Gradient Descent: Batch Size = ● Mini-Batch Gradient Descent: < Batch Size < Size of Training Set Thông thường thi Mini-Batch Gradient Descent sử dụng nhiều cho tốn tối ưu tính hội tụ ổn định so với Stochastic Gradient Descent Dữ liệu trước đưa vào dạng thường chọn cách ngẫu nhiên từ 57 training dataset Đối với Mini-Batch Gradient Descent batch size thường chọn lũy thừa (32, 64, 128, 256…) tốc độ tính tốn tối ưu cho arithmetic algorithms CPU GPU Cách chọn batch size tùy theo u cầu tốn Trường hợp chia khơng “chẵn” số batch size theo training dataset batch cuối có samples batches khác Nhận thấy điều tơi thiết lập mơ hình với cặp tham số Epoch Batch size, với Epoch chạy với vòng lặp 5,10,20, với Batch size tơi chạy với vịng lặp 32,64,128 với số lượng đặc trưng không đổi cho kết thể bảng sau: a, Kết thực nghiệm:  Kết với mơ hình CNN: Bảng 3.7: Kết sử dụng mô hình CNN CNN Epoch Batch size Accuracy % Độ đo Gợi ý Pre % 77.58 Không gợi ý 77.32 32 71.16 Re% F1% 70.2 72.0 73.71 Pre % 80.98 74.62 77.99 10 64 74.25 Re% F1% 78.3 78.6 Pre% 20 128 81.52 Re% F1% 79.63 84.07 79.16 81.45 78.33 88.91 82.42 83.04 Dựa vào bảng kết 3.7 ta thấy: • Với Epoch= 20 Batch size = 128 cho kết cao với độ xác accuracy 81.52% • Với Epoch= 10 Batch size = 64 cho kết thấp với độ xác accuracy 74.25% • Với Epoch= Batch size = 32 cho kết thấp với độ xác accuracy 71.16% • Chênh lệch độ xác accuracy kết cao thấp 10.36% • Độ xác cao với cặp tham số Epoch= 20 Batch size = 128 58 tập trung vào nhãn “Gợi ý” với độ đo trung bình điều hịa F1 81.45% , nhãn “ Khơng gợi ý” với độ đo trung bình điều hịa F1 83.04%  Với mơ hình CNN, ta thấy kết khả quan sử dụng với cặp tham số Epoch= 20 Batch size = 128  Kết với mơ hình RNN: Bảng 3.8: Kết sử dụng mô hình RNN RNN Epoch Batch size Accuracy % Độ đo Pre% 32 69.46 Re% F1% Gợi ý 69.49 60.67 64.81 Pre % 80.76 Không gợi ý 54.6 89.0 67.7 76.92 10 64 71.28 Re% F1% 67.0 66.5 73.0 71.4 Pre% 82.35 72.72 20 128 76.81 Re% 73.6 86.0 F1% 77.81 78.88 Dựa vào bảng kết 3.8 ta thấy: • Với Epoch= 20 Batch size = 128 cho kết cao với độ xác accuracy 76.81% • Với Epoch= 10 Batch size = 64 cho kết thấp với độ xác accuracy 71.28% • Với Epoch= Batch size = 32 cho kết thấp với độ xác accuracy 69.46% • Chênh lệch độ xác accuracy kết cao thấp 7.35% • Độ xác cao với cặp tham số Epoch= 20 Batch size = 128 tập trung vào nhãn “Gợi ý” với độ đo trung bình điều hịa F1 77.81% , nhãn “ Khơng gợi ý” với độ đo trung bình điều hịa F1 78.88%  Với mơ hình RNN, ta thấy kết khả quan sử dụng với cặp tham số Epoch= 20 Batch size = 128  Kết với mơ hình LSTM: Bảng 3.9: Kết sử dụng mô hình LSTM 59 LSTM Epoch Batch size Accuracy % Độ đo Gợi ý Pre % 68.18 Không gợi ý 66.29 32 72.42 Re% F1% 80.0 83.0 73.61 Pre % 72.72 73.75 72.47 10 64 75.07 Re% F1% 86.0 88.7 Pre% 20 128 83.26 Re% F1% 78.81 75.93 89.70 82.29 79.76 83.57 86.22 84.87 Dựa vào bảng kết 3.9 ta thấy: • Với Epoch= 20 Batch size = 128 cho kết cao với độ xác accuracy 83.26% • Với Epoch= 10 Batch size = 64 cho kết thấp với độ xác accuracy 75.07% • Với Epoch= Batch size = 32 cho kết thấp với độ xác accuracy 72.42% • Chênh lệch độ xác accuracy kết cao thấp 10.84% • Độ xác cao với cặp tham số Epoch= 20 Batch size = 128 tập trung vào nhãn “Gợi ý” với độ đo trung bình điều hịa F1 82.29% , nhãn “ Khơng gợi ý” với độ đo trung bình điều hịa F1 84.87% Với mơ hình LSTM, ta thấy kết khả quan sử dụng với cặp tham số Epoch= 20 Batch size = 128 b, So sánh kết thực nghiệm ba mơ hình CNN,RNN,LSTM: Thực lấy kết tốt cặp tham số Epoch= 20 Batch size = 128 mơ hình cho kết để thực so sánh biểu diễn qua bảng sau: Bảng 3.10: Kết so sánh mô hình Mô hình Accuracy % Độ đo CNN 81.52 Pre % Re% RNN 76.81 F1% Pre % Re% LSTM 83.26 F1% Pre % Re% F1% 60 Gợi ý 84.07 Không gợi ý 88.91 79.1 82.4 81.4 83.0 82.35 72.72 73.6 86.0 77.8 78.8 75.93 83.57 89.7 86.2 82.29 84.87 Sau tiến hành thực nghiệm cho kết thuật toán CNN,RNN LSTM thực so sánh kết phương pháp theo nhãn “ Gợi ý”, “Không gợi ý” biểu diễn biểu đồ sau: Hình 3.7: Biểu đồ so sánh mô hình CNN, RNN, LSTM với nhãn “Gợi ý” Dựa vào kết bảng 3.10 hình 3.7 với nhãn “ Gợi ý” ta thấy : • Thuật tốn mơ hình LSTM cho kết cao với độ xác F1 82.29 % • Thuật tốn mơ hình CNN cho kết thấp với độ xác F1 81.45% • Thuật tốn mơ hình RNN cho kết thấp với độ xác F1 77.81% • Độ chênh lệch F1 kết cao thấp là: 4,48%  Với nhãn “ Gợi ý” ta thấy kết khả quan sử dụng mơ hình LSTM Hình 3.8: Biểu đồ so sánh mơ hình CNN, RNN, LSTM với nhãn “Không gợi ý” Dựa vào kết bảng 3.10 hình 3.8 với nhãn “ Khơng gợi ý” ta thấy : • Thuật tốn mơ hình LSTM cho kết cao với độ xác F1 84.87 % • Thuật tốn mơ hình CNN cho kết thấp với độ xác F1 83.04% • Thuật tốn mơ hình RNN cho kết thấp với độ xác F1 78.88% • Độ chênh lệch F1 kết cao thấp là: 5.99%  Với nhãn “ Khơng gợi ý” ta thấy kết khả quan sử dụng mơ hình LSTM Hình 3.9: Biểu đồ so sánh độ xác mơ hình Từ bảng kết hình 3.9 bảng 3.10, tơi thấy :  Mơ hình LSTM có kết xác acuracy cao 83.26%, 61  Mơ hình CNN có kết xác acuracy thấp 81.52%  Mơ hình RNN có kết xác acuracy thấp 76.81%  Chênh lệch độ xác accuracy kết cao thấp 6.45% Điều chứng tỏ, độ chệnh lệch mơ hình khơng q cao Ta thấy độ xác dù chênh lêch kết hai mơ hình khơng nhiều phương pháp giúp cải thiện độ xác việc phân loại 3.6 Nhận xét đánh giá Dựa vào số liệu trên, kết ngữ liệu tiếng Anh tốt, kết sử dụng model LSTM cho kết tốt so với thuật toán CNN, RNN để lựa chọn mơ hình áp dụng cho đề tài “ Phát câu chứa gợi ý diễn đàn trực tuyến sử dụng mạng Nơ-Ron”, đề xuất đánh giá cao mơ hình LSTM Bên cạnh đó, số liệu trung bình độ chênh lệch độ xác mơ hình LSTM cho kết khả quan Tóm lại mơ hình mạng neural CNN RNN, LSTM cho thấy cách nhìn việc phân loại câu văn nói riêng xử lý ngơn ngữ tự nhiên nói chung, cách sử dụng học chuyên sâu kết hợp mơ hình mạng neural Luận văn đưa nhận xét, đánh giá so sánh mơ hình, phân lớp, từ đưa mơ hình tốt việc giải toán phân loại câu chưa gợi ý người dùng diễn đàn trực tuyến nêu 62 KẾT LUẬN Xử Lý Ngơn Ngữ Tự Nhiên nói chung đặc biệt phân loại câu chứa gợi ý người dùng nói riêng ngày đóng vai trị quan trọng hoạt động thương mại, mua bán,du lịch… nay.Trong luận văn này, tiến hành nghiên cứu phương pháp nhằm cải thiện độ xác cho toán phân loại câu văn bản, cụ thể cải thiện độ xác cho tốn phân loại câu chứa gợi ý diễn đàn trực tuyến Bài toán xác định tốn có độ phức tạp có nhiều ứng dụng thực tế Phương pháp giải luận văn tập trung vào việc nâng cao độ xác việc phân loại ý định người dùng thông qua diễn đàn trực tuyến Bằng việc sử dụng mơ hình phân lớp quen thuộc CNN RNN,LSTM với tập liệu thu từ diễn đàn trực tuyến, luận văn đưa số phương pháp để giải cho tốn đề Q trình thực nghiệm đạt kết khả quan, cho thấy tính đắn việc lựa chọn kết hợp phương pháp, đồng thời hứa hẹn nhiều tiềm phát triển hoàn thiện Nhìn chung, luận văn đạt số kết như: - Trình bày cách khái quát, tổng quan nêu lên ý nghĩa, vai trò quan trọng toán phân loại câu chứa gợi ý người dùng diễn đàn trực tuyến Nghiên cứu mơ hình khác cho tốn phân loại câu chứa gợi ý Nghiên cứu làm thực nghiệm với thuật toán học máy khác So sánh phân tích kết thực nghiệm, đưa kết tốt Luận văn số hạn chế như: Nghiên cứu dựa số lượng liệu cịn chưa đầy đủ Kết thực nghiệm đạt chưa thực cao Chỉ thử nghiệm tập liệu tiếng anh Về hướng phát triển tương lai, tiến hành thu thập phát triển 63 tập liệu lớn dựa nhiều đặc trưng để góp phần cải thiện khả phân loại Bên cạnh chúng tơi nghiên cứu thử nghiệm với số thuật tốn khác để tìm thuật toán phù hợp với toán phân loại câu chứa gợi ý người dùng trực tuyến tiếng Việt Khắc phục lỗi trình xử lý để nâng cao kết thực nghiệm DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Bùi Cơng Cường, Nguyễn Dỗn Phước (2001) Hệ mờ, mạng nơ-ron ứng dụng Nhà xuất Khoa học kỹ thuật Hà Nội [2] Ngo Xuan Bach, Tu Minh Phuong, “Leveraging User Ratings for ResourcePoor Sentiment Classification”, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp 322–331, 2015 [3] Nguyễn Minh Thành, Phân loại văn bản, Luận văn môn học Xử lý ngôn ngữ tự nhiên, Đại học quốc gia Thành phố Hồ Chí Minh, 01/2011 [4] Từ Minh Phương Giáo trình nhập mơn trí tuệ nhân tạo Nhà xuất Thơng tin Truyền thông, 2016 Tiếng Anh [5] https://github.com/Semeval2019Task9/Subtask-A [6] Zhang Y, Wallace B A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification arXiv preprint arXiv:151003820 2015; PMID: 463165 [7] Ahmed Husseini Orabi, Prasadith Buddhitha, Mahmoud Husseini Orabi, Diana Inkpen, “Deep Learning for Depression Detection of Twitter Users”, 2018 [8] Awais Athar, Simone Teufel, “Detection of Implicit Citations for Sentiment Detection”, 2012 [9] B Liu (2009), Handbook Chapter: Sentiment Analysis and Subjectivity Handbook of Natural Language Processing, Handbook of Natural Language Processing Marcel Dekker, Inc New York, NY, USA 64 [10] Maria Karanasou, Christos Doulkeridis, Maria Halkidi, “DsUniPi: An SVMbased Approach for Sentiment Analysis of Figurative Language on Twitter”, 2015 [11] Peng Chen, Zhongqian Sun Lidong Bing, Wei Yang, “Recurrent Attention Network on Memory for Aspect Sentiment Analysis”, 2017 [12] Peng Zhou, Zhenyu Qi, Suncong Zheng, Jiaming Xu, Hongyun Bao, Bo Xu, “Text Classification Improved by Integrating Bidirectional LSTM with Twodimensional Max Pooling”, 2016 [13] Kröll, M., & Strohmaier, M (2009, September) Analyzing human intentions in natural language text In Proceedings of the fifth international conference on Knowledge capture (pp 197-198) ACM [14] Kim Y Convolutional Neural Networks for Sentence Classification 2014 [15] Zhang Y, Wallace B A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification arXiv preprint arXiv:151003820 2015; PMID: 463165 DANH MỤC WEBSITE THAM KHẢO [16] Wikipedia: http://www.wikipedia.org [17] Google : https://www.google.com [18] Danh sách stop word tiêu chuẩn http://www.ranks.nl/stopwords [19] https://d2l.ai/chapter_convolutional-neural-networks/index.html [20] http://karpathy.github.io/2015/05/21/rnn-effectiveness/ [21] http://colah.github.io/posts/2015-08-Understanding-LSTMs/ [22] https://www.python.org/ [23] https://www.tensorflow.org [24] https://cs231n.github.io/neural-networks-1/ [25] Andrej Karpathy (2015), The Unreasonable Effectiveness of Recurrent Neural Network at Andrej Karpathy blog [26] https://machinelearningcoban.com/2017/03/04/overfitting/ 65 [27] http://www.joshuakim.io/understanding-how-convolutional-neural-networkcnn-perform-text-classification-with-word-embeddings/ ... giảm hiệu 14 phát câu chứa gợi ý dựa cách xử lý truyền thống Phát câu chứa gợi ý toán cho câu S, dự đoán nhãn L cho S L ∈ {có chứa gợi ý, khơng chứa gợi ý} Để xử lý cần có Tập liệu câu S phân loại... áp dụng phương pháp học máy phân lớp phương pháp biểu diễu đặc trưng mơ hình tốn phát câu chứa gợi ý diễn đàn trực tuyến sử dụng mạng Nơ ron Chương trình bày hệ thống phát câu chứa gợi ý diễn đàn. .. loại câu, phân loại văn thấy nhiều ứng dụng NLP (xử lý ngơn ngữ tự nhiên) Bài tốn phát câu chứa gợi ý diễn đàn trực tuyến sử dụng mạng Nơ- ron nhằm khai thác gợi ý định nghĩa trích xuất gợi ý từ

Định dạng
Số trang	65
Dung lượng	0,97 MB