Ứng dụng Deep Learning để dự đoán quan điểm trong tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA DƢƠNG PHƢỚC QUỐC CƢỜNG ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI LIỆU Chuyên ngành: Khoa học máy tính Mã số: 8480101 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2019 Cơng trình hoàn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: PGS.TS NGUYỄN THANH BÌNH Phản biện 1: TS LÊ THỊ MỸ HẠNH Phản biện 2: TS NGUYỄN QUANG VŨ Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật chuyên ngành Khoa học máy tính họp Trường Đại học Bách khoa Đà Nẵng vào ngày 05 tháng 10 năm 2019 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa - Thư viện Khoa Công nghệ Thông tin, Trường Đại học Bách khoa, Đại học Đà Nẵng MỞ ĐẦU Cùng với phát triển không ngừng khoa học công nghệ, đặc biệt cách mạng công nghiệp lần thứ tư diễn rộng khắp tất lĩnh vực đất nước nước giới, chủ đề nhắc tới nhiều bao gồm Big Data, Deep Learning, IoT, Blockchain… Các sản phẩm CNTT trí tuệ nhân tạo học máy ngày phát triển lĩnh vực quan tâm đầu tư nghiên cứu nhiều hiện, lĩnh vực học sâu (Deep Learning) loại phổ biến máy học có thành tựu phát triển vượt bậc Ngày nay, để đáp ứng nhu cầu sống ngày cao người, sản phẩm dịch vụ có bước phát triển mạnh mẽ Với loại sản phẩm dịch vụ lại phong phú chủng loại, chất lượng, dịch vụ đến từ nhiều nhà cung cấp khác Do đó, việc trì phát triển sản phẩm dịch vụ có số lượng khách hàng lớn địi hỏi nhiều cơng sức Một phương pháp hiệu lắng nghe ý kiến phản hồi khách hàng sản phẩm dịch vụ Dựa ý kiến phản hồi này, nhà cung cấp đánh giá chất lượng sản phẩm, dịch vụ phục vụ từ điều chỉnh sản phẩm phù hợp để đạt hiệu kinh doanh tốt Cơng việc có tên gọi trích xuất thông tin quan điểm người dùng Đây tốn có ứng dụng lớn sống Người tiêu dùng ngày có nhiều kênh khác để tương tác với nhà cung cấp dịch vụ Bên cạnh kênh truyền thống email, điện thoại, fax hình thức bình luận, phản hồi, chia trang mạng xã hội, viết đánh giá sản phẩm, phản hồi diễn đàn Và mạng xã hội kênh trao đổi thông tin phổ biến Qua nguồn trên, liệu thu thập lại dạng văn Từ liệu dạng văn bản, luận văn trình bày phương pháp áp dụng deep learning để đưa mơ hình xử lý thơng tin văn nhằm trích xuất thơng tin quan điểm người dùng Lý chọn đề tài Trong sống đại ngày nay, du lịch trở nên vô phổ biến Việc lên kế hoạch điểm đến, đặt phòng, đặt vé, điều thiết yếu chuyến Với phát triển cơng nghệ, nhận xét, bình luận phản hồi người sử dụng trải nghiệm họ với chuyến du lịch đóng vai trị nguồn thông tin quan trọng, với người chủ doanh nghiệp họ muốn cải thiện dịch vụ Đặc biệt, với việc đặt phịng khách sạn, nhận xét khách hàng sử dụng mang tính thực tế, khách quan chi tiết in sẵn tờ quảng cáo, phản ánh trực tiếp gần xác tình hình chất lượng dịch vụ khách sạn Hơn nữa, khách sạn đại lý du lịch thường tiếp nhận cơng khai nhận xét cách có hệ thống thông qua việc đề xuất khách hàng đánh giá bình luận sau sử dụng dịch vụ Điều gây khó khăn cho nhà quản lý việc cập nhật theo dõi dụng cơng cụ tìm kiếm bình thường, nhận xét xuất thường xuyên đẩy nhận xét cũ sau, họ dấu bỏ qua phản hồi mang thông tin quan trọng Mục đích nghiên cứu Xây dựng hệ thống phần mềm hỗ trợ trích xuất thơng tin, phân loại phân tích cách tự động liệu nhận xét, đánh giá (review) trực tuyến khách hàng dạng văn (ngôn ngữ tiếng Việt) mức độ hài lịng: trường hợp tốn dịch vụ khách sạn Nghiên cứu giải thuật dựa lý thuyết máy học ứng dụng deep learning, cụ thể LSTM để thực nghiệm dự đoán quan điểm người dùng sản phẩm, dịch vụ Đối tƣợng phạm vi nghiên cứu Nghiên cứu phương pháp học máy (Machine Learning), máy học (deep learning) để dự đoán quan điểm người dùng Xử lý ngơn ngữ tự nhiên phương pháp vector hóa từ Lý thuyết trí tuệ nhân tạo, mạng neural deep learning Đánh giá tập liệu kỹ thuật học máy deep Learning với mạng LSTM Cơng cụ lập trình Python, thư viện keras, tensorflow… Phƣơng pháp nghiên cứu Nghiên cứu lý thuyết: Tổng hợp thu thập nghiên cứu tài liệu có liên quan đến đề tài nêu mục bao gồm: lý thuyết khai phá quan điểm, xử lý ngơn ngữ tự nhiên, trích xuất đặc trưng Lý thuyết học máy, mạng neural, deeplearning dự đốn quan điểm tài liệu bình luận Phương pháp thực nghiệm:Triển khai đánh giá số kỹ thuật dự đoán quan điểm tài liệu kỹ thuật học máy deep Learning với mạng LSTM Lựa chọn cơng cụ có để cài đặt, đề xuất mơ hình thể cụ thể kết nghiên cứu, kết thực nghiệm so với sở liệu chuẩn để so sánh đánh giá Ý nghĩa khoa học thực tiễn đề tài Ý nghĩa khoa học Ứng dụng giả thuyết kỹ thuật xử lý trích xuất đặc trưng, xử lý ngôn ngữ tự nhiên, để phân loại ý kiến nhận xét cách hoàn toàn tự động Ứng dụng kỹ thuật học máy, khai phá liệu huấn luyện trang bị khả tự học cho hệ thống Ý nghĩa thực tiễn Tự động hóa hoạt động trích xuất, thống kê, phân loại, phân tích thơng tin phản hồi từ khách hàng dựa tảng trí tuệ nhân tạo, bước đưa Việt Nam bắt nhịp hội nhập theo xu hướng phát triển cách mạng công nghiệp lần thứ tư Tối ưu hóa chi phí, tăng hiệu suất hiệu hoạt động kinh doanh dịch vụ trải nghiệm khách hàng Bố cục luận văn Luận văn chia thành phần sau: Chương 1: Trình bày tổng quan sở lý thuyết, số khái niệm liên quan toán khai phá quan điểm, machine learning, deep learning, xử lý ngôn ngữ tự nhiên Chương 2: Đề tài liên quan bao gồm tên đề tài, tác giả, liệu, phương pháp thực kết đạt được.Trình bày phương pháp thực luận văn bao gồm vector hóa Bag of Words, TF-IDF, Word2vec, Doc2vec thuật toán phân loại SVM, Logistic Regression, Multi-layer Perceptron, mạng nơ ron hồi quy Chương 3: Mô tả toán đề xuất giải pháp Chương đề cập vấn đề mà luận văn tập trung giải quyết, đề xuất giải pháp thực hiện, cụ thể hóa quy trình mơ hình giải pháp Chương 4: Thực nghiệm đánh giá kết Chương trình bày thực nghiệm khác với phương pháp vector hóa thuật tốn phân loại khác Đánh giá so sánh thực nghiệm Kết luận: Kết đạt được, hạn chế, hướng phát triển tương lai CHƢƠNG TỔNG QUAN, CƠ SỞ LÝ THUYẾT 1.1 Bài toán khai phá quan điểm 1.1.1 Khái niệm khai phá liệu 1.1.2 Quá trình khai phá tri thức từ liệu 1.2 Machine learning “Học máy(machine learning) lĩnh vực Trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kỹ thuật cho phép hệ thống “học” tự động từ liệu để giải vấn đề cụ thể đó”(Theo wikipedia) Machine Learning nhánh AI Theo định nghĩa Wikipedia, “Machine learning is the subfield of computer science that “gives computers the ability to learn without being explicitly programmed” Nói đơn giản, Machine Learning lĩnh vực Khoa Học Máy Tính, có khả tự học dựa liệu đưa vào mà khơng cần phải lập trình cụ thể 1.3 Deep Learning 1.3.1 Khái niệm Học sâu (Deep Learning) phương pháp máy học dựa tập hợp thuật tốn để cố gắng mơ hình liệu trừu tượng hóa mức cao cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, cách khác bao gồm nhiều biến đổi phi tuyến”(Theo wikipedia) Hay nói cách khác học sâu làmột kỹ thuật học máy, sử dụng thuật toán liên quan đến thuật toán dựa cấu trúc hoạt động não động vật gọi Mạng nơ ron nhân tạo dựa việc phân tích liệu nhiều đặc trưng nhờ hỗ trợ khả tính tốn máy tính Học sâu tập trung giải vấn đề liên quan đến mạng nơ ron nhân tạo nhằm nâng cấp cơng nghệ nhận diện gióng nói, thị giác máy tính, xử lý ngơn ngữ tự nhiên Hình 1-1.Deeplearning lĩnh vực AI Nổi tiếng Deep Learning kể đến CNN (Convolutional Neural Networks) sử dụng nhiều lĩnh vực thị giác máy tính (computer vision), RNN (Recurrent Neural Network) thường ứng dụng lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing) 1.3.2 Các toán ứng dụng Nhận dạng chữ viết, nhận dạng tiếng nói, tổng hợp tiếng nói, dịch tự động (machine translate), phân tích cảm xúc ngơn ngữ … 1.4 Xử lý ngôn ngữ tự nhiên 1.4.1 Định nghĩa Xử lý ngôn ngữ kỹ thuật quan trọng nhằm giúp máy tính hiểu ngơn ngữ người, qua hướng dẫn máy tính thực giúp đỡ người cơng việc có liên quan đến ngơn ngữ như: dịch thuật, phân tích liệu văn bản, dự đốn quan điểm tài liệu, nhận dạng tiếng nói, tìm kiếm thơng tin 1.4.2 Cấu tạo, đặc điểm ngôn ngữ tiếng Việt 1.4.2.1 Cấu tạo từ tiếng Việt 1.4.2.2 Tiếng: 1.4.2.3 Từ, cụm từ: 1.4.2.4 Biến hình từ tiếng Việt 1.4.2.5 Từ đồng nghĩa 1.4.2.6 Đặc điểm tả 1.4.3 Các bước xử lý ngơn ngữ tự nhiên Kết chƣơng Chương giới thiệu tổng quát sở lý luận đề tài bao gồm data mining, khai phá quan điểm, trình bước để khai thác tri thức Đồng thời chương đề cập đến machine learning, deeplearning, ứng dụng deeplearning đời sống Trong q trình trình bày có đề cập đếncấu tạo, đặc điểm ngôn ngữ tiếng Việt xử lý ngôn ngữ tự nhiên Trong chương (chương 2) giới thiệu đề tài liên quan thực đề cập đến phương pháp sử dụng thực tốn luận văn CHƢƠNG BÀI TỐN DỰ ĐỐN QUAN ĐIỂM (SENTIMENT ANALYSIS) 2.1 Bài tốn liên quan dự đoán quan điểm 2.1.1 Nguồn từ vựng nâng cao để phân tích tình cảm khai thác ý kiến 2.1.2 Một số khảo sát phân tích tình cảm khai thác ý kiến 2.2 Phƣơng pháp máy học để giải toán dự đoán quan điểm Bài tốn học máy để xử lý ngơn ngữ tự nhiên gồm việc sau: 2.2.1 Trích xuất đặc trưng 2.2.1.1 Bag of Words Trong q trình tìm hiểu tơi thấy mơ hình Bag-of-words phương pháp phổ biến cho việc trích xuất đặc trưng vector cho câu Bag-of-words không quan tâm đến thứ tự từ câu ngữ nghĩa từ Bag-of-word học từ vựng từ tất văn bản, mơ hình văn cách đếm số lần xuất từ văn 2.2.1.2 TF-IDF Theo với đề xuất báo Chúng tơi tìm hiểu TF-IDF tham khảo với báo “Using tf-idf to determine word relevance in document queries” tác giả Ramos công Cách xác định tính weights cho vector quan trọng, ảnh hưởng đến độ xác thuật tốn xếp hạng Việc từ có trọng số khác từ có quan trọng giống nhau, sử dụng số lần xuất từ làm vector cách tối ưu Ở phương diện documents, vài từ mang nhiều thơng tin từ lại Những từ thường xuyên xuất khơng có nhiều thơng tin có tỉ trọng(weight) ngang với từ khác Ví dụ từ dừng chẳng hạn, phân tích vềqn ăn từ "quán ăn" xuất tất câu.Chúng ta cần giảm tỉ trọng mặt thông tin xuống thơng tin khơng mang nhiều giá trị.Những từ hiếm(rare word) từ khóa (key word) khơng có khác biệt tỉ trọng thông tin Để khắc phục hạn chế tf-idf đời.Tf-idf bao gồm thành phần tf(term frequency) idf(inverse document frequency) tf đo lường tỉ trọng tần suất từ w có văn d (document).Vì văn thường có chiều dài khác nên để tính tần suất ta chia cho tổng số từ văn d 2.2.1.3 Word2vec Với nhược điểm hai phương pháp bag-of-word tf-idf thì: Độ dài vector lớn (bằng độ dài từ điển, lên đến triệu) Không xác định tương quan từ tích vơ hướng hai từ Để khắc phục nhược điểm theo báo “Distributed representations of sentences and documents In International conference on machine learning (pp 1188-1196).” Được công bố bơi Le, Q and Mikolov, T., 2014, January Đó phương pháp Word2vec Để xây dựng vector mô tả phân bố quan hệ với tập từ điển, chất mơ hình Word2vec sử dụng mạng neural đơn giản với lớp ẩn Sau huấn luyện toàn tập văn bản, toàn lớp ẩn có giá trị mơ hình hóa quan hệ từ tập văn huấn luyện mức trừu tượng Trong ngữ cảnh, từ huấn luyện việc sử dụng thuật toán Continuous Bag of Words (CBOW) skip gram Bản chất CBOW sử dụng ngữ cảnh để đoán từ (sử dụng từ xung quanh (dựa window) để dự đoán từ giữa) chất skip gram dùng từ để dự đoán ngữ cảnh (sử dụng từ để dự đoán từ xung quanh (hay ngữ cảnh)) Một hai cách áp dụng để huấn luyện cho mơ hình word2vec, cách sử dụng mơ hình skip gram thường sử dụng việc đáp ứng tốt với tập liệu lớn 2.2.1.4 Doc2vec Trong báo Distributed Representations of Sentences and Documents Quốc Lê Tomas Mikolov năm 2015, tác giả giới thiệu phương pháp có khả tìm vector biểu diễn tốt cho câu văn/đoạn văn thơng qua mơ hình tương tự mơ hình word2vec giới thiệu trước Mikolov 2.2.2 Huấn luyện dự đoán Các phương pháp máy học dùng để huấn luyện dự đoán 2.2.2.1 SVM (Support Vector Machine) SVM phương pháp hiệu cho tốn phân lớp liệu Nó cơng cụ đắc lực cho tốn xử lý ảnh, phân loại văn bản, phân tích quan điểm Một yếu tố làm nên hiệu SVM việc sử dụng Kernel function khiến cho phương pháp chuyển không gian trở nên linh hoạt Ý tưởng SVM tìm siêu phẳng (hyper lane) để phân tách điểm liệu Siêu phẳng chia không gian thành miền khác miền chứa loại giữ liệu Siêu phẳng tối ưu mà cần chọn siêu phẳng phân tách có lề lớn Lý thuyết học máy siêu phẳng cực tiểu hóa giới hạn lỗi mắc phải 2.2.2.2 Logistic Regression Phương pháp hồi quy logistic mơ hình hồi quy nhằm dự đốn giá trị đầu rời rạc (discrete target variable) y ứng với véc-tơ đầu vào X Việc tương đương với chuyện phân loại đầu vào x vào nhóm y tương ứng Sử dụng phương pháp thống kê ta coi khả đầu vào x: nằm vào nhóm y0 xác suất nhóm y0 biết x: p(y0∣ x) Dựa vào công thức xác xuất hậu nghiệm ta có: Hàm σ(a) gọi hàm sigmoid (logistic sigmoid function) Hình dạng chữ S bị chặn đầu đặt biệt chỗ dạng phân phối mượt Hình 2-1 Minh họa Logistic Regression 2.2.2.3 Multi-layer Perceptron Nền tảng deep learning.Bước chuyển tiếp từ thuật toán phân loại truyền thống deep learning Gọi Multi-layer Perceptron (perceptron nhiều lớp) tập hợp perceptron chia làm nhiều nhóm, nhóm tương ứng với layer Trong hình sau ta có ANN với lớp: Input layer (lớp đầu vào), Output layer (lớp đầu ra) Hidden layer (lớp ẩn) Thông thường giải toán ta quan tâm đến input output model, MLP nói riêng ANN nói chung ngồi lớp Input Output lớp neuron gọi chung Hidden 2.2.3 Mạng nơ ron hồi quy 2.2.3.1 RNN (Recurrent Neural Network) Ý tưởng RNN sử dụng chuỗi thông tin Trong mạng nơron truyền thống tất đầu vào đầu độc lập với Tức chúng không liên kết thành chuỗi với RNN gọi hồi quy (Recurrent) lẽ chúng thực tác vụ cho tất phần tử chuỗi với đầu phụ thuộc vào phép tính trước Nói cách khác, RNN có khả nhớ thơng tin tính tốn trước Mạng RNN có chút thay đổi so với ANN, trạng thái trước mạng (kết lần tính tốn trước) đầu vào cho tính tốn Phương pháp 10 CHƢƠNG MƠ TẢ BÀI TOÁN VÀ ĐỀ XUẤT GIẢI PHÁP 3.1 Vấn đề đề tài tập trung giải Phân tích cảm xúc với ngôn ngữ tiếng Việt Tập dụng huấn luyện dự đoán với liệu phản hồi (feedback) khách hàng với dịch vụ, khách sạn Dự đoán với mức độ tình cảm: tích cực (positive), trung tính (neutral), tiêu cực (negative) Thực nhiều phương pháp thực so sánh độ xác 3.2 Đề xuất giải pháp Hình 3-1 Tổng quát quy trình thực 3.2.1 Thu thập tiền xử lý liệu 3.2.1.1 Thu thập Dữ liệu thu thập đề tài tập hợp phản hồi (feedback) người dùng dịch vụ khách sạn, nhà nghỉ, homestay… mà gán nhãn cảm xúc (sentiment) với ba mức độ tích cực (positive), trung tính (neutral), tiêu cực (negative) Thuộc quyền: Corpus: Vietnamese Sentiment Analysis Authors: Nguyen Thi Duyen, Ngo Xuan Bach, Tu Minh Phuong Aff: Posts and Telecommunications Institute of Technology, Vietnam Contact email: ngoxuanbachkcn@gmail.com or bachnx@ptit.edu.vn 3.2.1.2 Tiền xử lý liệu a) Làm liệu b) Sửa lỗi tả c) Tách từ 11 Hình 3-2 Quy trình tiền xử lý liệu 3.2.2 Thực nghiệm kiểm tra độ xác với phương pháp kiểm tra chéo (Cross-validate) Hình 3-3 Mơ tả cross-validate 12 Cross-validation phương pháp kiểm tra độ xác máy học dựa tập dư liệu học cho trước Thay dùng phần liệu làm tập liệu học cross-validation dùng tồn liệu để dạy cho máy K-fold Toàn liệu chia thành K tập Quá trình học máy có K lần Trong lần, tập dùng để kiểm tra K-1 tập lại dùng để dạy Hình 3-4 Quy trình nghiệm dự đốn vơi kiểm nghiệm cross validate 13 3.2.3 Kiểm tra thực tế Hình 3-5 Đánh giá kiểm tra thực tế 3.3 Mơ hình giải pháp 3.3.1 Mơ tả 3.3.1.1 Đầu vào: Dữ liệu thu thập đề tài tập hợp phản hồi (feedback) người dùng dịch vụ khách sạn, nhà nghỉ, homestay… mà gán nhãn cảm xúc (sentiment) với ba mức độ tích cực (positive), trung tính (neutral), tiêu cực (negative) Một câu hay tập phản hồi mà chưa có liệu huấn luyện 3.3.1.2 Đầu ra: Các model huấn luyện với tập liệu theo nhiều phương pháp trích xuất đặc trưng thuật toán phân lớp khác Dự đốn phân tích cảm xúc với câu đưa vào thử nghiệm 3.3.1.3 Đánh giá kết quả: Thực nghiệm với phương pháp khác so sánh kết Thực nghiêm 1: Trích xuất đặc trưng bình thường thuật toán phân loại truyền thống Thực nghiệm 2: Trích xuất đặc trưng bình thường thuật tốn phân loại neutral network Thực nghiệm 3: Trích xuất đặc trưng learning thuật toán phân loại truyền thống Thực nghiệm 4: Trích xuất đặc trưng learning thuật tốn phân loại neutral network 14 Thực nghiệm 5: Trích xuất đặc trưng dự đoán deep learning [Wang et al, 2016], Trên thực nghiệm thực nghiệm với liệu khác, ngôn ngữ khác Tuy nhiên, hy vọng phù hợp với luận văn 3.3.2 Thư viện sử dụng 3.3.2.1 Thư viện genism 3.3.2.2 LSTM với thư viện Keras 3.3.2.3 Numpy 3.3.2.4 Matplotlib 3.3.2.5 Pandas 3.3.3 Công cụ thực 3.3.3.1 Sublime Text 3.3.3.2 Google Colab Kết chƣơng Nội dụng chương mơ tả tốn mà khóa luận thực Chương đề xuất giải pháp thực hiện, thư viện, công cụ áp dụng trình thực Trong chương tiếp theo, chương khóa luận tập trung mơ tả bước thực nghiệm, xây dựng mơ hình đánh giá giải pháp 15 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP 4.1 Thực ngiệm 4.1.1 Thực nghiệm 1: Trích xuất đặc trưng bình thường thuật tốn phân loại truyền thống Với thực nghiệm này, trích xuất vector đặc trưng Bag of Word TF-IDF đưa dùng thuật toán Support Vecto Machine Logistic regression huấn luyện dự đoán phân loại Sau thực nghiệm có kết sau: 4.1.1.1 Bag of word Bảng 4-1 Kết thực nghiệm với Bag of word Support vecto machine Logistic regression 61.04506237060858 60.54086930020913 4.1.1.2 Tf-idf Bảng 4-2.Kết thực nghiệm với tf-idf Support vecto machine Logistic regression 76.12322267410701 75.82534653257248 4.1.2 Thực nghiệm 2: Trích xuất đặc trưng bình thường thuật tốn phân loại neutral network Thực nghiệm dùng trích xuất vector đặc trưng Bag of Word tf-idf thực nghiệm dự đoán phân loại thuật toán Multi perceptron Với Multi perceptron thực nghiệm cấu hình số lớp (hidden layer) nút mạng Neural Network Việc chọn thơng số khơng cố định, sử dụng thử nghiệm thông số khác để khám phá hoạt động tốt cho tập liệu cụ thể Nói chung khó phân tích tính tốn số lượng lớp số nút sử dụng cho lớp mạng thần kinh nhân tạo để giải vấn đề mơ hình dự đốn giới thực cụ thể Hidden layer: 2, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44, 48, 52, 56, 60, 64 Số lượng node layer là: 256 16 4.1.2.1 Bag of word Hình 4-1 Kết thực nghiệm với Bag of word Bảng 4-3.Kết thực nghiệm với Bag of word Hidden layer 12 16 20 24 28 32 36 40 44 48 Accuracy 59.25615615151516 59.85353565262323 60.05562656548963 60.24894561351531 60.57891231378915 60.89561545679798 60.91154454254585 61.04506237060858 60.56564868446131 60.21561864684616 60.15131891896616 60.14849484646615 60.02548948948949 17 52 56 60 64 60.00016161616165 59.92525616165416 59.51651618616818 58.91561616611616 4.1.2.2 TF-IDF Hình 4-2 Kết thực nghiệm với tf-idf Hidden layer 12 16 20 24 28 32 36 Accuracy 73.1432001849575 73.87738159042425 74.12875563542356 74.24269890812026 74.38157466082369 75.22925270868144 74.9771955820381 74.83965972025179 74.70188740712717 74.40440535115651 18 40 44 48 52 56 60 64 74.38120684763076 74.24359216873168 73.41842954275566 72.75497335981588 72.66102336139222 72.11290288680811 71.58669356957448 4.1.3 Thực nghiệm 3: Trích xuất đặc trưng learning thuật toán phân loại truyền thống Thực nghiệm với trích xuất vector đặc trưng Word2vec, Doc2vec thực huấn luyện phân loại với phương pháp Support vecto machine logistic regression 4.1.3.1 Word2vec Bảng 4-4 Kết thực nghiệm với word2vec Support vecto machine Logistic regression 74.70209758609457 74.9997898210326 4.1.3.2 Doc2vec Bảng 4-5.Kết thực nghiệm với doc2vec Support vecto machine Logistic regression 72.04404300261673 71.53987620458821 4.1.4 Thực nghiệm 4: Trích xuất đặc trưng learning thuật tốn phân loại neutral network Thực nghiệm với trích xuất vector đặc trưng Word2vec, Doc2vec thực huấn luyện phân loại với phương pháp Multi perceptron Việc chọn thông số tương tự thực nghiệm Hidden layer: 2, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44, 48, 52, 56, 60, 64 Số lượng node layer là: 256 19 4.1.4.1 Word2vec Hình 4-3.Kết thực nghiệm với word2vec Bảng 4-6 Kết thực nghiệm với word2vec Hidden Layer 12 16 20 24 28 32 36 40 44 48 Accuracy 72.59373981945627 72.73185367340291 74.49585947434241 74.79334153031306 75.87058755530333 75.48125729058293 74.77058965709301 74.72461300797629 74.65625229883246 74.54165221686266 74.24377607532816 74.01468100087226 73.92230734470402 20 52 56 60 64 73.85347373288356 73.23536366215833 73.18985991571824 73.02912555040618 Với số hidden layer: 2, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44, 48, 52, 56, 60, 64 word2vec áp dụng với multi perceptron mang lại kết tốt số hidden layer 16 4.1.4.2 Doc2vec Hình 4-4.Kết thực nghiệm với doc2vec Bảng 4-7 Kết thực nghiệm với doc2vec Hidden layer 12 Accuracy 71.76902382378596 71.90640205134672 72.20430446525215 72.36488119633869 21 16 20 24 28 32 36 40 44 48 52 56 60 64 72.82315016236326 71.60781655579727 71.49384701072964 71.37927320113077 71.28760889897747 71.104595563122 71.0586451863762 70.89812100003152 70.62362726861923 70.41733661212521 70.39374402303561 69.98168815746608 69.82142669483065 4.1.5 Thực nghiệm 5: Trích xuất đặc trưng dự đoán deep learning Tiền xử lý Xây dựng model vector hóa word2vec Word Embediing Kiểm tra model LSTM Huấn luyện model LSTM Xây dựng model LSTM Hình 4-5 Các bước tốn trích xuất thơng tin quan điểm sử dụng RNN 4.1.5.1 Tiền xử lý kho ngữ liệu 4.1.5.2 Xây dựng Word2Vec Xây dựng mô hình word2vec từ tập ngữ liệu văn tiền xử lý Mơ hình Word2vec chất việc huấn luyện mạng ANN với lớp ẩn Các 22 cặp từ tách theo skip-gram dựa xác suất để tính độ tương quan từ 4.1.5.3 Ứng dụng mơ hình LSTM Hình 4-6 Thống kê số từ câu Bảng 4-8 Thống kê số từ câu Số từ Tần số 10 11 12 13 14 15 29 93 164 177 188 206 234 267 251 304 248 240 196 161 127 Số từ 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Tần số Số từ 116 122 122 112 102 74 74 68 54 54 45 55 43 29 26 Xây dựng model LSTM VECTO_SIZE = 128 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Tần số 30 28 19 35 28 20 14 10 14 12 12 11 12 Số từ 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Tần số 13 6 5 1 Số từ 61 62 63 64 65 67 68 69 71 72 74 75 78 79 81 Tần số Số từ 2 1 84 86 88 90 95 97 101 104 107 111 113 115 138 Tần số 2 1 2 1 23 LOOK_BACK = 20 NUM_EPOCH = 100 Test accuracy: 84.80763370009562 4.2 Đánh giá kết Qua thực nghiệm thực thực nghiệm 5: “Trích xuất đặc trưng dự đoán deep learning” đạt kết cao với liệu mà luận văn thực hiện, với kết 84.80763370009562 kiểm nghiệm cross-validate với k=5 Kết chƣơng Trong chương mơ tả tồn q trình thực để giải tốn Báo cáo kết thực nghiệm So sánh, đánh giá thực nghiệm tốt với toán luận văn thực 24 KẾT LUẬN VÀ KIẾN NGHỊ Kết đạt đƣợc: - Điều giúp cho doanh nghiệp hiểu tình hình kinh doanh doanh nghiệp, hiểu ý kiến khách hàng, tối ưu hóa chi phí, tăng hiệu suất hiệu hoạt động kinh doanh dịch vụ mà giúp cho khách hàng có nhìn tổng quan khách sạn trước đưa định sử dụng dịch vụ Thêm vào việc ứng dụng AI vào sống đặc biệt Deep Learning không lý thuyết mà trở nên thực tế hơn, với kết khả quan Một số hạn chế: - Dataset cịn (hơn bốn nghìn phản hồi) - Độ xác liệu chưa cao, hầu hết câu văn có vấn đề từ ngữ (sai tả, viết tắt, tiếng địa phương) ngữ pháp nên ảnh hưởng đến kết sau - Hiệu suất mơ hình đáng tin cậy liệu đầu vào chuẩn, tức văn tiếng việt với lỗi tả không dấu thấp - Thêm vào lượng data khoảng nghìn dịng tốn neural network, deep learning chưa khai phá hết khả thuật toán Hƣớng phát triển đề xuất: - Hoàn thiện liệu huấn luyện Đây liệu đóng vai trị quan trọng việc xây dựng cho kết phân tích, liệu lớn kèm theo mức độ bao quát trường hợp ngôn ngữ văn rộng cho kết phân tích xác - Đầu tư vào bước chuẩn hóa liệu, đặc tính ngơn ngữ tự nhiên không chuẩn so với ngôn ngữ máy - Nên bổ sung lớp cảm xúc theo thang đo điểm, để chi tiết mức độ cảm xúc câu - Nghiên cứu thêm thuật tốn nhận diện đối tượng câu có ý tích cực, lẫn tiêu cực Nên cần phải phân tách rõ ràng ... từ để dự đoán ngữ cảnh (sử dụng từ để dự đoán từ xung quanh (hay ngữ cảnh)) Một hai cách áp dụng để huấn luyện cho mơ hình word2vec, cách sử dụng mơ hình skip gram thường sử dụng việc đáp ứng. .. học (deep learning) để dự đoán quan điểm người dùng Xử lý ngôn ngữ tự nhiên phương pháp vector hóa từ Lý thuyết trí tuệ nhân tạo, mạng neural deep learning Đánh giá tập liệu kỹ thuật học máy deep. .. thuật dự đoán quan điểm tài liệu kỹ thuật học máy deep Learning với mạng LSTM Lựa chọn công cụ có để cài đặt, đề xuất mơ hình thể cụ thể kết nghiên cứu, kết thực nghiệm so với sở liệu chuẩn để so

Định dạng
Số trang	26
Dung lượng	0,96 MB