Những năm gần đây ngày càng nhiều người nói về cách mạng công nghệ lần thứ 4 Các chủ đề được nhắc tới nhiều nhất bao gồm Big Data Deep Learning IoT Blockchain Mặc dù những sự đầu tư nghiên cứu gần đây tập trung vào nhiều hướng tiếp cận khác nhau nhưng tất cả các nghiên cứu đó đều dần dần hướng tới một mục đích chung Mục đích chung đó là làm sao để máy tính thông minh hơn để có thể dần dần thay thế con người Để máy tính thông minh hơn thì chúng ta tìm cách làm cho máy tính học được từ con người Vì thế lĩnh vực máy học tiền thân của Deep Learning chính là một trong những hướng tiếp cận quan trọng trong giai đoạn cách mạng công nghiệp này Máy học là một lĩnh vực mà trong đó nhiều bài toán lớn được đưa ra để các nhà khoa học cùng nghiên cứu Một trong những bài toán rất có giá trị kinh tế rất cao của máy học là bài toán tự động phân tích quan điểm Lời giải của bài toán đánh giá quan điểm sẽ mang đến cho các doanh nghiệp cái nhìn tổng quan về thị trường và về những dịch vu liên quan Vì bài toán phân tích quan điểm cũng là một trong những bài toán xử lý ngôn ngữ tự nhiên nên lời giải của nó cũng đóng góp đáng kể vào quá trình nghiên cứu xử lý ngôn ngữ tự nhiên này Trong luận văn này học viên đã trình bày việc so sánh các lời giải cho bài toán phân tích quan điểm đối với ngôn ngữ Tiếng Việt Trong đó học viên đã làm nổi bật lên sự khác nhau giữa phương pháp máy học deep learning và not deep learning Với những phương pháp và hướng tiếp cận khác nhau học viên đã thực hiện đánh giá định lượng để so sánh độ chính xác của các phương pháp Đóng góp cơ bản của luận văn này là một bộ khung để so sánh đánh giá đối với bài toán phân tích quan điểm trong tiếng Việt Những độc giả quan tâm có thể áp dụng các phương pháp này cho bài toán của mình để có những so sánh định lượng tương đối để có thể chọn ra giải pháp tốt nhất cho mình
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA DƯƠNG PHƯỚC QUỐC CƯỜNG ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI LIỆU Chuyên ngành : Khoa học máy tính Mã số : 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS NGUYỄN THANH BÌNH Đà Nẵng - Năm 2019 LỜI CAM ĐOAN Tơi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp PGS.TS Nguyễn Thanh Bình Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm TRANG TĨM TẮT LUẬN VĂN ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI LIỆU Học viên: Dương Phước Quốc Cường Chuyên ngành: Khoa học máy tính Mã số: 8480101 - Khóa: 34 Trường Đại học Bách khoa – ĐHĐN Tóm tắt -Những năm gần đây, ngày nhiều người nói cách mạng công nghệ lần thứ Các chủ đề nhắc tới nhiều bao gồm Big Data, Deep Learning, IoT, Blockchain Mặc dù đầu tư nghiên cứu gần tập trung vào nhiều hướng tiếp cận khác nhau, tất nghiên cứu hướng tới mục đích chung Mục đích chung để máy tính thơng minh để thay người Để máy tính thơng minh tìm cách làm cho máy tính học từ người Vì thế, lĩnh vực máy học (tiền thân Deep Learning) hướng tiếp cận quan trọng giai đoạn cách mạng công nghiệp Máy học lĩnh vực mà nhiều tốn lớn đưa để nhà khoa học nghiên cứu Một tốn có giá trị kinh tế cao máy học toán tự động phân tích quan điểm Lời giải toán đánh giá quan điểm mang đến cho doanh nghiệp nhìn tổng quan thị trường dịch vu liên quan Vì tốn phân tích quan điểm tốn xử lý ngôn ngữ tự nhiên, nên lời giải đóng góp đáng kể vào q trình nghiên cứu xử lý ngôn ngữ tự nhiên Trong luận văn này, học viên trình bày việc so sánh lời giải cho tốn phân tích quan điểm ngơn ngữ Tiếng Việt Trong đó, học viên làm bật lên khác phương pháp máy học deep learning not deep learning Với phương pháp hướng tiếp cận khác nhau, học viên thực đánh giá định lượng để so sách độ xác phương pháp Đóng góp luận văn khung để so sánh đánh giá toán phân tích quan điểm tiếng Việt Những đọc giả quan tâm áp dụng phương pháp cho tốn để có so sánh định lượng tương đối để chọn giải pháp tốt cho Từ khố: Khai phá, xử lý liệu, ngơn ngữ tự nhiên, dự đốn quan điểm, thực nghiệm đề xuất đánh giá giải pháp ABSTRACT OF THESIS USING DEEP LEARNING TO PREDICT OPINIONS IN DOCUMENTS Student: Duong Phuoc Quoc Cuong Major: Computer Science Code:8480101 Course: K34 University of Science and Technology- University of Danang Abstract-In recent years, more and more people talk about the 4th generation of industrial revolution The most popular topics include Big Data, Deep Learning, IoT, Blockchain Although people invest different researches in diversity of approaches, most of researches follow a common purpose This common purpose is how to make machine more intelligent in orrder to replace human Then, the Machine Learning topic (the previous topic prior to Deep Learning) is one of the most important approaches during this generation of industrial revolution Machine Learning domain proposes plenty of problems which challenge modern researchers One of the valuable problemin economic domain is the problem of Sentiment Analysis The solution of Sentiment Analysis brings a vision about the market and about the services to the company who invests the research to solve this problem Since Sentiment Analysis is also a Natural Language Processing, its solutions also contribute significantly the development of this domain In this thesis, author presents a set of evaluation of solutions for the problem of Sentiment Analysis in Vietnamese language Authors also clarifies the difference between Deep Learning approaches and not-Deep Learning approaches With these difference approaches and solutions, author also present a quantitative comparison in order to evaluate the accuracy of these solutions for this Sentiment Analysis problem The main contribution of this thesis is an framework of evalutation which is recommended to use to compare and to evaluate the solutions for Sentiment Analysis problem in Vietnamese language Interest readers can apply these methods to their own problem in order to approximately compare these solutions and then to select the best one Keywords: Mining, processing data, natural language, predicting views, proposing and evaluating solutions MỤC LỤC TRANG BÌA LỜI CAM ĐOAN TRANG TÓM TẮT LUẬN VĂN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Bố cục luận văn CHƢƠNG TỔNG QUAN, CƠ SỞ LÝ THUYẾT 1.1 Bài toán khai phá quan điểm 1.1.1 Khái niệm khai phá liệu 1.1.2 Quá trình khai phá tri thức từ liệu 1.2 Machine learning 1.3 Deep Learning .7 1.3.1 Khái niệm 1.3.2 Các toán ứng dụng 1.4 Xử lý ngôn ngữ tự nhiên .9 1.4.1 Định nghĩa 1.4.2 Cấu tạo, đặc điểm ngôn ngữ tiếng Việt: 1.4.3 Các bƣớc xử lý ngôn ngữ tự nhiên: 12 Kết chƣơng 12 CHƢƠNG BÀI TOÁN DỰ ĐOÁN QUAN ĐIỂM 13 2.1 Bài toán liên quan dự đoán quan điểm 13 2.1.1 Nguồn từ vựng nâng cao để phân tích tình cảm khai thác ý kiến 13 2.1.2 Một số khảo sát vềphân tích tình cảm khai thác ý kiến 14 2.2 Phƣơng pháp máy học để giải toán dự đoán quan điểm .16 2.2.1 Trích xuất đặc trƣng 16 2.2.2 Huấn luyện dự đoán 19 2.2.3 Mạng nơ ron hồi quy 22 Kết chƣơng 23 CHƢƠNG MƠ TẢ BÀI TỐN VÀ ĐỀ XUẤT GIẢI PHÁP 24 3.1 Vấn đề đề tài tập trung giải .24 3.2 Đề xuất giải pháp 24 3.2.1 Thu thập tiền xử lý liệu 24 3.2.2 Thực nghiệm kiểm tra độ xác với phƣơng pháp kiểm tra chéo 28 3.2.3 Kiểm tra thực tế 30 3.3 Mơ hình giải pháp .30 3.3.1 Mô tả 30 3.3.2 Thƣ viện đƣợc sử dụng 31 3.3.3 Công cụ thực 34 Kết chƣơng 34 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP 35 4.1 Thực ngiệm 35 4.1.1 Thực nghiệm 1: Trích xuất đặc trƣng bình thƣờng thuật toán phân loại truyền thống 35 4.1.2 Thực nghiệm 2: Trích xuất đặc trƣng bình thƣờng thuật tốn phân loại neutral network 35 4.1.3 Thực nghiệm 3: Trích xuất đặc trƣng learning thuật toán phân loại truyền thống 38 4.1.4 Thực nghiệm 4: Trích xuất đặc trƣng learning thuật tốn phân loại neutral network 39 4.1.5 Thực nghiệm 5: Trích xuất đặc trƣng dự đốn deep learning 42 4.2 Đánh giá kết 44 Kết chƣơng 44 KẾT LUẬN VÀ KIẾN NGHỊ 45 Kết đạt đƣợc: 45 Một số hạn chế: 45 Hƣớng phát triển đề xuất: 45 TÀI LIỆU THAM KHẢO 46 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN 48 BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Diễn giải Ký hiệu Tiếng Anh Tiếng Việt NLP Natural Language Processing Xử lý ngơn ngữ tự nhiên TTNT Trí tuệ nhân tạo Trí tuệ nhân tạo AI Artificial intelligence Trí tuệ nhân tạo ANN Artificial Neural Network Mạng nơ-ron nhân tạo CNN Convolution Neural Network Mạng nơ-ron tích chập DNN Deep Neural Network Mạng neural sâu GPU Graphics Processing Unit Đơn vị xử lý đồ họa NN Neural Network Mạng nơ-ron ReLU Rectified Linear Unit Hiệu chỉnh đơn vị tuyến tính SIFT Scale-Invariant Feature Transform Biến đổi đặc trƣng tỉ lệ không thay đổi SOM Self Organizing Maps Mạng nơ-ron tự tổ chức SVM Support Vetor Machines Máy vector hỗ trợ DANH MỤC CÁC BẢNG Bảng 1-1.Tần suất xuất độ dài từ tiếng Việt vdict.com 10 Bảng 4-1 Kết thực nghiệm với Bag of word 35 Bảng 4-2 Kết thực nghiệm với tf-idf 35 Bảng 4-3 Kết thực nghiệm với Bag of word 36 Bảng 4-4 Kết thực nghiệm với tf-idf 38 Bảng 4-5 Kết thực nghiệm với word2vec 39 Bảng 4-6 Kết thực nghiệm với doc2vec .39 Bảng 4-7 Kết thực nghiệm với word2vec 40 Bảng 4-8 Kết thực nghiệm với doc2vec .41 Bảng 4-9 Thống kê số từ câu 44 DANH MỤC CÁC HÌNH Hình 1-1 Minh họa khai phá liệu Hình 1-2 Quy trìnhkhaiphá tri thức Hình 1-3 Minh họa machine learning Hình 1-4 Deeplearning lĩnh vực AI Hình 1-5 Mạng Deep learning gồm node neural Hình 2-1 Top 10 từ tƣơng tự nghĩa postive negative 13 Hình 2-2 Sentiment Classification Amazon review .14 Hình 2-3 Summary of the survey 15 Hình 2-4 Minh họa phân bố từ word2vec 18 Hình 2-5 Minh họa Logistic Regression 21 Hình 2-6 Minh họa Multi-layer Perceptron 22 Hình 3-1 Tổng quát quy trình thực .24 Hình 3-2 Dataset đƣợc thực nghiệm 25 Hình 3-3 Loại bỏ nhiễu .25 Hình 3-4 Trích xuất đặc trƣng đầu vào (Feature extraction) 26 Hình 3-5 Quy trình tiền xử lý liệu 27 Hình 3-6 Mơ tả cross-validate 28 Hình 3-7 Quy trình nghiệm dự đốn vơi kiểm nghiệm cross validate 29 Hình 3-8 Đánh giá kiểm tra thực tế 30 Hình 3-9 Hình dạng đầu vào LSTM 32 Hình 3-10 Mơ tả LSTM với times step 33 Hình 4-1 Kết thực nghiệm với Bag of word .36 Hình 4-2 Kết thực nghiệm với tf-idf 37 Hình 4-3 Kết thực nghiệm với word2vec 40 Hình 4-4 Kết thực nghiệm với doc2vec 41 Hình 4-5 Các bƣớc tốn trích xuất thông tin quan điểm sử dụng RNN 42 Hình 4-6 Thống kê số từ câu 43 MỞ ĐẦU Cùng với phát triển không ngừng khoa học công nghệ, đặc biệt cách mạng công nghiệp lần thứ tƣ diễn rộng khắp tất lĩnh vực đất nƣớc nhƣ nƣớc giới, chủ đề đƣợc nhắc tới nhiều bao gồm Big Data, Deep Learning, IoT, Blockchain… Các sản phẩm CNTT trí tuệ nhân tạo học máy ngày phát triển lĩnh vực đƣợc quan tâm đầu tƣ nghiên cứu nhiều hiện, lĩnh vực học sâu (Deep Learning) loại phổ biến máy học có thành tựu phát triển vƣợt bậc Ngày nay, để đáp ứng nhu cầu sống ngày cao ngƣời, sản phẩm dịch vụ có bƣớc phát triển mạnh mẽ Với loại sản phẩm dịch vụ lại phong phú chủng loại, chất lƣợng, dịch vụ đến từ nhiều nhà cung cấp khác Do đó, việc trì phát triển sản phẩm dịch vụ có đƣợc số lƣợng khách hàng lớn địi hỏi nhiều cơng sức Một phƣơng pháp hiệu lắng nghe ý kiến phản hồi khách hàng sản phẩm dịch vụ Dựa ý kiến phản hồi này, nhà cung cấp đánh giá đƣợc chất lƣợng sản phẩm, dịch vụ nhƣ phục vụ từ điều chỉnh sản phẩm phù hợp để đạt đƣợc hiệu kinh doanh tốt Cơng việc có tên gọi trích xuất thơng tin quan điểm ngƣời dùng Đây toán nhƣng có ứng dụng lớn sống Ngƣời tiêu dùng ngày có nhiều kênh khác để tƣơng tác với nhà cung cấp dịch vụ Bên cạnh kênh truyền thống nhƣ email, điện thoại, fax hình thức nhƣ bình luận, phản hồi, chia trang mạng xã hội, viết đánh giá sản phẩm, phản hồi diễn đàn Và mạng xã hội kênh trao đổi thông tin phổ biến Qua nguồn trên, liệu đƣợc thu thập lại dƣới dạng văn Từ liệu dạng văn bản, luận văn trình bày phƣơng pháp áp dụng deep learning để đƣa mơ hình xử lý thơng tin văn nhằm trích xuất đƣợc thơng tin quan điểm ngƣời dùng Lý chọn đề tài Trong sống đại ngày nay, du lịch trở nên vô phổ biến Việc lên kế hoạch điểm đến, đặt phòng, đặt vé, điều thiết yếu chuyến Với phát triển cơng nghệ, nhận xét, bình luận phản hồi ngƣời sử dụng trải nghiệm họ với chuyến du lịch đóng vai trị nhƣ nguồn thơng tin quan trọng, với ngƣời chủ doanh nghiệp họ muốn cải thiện dịch vụ Đặc biệt, với việc đặt phịng khách sạn, nhận xét khách hàng sử dụng mang tính thực tế, khách quan chi tiết đƣợc in sẵn 40 4.1.4.1 Word2vec Hình 4-3 Kết thực nghiệm với word2vec Bảng 4-7 Kết thực nghiệm với word2vec Hidden Layer 12 16 20 24 28 32 36 40 44 48 Accuracy 72.59373981945627 72.73185367340291 74.49585947434241 74.79334153031306 75.87058755530333 75.48125729058293 74.77058965709301 74.72461300797629 74.65625229883246 74.54165221686266 74.24377607532816 74.01468100087226 73.92230734470402 41 52 56 60 64 73.85347373288356 73.23536366215833 73.18985991571824 73.02912555040618 Với số hidden layer: 2, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44, 48, 52, 56, 60, 64 word2vec áp dụng với multi perceptron mang lại kết tốt số hidden layer 16 4.1.4.2 Doc2vec Hình 4-4 Kết thực nghiệm với doc2vec Bảng 4-8 Kết thực nghiệm với doc2vec Hidden layer Accuracy 71.76902382378596 71.90640205134672 72.20430446525215 42 12 16 20 24 28 32 36 40 44 48 52 56 60 64 72.36488119633869 72.82315016236326 71.60781655579727 71.49384701072964 71.37927320113077 71.28760889897747 71.104595563122 71.0586451863762 70.89812100003152 70.62362726861923 70.41733661212521 70.39374402303561 69.98168815746608 69.82142669483065 Với số hidden layer: 2, 4, 8, 12, 16, 20, 24, 28, 32, 36, 40, 44, 48, 52, 56, 60, 64 doc2vec áp dụng với multi perceptron mang lại kết tốt số hidden layer 16 4.1.5 Thực nghiệm 5: Trích xuất đặc trưng dự đoán deep learning Tiềnxửlý Xâydựng model vector hóabằng word2vec Word Embediing Kiểmtra model LSTM Huấnluyện model LSTM Xâydựng model LSTM Hình 4-5 Các bước tốn trích xuất thơng tin quan điểm sử dụng RNN 43 Các bƣớc giải tốn trích xuất thơng tin quan điểm bao gồm việc giải vấn đề sau: - Tiền xử lý kho ngữ liệu - Xây dựng model vector hóa Word2vec cho tập ngữ liệu - Word Embedding sử dụng mơ hình kết Word2vec để vector câu tập ngữ liệu - Áp dụng mạng LSTM để giải toàn bao gồm bƣớc nhỏ: xây dựng model LSTM, huấn luyện model LSTM, kiểm tra model LSTM 4.1.5.1 Tiền xử lý kho ngữ liệu Thực tƣơng tự nhƣ thực nghiệm trƣớc 4.1.5.2 Xây dựng Word2Vec Xây dựng mô hình word2vec từ tập ngữ liệu văn đƣợc tiền xử lý Mơ hình Word2vec chất việc huấn luyện mạng ANN với lớp ẩn Các cặp từ đƣợc tách theo skip-gram dựa xác suất để tính độ tƣơng quan từ 4.1.5.3 Ứng dụng mơ hình LSTM Hình 4-6 Thống kê số từ câu 44 Bảng 4-9 Thống kê số từ câu Số từ Tần số 10 11 12 13 14 15 29 93 164 177 188 206 234 267 251 304 248 240 196 161 127 Số từ Tần số 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 116 122 122 112 102 74 74 68 54 54 45 55 43 29 26 Số từ 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Tần số 30 28 19 35 28 20 14 10 14 12 12 11 12 Số từ 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 Tần số 13 6 5 1 Số từ 61 62 63 64 65 67 68 69 71 72 74 75 78 79 81 Tần số Số từ 2 1 84 86 88 90 95 97 101 104 107 111 113 115 138 Tần số 2 1 2 1 Xây dựng model LSTM VECTO_SIZE = 128 LOOK_BACK = 20 NUM_EPOCH = 100 Việc áp dụng LSTM, với khả hồi quy, nhớ thông tin trƣớc Đối với tốn luận văn, từ câu có mối liên hệ với Việc lựa chọn look_back LSTM, lựa chọn việc thống kê tần số từ câu Qua thống kê chúng tơi lựa chọn look_back cho việc hồi quy Sau thực word2vec với LSTM kết phân loại đạt đƣợc: Test accuracy: 84.80763370009562 4.2 Đánh giá kết Qua thực nghiệm thực thực nghiệm 5: ―Trích xuất đặc trƣng dự đốn deep learning‖ đạt kết cao với liệu mà luận văn thực hiện, với kết 84.80763370009562 kiểm nghiệm cross-validate với k=5 Kết chương Trong chƣơng mơ tả tồn q trình thực để giải toán Báo cáo kết thực nghiệm So sánh, đánh giá thực nghiệm tốt với toán luận văn thực 45 KẾT LUẬN VÀ KIẾN NGHỊ Kết đạt được: Điều giúp cho doanh nghiệp hiểu đƣợc tình hình kinh doanh doanh nghiệp, hiểu đƣợc ý kiến khách hàng, tối ƣu hóa chi phí, tăng hiệu suất hiệu hoạt động kinh doanh dịch vụ mà cịn giúp cho khách hàng có nhìn tổng quan khách sạn trƣớc đƣa định sử dụng dịch vụ Thêm vào việc ứng dụng AI vào sống đặc biệt Deep Learning khơng cịn lý thuyết mà trở nên thực tế hơn, với kết khả quan Một số hạn chế: Dataset cịn (hơn bốn nghìn phản hồi) Độ xác liệu chƣa cao, hầu hết câu văn có vấn đề từ ngữ (sai tả, viết tắt, tiếng địa phƣơng) ngữ pháp nên ảnh hƣởng đến kết sau Hiệu suất mơ hình đáng tin cậy liệu đầu vào chuẩn, tức văn tiếng việt với lỗi tả khơng dấu thấp Thêm vào lƣợng data khoảng nghìn dịng tốn neural network, deep learning chƣa khai phá đƣợc hết khả thuật toán Hướng phát triển đề xuất: Hoàn thiện liệu huấn luyện Đây liệu đóng vai trị quan trọng việc xây dựng cho kết phân tích, liệu lớn kèm theo mức độ bao quát trƣờng hợp ngôn ngữ văn rộng cho kết phân tích xác Đầu tƣ vào bƣớc chuẩn hóa liệu, đặc tính ngơn ngữ tự nhiên không chuẩn so với ngôn ngữ máy Nên bổ sung lớp cảm xúc theo thang đo điểm, để chi tiết mức độ cảm xúc câu Nghiên cứu thêm thuật tốn nhận diện đối tƣợng câu có ý tích cực, lẫn tiêu cực Nên cần phải phân tách rõ ràng 46 TÀI LIỆU THAM KHẢO [1] Akhtar, M.S., Kumar, A., Ghosal, D., Ekbal, A and Bhattacharyya, P., 2017, September A multilayer perceptronbased ensemble technique for fine-grained financial sentiment analysis In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (pp 540-546) [2] Al-Amin, M., Islam, M.S and Uzzal, S.D., 2017, February Sentiment analysis of Bengali comments with Word2Vec and sentiment information of words In 2017 International Conference on Electrical, Computer and Communication Engineering (ECCE) (pp 186-190) IEEE [3] Baccianella, S., Esuli, A and Sebastiani, F., 2010, May Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining In Lrec (Vol 10, No 2010, pp 2200-2204) [4] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K and Kuksa, P., 2011 Natural language processing (almost) from scratch Journal of machine learning research, 12(Aug), pp.2493-2537 [5] Hamdan, H., Bellot, P and Bechet, F., 2015, June Lsislif: Crf and logistic regression for opinion target extraction and sentiment polarity analysis In Proceedings of the 9th international workshop on semantic evaluation (SemEval 2015) (pp 753-758) [6] Hochreiter, S and Schmidhuber, J., 1997 Long short-term memory Neural computation, 9(8), pp.1735-1780 [7] Hong, J and Fang, M., 2015 Sentiment analysis with deeply learned distributed representations of variable length texts Stanford University Report [8] Hand, D.J., 2006 Data Mining Encyclopedia of Environmetrics, [9] Akhtar, M.S., Kumar, A., Ghosal, D., Ekbal, A and Bhattacharyya, P., 2017, September A multilayer perceptron based ensemble technique for fine-grained financial sentiment analysis In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (pp 540-546) [10] LeCun, Y., Bengio, Y and Hinton, G., 2015 Deep learning nature, 521(7553), p.436 [11] Le, Q and Mikolov, T., 2014, January Distributed representations of sentences and documents In International conference on machine learning (pp 11881196) 47 [12] Manek, A.S., Shenoy, P.D., Mohan, M.C and Venugopal, K.R., 2017 Aspect term extraction for sentiment analysis in large movie reviews using Gini Index feature selection method and SVM classifier World wide web, 20(2), pp.135154 [13] Maas, A.L., Daly, R.E., Pham, P.T., Huang, D., Ng, A.Y and Potts, C., 2011, June Learning word vectors for sentiment analysis In Proceedings of the 49th annual meeting of the association for computational linguistics: Human language technologies-volume (pp 142-150) Association for Computational Linguistics [14] Ramos, J., 2003, December Using tf-idf to determine word relevance in document queries In Proceedings of the first instructional conference on machine learning (Vol 242, pp 133-142) [15] Ravi, K., Ravi, V and Gautam, C., 2015, May Online and semi-online sentiment classification In International Conference on Computing, Communication & Automation (pp 938-943) IEEE [16] Vinodhini, G and Chandrasekaran, R.M., 2012 Sentiment analysis and opinion mining: a survey International Journal, 2(6), pp.282-292 [17] Wiegand, M., Balahur, A., Roth, B., Klakow, D and Montoyo, A., 2010, July A survey on the role of negation in sentiment analysis In Proceedings of the workshop on negation and speculation in natural language processing (pp 6068) [18]Wallach, H.M., 2006, June Topic modeling: beyond bag-of-words In Proceedings of the 23rd international conference on Machine learning (pp 977-984) ACM [19] Wang, X., Jiang, W and Luo, Z., 2016, December Combination of convolutional and recurrent neural network for sentiment analysis of short texts In Proceedings of COLING 2016, the 26th international conference on computational linguistics: Technical papers (pp 2428-2437) [20] Zhang, L., Wang, S and Liu, B., 2018 Deep learning for sentiment analysis: A survey Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 8(4), p.e1253 [21] Sayers, S.P., Harackiewicz, D.V., Harman, E.A., Frykman, P.N and Rosenstein, M.T., 1999 Cross-validation of three jump power equations Medicine and science in sports and exercise, 31(4), pp.572-577 48 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN Scanned by CamScanner Scanned by CamScanner Scanned by CamScanner Scanned by CamScanner Scanned by CamScanner Scanned by CamScanner ... đoán từ (sử dụng từ xung quanh (dựa window) để dự đoán từ giữa) chất skip gram dùng từ để dự đoán ngữ cảnh (sử dụng từ để dự đoán từ xung quanh (hay ngữ cảnh)) Một hai cách đƣợc áp dụng để huấn luyện... địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm TRANG TĨM TẮT LUẬN VĂN ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI LIỆU... lý luận đề tài bao gồm data mining, khai phá quan điểm, trình bƣớc để khai thác tri thức Đồng thời chƣơng đề cập đến machine learning, deeplearning, ứng dụng deeplearning đời sống Trong trình