Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)
i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Tất số liệu kết luận văn trung thực chưa có cơng bố nghiên cứu khác Tp Hồ Chí Minh, ngày 22 tháng năm 2018 Học viên thực luận văn Lưu Thị Bích Diệp ii LỜI CẢM ƠN Đề hoàn thành luận văn này, nỗ lực nghiên cứu thân, xin chân thành cảm ơn TS Nguyễn Phương, người hướng dẫn khoa học, định hướng cho đề tài Mặc dù đồng hành thầy hết khóa luận, bảo, góp ý, động viên thầy nguồn cổ vũ tinh thần để tơi hồn thành đề tài Tơi xin gửi lời cảm ơn đến quý Thầy/Cô Học viện Cơng nghệ Bưu Viễn thơng sở Hồ Chí Minh hết lòng truyền đạt kiến thức thời gian học tập Học viện Cuối cùng, xin cảm ơn đến gia đình, bạn bè đồng nghiệp, người cổ vũ tinh thần tạo điều kiện thuận lợi để tơi hồn thành luận văn Tp Hồ Chí Minh, ngày 22 tháng năm 2018 Học viên thực luận văn Lưu Thị Bích Diệp iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH vii CHƯƠNG 1: GIỚI THIỆU CHUNG 1.1 Giới thiệu chương 1.2 Đặt vấn đề 1.2.1 Mục tiêu 1.2.2 Đối tượng nghiên cứu 1.2.3 Phạm vi nghiên cứu 1.3 Kết luận chương CHƯƠNG 2: NGHIÊN CỨU XỬ LÝ NGÔN NGỮ TỰ NHIÊN SỬ DỤNG vnTOKENIZER, WORD2VEC VÀ SUPPORT VECTOR MACHINE 2.1 Các khái niệm 2.2 Phân loại Máy học 2.3 Tổng quan xử lý ngôn ngữ tự nhiên 10 2.4 Đặc trưng ngôn ngữ tiếng Việt 11 2.5 Công cụ tách từ vnTokenizer 12 2.6 Biểu diễn từ thành Vector đặc trưng sử dụng Word2vec 18 2.7 Cảm xúc người dùng máy hỗ trợ vector (Support Vector Machine) 20 2.7.1 Cảm xúc người dùng (Sentiment) 20 2.7.2 Máy hỗ trợ vector (Support Vector Machine) 21 2.8 Kết luận chương 26 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG GÁN NHÃN CÁC CÂU BÌNH LUẬN TIẾNG VIỆT 27 3.1 Phát biểu toán 27 3.2 Mơ hình ứng dụng xử lý văn tiếng Việt 28 3.3 Các giai đoạn xử lý liệu 29 3.3.1 Giai đoạn thu thập liệu 29 3.3.2 Giai đoạn tách từ sử dụng công cụ vnTokenizer 31 3.3.4 Biểu diễn vector sử dụng công cụ Word2vec 34 iv 3.3.5 Phân loại cảm xúc người dùng sử dụng Máy hỗ trợ vector (Support Vector Machine) 39 3.4 Giao diện người dùng 42 3.5 Nhận xét đánh giá kết 44 3.6 Kết luận chương 45 KẾT LUẬN 46 Kết đạt 46 1.1 Về mặt lý thuyết 46 1.2 Về mặt thực tiễn 46 Hạn chế 46 Hướng phát triển 47 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 48 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt AI SVM W NLP ∏ {xi} P(s) Tiếng Anh Artificial intelligence Support Vector Machine Weight Natural Language Processing Product The set whose elements are xi Probability Tiếng Việt Trí tuệ nhân tạo Máy hỗ trợ vector Trọng số Xử lý ngơn ngữ tự nhiên Tích đại số Tập gồm phần tử xi Xác suất vi DANH SÁCH BẢNG Bảng 2.1: Bảng thống kê chiều dài số lượng từ đo âm tiết 11 Bảng 3.1: Môi trường thực thực nghiệm 29 Bảng 3.2: Số lượng báo thu thập 30 Bảng 3.3: Kết thu sau giai đoạn tách từ 33 Bảng 1.4: Tỉ lệ gán nhãn xác thuật toán khác 42 vii DANH SÁCH HÌNH Hình 2.1: Quy trình tách từ theo phương pháp so khớp cực đại 15 Hình 2.2: Biểu đồ biểu diễn cụm từ 15 Hình 2.3: Xây dựng biểu đồ cho cụm từ S1S2…Sn 16 Hình 2.4: Ước tính giá trị 18 Hình 2.5: Biểu diễn từ dạng one-hot-vector 19 Hình 2.6: Vector từ biểu diễn ma trận trọng số 20 Hình 2.7: Các siêu phẳng phân tách hai lớp liệu 22 Hình 2.8: Biểu diễn siêu phẳng lề cực đại cho phân lớp 24 Hình 3.1: Mơ hình ứng dụng xử lý văn Tiếng Việt 28 Hình 3.2: Bài báo website vnexpress.net 31 Hình 3.3: Cấu trúc báo lấy dạng tập tin liệu 31 Hình 3.4: Vòng lặp tách gom 100 tệp tin thành tệp tin 33 Hình 3.5: Mã chương trình gom tệp tin 33 Hình 3.6: Mã chương trình sử dụng cơng vụ vnTokenize 34 Hình 3.7: Quy trình biểu diễn từ thành vector đặc trưng với N=138.437 35 Hình 3.8: Tìm từ gần với từ “sản phẩm” 36 Hình 3.9: Các bước thực biểu diễn câu thành vector 37 Hình 3.10: Vector biểu diễn bình luận “Tòa chuẩn xác” 38 Hình 3.11: Biểu diễn bình luận gán nhãn dạng vector 38 Hình 3.12: Mã chương trình thực chức biểu diễn câu thành vector 39 Hình 3.13: Huấn luyện kiểm thử gán nhãn liệu 40 Hình 3.14: Các bình luận gán nhãn tiến hành huấn luyện liệu 41 Hình 3.15: Mã chương trình gán nhãn cảm xúc thuật toán khác 41 Hình 3.16: Các chức ứng dụng thực thẻ HTML 41 Hình 3.17: Câu bình luận gán nhãn cảm xúc Tích cực 43 Hình 3.18: Câu bình luận gán nhãn cảm xúc Tiêu cực 43 Hình 3.19: Chức gán nhãn câu bình luận cho báo 44 MỞ ĐẦU Ngày nay, dịch vụ xã hội phát triển ngày cao số lượng chất lượng Các nhà cung cấp dịch vụ, sản phẩm cho người sử dụng hướng tới việc thỏa mãn người dùng mức cao Vì việc phân tích phản hồi, bình luận, quan điểm người dùng sản phẩm dịch vụ quan trọng với nhà cung cấp Chính vậy, việc đo lường cảm xúc người tiêu dùng góp phần quan trọng chiến lược quản lý xây dựng thương hiệu Có nhiều doanh nghiệp đầu tư chi phí việc khảo sát lấy ý kiến người sử dụng sản phẩm, dịch vụ thông qua phiếu đánh giá phiếu lấy ý kiến Sau phiếu đánh giá mang phân loại cách thủ cơng Việc gây nhiều chi phí nguồn lực công ty, chưa kể đến hạn chế số lượng phiếu đánh giá Mạng xã hội phát triển rộng khắp, thông tin sản phẩm, dịch vụ nhiều người biết đến Các phản hồi cập nhật, chia sẻ liên tục từ người dùng Thông qua doanh nghiệp tổ chức trực tiếp tiếp cận với người dùng cách nhanh chóng xác Vì việc phân tích phản hồi cách tự động, nhanh chóng, trực tiếp góp phần tiết kiệm chi phí, nguồn lực cho doanh nghiệp đồng thời góp phần quan trọng việc định hướng xây dựng chiến lược Để có nhìn nội dung bình luận phản hồi việc phân tích ngữ nghĩa câu văn, đoạn văn quan trọng, việc hiểu sai ảnh hưởng tới kết bước, định, chiến lược Câu văn hay đoạn văn hình thức thể ngơn ngữ tự nhiên văn Vì việc xử lý ngơn ngữ tự nhiên nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngơn ngữ Có nhiều ứng dụng xử lý ngơn ngữ tự nhiên như: Nhận dạng chữ viết, nhận dạng tiếng nói, dịch tự động,…Để thực ứng dụng mang tính trí tuệ ưu việt, cơng nghệ Machine Learning, dịch tiếng Việt có nghĩa Máy Học, áp dụng cách linh hoạt Máy học, tập trí tuệ nhân tạo có lịch sử phát triển với bước sơ khai từ năm 1950 nhà bác học Alan Turing khởi sáng, nơi mà thuật tốn máy tính sử dụng để tự học từ liệu thông tin Đến nay, công nghệ Máy học thực lan tỏa rộng khắp đóng vai trò quan trọng phát minh ứng dụng công nghệ đời sống người Máy học áp dụng nhiều ngành công nghiệp làm việc với hàm lượng lớn liệu như: Các dịch vụ tài chính, Chính phủ, chăm sóc sức khỏe, dầu khí, vận tải,…Với mong muốn tiếp cận nghiên cứu sâu lĩnh vực Máy học, em chọn đề tài: “Nghiên cứu ứng dụng máy học đề xuất ứng dụng xử lý văn tiếng Việt” với hy vọng đóng góp phần cơng sức đưa thuật ngữ Máy học đến gần với người dùng Thuật toán Support Vector Machines–SVM (Máy hỗ trợ Vector) Corters Vapnik giới thiệu vào năm 1995 SVM hiệu để giải toán với liệu có số chiều lớn vector biểu diễn văn Thuật toán SVM ban đầu thiết kế để giải toán phân lớp nhị phân tức số lớp hạn chế hai lớp Hiện nay, SVM đánh giá phân lớp xác cho toán phân lớp văn với tốc độ phân lớp nhanh hiệu Khoa học kỹ thuật phát triền, khái niệm trí tuệ nhân tạo khơng lạ lẫm với người dùng, cơng trình nghiên cứu, sản phẩm cho đời cải tiến liên tục Về lĩnh vực nghiên cứu liên quan đến ngôn ngữ tiếng Việt như: Nhận dạng giọng nói, chữ viết tay, phân loại cảm xúc người tiêu dùng, …có thể kể số cơng trình nghiên cứu sau: - “Bài toán thêm dấu cho tiếng Việt” Lưu Tuấn Anh Đại học khoa học kĩ thuật Nagaoka Nghiên cứu tác giả nhằm xây dựng phần mềm thêm dấu cho tiếng Việt dựa vào từ âm tiết Tác giả đề xuất phương pháp tiến hành thêm dấu âm tiết cách độc lập Độ xác phương pháp lên đến 94.7% - Luận văn “Xây dựng mơ hình đối thoại cho Tiếng Việt miền mở dựa vào phương pháp học chuỗi liên tiếp – Nhữ Báo Vũ, Đại học Quốc gia Hà Nội, trường Đại học Công Nghệ” Luận văn xây dựng mơ hình đối thoại sử dụng mạng nơ-ron tái phát đọc chuỗi đầu vào thời điểm, dự đoán chuỗi đầu ra, dấu hiệu thời điểm - “A hybrid approach to word segmentation of VietNamese Texts - Lê Hồng Phương, Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Đại học quốc gia Hà Nội ”, thuật tốn trình bày phương pháp tách từ tiếng Việt với độ xác 97% Nghiên cứu Lê Hồng Phương cộng góp phần đắc lực vào lĩnh vực nghiên cứu liên quan đễn xử lý ngôn ngữ văn tiếng Việt - “Ứng dụng xử lý ngôn ngữ tự nhiên dịch máy -Tiến sĩ Nguyễn Chí Hiếu, khoa Cơng nghệ Thông tin, trường Đại học Công nghiệp Tp HCM” Bài báo đề xuất mơ hình nhận biết rút trích tự động cụm danh từ song ngữ từ liệu song ngữ Anh-Việt Và nhiều công trình nghiên cứu khác có liên quan tới vấn đề xử lý ngôn ngữ tự nhiên Tiếng Việt Tập trung vào vấn để xử lý văn Tiếng Việt sử dụng ứng dụng máy học, luận văn trình bày theo bố cục chương sau: Chương 1: Tổng quan máy học: Chương trình bày tổng quan lịch sử phát triển trí tuệ nhân tạo, tính cấp thiết đề tài chi tiết mục tiêu cần đạt chương trình thực nghiệm Chương 2: Nghiên cứu xử lý ngôn ngữ tự nhiên sử dụng vnTokenizer, word2vec support vector machine: Nội dung chương trình bày khái niệm liên quan đến lĩnh vực máy học, khái niệm thường nhắc đến lĩnh vực xử lý ngôn ngữ tự nhiên phân loại máy học sâu vào nghiên cứu đặc điểm ngôn ngữ tiếng Việt, thuật toán ứng dụng vnTokenizer, word2vec Support Vevtor Machine Chương 3: Xây dựng ứng dụng xử lý văn tiếng Việt: Thực xây dựng ứng dụng xử lý văn tiếng Việt vào việc phân tích phân loại cảm xúc người dùng Sau chạy thực nghiệm đưa kết luận độ xác thực nghiệm 36 Bộ từ điển vector từ kết thu giai đoạn biểu diễn từ thành vector Với từ điển vector sử dụng cho nhiều ứng dụng khác ví dụ việc tìm từ gần phương pháp so sánh vector Hình 3.8: Tìm từ gần với từ “sản phẩm” 3.3.4.2 Biểu diễn câu bình luận thành vector đặc trưng - Input (đầu vào): Các câu bình luận sau báo pháp luật báo điện từ vnexpress.net - Output (đầu ra): Bộ vector biểu diễn câu bình luận Các câu bình luận biểu diễn thành vector đặc trưng cách tính vector trung bình từ có câu bình luận dựa từ điển vector từ thu bước 3.3.4.1 trình bày luận văn Các bước thực giai đoạn biểu diễn câu bình luận thành vector đặc trưng mơ hình hóa hình bên dưới: 37 Hình 3.9: Các bước thực biểu diễn câu thành vector đặc trưng Gần 2430 câu bình luận báo pháp luật trang báo điện tử vnexpress.net thu thập Các câu bình luận gán nhãn thủ cơng vowis loại nhãn: Tích cực tiêu cực Trên sở vector từ, câu bình luận gán nhãn tiền xử lý liệu biểu diễn dạng vector cách tính trung bình cộng vector xuất câu bình luận Vector câu bình luận có số chiều [1 x 200] 38 Hình 3.10: Vector biểu diễn bình luận “Tòa chuẩn xác” Hình 3.11: Biểu diễn bình luận gán nhãn dạng vector Kết thu vector biểu diễn câu bình luận thành vector đặc trưng Để giảm thiểu việc sử dụng nhớ RAM, thực nghiệm thực tách nhỏ tập hợp văn đưa câu vào mơ hình với hàm Interater (_iter_) Bản chất hàm có tác dụng vòng lặp khơng thực load tồn văn lên, giảm thiểu việc sử dụng RAM tối đa 39 Hình 3.12: Mã chương trình thực chức biểu diễn câu thành vector Ngoài ra, nội dung báo làm liệu đầu vào với từ viết tắt có diễn giải, người dùng nhập bình luận có chứa từ viết tắt chương trình thực nghiệm hiểu nghĩa từ viết tắt Ví dụ: Trong báo đầu vào có từ “THCS” từ viết tắt từ “Trung học sở” Cách viết báo thường là: “trung học sở (THCS)” Khi người dùng nhập bình luận có từ “THCS”, chương trình thực nghiệm tự động hiểu từ “THCS” viết tắt cụm từ “Trung học sở” 3.3.5 Phân loại cảm xúc người dùng sử dụng Máy hỗ trợ vector (Support Vector Machine) Thực huấn luyện liệu công tụ SVM với đầu vào vector đặc trưng câu bình luận thu bước 3.3.4.2 trình bầy luận văn - Input (đầu vào): Các câu bình luận chưa gán nhãn - Output (đầu ra): Các câu bình luận gán nhãn Quá trình huấn luyện liệu kiểm thử chương trình mơ hình hóa sau: Bài luận sử dụng SVM tuyến tính để phân loại câu bình luận với tham số : 'C': 0.1, 'kernel': 'linear' 40 Hình 3.13: Huấn luyện kiểm thử gán nhãn liệu Bộ vector gần 2430 câu bình luận chuyên mục pháp luật trang báo điện tử vnexpress sử dụng làm liệu huyến luyện kiểm thử giai đoạn gán nhán phân loại cảm xúc người dùng Chương trình thực nghiệm thực huấn luyện kiểm thử phương pháp xác thực chéo (cross validation) Các câu bình luận chia làm 10 phần liệu Thực mang phần liệu gán nhãn thủ công làm liệu huấn luyện phần lại sử dụng liệu kiểm thử Dữ liệu test gán nhãn dựa vào phương pháp so sánh vector Vector liệu kiểm thử gần với vector gán nhãn nhãn vector gán cho vector liệu kiểm thử Do xếp liệu test vào phân lớp tương ứng với nhãn gán Giai đoạn kiểm thử dừng lại phần liệu đầu vào kiểm thử lần Tỷ lệ gãn nhãn xác thuật tồn tính cách lấy trung bình tỷ lệ gán nhãn xác lần kiểm thử 41 Hình 3.14: Các bình luận gán nhãn tiến hành huấn luyện liệu Ngoài phương pháp phân loại cảm xúc người dùng SVM, thực nghiệm chạy thực nghiệm phân loại cảm xúc với thuật toán khác như: MLP Classifier, Decision Tree, Random Forest, KNN Hình 3.15: Mã chương trình gán nhãn cảm xúc thuật toán khác 42 Tỉ lệ xác nhận sau thực gán nhãn phương pháp khác dựa tập liệu thu thập được: Bảng 2.4: Tỉ lệ gán nhãn xác thuật tốn khác MLP Classifier Decision Tree 74% 65% Random Forest KNN 73% 77% SVM 75% Tuy nhiên, luận định lựa chọn thuật toán SVM để thực thực nghiệm tỉ lệ xác SVM ổn định 3.4 Giao diện người dùng Giao diện người dùng thể chức chính: - Gán nhãn liệu cho cầu bình luận nhập từ người dùng - Gán nhãn tính tỉ lệ cầu bình luận báo pháp luật trang vnexpress cách nhập địa báo điện tử Giao diện người dùng thiết kế ngơn ngữ HTML chạy trình duyệt web Hình 3.16: Các chức ứng dụng thực thẻ HTML 43 Giao diện người dùng có hai chức chính: - Chức thứ nhất: Phân loại (gán nhãn) cảm xúc cho câu bình luận nhập trực tiếp ứng dụng Sau nhập câu bình luận, người dùng chọn chức “Lấy kết quả” để xem nhãn cảm xúc gán cho câu bình luận Để độ xác việc gán nhãn cảm xúc cao, câu bình luận nhập vào nên có độ dài khơng q 20 từ Hình 3.17: Câu bình luận gán nhãn cảm xúc Tích cực Hình 3.18: Câu bình luận gán nhãn cảm xúc Tiêu cực - Chức thứ hai: Nhập địa báo pháp luật trang báo điện tử vnexpress.net chọn chức “lấy kết quả” để xem kết phân tích Kết thể nhãn cảm xúc gán cho câu bình luận báo tỉ lệ nhãn cảm xúc gán 44 Hình 3.19: Chức gán nhãn câu bình luận cho báo Người dùng lúc sử dụng hai chức ứng dụng 3.5 Nhận xét đánh giá kết Qua trình thực nghiệm, kết ghi nhận tỷ lệ phân loại (gán nhãn) xác ~75% Các nguyên nhân ảnh hưởng tới độ xác thực nghiệm kể đến như: - Số lượng bình luận gán nhãn ít, khơng phải báo có bình luận, số lượng bình luận có nội dung trùng nhiều Ví dụ bình luận “May quá, em đủ 18 tuổi” lặp lại nhiều lần - Quá trình gán nhãn bình luận thực thủ công người nên kết việc gán nhãn bị ảnh hưởng cảm xúc, quan điểm người gán nhãn thời điểm gán nhãn khác - Ngoài ra, điểm hạn chế luận chưa thể áp dụng cho toàn loại văn bản, bước làm (loại bỏ nhiễu liệu), chuẩn hóa từ (chuẩn hóa dạng ký tự viết hoa, khơng viết hoa, khác font, từ khơng có dấu, từ viết 45 tắt, từ nóng, …) Đầu vào thực nghiệm báo chuẩn hóa quan báo chí 3.6 Kết luận chương Chương chương quan trọng luận, chương mô tả chi tiết bước giải vấn đề toán xử lý câu bình luận báo pháp luật trang vnexpress.net để phân loại cảm xúc người đọc thành hai lớp: Tiêu cực tích cực Mỗi bước xử lý chương trình thực nghiệm đóng góp phần quan trọng việc làm rõ vấn đề tốn ảnh hưởng đến độ xác kết thực nghiệm 46 KẾT LUẬN Kết đạt 1.1 Về mặt lý thuyết Luận văn tìm hiểu kiến thức trí tuệ nhân tạo, đặc biệt lĩnh vực máy học với thuật tốn phân lớp SVM Ngồi luận văn tìm hiểu số cơng cụ liên quan đến vấn đề xử lý ngơn ngữ tiếng Việt vnTokenize, công cụ tiếng phổ biến cho vấn đề xử lý ngơn ngữ tiếng Việt Tóm tắt đặc trưng ngôn ngữ tiếng Việt Vấn đề phân tích cảm xúc người bình luận vấn đề trú trọng với tất ngành xã hội, thời đại công nghệ 1.2 Về mặt thực tiễn Luận văn nêu giải pháp kỹ thuật xây dựng ứng dụng xử lý câu bình luận nhằm mục đích phân loại cảm xúc câu bình luận người dùng Việc kết hợp lý thuyết xử lý câu bình luận phân loại cảm xúc người dùng giúp giảm chi phí tài nguồn lực cho chương trình khảo sát Đưa kết đánh giá tương đối xác thời gian ngắn, đáp ứng nhu cầu ngành nghề, đặc biệt ngành nghề kinh doanh, giải trí Hạn chế Giao diện người sử dụng đơn giản Lượng liệu bình luận gán nhãn thủ cơng chưa nhiều, ảnh hưởng đến tỷ lệ xác thực nghiệm Phần xử lý câu bình luận chưa linh hoạt loại văn bản, thực nghiệm thực xử lý văn tiếng Việt báo điện tử chuẩn hóa quan báo chí Chức phân tích báo chưa áp dụng cho báo điện tử trang báo khác Độ xác việc phân loại câu bình luận phụ thuộc vào độ dài câu bình luận Tỷ lệ xác chương trình thực nghiệm cao với câu bình luận có độ dài 20 từ Với câu có độ dài 20 từ, vector biểu diễn 47 câu bình luận rơi vào vùng liệu mà SVM chưa huấn luyện nên làm giảm tỷ lệ xác chương trình thực nghiệm Hướng phát triển Xây dựng giao diện thân thiện, trực quan Có thể thực xử lý loại văn tiếng Việt, bao gồm văn chưa chuẩn hóa Thu thập gán nhãn số lượng lớn bình luận làm tăng tỉ lệ xác ứng dụng Mở rộng vấn đề phân loại bình luận lĩnh vực khác đời sống Thực phân loại cảm xúc bình luận trực tuyến cho tất báo điện tử bao gồm câu bình luận có độ dài 20 từ 48 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] PGS.TS Lê Hoàng Thái, Trường Đại học Khoa Học Tự Nhiên, ĐHQG TP.Hồ Chí Minh, “Mạng nueron nhân tạo” [2] Lưu Tuấn Anh, Đại học khoa học kĩ thuật Nagaoka, “Xử lý ngơn ngữ tự nhiên tiếng Việt” [3] Hồng Phê chủ biên, “Từ điển tiếng việt”, Nxb Đà Nẵng Trung tâm Từ điển học– Đà Nẵng [4] Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vũ Xuân Lương, “Hướng dẫn nhận biết đơn vị từ văn Tiếng Việt”- Báo cáo SP8.2 [5] Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào, “Tóm tắt văn tiếng Việt tự động với mơ hình sequence to sequence”, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 20/10/2017 [6] IlyaSutskever, OriolVinyals, QuocV Le, “Sequence to Sequence Learning with Neural Networks”, 14/12/2014 [7] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N.Dauphin, “Convolutional Sequence to Sequence Learning” 08/05/2017 [8] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 27/10/2008 [9] https://www.linkedin.com/pulse/m%C3%A1y-h%E1%BB%8Dc- machine-learning-v%C3%A0-c%C3%A1c-m%E1%BB%91c-ph%C3%A1ttri%E1%BB%83n-minh-giang-paul-, truy cập ngày 09/10/2017 [10] http://startup.vitv.vn/tin-chu/21-09-2016/tri-tue-nhan-tao-la-gi-nguon- goc-va-mot-so-ung-dung-cua-tri-tue-nhan-tao-trong-t/1321, truy cập ngày 09/10/2017 [11] https://machinelearningcoban.com/2016/12/26/introduce/, ngày 20/11/2017 truy cập 49 [12] http://www.brandsvietnam.com/congdong/topic/1412-Ven-man-bi- mat-cong-nghe-phan-tich-sentiment-cam-xuc-cua-cac-Social-Listening-Tool, truy cập ngày 20/12/2017 [13] http://startup.vitv.vn/tin-chu/21-09-2016/tri-tue-nhan-tao-la-gi-nguon- goc-va-mot-so-ung-dung-cua-tri-tue-nhan-tao-trong-t/1321, truy cập ngày 20/12/2017 [14] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/nlp- la-gi, truy cập ngày 20/12/2017 [15] https://arxiv.org/abs/1409.3215 [16] http://khoahoc.tv/tri-tue-nhan-tao-la-gi-ai-artificial-intelligence-la-gi- 80106, truy cập ngày 20/12/2017 [17] https://techtalk.vn/tat-tan-tat-moi-kien-thuc-co-ban-ve-machine- learning.html, truy cập ngày 25/12/2017 [18] https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p1- GrLZDbXw5k0, truy cập ngày 27/12/2017 [19] https://vi.wikipedia.org/wiki/X%E1%BB%AD_l%C3%BD_ng%C3% B4n_ng%E1%BB%AF_t%E1%BB%B1_nhi%C3%AAn, truy cập ngày 27/12/2017 [20] http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip- gram-model/ , truy cập ngày 20/1/2018 [21] https://quyv.wordpress.com/2016/08/24/word2vec-the-amazing- power-of-word-vectors/, truy cập ngày 20/1/2018 [22] http://buzzmetrics.com/cac-social-listening-tool-do-luong-sentiment- nhu-the-nao-2/, truy cập ngày 25/1/2018 [23] http://vnuf.edu.vn/documents/454250/1803845/17.Oanh.pdf, truy cập ngày 28/1/2018 [24] https://www.slideshare.net/ThmTrn9/support-vector-machines- 75854390, truy cập ngày 28/1/2018 [25] https://machinelearningcoban.com/2016/12/27/categories/ 50 ... song ngữ Anh -Việt Và nhiều cơng trình nghiên cứu khác có liên quan tới vấn đề xử lý ngôn ngữ tự nhiên Tiếng Việt Tập trung vào vấn để xử lý văn Tiếng Việt sử dụng ứng dụng máy học, luận văn trình... nghiên cứu sâu lĩnh vực Máy học, em chọn đề tài: Nghiên cứu ứng dụng máy học đề xuất ứng dụng xử lý văn tiếng Việt với hy vọng đóng góp phần cơng sức đưa thuật ngữ Máy học đến gần với người dùng... đánh giá cách nhanh chóng, rõ ràng, luận thực đề tài Nghiên cứu ứng dụng máy học đề xuất ứng dụng xử lý văn tiếng Việt Mục tiêu chung luận văn: Đề xuất mơ hình phân loại câu bình luận, nhận xét,