Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 99 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
99
Dung lượng
1,23 MB
Nội dung
ĐỒN THANH NIÊN CỘNG SẢN HỒ CHÍ MINH BAN CHẤP HÀNH TP HỒ CHÍ MINH CƠNG TRÌNH DỰ THI GIẢI THƯỞNG SINH VIÊN NGHIÊN CỨU KHOA HỌC EURÉKA LẦN THỨ XX NĂM 2018 TÊN CƠNG TRÌNH: PHÂN TÍCH CẢM XÚC TRONG TIẾNG VIỆT BẰNG PHƯƠNG PHÁP MÁY HỌC LĨNH VỰC NGHIÊN CỨU: CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: TRÍ TUỆ NHÂN TẠO Mã số cơng trình: …………………………… (Phần BTC Giải thưởng ghi) i MỤC LỤC MỤC LỤC i DANH MỤC HÌNH ẢNH iii DANH MỤC BẢNG BIỂU iv TÓM TẮT .1 ĐẶT VẤN ĐỀ .2 Tổng quan vấn đề nghiên cứu 2 Lý lựa chọn đề tài .4 Các nghiên cứu liên quan .5 Mục tiêu nghiên cứu Cách tiếp cận phương pháp nghiên cứu Đối tượng phạm vi nghiên cứu Ý nghĩa, quy mô phạm vi áp dụng 10 Cấu trúc đề tài 11 PHẦN 1: TỔNG QUAN TÀI LIỆU 12 1.1 Giới thiệu ngôn ngữ tiếng Việt xử lý ngôn ngữ tiếng Việt 12 1.1.1 Ngôn ngữ tự nhiên 12 1.1.2 Ngôn ngữ tiếng Việt 17 1.1.3 Xử lý ngôn ngữ tự nhiên 22 1.1.4 Xử lý ngôn ngữ tiếng Việt 30 1.2 Vector hóa liệu 32 1.2.1 Word Vector 33 1.2.2 Word2Vec 34 1.2.3 Doc2Vec 37 1.3 Các phương pháp phân lớp 42 1.3.1 K-Nearest Neighbor 42 1.3.2 Support Vector Machine 43 1.3.3 Gaussian 45 1.3.4 Decision Tree 46 ii 1.3.5 Random Forest 47 1.3.6 Convolutional Neural Net 48 1.3.7 Ada Boost 49 1.3.8 Naïve Bayes 51 1.3.9 Bayesian Quadratic Discriminant Analysis 53 PHẦN 2: PHƯƠNG PHÁP TIẾP CẬN 55 2.1 Mơ hình giải tốn 55 2.2 Tiền xử lý văn 56 2.2.1 Tách từ 57 2.2.2 Loại bỏ hư từ dấu câu không cần thiết 59 2.3 Vector hóa liệu 59 2.4 Áp dụng phương pháp phân lớp 60 PHẦN 3: KẾT QUẢ - THẢO LUẬN 62 3.1 Dữ liệu thực nghiệm 62 3.2 Kết thực nghiệm đánh giá 62 3.2.1 Thực nghiệm để phân lớp đánh giá chủ quan khách quan .64 3.2.2 Thực nghiệm để phân tích cảm xúc tích cực tiêu cực 66 PHẦN 4: KẾT LUẬN - ĐỀ NGHỊ 72 4.1 Kết luận 72 4.1.1 Những kết đạt 72 4.1.2 Tính đề tài 72 4.1.3 Những hạn chế 73 4.1.4 Hướng phát triển 73 4.2 Kiến nghị 73 TÀI LIỆU THAM KHẢO 75 PHỤ LỤC A: DOWNLOAD PHỤ LỤC B: SOURCE CODE Tách từ công cụ UETSegmenter 2 Tách hư từ dấu câu ngôn ngữ Python Pycharm .6 Huấn luyện liệu ngôn ngữ Python Pycharm iii DANH MỤC HÌNH ẢNH Hình 1.1 Information Extraction 27 Hình 1.2 LatentSemantic Analysis 27 Hình 1.3 Named Entity Recognition 28 Hình 1.4 Parse Tree 28 Hình 1.5 Pre-processing 29 Hình 1.6 Sentiment Analysis 29 Hình 1.7 Cách biểu diễn từ ‘Queen’ dạng One-hot Vector 33 Hình 1.8 Cách biểu diễn từ Word2Vec 34 Hình 1.9 Mơ hình Continous Bag of Words 35 Hình 1.10 Mơ hình Continuous Skip-gram 36 Hình 1.11 Mơ hình Distributed Bag of Words 39 Hình 1.12 Mơ hình Distributed Memory 40 Hình 1.13 Mơ hình K-Nearest Neighbor 43 Hình 1.14 Mơ hình Support Vector Machine – Linear 44 Hình 1.15 Mơ hình Support Vector Machine – RBF 44 Hình 1.16 Hàm từ tiến trình Gaussian 45 Hình 1.17 Mơ hình Decision Tree 46 Hình 1.18 Mơ hình Random Forest 47 Hình 1.19 Mơ hình Convolutional Neural Net 49 Hình 1.20 Giản đồ Ada Boost 50 Hình 1.21 Phân lớp Naive Bayes 52 Hình 1.22 So sánh LDA với QDA 53 Hình 2.1 Sơ đồ phân tích cảm xúc tổng quan 55 Hình 2.2 Các giai đoạn tiền xử lý văn sử dụng 57 iv DANH MỤC BẢNG BIỂU Bảng 1.1 So sánh khác biệt tiếng Việt tiếng Anh 20 Bảng 1.2 Khoảng cách từ đến từ ‘France’ 41 Bảng 3.1 Bộ liệu VLSP 2016 62 Bảng 3.2 Bộ liệu VLSP 2016 sau tiền xử lý 62 Bảng 3.3 Kết hợp mơ hình vector hóa liệu với phương pháp phân lớp .63 Bảng 3.4 Độ xác phân lớp chủ quan khách quan (%) .64 Bảng 3.5 Độ xác phân lớp tích cực tiêu cực (%) 66 Bảng 3.6 Khảo sát ổn định độ xác huấn luyện (%) 69 Bảng 3.7 Hiệu suất phương pháp phân lớp cảm xúc (đo F1) 70 Bảng 3.8 So sánh kết phương pháp đề xuất với phương pháp trước 71 TĨM TẮT Phân tích cảm xúc người dùng toán quan trọng phức tạp xử lí ngơn ngữ tự nhiên giá trị mà mang lại cần thiết Cách mạng 4.0 Để tiếp cận toán này, phải xây dựng mơ hình máy học để phân loại đánh giá người dùng Trong nghiên cứu này, đề xuất sử dụng Doc2Vec cho bước biểu diễn liệu kết hợp với phương pháp phân lớp khác để phân tích cảm xúc người dùng Đề xuất thử nghiệm liệu chung VLSP 2016 thu kết khả quan ĐẶT VẤN ĐỀ Tổng quan vấn đề nghiên cứu Xử lý ngôn ngữ tự nhiên – XLNNTN (Natural Language Processing – NLP) khái niệm để kĩ thuật, phương pháp thao tác ngôn ngữ tự nhiên máy tính Chúng ta cần phân biệt ngơn ngữ tự nhiên tiếng Việt, tiếng Anh, tiếng Nhật, … ngôn ngữ giao tiếp thường ngày ngôn ngữ nhân tạo ngơn ngữ lập trình, ngơn ngữ máy, … Đây lĩnh vực kết hợp khoa học máy tính (Computer Science) với trí tuệ nhân tạo (Artificial Intelligence) ngơn ngữ học tính tốn (Computational Linguistics) liên quan tới tương tác ngôn ngữ người (Natural Language) với máy tính Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ – cơng cụ hồn hảo tư giao tiếp Cịn xử lý ngơn ngữ tự nhiên có hai quan điểm là: “Xử lý từ ngữ máy tính” “Làm cho máy tính hiểu từ ngữ” Hiện tại, hai hướng tích cực nghiên cứu phát triển, nhờ nhiều hệ thống hiệu tạo Để máy tính hiểu ngôn ngữ tự nhiên, ngôn ngữ người điều khơng phải dễ ngày nay, nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên nhằm tạo cho máy tính khả hiểu giao tiếp ngôn ngữ tự nhiên với người khơng cịn lý thuyết mà giới có nhiều ứng dụng hiệu XLNNTN vào đời sống Có thể kể đến nhiều như: dịch tự động Google, Lạc Việt; xử lý văn ngôn ngữ; tìm kiếm thơng tin; chiết suất thơng tin; trợ lý ảo Siri Apple hay Cortana Microsoft; tóm tắt văn bản; phân loại văn bản; data mining web mining; khai phá liệu; … Bên cạnh đó, XLNNTN xây dựng dựa ngôn ngữ học phức tạp, nguyên lý thống kê, thuật toán mạng nơ-ron (neural network algorithms) Chương trình XLNNTN có khả đọc hiểu văn với tốc độ cao Do đó, dù có hàng nghìn tài liệu hay chí hàng tỷ văn bản, chương trình XLNNTN “tiêu hố” nhanh chóng tất thơng tin này, từ rút trích tri thức (knowledge) đáng giá cho doanh nghiệp như: tri thức khách hàng, tri thức đối thủ cạnh tranh, tri thức hoạt động doanh nghiệp điều hành, marketing, sales, kĩ thuật, sản phẩm, … Cịn kinh tế, thơng qua thuật tốn tiên tiến, XLNNTN ai, gì, nào, đâu nội dung phi cấu trúc, từ cung cấp cấp độ hiểu biết cao công việc kinh doanh [9] Các ứng dụng XLNNTN vào lĩnh vực kinh tế giới kể đến như: - Marketing: Voice of the customer, social media analysis, churn analysis, market research, survey analysis - Business: Competitive intelligence, document categorization, human resources (voice of the employee), records retention, risk analysis, website faceted navigation - Industry specific: Fraud detection, e-discovery, warranty analysis, medical analytics research Ở Việt Nam, XLNNTN môn môn không chưa phổ biến rộng rãi số lượng nghiên cứu chuyên tiếng Việt Ngun nhân ngồi việc số lượng người tìm hiểu XLNNTN Việt Nam cịn thấp, việc thân tiếng Việt ngơn ngữ khó với nhiều tốn cần giải vấn đề khiến cho nghiên cứu sinh, lập trình viên khó tiếp cận trì đam mê tìm hiểu Có thể kể đến số khó khăn nhập nhằng ngữ nghĩa tiếng Việt, toán tách từ, phân loại từ, dấu hay dấu câu, tiếng Việt thuộc ngôn ngữ đơn lập, tức tiếng (âm tiết) phát âm tách rời thể chữ viết Đặc điểm thể rõ rệt tất mặt ngữ âm, từ vựng, ngữ pháp, … gây khó khăn cho việc chạy chương trình XLNNTN khơng tiền xử lý kĩ Tuy nhiên, lợi ích xử lý ngơn ngữ tiếng Việt mang lại lớn, ứng dụng hầu hết lĩnh vực đặc biệt thời đại Cách mạng 4.0 diễn mạnh mẽ Việt Nam Cụ thể, sống kỷ nguyên số, thời đại mà thơng tin lan truyền nhanh chóng thông qua diễn đàn, trang tin tức trực tuyến mạng xã hội với hàng tỷ người dùng giới Lượng thông tin nội dung người dùng tạo ngày lớn đa dạng mặt hình thức chủ đề Những thơng tin có chung đặc điểm: mang tính cá nhân nên tính đắn, xác thực tương đối lại giá trị Việc khai thác sử dụng lượng thông tin thách thức lớn phân tích cảm xúc nói riêng xử lý ngơn ngữ tự nhiên nói chung Bên cạnh đó, việc phân tích cảm xúc văn ứng dụng hàng loạt vấn đề như: quản trị thương hiệu doanh nghiệp, thương hiệu sản phẩm, quản trị quan hệ khách hàng, khảo sát ý kiến xã hội học hay dễ hiểu phân tích đánh giá khách hàng sản phẩm đó, … Việc dự đốn quan trọng ý kiến người dùng ngày trở nên có giá trị Nói cách khác, thị hiếu, quan tâm cộng đồng yếu tố quan trọng ảnh hưởng đến sản phẩm phim ảnh, sách báo, thiết bị điện tử, hay dịch vụ nhà hàng, khách sạn, giao thơng, … Do đó, vấn đề quan tâm không từ nhà nghiên cứu mà cịn từ phía cơng ty Họ cần hệ thống phân tích ý kiến khách hàng sản phẩm cách tự động để nhanh chóng nắm bắt cảm nhận thị hiếu người tiêu dùng để nâng cao khả cạnh tranh với đối thủ lĩnh vực thích nghi với mơi trường kinh doanh thường xun có biến động Những thông tin không hữu dụng tiếp thị, xếp hạng đánh giá sản phẩm mà hỗ trợ việc nhận biết vấn đề để xây dựng phát triển sản phẩm Vậy nên, việc xây dựng mơ hình để giải tốn phân tích cảm xúc người dùng yêu cầu cấp thiết quan trọng cần giải công tự động hóa Lý lựa chọn đề tài Do nhu cầu phát triển xã hội ngày tăng, lĩnh vực kinh tế cơng nghệ Việc phân tích cảm xúc văn ứng dụng hàng loạt vấn đề như: quản trị thương hiệu doanh nghiệp, thương hiệu sản phẩm, quản trị quan hệ khách hàng, khảo sát ý kiến xã hội học hay dễ hiểu phân tích đánh giá khách hàng sản phẩm đó, … Việc dự đốn quan trọng ý kiến người dùng ngày trở nên có giá trị Thị hiếu, quan tâm cộng đồng yếu tố ảnh hưởng đến sản phẩm phim, sách, thiết bị điện tử, … Do đó, vấn đề quan tâm không từ nhà nghiên cứu mà cịn từ phía cơng ty Họ cần hệ thống phân tích ý kiến khách hàng sản phẩm cách tự động để nhanh chóng nắm bắt cảm nhận thị hiếu người tiêu dùng để nâng cao khả cạnh tranh với đối thủ cạnh thích nghi với mơi trường kinh doanh thường xun có biến động Những thơng tin khơng hữu dụng tiếp thị, xếp hạng đánh giá sản phẩm mà hỗ trợ việc nhận biết vấn đề để xây dựng phát triển sản phẩm Còn nghiên cứu, việc xây dựng hệ thơng phân tích cảm xúc người dùng bước tiến lớn xong công động xử lý ngôn ngữ tự nhiên, giúp giải nhiều vấn đề mắc phải Xây dựng mơ hình giải tốn phân tích cảm xúc người dùng Cụ thể chia cảm xúc người dùng thành trạng thái cảm xúc phân biệt Từ đó, chúng tơi tiếp cận tốn phân tích cảm xúc người dùng phương pháp phân lớp Trong đó, bình luận diễn đạt cảm xúc từ người dùng biểu diễn thành vector để đưa vào huấn luyện mơ hình phân lớp Các nghiên cứu liên quan Phân tích cảm xúc người dùng (Sentiment Analysis) chủ đề đầy thách thức lĩnh vực máy học (Machine Learning) Nhiệm vụ toán phát thái độ mang tính lâu dài, màu sắc tình cảm, khuynh hướng niềm tin vào đối tượng hay người Tuy nhiên, người thể cảm nhận thơng qua ngơn ngữ tự nhiên vốn thường có nhập nhằng ngữ nghĩa gây khơng khó khăn việc xử lý thơng tin Bên cạnh đó, người dùng cịn sử dụng từ viết tắt, từ lóng hay kí hiệu biểu cảm ‘=))’, ‘:(’, ‘>_