Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 99 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
99
Dung lượng
11,32 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN NGUYỄN ĐĂNG THÀNH PHÂN TÍCH CẢM XÚC TRONG GIÁO DỤC ĐẠI HỌC QUA CÁC THÔNG TIN TIẾNG VIỆT TRÊN WEB LUẬN VĂN THẠC SĨ NGÀNH: KHOA HỌC MÁY TÍNH Mã sớ: 60 48 01 01 TP HỒ CHÍ MINH – 2016 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN - NGUYỄN ĐĂNG THÀNH PHÂN TÍCH CẢM XÚC TRONG GIÁO DỤC ĐẠI HỌC QUA CÁC THÔNG TIN TIẾNG VIỆT TRÊN WEB LUẬN VĂN THẠC SĨ CAO HỌC NGÀNH: KHOA HỌC MÁY TÍNH Mã sớ: 60 48 01 01 HƯỚNG DẪN KHOA HỌC: PGS TS ĐỖ PHÚC TP HỒ CHÍ MINH - 2016 LỜI CẢM ƠN Tôi xin chân thành cảm ơn sâu sắc đến PGS TS Đỗ Phúc người nhiệt tình hướng dẫn tơi hồn thành luận văn Trong thời gian hướng dẫn Thầy quan tâm, bảo kịp thời nguồn động viên quý báu để xây dựng hồn thành luận văn Tiếp theo, tơi chân thành gửi đến Thầy cô công tác khoa Khoa học máy tính khoa Sau Đại học, Thầy trực tiếp giảng dạy lớp Khoa học máy tính cao học khóa cung cấp kiến thức tảng để áp dụng vào luận văn TP Hồ Chí Minh, Ngày 22 tháng 04 năm 2016 Học viên Nguyễn Đăng Thành LỜI CAM ĐOAN Tôi xin cam đoan luận văn cá nhân tơi hồn tồn thực được, tài liệu tham khảo trích dẫn rõ ràng nguồn gốc khoa học mang tính hợp pháp Tơi xin hồn tồn chịu trách nhiệm hình thức kỷ luật theo quy định theo lời cam đoan TP Hồ Chí Minh, Ngày 22 tháng 04 năm 2016 Học viên Nguyễn Đăng Thành MỤC LỤC MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT .4 DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU .8 Chương : TỔNG QUAN 10 1.1 Giới thiệu .10 1.2 Thách thức 11 1.3 Tình hình nghiên cứu 11 1.3.1 Ngoài nước 11 1.3.2 Trong nước 12 1.4 Tính khoa học tính đề tài 12 1.4.1 Tính 12 1.4.2 Những hạn chế vấn đề cần giải 13 1.4.3 Tính cấp thiết luận văn 13 1.4.4 Lợi ích khoa học thực tiễn hoàn thành nghiên cứu 13 1.5 Mục tiêu, đối tượng phạm vi nghiên cứu luận văn cần hướng tới, khả giải .14 1.5.1 Mục tiêu luận văn 14 1.5.2 Đối tượng nghiên cứu 14 1.5.3 Phạm vi nghiên cứu 14 Chương : CƠ SỞ LÝ THUYẾT .15 2.1 Giới thiệu .15 2.2 Tiền xử lý liệu .15 2.3 Rút trích đặc trưng văn 16 2.3.1 Phương pháp rút trích dựa vào tần số (Term Frequency) .16 2.3.2 Phương pháp tần số nghịch đảo (Term Frequency – Inverse Document Frequency) 16 2.4 Mơ hình vector 17 2.5 Mơ hình chủ đề (Topic Modeling) 18 2.6 Mơ hình Latent Dirichlet Allocation 18 2.7 Lấy mẫu Gibbs cho LDA 21 2.8 Các phương pháp phân loại văn 24 2.8.1 Phương pháp Naïve Bayes 24 2.8.2 Phương pháp Support Vector Machine 26 2.9 Phân lớp cảm xúc .30 2.9.1 Phân lớp cảm xúc mức tài liệu 31 2.9.2 Phân lớp cảm xúc mức câu 32 2.9.3 Phân lớp cảm xúc mức khía cạnh 32 2.9.4 Tổng hợp quan điểm .34 Chương : HƯỚNG TIẾP CẬN VÀ GIẢI PHÁP 36 3.1 Giới thiệu .36 3.2 Các phương pháp 36 3.3 Hướng tiếp cận 37 3.3.1 Hướng tiếp cận từ điển cảm xúc 37 3.3.2 Hướng tiếp cận máy học kết hợp từ điển 38 3.3.3 Nhận xét hướng tiếp cận .38 3.4 Giải pháp đề xuất 38 3.4.1 Tiền xử lý 40 3.4.2 Tìm chủ đề ẩn .40 3.4.3 Tập từ điển cảm xúc tiếng Việt .43 3.4.4 Phân lớp chủ quan 48 3.4.5 Phân lớp cảm xúc 54 3.4.6 Tổng hợp quan điểm .59 Chương : THỰC NGHIỆM VÀ XÂY DỰNG CHƯƠNG TRÌNH .60 4.1 Giới thiệu .60 4.2 Xây dựng chương trình 60 4.2.1 Cở sở liệu 60 4.2.2 Cấu hình phần cứng 63 4.2.3 Các phần mềm sử dụng 64 4.2.4 Tổ chức mã nguồn chương trình 65 4.3 Kết thực nghiệm 79 4.4 Đánh giá chương trình 82 Chương : KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .83 TÀI LIỆU THAM KHẢO 85 PHỤ LỤC 87 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT LDA: Latent Dirichlet Allocation LR: Likelihood Ratio NB: Naïve Bayes POS: Part Of Speech SVM: Support Vector Machine TBL: Transformation – based Learning TF: Term Frequency TF-IDF: Term Frequency – Inverse Document Frequency SA: Sentiment Analysis OP: Opinion Mining MAP: Maximum A Posterior MLE: Maximum Likelihood Estimation DANH MỤC CÁC BẢNG Bảng 3.1 Số lượng tin tức ứng với chủ đề huấn luyện 41 Bảng 3.2 Danh sách từ loại tập từ điển cảm xúc .44 Bảng 3.3 Đánh giá điểm số từ tích cực 44 Bảng 3.4 Đánh giá điểm số từ tiêu cực 45 Bảng 3.5 Danh sách vài tính từ điểm cảm xúc tính từ 45 Bảng 3.6 Danh sách vài danh từ điểm cảm xúc danh từ 46 Bảng 3.7 Danh sách vài trạng từ điểm cảm xúc trạng từ .46 Bảng 3.8 Danh sách vài động từ điểm cảm xúc động từ 47 Bảng 3.9 Danh sách vài từ tăng cường điểm cảm xúc từ tăng cường .47 Bảng 3.10 Các bước thực việc phân lớp chủ quan .51 Bảng 3.11 Các bước tách từ 51 Bảng 3.12 Mô tả bước phân loại chủ quan 52 Bảng 3.13 Mô tả bước tách từ 57 Bảng 4.1 Thông số phần cứng hệ thống thử nghiệm 63 Bảng 4.2 Các phần mềm môi trường sử dụng thực nghiệm 64 Bảng 4.3 Các gói chương trình thực nghiệm 65 Bảng 4.4 Cấu trúc HTML trang báo VnExpress .68 Bảng 4.5 Kết so sánh vnTokenizer JvnTextPro 71 Bảng 4.6 Thời gian chạy công đoạn chương trình .79 Bảng 4.7 Kết sau phân loại chủ đề .80 Bảng 4.8 Độ xác phân lớp chủ quan 80 Bảng 4.9 Kết so sánh phương pháp máy học kết hợp từ điển từ điển cảm xúc .81 Bảng 4.10 So sánh phương pháp đề xuất với nghiên cứu trước 81 DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Mơ tả chi tiết tham số LDA văn (Blei et al, 2003) 19 Hình 2.2 Giải thuật mơ hình sinh 20 Hình 2.3 Lược đồ LDA (Blei, 2013) 20 Hình 2.4 Giải thuật khởi tạo lấy mẫu Gibbs .22 Hình 2.5 Giải thuật lấy mẫu Gibbs chu kỳ burn-in 23 Hình 2.6 Giải thuật kiểm tra độ hội tụ 23 Hình 2.7 Giải thuật Nạve Bayes cho phân lớp cảm xúc 26 Hình 2.8 Đường kẻ phân tách tập liệu 28 Hình 2.9 Các đường biên định 28 Hình 2.10 Giải thuật SVM cho phân lớp văn .29 Hình 3.1 Sơ đồ luồng tốn phân tích cảm xúc 39 Hình 3.2 Sơ đồ bước tìm chủ đề tập báo 42 Hình 3.3 Sơ đồ phân lớp chủ quan 49 Hình 3.4 Giải thuật phân lớp chủ quan .50 Hình 3.5 Sơ đồ phân lớp chủ quan máy học kết hợp từ điển 53 Hình 3.6 Sơ đồ phân lớp cảm xúc từ điển 55 Hình 3.7 Thuật giải phân lớp quan điểm từ điển cảm xúc 56 Hình 3.8 Sơ đồ phân lớp cảm xúc máy học kết hợp từ điển 59 Hình 4.1 Lược đồ quan hệ chương trình 60 Hình 4.2 Crawler lấy thơng tin từ trang VnExpress 66 Hình 4.3 Dữ liệu sau thu thập trang VnExpress 67 Hình 4.4 Nội dung trang tin VnExpress 68 Hình 4.5 Nội dung bình luận bạn đọc 69 Hình 4.6 Quá trình duyệt thẻ html trang VnExpress .70 Hình 4.7 Tập tin model-final.others 73 Hình 4.8 Tập tin model-final.phi .73 Hình 4.9 Tập tin model-final.tassign 74 Hình 4.10 Tập tin model-final.theta 74 Bảng 4.9 Kết so sánh phương pháp máy học kết hợp từ điển từ điển cảm xúc KẾT QUẢ SO SÁNH Từ điển cảm xúc Máy học Từ điển kết hợp máy học Mức tài liệu 62.4% 63,7% 65.6% Mức câu 74.2% 75,6% 85.8% Từ kết thực nghiệm bảng 4.9, ta thấy phân lớp cảm xúc phương pháp máy học kết hợp từ điển cho kết cao với độ xác 85.8% câu tường minh Tuy nhiên, tập thử nghiệm bao gồm câu tường minh, câu so sánh, nói mỉa kết khơng cao lắm, có 65.6% Như trình bày chương chương 2, thách thức lớn, đòi hòi thời gian phân tích sâu vào ngữ nghĩa, ontology Trong luận văn, tác giả tập trung vào khai phá chủ đề báo, dựa theo bình luận tường minh để phân tích cảm xúc tích cực, tiêu cực So sánh kết với nghiên cứu trước đây: Bảng 4.10 So sánh phương pháp đề xuất với nghiên cứu trước Độ xác Mức phân tích Tác giả Mức tài liệu Phương pháp Hong Nam Nguyen 82,55 % Phương pháp Nguyễn Ngọc Duy 70,11 % Phương pháp Vo Ngoc Phu 68,98% Máy học kết hợp từ điển 65,6 % Mức câu Phương pháp Nguyễn Ngọc Duy Máy học kết hợp từ điển 81 74,57 % 85,6 % Bảng 4.10 cho thấy, phương pháp đề xuất tác giả hiệu phân lớp quan điểm mức câu, nhiên mức tài liệu có hạn chế Ngun nhân nằm từ điển tập huấn luyện máy học chưa đầy đủ xác 4.4 Đánh giá chương trình Chương trình thực nghiệm tác giả xây dựng phương pháp dùng từ điển cảm xúc, học máy giám sát Vì vậy, độ xác chương trình phụ thuộc nhiều vào từ điển xây dựng tay số lượng câu tập huấn luyện máy học gán nhãn Trong phạm vi luận văn, từ điển cảm xúc chủ yếu dựa vào đánh giá học viên cao học nên không tránh khỏi thiếu sót Kết thực nghiệm cho thấy phương pháp phân lớp cảm xúc phương pháp máy học kết hợp từ điển cảm xúc để rút trích đặc trưng hiệu phương pháp dùng từ điển cảm xúc hay học máy giám sát thông thường dù độ xác chưa cao Trong phiên tiếp theo, chương trình bổ sung nhiều từ vựng cảm xúc từ điển, nhờ thêm chuyên gia ngôn ngữ tiếng Việt đưa đánh giá, chỉnh sửa để nâng cao độ xác phân lớp cảm xúc 82 Chương : KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận: Luận văn trình bày phương pháp tách từ, gán nhãn từ loại, trích xuất đặc trưng, tìm chủ đề ẩn, phân lớp chủ quan, phân lớp cảm xúc tổng hợp quan điểm Phạm vi nghiên cứu luận văn tập trung vào việc tìm chủ đề ẩn LDA, sau gán nhãn chủ đề giải thuật NB, việc phân lớp chủ quan, phân lớp cảm xúc chủ yếu sử dụng từ điển cảm xúc Việt hóa từ từ điển SO-CAL, SentiwordNet, từ điển Bing Liu kết hợp phương pháp máy học SVM Trong luận văn, nghiên cứu tác giả khác [1], [11], [12], việc phân lớp quan điểm tập trung vào chủ đề Trong luận văn mình, tác giả đề xuất thêm việc tìm chủ đề báo, việc phân lớp chủ đề sử dụng máy học bán giám sát, phân lớp chủ quan, phân lớp quan điểm tập trung chủ yếu dựa vào máy học giám sát kết hợp từ điển cảm xúc nên khơng sâu vào phân tích ngữ nghĩa xử lý ngôn ngữ tự nhiên Việc xây dựng từ điển nhiều hạn chế phần lớn từ Việt hóa từ từ điển cảm xúc tiếng Anh, sau nhờ nhiều người thẩm định đánh giá, tránh khỏi thiếu sót từ vựng Ngồi tiếng Việt đa dạng ngữ nghĩa, từ mang hàm ý tích cực ngữ cảnh lại mang hàm ý tiêu cực ngữ cảnh khác Hướng phát triển: Do đề tài mang tính thực tế ứng dụng vào giáo dục Đại học Việc phân tích cảm xúc dựa bình luận người dùng giúp đỡ nhà hoạt định sách giáo dục, lãnh đạo trường đại học nước linh hoạt việc đưa định Ngồi việc phân tích cảm xúc ứng dụng nhiều trường hợp : Bầu cử Marketing Chăm sóc khách hàng Truy nguồn tin xấu Tối ưu hóa SEO việc tìm kiếm 83 Trong luận văn này, việc thu thập ý kiến báo điện tử Tuy nhiên, thời đại bùng nổ thông tin nay, việc tập trung lấy thông tin từ nguồn báo điện tử không hiệu Ngồi ra, việc xử lý thuật toán phức tạp tốn nhiều thời gian tài nguyên hệ thống Do hướng phát triển tương lai luận văn tập trung vào khai phá phân tích cảm xúc liệu lớn, xây dựng ứng dụng hệ thống Big Data Hadoop, Spark để xử lý thơng tin nhanh hơn, hiệu cách phân tán liệu, xử lý nhiều cụm máy để giảm thời gian tính tốn 84 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Ngọc Duy (2014) “Luận văn thạc sĩ khoa học : Tóm tắt ý kiến phân loại cảm xúc”, ngành Khoa học máy tính, Đại học Bách Khoa TP HCM Tiếng Anh [2] Alexandra Balahur, Ralf Steinberger, Mijail Alexandrov Kabadjov, Vanni Zavarella, Erik Van Der Goot, Matina Halkia, Bruno Pouliquen, Jenya Belyaeva (2010), “Sentiment Analysis in the News”, LREC [3] Alexander Pak, , Patrick Paroubek (2010), “Twitter as a Corpus for Sentiment Analysis and Opinion Mining”, European Language Resources Association [4] Bing Liu (2012), “Sentiment Analysis and Opinion Mining”, Morgan & Claypool Publisher [5] Bollegala, Danushka, David Weir, and John Carroll (2011), “Using multiple sources to construct a sentiment sensitive thesaurus for cross-domain sentiment classification”, In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL) [6] Bollen, Johan, Huina Mao, and Xiao-Jun Zeng (2011) “Twitter mood predicts the stock market Journal of Computational Science” [7] Duh, Kevin, Akinori Fujino, and Masaaki Nagata (2011), “Is machine translation ripe for cross-lingual sentiment classification”, In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:shortpapers [8] Ghose, Anindya and Panagiotis G Ipeirotis (2010), “Estimating the helpfulness and economic impact of product reviews: Mining text and characteristics”, IEEE Transactions on Knowledge and Data Engineering 85 reviewer [9] Lu, Bin, Chenhao Tan, Claire Cardie, and Benjamin K Tsou (2011), “Joint bilingual sentiment Proceedings of the classification 49th with Annual unlabeled Meeting parallel of the corpora”, Association In for Computational Linguistics [10] Lu, Yue, Malu Castellanos, Umeshwar Dayal, and ChengXiang Zhai (2011), “Automatic construction of a context-aware sentiment lexicon: an optimization approach”, In Proceedings of the 20th international conference on World wide web [11] Kieu B.T., Pham S.B (2010), “Sentiment Analysis for Vietnamese”, Knowledge and Systems Engineering (KSE) [12] Hong Nam Nguyen et al (2014), “Domain Specific Sentiment Dictionary for Opinion Mining of Vietnamese Text”, Springer International Publishing [13] Matthew A Russell (2013), “Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More”, O’Reilly [14] S Padmaja (2014), “Comparing and evaluating the sentiment on newspaper articles: A preliminary experiment”, IEEE Conference Publications [15] Vo Ngoc Phu, Phan Thi Tuoi (2014) “Sentiment Classification using enhanced Contextual Valence Shifters”, IEEE International Conference on Asian Language Processing (IALP) [16] Zhongkai Hu et el (2015), “Review Sentiment Analysis Based on Deep Learning”, IEEE 12th International Conference on e-Business Engineering Internet [17] Đề tài VLSP http://vlsp.hpda.vn:8080/demo/?page=resources [18] JGibbsLDA http://jgibblda.sourceforge.net/ [19] JvnTextPro http://jvntextpro.sourceforge.net/ [20] vnTokenizer http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer 86 PHỤ LỤC Màn hình giao diện 87 Màn hình liệt kê tính từ 88 Màn hình liệt kê động từ 89 Màn hình báo 90 Màn hình ý kiến bạn đọc 91 Màn hình chủ đề báo 92 Màn hình phân lớp chủ quan 93 Màn hình phân lớp cảm xúc 94 Hệ thống từ khóa chủ đề giáo dục đại học Chủ đề Từ khóa Tuyển sinh “học bổng”, “tuyển sinh”, “điểm chuẩn”, “điểm”, “bộ giáo dục”, “điểm sàn”, “cải cách”, “chỉ tiêu”, “xét tuyển”, “hồ sơ”, “giám thị”, “canh thi”, “trường điểm”, “điểm thi” Học phí “học phí”, “gia hạn học phí”, “triệu đồng”, “mắc”, “rẻ”, “hạn đóng học phí”, “gia hạn tiền học”, “tăng học phí”, “giảm học phí” Công tác xã hội “mùa hè xanh”, “ký túc xá”, “nhà trọ”, “xe buýt”, “mì gói”, “laptop”, “giày dép”, “ba lô”, “điện thoại”, “hoàn cảnh”, “gia đình” Việc làm “giấy giới thiệu”, “báo cáo thực tập”, “part-time”, “fulltime”, “thực tập”, “xác nhận công ty”, “thời gian thực tập”, “tuyển dụng”, “kinh nghiệm”, “ứng tuyển”, “tìm việc”, “việc làm”, “CV”, “thất nghiệp”, “thử việc”, “bán thời gian”, “gia sư”, phục vụ”, “phỏng vấn”, “trái ngành”, “đam mê”, “chuyên ngành”, “tư nhân”, “nhà nước”, “lương”, “bảo hiểm”, “làm thêm”, “ngoại hình”, “bằng cấp”, “kỹ năng”, “trợ cấp” 95 ...ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN - NGUYỄN ĐĂNG THÀNH PHÂN TÍCH CẢM XÚC TRONG GIÁO DỤC ĐẠI HỌC QUA CÁC THÔNG TIN TIẾNG VIỆT TRÊN WEB LUẬN... trường đại học Phân tích quan điểm (sentiment analysis) hướng nghiên cứu nhằm phát cảm xúc (lạc quan, bi quan) ẩn chứa thơng tin mạng Các tốn phân tích cảm xúc là: tìm tác giả biểu lộ cảm xúc, ... có từ điện từ điển thống cảm xúc tiếng Việt 1.4.3 Tính cấp thiết luận văn Hiện việc thu thập thơng tin tiếng Việt phân tích cảm xúc thông tin vấn đề liên quan đến giáo dục diễn đàn, mạng xã hội,