Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
2,97 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -* - NGUYỄN NGỌC TRƯỜNG PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG KHAI PHÁ QUAN ĐIỂM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -* - NGUYỄN NGỌC TRƯỜNG PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG KHAI PHÁ QUAN ĐIỂM Ngành: Công Nghệ Thông Tin Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 60.48.10 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ ANH CƯỜNG Hà Nội - 2015 NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… LỜI CÁM ƠN Để hoàn thành luận văn “Phát văn chủ quan khai phá quan điểm” này, nhận hướng dẫn giúp đỡ nhiệt tình Thầy Cô, Anh Chị Bạn Lời đầu tiên, xin bày tỏ lòng biết ơn chân thành đến Ban lãnh đạo quý Thầy Cô khoa Công nghệ thông tin - Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội tận tình dạy dỗ, truyền đạt kiến thức, kinh nghiệm quý báu tạo điều kiện thuận lợi cho suốt thời gian học tập trường thực đề tài Đặc biệt, xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo hướng dẫn, PGS TS Lê Anh Cường, người tận tình hướng dẫn, giúp đỡ suốt trình thực đề tài Tôi xin gửi lời cảm ơn tới nghiên cứu sinh Nguyễn Thị Xuân Hương Anh Chị, Bạn sinh viên nhóm nghiên cứu hỗ trợ nhiều trình thực luận văn Tôi xin gửi lời cảm ơn tới Bạn khóa K19 ủng hộ khích lệ suốt thời gian học tập trường Tôi xin trân trọng gửi đến Gia đình, Bạn bè Người thân tình cảm tốt đẹp giúp đỡ động viên suốt trình học tập thực hoàn thành luận văn Mặc dù cố gắng để hoàn thành luận văn cách tốt không tránh khỏi thiếu sót Kính mong nhận cảm thông bảo quý Thầy Cô, Anh Chị Bạn Hà Nội, ngày 01/11/2015 Học viên Nguyễn Ngọc Trường TÓM TẮT NỘI DUNG Trong năm gần đây, nghiên cứu khai phá quản điểm nhận quan tâm rộng rãi nhà nghiên cứu, công ty hàng đầu lĩnh vực công nghệ thông tin như: Yahoo, Google, Microsoft, IBM…, hội nghị lớn trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) đạt kết hữu ích mang lại lợi ích to lớn mặt khoa học lẫn công nghiệp Tuy nhiên, ngôn ngữ Tiếng Việt, nghiên cứu vấn đề khiêm tốn có nhiều toán đặt cần tiếp tục nghiên cứu phát triển Luận văn “Phát văn chủ quan khai phá quan điểm” tập trung vào khảo sát phương pháp áp dụng cho ngôn ngữ khác giới, đặc biệt tập trung nghiên cứu để áp dụng cho ngôn ngữ tiếng Việt Trên sở áp dụng nghiên cứu công cụ xử lý ngôn ngữ tiếng Việt, luận văn tiến hành thực nghiệm việc phân lớp văn chủ quan - khách quan cho bình luận từ trang tiếng Việt Chúng sử dụng số đặc trưng để phân loại văn chủ quan bag of word, trích chọn động từ tính từ áp dụng phương pháp học máy thống kê cho toán Các kết ban đầu đạt khả quan Nội dung luận văn trình bày chương sau: Chương – Giới thiệu chung khai phá quan điểm Chương giới thiệu nội dung nhất, cung cấp nhìn khái quát khai phá quan điểm, đồng thời mô tả số khái niệm bản, cách tiếp cận, ý nghĩa số toán điển hình đặt khai phá quan điểm Chương – Các nghiên cứu phương pháp giải Chương giới thiệu chung số tiếp cận phân lớp văn đề xuất áp dụng cho toán khai phá quan điểm Chương - Bài toán phát văn chủ quan khai phá quan điểm Chương mô tả chi tiết toán phát văn chủ quan, số nghiên cứu bao gồm nghiên cứu tiếng Việt áp dụng để giải toán Chương - Thực nghiệm phân lớp hai miền liệu sản phẩm giá xăng Chương môt tả thực nghiệm từ việc tiến hành thu thập liệu, thực tiền xử lý liệu; sau tiến hành trích chọn số đặc trưng phân lớp chủ quan theo hai phương pháp Naive Bayes, SVM Cuối cùng, tổng hợp đánh giá kết cho phương pháp Lời cam đoan Tôi xin cam đoan luận văn với đề tài “Phát văn chủ quan khai phá quan điểm” công trình nghiên cứu riêng Các số liệu, kết trình bày luận văn hoàn toàn trung thực chưa công bố công trình khác Tôi trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan nước quốc tế Trong nội dung trình bày luận văn, thể rõ ràng xác đóng góp Luận văn hoàn thành thời gian làm Học viên Khoa Công Nghệ Thông tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội Học viên Nguyễn Ngọc Trường MỤC LỤC Chương 1: Giới thiệu chung khai phá quan điểm 1.1 Tổng quan kiện act v quan điểm (Opinions) 1.3 Định nghĩa quan điểm 1.4 Một ố b i toán điển hình phân tích quan điểm 11 1.5 Vai trò v ứng dụng 15 1.6 Những khó khăn v thách thức khai phá quan điểm tiếng Việt 18 Chương : Bài toán phân lớp v phân tích quan điểm 20 Các b i toán phân lớp 20 2.2 Phân lớp quan điểm 21 Quá trình phân lớp 21 Khái quát ố phương pháp phân lớp văn 22 4.1 Phân lớp d a luật 22 Phân lớp dụng phương pháp học máy có giám át 23 4.3 Phân lớp dụng học máy không giám sát 34 4.4 Phân lớp dụng học máy bán giám át 35 2.5 Kết luận chung 36 Chương 3: Phát văn chủ quan khai phá quan điểm 37 3.1 Phân biệt chủ quan v khách quan 37 3.1.1 Thông tin chủ quan 37 3.1.2 Thông tin khách quan 37 B i toán «Xây d ng phân lớp để phân lớp văn v o hai lớp chủ quan khách quan» 39 .1 Phát biểu b i toán 39 Mô tả b i toán 39 3.3 Trích chọn đặc trưng 39 3.3.1 Đặc trưng v cách biểu diễn 39 3.3 Vấn đề trích chọn đặc trưng 46 3.3.3 Phương pháp trích chọn đặc trưng 47 3.4 Áp dụng ố phương pháp phân lớp 53 Chương 4: Th c nghiệm phân lớp cho hai miền liệu 54 4.1 Môi trường th c nghiệm 54 4.1.1 Phần cứng 54 4.1 Phần mềm v công cụ 54 Quá trình th c nghiệm 55 .1 Dữ liệu dụng cho th c nghiệm 55 Th c gán nhãn liệu 57 .3 Trích chọn đặc trưng hệ thống 58 .4 Bộ phân lớp Naive Baye 60 .5 Bộ phân lớp VM 63 4.3 Đánh giá kết 66 4.3.1 Phương pháp đánh giá 66 4.3 Nhận xét 67 Kết Luận 68 T i liệu tham khảo 70 Danh sách hình vẽ ình 1.1: Tốc độ tăng trưởng tên miền Tiếng Việt ình : Độ tuổi người dụng Internet o với tổng dân ố Việt Nam ình 1.3: Tổng hợp quan điểm điện thoại 14 ình 1.4: Tổng hợp kiến o ánh hai điện thoại với 14 ình 1.5: Khai phá quan điểm người dùng 16 ình 1.6: Trang web entiment140 với từ khóa tìm kiếm l iphone 17 ình 1.7: Kết phân lớp quan điểm entiment140 18 ình 1: Ví dụ phân lớp nhị phân VM 20 ình : Ví dụ mô hình phân lớp dụng học máy có giám át 22 ình 3: Ví dụ định 25 ình 4: Mô hình phân lớp dụng phân lớp Naive Baye 26 ình 5: iêu phẳng với lề c c đại cho VM phân tách liệu thuộc hai lớp 32 ình 6: phân lớp VM dụng ố h m nhân 34 ình 3.1: Mô hình biểu diễn chủ quan v khách quan 37 ình : Mô hình không gian vector Chri tian Perone 41 ình 3.3: Biểu diễn văn dạng vector 42 ình 3.4: Biểu diễn văn dạng vector term frequency 42 ình 3.5: Tạo liệu huấn luyện dụng phân lớp d a luật 48 ình 4.1: Minh họa chương trình thu thập bình luận báo điện tử 56 ình : Minh họa chương trình thu thập bình luận trên mạng xã hội 56 ình 4.3: Giao diện giới thiệu chương trình thu thập bình luận 57 ình 4.4: Minh họa xây d ng từ điển đặc trưng 59 ình 4.5: Giao diện form học từ liệu huấn luyện Training 61 ình 4.6: Giao diện form th c phân lớp NB Cla ify 62 ình 4.7: Giao diện form giới thiệu chương trình About 62 ình 4.8: Minh họa biểu diễn liệu huấn luyện 63 ình 4.9: Minh họa mảng vector huấn luyện 63 ình 4.10: Giao diện form th c phân lớp VM Cla ify 64 ình 4.11: Giao diện form chuyển đổi văn text ang vector 65 ình 4.1 : Giao diện giới thiệu chương trình phân lớp dụng VM 65 Danh sách bảng Bảng 1: Các mẫu cú pháp v ví dụ tiếng Anh 24 Bảng : Dữ liệu huấn luyện dụng cho định 25 Bảng 3: Phương pháp học bán giám át elf-training 35 Bảng 4: Phương pháp học bán giám át Co-training 36 Bảng 3.1: o ánh thông tin chủ quan v khách quan 38 Bảng : Trích chọn mẫu loại 51 Bảng 3.3: Một ố mẫu tập tốt mẫu v trích chọn cụm từ kiểu 51 Bảng 3.4: Trích chọn mẫu loại hai 52 Bảng 3.5: Một ố mẫu tập tốt mẫu v trích chọn cụm từ kiểu 52 Bảng 4.1: Cấu hình phần cứng hệ thống thử nghiệm 54 Bảng : Danh ách ố phần mềm v công cụ th c nghiệm 54 Bảng 4.3: ố lượng mẫu bình luận dùng th c nghiệm 55 Bảng 4.4: Minh họa trình gán nhãn liệu 58 Bảng 4.5: Kết th c nghiệm với phân lớp Naïve Baye 61 Bảng 4.6: Kết th c nghiệm với phân lớp VM 64 Bảng 4.7: Kết tổng hợp 67 Danh mục từ viết tắt Ký hiệu viết tắt Viết đầy đủ Ý nghĩa SVM support vector machine Máy hỗ trợ vector MEM maximum entropy model Mô hình entropy c c đại POS Part of Speech Nhãn từ loại NLP Natural Language Processing Xử l ngôn ngữ t nhiên IR Information Retrieval KDD Knowledge Discovery in Databases Phát tri thức liệu HMM Hidden Markov Model Mô hình Markov ẩn TSVM Transductive Support Vector Machine Máy hỗ trợ vector truyền dẫn SGT Spectral Graph Transductive Đồ thị quang phổ truyền dẫn TF*IDF Term Frequency–Inverse Document Frequency Phương pháp tính trọng ố nghịch đảo văn LibSVMsharp A Library for Support Vector Machines LibSVM Thư viện chạy VM ệ thu thập thông tin T i liệu tham khảo T i liệu tiếng Việt [1] Tú Bảo, Lương Chi Mai Về xử lý tiếng Việt công nghệ thông tin Viện Công nghệ Thông tin, Viện Khoa học v Công nghệ Tiên tiến Nhật [2] Quang Thụy & nhóm khai phá liệu v ứng dụng Bài giảng khai phá liệu 2007 [3] Nguyễn Trần Thiên Thanh, Trần Khải o ng, Tìm hiểu hướng tiếp cận toán phân loại văn xây dựng phần mềm phân loại tin tức báo điện tử, Khóa luận cử nhân tin học 005 [4] Trần Thị Oanh, Thuật toán self-training co-training ứng dụng phân lớp văn bản, Khóa luận cử nhân Công nghệ thông tin 2006 [5] Nguyễn Thị Thùy Linh, Nghiên cứu thuật toán phân lớp liệu dựa định, Khóa luận cử nhân Công nghệ thông tin 2005 [6] Trần Cao Đệ v Phạm Nguyên Khang, Phân loại văn với máy học vector hỗ trợ định, Tạp chí Khoa học 01 : 1a -63 T i liệu tiếng Anh [20] Bing Liu Sentiment Analysis and Opinion Mining Morgan &Claypool Publishers, May 2012 [21] Thorsten Joachims SVM multiclass Multi-Class Support Vector Machine Cornell University Department of Computer Science [22] Janyce Wiebe and Ellen Rilo Creating Subjective and Objective Sentence Classiers from Unannotated Texts In Proceedings of the 6th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing-05) [23] Tran-Thai Dang, Anh-Cuong Le Automatically Learning Patterns in Subjectivity Classification for Vietnamese University of Engineering and Technology Vietnam National University, Ha Noi (springer-2014) [24] Nguyen Cam Tu JVnTextpro: A Java-based Vietnamese Text Processing Toolkit SISLab Software Utility College of Technology, Vietnam National University, Hanoi [25] Nguyen Hung Son Rule based classifiers Faculty of Mathematics, Informatics and Mechanics, Poland Warsaw University [26] Christopher D.Manning, Hinrich Schutze, Foundations Of Statistical Natural Language Processing [27] Christopher D Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to Information Retrieval, 2008 [28] Christian S Perone, Machine Learning Text feature extraction (tf-idf) – Part I, 2011 70 [29] Xiaojin Zhu Semi-Supervised Learning with Graphs PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005 [30] Xiaojin Zhu Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin – Madison, February 22, 2006 [31] Lê ồng Phương, vnTokenizer 4.1.1 Userguide, Department of Mathematics, Mechanics and Informatics, Vietnam National University, Hanoi, Vietnam (December 2009) [32] Ellen Rillof, Janyce Wiebe, Theresa Wilson, Learning Subjective Nouns using Extraction Pattern Bootstrapping 2003 Conference on Natural Language Learning (CoNLL-03), ACL SIGNLL, 2003 [33] T Joachims Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 [34] T Joachims Transductive learning via spectral graph partitioning Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297 [35] Kevin P Murphy Machine Learning A Probabilistic Perspective The MIT Press Cambridge, Massachusetts London, England [36] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin A Practical Guide to Support Vector Classification Department of Computer Science National Taiwan University, Taipei 106, Taiwan, 2010 Websites tham khảo [40] http://wikipedia.org/wiki/Đặc_trưng_ nhận_dạng_mẫu [41] https://en.wikipedia.org/wiki/Co-training [42] http://xahoithongtin.com.vn/2014 internet-viet-nam-phat-trien-ngoan-mucd23040.html [43] http://netnam.vn/index.php/en/news/about-netnam/52-bao-chi-noi-v-netnam/328viet-nam-vao-top-20-quoc-gia-co-nhieu-nguoi-dung-internet-nhat.html [44] http://ictnews.vn/internet/tinh-hinh-pho-cap-internet-o-viet-nam-119725.ict [45] http://laodong.com.vn/lao-dong-cuoi-tuan/bo-loc-thong-tin-hieu-qua-95659.bld [46] http://www.sentiment140.com [47] https://en.wikipedia.org/wiki/Naive_Bayes_classifier [48] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/machine-learningtrong-nlp/thuat-toan-entropy-cuc-dai 71 [...]... liệu tiếng Việt [1] ồ Tú Bảo, Lương Chi Mai Về xử lý tiếng Việt trong công nghệ thông tin Viện Công nghệ Thông tin, Viện Khoa học v Công nghệ Tiên tiến Nhật bản [2] Quang Thụy & nhóm khai phá dữ liệu v ứng dụng Bài giảng về khai phá dữ liệu 2007 [3] Nguyễn Trần Thiên Thanh, Trần Khải o ng, Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử, Khóa luận... học 005 [4] Trần Thị Oanh, Thuật toán self-training và co-training ứng dụng trong phân lớp văn bản, Khóa luận cử nhân Công nghệ thông tin 2006 [5] Nguyễn Thị Thùy Linh, Nghiên cứu các thuật toán phân lớp dữ liệu dựa trên cây quyết định, Khóa luận cử nhân Công nghệ thông tin 2005 [6] Trần Cao Đệ v Phạm Nguyên Khang, Phân loại văn bản với máy học vector hỗ trợ và cây quyết định, Tạp chí Khoa học 01 : 1a... http://laodong.com.vn/lao-dong-cuoi-tuan/bo-loc-thong-tin-hieu-qua-95659.bld [46] http://www.sentiment140.com [47] https://en.wikipedia.org/wiki/Naive_Bayes_classifier [48] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/machine-learningtrong-nlp/thuat-toan-entropy-cuc-dai 71