Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia

14 267 0
Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - NGÔ THỊ HOA PHÂN LOẠI QUAN ĐIỂM TRÊN PHƢƠNG TIỆN XÃ HỘI ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - NGÔ THỊ HOA PHÂN LOẠI QUAN ĐIỂM TRÊN PHƢƠNG TIỆN XÃ HỘI ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI TS NGUYỄN CẨM TÚ Hà Nội - 2015 LỜI CẢM ƠN Lời cảm ơn xin gửi đến TS Đặng Thanh Hải TS Nguyễn Cẩm Tú Thầy cô ngƣời đƣa ý tƣởng chọn đề tài cung cấp cho tài liệu, phƣơng pháp nghiên cứu theo sát tơi suốt q trình làm luận văn Tôi xin chân thành cảm ơn bạn, em phòng KT-Lab dẫn động viên gặp vƣớng mắc lý thuyết thực nghiệm Tôi xin chân thành cảm ơn thầy Khoa Cơng nghệ thơng tin Phịng Đào tạo sau đại học, Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, ngƣời ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tác giả luận văn Ngô Thị Hoa LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu độc lập riêng thực dƣới hƣớng dẫn TS Đặng Thanh Hải TS Nguyễn Cẩm Tú, không chép luận văn, luận án tác giả khác Nếu có vấn đề tơi xin hồn tồn chịu trách nhiệm Tác giả luận văn Ngô Thị Hoa MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DƢ̃ LIỆU, KHAI PHÁ QUAN ĐIỂM 10 1.1 Khai phá liệu 10 1.2 Các phƣơng pháp khai phá liệu Error! Bookmark not defined 1.3 Các kỹ thuật khai phá liệu Error! Bookmark not defined 1.4 Các thách thức khai phá liệu Error! Bookmark not defined 1.5 Ứng dụng khai phá liệu Error! Bookmark not defined 1.6 Phân tích khai phá quan điểm Error! Bookmark not defined 1.6.1 Phân tích quan điểm qua cấp độ liệu Error! Bookmark not defined 1.6.2 Các thách thức khai phá quan điểm Error! Bookmark not defined CHƢƠNG 2: CÁC PHƢƠNG PHÁP PHÂN LỚP QUAN ĐIỂM Error! Bookmark not defined 2.1 Kỹ thuật học có giám sát Error! Bookmark not defined 2.2 Lựa chọn đặc trƣng Error! Bookmark not defined 2.3 Các phƣơng pháp phân lớp quan điểm Error! Bookmark not defined 2.3.1 Mơ hình học máy SVM Error! Bookmark not defined 2.3.2 Mơ hình định Error! Bookmark not defined 2.3.3 Mơ hình xác suất Bayes Error! Bookmark not defined 2.3.4 Thuật toán KNN Error! Bookmark not defined 2.4 Đánh giá mô hình phân lớp Error! Bookmark not defined 4 CHƢƠNG 3: PHÂN LỚP QUAN ĐIỂM TRÊN MƠ HÌNH QUI HỒI LOGISTIC Error! Bookmark not defined 3.1 Cơ sở lý thuyết Error! Bookmark not defined 3.1.1 Các khái niệm Error! Bookmark not defined 3.1.2 Mơ hình qui hồi Logistic Error! Bookmark not defined 3.1.3 Phƣơng pháp tìm tham số tối ƣu mơ hình qui hồi Logistic Error! Bookmark not defined 3.2 Mơ hình qui hồi Logistic áp dụng toán phân lớp quan điểm Error! Bookmark not defined CHƢƠNG 4: THỰC NGHIỆM Error! Bookmark not defined 4.1 Môi trƣờng mô hình thực nghiệm Error! Bookmark not defined 4.2 Thu thập xử lý liệu Error! Bookmark not defined 4.2.1 Dữ liệu dự thảo đề án quốc gia Error! Bookmark not defined 4.2.2 Xử lý liệu Error! Bookmark not defined 4.3 Thƣ̣c nghiê ̣m phân lớp đánh giá Error! Bookmark not defined 4.4 Đánh giá kết thực nghiệm Error! Bookmark not defined CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TIẾP THEO Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11 DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT Từ viết tắt Từ tiếng Anh TF Term Frequency IDF Inverse Document Frequency TFIDF Term Frequency - Inverse Document Frequency SVM Support Vector Machine KNN K Nearest Neighbors Stopword Những từ phổ biến gặp, khơng có giá trị phân lớp DANH SÁCH CÁC BẢNG Bảng 1: Môi trƣờng thực nghiệm Bảng 2: Các phần mềm sử dụng Bảng 3: Tổng hợp liệu thực nghiệm Bảng 4: Tổng hợp kết với kích thƣớc tập huấn luyện Bảng 5: Độ đo phân lớp mơ hình qui hồi Logistic thuật toán KNN DANH SÁCH CÁC HÌNH Hình 1: Q trình khai phá tri thức Hình 2: Các kỹ thuật Khai phá liệu Hình 3: Thuật tốn KNN phân lớp quan điểm Hình 4: Mơ hình thực nghiệm Hình 5: Quy trình xử lý liệu Hình 6: Mơ tả liệu thực nghiệm Hình 7: Kết thực nghiệm với L1, L2 Hình 8: Kết phân lớp Hình 9: Biểu diễn đánh giá mơ hình qui hồi Logistic KNN MỞ ĐẦU Khai phá tri thức lĩnh vực phát triển năm gần đƣợc ứng dụng nhiều lĩnh vực Khi quyền tự ngôn luận ngày đƣợc Nhà nƣớc ta trọng, công dân có quyền đƣợc tham gia bàn bạc, thảo luận đóng góp ý kiến vào vấ n đề chung đất nƣớc đặt Bài toán cho khai phá tri thức, cụ thể khai phá quan điểm: “Làm để phân tích quan điểm đƣợc trao đổi phƣơng tiện thông tin đại chúng, để từ đƣa dự đốn cho vấn đề đƣơ ̣c thảo luận?” Nhận thấy dự thảo đề án quốc gia ln có tác động lớn đến kinh tế, đời sống xã hội, nhận đƣợc nhiều ý kiến đóng góp chuyên gia nhân dân Các ý kiến đóng góp có tác động ngƣợc lại đến đề án suốt trình khởi tạo diễn dự án Luận văn “Phân loại quan điểm phƣơng tiện xã hội dự thảo đề án quốc gia” đƣa giải pháp giải vấn đề Bài tốn phân tích quan điểm phƣơng tiện thông tin đại chúng, cụ thể môi trƣờng mạng Để làm đƣợc việc này, luận văn tiến hành nghiên cứu sở lý thuyết, đề xuất giải pháp thực áp dụng thực nghiệm miền liệu dự thảo đề án quốc gia Cấ u trúc l uận văn gồm bốn chƣơng tƣ̀ tổ ng quan đế n chi tiế t vấ n đề , giải pháp thực nghiệm: Chương 1: Trình bày tổng quan khai phá liệu, khai phá quan điểm Xuấ t phát điể m từ nhƣ̃ng kiế n thƣ́c nề n tảng cầ n nắ m đƣơ ̣c liñ h vƣ̣c khai phá tri thƣ́c, khai phá quan điể m, luận văn trình bày sở lý thuyết theo logic giải Bài tốn Từ đó, ta cho ̣n mơ ̣t phƣơng pháp phù hơ ̣p với Bài tốn đƣợc trình bày chƣơng Chương 2: Nghiên cứu phương pháp phân lớp quan điểm Có nhiều phƣơng pháp để phân lớp quan điểm , mỡi phƣơng pháp có lịch sử, tƣ tƣởng và đă ̣c trƣng riêng phù hơ ̣p giải vấn đề Chương 3: Phân lớp quan điểm với qui hồi Logistic Mơ hình qui hồi Logistic phƣơng pháp mà luâ ̣n văn lƣ̣a cho ̣n để phân lớp quan điể m và dƣ̣ báo , qua đó phân tić h kế t quả thƣ̣ c nghiê ̣m Mơ hiǹ h phân tích mối tƣơng quan biến dự đoán phân loại biến kết dự đốn, mơ hiǹ h phù hợp liệu toán phân tić h quan điể m tiêu cƣ̣c hay tić h cƣ̣c Chương 4: Thực nghiệm phân lớp quan điểm với dự thảo đề án quốc gia đánh giá kết thực nghiệm - Thu thâ ̣p và xƣ̉ lý dƣ̃ liê ̣u là các biǹ h luâ ̣n và bài báo nêu các quan điể m thảo luâ ̣n về các dƣ̣ thảo đề án quố c gia - Thƣ̣c nghiê ̣m và đánh giá mô hiǹ h phân lớp quan điể m tiêu cƣ̣c và tí ch cƣ̣c đố i với các dƣ̣ thảo đề án mô hiǹ h qui hồ i Logistis 10 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DƢ̃ LIỆU, KHAI PHÁ QUAN ĐIỂM 1.1 Khai phá liệu Cơng nghệ thơng tin ngày phát triển hệ thống thông tin ngày mở rộng để lƣu trữ lƣợng lớn liệu có tích tụ thêm, thêm vào việc lƣu trữ liệu trực tuyến với dung lƣợng lớn nhiều làm cho ta chống ngợp khơng biết làm để có thơng tin hữu ích cần Quá trình lấy đƣợc liệu hữu ích đƣợc gọi q trình khai phá tri thức Những liệu tri thức học đƣợc Có nhiều khái niệm khai phá liệu, có khái niệm sau dễ nhớ, dễ hiểu: “Khai phá tri thức tìm tri thức liệu” [E1] Quá trình khai phá tri thức: Hình 1: Quá trình khai phá tri thức 11 TÀI LIỆU THAM KHẢO Tiếng Việt [V1] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú,“Giáo trình khai phá liệu Web”, Nhà xuất giáo dục Việt Nam, 2009 Tiếng Anh [E0] Pantelis Agathangelou, Ioannis Katakis, Fotios Kokkoras, Konstantinos Ntonas,“Mining Domain-Specific Dictionaries of Opinion Words” [E1] S Vasantharaj, A Martin, A Meiappane, J Madhusudnan, “A Survey on Sentiment Analysis Applied in Opinion Mining”, Journal of Network Communications and Emerging Technologies (JNCET), www.jncet.org Volume 1, Issue 1, March (2015) [E2] Qiang Yang, Xindong Wu, “10 Challenging Problems In Data Mining Research”, International Journal of Information Technology & Decision Making Vol.5,No.4(2006)597-604, World Scientific Publishing Company, p 597 - 604 [E3] Lun-Wei Ku, Yu-Ting Liang and Hsin-Hsi Chen, “Opinion Extraction, Summarization andTrackingin News and Blog Corpora”, American AssociationforArtificialIntelligence(www.aaai.org),2006 [E4] Michael D Lee and Eric - Jan Wagenmakers, “Bayesian Cognitive Modeling:A Practical Course”, P – [E5] Chao-Ying Joanne Peng, Kuk Lida Lee, Gary M Ingersoll, “An Introduction to Logistic RegressionAnalysis and Reporting”, Indiana UniversityBloomington [E6] Chapter12, Logistic Regression [E7] Xiaojin Zhu, “Text Categorization with Logistic Regression”, Advanced NLP, CS838-1, 2007 [E8] G.Angulakshmi, Dr.R.ManickaChezian, “An Analysis on Opinion Mining: TechniquesandTools”, International Journal of Advanced Research in Computer andCommunicationEngineering, Vol 3, Issue 7, July 2014 12 [E9] Ayesha Rashid1, Naveed Anwer2, Dr Muddaser Iqbal3, Dr Muhammad Sher, “A Survey Paper: Areas, Techniques and Challenges of Opinion Mining”, IJCSI International Journal of Computer Science Issues, Vol 10, Issue 6, No 2, November 2013 [E10] Arti Buche, Dr M B Chandak, Akshay Zadgaonkar, “Opinion Mining and Analysis: A Survey”, International Journal on Natural Language Computing (IJNLC) Vol 2, No.3, June 2013 [E11] Reza Entezari-Maleki, Arash Rezaei, Behrouz Minaei-Bidgoli, “Comparison of Classification Methods Based on the Type of Attributes and Sample Size”, Department of Computer Engineering, Iran University of Science & Technology (IUST), Tehran, Iran [E12] James Wilson, Edited by Andrew Nobel, “Logistic Regression and k Nearest Neighbors” Các website [W] Website: http://vi.wikipedia.org/wiki [W1] Website: http://www.tutorialspoint.com/data_mining/dm_overview.htm

Ngày đăng: 26/08/2016, 16:58

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan