DSpace at VNU: Học chuyển đổi cho bài toán khai phá quan điểm đa miền trong tiếng Việt

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ TIẾN HỌC CHUYỂN ĐỔI CHO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM ĐA MIỀN TRONG TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS Nguyễn Cẩm Tú Hà Nội – 2015 LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành sâu sắc đến cô giáo, TS Nguyễn Cẩm Tú, ngƣời định hƣớng đề tài, tận tình hƣớng dẫn bảo tơi suốt q trình tơi thực luận văn Tơi xin gửi lời cảm ơn chân thành tới thầy giáo, cô giáo Khoa Công nghệ thông tin, trƣờng Đại học Công nghệ - Đại học Quốc Gia Hà Nội tận tình bảo, giúp đỡ tơi suốt thời gian học tập trƣờng Tôi muốn gửi lời cảm ơn tới thầy, anh chị bạn Phòng thí nghiệm Khoa học liệu Cơng nghệ Tri thức chia sẻ cho nhiều kiến thức bổ ích nhƣ giúp đỡ tơi lúc khó khăn thực đề tài Tôi xin đƣợc gửi lời cảm ơn chân thành tới gia đin ̀ h, ngƣời thân, bạn bè đã cổ vũ, động viên, tạo điều kiện giúp đỡ suốt trình học tập thực luận văn Hà Nội, ngày 28 tháng năm 2015 Học viên Phạm Thị Tiến LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung luận văn tơi tự nghiên cứu, tìm hiểu dƣới hƣớng dẫn TS Nguyễn Cẩm Tú Tất tham khảo từ nghiên cứu liên quan đƣợc nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu ngƣời khác mà khơng có rõ tài liệu tham khảo Các kết nêu luận văn trung thực Nếu có vấn đề tơi xin hoàn toàn chịu trách nhiệm Người viết cam đoan Phạm Thị Tiến MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU 10 Chƣơng TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM 12 1.1 Bài toán khai phá quan điểm 12 1.1.1 Các khái niệm 13 1.1.2 Các nhiệm vụ khai phá quan điểm 14 1.2 Các mức khai phá quan điểm 15 1.2.1 Khai phá quan điểm mức câu 15 1.2.2 Khai phá quan điểm mức tài liệu 15 1.2.3 Khai phá quan điểm mức thực thể khía cạnh 16 1.3 Các phƣơng pháp phân lớp quan điểm 17 1.3.1 Phân lớp sử dụng Naïve Bayes 17 1.3.2 Phân lớp sử dụng SVM 19 Chƣơng HỌC CHUYỂN ĐỔI VÀ VẤN ĐỀ CHUYỂN ĐỔI MIỀN TRONG KHAI PHÁ QUAN ĐIỂM 21 2.1 Tổng quan học chuyển đổi 21 2.1.1 Phân loại học chuyển đổi 22 2.1.1.1 Học chuyển đổi quy nạp 22 2.1.1.2 Học chuyển đổi truyền dẫn 23 2.1.1.3 Học chuyển đổi không giám sát 24 2.1.2 Một số phƣơng pháp tiếp cận học chuyển đổi 24 2.1.3 Một số ứng dụng học chuyển đổi 25 2.1.3.1 Tìm kiếm thơng tin 25 2.1.3.2 Khai phá quan điểm 25 2.2 2.1.3.3 Phân lớp văn 26 2.1.3.4 Lọc cộng tác 26 Vấn đề chuyển đổi miền khai phá quan điểm 27 2.2.1 Mô hình giám sát 27 2.2.2 Mơ hình phân biệt tuyến tính 28 2.2.3 Chuyển đổi mơ hình giám sát sang miền 29 2.2.4 Khái quát hóa miền 30 2.2.5 Bài toán chuyển đổi miền 31 2.2.5.1 Các khái niệm 31 2.2.5.2 Mơ hình xác chuyển đổi miền 32 Chƣơng CÁC PHƢƠNG PHÁP CHUYỂN ĐỔI MIỀN CHO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM ĐA MIỀN 33 3.1 Chuyển đổi đặc trƣng (feature-based domain adaptation) 33 3.1.1 3.1.1.1 Các chiến lƣợc lựa chọn đặc trƣng 34 3.1.1.2 Phƣơng pháp lựa chọn đặc trƣng dựa vào độ tƣơng hỗ (MI) 35 3.1.2 Mơ hình chuyển đổi miền sử dụng SCL 38 3.1.3.1 Giới thiệu thuật toán SCL 38 3.1.3.2 Nội dung thuật toán 39 3.1.4 3.2 Bài toán lựa chọn đặc trƣng 33 Mơ hình cho tốn chuyển đổi miền sử dụng SCL 41 3.1.5.1 Tiền xử lý liệu 41 3.1.5.2 Giả mã SCL 43 3.1.5.3 Huấn luyện test mô hình 43 Chuyển đổi đối tƣợng (instance-based domain adaptation) 43 3.2.1 Giới thiệu thuật toán TransferBoost 44 3.2.2 Nội dung thuật toán TransferBoost 46 3.2.3 Lựa chọn tham số 47 3.2.4 Mơ hình cho tốn chuyển đổi miền sử dụng TransferBoot 49 3.3.4.1 Tiền xử lý liệu 49 3.3.4.2 Giả mã TransferBoost 50 3.3.4.3 Huấn luyện test mơ hình 50 Chƣơng THỰC NGHIỆM 52 4.1 Môi trƣờng thực nghiệm 52 4.1.1 Cấu hình phần cứng 52 4.1.2 Các phần mềm công cụ sử dụng 52 4.2 Dữ liệu thực nghiệm 53 4.3 Mô tả thực nghiệm 53 4.4 Đánh giá 54 4.5 Kết thực nghiệm 55 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 DANH MỤC CÁC CHỮ VIẾT TẮT Từ Tiếng Anh Tiếng Việt ASO Alternating Structural Optimization Tối ƣu kiến trúc xem kẽ MI Mutual Infomation Thông tin tƣơng hỗ MIFS Mutual Information Feature Selection Lựa chọn đặc trƣng thông tin tƣơng hỗ SCL Structural Correspondence Learning Học tƣơng quan kiến trúc SVD Singular Value Decomposition Phân tách giá trị đơn SVM Support Vector Machine Máy hỗ trợ véctơ TF Term Frequency Tần số thuật ngữ DANH MỤC CÁC BẢNG Bảng 2.1: Các nhóm khác học chuyển đổi 22 Bảng 2.2: Một số phƣơng pháp thực học chuyển đổi 24 Bảng 2.3: Các phƣơng pháp sử dụng cách cài đặt khác 25 Bảng 4.1: Cấu hình phần cứng 52 Bảng 4.2: Các phần mềm công cụ sử dụng 52 Bảng 4.3: Dữ liệu thu thập cho thực nghiệm 53 Bảng 4.4: Kết thực nghiệm đánh giá hiệu học chuyển đổi 55 DANH MỤC CÁC HÌNH VẼ Hình 2.1: Sự khác học chuyển đổi học truyền thống 22 Hình 2.2: Ví dụ mơ hình giám sát đánh giá sản phẩm sách 28 Hình 2.3: Ví dụ việc gán nhãn PoS cho câu đƣợc lấy từ miền WSJ-miền nguồn MEDLINE-miền đích 29 Hình 3.1: Các đánh giá miền liệu liên quan 33 Hình 3.2: Minh họa mối liên hệ entropy độ đo tƣơng hỗ 36 Hình 3.3: Thuật toán MIFS 37 Hình 3.4: Thuật tốn SCL 40 Hình 3.5: Mơ hình tốn chuyển đổi miền sử dụng SCL 41 Hình 3.6: Ví dụ biểu diễn văn dƣới dạng TF 42 Hình 3.7: Minh họa ý tƣởng thuật tốn TransferBoost 45 Hình 3.8: Thuật toán TransferBoost 46 Hình 3.9: Một ví dụ thuật toán TransferBoost với ba lần lặp 47 Hình 3.10: Mơ hình toán chuyển đổi miền sử dụng TransferBoost 49 Hình 3.11: Ví dụ biểu diễn văn dƣới dạng file.arff 50 Hình 4.1: Kết thực nghiệm đánh giá hiệu học chuyển đổi 56 10 MỞ ĐẦU Hiện nay, toán khai phá quan điểm giành đƣợc quan tâm nhà nghiên cứu, mà giữ vai trò quan trọng nhiều lĩnh vực khác nhƣ thƣơng mại, trị, văn hóa,… Bài tốn thƣờng đƣợc giải nhờ phƣơng pháp học máy có giám sát với yêu cầu lớn liệu có nhãn Nhƣ ta biết, kỹ thuật học máy huấn luyện tập liệu kiểm tra tập liệu khác, hai tập miền kết tốt Tuy nhiên, với khối lƣợng liệu khổng lồ từ miền, việc xây dựng lại liệu học miền ứng dụng tốn thời gian lãng phí Vấn đề đặt khai phá quan điểm đa miền số đặc trƣng đƣợc chia sẻ miền, khai thác mối liên hệ ta dựa vào miền nguồn giảm bớt đáng kể việc xây dựng học cho miền đích Vì vậy, học máy miền liệu khác thách thức Để làm đƣợc điều ta cần phải xây dựng phân lớp quan điểm áp dụng đƣợc nhiều miền liệu Đây động lực để nghiên cứu phƣơng pháp chuyển đổi miền để tận dụng liệu gán nhãn từ miền áp dụng khứ Ý thức đƣợc tầm quan trọng toán khai phá quan điểm đa miền nhƣ ý nghĩa học chuyển đổi, chọn đề tài Học chuyền đổi cho toán khai phá quan điểm đa miền Tiếng Việt Trong luận văn này, nghiên cứu hai hƣớng tiếp cận học chuyển đổi điển hình: chuyển đổi đặc trƣng (phƣơng pháp SCL) chuyển đổi đối tƣợng (phƣơng pháp TransferBoost) đồng thời áp dụng vào học chuyển đổi đa miền Tiếng Việt Luận văn đƣợc tổ chức thành bốn chƣơng nhƣ sau:  Chƣơng 1: Tổng quan khai phá quan điểm Giới thiệu khái quát toán khai phá phá quan điểm khái niệm lĩnh vực  Chƣơng 2: Học chuyển đổi vấn đề chuyển đổi miền khai phá quan điểm Giới thiệu khái quát học chuyển đổi, toán chuyển đổi miền khai phá quan điểm nội dung chuyển đổi miền  Chƣơng 3: Các phƣơng pháp chuyển đổi miền cho toán khai phá quan điểm đa miền 58 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Battiti R , (1994), Using the mutual information for selecting features in supervised neural net learning IEEE Trans Neural Networks 5, 537–550 [2] Bing Liu (2010, March) Sentiment Analysis and Subjectivity Invited Chapter for the Handbook of Natural Language Processing(Second Edition) [3] Bing Liu, (2012), Sentiment Analysis and Opinion Mining, Claypool Publishers [4] Dai W., Yang Q., Xue G.R., Yu Y., (2007, June), Boosting for transfer learning In Proceedings of the 24th international conference on Machine learning (pp 193200), ACM [5] Eaton E., Marie desJardins, (2011, August), Selective Transfer Between Learning Tasks Using Task-Based Boosting, AAAI [6] Gao S., Li H., (2011, October), A cross-domain adaptation method for sentiment classification using probabilistic latent analysis In Proceedings of the 20th ACM [7] John Blitzer, Ryan T McDonald, Fernando Pereira, (2006), Domain Adaptation with Structural Correspondence Learning EMNLP 2006: 120-128 [8] John Blitzer, Mark Dredze, Fernando Pereira, (2007), Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification ACL 2007: 440-447 [9] John Blitzer (2007) Domain Adaptation of Natural Language Processing Systems, PhD Thesis, The University of Pennsylvania [10] Pan S.J., Yang Q., (2010), A survey on transfer learning Knowledge and Data Engineering, IEEE [11] Patricia N., Caputo, B., (2014), Learning to learn, from transfer learning to domain adaptation: a unifying perspective, Proc CVPR [12] Rie Ando and Tong Zhang (2005) A framework for learning predictive structures from multiple tasks and unlabeled data, Journal of Machine Learning Research6:1817– 1853 59 [13] Rie Ando and Tong Zhang, (2005), A high-performance semi-supervised learning method for text chunking, In ACL [14] Rui Xia , Jianfei Yu , Feng Xu , and Shumei Wang, (2014), Instance-Based Domain Adaptation in NLP via In-Target-Domain Logistic Approximation, 28th AAAI [15] Shannon C.E, Weaver W., (1949), The Mathematical Theory of Communication Urbana, IL: University of Illinois Press [16] Sinno Jialin Pan, Xiaochuan Ni, Jian-Tao Sun, Qiang Yang, Zheng Chen (2010) Cross-domain sentiment classification via spectral feature alignment, WWW 2010: 751-760 [17] Vanessa Gomez-Verdejo, Michel Verleysen, Jerome Fleury,(2007), Information Theoretic Feature Selection for the Classification of Hysteresis Curves [18] Yu, Hong, Vasileios Hatzivassiloglou, (2003), Towards answering opinion questions: Separating facts from opinions and identifying the polarity of opinion sentences.EMNLP '03: 129-136 [19] Christopher D.Manning, Hinrich Schutze, (1999) Foundations Of Statistical Natural Language Processing [20] Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, Chih-Jen Lin (2008) LIBLINEAR: A Library for Large Linear Classification Journal of Machine Learning Research 9: 1871-1874 [21] Daume III H, (2007), Frustratingly Easy Domain Adaptation In Proc of ACL ... 2: Học chuyển đổi vấn đề chuyển đổi miền khai phá quan điểm Giới thiệu khái quát học chuyển đổi, toán chuyển đổi miền khai phá quan điểm nội dung chuyển đổi miền  Chƣơng 3: Các phƣơng pháp chuyển. .. chuyển đổi miền để tận dụng liệu gán nhãn từ miền áp dụng khứ Ý thức đƣợc tầm quan trọng toán khai phá quan điểm đa miền nhƣ ý nghĩa học chuyển đổi, chọn đề tài Học chuyền đổi cho toán khai phá quan. .. Chƣơng HỌC CHUYỂN ĐỔI VÀ VẤN ĐỀ CHUYỂN ĐỔI MIỀN TRONG KHAI PHÁ QUAN ĐIỂM 21 2.1 Tổng quan học chuyển đổi 21 2.1.1 Phân loại học chuyển đổi 22 2.1.1.1 Học chuyển đổi

Định dạng
Số trang	12
Dung lượng	378,46 KB