Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
316,84 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN ĐỖ ĐÌNH LÂN NGHIÊNCỨUPHÁTHIỆNSỰKIỆNTỪDỮLIỆUVĂNBẢNLUẬNVĂNTHẠCSĨKHOAHỌCMÁY TÍNH Bình Định, năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN ĐỖ ĐÌNH LÂN NGHIÊNCỨUPHÁTHIỆNSỰKIỆNTỪDỮLIỆUVĂNBẢN Chuyên ngành Mã số : Khoahọcmáy tính : 60 48 01 01 Người hướng dẫn: TS Lê Quang Hùng LỜI CAM ĐOAN Tôi xin cam đoan luậnvăn thực hướng dẫn TS Lê Quang Hùng Các nội dung trích dẫn từnghiêncứu tác giả khác mà trình bày luậnvăn ghi rõ nguồn phần tài liệu tham khảo Bình Định, tháng 07 năm 2017 Đỗ Đình Lân LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới TS Lê Quang Hùng tận tình bảo, hướng dẫn, động viên giúp đỡ suốt trình thực luậnvăn tốt nghiệp Tôi cảm ơn Thầy/Cô Trường Đại học Quy Nhơn tạo điều kiện thuận lợi cho học tập nghiêncứu Tôi xin gửi lời cảm ơn tới anh chị, bạnhọc viên lớp Cao họcKhoahọcmáy tính K18 - Trường Đại học Quy Nhơn hỗ trợ nhiều trình thực luậnvăn Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh: quan tâm, động viên suốt trình học tập thực luậnvăn tốt nghiệp Tôi xin chân thành cảm ơn! Bình Định, tháng 07 năm 2017 Đỗ Đình Lân MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt ACE IDF k-NN NER NP SVM TDT TF VP Cụm từ Automatic Content Extraction Inverse Document Frequency k Nearest Neighbours Name Entity Recognition Noun Phrase Support Vector Machine Topic Detection and Tracking Term Frequency Verb Pharse Ý nghĩa Trích chọn nội dung tự động Tần số tài liệu đảo ngược K láng giềng gần Nhận dạng thực thể tên Cụm danh từMáy véc-tơ hỗ trợ Phát theo dõi chủ đề Tần số từ Cụm động từ DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH LỜI MỞ ĐẦU Lí chọn đề tài Ngày nay, mạng Internet cung cấp cho người dùng lượng lớn thông tin tri thức Đặc biệt, năm gần số lượng người dùng mạng xã hội (social network) ngày tăng Họ dễ dàng trao đổi kinh nghiệm, thông tin, kiện giới thực điều họ quan tâm mạng Bởi tiện lợi, dễ dàng mà thông tin, kiện thường đăng tải mạng xã hội xảy Trong trang tin tức khác mạng thường đăng tải thông tin chậm Thậm chí, nhiều thông tin đăng tải trang mạng xã hội không đăng tải trang tin tức khác Tin tức, thông tin, kiện có giá trị cao truyền tải đến người dùng nhanh xác, đặc biệt thông tin, kiện liên quan đến an ninh - trị, kinh tế, đời sống, giáo dục, pháp luật, thể thao,… Vậy làm để phát hiện, tập hợp nhanh kiệntừvăn bản, trang tin tức trả lời câu hỏi “sự kiện gì? xảy đâu? thời gian nào? diễn biến kiện ” cho người dùng? Xuất pháttừ nhu cầu thực tiễn đó, lựa chọn thực đề tài “Phát kiệntừliệuvăn bản” Mục tiêu nghiêncứu Trong luậnvăn này, đặt mục tiêu: tìm hiểu toán phátkiệntừliệuvăn lựa chọn cách tiếp cận phù hợp để cài đặt thực nghiệm liệuvăn tiếng Việt 10 Bố cục luậnvăn Ngoài phần mở đầu kết luận, luậnvăn tổ chức thành chương với bố cục sau: Chương GIỚI THIỆU Chương luận văn, giới thiệu tổng quan lĩnh vực phát trích chọn kiện Sau đó, trình bày sơ lược toán phátkiệntừliệuvăn cần thiết nghiêncứukhoahọc thực tiễn Chương MỘT SỐ KỸ THUẬT PHÁTHIỆNSỰKIỆN Trong chương này, trình bày số cách tiếp cận toán phátkiệntừliệuvăn bao gồm: cách tiếp cận dựa luật, cách tiếp cận dựa họcmáy cách tiếp cận kết hợp luật họcmáy Chương 3: MÔ HÌNH PHÁTHIỆNSỰKIỆNTỪDỮLIỆUVĂNBẢN Trong chương cuối, tập trung phân tích làm rõ toán phátkiện Trình bày mô hình phương pháp giải toán phátkiệntừliệuvăn Cuối chương, trình bày phần thực nghiệm đánh giá kết 40 Là cách thể tin dạng véc-tơ mà không gian tập đặc trưng lựa chọn Ở đây, biểu diễn tin dạng véc-tơ đặc trưng = (w1,w2,…, wN), wi đại diện cho từ (term) xuất tin Trong thực nghiệm, tiến hành thực nghiệm dựa tiêu đề nội dung tin Do đó, sau xây dựng tập đặc trưng, đặc trưng véc-tơ hóa dựa tiêu đề nội dung tin tập đặc trưng trích xuất từ tiêu đề tin Sau đó, gán nhãn thủ công theo định dạng phù hợp với công cụ phân lớp vănsử dụng luậnvăn Cụ thể, thực nghiệm, sử dụng công cụ SVMLight làm công cụ phân loại văn Đối với công cụ SVMLight tiêu đề nội dung tin véctơ hóa nằm dòng file với định dạng sau: = : : … : Ví dụ: Với nội dung tin sau: “Tuyển_Việt_Nam hiện_tại mạnh, sau Thái_Lan phạm_vi khu_vực Đông_Nam Á Liên_đoàn bóng_đá Việt_Nam nên giữ Hữu_Thắng lại làm HLV trưởng đội_tuyển quốc_gia Cậu làm tốt công_việc thời_gian qua Hôm_nay, điều_chỉnh nhân_sự Hữu_Thắng hợp_lý hiệu_quả", ông Riedl chủ_động nói họp_báo sau trận đấu Mỹ_Đình tối 7/12 HLV Riedl đánh_giá cao công_việc mà học_trò cũ Hữu_Thắng làm cương_vị HLV tuyển Việt_Nam” Nội dung tin véc-tơ hóa dựa tập đặc trưng xây dựng sau: 41 1:1 766:0 767:0 2:0 3:0 4:1 5:0 … 8:1 9:1 10:1 768:0 Hình73.7 Véc-tơ hóa tập đặc trưng tiêu đề bản tin - Bước 5: Học phân lớp 11:1 … 42 Như Mục 3.1, phân lớp có nhiệm vụ phát tin có chứa kiện hay không Bộ phân lớp phân thành hai lớp: lớp có chứa kiện thể thao nhãn (1) lớp không chứa kiện thể thao nhãn (-1) Bản tin phân lớp Bản tin cần phân lớp Có chứa kiện Mô hình phân lớp Không chứa kiện Hình 3.8 Tiến trình phân lớp tin Với nhiệm vụ phân lớp tin, theo nghiêncứu có nhiều phương pháp họcmáy thống kê sử dụng cho mục đích là: Naive Bayes; phân loại Maximum Entropy; họcmáy giám sát SVM; định;…Trong luận văn, giải vấn mô hình máy véc-tơ hỗ trợ (SVM), cụ thể công cụ SVMLight để xác định tin có chứa kiện hay không SVMLight công cụ thực thi thuật toán SVM C Vapnik cho vấn đề nhận dạng mẫu, hồi quy học xếp loại Công cụ cung cấp phương pháp đánh giá hiệu suất cách hiệu SVMLight bao gồm module học (svm_learn) module phân loại (svm_classify) Module phân loại sử dụng để áp dụng mô hình học cho ví dụ 43 Tệp đầu vào chứa liệu huấn luyện véc-tơ hóa Dòng câu nhận xét bị bỏ qua chúng bắt đầu dấu # Mỗi dòng véc-tơ đại diện cho liệu huấn luyện Hình 3.9 Minh họa phân lớp công cụ SVMLight 3.2 Thực nghiệm 3.2.1 Dữliệu thực nghiệm Dữliệuluậnvănsử dụng tập tin miền liệu thể thao thu thập từ trang http://vnexpress.net Việc thu thập liệu thực phần mềm Teleport Pro Tập liệu sau gán nhãn gồm 750 tin Với 750 tin, chọn 500 tin làm liệu huấn luyện (2/3 tổng số tin), 250 tin lại làm liệu kiểm thử 3.2.2 Môi trường công cụ Cấu hình phần cứng công cụ phần mềm sử dụng để sử dụng thực nghiệm luậnvăn trình bày bảng (3.2) bảng (3.3) 44 Bảng 3.2 Cấu hình phần cứng Stt Thành phần CPU RAM OS HDD Chỉ số Intel core i5 2.5GH GB Windows 500 GB Bảng 3.3 Công cụ phần mềm sử dụng Stt Tên công cụ Teleport Pro Text processing tool vnTokenizer NetBeans IDE 7.4 SVMLight Chức Tải liệutự động từ trang web Tách nội dung trang web Tách từ, gán nhãn từ loại Môi trường để viết chương trình Công cụ phân loại văn 3.2.3 Cài đặt Dữliệu thực nghiệm thu phần mềm Teleport Pro, sau tiến hành lọc tin thuộc miền liệu thể thao Sau lọc liệu, tiến hành công đoạn: tiền xử lý; chuẩn hóa từ viết tắt; loại bỏ từ dừng;… Tiếp đến, đưa liệu qua công cụ vnTokenizer để tiến hành tách từ Chúng thực xây dựng tập đặc trưng theo phương pháp thủ công Tập đặc trưng trích xuất tập tiêu đề tin điện tử thuộc miền liệu thể thao thu thập trang http://vnexpress.net Quá trình trích chọn đặc trưng tiến hành thông qua loại bỏ từ dừng tiếng Việt Với 750 tin thuộc miền liệu thể thao, chọn 2/3 tin làm liệu huấn luyện , phần lại làm liệu kiểm thử Tiếp theo, tiến hành véc-tơ hóa văn gán nhãn thủ công theo định dạng liệu phù hợp với công cụ dùng để phân lớp SVM Light Sau cùng, dùng công cụ SVMLight để huấn luyện tập liệu phân lớp tin 45 3.3 Đánh giá Trong nghiêncứu chúng tôi, thực nghiệm phần tiêu đề tin phần nội dung tin Mục đích phân lớp phân loại tin có chứa kiện (1) tin không chứa kiện (-1) 3.3.1 Đánh giá trình phân lớp dựa tiêu đề tin Mục đích phần đánh giá trình phân lớp thực nghiệm dựa tiêu đề tin Dữliệu thực nghiệm dùng để đánh giá 250 tiêu đề 250 tin lấy từ lọc liệu sau gán nhãn Kết đánh giá trình bày bảng (3.4) Bảng 3.4 Đánh giá kết phân lớp dựa tiêu đề tin Số tin Số tin sai Độ xác (P) Độ bao phủ (R) Độ đo F-1 184 66 75,65 % 94,57 % 84,06 % Trong độ đo F1 tính theo công thức (3.1) (3.1) Kết thực nghiệm bảng (3.4), cho thấy trình phân lớp cho thấy độ xác P (Precision) đạt 75,65 %, độ đo bao phủ R (Recall) đạt 94,57 %, độ đo F-1 đạt 84,06 % 3.3.2 Đánh giá trình phân lớp dựa nội dung tin Mục đích phần đánh giá trình phân lớp thực nghiệm dựa nội dung tin Dữliệu thực nghiệm dùng để đánh giá nội dung 250 tin lấy từ lọc liệu sau gán nhãn Kết đánh giá trình bày bảng (3.5) Trong đó, độ đo F-1 tính theo công thức (3.1) 46 Bảng 3.5 Đánh giá kết phân lớp dựa nội dung tin Số tin 211 Số tin sai 39 Độ xác (P) 82,59 % Độ bao phủ (R) 100 % Độ đo F-1 90,46 % Kết thực nghiệm bảng (3.5), cho thấy trình phân lớp cho thấy độ đo P đạt 82,59 %, độ đo R đạt 100 %, độ đo F-1 đạt 90,46 % 3.3.3 So sánh - Bảng (3.6) so sánh kết đánh giá phân lớp dựa tiêu đề tin nội dung tin - Hình (3.10) so sánh hiệu phân lớp dựa tiêu đề tin nội dung tin Bảng 3.6 So sánh kết phân lớp dựa tiêu đề nội dung tin Tập đặc trưng Tiêu đề tin Nội dung tin Trung bình Độ xác (Precision) 75,65 % 82,59 % 79,12 % Độ bao phủ (Recall) 94,57 % 100 % 97,29 % Độ đo F-1 84,06 % 90,46 % 87,26 % 3.4 Nhận xét Từ kết phân lớp dựa tiêu đề nội dung tin, nhận thấy, thực phân lớp tin, kết đạt từ trình thực nghiệm phân lớp tin dựa nội dung cho kết khả quan so với thực phân lớp dựa tiêu đề tin 3.5 Kết luận chương Hình 3.10 So sánh kết phân lớp dựa tiêu đề nội dung tin 10 47 Trong chương này, đưa mô hình phátkiệntừliệuvăn bản, trình bày chi tiết bước thực để giải toán phátkiệntừ tin thể thao Chúng tiến hành thực nghiệm đánh giá kết mô hình phátkiệntừliệuvăn nói chung phátkiện thể thao nói riêng Kết thực nghiệm cho thấy tính khả thi mô hình giải toán phátkiệntừliệuvăn miền tin tức tiếng Việt 48 KẾT LUẬNPhátkiện đóng vai trò quan trọng lĩnh vực phát trích chọn kiện, kết trình phátkiện ảnh hưởng lớn đến trình trích chọn đầu vào cho trình trích chọn kiện Trong luậnvăn này, tiến hành nghiêncứu toán phátkiệntừliệuvăn Trình bày tổng quan lĩnh vực phát kiện, sở lý thuyết số cách tiếp cận phátkiện như: cách tiếp cận dựa luật, cách tiếp cận dựa họcmáy cách tiếp cận kết hợp luật họcmáyTừ đưa phương pháp giải toán kiện cho toán phátkiện thể thao Thực chất toán phátkiệntừliệuvăn toán phân lớp, cụ thể nghiêncứu toán phân lớp, lớp chứa kiện lớp không chứa kiện Kết thực nghiệm trình phátkiện miền liệu thể thao dựa nội dung tin với độ đo P đạt 82,59 %, độ đo R đạt 100 %, độ đo F-1 đạt 90,46 % chứng tỏ tính khả thi mô hình Bên cạnh kết đạt được, hạn chế mặt thời gian kiến thức, luậnvăn số hạn chế thiếu sót định Cụ thể là: tập từ điển xây dựng chưa bao phủ toàn miền liệu Điều dẫn đến lọc bỏ sót liệu liên quan tới miền liệu xét Trong tương lai, tiếp tục hoàn thiện mặt hạn chế, nghiêncứu tìm hiểu đưa giải pháp tốt cho toán phátkiệntừliệuvăn miền tin tức Tiếng Việt Đồng thời mở rộng miền liệu, không liệu tin tức từ báo mạng mà áp dụng miền liệu khác mạng xã hội, ghi kiện lĩnh vực: giao 49 thông; y tế; giáo dục; trị - xã hội;…Cùng với xây dựng chương trình phân tích trực quan hóa kiện hiệu quả, xác thân thiện với người dùng 50 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Ai Kawazoe Son Doan and Nigel Collier Global health monitor - a webbased system for detecting and mapping infectious diseases Proc International Joint Conference on Natural Language Processing (IJCNLP), Companion Volume,Hyderabad, India: pp 951 - 956, 2008 [2] Chinatsu Aone and Mila Ramos-Santacruz Rees: A large-scale relation and event extraction system In In: 6th Applied Natural Language Processing Conference (ANLP 2000):pp 76-83 Association for Computational Linguistics, 2000 [3] Frederik Hogenboom Jethro Borsje and Flavius Frasincar Semi-automatic financial events discovery based on lexico-semantic patterns International Journal of Web Engineering and Technology, 6(2):115 140, 2010 [4] Helen L Johnson Chris Roeder Philip V Ogren-William A Baumgartner Jr Elizabeth White Hannah Tipney K Bretonnel Cohen, Karin Verspoor and Lawrence Hunter High-precision biological event extraction with a concept recognizer In In: Workshop on BioNLP: Shared Task collocated with the NAACL-HLT 2009 Meeting pp 50-58 Association for Computational Linguistics, 2009 [5] Hristo Tanev Piskorski Jakub and Pinar Oezden Wennerberg Extracting violent events from on-line news for ontology population In: 10th International Conference on Business Information Systems (BIS 2007) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 4439:287 - 300, 2007 51 [6] Huanye Sheng Li Fang and Dongmo Zhang Event pattern discovery from the stock market bulletin In: 5th International Conference on Discovery Science (DS 2002) Lecture Notes in Computer Science, Springer-Verlag Berlin Heidelberg, vol 2534: 35 - 49, 2002 [7] James Allan, Ron Papka, and Victor Lavrenko, "On-line new event detection and tracking," in Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, New York, NY, USA, 1998 [8] Liang Xiang Xing Chen Mingrong Liu, Yicen Liu and Qing Yang Extracting key entities and significant events from online daily news In: 9th International Conference on Intel- ligent Data Engineering and Automated Learning (IDEAL 2008) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5326:201 - 209, 2008 [9] M.A Hearst Automatic acquisition of hyponyms from large text corpora In: 14th Conference on Computational Linguistics (COLING 1992), vol 2:539 - 545, 1992 [10] M.A Hearst Wordnet: An electronic lexical database and some of its applications In Automated Discovery of WordNet Relations, pp 131151 MITPress, 1998 [11] Okamoto Masayuki and Masaaki Kikuchi Discovering volatile events in your neighborhood: Local-area topic extraction from blog entries In: 5th Asia Information Retrieval Symposium (AIRS 2009) Lecture Notes in Computer Science Springer-Verlag Berlin Heidelberg, vol 5839:181192, 2009 52 [12] Ralph Grishman, Beth Sundheim, "Message understanding conference-6: a brief history," Proceedings of the 16th conference on Computational linguistics, vol 1, pp.466-471, 1996 [13] Ron Papka, James Allan “On-Line New Event Detection using Single Pass Clustering”, in Technical Report at University of Massachusetts Amherst, 1998, pp - 10 [14] S Soderland, “Learning information extraction rules for semi-structured and free text,” Machine Learning, vol 34, 1999 [15] Silja Huttunen Ralph Grishman and Roman Yangaber Information extraction for enhenced access to disease outbreak reports Journal of Biomedical Informastic, 35(4):pp 236 - 246, 2002 [16] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India [17] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and Stavroula Voyatzi A risk assessment system with automatic extraction of event types Intelligent Information Processing IV, IFIP International Federation for Information Processing Springer Boston, vol 288:220 - 229, 2008 [18] Vargas-Vera Maria and David Celjuska Event recognition on news stories and semi-automatic population of an ontology In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004) pp 615-618 , 2004 [19] Yea-Juan Chen Lee Chang-Shing and Zhi-Wei Jian Ontology-based fuzzy event extraction agent for chinese e-news summarization In Expert Systems with Applications 25(3), 431 - 447, 2003 53 [20] Yiming Y., Jaime C., Ralf B., Tom P., Brain T A., Xin L., "Learning approaches for Detecting and Tracking news events," Language Technologies Institute, Carnegie Mellon University, Pittsburgh, USA [21] Yiming Yang, Tom Pierce, and Jaime Carbonell, "A study of retrospective and online event detection," Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, no New York, NY, USA, pp 28-36, 1998 [22] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim Unsupervised event extraction from biomedical literature using cooccurrence information and basic patterns In: 1st International Joint Conference on Natural Language Processing (IJCNLP 2004) Lecture Notes in Computer Science SpringerVerlag Berlin Heidelberg, vol 3248:777 - 786, 2004 [23] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii Event extraction from biomedical papers using a full parser In In: 6th Pacific Symposium on Biocomputing (PSB 2001):pp 408 - 419, 2001 [24] Zhen Lei, Yanjie Jiang, Peng Zhao, and Jue Wang, "News event tracking using an improved hybrid of knn and svm," Springer, vol 56, no Communications in Computer and Information Science, pp 431-438, 2009 54 Tiếng Việt [25] Lê Mạnh Cường “Xâu chuỗi văn theo kiện”, Khóaluận tốt nghiệp đại học hệ quy, Đại Học Quốc Gia Hà Nội- trường Đại Học Công Nghệ, 2013 [26] Ngô Quang Hiểu “Phân tích trực quan hóa chuỗi kiện dạng hệ thống lifeflow”, Khóaluận tốt nghiệp đại học hệ quy, Đại Học Quốc Gia Hà Nội - Trường Đại Học Công Nghệ, 2013 [27] Nguyễn Minh Hoàng, Nguyễn Sỹ Quân, Ngô Quang Hiểu “Một phương pháp lai trích xuất kiện áp dụng vào hệ thống theo dõi tin tức trực tuyến NewSOMoni” công trình thi giải thưởng sinh viên nghiêncứukhoahọc 2012, Đại Học Quốc Gia Hà Nội - Trường Đại Học Công Nghệ [28] Nguyễn Minh Tiến “Trích chọn kiện dịch bệnh cho hệ thống giám sát trực tuyến”, Luậnvănthạcsĩ , Đại Học Quốc Gia Hà Nội- trường Đại Học Công Nghệ, 2011 [29] Phí Văn Thủy “Trích chọn kiện y sinh phức hợp dựa vào mô hình phân tích phụ thuộc văn bệnh ung thư di truyền”, Khóaluận tốt nghiệp đại học hệ quy, Đại Học Quốc Gia Hà Nội Trường Đại Học Công Nghệ, 2013 ... luận văn này, đặt mục tiêu: tìm hiểu toán phát kiện từ liệu văn lựa chọn cách tiếp cận phù hợp để cài đặt thực nghiệm liệu văn tiếng Việt 10 Bố cục luận văn Ngoài phần mở đầu kết luận, luận văn. .. hỏi“làm thể để phát văn có chứa kiện?” Đầu vào: Văn T (ví dụ: tin trang báo điện tử) Đầu ra: Văn T có chứa kiện hay không? Tức là, cho trước đầu vào văn bản, làm để phát văn có chứa kiện? Theo... đặc trưng văn • dl độ dài văn tính theo đơn vị từ • avg_dl số lượng trung bình đặc trưng văn Độ đo idf tính công thức (2.4): (2.4) Trong đó: • C số văn ngữ liệu chuẩn hóa • df số lượng văn có đặc