1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow

43 322 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 1,18 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Ngô Quang Hiểu PHÂN TÍCH TRỰC QUAN HÓA CHUỖI SỰ KIỆN DẠNG HỆ THỐNG LIFEFLOW KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2013 HÀ NỘI 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Ngô Quang Hiểu PHÂN TÍCH TRỰC QUAN HÓA CHUỖI SỰ KIỆN DẠNG HỆ THỐNG LIFEFLOW KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Vũ Ngọc Trình i Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn chân thành sâu sắc nhất đến PGS.TS Hà Quang Thụy, ThS. Vũ Tiến Trình, những người đã tận tình hướng dẫn, chỉ bảo tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin cảm ơn các thầy cô cán bộ của trường Đại học Công Nghệ đã dạy bảo cũng như tạo điều kiện cho tôi học tập nghiên cứu tại đây. Tôi cũng xin cảm ơn các anh chị, các bạn trong phòng thí nghiệm công nghệ tri thức KT-Lab đã giúp đỡ tôi rất nhiều trong việc hỗ trợ các vấn đề chuyên môn trong học tập trong quá trình thực hiện khóa luận. Tôi xin gửi lời cảm ơn đến các bạn trong lớp K54CD đã ủng hộ, khích lệ, giúp đỡ tôi rất nhiều trong quá trình học tập rèn luyện tại trường. Cuối cùng, tôi muốn gửi lời biết ơn vô hạn tới gia đình, bạn bè, người thân, đặc biệt là bố mẹ em gái tôi, những người luôn dành cho tôi sự yêu thương, tin tưởng, luôn sát cánh bên tôi, hỗ trợ về mọi mặt, khuyến khích ủng hộ để tôi có thể vượt qua những khó khăn đạt được những thành công trong học tập cuộc sống. Tôi xin chân thành cảm ơn! Hà Nội, ngày 10 tháng 5 năm 2013 Sinh viên Ngô Quang Hiểu ii TÓM TẮT NỘI DUNG Phân tích trích chọn chuỗi sự kiện là quá trình trích chọn thông tin trong các văn bản có chứa sự kiện, nhóm các văn bản cùng nói về một sự kiện thành chuỗi theo thứ tự thời gian. Đây là một bài toán có tính ứng dụng thực tiễn cao nên nó đã đang nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học, chẳng hạn tại các hội nghị khoa học quốc tế có uy tín như MUC (Message Understand Conference), chương trình TDT (Topic Detection Tracking), chương trình ACE (Automatic Content Extraction), tại các trung tâm nghiên cứu IBM, Microsoft… Đi cùng với bài toán trích chọn chuỗi sự kiện là việc trực quan hóa các chuỗi sự kiện trích chọn được. LifeFlow là một hệ thống trực quan hóa chuỗi sự kiện do Guerra- Gómez J. cộng sự (Đại học Maryland) nghiên cứu phát triển [1]. Hệ thống cho phép biểu diễn theo thời gian, thống kê, theo vết các chuỗi sự kiện rất hiệu quả. Khóa luận tốt nghiệp với đề tài “Phân tích trực quan hóa chuỗi sự kiện dạng hệ thống LifeFlow” nghiên cứu các vấn đề liên quan đến phân tích trích chọn chuỗi sự kiện đồng thời thực hiện trực quan hóa các chuỗi sự kiện này. Khóa luận trình bày một số hướng tiếp cận để giải quyết bài toán phân tích trích chọn chuỗi sự kiện, sau đó, đề xuất một phương pháp nhằm trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt. Phần cuối của khóa luận mô tả quá trình thực nghiệm với phương pháp đánh giá độ tương đồng kết hợp thông tin thời gian, địa điểm sau đó trực quan hóa bằng hệ thống LifeFlow. Từ khóa: chuỗi sự kiện, trích chọn chuỗi sự kiện, nhận dạng chuỗi sự kiện, phân tích chuỗi sự kiện, trực quan hóa chuỗi sự kiện iii Lời cam đoan Tôi xin cam đoan rằng, khóa luận tốt nghiệp với đề tài “Phân tích trực quan hóa chuỗi sự kiện dạng hệ thống LifeFlow” là công trình nghiên cứu của mình với sự giúp đỡ của giảng viên hướng dẫn là PGS.TS. Hà Quang Thụy. Các nội dung kết quả trong khóa luận này hoàn toàn là trung thực, được viết lại theo cách hiểu của bản thân sau quá trình nghiên cứu, thực nghiệm, không hề sao chép từ bất kì nguồn có sẵn nào. Tất cả các tài liệu tham khảo liên quan đều được trích dẫn trong danh sách các tài liệu tham khảo của khóa luận. Nếu phát hiện có bất kì sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trước hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình. Hà Nội, ngày 10 tháng 5 năm 2013 Sinh viên Ngô Quang Hiểu iv Nội Dung Lời cảm ơn i TÓM TẮT NỘI DUNG ii Lời cam đoan iii Danh sách hình vẽ bảng biểu vii Danh sách thuật toán . viii LỜI MỞ ĐẦU . 1 Chương 1 . 3 Tổng quan về phân tích trích chọn chuỗi sự kiện 3 1.1. Trích chọn thông tin 3 1.2. Trích chọn sự kiện . 3 1.2.1. Định nghĩa sự kiện 4 1.2.2. Trích chọn sự kiện 5 1.3. Phân tích trích chọn chuỗi sự kiện . 5 1.3.1. Phân tích chuỗi sự kiện tính thời sự . 5 1.3.2. Định nghĩa chuỗi sự kiện 5 1.3.3. Phát hiện sự kiện khởi đầu quyết định chuỗi . 6 1.3.4. Trực quan hóa chuỗi sự kiện . 7 1.4. Ý nghĩa ứng dụng của phân tích trực quan hóa chuỗi sự kiện 7 1.4.1. Ý nghĩa khoa học 7 1.4.2. Ứng dụng thực tiễn . 7 1.5. Khó khăn thách thức 7 1.6. Tóm tắt chương 1 8 Chương 2 9 Các hướng tiếp cận bài toán phân trích chọn chuỗi sự kiện 9 2.1. Hướng tiếp cận học máy . 9 2.1.1. Phương pháp k người láng giềng gần nhất k-NN 9 2.1.2. Phương pháp lai kNN-SVM . 11 v 2.2. Hướng tiếp cận sử dụng trọng số TF-IDF . 13 2.3. Hướng tiếp cận sử dụng thông tin thời gian- địa điểm . 14 2.3.1. Thông tin thời gian . 14 2.3.2. Thông tin địa điểm 15 2.4. Nhận xét đánh giá . 16 2.5. Tóm tắt chương 2 16 Chương 3 . 18 Phương pháp phân tích trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt . 18 3.1 Mô tả bài toán . 18 3.2 Phương pháp đề xuất . 18 3.2.1 Đánh giá độ tương đồng nội dung 20 3.2.2 Đánh giá độ tương đồng thời gian địa điểm . 20 3.2.3 Đánh giá độ tương đồng sự kiện 21 3.3 Mô hình giải quyết 22 3.3.1 Lưu trữ dữ liệu . 22 3.3.2 Trích chọn đặc trưng 24 3.3.3 Biểu diễn sự kiện 24 3.3.4 Phát hiện sự kiện khởi đầu . 24 3.3.5 Tính độ tương đồng sự kiện . 24 3.3.6 Quyết định chuỗi sự kiện . 25 3.3.7 Mô hình chuỗi sự kiện 25 3.4 Tóm tắt chương 3 25 Chương 4: 27 Thực nghiệm . 27 4.1. Phương pháp thực nghiệm 27 4.1.1. Phương pháp đánh giá 27 4.1.2. Chiến thuật thực nghiệm . 27 4.2. Môi trường thực nghiệm . 29 vi 4.2.1. Hệ thống phần cứng 29 4.2.2. Công cụ phần mềm . 29 4.3. Kết quả thực nghiệm đánh giá . 29 Tổng kết . 31 Tài liệu tham khảo 32 vii Danh sách hình vẽ bảng biểu Hình 2.1. Hệ thống trích chọn sự kiện áp dụng học máy ………………… 10 Hình 2.2. Mô tả dữ liệu âm dương ………………………………………. 11 Hình 2.3. Sự nhập nhằng của học máy SVM …………………………… 13 Hình 3.1. Mô hình đề xuất để giải quyết bài toán………………………… 24 Hình 3.2. Cấu trúc tệp dữ liệu sự kiện………………………………… . 26 Hình 3.3. Cấu trúc tệp thuộc tính sự kiện ……………………………… . 26 Hình 4.1. Giao diện hệ thống VnLoc …………………………………… 29 viii Danh sách thuật toán Thuật toán 1. Thuật toán trích chọn chuỗi sự kiện sử dụng KNN-SVM…… 14

Ngày đăng: 28/12/2013, 20:28

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Guerra- Gómez J., Wongsuphasawat K., Wang T., Pack M., Plaisant C., "LifeFlow: Visualizing an Overview of Event Sequences," Maryland, 2011 Sách, tạp chí
Tiêu đề: LifeFlow: Visualizing an Overview of Event Sequences
[2] Cowie J., Lehnert W., "Information extraction," ACM, vol. 99, no. Special natural language processing issu, pp. 80-91, 1996 Sách, tạp chí
Tiêu đề: Information extraction
[3] H. Galhardas, "Information Extraction tasks: a survey" Instituto Superior Técnico, INESC-ID, DMIR, L2F, 2006 Sách, tạp chí
Tiêu đề: Information Extraction tasks: a survey
[4] S. Sunita, "Infomation extraction," Foundation and Trend in Databases, Vols. 1 -No 3, pp. 261-377, 2007 Sách, tạp chí
Tiêu đề: Infomation extraction
[5] Ralph Grishman, Beth Sundheim, "Message understanding conference-6: a brief history," Proceedings of the 16th conference on Computational linguistics, vol. 1, pp.466-471, 1996 Sách, tạp chí
Tiêu đề: Message understanding conference-6: a brief history
[6] James Allan, Ron Papka, and Victor Lavrenko, "On-line new event detection and tracking," in Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, New York, NY, USA, 1998 Sách, tạp chí
Tiêu đề: On-line new event detection and tracking
[7] Heikki Mannila, Hannu Toivonen, A. Inkeri Verkamo, "Discovery of frequent episodes in event sequences," no. Data Min. Knowl. Discov., pp. 259-289, January 1997 Sách, tạp chí
Tiêu đề: Discovery of frequent episodes in event sequences
[8] R. Papka, Artist, On-line new event detection, clustering, and tracking. [Art]. Department of Computer Science, University of Massachusetts. AAI9950198, 1999 Sách, tạp chí
Tiêu đề: On-line new event detection, clustering, and tracking
[9] Yiming Yang, Tom Pierce, and Jaime Carbonell, "A study of retrospective and on- line event detection," Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, no. New York, NY, USA, pp. 28-36, 1998 Sách, tạp chí
Tiêu đề: A study of retrospective and on-line event detection
[10] S. H. Wim De Pauw, Writer, Zinsight: A Visual and Analytic Environment for Exploring Large Event Traces. [Performance]. IBM T.J. Watson Research Center, Hawthorne, NY 10532, 2010 Sách, tạp chí
Tiêu đề: Zinsight: A Visual and Analytic Environment for Exploring Large Event Traces
[11] Yiming Y., Jaime C., Ralf B., Tom P., Brain T. A., Xin L., "Learning approaches for Detecting and Tracking news events," Language Technologies Institute, Carnegie Mellon University, Pittsburgh, USA Sách, tạp chí
Tiêu đề: Learning approaches for Detecting and Tracking news events
[12] Zhen Lei, Yanjie Jiang, Peng Zhao, and Jue Wang, "News event tracking using an improved hybrid of knn and svm," Springer, vol. 56, no. Communications in Computer and Information Science, pp. 431-438, 2009 Sách, tạp chí
Tiêu đề: News event tracking using an improved hybrid of knn and svm
[13] Zhen Lei, Ling-da Wu, Ying Zhang, and Yu-chi Liu, "A system for detecting and tracking internet news event," in Proceedings of the 6th Pacific-Rim conference on Advances in Multimedia Information Processing - Volume Part I, vol. 1, Berlin, Heidelberg, Springer-Verlag, 2005, pp. 754-764 Sách, tạp chí
Tiêu đề: A system for detecting and tracking internet news event
[14] J. M. Schultz, M. Liberman, "Topic detection and tracking using idf-weighted cosine coefficient," Proceedings of the DARPA Broadcast News Workshop, pp. 189-192, 1999 Sách, tạp chí
Tiêu đề: Topic detection and tracking using idf-weighted cosine coefficient
[15] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, and Xuan-Hieu Phan, in The Fourth International Conference on Knowledge and Systems Engineering, KSE'12, Ha Noi, 2012 Sách, tạp chí
Tiêu đề: The Fourth International Conference on Knowledge and Systems Engineering, KSE'12
[16] M. S. Heikki Mannila, "Finding Simple Intensity Descriptions from Event," in ACM, University of Helsinki, Finland, 2001 Sách, tạp chí
Tiêu đề: Finding Simple Intensity Descriptions from Event
[17] N. K. J. C. M. Naughtonand, "Event Extraction from Heterogeneous News Sources," in AAAI, University College Dublin, Ireland, 2006 Sách, tạp chí
Tiêu đề: Event Extraction from Heterogeneous News Sources
[18] Guerra- Gómez J., Wongsuphasawat K., Wang T., Pack M., Plaisant C., "ANALYZING INCIDENT MANAGEMENT EVENT SEQUENCES WITH&#34 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Mô tả của một chuỗi sự kiện - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 1.1 Mô tả của một chuỗi sự kiện (Trang 16)
Hình 2.1. Hệ thống trích chọn sự kiện áp dụng học máy - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 2.1. Hệ thống trích chọn sự kiện áp dụng học máy (Trang 19)
Hình 2.2. Mô tả dữ liệu âm dương - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 2.2. Mô tả dữ liệu âm dương (Trang 20)
Hình 2.3: Sự nhập nhằng của học máy SVM - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 2.3 Sự nhập nhằng của học máy SVM (Trang 22)
Hình 3.1: Mô hình đề xuất để giải quyết bài toán - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 3.1 Mô hình đề xuất để giải quyết bài toán (Trang 33)
Hình 3.3: Cấu trúc tệp thuộc tính sự kiện - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 3.3 Cấu trúc tệp thuộc tính sự kiện (Trang 35)
Hình 3.2: Cấu trúc tệp dữ liệu sự kiện - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 3.2 Cấu trúc tệp dữ liệu sự kiện (Trang 35)
Hình 4.1: Giao diện hệ thống VnLoc - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Hình 4.1 Giao diện hệ thống VnLoc (Trang 38)
Bảng 4.1: Thông số phần cứng của hệ thống thực nghiệm - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Bảng 4.1 Thông số phần cứng của hệ thống thực nghiệm (Trang 39)
Bảng 4.3: Các độ đo khi tiến hành thực nghiệm với 10 sự kiện. - Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow
Bảng 4.3 Các độ đo khi tiến hành thực nghiệm với 10 sự kiện (Trang 40)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w