Kết quả thực nghiệm và đánh giá

Một phần của tài liệu Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow (Trang 39 - 43)

Kết thúc quá trình phân tích và trích chọn chuỗi sự kieenjm kết quả thu được qua 10 sự kiện mẫu với độ chính xác trung bình 75.21% và độ đo F1 là 74.56%. Đây là một kết quả khả quan, chứng tỏ phương pháp sử dụng độ đo tương đồng kết hợp thơng tin thời gian- địa điểm áp dụng trên miền tin tức tiếng Việt là đúng đắn. Kết quả cụ thể được mơ tả ở bảng 4.3 dưới đây.

30

Bảng 4.3: Các độ đo khi tiến hành thực nghiệm với 10 sự kiện.

STT Tên Độ chính xác Độ hồi tưởng Độ đo F

1 Sự kiện 1 73.33%% 68.75% 71.04% 2 Sự kiện 2 80.95% 77.27% 79.11% 3 Sự kiện 3 75.00% 70.56% 72.78% 4 Sự kiện 4 78.57% 73.33% 75.95% 5 Sự kiện 5 72.73% 72.73% 72.73% 6 Sự kiện 6 70.83% 73.91% 72.42% 7 Sự kiện 7 76.31% 78.38% 77.34% 8 Sự kiện 8 78.79% 74.28% 76.53% 9 Sự kiện 9 76.19% 76.19% 76.19% 10 Sự kiện 10 69.44% 73.52% 71.48% Trung Bình 75.21% 73.89% 74.56%

31

Tổng kết

Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm cĩ thể khẳng định rằng, bài tốn phân tích và trực quan hĩa chuỗi sự kiện cĩ vai trị quan trọng trong nhiều lĩnh vực của cuộc sống. Việc phân tích chuỗi sự kiện đưa đến cho ta khai được các thơng tin giá trị từ nguồn dữ liệu to lớn, từ đĩ cĩ thể trực quan hĩa, đem lại cho người dung cái nhìn tổng quát đối với các sự kiện, chuỗi sự kiện.

Sự đa dạng của các thuật tốn phân lớp, phân cụm dữ liệu khiến cho việc lựa chọn một thuật tốn để giải quyết vấn đề trở nên khĩ khăn hơn. Khĩa luận đã tiếp cận vấn đề nĩi trên và nghiên cứu các thuật tốn ở các gĩc độ khác nhau của bài tốn để đưa ra một phương pháp mà tác giả coi là tốt nhất để áp dụng vào phân tích trích chọn chuỗi sự kiện trên miền tin tức tiếng Việt.

Về mặt nội dung, khĩa luận đã đạt được những kết quả sau:

 Nghiên cứu bài tốn phân tích và trích chọn chuỗi sự kiện: các khái niệm, các hướng tiếp cận bài tốn, đánh giá các giải pháp đã được đưa ra trong các tài liệu tham khảo. Khĩa luận đã tập hợp và trình bày một số phương pháp phổ biến đã được áp dụng để giải quyết bài tốn phân tích và trích chọn sự kiện, chuỗi sự kiện. Tiếp đĩ trình bày ưu nhược điểm của từng phương pháp, phân tích đánh giá để đưa ra phương án tốt nhất nhằm áp dụng cho bài tốn trên dữ liệu tiếng Việt.

 Xây dựng chương trình phân tích, trích chọn chuỗi sự kiện được viết trên ngơn ngữ Java kết hợp trực quan hĩa các thơng tin phân tích được trên cơng cụ

EventFlow

Bên cạnh đĩ, do thời gian cĩ hạn và kiến thức chưa đầy đủ, khĩa luận vẫn cịn tồn tại một vài hạn chế.

 Việc nhận dạng sự kiện khởi đầu cịn phải thực hiện bằng tay nên làm giảm đáng kể hiệu xuất và chưa thể tự động hĩa để áp dụng trên một hệ thống tự động.

 Hiệu suất trích chọn chuỗi sự kiện chưa thật sự tốt, kết quả này sẽ làm cho quá trình phân tích, thống kê và trực quan hĩa cĩ những sai sĩt đáng kể. Trong tương lai, người thực hiện khĩa luận sẽ tiếp tục hồn thiện các mặt cịn hạn chế, nghiên cứu và tìm tịi để cĩ thể đưa ra được giải pháp tốt hơn cho bài tốn phân tích và trích chọn cũng như trực quan hĩa chuỗi sự kiện áp dụng cho ngơn ngữ tiếng Việt. Đồng thời mở rộng miền dữ liệu, khơng chỉ dữ liệu tin tức từ các báo mạng mà sẽ áp dụng trên miền dữ liệu khác như mạng xã hội, bản ghi sự kiện trong lĩnh vực giao thơng, y tế, máy chủ phục vụ… Cùng với đĩ là xây dựng được các chương trình phân tích và trực quan hĩa sự kiện hiệu quả, chính xác và thân thiện với người dùng.

32

Tài liệu tham khảo

[1] Guerra- Gĩmez J., Wongsuphasawat K., Wang T., Pack M., Plaisant C., "LifeFlow: Visualizing an Overview of Event Sequences," Maryland, 2011.

[2] Cowie J., Lehnert W., "Information extraction," ACM, vol. 99, no. Special natural language processing issu, pp. 80-91, 1996.

[3] H. Galhardas, "Information Extraction tasks: a survey" Instituto Superior Técnico,

INESC-ID, DMIR, L2F, 2006.

[4] S. Sunita, "Infomation extraction," Foundation and Trend in Databases, Vols. 1 -No 3, pp. 261-377, 2007.

[5] Ralph Grishman, Beth Sundheim, "Message understanding conference-6: a brief history," Proceedings of the 16th conference on Computational linguistics, vol. 1, pp. 466-471, 1996.

[6] James Allan, Ron Papka, and Victor Lavrenko, "On-line new event detection and tracking," in Proceedings of the 21st annual international ACM SIGIR conference on

Research and development in information retrieval, New York, NY, USA, 1998.

[7] Heikki Mannila, Hannu Toivonen, A. Inkeri Verkamo, "Discovery of frequent episodes in event sequences," no. Data Min. Knowl. Discov., pp. 259-289, January 1997.

[8] R. Papka, Artist, On-line new event detection, clustering, and tracking. [Art]. Department of Computer Science, University of Massachusetts. AAI9950198, 1999. [9] Yiming Yang, Tom Pierce, and Jaime Carbonell, "A study of retrospective and on- line event detection," Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, no. New York, NY, USA, pp. 28-36, 1998.

[10] S. H. Wim De Pauw, Writer, Zinsight: A Visual and Analytic Environment for Exploring Large Event Traces. [Performance]. IBM T.J. Watson Research Center, Hawthorne, NY 10532, 2010.

33

[11] Yiming Y., Jaime C., Ralf B., Tom P., Brain T. A., Xin L., "Learning approaches for Detecting and Tracking news events," Language Technologies Institute, Carnegie Mellon University, Pittsburgh, USA. (adsbygoogle = window.adsbygoogle || []).push({});

[12] Zhen Lei, Yanjie Jiang, Peng Zhao, and Jue Wang, "News event tracking using an improved hybrid of knn and svm," Springer, vol. 56, no. Communications in Computer and Information Science, pp. 431-438, 2009.

[13] Zhen Lei, Ling-da Wu, Ying Zhang, and Yu-chi Liu, "A system for detecting and tracking internet news event," in Proceedings of the 6th Pacific-Rim conference on

Advances in Multimedia Information Processing - Volume Part I, vol. 1, Berlin,

Heidelberg, Springer-Verlag, 2005, pp. 754-764.

[14] J. M. Schultz, M. Liberman, "Topic detection and tracking using idf-weighted cosine coefficient," Proceedings of the DARPA Broadcast News Workshop, pp. 189-192, 1999.

[15] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, and Xuan-Hieu Phan, in The Fourth International Conference on Knowledge and Systems Engineering, KSE'12, Ha Noi, 2012.

[16] M. S. Heikki Mannila, "Finding Simple Intensity Descriptions from Event," in ACM, University of Helsinki, Finland, 2001.

[17] N. K. J. C. M. Naughtonand, "Event Extraction from Heterogeneous News Sources," in AAAI, University College Dublin, Ireland, 2006.

[18] Guerra- Gĩmez J., Wongsuphasawat K., Wang T., Pack M., Plaisant C., "ANALYZING INCIDENT MANAGEMENT EVENT SEQUENCES WITH".

Một phần của tài liệu Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow (Trang 39 - 43)