Kết quả thực nghiệm phân lớp

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter (Trang 59 - 65)

Kết quả thực nghiệm với mô hình 10 cross-validation sau khi chạy thuật toán như sau - Lần 1

Class Train Test Precision Recall Accuracy

politics 2809 315 0.834 0.794

0.724

sport 5846 648 0.904 0.916

startup 3495 405 0.734 0.694

- Lần 2

Class Train Test Precision Recall Accuracy

politics 2809 315 0.936 0.957

0.854

sport 5846 648 0.881 0.868

startup 3495 405 0.767 0.884

Class Train Test Precision Recall Accuracy politics 2809 315 0.936 0.951 0.759 sport 5846 648 0.803 0.923 startup 3495 405 0.892 0.857 - Lần 4

Class Train Test Precision Recall Accuracy

politics 2809 315 0.734 0.758

0.809

sport 5846 648 0.884 0.856

startup 3495 405 0.809 0.794

- Lần 5

Class Train Test Precision Recall Accuracy

politics 2809 315 0.634 0.734

0.740

sport 5846 648 0.754 0.816

startup 3495 405 0.834 0.694

- Lần 6

Class Train Test Precision Recall Accuracy

politics 2809 315 0.834 0.734

0.784

sport 5846 648 0.814 0.836

startup 3495 405 0.704 0.719

- Lần 7

Class Train Test Precision Recall Accuracy

politics 2809 315 0.834 0.734

0.824

sport 5846 648 0.904 0.916

startup 3495 405 0.734 0.694

- Lần 8

Class Train Test Precision Recall Accuracy

sport 5846 648 0.693 0.716 0.759

startup 3495 405 0.804 0.784

- Lần 9

Class Train Test Precision Recall Accuracy

politics 2809 315 0.734 0.714

0.790

sport 5846 648 0.804 0.856

startup 3495 405 0.834 0.794

- Lần 10

Class Train Test Precision Recall Accuracy

politics 2809 315 0.758 0.764 0.737 sport 5846 648 0.804 0.917 startup 3495 405 0.714 0.724 Tổng hợp 10 lần kiểm tra K-Fold Accuracy 1 0.724 2 0.854 3 0.759 4 0.809 5 0.740 6 0.784 7 0.824 8 0.759 9 0.790 10 0.737 Trung bình 0.778

Vậy trung bình sau 10-fold Cross Validation thuật toán Multinomial Naive Bayes áp dụng trên tập dữ liệu có 18012 tweet thu được độ chính xác xấp xỉ 77.8%

3.4 Kết luận chương

Trong chương này em đã nêu ra các bước để xử lý các tweet để lần lượt thực hiện việc trích xuất và phân loại sự kiện trên tập dữ liệu 18.012 tweet đã thu thập. Quá trình thực hiện trích xuất sự kiện được trình thể hiện rõ các kết quả trung gian mà tweet đã được xử lý. Bên cạnh đó kết quả của quá trình phân loại đạt độ chính xác xấp xỉ 77,8% đã chứng tỏ ưu điểm của phương pháp Nave Bayes là dễ thực thi mà vẫn đảm bảo độ chính xác cao.

Trong khóa luận này, đánh giá thuật toán phân loại chỉ dựa trên tập dữ liệu huấn luyện và kiểm thử đã thu thập được theo những chủ đề xác định, điều đó vẫn chưa hoàn toàn thể hiện tính chính xác của việc phân loại nội dung tweet với nhiều chủ đề khác nhau. Vì thế, việc mở rộng phạm vi miền chủ đề cần được mở rộng và hướng đến trích xuất và phân loại sự kiện theo miền tri thức mở không giới hạn theo chủ đề có sẵn. Sau khi kết thúc khóa luận, em sẽ cố gắng tiếp tục phần nghiên cứu này để có được phương pháp trích xuất và phân loại có độ chính xác cao hơn phù hợp với dữ liệu tweet.

KẾT LUẬN VÀ KIẾN NGHỊ

Trong cuộc sống hàng ngày, lượng thông tin khổng lồ đến từ mạng xã hội thực sự là một nguồn tri thức rất quý giá. Các hệ thống trích xuất và phân loại thông tin cụ thể là các sự kiện từ nội dung tin nhắn giúp làm giảm sự quá tải về mặt thông tin và làm tăng hiệu quả của quá trình tiếp nhận thông tin của con người giúp đưa ra những quyết định tốt nhất. Phân loại và trích xuất sự kiện dựa trên dữ liệu, cụ thể là mô hình Naive Bayes là một trong các cách tiếp cận thành công nhất để xây dựng các hệ thống phân loại.

Kỹ thuật trích xuất và phân lớp sự kiện từ Twitter cũng mở ra những hướng nghiên cứu mới như theo dõi sự kiện từ Twitter, phân tích đánh giá của cộng đồng về những vấn đề như chính trị, ứng dụng phát hiện và cảnh báo thảm họa... Tuy nhiên, với sự phát triển về số lượng cũng như sự đa dạng của dữ liệu, thì trích xuất sự kiện phải có khả năng tận dụng được nguồn thông tin giàu ngữ cảnh của Twitter. Khác với văn bản truyền thống, tin nhắn tweet có chứa nhiều đường link hoặc các thông tin đa phương tiện đính kèm. Đã có nhiều nghiên cứu được thực hiện tìm hiểu thông tin profile người dùng để xác định địa điểm của sự kiện hay đường link được đính kèm để trích xuất thêm nhiều thông tin hữu ích khác. Vì vậy trích xuất sự kiện từ Twitter sẽ tiếp tục phát triển theo hướng phân tích dữ liệu đa phương tiện trong trương lai.Mặc dù, kỹ thuật trích xuất sự kiện đã đạt được một số kết quả, nhưng trong mạng xã hội Twitter thì còn rất nhiều thách thức. Thách thức lớn nhất đó là, việc xây dựng tập dữ liệu huấn luyện cho thuật toán từ các nguồn dữ liệu: hồ sơ cá nhân người dùng, các tweet của người dùng, số lượng người dùng follow….

TÀI LIỆU THAM KHẢO

[1]. Aslam, Salman, 2018 Twitter by the Numbers: Stats, Demographics

[2]. Laney, D (February 2001), 3D data management: Controlling data volume, velocity, and variety.

[3]. J. Allan, R. Papka, and V. Lavrenko (1998), On-line new event detection and tracking.

[4]. D. S. Weld, R. Hoffmann, and F. Wu (2009), Using wikipedia to bootstrap open information extraction.

[5]. J. Pustejovsky, P. Hanks, R. Sauri, A. See, R. Gaizauskas, A. Setzer, D. Radev, B. Sundheim, D. Day, L. Ferro, and M. Lazo (2003). The TIMEBANK corpus. In Proceedings of Corpus Linguistics.

[6]. Sundheim., R. Grishman and B (1996), In Proceedings of the International Conference on Computational Linguistics.

[7]. G. Doddington, A. Mitchell, M. Przybocki, L. Ramshaw, S. Strassel, and R. Weischedel (2004), The Automatic Content Extraction (ACE) Program–Tasks, Data, and Evaluation.

[8]. E. Gabrilovich, S. Dumais, and E. Horvitz (2004), Newsjunkie: providing personalized newsfeeds via analysis of information novelty.

[9]. Jurafsky, N. Chambers and D (2011), Template-based information extraction without the templates In Proceedings of ACL.

[10]. J. Leskovec, L. Backstrom, and J. Kleinberg (2009), Meme-tracking and the dynamics of the news cycle.

[11]. J. Lin, R. Snow, and W. Morgan (2011), Smoothing techniques for adaptive online language models: Topic tracking in tweet streams.

[12]. F. M. Zanzotto, M. Pennaccchiotti, and K. Tsioutsiouliklis (2011), Linguistic redundancy in Twitter.

[13]. K. Gimpel, N. Schneider, B. O’Connor, D. Das,D. Mills, J. Eisenstein, M. Heilman, D. Yogatama,J. Flanigan, and N. A. Smith (2011). Part-of-speech tagging for twitter: Annotation, features, and experiments.

[14]. X. Liu, S. Zhang, F. Wei, and M. Zhou (2011), Recognizing named entities in tweets.

[15]. A. Ritter, S. Clark, Mausam, and O. Etzioni (2011). Named entity recognition in tweets: An experimental study.

[16]. E. Benson, A. Haghighi, and R. Barzilay (2011). Event discovery in social media feeds.

[17]. T. Sakaki, M. Okazaki, and Y. Matsuo (2010) Earthquake shakes twitter users: real-time event detection by social sensors.

[18]. S. Petrovic, M. Osborne, and V. Lavrenko (2010). Streaming first story detection with application to twitter.

[19]. H. Becker, M. Naaman, and L. Gravano (2011). Beyond trending topics: Real-world event identification on twitter.

[20]. A.-M. Popescu, M. Pennacchiotti, and D. A. Paranjpe (2011). Extracting events and event descriptions from twitter.

[21]. Pennacchiott, A.-M. Popescu and M (2011). Dancing with the stars, nba games, politics: An exploration of twitter users’ response to events.

[22]. Tanev, H., Piskorski, J., Atkinson Real-Time News Event Extraction for Global Crisis Monitoring.

[23]. Nishihara, Y., Sato, K., Sunayama. (2009). Event Extraction and Visualization for Obtaining Personal Experiences from Blogs.

[24]. A. Ritter, S. Clark, Mausam, and O. Etzioni (2011). Twitter_NLP (https://github.com/aritter/twitter_nlp).

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter (Trang 59 - 65)

Tải bản đầy đủ (PDF)

(65 trang)