Dựa vào dữ liệu đã thu thập được thông qua các API do Twitter cung cấp, chia dữ liệu thành hai tập huấn luyện và kiểm thử với lượng dữ liệu tương ứng là 5000 tweet và 1000 tweet. Sử dụng dữ liệu ngẫu nhiên trong tập kiểm thử để tiến hành phân tích và xác định dịch bệnh.
Hình 3.2 Ứng dụng phân tích và xác định dịch bệnh trên Twitter
Sau khi phân tích dữ liệu từ twitter, sẽ hiển thị Heatmap[20] hay còn gọi là bản đồ nhiệt ở những nơi bị bệnh cúm trên Google Map. Ở những nơi có nhiều người bị cúm thì màu nhiệt sẽ đậm hơn.
Hình 3.4 Kết quả phân tích dữ liệu trên Twitter
Trên hình 3.3 sẽ hiển thị những tweet bị cúm được nhóm theo location(vị trí) bao gồm: hình ảnh, tên và nội dung. Ở mỗi tweet khi click vào tên người đăng tweet sẽ hiển thị tọa độ của người đó trên Google Map[21].
Ngoài ra, ứng dụng cho phép người dùng mới có thể được tư vấn trực tuyến bằng cách đăng nhập vào tài khoản Twitter và cấp quyền truy cập thông tin người dùng thông qua OAuth API, ứng dụng được triển khai và có khả năng truy cập tại địa chỉ http://codextension.com/twitter_project/. Với mỗi người dùng mới đăng nhập hệ thống, toàn bộ thông tin người dùng sẽ được sử dụng như một phần dữ liệu huấn luyện, người dùng sau khi được tư vấn sẽ có thể đưa ra đánh giá những tweet nào trong danh sách bị cúm.
3.4 Kết luận chương
Mặc dù tập dữ liệu thu thập chưa đủ lớn, chỉ dựa trên 5000 tweet huấn luyện và 1000 tweet kiểm thử, sự khác biệt trong kết quả đánh giá cũng cho thấy số lượng tweet kiểm thử càng nhiều thì tính chính xác càng cao. Với mỗi tweet được đăng tải
sẽ có nội dung khác nhau, việc tách từ và phân lớp văn bản dựa vào những đặc trưng trên mỗi tweet cũng có ý nghĩa quan trọng trong việc phân tích và xác định dịch bệnh.
Trong khóa luận này, đánh giá thuật toán trong việc phân tích và xác định dịch bệnh trên Twitter chỉ dựa trên tập dữ liệu huấn luyện và kiểm thử đã thu thập được, điều đó vẫn chưa hoàn toàn thể hiện tính chính xác trong quá trình phân tích, do thông tin của mỗi tweet là hỗn đỗn, nếu chỉ dựa vào các triệu chứng thì không đủ, vì triệu chứng với ngữ cảnh khác nhau thì không phản ánh được người đăng tweet bị cúm. Vì thế, việc đánh giá trực tuyến là hoàn toàn cần thiết để đưa ra độ chính xác cao hơn, người dùng sẽ trực tiếp xem các tweet được đăng lên có nội dung liên quan đến cúm dựa vào các triệu chứng, và xem đó có đúng là một tweet có bị cúm thực sự không. Sau khi kết thúc khóa luận, em sẽ cố gắng tiếp tục nghiên cứu đề tài này về các phương pháp phân loại văn bản để có được các con số thuyết phục hơn cho từng phương pháp.
KẾT LUẬN VÀ KIẾN NGHỊ
Trong cuộc sống hàng ngày, người dùng thường vào các trang mạng xã hội đọc và đăng tải lên thông tin xung quanh họ bao gồm thông tin về sức khỏe của người dùng, và người thân...Ứng dụng phân tích và xác định thông tin dịch bệnh giúp phân loại các tweet được đăng tải lên có thông tin liên quan đến sức khỏe cụ thể là cúm, cùng với vị trí địa lý và số lượng người bị để thông báo thành dịch. Ứng dụng nhằm hỗ trợ cho người dùng biết được những khu vực đang có dịch cúm để phòng tránh, và giảm thiểu rủi ro.
Nghiên cứu về phân tích và xác định thông tin dịch bệnh nói chung và bệnh cúm nói riêng là một việc có ý nghĩa rất lớn trong cuộc sống hàng ngày của con người. Sau một thời gian làm việc, luận văn tốt nghiệp “ Phân tích và xác định thông tin dịch bệnh trên Twitter” đã đạt được những kết quả sau:
- Tìm hiểu và thu thập dữ liệu text là các đăng tải của người dùng về thông tin về cúm trên Twitter.
- Tìm hiểu đặc điểm của tiếng Việt từ đó đưa ra những biện pháp xử lý để có được một bộ dữ liệu chuẩn.
- Nghiên cứu và tổng hợp các phương pháp phân lớp văn bản dựa trên các đặc trưng của dữ liệu.
- Thực nghiệm so sánh độ chính xác của phân lớp dựa trên các đặc trưng dữ liệu bằng phương pháp học máy.
- Xây dựng chương trình: Phân tích và xác định dịch bệnh trên Twitter.
Mặc dù, kỹ thuật phân lớp văn bản bằng Naive Bayes đã đạt được một số kết quả, nhưng trong mạng xã hội Twitter, sử dụng phân lớp bằng phương pháp Naive Bayes thì vẫn còn rất nhiều thách thức. Thách thức lớn nhất đó là, việc xây dự tập dữ liệu huấn luyện cho thuật toán từ các nguồn dữ liệu: các tweet được đăng tải lên Twitter.
DANH MỤC TÀI LIỆU THAM KHẢO
[1] Akshay Java, Xiaodan Song, Tim Finin, and Belle Tseng. Why we
twitter: understanding microblogging usage and communities. In Proceedings
of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web-mining and social network analysis - WebKDD/SNA-KDD '07, pages 56-65,New York, New York, USA, August 2007. ACM Press
[2] Arman Suleimenov. Twitter news: Harnessing Twitter to build an article recommendation system.
[3] Dena Asta and Cosma Shalizi. 2012. Identifying in- fluenza trends via Twitter. In NIPS Workshop on So- cial Network and Social Media Analysis: Methods, Models and Applications
[4] Denis Parra, Alexandros Karatzoglou, Idil Yavuz and Xavier Amatriain(2011). Implicit Feedback Recommendation via Implicit-to-Explicit
Ordinal Logistic Regression Mapping. Chicago, Illinois, USA 2011.
[5] Shane Bergsma, Matt Post, and David Yarowsky. 2012. Stylometric analysis of scientific articles. In Proc. NAACL-HLT, pages 327–337.
[6] O. Biran and O. Rambow. 2011. Identifying justifi- cations in written dialogs. In Semantic Computing (ICSC), 2011 Fifth IEEE International
Conference on, pages 162–168. IEEE.
[7] J. Bollen, A. Pepe, and H. Mao. 2011. Modeling pub- lic mood and emotion: Twitter sentiment and socio- economic phenomena. In Proceedings of the Fifth In- ternational AAAI Conference on Weblogs and Social Media, pages 450–453.
[8] John S. Brownstein, Clark C. Freifeld, Emily H. Chan, Mikaela Keller, Amy L. Sonricker, Sumiko R. Mekaru, and David L. Buckeridge. 2010. Information tech- nology and global surveillance of cases of 2009 h1n1 influenza. New England Journal of Medicine, 362(18):1731–1735.
[9] Naive-Bayes Classification Algorithm.
http://software.ucv.ro/~cmihaescu/ro/teaching/AIR/docs/Lab4-NaiveBayes.pdf
[10] N. Collier. 2012. Uncovering text mining: A survey of current work on web-based epidemic intelligence. Global Public Health, 7(7):731–749. [11] Samantha Cook, Corrie Conrad, Ashley L. Fowlkes, and Matthew H. Mohebbi. 2011. Assessing google flu trends performance in the united states during the 2009 influenza virus a (h1n1) pandemic. PLOS ONE, 6(8):e23610. [12] A. Culotta. 2010a. Towards detecting influenza epi- demics by analyzing Twitter messages. In ACM Work- shop on Soc.Med. Analytics.
[13] Aron Culotta. 2010b. Detecting influenza epidemics by analyzing Twitter messages. arXiv:1007.4748v1 [cs.IR], July.
[14] S. Doan, L. Ohno-Machado, and N. Collier. 2012. Enhancing Twitter data analysis with simple semantic filtering: Example in tracking influenza- like illnesses. arXiv preprint arXiv:1210.0848.
[15] Mark Dredze, Michael J. Paul, Shane Bergsma, and Hieu Tran. 2013. A Twitter geolocation system with applications to public health. Working paper [16] Twitter Counter. http://twittercounter.com/pages/100.
[17] Twitter Developers. https://dev.twitter.com. [18] Twitter4J API. http://twitter4j.org/en/.
[19] PHP:Hypertext Preprocessor http://php.net/manual/en/intro-whatis.php
[20] Heatmap library javascript
https://www.patrick-wied.at/static/heatmapjs
[21] Geocoding is the process of converting addresses
https://developers.google.com/maps/documentation/geocoding/intro
[22] W. Hsu, A. King, M. Paradesi, T. Pydimarri, and T. Weninger.
Collaborative and structural recommendation of friends using weblog-based
social network analysis. In AAAI Spring Symposium Series, 2006.
[23] Y. Hu, Y. Koren, and C. Volinsky(2008). Collaborative filtering for implicit feedback datasets.