Bằng trực quan, ta có thể thấy một tweet có thực sự hữu ích hay không phụ thuộc vào nhiều yếu tố, cơ bản là phân tích nội dung của các thông tin được người viết đăng tải, việc dựa trên nội dung của bài viết đó có lẽ sẽ rất khó khăn với trường hợp của Twitter, vì sự giới hạn của 140 ký tự, nên hầu hết các bài viết trên Twitter đều ngắn gọn, phi hình thức, không có cấu trúc ngữ pháp rõ ràng và thông tin bị nhiễu rất nhiều. Những phương pháp này sẽ không mang lại hiệu quả khả quan cho mục đích của phân tích dữ liệu Twitter.
Hiện nay, đã có rất nhiều ứng dụng xác định thông tin dịch bệnh dựa trên hệ tìm kiếm trên mạng internet.... Tuy nhiên, hầu hết các phương pháp đó đều không mang đầy đủ tính chất các mối quan hệ trong mạng, hoặc chỉ dựa trên những lần tìm kiếm thông tin trên mạng. Phương pháp được đề xuất trong luận văn này không dựa trên hệ tìm kiếm trên internet, mà phân tích dữ liệu trên mạng xã hội Twitter, việc sử dụng phân tích dữ liệu trên mạng xã hội Twitter, do có số lượng người truy cập nhiều, môi trường thân thiện, tính cập nhật liên tục và nhanh chóng, việc phân tích dữ liệu cụ thể nội dung được đăng tải trên Twitter nhằm mục đích lấy được tất cả các thông tin hữu ích, để cải thiện hiệu quả của việc xác định thông tin dịch bệnh.
CHƯƠNG 2 – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ XÁC ĐỊNH THÔNG TIN DỊCH BỆNH TRÊN TWITTER
Với sự gia tăng đột biến về dung lượng thông tin số cũng như sự đa dạng của các ứng dụng Web, thì yêu cầu lọc thông tin một cách hiệu quả và có thể tin cậy là cần thiết. Một giải pháp hữu hiệu đã được áp dụng trong những năm gần đây đó chính là phân tích dữ liệu tìm kiếm trên các công cụ tìm kiếm có số lượng truy cập nhiều như: google, facebook, twitter... Ở bất kỳ đâu, chúng ta cũng bắt gặp những đoạn tìm kiếm hay những status trên mạng xã hội: đang có dịch ebola, tôi đang bị cúm, bán trà thảo dược phòng chống cúm... Vậy việc phân tích văn bản như vậy được xem như một hệ thống lọc tích cực, có chức năng hỗ trợ đưa ra quyết định, nhằm mục đích cung cấp cho người sử dụng những gợi ý phù hợp nhất với yêu cầu và sở thích riêng của từng người tại từng tình huống (ngữ cảnh) với các yêu cầu cụ thể.
Bài toán được đặt ra trong kỹ thuật này như sau: Có C người dùng truy cập vào mạng xã hội Twitter đăng tải status với rất nhiều nội dung về dịch bệnh và cụ thể trong luận văn của em sẽ lấy những nội dung liên quan đến cúm với ngôn ngữ tiếng anh như:
Tweet#1: Today I do not go to work, because I feel headache, cough and runny or stuffy nose. I think I have the flu.
Tweet#2: Our company is selling tea to improve health, relieve cough symptoms, and fight the flu.
Như đã nhìn thấy ở trên, cả 2 Tweet đều có nội dung nói đến cúm(flu), và các triệu chứng. Dựa vào kỹ thuật phân lớp văn bản xác định được Tweet#1 là Tweet có nội dung nói đến người đang bị bệnh cúm và Tweet#1 là Tweet thực sự bị cúm. Và Tweet#2 sẽ được phân thành loại không bị cúm.
Từ đó việc thu thập rồi tổng hợp các Tweet mà mọi người đề cập đến những từ liên quan đến cúm trong mẩu tin của họ để tìm ra có nhiều người thực sự bị cúm ở một vùng nào đó thì đưa cảnh báo đang có dịch bệnh.
Một phương pháp để giải quyết bài toán này là sử dụng phương pháp phân lớp văn bản, gán nhãn phân loại lên một văn bản mới dựa trên mức độ tương tư của văn bản đó so với các văn bản đã được ghi nhãn trong tập huấn luyện.
Luận văn này trình bày các vấn đề liên quan đến phân loại văn bản và ứng dụng của nó trong việc xác định thông tin dịch bệnh(cúm) trên Twitter. Một giải thuật sẽ được áp dụng cho việc xác định thông tin dịch bệnh, đó là giải thuật Naive Bayes.