1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter

62 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 736 KB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TẠ QUANG LONG LUẬN VĂN THẠC SĨ KỸ THUẬT XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER HÀ NỘI - 2018 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - TẠ QUANG LONG LUẬN VĂN THẠC SĨ KỸ THUẬT XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER CHUN NGÀNH : HỆ THỐNG THƠNG TIN MÃ SỐ : 8.48.01.04 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS TỪ MINH PHƯƠNG HÀ NỘI - 2018 MỤC LỤC DANH MỤC BẢNG DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC TRƯNG 10 1.1 Giới thiệu mạng xã hội Twitter 11 1.2 Các đặc trưng thông tin Twitter 11 1.3 Mối quan hệ người dùng mạng Twitter 15 1.4 Tại lại sử dụng mạng xã hội Twitter, mà không dùng mạng xã hội khác 17 1.5 Các ứng dụng phân tích dịch bệnh từ nguồn liệu khác 18 1.5.1 Ứng dụng Google Flu Trends 19 1.5.2 Trung tâm kiểm soát dịch bệnh (CDC) 22 1.6 Kết luận chương 23 CHƯƠNG – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ 24 XÁC ĐỊNH THÔNG TIN DỊCH BỆNH TRÊN TWITTER 24 2.1 Tiền xử lý liệu (văn bản) 25 2.1.1 Dữ liệu thô/gốc: 25 2.1.2 Chất lượng liệu (data quality): 25 2.1.3 Chất lượng liệu (data quality): 25 2.1.4 Chất lượng liệu (data quality): 26 2.1.5 Các kỹ thuật tiền xử lý liệu: 26 2.2 Biểu diễn văn dạng vector 28 2.3 Giới thiệu phân loại văn số phương pháp phân loại văn 31 2.3.1 Bài toán phân loại văn 31 2.3.2 Một số phương pháp phân loại văn bản: 33 2.3.2.3 Thuật toán K-NN (K – Nearest Neighbor) 36 2.3.2.4 Phương pháp SVM (Support Vector Machine) 38 2.6 Kết luận chương 45 CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ 46 3.1 Thu thập liệu thử nghiệm 46 3.2 Đánh giá phương pháp phân loại văn bản: 50 3.3 Ứng dụng mơ thuật tốn 53 3.4 Kết luận chương 55 DANH MỤC TÀI LIỆU THAM KHẢO 58 DANH MỤC BẢNG Số hiệu bảng Tên bảng Trang 3.1 Dữ liệu người dùng sở liệu 45 3.2 Các tweet thu thập sở liệu 46 3.3 Phân chia tập huấn luyện tâp kiểm thử 46 3.4 Thống kê tập liệu huấn luyện 47 3.5 Gán nhãn cho tập kiểm thử 48 3.6 File lưu liệu huấn luyện 48 3.7 File lưu liệu kiểm thử 49 3.8 Đánh giá thuật toán sau lần kiểm thử 49 3.9 Biểu đồ so sánh kết sau lần thử nghiệm 50 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các cụm từ, ký hiệu Ý nghĩa NB Naive Bayet NBL Naive Bayet Classifier CDC Trung tâm kiểm soát dịch bệnh K-NN K – Nearest Neighbor SVM Support Vector Machine IDF Inverse Document Frequency TF Term Frequency DANH MỤC HÌNH VẼ Số hiệu hình vẽ 1.1 1.2.1 Tên hình vẽ Các Tweets chia sẻ người dùng Quan hệ người dùng hiển thị tweet theo mối Trang quan hệ 1.2.2 Tweet có chứa hashtag nội dung 1.2.3 Người dùng Twitter mention người 1.2.4 Nếu ký hiệu mention sử dụng đầu tweet, ý nghĩa hành động reply 1.3 Mối quan hệ người dùng mạng Twitter 12 1.5.1 Biểu đồ ứng dụng Google Flu Trends 17 1.5.2 Biểu đồ dịch bệnh theo website CDC 19 2.1.1 Các bước tiền xử lý liệu 23 2.2.1 Biểu diễn văn dạng vector 25 2.2.2 Văn biểu diễn đặc C-D-E 26 2.3.1 Mô hình giai đoạn huấn luyện 31 2.3.2 Mơ hình giai đoạn phân lớp 32 2.3.3 Mơ hình Thuật tốn định 36 2.3.4 Mơ hình Thuật tốn K – Nearest Neighbor 37 2.3.5 Phương pháp SVM 38 3.1 Định dạng lưu liệu sau tiền xử lý 47 3.2 Ứng dụng phân tích xác định dịch bệnh 51 Twitter 3.3 Phân tích liệu hiển thị Heatmap 51 3.4 Kết phân tích liệu Twitter 52 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tìm hiểu riêng Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác HỌC VIÊN Tạ Quang Long MỞ ĐẦU Ngày nay, mạng xã hội ngày phát triển để kết nối thành viên sở thích Internet lại với với nhiều mục đích khác khơng phân biệt khơng gian thời gian Có thể nói, mơ hình trình phát triển giao tiếp mạng, đơn giản hoá phương thức tương tác kết nối người với Mạng xã hội xuất lần năm 1995 với đời trang Classmate với mục đích kết nối bạn học, xuất SixDegrees vào năm 1997 với mục đích giao lưu kết bạn dựa theo sở thích Hiện giới có hàng trăm mạng xã hội khác nhau, trong mạng xã hội phát triển nhanh thành công có mặt muộn, Twitter Hai mạng xã hội phát triển nhanh có mặt muộn Năm 2004, Facebook mắt Ban đầu địa dành cho sinh viên đại học kết nối chia sẻ Ngay sau đời trụ sở trường đại học danh tiếng Harvard, Facebook có tới 19.500 sinh viên đăng kí tháng Tuy mạng xã hội tiếng thời điểm Facebook, MySpace, năm sau Twitter kịp thời đời, ghi dấu mốc quan trọng trình phát triển mạng xã hội Tại thời điểm năm 2008, giây người dùng Twitter đăng lên 3.283 thông điệp Thông qua mạng xã hội mà tin nhắn nhắn mẩu tin chia sẻ số lượng lớn người dùng chế tin nhắn đơn giản Với số lượng người sử dụng lên đến 500 triệu người, cho phép người dùng chia sẻ thông tin thông qua việc đăng tin nhắn phạm vi giới hạn 140 ký tự, gọi tweet status Lượng tweet người dùng đăng lên hàng ngày lớn, lên đến 340 triệu tweets ngày, kèm với lượng thông tin khổng lồ chia sẻ cập nhật Mỗi người dùng lựa chọn theo dõi cá nhân tổ chức đó, mà người quan tâm, ngược lại theo dõi người dùng khác, Twitter hiển thị tweet đăng tải cá nhân tổ chức mà người dùng theo dõi, theo thứ tự thời gian đăng tweet Nghiên cứu cho thấy tweet đăng Twitter có chứa nhiều loại thơng tin, có thơng tin tình hình sức khỏe người đăng tải Ví dụ như: Tơi bị đau đầu, ho sốt tuần Các thông tin có dạng trực tiếp, chẳng hạn báo rõ số lượng bệnh tăng, gián tiếp, chẳng hạn người dùng than phiền tình trạng sức khoẻ Bài tốn đặt phải lọc tweet có nội dung liên quan đến dịch bệnh cụ thể bệnh cúm đưa vào phân tích luận văn em dựa vào kỹ thuật phân lớp văn Việc phát phân tích tweet cho phép phát sớm tình trạng bùng phát dịch bệnh cộng đồng dân cư đóng vai trị kênh thơng tin quan trọng hỗ trợ y tế cộng đồng Một vấn đề đặt số lượng tweet tăng lên cách chóng mặt, người dùng theo dõi nhiều cá nhân tổ chức khác vấn đề lớn mà họ gặp phải q tải thơng tin Rất nhiều thơng tin hữu ích bị tweet khác cập nhật làm đẩy lùi tweet trước đó, tweet khơng phải thơng tin thực cần thiết mà người dùng quan tâm Đồng thời, toán khác quan tâm nhiều người dùng muốn biết có dịch bệnh (cúm, cúm A(h7n9), h5n1, sars, ebola, dịch tả…) vùng gần, nơi mà họ sinh sống, làm việc, du lịch… để tránh đến có biện pháp phịng tránh kịp thời cho họ người xung quanh họ Có thể lấy ví dụ sau: Tweet#1: Today I not go to work, because I feel headache, cough and runny or stuffy nose I think I have the flu Tweet#2: Our company is selling tea to improve health, relieve cough symptoms, and fight the flu Như nhìn thấy trên, Tweet có nội dung nói đến cúm(flu), triệu chứng Dựa vào kỹ thuật phân lớp văn xác định Tweet#1 Tweet có nội dung nói đến người bị bệnh cúm Tweet#1 Tweet thực bị cúm Do vậy, Twitter có nhiều thơng tin bệnh cúm khó phân biệt đâu trường hợp mắc bệnh cúm thực Từ việc thu thập Tweet mà người đề cập đến từ liên quan đến cúm mẩu tin họ, hệ thống xử lý thông tin giúp sàng lọc thông tin bệnh cúm thực loại bỏ thơng tin khác để tìm có nhiều người thực bị cúm, dựa vào số lượng người bị vị trí địa lý lấy từ đưa cảnh báo có dịch bệnh vùng Chính vậy, việc giám sát dịch bệnh, cụ thể dịch cúm nhằm cung cấp cho người dùng tweet hữu dụng vấn đề vô quan trọng Một kỹ thuật sử dụng phổ biến mang lại hiệu cao kỹ thuật phân lớp văn bản, đề tài luận văn em tập trung vào tìm hiểu kỹ thuật phân lớp văn này, dựa tính cá nhân hóa người dùng Twitter nhằm đưa kết phân tích tốt dịch cúm Giải pháp thử nghiệm liệu thực thu thập từ Twitter Nội dung luận văn bố cục thành chương sau:  Chương – MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC TRƯNG Giới thiệu chương: Giới thiệu mạng xã hội Twitter, khái niệm đặc trưng mạng xã hội này, bao gồm mối quan hệ mạng, tác nhân ảnh hưởng trực tiếp đến cá nhân người dùng, cách thức đăng tải thông tin thông qua Twitter Giới thiệu cách thức tư vấn áp dụng cho Twitter hạn chế phương pháp  Chương – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ ÁP DỤNG XÁC ĐỊNH DỊCH BỆNH TRÊN TWITTER Giới thiệu chương: Trình bày tổng quan kỹ thuật phân lớp văn áp

Ngày đăng: 05/10/2023, 14:06

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Các Tweets được chia sẻ bởi một người dùng. - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Hình 1.1 Các Tweets được chia sẻ bởi một người dùng (Trang 12)
Hình 1.2.1 Quan hệ người dùng và hiển thị tweet theo mối quan hệ đó - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Hình 1.2.1 Quan hệ người dùng và hiển thị tweet theo mối quan hệ đó (Trang 14)
Hình vẽ 2.2.1: Biểu diễn văn bản bằng hai đặc trưng đồng thời - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Hình v ẽ 2.2.1: Biểu diễn văn bản bằng hai đặc trưng đồng thời (Trang 30)
Hình vẽ 2.2.2: văn bản biểu diễn bằng ba đặc trưng C-E-D - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Hình v ẽ 2.2.2: văn bản biểu diễn bằng ba đặc trưng C-E-D (Trang 30)
Hình 2.1.1: Mô hình giai đoạn huấn luyện - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Hình 2.1.1 Mô hình giai đoạn huấn luyện (Trang 34)
Hình 2.1.2: Mô hình giai đoạn phân lớp - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Hình 2.1.2 Mô hình giai đoạn phân lớp (Trang 35)
Bảng 3.1 Dữ liệu người dùng trong cơ sở dữ liệu - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Bảng 3.1 Dữ liệu người dùng trong cơ sở dữ liệu (Trang 50)
Bảng 3.2 Các tweet thu thập được trong cơ sở dữ liệu - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Bảng 3.2 Các tweet thu thập được trong cơ sở dữ liệu (Trang 51)
Bảng 3.3 Phân chia tập huấn luyện và tâp kiểm thử - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Bảng 3.3 Phân chia tập huấn luyện và tâp kiểm thử (Trang 51)
Bảng 3.4. Thống kê tập dữ liệu huấn luyện - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Bảng 3.4. Thống kê tập dữ liệu huấn luyện (Trang 53)
Hình 3.9. Biểu đồ so sánh kết quả sau 5 lần thử nghiệm - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Hình 3.9. Biểu đồ so sánh kết quả sau 5 lần thử nghiệm (Trang 56)
Hình 3.3 Phân tích dữ liệu và hiển thị heatmap - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Hình 3.3 Phân tích dữ liệu và hiển thị heatmap (Trang 57)
Hình 3.2 Ứng dụng phân tích và xác định dịch bệnh trên Twitter - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Hình 3.2 Ứng dụng phân tích và xác định dịch bệnh trên Twitter (Trang 57)
Hình 3.4 Kết quả phân tích dữ liệu trên Twitter - (Luận văn) xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter
Hình 3.4 Kết quả phân tích dữ liệu trên Twitter (Trang 58)
w