Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
2,37 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TẠ QUANG LONG LUẬN VĂN THẠC SĨ KỸ THUẬT XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER HÀ NỘI - 2018 Luan van HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TẠ QUANG LONG LUẬN VĂN THẠC SĨ KỸ THUẬT XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ : 8.48.01.04 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS TỪ MINH PHƯƠNG HÀ NỘI - 2018 Luan van MỤC LỤC DANH MỤC BẢNG DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC TRƯNG 10 1.1 Giới thiệu mạng xã hội Twitter 11 1.2 Các đặc trưng thông tin Twitter 11 1.3 Mối quan hệ người dùng mạng Twitter 15 1.4 Tại lại sử dụng mạng xã hội Twitter, mà không dùng mạng xã hội khác 17 1.5 Các ứng dụng phân tích dịch bệnh từ nguồn liệu khác 18 1.5.1 Ứng dụng Google Flu Trends 19 1.5.2 Trung tâm kiểm soát dịch bệnh (CDC) 22 1.6 Kết luận chương 23 CHƯƠNG – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ 24 XÁC ĐỊNH THÔNG TIN DỊCH BỆNH TRÊN TWITTER 24 2.1 Tiền xử lý liệu (văn bản) 25 2.1.1 Dữ liệu thô/gốc: 25 2.1.2 Chất lượng liệu (data quality): 25 2.1.3 Chất lượng liệu (data quality): 25 2.1.4 Chất lượng liệu (data quality): 26 2.1.5 Các kỹ thuật tiền xử lý liệu: 26 2.2 Biểu diễn văn dạng vector 28 2.3 Giới thiệu phân loại văn số phương pháp phân loại văn 31 Luan van 2.3.1 Bài toán phân loại văn 31 2.3.2 Một số phương pháp phân loại văn bản: 33 2.3.2.3 Thuật toán K-NN (K – Nearest Neighbor) 36 2.3.2.4 Phương pháp SVM (Support Vector Machine) 38 2.6 Kết luận chương 45 CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ 46 3.1 Thu thập liệu thử nghiệm 46 3.2 Đánh giá phương pháp phân loại văn bản: 50 3.3 Ứng dụng mơ thuật tốn 53 3.4 Kết luận chương 55 DANH MỤC TÀI LIỆU THAM KHẢO 58 Luan van DANH MỤC BẢNG Số hiệu bảng Tên bảng Trang 3.1 Dữ liệu người dùng sở liệu 45 3.2 Các tweet thu thập sở liệu 46 3.3 Phân chia tập huấn luyện tâp kiểm thử 46 3.4 Thống kê tập liệu huấn luyện 47 3.5 Gán nhãn cho tập kiểm thử 48 3.6 File lưu liệu huấn luyện 48 3.7 File lưu liệu kiểm thử 49 3.8 Đánh giá thuật toán sau lần kiểm thử 49 3.9 Biểu đồ so sánh kết sau lần thử nghiệm 50 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các cụm từ, ký hiệu Ý nghĩa NB Naive Bayet NBL Naive Bayet Classifier CDC Trung tâm kiểm soát dịch bệnh K-NN K – Nearest Neighbor SVM Support Vector Machine IDF Inverse Document Frequency TF Term Frequency Luan van DANH MỤC HÌNH VẼ Số hiệu hình vẽ 1.1 1.2.1 Tên hình vẽ Các Tweets chia sẻ người dùng Quan hệ người dùng hiển thị tweet theo mối Trang quan hệ 1.2.2 Tweet có chứa hashtag nội dung 1.2.3 Người dùng Twitter mention người 1.2.4 Nếu ký hiệu mention sử dụng đầu tweet, ý nghĩa hành động reply 1.3 Mối quan hệ người dùng mạng Twitter 12 1.5.1 Biểu đồ ứng dụng Google Flu Trends 17 1.5.2 Biểu đồ dịch bệnh theo website CDC 19 2.1.1 Các bước tiền xử lý liệu 23 2.2.1 Biểu diễn văn dạng vector 25 2.2.2 Văn biểu diễn đặc C-D-E 26 2.3.1 Mơ hình giai đoạn huấn luyện 31 2.3.2 Mơ hình giai đoạn phân lớp 32 2.3.3 Mơ hình Thuật tốn định 36 2.3.4 Mơ hình Thuật tốn K – Nearest Neighbor 37 2.3.5 Phương pháp SVM 38 3.1 Định dạng lưu liệu sau tiền xử lý 47 3.2 Ứng dụng phân tích xác định dịch bệnh 51 Twitter 3.3 Phân tích liệu hiển thị Heatmap 51 3.4 Kết phân tích liệu Twitter 52 Luan van LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tìm hiểu riêng Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác HỌC VIÊN Tạ Quang Long Luan van MỞ ĐẦU Ngày nay, mạng xã hội ngày phát triển để kết nối thành viên sở thích Internet lại với với nhiều mục đích khác khơng phân biệt khơng gian thời gian Có thể nói, mơ hình q trình phát triển giao tiếp mạng, đơn giản hoá phương thức tương tác kết nối người với Mạng xã hội xuất lần năm 1995 với đời trang Classmate với mục đích kết nối bạn học, xuất SixDegrees vào năm 1997 với mục đích giao lưu kết bạn dựa theo sở thích Hiện giới có hàng trăm mạng xã hội khác nhau, trong mạng xã hội phát triển nhanh thành cơng có mặt muộn, Twitter Hai mạng xã hội phát triển nhanh có mặt muộn Năm 2004, Facebook mắt Ban đầu địa dành cho sinh viên đại học kết nối chia sẻ Ngay sau đời trụ sở trường đại học danh tiếng Harvard, Facebook có tới 19.500 sinh viên đăng kí tháng Tuy khơng phải mạng xã hội tiếng thời điểm Facebook, MySpace, năm sau Twitter kịp thời đời, ghi dấu mốc quan trọng trình phát triển mạng xã hội Tại thời điểm năm 2008, giây người dùng Twitter đăng lên 3.283 thông điệp Thông qua mạng xã hội mà tin nhắn nhắn mẩu tin chia sẻ số lượng lớn người dùng chế tin nhắn đơn giản Với số lượng người sử dụng lên đến 500 triệu người, cho phép người dùng chia sẻ thông tin thông qua việc đăng tin nhắn phạm vi giới hạn 140 ký tự, gọi tweet status Lượng tweet người dùng đăng lên hàng ngày lớn, lên đến 340 triệu tweets ngày, kèm với lượng thông tin khổng lồ chia sẻ cập nhật Mỗi người dùng lựa chọn theo dõi cá nhân tổ chức đó, mà người quan tâm, Luan van ngược lại theo dõi người dùng khác, Twitter hiển thị tweet đăng tải cá nhân tổ chức mà người dùng theo dõi, theo thứ tự thời gian đăng tweet Nghiên cứu cho thấy tweet đăng Twitter có chứa nhiều loại thơng tin, có thơng tin tình hình sức khỏe người đăng tải Ví dụ như: Tơi bị đau đầu, ho sốt tuần Các thơng tin có dạng trực tiếp, chẳng hạn báo rõ số lượng bệnh tăng, gián tiếp, chẳng hạn người dùng than phiền tình trạng sức khoẻ Bài tốn đặt phải lọc tweet có nội dung liên quan đến dịch bệnh cụ thể bệnh cúm đưa vào phân tích luận văn em dựa vào kỹ thuật phân lớp văn Việc phát phân tích tweet cho phép phát sớm tình trạng bùng phát dịch bệnh cộng đồng dân cư đóng vai trị kênh thơng tin quan trọng hỗ trợ y tế cộng đồng Một vấn đề đặt số lượng tweet tăng lên cách chóng mặt, người dùng theo dõi nhiều cá nhân tổ chức khác vấn đề lớn mà họ gặp phải tải thơng tin Rất nhiều thơng tin hữu ích bị tweet khác cập nhật làm đẩy lùi tweet trước đó, tweet khơng phải thông tin thực cần thiết mà người dùng quan tâm Đồng thời, toán khác quan tâm nhiều người dùng muốn biết có dịch bệnh (cúm, cúm A(h7n9), h5n1, sars, ebola, dịch tả…) vùng gần, nơi mà họ sinh sống, làm việc, du lịch… để tránh đến có biện pháp phòng tránh kịp thời cho họ người xung quanh họ Có thể lấy ví dụ sau: Tweet#1: Today I not go to work, because I feel headache, cough and runny or stuffy nose I think I have the flu Tweet#2: Our company is selling tea to improve health, relieve cough symptoms, and fight the flu Như nhìn thấy trên, Tweet có nội dung nói đến cúm(flu), Luan van triệu chứng Dựa vào kỹ thuật phân lớp văn xác định Tweet#1 Tweet có nội dung nói đến người bị bệnh cúm Tweet#1 Tweet thực bị cúm Do vậy, Twitter có nhiều thơng tin bệnh cúm khó phân biệt đâu trường hợp mắc bệnh cúm thực Từ việc thu thập Tweet mà người đề cập đến từ liên quan đến cúm mẩu tin họ, hệ thống xử lý thông tin giúp sàng lọc thông tin bệnh cúm thực loại bỏ thông tin khác để tìm có nhiều người thực bị cúm, dựa vào số lượng người bị vị trí địa lý lấy từ đưa cảnh báo có dịch bệnh vùng Chính vậy, việc giám sát dịch bệnh, cụ thể dịch cúm nhằm cung cấp cho người dùng tweet hữu dụng vấn đề vô quan trọng Một kỹ thuật sử dụng phổ biến mang lại hiệu cao kỹ thuật phân lớp văn bản, đề tài luận văn em tập trung vào tìm hiểu kỹ thuật phân lớp văn này, dựa tính cá nhân hóa người dùng Twitter nhằm đưa kết phân tích tốt dịch cúm Giải pháp thử nghiệm liệu thực thu thập từ Twitter Nội dung luận văn bố cục thành chương sau: Chương – MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC TRƯNG Giới thiệu chương: Giới thiệu mạng xã hội Twitter, khái niệm đặc trưng mạng xã hội này, bao gồm mối quan hệ mạng, tác nhân ảnh hưởng trực tiếp đến cá nhân người dùng, cách thức đăng tải thông tin thông qua Twitter Giới thiệu cách thức tư vấn áp dụng cho Twitter hạn chế phương pháp Chương – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ ÁP DỤNG XÁC ĐỊNH DỊCH BỆNH TRÊN TWITTER Giới thiệu chương: Trình bày tổng quan kỹ thuật phân lớp văn áp Luan van 45 2.6 Kết luận chương Xuất phát từ nhu cầu thực tế, việc xác định dịch bệnh đưa cảnh báo cần thiết, twitter quan tâm nhiều, đồng thời nhiều thuật toán giới thiệu nhằm nâng cao hiệu cho việc phân loại liệu Trong luận văn này, em tìm hiểu sử dụng kỹ thuật phân loại văn naive bayes để xác định dịch cúm Twitter cách xác Với số đặc thù mạng xã hội Twitter lượng người dùng nhiều, thông tin liên tục cập nhật gặp số giới hạn nội dung, chứa nhiều thông tin báo văn bản, việc xác định sở thích người dùng tìm thơng tin tương ứng để phục vụ việc xác định dịch bệnh chủ yếu dựa vào đặc trưng liên quan đến dịch bệnh thông qua việc phân tích liệu Nhằm mục đích đưa thuật toán xác định dịch bệnh hiệu nhất, em tìm hiểu đề xuất thuật tốn naive bayes, áp dụng tập liệu v đánh giá mức độ xác thuật toán hiệu tập liệu lớn Twitter p hương pháp kết đánh giá trình bày chi tiết chương 3, Thử nghiệm đánh giá Luan van 46 CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ Sử dụng thư viện có sẵn Twitter cung cấp, thực xây dựng liệu từ liệu thực tế có Twitter cho số lượng người dùng, sử dụng kỹ thuật phân loại liệu naive bayes đề xuất chương để xác định dịch bệnh cách xác Đánh giá kết so với phương pháp khác, so với cách làm việc Twitter để cung cấp tweet cho người dùng 3.1 Thu thập liệu thử nghiệm Để xây dựng ứng dụng xác định dịch bệnh Twitter, bước cần thu thập liệu, sau chia thành hai tập: tập huấn luyện tập kiểm thử Do có nhiều người sử dụng twitter nên lượng thông tin vô lớn, hỗn độn phức tạp Vì khó để có tập liệu có sẵn đáp ứng yêu cầu cho ứng dụng Twitter cung cấp loạt giao diện lập trình ứng dụng cho phép truy vấn thông tin người dùng sau cấp quyền, truy vấn có liệu trả dạng JSON[4] Ví dụ với truy vấn lấy tất tweet người dùng, kết trả dạng JSON sau: Luan van 47 _[created_at] => Tue Nov 06 09:16:16 +0000 2018 [id] => 1059736211898728449 [id_str] => 1059736211898728449 [full_text] => Had crazy baby fever this weekend Someone have my baby and never talk to me again [source] => Twitter for iPhone [in_reply_to_status_id] => [in_reply_to_status_id_str] => [in_reply_to_user_id] => [in_reply_to_user_id_str] => 10 [in_reply_to_screen_name] => 11 [user] => stdClass Object 12 ( 13 [id] => 3357265553 14 [id_str] => 3357265553 15 [name] => reactionary girl utena 16 [screen_name] => femme_fatigue 17 [location] => Paris, France 18 [description] => i would like to be excluded from this narrative 19 [profile_background_image_url] => http://abs.twimg.com/images/themes/theme1/bg.png 20 [profile_background_image_url_https] => https://abs.twimg.com/images/themes/theme1/bg.png 21 ) 22 [coordinates] => 23 [place] => 24 [lang] => en Bảng 3.1 Dữ liệu người dùng sở liệu Để thuận tiện trình thu thập liệu, lưu trữ tiền xử lý liệu, ứng dụng viết ngôn ngữ PHP[19], sử dụng thư viện từ developer twitter[17] để thực truy vấn liệu Twitter Thông qua status cung cấp Twitter, tiến hành thu thập liệu đủ lớn để xây dựng tập huấn luyện, với mục đích thử nghiệm thuật tốn, lấy thông tin 1000 status trực tiếp từ Twitter Để có thơng tin 1000 status này, ban đầu lưu trữ dạng cron job ngày, ngày khoảng 50-70 tweet tất người dùng khác Dev Twitter hầu hết trả location(địa chỉ)của người đăng tweet, em phải làm thêm bước chuyển đổi từ location sang tọa độ dựa vào thư viện developers.google.com, để phục vụ cho việc hiển thị google map sau Luan van 48 Chúng ta có tập liệu tweet sau: Bảng 3.2 Các tweet thu thập sở liệu Toàn liệu chia thành tập tập huấn luyện tập kiểm thử, tập lớn tập huấn luyện, bao gồm 5000 tweet, tập nhỏ tập kiểm thử bao gồm 1000 tweet Bảng thông tin số lượng tweet bị cúm khơng bị cúm trung bình tập huấn luyện kiểm thử Bảng 3.3 Phân chia tập huấn luyện tâp kiểm thử Không Bị Cúm Tweet Cúm Huấn luyện 5000 2500 2500 Kiểm thử 1000 300 700 Để thu thập tweet người dùng, ứng dụng cần cấp quyền truy cập yêu cầu người dùng đăng nhập để sử dụng hệ thống Việc xác thực thực qua Twitter trả kết xác thực quyền truy cập thông qua Luan van 49 chế OAuth, có người dùng đăng status với nội dung có liên quan đến triệu chứng cúm như: flu, cough, fever, headaches, fatigue… thông tin người dùng tweet người dùng bổ sung vào tập kiểm thử để phân tích xác định dịch bệnh sau 3.1 Biểu diễn liệu Một nhiệm vụ việc xử lý toán phân lớp chọn mơ hình biểu diễn liệu văn thích hợp Văn dạng text cần phải chuyển sang mơ hình liệu khác phù hợp cho việc biểu diễn tính tốn Tùy thuộc vào thuật tốn phân loại có mơ hình biểu diễn riêng Một mơ hình đơn giản sử dụng nhiều mơ hình khơng gian vector Dữ liệu hệ thống biểu diễn dựa mơ hình Sau lựa chọn đặc trưng cho liệu xong, hệ thống tiến hành đưa liệu dạng vector Mỗi tweet biểu diễn thành vector trọng số đặc trưng câu Việc xác định trọng số đặc trưng có nhiều khác Như mơ hình Boolean, cách đơn giản nhất, gán trọng số cho đặc trưng giá trị nhị phân đặc trưng có xuất câu hay không, tức giá trị trọng số wij đặc trưng ti xuất lần liệu Dj ngược lại không xuất Để đơn giản hệ thống sử dụng cách Word frequency, tức đếm số lần xuất từ Ở ta xét đến đại lượng : - Tf- term frequency : dùng để ước lượng tần xuất xuất từ văn Tuy nhiên với văn có độ dài khác nhau, số lần xuất từ nhiều Vì số lần xuất từ chia độ dài văn (tổng số từ văn đó) TF(t, d) = ( số lần từ t xuất văn d) / (tổng số từ văn d) - IDF- Inverse Document Frequency: dùng để ước lượng mức độ quan trọng từ Khi tính tần số xuất tf từ coi quan trọng Tuy nhiên có số từ thường được sử dụng nhiều Luan van 50 không quan trọng để thể ý nghĩa đoạn văn , ví dụ : Từ nối: and, but, also, because, so, … Giới từ: on, in, at … Từ định: The, This, That, … Vì ta cần giảm mức độ quan trọng từ cách sử dụng IDF: IDF(t, D) = log( Tổng số văn tập mẫu D/ Số văn có chứa từ t ) Hiện hệ thống sử dụng đại lượng df để biểu diễn liệu.Tức là xác định số lần xuất đặc trưng toàn tập liệu Như vậy, tập liệu sau gán nhãn đưa vào để vector hóa dạng sau: :< >… < > Trong đó: lable nhãn câu, đặc trưng thứ i câu, số lần xuất đặc trưng tập liệu Bộ liệu huấn luyện theo hướng số triệu chứng cúm biểu diễn sau: Bảng 3.4 Thống kê tập liệu huấn luyện 3.2 Từ Tính IDF (YES) Tính IDF (NO) Tổng số từ Headaches 0.0021321961620469 0.0016414970453053 640 Fever 0.0017057569296375 0.0016414970453053 420 Cough 0.0046908315565032 0.0036112934996717 530 Runny 0.0008528784648187 0.0000000000000000 320 Muscle 0.0008528916972281 0.0006565988181221 321 Fatigue 0.0008557569296375 0.0009848982271831 323 Đánh giá phương pháp phân loại văn bản: Đánh giá phương pháp Naive Bayes: Dữ liệu chuẩn bị cho thực nghiệm gán nhãn: Luan van 51 NHÃN Tweet CÚM Positive 300 KHÔNG BỊ CÚM Negative 700 Bảng 3.5 Từ 1000 tweet, thực cross-validation với fold = Tức chia tập liệu thành thực nghiệm(k=1,2,3,4,5), tiến hành thực nghiệm tập, kết thực nghiệm lấy giá trị trung bình tập thực nghiệm Số lượng tweet bị cúm lớn so với tweet không bị cúm, hầu hết dựa vào triệu chứng bệnh: Fever Cough Sore throat Runny Muscle Headaches Fatigue… Để phân loại tweet bị cúm hay không bị cúm Nên lượng tweet không bị cúm thường nhiều so với bị cúm Với file bao gồm: - file lưu liệu huấn luyện: File Tweet Nhãn #1 2500 Positive #2 2500 Negative Bảng 3.6 Luan van 52 - file lưu liệu kiểm thử: File Tweet Nhãn #3 300 Positive #4 700 Negative Bảng 3.7 Với lần kiểm thử số lượng tweet file kiểm thử thay đổi Lần lượt lần kiểm thử, ứng với k =1,2,3,4,5: Positive Negative Accuracy (%) K=1 75.00 50.14 62.57 K=2 66.67 54.28 60.47 K=3 55.56 50.42 52.99 K=4 60.05 55.15 57.60 K=5 73.34 57.12 65.23 Bảng 3.8 Sau lần thực nghiệm với tập đặc trưng, ta thấy thực nghiệm cho kết tốt với tập đặc trưng k = với 600 Tweet nhãn Positive 400 Tweet nhãn Negative Luan van 53 Average(%) 70 62.57 65.23 60.47 60 57.6 52.99 50 40 Average(%) 30 20 10 k=1 k=2 k=3 k=4 k=5 Hình 3.9 Biểu đồ so sánh kết sau lần thử nghiệm 3.3 Ứng dụng mơ thuật tốn Dựa vào liệu thu thập thông qua API Twitter cung cấp, chia liệu thành hai tập huấn luyện kiểm thử với lượng liệu tương ứng 5000 tweet 1000 tweet Sử dụng liệu ngẫu nhiên tập kiểm thử để tiến hành phân tích xác định dịch bệnh Luan van 54 Hình 3.2 Ứng dụng phân tích xác định dịch bệnh Twitter Sau phân tích liệu từ twitter, hiển thị Heatmap[20] hay gọi đồ nhiệt nơi bị bệnh cúm Google Map Ở nơi có nhiều người bị cúm màu nhiệt đậm Hình 3.3 Phân tích liệu hiển thị heatmap Luan van 55 Hình 3.4 Kết phân tích liệu Twitter Trên hình 3.3 hiển thị tweet bị cúm nhóm theo location(vị trí) bao gồm: hình ảnh, tên nội dung Ở tweet click vào tên người đăng tweet hiển thị tọa độ người Google Map[21] Ngồi ra, ứng dụng cho phép người dùng tư vấn trực tuyến cách đăng nhập vào tài khoản Twitter cấp quyền truy cập thông tin người dùng thông qua OAuth API, ứng dụng triển khai có khả truy cập địa http://codextension.com/twitter_project/ Với người dùng đăng nhập hệ thống, tồn thơng tin người dùng sử dụng phần liệu huấn luyện, người dùng sau tư vấn đưa đánh giá tweet danh sách bị cúm 3.4 Kết luận chương Mặc dù tập liệu thu thập chưa đủ lớn, dựa 5000 tweet huấn luyện 1000 tweet kiểm thử, khác biệt kết đánh giá cho thấy số lượng tweet kiểm thử nhiều tính xác cao Với tweet đăng tải Luan van 56 có nội dung khác nhau, việc tách từ phân lớp văn dựa vào đặc trưng tweet có ý nghĩa quan trọng việc phân tích xác định dịch bệnh Trong khóa luận này, đánh giá thuật tốn việc phân tích xác định dịch bệnh Twitter dựa tập liệu huấn luyện kiểm thử thu thập được, điều chưa hồn tồn thể tính xác q trình phân tích, thông tin tweet hỗn đỗn, dựa vào triệu chứng khơng đủ, triệu chứng với ngữ cảnh khác khơng phản ánh người đăng tweet bị cúm Vì thế, việc đánh giá trực tuyến hoàn toàn cần thiết để đưa độ xác cao hơn, người dùng trực tiếp xem tweet đăng lên có nội dung liên quan đến cúm dựa vào triệu chứng, xem có tweet có bị cúm thực khơng Sau kết thúc khóa luận, em cố gắng tiếp tục nghiên cứu đề tài phương pháp phân loại văn để có số thuyết phục cho phương pháp Luan van 57 KẾT LUẬN VÀ KIẾN NGHỊ Trong sống hàng ngày, người dùng thường vào trang mạng xã hội đọc đăng tải lên thông tin xung quanh họ bao gồm thông tin sức khỏe người dùng, người thân Ứng dụng phân tích xác định thơng tin dịch bệnh giúp phân loại tweet đăng tải lên có thơng tin liên quan đến sức khỏe cụ thể cúm, với vị trí địa lý số lượng người bị để thông báo thành dịch Ứng dụng nhằm hỗ trợ cho người dùng biết khu vực có dịch cúm để phòng tránh, giảm thiểu rủi ro Nghiên cứu phân tích xác định thơng tin dịch bệnh nói chung bệnh cúm nói riêng việc có ý nghĩa lớn sống hàng ngày người Sau thời gian làm việc, luận văn tốt nghiệp “ Phân tích xác định thông tin dịch bệnh Twitter” đạt kết sau: - Tìm hiểu thu thập liệu text đăng tải người dùng thơng tin cúm Twitter - Tìm hiểu đặc điểm tiếng Việt từ đưa biện pháp xử lý để có liệu chuẩn - Nghiên cứu tổng hợp phương pháp phân lớp văn dựa đặc trưng liệu - Thực nghiệm so sánh độ xác phân lớp dựa đặc trưng liệu phương pháp học máy - Xây dựng chương trình: Phân tích xác định dịch bệnh Twitter Mặc dù, kỹ thuật phân lớp văn Naive Bayes đạt số kết quả, mạng xã hội Twitter, sử dụng phân lớp phương pháp Naive Bayes cịn nhiều thách thức Thách thức lớn là, việc xây dự tập liệu huấn luyện cho thuật toán từ nguồn liệu: tweet đăng tải lên Twitter Luan van 58 DANH MỤC TÀI LIỆU THAM KHẢO [1] Akshay Java, Xiaodan Song, Tim Finin, and Belle Tseng Why we twitter: understanding microblogging usage and communities In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web-mining and social network analysis - WebKDD/SNA-KDD '07, pages 56-65,New York, New York, USA, August 2007 ACM Press [2] Arman Suleimenov Twitter news: Harnessing Twitter to build an article recommendation system [3] Dena Asta and Cosma Shalizi 2012 Identifying in- fluenza trends via Twitter In NIPS Workshop on So- cial Network and Social Media Analysis: Methods, Models and Applications [4] Denis Parra, Alexandros Karatzoglou, Idil Yavuz and Xavier Amatriain(2011) Implicit Feedback Recommendation via Implicit-to-Explicit Ordinal Logistic Regression Mapping Chicago, Illinois, USA 2011 [5] Shane Bergsma, Matt Post, and David Yarowsky 2012 Stylometric analysis of scientific articles In Proc NAACL-HLT, pages 327–337 [6] O Biran and O Rambow 2011 Identifying justifi- cations in written dialogs In Semantic Computing (ICSC), 2011 Fifth IEEE International Conference on, pages 162–168 IEEE [7] J Bollen, A Pepe, and H Mao 2011 Modeling pub- lic mood and emotion: Twitter sentiment and socio- economic phenomena In Proceedings of the Fifth In- ternational AAAI Conference on Weblogs and Social Media, pages 450–453 [8] John S Brownstein, Clark C Freifeld, Emily H Chan, Mikaela Keller, Amy L Sonricker, Sumiko R Mekaru, and David L Buckeridge 2010 Information tech- nology and global surveillance of cases of 2009 h1n1 influenza New England Journal of Medicine, 362(18):1731–1735 Luan van 59 [9] Naive-Bayes Classification Algorithm http://software.ucv.ro/~cmihaescu/ro/teaching/AIR/docs/Lab4-NaiveBayes.pdf [10] N Collier 2012 Uncovering text mining: A survey of current work on web-based epidemic intelligence Global Public Health, 7(7):731–749 [11] Samantha Cook, Corrie Conrad, Ashley L Fowlkes, and Matthew H Mohebbi 2011 Assessing google flu trends performance in the united states during the 2009 influenza virus a (h1n1) pandemic PLOS ONE, 6(8):e23610 [12] A Culotta 2010a Towards detecting influenza epi- demics by analyzing Twitter messages In ACM Work- shop on Soc.Med Analytics [13] Aron Culotta 2010b Detecting influenza epidemics by analyzing Twitter messages arXiv:1007.4748v1 [cs.IR], July [14] S Doan, L Ohno-Machado, and N Collier 2012 Enhancing Twitter data analysis with simple semantic filtering: Example in tracking influenzalike illnesses arXiv preprint arXiv:1210.0848 [15] Mark Dredze, Michael J Paul, Shane Bergsma, and Hieu Tran 2013 A Twitter geolocation system with applications to public health Working paper [16] Twitter Counter http://twittercounter.com/pages/100 [17] Twitter Developers https://dev.twitter.com [18] Twitter4J API http://twitter4j.org/en/ [19] PHP:Hypertext Preprocessor http://php.net/manual/en/intro-whatis.php [20] Heatmap library javascript https://www.patrick-wied.at/static/heatmapjs [21] Geocoding is the process of converting addresses https://developers.google.com/maps/documentation/geocoding/intro [22] W Hsu, A King, M Paradesi, T Pydimarri, and T Weninger Collaborative and structural recommendation of friends using weblog-based social network analysis In AAAI Spring Symposium Series, 2006 [23] Y Hu, Y Koren, and C Volinsky(2008) Collaborative filtering for implicit feedback datasets Luan van ... - TẠ QUANG LONG LUẬN VĂN THẠC SĨ KỸ THUẬT XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ : 8.48.01.04 NGƯỜI HƯỚNG DẪN... Naive Bayes xác định dịch bệnh Twitter Naive Bayes thuật toán dựa định lý Bayes lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê Cách xác định class liệu dựa giả thiết... thông tin báo văn bản, việc xác định sở thích người dùng tìm thơng tin tương ứng để phục vụ việc xác định dịch bệnh chủ yếu dựa vào đặc trưng liên quan đến dịch bệnh thông qua việc phân tích liệu