Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
1,62 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TẠ QUANG LONG ĐỀ TÀI: XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER Chuyên ngành: Hệ thống thơng tin Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2018 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Từ Minh Phương Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tìm hiểu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác HỌC VIÊN Tạ Quang Long MỞ ĐẦU Ngày nay, mạng xã hội ngày phát triển để kết nối thành viên sở thích Internet lại với với nhiều mục đích khác khơng phân biệt khơng gian thời gian Có thể nói, mơ hình trình phát triển giao tiếp mạng, đơn giản hoá phương thức tương tác kết nối người với Hiện giới có hàng trăm mạng xã hội khác nhau, trong mạng xã hội phát triển nhanh thành cơng có mặt muộn, Twitter Với số lượng người sử dụng lên đến 500 triệu người, cho phép người dùng chia sẻ thông tin thông qua việc đăng tin nhắn phạm vi giới hạn 140 ký tự, gọi tweet status Lượng tweet người dùng đăng lên hàng ngày lớn, lên đến 340 triệu tweets ngày, kèm với lượng thông tin khổng lồ chia sẻ cập nhật Một vấn đề đặt số lượng tweet tăng lên cách chóng mặt, người dùng theo dõi nhiều cá nhân tổ chức khác vấn đề lớn mà họ gặp phải q tải thơng tin Rất nhiều thơng tin hữu ích bị tweet khác cập nhật làm đẩy lùi tweet trước đó, tweet khơng phải thơng tin thực cần thiết mà người dùng quan tâm Đồng thời, toán khác quan tâm nhiều người dùng chọn lọc thông tin sức khỏe, cụ thể có dịch bệnh (cúm, cúm A(h7n9), h5n1, sars, ebola, dịch tả…) vùng gần, nơi mà họ sinh sống, làm việc, du lịch… để tránh đến có biện pháp phòng tránh kịp thời cho họ người xung quanh họ Chính vậy, việc giám sát dịch bệnh, cụ thể dịch cúm nhằm cung cấp cho người dùng tweet hữu dụng vấn đề vô quan trọng Một kỹ thuật sử dụng phổ biến mang lại hiệu cao kỹ thuật phân lớp văn bản, đề tài luận văn em tập trung vào tìm hiểu kỹ thuật phân lớp văn này, dựa tính cá nhân hóa người dùng Twitter nhằm đưa kết phân tích tốt dịch cúm Giải pháp thử nghiệm liệu thực thu thập từ Twitter 3 CHƯƠNG - MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC TRƯNG Twitter phát triển nhanh để trở thành mạng xã hội phổ biến năm gần v cung cấp số lượng lớn người dùng sử dụng để đăng tin, gọi tweet Các tweet Twitter hiển thị cho người dùng theo thứ tự thời gian v gọi Timeline, người dùng dựa vào timeline để theo dõi thông tin mà họ quan tâm 1.1 Giới thiệu mạng xã hội Twitter Twitter dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn cập nhật mẩu tin nhỏ gọi tweet, dạng tiểu blog Những mẩu tweet giới hạn tối đa 140 ký tự lan truyền nhanh chóng phạm vi nhóm bạn người nhắn trưng rộng rãi cho người Thành lập từ năm 2006, Twitter trở thành tượng phổ biến toàn cầu, tweet dòng tin cá nhân cập nhật mang tính thời chỗ kịp thời nhanh chóng truyền thơng thơng Theo thống kê 2013, Twitter có khoảng 500 triệu người dùng kích hoạt trung bình ngày tweet trung bình hàng ngày đăng 58 triệu tweet [1], số không ngừng tăng lên, ngày thêm khoảng 135,000 người dùng đăng ký sử dụng dịch vụ Giới hạn độ dài tin nhắn 140 ký tự có tính tương thích với tin, mang đến cho cộng đồng mạng hình thức tốc ký đáng ý, sử dụng rộng rãi thông qua việc sử dụng tin SMS từ điện thoại họ 1.2 Các đặc trưng thông tin Twitter Người dùng Twitter cập nhật tin ngắn bị giới hạn 140 ký tự gọi tweet, thuật ngữ để việc đăng tin gọi tweeting Người dùng Twitter có mối quan hệ trực tiếp với nhau, người dùng theo dõi người dùng B B không theo dõi A, A thấy tất tweet B ngược lại, B không thấy tweet A Mô tả cho mối quan hệ người dùng thể hình 1.1 CA CB Hình 1.2.1 Quan hệ người dùng hiển thị tweet theo mối quan hệ Thuật ngữ mà Twitter đề xuất cho mối quan hệ người dùng Twitter với gồm có follower followee, follower người theo dõi người dùng đó, followee người người dùng theo dõi Ví dụ hình 1.1, A theo dõi B, A follower B, B followee A Mỗi người dùng có danh sách hiển thị tweet cập nhật, danh sách gọi Twitter stream theo thứ tự thời gian Các tweet hiển thị danh sách tweet đăng followee Trong ví dụ hình 1.1, A follow B, tất tweet B hiển thị danh sách tweet A, B không follow A tweet A khơng hiển thị danh sách tweet B, B phải lựa chọn ‘follow’ A để thấy tweet danh sách tweet truy cập vào trang cá nhân A để thấy tất tweet mà A đăng Tất đặc trưng mà Twitter cung cấp góp phần thể phần quan điểm, sở thích cá nhân người dùng, hành động người dùng lưu trữ hồ sơ người dùng trích xuất thơng qua giao diện lập trình ứng dụng (API) mà Twitter cung cấp 1.3 Mối quan hệ người dùng mạng Twitter Twitter dịch vụ mạng xã hội trực tuyến thành lập năm 2006, tới trở thành mạng xã hội phổ biến nhất, với 500 triệu người đăng ký năm 2012 Tính Twitter cho phép người dùng gửi tin nhắn văn ngắn gọi tweet Người dùng theo dõi người sử dụng khác để tự động nhận tất tweets họ thấy chúng thị trang chủ họ Twitter cho phép việc trao đổi tin nhắn riêng chế bổ sung cho thông tin liên lạc trực tiếp Mặc dù vậy, nội dung tin nhắn cá nhân truy cập mà khơng có cho phép Hơn nữa, tin nhắn riêng chiếm phần nhỏ tất tin nhắn trao đổi Twitter sử dụng chúng để xác định thông tin liên lạc trực tiếp người sử dụng dẫn đến hình ảnh khơng đầy đủ Bên cạnh truyền thông trực tiếp, tất tweet tự động quảng bá đến tất người sử dụng theo dõi 1.4 Tại lại sử dụng mạng xã hội Twitter, mà không dùng mạng xã hội khác - Twitter có số lượng người dùng chia sẻ thông tin gần nhiều so với mạng xã hội khác : Facebook, Youtube, Linkedin, Instagram… - Hầu hết mạng xã hội khác Youtube, Linkedin, Instagram… nhắm tới đối tượng cụ thể như: - Facebook: chia sẻ thơng tin hình ảnh, video, clip…và lưu trữ dạng blog cá nhân hóa cho người sử dụng - Youtube: đoạn video, clip người chia theo dõi - Linkedin: xây dựng thành công nơi để người làm kinh doanh, giới văn phòng kết nối với xây dựng mạng lưới gắn kết, hợp tác hỗ trợ cho hoạt động kinh doanh - Instagram: tập trung hình ảnh quyền ảnh, tức bạn tải ảnh máy Instagram Người dùng yêu Instagram chức chỉnh sửa ảnh điêu luyện Đó kết hợp thơng minh thuận tiện mạng xã hội với ứng dụng chỉnh ảnh - Nhiều năm đối thủ cạnh tranh với Twitter Facebook Với lượng thơng tin truy cập chia sẻ nhiều Facebook hướng tới đối tượng người dùng chủ yếu cá nhân sử dụng để họ kết nối với người offline, để lưu lại hồ sơ cá nhân đăng tải thông điệp tường họ Người sử dụng đăng tải album ảnh videos, chia sẻ liên kết hay, viết đoạn note dài, gửi tin nhắn cá nhân đoạn văn hay chí video tới bạn bè - Sức mạnh Twitter kết nối Khả kết nối rộng rãi tới người sức mạnh để Twitter tiếng hơm Tóm lại, việc lựa chọn mạng xã hội Twitter để phân tích dịch bệnh luận văn em, mà sử dụng mạng xã hội khác lý chủ yếu twitter bao gồm thông điệp ngắn thơng tin mà người dùng chia sẻ: tin tức, chuyện phiếm, xã hội….Mọi người sử dụng hình thức giao tiếp thơng qua Twitter Vì vậy, Twitter nguồn tốt để tìm kiếm, phân tích thơng tin Các ứng dụng phân tích dịch bệnh từ nguồn liệu khác 1.5 1.6 - Ứng dụng Google Flu Trends - Trung tâm kiểm soát dịch bệnh (CDC) Kết luận chương Hiện nay, có nhiều ứng dụng xác định thơng tin dịch bệnh dựa hệ tìm kiếm mạng internet Tuy nhiên, hầu hết phương pháp khơng mang đầy đủ tính chất mối quan hệ mạng, dựa lần tìm kiếm thơng tin mạng Phương pháp đề xuất luận văn khơng dựa hệ tìm kiếm internet, mà phân tích liệu mạng xã hội Twitter, việc sử dụng phân tích liệu mạng xã hội Twitter, có số lượng người truy cập nhiều, mơi trường thân thiện, tính cập nhật liên tục nhanh chóng, việc phân tích liệu cụ thể nội dung đăng tải Twitter nhằm mục đích lấy tất thơng tin hữu ích, để cải thiện hiệu việc xác định thông tin dịch bệnh CHƯƠNG – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ XÁC ĐỊNH THÔNG TIN DỊCH BỆNH TRÊN TWITTER Với gia tăng đột biến dung lượng thông tin số đa dạng ứng dụng Web, u cầu lọc thơng tin cách hiệu tin cậy cần thiết Một giải pháp hữu hiệu áp dụng năm gần phân tích liệu tìm kiếm cơng cụ tìm kiếm có số lượng truy cập nhiều như: google, facebook, twitter Ở đâu, bắt gặp đoạn tìm kiếm hay status mạng xã hội: có dịch ebola, tơi bị cúm, bán trà thảo dược phòng chống cúm Vậy việc phân tích văn xem hệ thống lọc tích cực, có chức hỗ trợ đưa định, nhằm mục đích cung cấp cho người sử dụng gợi ý phù hợp với yêu cầu sở thích riêng người tình (ngữ cảnh) với yêu cầu cụ thể Bài toán đặt kỹ thuật sau: Có C người dùng truy cập vào mạng xã hội Twitter đăng tải status với nhiều nội dung dịch bệnh cụ thể luận văn em lấy nội dung liên quan đến cúm với ngôn ngữ tiếng anh như: Tweet#1: Today I not go to work, because I feel headache, cough and runny or stuffy nose I think I have the flu Tweet#2: Our company is selling tea to improve health, relieve cough symptoms, and fight the flu Như nhìn thấy trên, Tweet có nội dung nói đến cúm(flu), triệu chứng Dựa vào kỹ thuật phân lớp văn xác định Tweet#1 Tweet có nội dung nói đến người bị bệnh cúm Tweet#1 Tweet thực bị cúm Và Tweet#2 phân thành loại không bị cúm Từ việc thu thập tổng hợp Tweet mà người đề cập đến từ liên quan đến cúm mẩu tin họ để tìm có nhiều người thực bị cúm vùng đưa cảnh báo có dịch bệnh Một phương pháp để giải toán sử dụng phương pháp phân lớp văn bản, gán nhãn phân loại lên văn dựa mức độ tương tư văn so với văn ghi nhãn tập huấn luyện Luận văn trình bày vấn đề liên quan đến phân loại văn ứng dụng việc xác định thông tin dịch bệnh(cúm) Twitter Một giải thuật áp dụng cho việc xác định thơng tin dịch bệnh, giải thuật Naive Bayes 2.1 Tiền xử lý liệu (văn bản) Trước vào phân loại văn bản, phải tiến hành tiền xử lý liệu, nghĩa sau thu thập lượng thông tin khổng lồ từ tweet đăng tải lên Twitter.Việc liệu nhiều việc tiền xử lý đóng vai trò hữu ích cho việc phân loại văn bước Q trình xử lý liệu thơ/gốc (raw/original data) nhằm cải thiện chất lượng liệu (quality of the data) đó, cải thiện chất lượng kết khai phá Tập liệu mẫu Tiền xử lý liệu Làm liệu Loại bỏ ký tự lỗi Đảm bảo tính tồn vẹn Tập liệu sau tiền xử lỷ 2.2 Biểu diễn văn dạng vector Đã có nhiều tiến trình xử lí văn đề xuất nhà nghiên cứu q trình tìm kiếm mang lại thơng tin Chẳng hạn là: tìm kiếm thu nhận tài liệu, định tuyến văn bản, lọc phân loại văn Với tiến trình xử lí văn bản, đơn vị thơng tin xử lí “tài liệu văn bản” Theo cách từ loại “thông tin” “tài liệu” sử dụng để thay cho qua phần lại báo cáo Trong giai đoạn tiền xử lí văn bản, văn biểu diễn vector C có N chiều w1, w2 , wN chiều wi đại diện cho từ (term) xuất văn bản, đặc trưng đại lượng gọi tần suất từ kí hiệu TF (term frequency) số lần xuất từ tài liệu xét Kí hiệu DF (document frequency) đại lượng đặc trưng cho số tài liệu có xuất từ loại wi kí hiệu DF(wi) Lấy logarit số nghịch đảo đại lượng nhân với tổng số tài liệu ta tần suất tài liệu ngược kí hiệu IDF(wi) Công thức xác định IDF(Inverse document frequency) IDF(wi) = log |D| DF ( wi ) Trong |D| tổng số tài liệu Tần suất tài liệu ngược từ thấp từ xuất nhiều tài liệu cao từ xuất tài liệu Trọng số từ loại wi tài liệu d là: d(i) = TF(wi,d)*IDF(wi) 2.3 Giới thiệu phân loại văn số phương pháp phân loại văn Bao gồm giai đoạn: giai đoạn huấn luyện giai đoạn phân lớp 2.3.1 Giai đoạn huấn luyện Giai đoạn huấn luyện sử dụng tập liệu ban đầu xác định nhãn trước Sau tập liệu biểu diễn dạng văn cần phân lớp (c, ⃑) c nhãn văn bản, ⃑ vector biểu diễn cho văn Sau đó, liệu biến đổi thành mơ hình liệu phân lớp thơng qua thuật tốn học máy Các bước thực giai đoạn huấn luyện biểu diễn sau: Trong đó: Tập liệu ban đầu xác định nhãn: Từ tập liệu thu thập được, thực gán nhãn cho liệu Tiền xử lý liệu: Xử lý liệu, tiến hành làm “sạch” liệu Trích chọn đặc trưng: Lựa chọn đặc trưng tập liệu mang tính thơng tin cao Vector hóa liệu: Biến đổi liệu dạng mơ hình vector Thuật tốn huấn luyện: Tìm tham số tối ưu để có mơ hình liệu huấn luyện tốt nhất Mơ hình liệu huấn luyện: Đây liệu đầu giai đoạn huấn luyện – mơ hình phân lớp 2.3.2 Giai đoạn phân lớp Văn Lớp (chủ đề) văn Tiền xử lý Vector hóa Sử dụng phân lớp huấn luyện Tiền xử lý Việc phân lớp có nhiều kỹ thuật, tổng quát thực bước sau: - Tiền xử lý văn bản: lọc bỏ dấu câu, tả, kỹ tự lỗi, 10 - Biểu diễn văn dạng vector (thường gọi mơ hình hóa văn bản, vector hóa văn bản), thường phải làm cơng việc sau: - Tách từ (tokenizer, n-gram, ; tiếng việt có thư viện vnTokenizer tiếng), lọc bỏ stopwords (những từ xuất nhiều không mang nhiều ý nghĩa (a, the, in, of, ; thì, là, nên, ) - 2.4 Vector hóa văn (feature vector): sử dụng kỹ thuật Bag of Words, TFIDF, (tần suất từ lặp lại) Áp dụng thuật toán Naive Bayes xác định dịch bệnh Twitter Naive Bayes thuật toán dựa định lý Bayes lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê Cách xác định class liệu dựa giả thiết có tên Naive Bayes Classifier (NBC) NBC thuật toán ứng dụng nhiều lĩnh vực Machine learning dùng để đưa dự đốn xác dự tập liệu thu thập, dễ hiểu độ xác cao Xác suất P(ck| di) gọi xác suất mà tài liệu di có khả thuộc vào lớp văn ck tính tốn sau: P(ck | d i ) P(ck ) * P(d i | ck ) P( d i ) tài liệu di gán cho loại văn có xác suất hậu nghiệm cao nên biểu diễn công thức: Class of di arg max P(ck |d i ) arg max 1 k N P(ck )*P(d i |ck ) P(d i ) 1 k N N tổng số tài liệu 2.5 Tại lại chọn Naive Bayes so với phương pháp khác Rất đơn giản, dễ triển khai nhanh chóng Nếu giả định độc lập có điều kiện NB giữ, hội tụ nhanh mơ hình phân biệt đối xử hồi quy logistic Ngay giả định NB không giữ, hoạt động tốt thực tế Cần liệu đào tạo Khả mở rộng cao Nó quy mơ tuyến tính với số lượng yếu tố 11 dự đoán điểm liệu Có thể sử dụng cho hai vấn đề phân loại nhị phân đa lớp Có thể đưa dự đoán xác suất Xử lý liệu liên tục rời rạc Không nhạy cảm với tính khơng liên quan 2.6 Kết luận chương Xuất phát từ nhu cầu thực tế, việc xác định dịch bệnh đưa cảnh báo cần thiết, twitter quan tâm nhiều, đồng thời nhiều thuật toán giới thiệu nhằm nâng cao hiệu cho việc phân loại liệu Trong luận văn này, em tìm hiểu sử dụng kỹ thuật phân loại văn naive bayes để xác định dịch cúm Twitter cách xác Với số đặc thù mạng xã hội Twitter lượng người dùng nhiều, thông tin liên tục cập nhật gặp số giới hạn nội dung, chứa nhiều thông tin báo văn bản, việc xác định sở thích người dùng tìm thơng tin tương ứng để phục vụ việc xác định dịch bệnh chủ yếu dựa vào đặc trưng liên quan đến dịch bệnh thơng qua việc phân tích liệu 12 CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ Sử dụng thư viện có sẵn Twitter cung cấp, thực xây dựng liệu từ liệu thực tế có Twitter cho số lượng người dùng, sử dụng kỹ thuật phân loại liệu naive bayes đề xuất chương để xác định dịch bệnh cách xác Đánh giá kết so với phương pháp khác, so với cách làm việc Twitter để cung cấp tweet cho người dùng 3.1 Thu thập liệu thử nghiệm Để xây dựng ứng dụng xác định dịch bệnh Twitter, bước cần thu thập liệu, sau chia thành hai tập: tập huấn luyện tập kiểm thử Do có nhiều người sử dụng twitter nên lượng thông tin vô lớn, hỗn độn phức tạp Vì khó để có tập liệu có sẵn đáp ứng yêu cầu cho ứng dụng Để thuận tiện trình thu thập liệu, lưu trữ tiền xử lý liệu, ứng dụng viết ngôn ngữ PHP[19], sử dụng thư viện từ developer twitter[17] để thực truy vấn liệu Twitter Chúng ta có tập liệu tweet sau: Toàn liệu chia thành tập tập huấn luyện tập kiểm thử, tập lớn tập huấn luyện, bao gồm 5000 tweet, tập nhỏ tập kiểm thử bao gồm 1000 tweet Bảng thông tin số lượng tweet bị cúm không bị cúm trung bình tập huấn luyện kiểm thử 13 Phân chia tập huấn luyện tâp kiểm thử Không Bị Cúm Tweet Cúm Huấn luyện 5000 2500 2500 Kiểm thử 1000 300 700 Để thu thập tweet người dùng, ứng dụng cần cấp quyền truy cập yêu cầu người dùng đăng nhập để sử dụng hệ thống Việc xác thực thực qua Twitter trả kết xác thực quyền truy cập thơng qua chế OAuth, có người dùng đăng status với nội dung có liên quan đến triệu chứng cúm như: flu, cough, fever, headaches, fatigue… thông tin người dùng tweet người dùng bổ sung vào tập kiểm thử để phân tích xác định dịch bệnh sau 3.1 Biểu diễn liệu Một nhiệm vụ việc xử lý toán phân lớp chọn mơ hình biểu diễn liệu văn thích hợp Văn dạng text cần phải chuyển sang mơ hình liệu khác phù hợp cho việc biểu diễn tính tốn Tùy thuộc vào thuật tốn phân loại có mơ hình biểu diễn riêng Một mơ hình đơn giản sử dụng nhiều mơ hình khơng gian vector Dữ liệu hệ thống biểu diễn dựa mơ hình Để đơn giản hệ thống sử dụng cách Word frequency, tức đếm số lần xuất từ Ở ta xét đến đại lượng : - Tf- term frequency : dùng để ước lượng tần xuất xuất từ văn Tuy nhiên với văn có độ dài khác nhau, số lần xuất từ nhiều Vì số lần xuất từ chia độ dài văn (tổng số từ văn đó) TF(t, d) = ( số lần từ t xuất văn d) / (tổng số từ văn d) - IDF- Inverse Document Frequency: dùng để ước lượng mức độ quan trọng từ Khi tính tần số xuất tf từ coi quan trọng Tuy nhiên có số từ thường được sử dụng nhiều không quan trọng để thể ý nghĩa đoạn văn , ví dụ : 14 Từ nối: and, but, also, because, so, … Giới từ: on, in, at … Từ định: The, This, That, … Vì ta cần giảm mức độ quan trọng từ cách sử dụng IDF: IDF(t, D) = log( Tổng số văn tập mẫu D/ Số văn có chứa từ t ) Bộ liệu huấn luyện theo hướng số triệu chứng cúm biểu diễn sau: Thống kê tập liệu huấn luyện 3.2 Từ Tính IDF (YES) Tính IDF (NO) Tổng số từ Headaches 0.0021321961620469 0.0016414970453053 640 Fever 0.0017057569296375 0.0016414970453053 420 Cough 0.0046908315565032 0.0036112934996717 530 Runny 0.0008528784648187 0.0000000000000000 320 Muscle 0.0008528916972281 0.0006565988181221 321 Fatigue 0.0008557569296375 0.0009848982271831 323 Đánh giá phương pháp phân loại văn bản: Đánh giá phương pháp Naive Bayes: Dữ liệu chuẩn bị cho thực nghiệm gán nhãn: NHÃN Tweet CÚM Positive 300 KHÔNG BỊ CÚM Negative 700 Từ 1000 tweet, thực cross-validation với fold = Tức chia tập liệu thành thực nghiệm(k=1,2,3,4,5), tiến hành thực nghiệm tập, kết thực nghiệm lấy giá trị trung bình tập thực nghiệm Số lượng tweet bị cúm lớn so với tweet không bị cúm, hầu hết dựa vào triệu chứng bệnh: Fever Cough 15 Sore throat Runny Muscle Headaches Fatigue… Để phân loại tweet bị cúm hay không bị cúm Nên lượng tweet không bị cúm thường nhiều so với bị cúm Với file bao gồm: - - file lưu liệu huấn luyện: File Tweet Nhãn #1 2500 Positive #2 2500 Negative File Tweet Nhãn #3 300 Positive #4 700 Negative file lưu liệu kiểm thử: Với lần kiểm thử số lượng tweet file kiểm thử thay đổi Lần lượt lần kiểm thử, ứng với k =1,2,3,4,5: Positive Negative Accuracy (%) K=1 75.00 50.14 62.57 K=2 66.67 54.28 60.47 K=3 55.56 50.42 52.99 K=4 60.05 55.15 57.60 K=5 73.34 57.12 65.23 Sau lần thực nghiệm với tập đặc trưng, ta thấy thực nghiệm cho kết tốt với tập đặc trưng k = với 600 Tweet nhãn Positive 400 Tweet nhãn Negative 16 Average(%) 70 62.57 65.23 60.47 60 57.6 52.99 50 40 Average(%) 30 20 10 k=1 k=2 k=3 k=4 k=5 Biểu đồ so sánh kết sau lần thử nghiệm 3.3 Ứng dụng mơ thuật tốn Dựa vào liệu thu thập thông qua API Twitter cung cấp, chia liệu thành hai tập huấn luyện kiểm thử với lượng liệu tương ứng 5000 tweet 1000 tweet Sử dụng liệu ngẫu nhiên tập kiểm thử để tiến hành phân tích xác định dịch bệnh Sau phân tích liệu từ twitter, hiển thị Heatmap[20] hay gọi đồ nhiệt nơi bị bệnh cúm Google Map Ở nơi có nhiều người bị cúm màu nhiệt đậm 17 Ứng dụng phân tích liệu hiển thị heatmap Kết phân tích liệu Twitter Trên hình hiển thị tweet bị cúm nhóm theo location(vị trí) bao gồm: hình ảnh, tên nội dung Ở tweet click vào tên người đăng tweet hiển thị tọa độ người Google Map[21] Ngồi ra, ứng dụng cho phép người dùng tư vấn trực tuyến cách đăng nhập vào tài khoản Twitter cấp quyền truy cập thông tin người dùng thông qua OAuth API, ứng dụng triển khai có khả truy cập địa http://codextension.com/twitter_project/ Với người dùng đăng nhập hệ thống, tồn 18 thơng tin người dùng sử dụng phần liệu huấn luyện, người dùng sau tư vấn đưa đánh giá tweet danh sách bị cúm 3.4 Kết luận chương Mặc dù tập liệu thu thập chưa đủ lớn, dựa 5000 tweet huấn luyện 1000 tweet kiểm thử, khác biệt kết đánh giá cho thấy số lượng tweet kiểm thử nhiều tính xác cao Với tweet đăng tải có nội dung khác nhau, việc tách từ phân lớp văn dựa vào đặc trưng tweet có ý nghĩa quan trọng việc phân tích xác định dịch bệnh Trong khóa luận này, đánh giá thuật tốn việc phân tích xác định dịch bệnh Twitter dựa tập liệu huấn luyện kiểm thử thu thập được, điều chưa hồn tồn thể tính xác q trình phân tích, thơng tin tweet hỗn đỗn, dựa vào triệu chứng khơng đủ, triệu chứng với ngữ cảnh khác khơng phản ánh người đăng tweet bị cúm Vì thế, việc đánh giá trực tuyến hồn tồn cần thiết để đưa độ xác cao hơn, người dùng trực tiếp xem tweet đăng lên có nội dung liên quan đến cúm dựa vào triệu chứng, xem có tweet có bị cúm thực khơng Sau kết thúc khóa luận, em cố gắng tiếp tục nghiên cứu đề tài phương pháp phân loại văn để có số thuyết phục cho phương pháp 19 KẾT LUẬN VÀ KIẾN NGHỊ Trong sống hàng ngày, người dùng thường vào trang mạng xã hội đọc đăng tải lên thông tin xung quanh họ bao gồm thông tin sức khỏe người dùng, người thân Ứng dụng phân tích xác định thơng tin dịch bệnh giúp phân loại tweet đăng tải lên có thơng tin liên quan đến sức khỏe cụ thể cúm, với vị trí địa lý số lượng người bị để thông báo thành dịch Ứng dụng nhằm hỗ trợ cho người dùng biết khu vực có dịch cúm để phòng tránh, giảm thiểu rủi ro Nghiên cứu phân tích xác định thơng tin dịch bệnh nói chung bệnh cúm nói riêng việc có ý nghĩa lớn sống hàng ngày người Sau thời gian làm việc, luận văn tốt nghiệp “ Phân tích xác định thông tin dịch bệnh Twitter” đạt kết sau: - Tìm hiểu thu thập liệu text đăng tải người dùng thơng tin cúm Twitter - Tìm hiểu đặc điểm tiếng Việt từ đưa biện pháp xử lý để có liệu chuẩn - Nghiên cứu tổng hợp phương pháp phân lớp văn dựa đặc trưng liệu - Thực nghiệm so sánh độ xác phân lớp dựa đặc trưng liệu phương pháp học máy - Xây dựng chương trình: Phân tích xác định dịch bệnh Twitter Mặc dù, kỹ thuật phân lớp văn Naive Bayes đạt số kết quả, mạng xã hội Twitter, sử dụng phân lớp phương pháp Naive Bayes nhiều thách thức Thách thức lớn là, việc xây dự tập liệu huấn luyện cho thuật toán từ nguồn liệu: tweet đăng tải lên Twitter 20 DANH MỤC TÀI LIỆU THAM KHẢO [1] Akshay Java, Xiaodan Song, Tim Finin, and Belle Tseng Why we twitter: understanding microblogging usage and communities In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web-mining and social network analysis - WebKDD/SNA-KDD '07, pages 56-65,New York, New York, USA, August 2007 ACM Press [2] Arman Suleimenov Twitter news: Harnessing Twitter to build an article recommendation system [3] Dena Asta and Cosma Shalizi 2012 Identifying in- fluenza trends via Twitter In NIPS Workshop on So- cial Network and Social Media Analysis: Methods, Models and Applications [4] Denis Parra, Alexandros Karatzoglou, Idil Yavuz and Xavier Amatriain(2011) Implicit Feedback Recommendation via Implicit-to-Explicit Ordinal Logistic Regression Mapping Chicago, Illinois, USA 2011 [5] Shane Bergsma, Matt Post, and David Yarowsky 2012 Stylometric analysis of scientific articles In Proc NAACL-HLT, pages 327–337 [6] O Biran and O Rambow 2011 Identifying justifi- cations in written dialogs In Semantic Computing (ICSC), 2011 Fifth IEEE International Conference on, pages 162–168 IEEE [7] J Bollen, A Pepe, and H Mao 2011 Modeling pub- lic mood and emotion: Twitter sentiment and socio- economic phenomena In Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, pages 450–453 [8] John S Brownstein, Clark C Freifeld, Emily H Chan, Mikaela Keller, Amy L Sonricker, Sumiko R Mekaru, and David L Buckeridge 2010 Information technology and global surveillance of cases of 2009 h1n1 influenza New England Journal of Medicine, 362(18):1731–1735 [9] Naive-Bayes Classification Algorithm http://software.ucv.ro/~cmihaescu/ro/teaching/AIR/docs/Lab4-NaiveBayes.pdf [10] N Collier 2012 Uncovering text mining: A survey of current work on web- based epidemic intelligence Global Public Health, 7(7):731–749 21 [11] Samantha Cook, Corrie Conrad, Ashley L Fowlkes, and Matthew H Mohebbi 2011 Assessing google flu trends performance in the united states during the 2009 influenza virus a (h1n1) pandemic PLOS ONE, 6(8):e23610 [12] A Culotta 2010a Towards detecting influenza epi- demics by analyzing Twitter messages In ACM Work- shop on Soc.Med Analytics [13] Aron Culotta 2010b Detecting influenza epidemics by analyzing Twitter messages arXiv:1007.4748v1 [cs.IR], July [14] S Doan, L Ohno-Machado, and N Collier 2012 Enhancing Twitter data analysis with simple semantic filtering: Example in tracking influenza-like illnesses arXiv preprint arXiv:1210.0848 [15] Mark Dredze, Michael J Paul, Shane Bergsma, and Hieu Tran 2013 A Twitter geolocation system with applications to public health Working paper [16] Twitter Counter http://twittercounter.com/pages/100 [17] Twitter Developers https://dev.twitter.com [18] Twitter4J API http://twitter4j.org/en/ [19] PHP:Hypertext Preprocessor http://php.net/manual/en/intro-whatis.php [20] Heatmap library javascript https://www.patrick-wied.at/static/heatmapjs [21] Geocoding is the process of converting addresses https://developers.google.com/maps/documentation/geocoding/intro [22] W Hsu, A King, M Paradesi, T Pydimarri, and T Weninger Collaborative and structural recommendation of friends using weblog-based social network analysis In AAAI Spring Symposium Series, 2006 [23] Y Hu, Y Koren, and C Volinsky(2008) Collaborative filtering for implicit feedback datasets ... Naive Bayes xác định dịch bệnh Twitter Naive Bayes thuật toán dựa định lý Bayes lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê Cách xác định class liệu dựa giả thiết... việc phân tích liệu cụ thể nội dung đăng tải Twitter nhằm mục đích lấy tất thơng tin hữu ích, để cải thiện hiệu việc xác định thông tin dịch bệnh CHƯƠNG – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ XÁC ĐỊNH THÔNG... liên quan đến phân loại văn ứng dụng việc xác định thơng tin dịch bệnh( cúm) Twitter Một giải thuật áp dụng cho việc xác định thông tin dịch bệnh, giải thuật Naive Bayes 2.1 Tiền xử lý liệu (văn bản)