Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
3,69 MB
Nội dung
i Mục lục Chương 1 Phần mở đầu 1 1.1 Giới thiệu chung 1 1.2 Ý tưởng khai thác các bất thường về những hành vi tự bảo vệ mình của cộng đồng. 3 1.2.1 Con người thường làm gì khi có các vấn đề lo ngại về sức khỏe 3 1.2.2 Hệ thống cảnh báo sớm dựa trên phân tích các bất thường 4 1.3 Mục tiêu của luận văn 6 Chương 2 Tổng quan 8 2.1 Tổng quan về các ứng dụng giám sát sự phát triển của dịch bệnh 8 2.1.1 ProMED-mail (Program for Monitoring Emerging Diseases) 8 2.1.2 BioCaster 10 2.1.3 Một số hệ thống khác 12 2.2 Tổng quan về mạng xã hội và các ứng dụng trên mạng xã hội 12 2.3 Kỹ thuật phân loại văn bản bằng phương pháp máy học 13 2.3.1 Giới thiệu về phân loại văn bản 13 2.3.2 Phân loại văn bản bằng phương pháp máy học 14 2.4 Kết luận 25 Chương 3 Phân tích, thiết kế và cài đặt hệ thống 26 3.1 Giới thiệu DIZZIE và mục tiêu của hệ thống 26 3.2 Mạng xã hội Twitter 28 3.2.1 Lịch sử 28 3.2.2 Đặc điểm của mạng xã hội Twitter 28 3.3 Các bài toán của hệ thống 30 3.3.1 Kiến trúc chung 30 3.3.2 Download dữ liệu 31 3.3.3 Bài toán nhận diện (phân lớp) các hành vi bất thường bằng phương pháp máy học 34 3.3.4 Phân cụm tweet theo thời gian và địa lý và phát hiện bất thường 46 3.3.5 Hiển thị trực quan lên giao diện bản đồ 48 Chương 4 Kết quả thực nghiệm và phân tích đánh giá 49 4.1 Thí nghiệm 49 4.1.1 Mô tả thí nghiệm 49 4.1.2 Thí nghiệm 1 (Trên kho ngữ liệu cân bằng) 50 4.1.3 Thí nghiệm 2 (trên toàn bộ kho ngữ liệu) 51 4.2 So sánh các thuật toán phân lớp và các tập đặc trưng khác nhau 52 4.2.1 So sánh giữa các thuật toán phân lớp 52 4.2.2 So sánh giữa các đặc trưng khác nhau 52 4.2.3 Kết luận 53 ii Chương 5 Kết luận và hướng phát triển 54 5.1 Các kết quả đạt được 54 5.2 Hướng phát triển 55 Tài liệu tham khảo 56 Phụ lục A Trích dẫn bài báo khoa học đã công bố 59 iii Các thuật ngữ và từ viết tắt BoW : Bag of word (Túi từ) TC : Text classification (Phân loại văn bản) IR : Information Retrieval (Tìm kiếm thông tin) SVM : Support Vector Machine SRL : Simple Rule Language (Ngôn ngữ rút trích dựa trên luật) TFIDF : Term frequency – Inverted document frequency. iv Danh sách hình Hình 1 - Ví dụ về thống kê hành vi bất thường 4 Hình 2 - Đồ thị phát triển của dịch bệnh khi không có và có một hệ thống phát hiện sớm 5 Hình 3 - Hoạt động của hệ thống ProMED-mail 9 Hình 4 - Tổng quan về hoạt động của hệ thống BioCaster 11 Hình 5 – Quy trình phân loại văn bản 15 Hình 6 - Quy trình phân loại văn bản 15 Hình 7 – DIZZIE – Mục tiêu của DIZZIE 27 Hình 8 – Kiến trúc chung của hệ thống DIZZIE 30 Hình 9 – Quy trình thực hiện của bài toán phân lớp văn bản 34 Hình 10 – Hình minh họa độ bất thường tại thời điểm t 47 Hình 11 – Minh họa thể hiện sự bất thường trên giao diện bản đồ 48 v Danh sách bảng Bảng 1 - Mã của một số ngôn ngữ theo chuẩn ISO 639-1 32 Bảng 2 - Ví dụ về các tài liệu trong kho ngữ liệu huấn luyện 35 Bảng 3 – Thống kê xuất hiện của các URL trong 53000 tweet 45 Bảng 4 - Thông tin kho ngữ liệu với tỉ lệ Positive:Negative=1:1 50 Bảng 5 - Kết quả phân lớp với tỉ lệ Positive:Negative=1:1. Đặc trưng: UNI (BOW), BI (Bigram), SRL 50 Bảng 6 - Thông tin kho ngữ liệu với tất cả dữ liệu như trong kho ngữ liệu gốc 51 Bảng 7 - Kết quả phân lớp trên tất cả dữ liệu. Đặc trưng: UNI (Unigram), BI 51 1 Chương 1 Phần mở đầu Tóm tắt: Phần mở đầu giới thiệu các tiền đề dẫn đến nhu cầu của việc xây dựng một ứng dụng khai thác thông tin trên mạng xã hội, phục vụ cho việc giám sát sự bùng phát của các dịch bệnh; lý do của việc thực hiện đề tài và đưa ra mục tiêu của luận văn. Phần tóm tắt nội dung từng chương của luận văn sẽ được trình bày ở cuối mục này. 1.1 Giới thiệu chung Tiền đề 1: Nhu cầu xây dựng hệ thống cảnh báo sớm để phát hiện dịch bệnh Hiện tại, vấn đề sức khỏe của con người là một trong những vấn đề được quan tâm hàng đầu của nhân loại. Dân số tăng nhanh, bệnh tật ngày càng đa dạng và phức tạp, trong khi hệ thống y tế của nhiều quốc gia nhất là các quốc gia đang phát triển lại phát triển chậm. Do vậy, với những quốc gia này chi phí khám chữa bệnh tăng cao và ảnh hưởng đến sự phát triển kinh tế của đất nước. Ngoài sự đa dạng và phức tạp của bệnh tật là sự bùng nổ của các dịch bệnh có ảnh hưởng nghiêm trọng đến con người. Những dịch bệnh này nếu không được kiểm soát kịp thời thì nó có thể gây ra một tổn thất rất to lớn về kinh tế lẫn về con người và thậm chí có thể gây ra thảm họa diệt vong hàng loạt. Tuy nhiên việc kiểm soát dịch bệnh thường được làm sau khi dịch bệnh bùng phát nên tác hại của dịch bệnh rất lớn. Do vậy đặt ra một nhu cầu là xây dựng các ứng dụng chăm sóc sức khỏe cộng đồng và những hệ thống có khả năng phát hiện sớm các bất thường để phát hiện các dịch bệnh bùng phát. Tiền đề 2: Giải pháp hiện tại và nhược điểm. Hiện tại đã có rất nhiều phương pháp và kênh thông tin để có thể nắm bắt được tình hình phát triển của bệnh dịch. Các kênh thông tin có thể nhận được kết quả về bệnh dịch như: từ các nghiên cứu của tổ chức y tế thế giới (WHO), từ những báo cáo 2 của các bệnh viện và trung tâm y tế, từ những báo cáo tình hình bán thuốc và sử dụng dịch vụ chăm sóc sức khỏe của các cửa hàng tư nhân, từ những tổng đài hỏi đáp về sức khỏe. Nhưng thời gian để phản hồi kết quả của các kênh thông tin này chậm, dẫn đến những kết quả thu nhận được không có ý nghĩa trong việc phát hiện sớm và ngăn ngừa sự phát triển của bệnh dịch Tiền đề 3: Lượng tri thức khổng lồ trên mạng xã hội chưa được khai thác Ngày nay với sự bùng nổ của Internet và thông tin làm đột phá khả năng chia sẻ thông tin giữa cộng đồng. Chưa bao giờ việc chia sẻ thông tin lại có thể diễn ra một cách dễ dàng và nhanh chóng đến như vậy. Nhờ đó, ngoài khái niệm thế giới thực mà con người đang có, khái niệm thế giới ảo và mạng xã hội đã ra đời. Với mạng xã hội con người có thể thực hiện được rất nhiều những nhu cầu của mình như xem tin tức, giải trí, chia sẻ thông tin, tạo và mở rộng các quan hệ với một hay một cộng đồng khác. Sự phát triển như vũ bão của mạng xã hội đồng nghĩa với việc con người đưa những tri thức của mình lên đó ngày càng nhiều. Do đó, nó đem lại một cơ hội rất lớn cho những người khai thác thông tin, khai phá tri thức trên mạng xã hội để xây dựng những ứng dụng phục vụ cho cộng đồng. Tuy nhiên cho đến nay, lượng tri thức này chưa được khai thác đúng mức. Tiền đề 4: Ưu điểm của mạng xã hội. Sự phản ánh của cộng đồng người dùng ở trên mạng xã hội đối với các sự việc diễn ra trong đời sống thực tế là tức thời. Kết luận: Bốn tiền đề trên chính là những nguyên nhân của ý tưởng xây dựng hệ thống giám sát dịch bệnh bằng cách khai thác thông tin trên mạng xã hội. Ý tưởng này cụ thể hơn là khai thác những hành vi tự bảo vệ mình (self protection) của cộng đồng để phát hiện ra các bất thường từ đó xây dựng một hệ thống cảnh báo sớm. Ý tưởng này được trình bày chi tiết hơn ở phần sau. 3 1.2 Ý tưởng khai thác các bất thường về những hành vi tự bảo vệ mình của cộng đồng. 1.2.1 Con người thường làm gì khi có các vấn đề lo ngại về sức khỏe Phân tích câu trả lời của câu hỏi này chính là sẽ đưa đến ý tưởng xây dựng một hệ thống phát hiện sớm các bất thường. Khi gặp các vấn đề lo ngại về sức khỏe con người sẽ có những hành động tự bảo vệ mình, vậy con người thường sẽ làm gì? John và Salathe [1] đưa ra danh sách những hành vi/việc làm con người thường làm để tự bảo vệ mình khi có những lo ngại về sức khỏe như sau: - Tránh những người bị ho hoặc hắt hơi (avoid people who cough/sneeze) - Tránh tụ tập đông người (avoid large gatherings of people). - Rửa tay thường xuyên hơn (wash hands more often) - Tránh xa những người đã tiếp xúc với người nhiễm bệnh (avoid people who are in contact with infected people) - Tránh sử dụng các phương tiện giao thông công cộng (avoid public transportation) - Tránh các khu công cộng như trường học hoặc nơi làm việc (avoid school/work) - Tránh đi du lịch đến những khu vực bị ảnh hưởng (avoid travel to infected areas) - Tăng cường sử dụng các chất tẩy uế để làm sạch các bề mặt (increased use of disinfectant to clean surfaces) - Đeo khẩu trang (wear a mask) - Tìm đến các dịch vụ và phương tiện chăm sóc y tế như đi khám bác sĩ, tiêm và sử dụng các loại vắc-cin hoặc thuốc (seeking a pharmaceutical intervention (vaccine and/or antiviral drugs)) - Hủy bỏ các sự kiện, hoạt động xã hội (canceling a social event) - Giảm tần suất mua sắm (reducing the frequency of shopping trips) 4 Bằng việc giám sát những hành vi này trên mạng xã hội, ta có thể phân tích được sự bất thường của các nó, nhờ đó có thể xây dựng một hệ thống để đưa ra các cảnh báo sớm cho cộng đồng. Chi tiết hơn về hệ thống này được trình bày rõ trong mục 1.2.2. 1.2.2 Hệ thống cảnh báo sớm dựa trên phân tích các bất thường Ý tưởng này dựa trên suy luận đơn giản là khi một dịch bệnh bùng phát thì các hành vi tự bảo vệ của cộng đồng sẽ tăng một cách bất thường và những thông tin này sẽ được thể hiện trên các mạng xã hội. Do đó, dựa trên mạng xã hội, ta có thể xây dựng được một hệ thống có khả năng phân tích những bất thường của những loại hành vi này để đưa ra các cảnh báo cho cộng đồng nhờ đó có khả năng kiểm soát được sự bùng phát và phát triển của dịch bệnh. Ví dụ: xét hành vi “Tìm đến các dịch vụ và phương tiện chăm sóc y tế”. Hình 1 minh họa số lượng blogger thực hiện hành vi này theo thời gian: Hình 1 - Ví dụ về thống kê hành vi bất thường 5 Ở Hình 1, số lượng thông điệp của blogger có thực hiện hành vi này từ ngày 1 đến 6 là từ khoảng 50 đến 70, trong khi đó trong ngày 7, 8, số lượng này tăng đột biến lên 600 đến 700. Điều này có ý nghĩa rất lớn, bởi đã có một điều gì đó bất thường đã xảy ra ở ngày 7, 8, có khả năng một dịch bệnh nào đó đang xảy ra ở cộng đồng. Và mục tiêu của một hệ thống cảnh báo sớm là phát hiện những hành vi bất thường như vậy. Nguyên nhân để làm tăng tính khả thi của việc xây dựng hệ thống này là: Mạng xã hội là một phản ánh tức thời của cộng đồng, do đó một khi hệ thống này được xây dựng nên, việc cảnh báo dịch bệnh bùng phát sẽ nhanh hơn so với các kênh thông tin khác (từ tổ chức quốc tế WHO, từ các viện nghiên cứu về sức khỏe, …). Nhờ đó có thể giảm được tác hại của dịch bệnh. Hình 2 - Đồ thị phát triển của dịch bệnh khi không có và có một hệ thống phát hiện sớm Hình 2 trình bày mong muốn của một hệ thống cảnh báo sớm. Với trục tung biểu thị mức độ nguy hiểm và trục hoành thể hiện thời gian phát triển của dịch bệnh. Với đồ thị (1) thể hiện sự phát triển của dịch bệnh với sự cảnh báo thông thường thì mong muốn của một hệ thống cảnh báo sớm sẽ làm cho sự phát triển của dịch bệnh sẽ giống như đồ thị (2). Khi đó, tác hại của dịch bệnh đến với đời sống của con người sẽ được giảm tối thiểu và dịch bệnh sẽ được kiểm soát nhanh chóng và kịp thời. Đó chính là ý nghĩa của một hệ thống cảnh báo sớm. t level (2) (1) (1) Đồ thị phát triển của dịch bênh một cách tự nhiên (2) Đồ thị phát triển của dịch bệnh khi có một hệ thống phát hiện sớm [...]... các tin tức về sức khỏe liên quan đến người và động vật và hiển thị dữ liệu lên Google Map 2.2 Tổng quan về mạng xã hội và các ứng dụng trên mạng xã hội Mạng xã hội hiện nay ra đời là kết quả tất yếu của sự bùng nổ thông tin trên Internet Nhu cầu chia sẻ thông tin và trao đổi thông tin ngày càng nhiều Do vậy, ngoài việc nhận được các thông tin chia sẻ, con người còn tạo dựng các mối quan hệ trên mạng. .. loại mạng xã hội phục vụ cho những mục đích khác nhau, do đó tùy theo hình thức và thông tin cung cấp của từng mạng xã hội sẽ có những cách khai thác khác nhau Hình thức văn bản thông qua các diễn đạt sử dụng ngôn ngữ tự nhiên là một hình thức mà hầu hết người dùng ở tất cả các mạng xã hội đều sử dụng Do đó, mạng xã hội ra đời kéo theo một thách thức cho các nhà nghiên cứu làm sao có thể khai thác. .. dựng hệ thống phát hiện các bất thường trong mạng xã hội phục vụ cho việc giám sát sự phát triển của dịch bệnh Việc xây dựng các thành phần của hệ thống này sẽ được trình bày chi tiết trong Chương 3 qua dự án DIZZIE - một case study về xây dựng một hệ thống khai thác văn bản trên mạng xã hội để phát hiện các bất thường phục vụ giám sát sự phát triển của dịch bệnh 25 Chương 3 Phân tích, thiết kế và cài... dùng trên mạng xã hội ảo về thế giới thật, hệ thống phát hiện bất thường này có thể cung cấp thông tin cho người dùng nói chung và các nhà chăm sóc sức khỏe những dấu hiệu sớm về dịch bệnh Nhờ đó có khả năng phát hiện sớm và làm giảm tác hại của bệnh dịch Tuy nhiên, việc phát hiện các hành vi trên mạng xã hội sử dụng các kỹ thuật máy học, thông tin trên mạng xã hội nhiều nhưng độ nhiễu và không đáng tin. .. của Internet, thông tin được tạo ra từng giờ, từng ngày Internet trở thành một kho thông tin, kho tri thức khổng lồ của nhân loại Một vấn đề rất quan trọng được đặt ra là làm sao có thể khai thác được các tri thức trong núi thông tin khổng lồ đó Đó chính là nhiệm vụ của bài toán khai thác thông tin trong văn bản Khai thác thông tin trong văn bản là một lĩnh vực nghiên cứu rộng có nhiệm vụ phát hiện... các bất thường mà luận văn muốn trình bày Với sự bùng nổ của các dịch bệnh như: H1N1, H5N1 và bệnh cúm trên phạm vi toàn cầu gây ảnh hưởng nặng nề đến nền kinh tế của thế giới và sự hoang mang của nhân loại Mục tiêu của DIZZIE là khai thác thông tin trên mạng xã hội Twitter để hỗ trợ trong công việc giám sát sự bùng phát của bệnh cúm thông qua phát hiện các bất thường trong các hành vi liên quan đến... dụng giám sát sự phát triển của các dịch bệnh bằng cách khai thác thông tin trên mạng xã hội o Đưa ra kiến trúc của hệ thống ở mức thiết kế o Thử nghiệm ảnh hưởng của các tập đặc trưng, các thuật toán phân lớp đối với kết quả phân lớp Với những mục tiêu đó, luận văn sẽ trình bày những nội dung sau: Chương 1- Giới thiệu các tiền đề dẫn đến sự cần thiết của việc xây dựng một ứng dụng khai thác thông tin. .. thông tin mang tính cá nhân hóa như thăm dò dư luận thì mạng xã hội là một nơi tất yếu cần phải được khai thác nếu không muốn thực hiện những cuộc khảo sát trên thế giới thực Nhờ đó, nếu tận dụng được kho thông tin trên mạng xã hội này, chi phí để thực hiện những cuộc khảo sát, thăm dò dư luận sẽ được giảm đáng kể Bởi nếu muốn thực hiện cuộc khảo sát ở thế giới thực, con người cần phải tốn rất nhiều... tin trên mạng xã hội phục vụ cho việc giám sát sự bùng phát của các dịch bệnh, lý do của việc thực hiện đề tài và đưa ra mục tiêu của luận văn Phần tóm tắt nội dung từng chương của luận văn được trình bày ở cuối chương này Chương 2 - Chương này sẽ trình bày tổng quan những hướng nghiên cứu liên quan đến luận văn Bao gồm: các công trình liên quan đến những hệ thống giám sát sức khỏe và dịch bệnh trên. .. Giới thiệu về mạng xã hội Twitter và cách download dữ liệu từ mạng xã hội Twitter Giới thiệu kiến trúc chung của hệ thống sẽ xây dựng Các phương pháp sử dụng cho các bài toán con của bài toán phân loại văn bản: phương pháp biểu diễn tài liệu, các thuật toán phân lớp,… 3.1 Giới thiệu DIZZIE1 và mục tiêu của hệ thống Hệ thống DIZZIE là một áp dụng của việc khai thác thông tin trên mạng xã hội để phát . dẫn đến sự cần thiết của việc xây dựng một ứng dụng khai thác thông tin trên mạng xã hội phục vụ cho việc giám sát sự bùng phát của các dịch bệnh, lý do của việc thực hiện đề tài và đưa ra mục. luận thì mạng xã hội là một nơi tất yếu cần phải được khai thác nếu không muốn thực hiện những cuộc khảo sát trên thế giới thực. Nhờ đó, nếu tận dụng được kho thông tin trên mạng xã hội này,. Các loại mạng xã hội phục vụ cho những mục đích khác nhau, do đó tùy theo hình thức và thông tin cung cấp của từng mạng xã hội sẽ có những cách khai thác khác nhau. Hình thức văn bản thông qua