Trang tin có tên nCoV2019.live được sử dụng công nghệ Web-Scraping thu thập dữ
liệu từ nhiều nguồn như WHO, CDC,.. Hiện trang tin có hơn 25 triệu lượt truy cập mỗi ngày từ khắp nơi trên thế giới. nCoV2019.live không phải là một trang tin từ 1 tổ chức chính thống nào nhưng lại thu hút được nhiều lượt xem và hoạt động rất tốt. Đây là một trong những trang tin xuất hiện đầu tiên cung cấp thông tin về tình hình bệnh dịch. Mới đầu website chỉ cung cấp tổng hợp những số liệu của Trung Quốc và trên thế giới, sau đó
dần phát triển thống kê của cho 13 quốc gia và khu vực. Website cũng có thêm những tab
gồm bản đồ, thông tin chung cung cấp về cách phòng tránh virut.
Một số trang tin chính thống được cung cấp từ tổ chức y tế thế giới và bộ y tế của các nước:
Trang tin của WHO cập nhật con số chính xác, nhanh chóng. Tuy nhiên trong thời gian đầu của đại dịch, WHO chưa kịp thời đưa ra trang tin mà chỉ thống kê đưa số liệu thủ
công lên trên trang chủ chính của mình. Đây cũng được coi là 1 độ trễ, không hợp lý khi xử
lý ứng phó với đại dịch. Website có tên “WHO Coronavirus Disease (COVID-19)
Dashboard” cũng thống kê số ca nhiễm và số ca tử vong rất chính xác, nhanh tuy nhiên
chỉ
cung cấp số ca nhiễm và tử vong của từng nước. Một số nước lớn, số ca nhiễm nhiều sẽ có
thêm số ca nhiễm tăng từng ngày. Giao diện website hơi khó sử dụng.
Hình 2.8: Trang tin của WHO
Trang tin của thành phố Tokyo tại Nhật Bản với tên gọi “Thông tin chiến dịch chống
COVID”. Website cung cấp những thông tin cơ bản về tình hình dịch tại Nhật Bản kèm theo những chú ý, cảnh báo để đối phó dịch bệnh. Thông tin trên website được lấy chủ yếu từ thông kê của Trung tâm y tế cộng đồng của Nhật Bản. Giao diện website có màu
Khóa luận tốt nghiệp
sắc nhẹ nhàng, hơi rối mắt vì nhiều bảng biểu.
Hình 2.9: Trang tin Thông tin chiến dịch chống COVID của Tokyo Nhật Bản
Tại Úc, bộ y tế còn cho ra mắt một chiếc app mang tên COVIDsafe app, tăng tốc quá
trình tìm kiếm thủ công hiện tại để tìm những người đã tiếp xúc gần với ai nhiễm COVID-
19. Điều này có nghĩa là bạn sẽ được liên lạc nhanh hơn nếu bạn gặp rủi ro và làm giảm
cơ hội bạn truyền virut cho gia đình, bạn bè và những người khác trong cộng đồng. Khi tải
xuống ứng dụng, cần cung cấp tên, số điện thoại di động và mã bưu điện và chọn độ tuổi
của (các thông tin chỉ được xem bởi mỗi cá nhân). Tiếp đó sẽ nhận được một tin nhắn văn
COVIDSafe thông qua Bluetooth. Khi ứng dụng nhận ra một người dùng khác, nó sẽ ghi
chú ngày, thời gian, khoảng cách và thời lượng của liên hệ và mã tham chiếu khác của người dùng. Ứng dụng COVIDSafe không thu thập vị trí của bạn nên vẫn đảm bảo quyền
Ngoài ra còn có những trang tin hay ứng dụng khác được tạo ra để hỗ trợ và cung cấp thông tin về đại dịch COVID-2019 này.
2.2. Ket luận chương
Trong chương này đã cung cấp thông tin về bối cảnh dịch bênh, thực trạng cung cấp
thông tin, công nghệ được sử dụng ở trên thế giới cũng như cụ thể ở tại Việt Nam. Tại Việt
Nam có nhiều trang tin cung cấp về dịch bênh COVID-19 thông tin về Việt Nam nhìn chung chính xác nhanh chóng, thông tin về thế giới không đảm bảo cập nhật kịp thời chính
xác. Hai trang tin chính thống được biết đến nhiều nhất là trang tin của bộ y tế và Thông
tin Chính phủ tuy nhiên hầu hết các nguồn thông tin này đưa nhiều tin tức dẫn đến thông
tin bị rời rạc nhất là tại Fanpage Thông tin Chính phủ khi đưa tin xen lẫn với thông tin khác, rất khó để tìm kiếm lại bài viết liên quan ngay lập tức. Thông tin vẫn được cập nhật
bằng thủ công nên không theo thời gian thực hoặc nhanh chóng nhưng do cập nhật thủ công vẫn có thể dẫn dến sai sót. Từ đây, là cơ sở cho lý do chọn bài toán và cung cấp thêm
Khóa luận tốt nghiệp
CHƯƠNG 3: ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG WEBSITE TRANG TIN VỀ DỊCH BỆNH VIÊM ĐƯỜNG HÔ HẤP
CẤP COVID-19
Ở chương trước, khóa luận đã nêu được thực trạng cung cấp thông tin về tình hình dịch bệnh tại Việt Nam và trên thế giới. Từ những thực trạng đó, trong chương này
sẽ phát biểu bài toán thực tế, đưa ra phương hướng giải quyết và tiến hành giải quyết bài toán này. Đồng thời cũng đưa ra từng mô hình cho từng bài toán nhỏ hơn để dễ dàng giải quyết.
2.1. Phát biểu bài toán
Bài toán được đặt ra ở đây là việc áp dụng khai phá dữ liệu để trích chọn ra những thông tin về dịch bệnh COVID-19 trên các trang web các bộ ngành, được người dùng tiếp
cận sử dụng thường xuyên để nắm bắt tin tức một cách chính xác và nhanh nhạy nhất, từ
đó xây dựng một website có chứa những thông tin quan trọng về tình hình dịch bệnh.Trang
tin được xây dựng theo cấu trúc đơn giản dễ chỉnh sửa, thay đổi phù hợp với các chủ đề khác. Trong khuôn khổ nội dung khóa luận này, sẽ tiến hành tập trung vào việc xử lý bài
toán xây dựng website trang tin về dịch bệnh viêm đường hô hấp cấp COVID-19 thông qua việc lấy dữ thông tin từ những nguồn tin chính thống. Các thông tin được lấy là thông
tin, số liệu chính xác, được cập nhật theo thời gian thực.
Bài toán xây dựng website trang tin về dịch bệnh viêm đường hô hấp cấp COVID- 19 sẽ lấy tất cả các thông tin liên quan đến tình hình dịch bệnh trên các website, báo điện
tử phổ biến. Chắc lọc những thông tin cần thiết đưa vào cơ sở dữ liệu gồm nhiều bảng. Từ
đó, xây dựng một trang tin để tổng hợp, biểu thị những thông tin có trong cơ sở dữ liệu thông qua những biểu đồ, danh sách trực quan hơn với người dùng. Cụ thể hơn, bài toán
sẽ được chia làm 2 bài toán nhỏ.
Bài toán 1: Ứng dụng khai phá dữ liệu để trích chọn thông tin về dịch bệnh viêm đường hô hấp cấp COVID-19 trên các trang web.
hợp những phương pháp đó để đưa ra kết quả cho bài toán này. Nhằm giải quyết được bài toán 1 một cách tốt nhất, trong khóa luận này sẽ đề xuất 1 mô hình giải quyết bài toán 1 cụ thể như sau:
Hình 3.1: Quá trình phát hiện và trích chọn thông tin về tình hình dịch bệnh COVID19
- (1) Bộ thu thập dữ liệu: Tại những website đầu vào, bộ thu thập dữ liệu sẽ tự động thu thập những dữ liệu có liên quan đến tình hình dịch bệnh rồi chuyển sang bước tiếp theo.
- (2) Tiền xử lý dữ liệu: Bản chất vốn dĩ của website là được tạo nên từ các thẻ HTML, nên tại bước này tách những liệu trong các thẻ thành dữ liệu thô dạng text và tiếp tục đến bước tiếp theo.
- (3) Bộ phát hiện thông tin: Sau khi dữ liệu được qua bước tiền xử lý dữ liệu, những dữ liệu dạng thô sẽ được đưa vào bộ phát hiện thông tin nhằm lấy ra những thông tin cần thiết liên quan đến bệnh viêm đường hô hấp cấp. Những thông tin không liên quan sẽ được loại bỏ còn lại những thông tin liên quan được giữ lại và chuyển sang bước
cuối.
- (4) Bộ trích chọn thông tin: Những thông tin đã được chọn lọc qua các bước trước
sẽ được tiến hành lấy ra những thông tin cụ thể, đủ điều kiện đáp ứng cho việc xây dựng website.
Từ mô hình trên, ta có thể tiếp tục chia Bài toán 1 thành 2 pha nhỏ và được phân tích cụ thể như sau:
Pha 1 - Phát hiện thông tin về COVID-19: Tại pha đầu tiên này, dữ liệu đầu vào là các website có thông tin về tình hình dịch bênh COVID-19. Trên các trang này không chỉ có thông tin về tình hình dịch bệnh viêm phổi cấp mà còn rất nhiều thông tin liên quan đến lĩnh vực khác nhau, thông tin rất đa dạng. Do đó, tại pha 1 bài toán 1 này sẽ tiến hành 2 bước chính:
- Bước 1: Áp dụng các luật đã biết để có có thể lọc ra dữ liệu trong những miền thông tin về COVID-19
- Bước 2: Dùng bộ lọc nhận diện các bản tin có chứa thông tin về COVID-19
Pha 2 - Trích chọn thông tin về COVID-19: Tại pha này ta sẽ trích chọn ra những thông tin cụ thể như số ca nhiễm, số ca khỏi, số ca tử vong, số ca đang chữa trị, số ca nhiễm từng ngày, số ca khỏi từng ngày, số ca tử vong từng ngày, tên các tỉnh, quốc
SAR-Cov2 Viêm đường hô hấp cấp nCoV
Đại dịch Dương tính
Virus Corona Âm tính
Viêm phổi cấp
Khóa luận tốt nghiệp
gia nhiễm. Cụ thể hóa những thông tin được trích chọn:
- Thông tin về thời gian: phải có định dạng cụ thể như dd/mm/yyyy. Thông tin
về
ngày dùng ngôn ngữ tự nhiên, văn nói như: Trong vòng 24 ngày gần đây,... phải được qua xử lý để đưa về ngày cụ thể chính xác và có chung định dạng. Nên dùng luật để trích
chọn thông tin này.
- Thông tin về số liệu: phải là định dạng kiểu số number (Ví dụ: 328, 83000).
Không để dạng có các dấu chấm, phẩy để ngăn cách hàng nghìn, triệu (1,400; 1.285.432)
những số này khi đưa vào cơ sở dữ liệu sẽ bị hiểu nhầm thành dạng chuỗi ký tự. Nên kết hợp sử dụng luật và phương pháp chọn thực thể để giải quyết.
- Thông tin về địa điểm (tên quốc gia, tỉnh/thành phố): Là dạng chuỗi ký tự,
đối
với tên quốc gia và các tỉnh/ thành phố của Việt Nam thì được nhận dạng là kiểu chữ có dấu. Nên dùng phương pháp chọn thực thể để giải quyết.
- P h a 1
Mục tiêu chính của pha 1 là từ những dữ liệu thô dạng text, kiểm tra xem đây có phải là những thông tin liên quan đến dịch bệnh viêm đường hô hấp cấp COVID-19 hay
không. Nếu có thì chọn thông tin đó, không phải sẽ được loại bỏ.
- Đầu vào: Những dữ liệu thô dạng text lấy từ các thể HTML thuộc miền xác định.
- Đầu ra: Thông tin có liên quan đến dịch viêm đường hô hấp cấp COVID-19 hay
không? (CÓ/ KHÔNG)
Hình 3.2: Thành phần phát hiện thông tin
Khóa luận tốt nghiệp
Xây dựng tập luật cho bộ lọc dữ liệu
Thông qua khảo sát thấy, khi đọc đầu mục của một bài viết, ta có thể nắm khái quát
hết được những nội dung chính mà trong bài viết muốn đề cập đến. Những bài viết có đầu
mục như vậy ta có thể tiên hành tiếp tục lọc dữ liệu và phân lớp dữ liệu. Tuy nhiên không
phải lúc nào cũng vậy, những bài viết có đầu mục ngắn gọn không bao quát hàm ý bài viết nhằm khiến người đọc tò mò hơn nhưng lại gây khó khăn trong việc lọc dữ liệu. Hơn
nữa đối với dịch bệnh viêm đường hô hấp cấp COVID-19 không phải chỉ có 1 tên gọi như
hiện giờ, mà tên bệnh đã được biến đổi phù hợp với từng giai đoạn. Ví dụ trong hình dưới
đây, các đầu đề chỉ rút ngắn, có tên bệnh nhưng không phải COVID-19, nếu không biết
Hình 3.3: Tiêu đề có chứa từ đồng nghĩa của tên dịch bệnh
Vì vậy, trong khóa luận này sẽ đưa ra 1 tập các từ khóa liên quan đến dịch viêm đường hô hấp cấp COVID-19 để đối chiếu, dễ dàng xác định thông tin đúng có vị trí ở đâu.
Không qua khỏi Mất
Nhiễm Mắc
Âm tính
Khỏi Dương tính
Đang chữa Đang điều trị
Từ đó, ta xây dựng các tập luật cho 2 trường hợp trên. Trường hợp 1 ứng với mẫu 1, khi chọn các bài viết có liên quan đến bệnh viêm đường hô hấp cấp COVID-19. Và trường hợp 2 ứng với mẫu 2, để lọc thông tin chính xác hơn.
Mẫu 1 = “Tên dịch bệnh” Mẫu 2 = “Động từ đồng nghĩa”
Ví dụ minh họa khi cho mẫu 1
Trong hình ảnh bên dưới, ta thấy có từ “viêm phổi cấp” và “nCoV. Từ đó ta có thể nhận diện được trang tin này cũng đưa tin liên quan đến bệnh COVID-19.
vncdc.gov. vn > P lion g-chong-dich-ben r∣- Vieni-phoi-ca T
Phỏng chống dich bênh viêm phổi cáp nCoV
Phòng Chong dịch bệnh viêm phỗi cấp nCoV. Danh sách các đơn Vi đã được bộ y tế Cho phép
thực hiện xét nghiệm khẵng định covid-19 (cập nhật đền ngày ...
Một ví dụ khác, bên ảnh dưới ta thấy xuất hiện từ “COVID-19” và “SAR-CoV-2” là 2 cụm từ được đưa ra trong tập từ khóa liên quan đến thông tin cần tìm.
Thông tin dịch bệnh COVID-19 I SARS-CoV-2 ở Việt Nam
Thông bảo về Khai báo y tề chính thức. Biêu đồ thổng kè tình hình dịch bệnh. Tim hiêu về triệu chửng, cách phòng ngừa, cảnh báo du lịch và hỏi đảp về dịch bệnh.
Ví dụ minh họa cho mẫu 2:
Trong mẫu 2 là sử dụng những động từ đồng nghĩa. Ở hình bên dưới, thống kê không sử dụng từ “nhiễm” mà thay bằng từ “mắc”, dùng “tử vong” thay cho “chết’”.
Khóa luận tốt nghiệp
Trong các trang web, bài viết đã được xác định có thông tin về bệnh COVID-19 thì nội dung các bài viết nếu là bằng ngôn ngữ tiếng việt sẽ có nhiều từ đồng nghĩa, để tránh bỏ sót thông tin và dễ hiểu hơn khóa luận cũng đưa ra tập các từ đồng nghĩa với các thông tin cần để xây dựng trang tin như:
Cập nhật lúc 18h30 ngày 7-6-2020:
*Thế giới: 7.000.815 người mác; 402.575 người tử vong. *Viêt Nam: 329 người mác, 0 tử vong.
Xây dựng mô hình phân lớp
Trong khi giải quyết bài toán 1 pha 1, bộ phân lớp có một tác dụng quan trọng trong việc lọc tin, bằng cách đưa ra câu trả cho từng thông tin được đưa ra. Sau khi Nếu thông tin đúng sẽ được giữ lại, không đúng sẽ bị loại bỏ. Trong mô hình phân lớp này sẽ được gán cụ thể 2 loại nhãn là “CÓ” và “KHÔNG”.
- Lớp chứa thông tin về tình hình dịch bệnh COVID-19 sẽ được gán nhãn là “CÓ”
- Lớp không chứa thông tin về tình hình dịch bệnh COVID-19 sẽ được gán nhãn là “KHÔNG”
Trong trang tin đã được xác định có thông tin về bệnh COVID-19 nhưng vẫn còn những thông tin nhiễu xung quanh, ta sẽ tiến hành xây dựng một tập để huấn luyện và sử dụng tập đã được huấn luyện để tiến hành xác định các thông tin tình hình dịch bệnh. Phân lớp vốn là một bài toán quan trọng của học máy (Machine Learning - ML) và thông thường để xây duwngjn mô hình phân lớp cho bài toán này chúng ta sử dụng các thuật toán học giám sát (Supervised Learning) như: KNN, Neural Network, SVM, Decision Tree, Navie Bayers. Áp dụng thực trong việc xây dựng mô hình phân lớp ở pha 1 bài toán 1 này, mô hình sẽ dùng thuật toán Naive Bayes. Đây là một phương pháp cổ điển nhưng vẫn rất hữu dụng khi áp dụng để xử lý các văn bản. Naive Bayes rất nổi tiếng với bài toán phân loại thư rác, phân lớp văn bản,...Một số lý do chính chọn thuật toán Naive Bayes:
- Giả định độc lập: hoạt động tốt cho nhiều bài toán/miền dữ liệu và ứng dụng. Dữ liệu được đưa vào huấn luyện la dữ luyện đã qua tiền xử lý, ở trạng thái dữ liệu tho dạng text nên khi đem đi huấn luyện với thuật toán này nó sẽ phát huy được hết thế mạnh của thuật toán, tạo ra sự chính xác cao.
- Tốc độ huấn luyện của Naive Bayes khá tốt và thực nghiệm cho thấy được rằng phương pháp sử dụng mô hình này đem lại kết quả khả quan đối với các dữ liệu dạng văn bản.
Bộ phân lớp Bayes là một giải thuật thuộc lớp giải thuật thống kê, nó có thể dự