Mục tiêu chính của đề tài là đề xuất một mô hình biểu diễn trực quan dữ liệu bệnh tay chân miệng và các yếu tố khí hậu như nhiệt độ trung bình, nhiệt độ cao nhất, độ ẩm trung bình, và tổ
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Võ Tấn Lực
TRỰC QUAN HÓA DỮ LIỆU DỊCH BỆNH TAY CHÂN MIỆNG
KHẢO SÁT TẬP DỮ LIỆU TỈNH BÌNH DƯƠNG
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
TP HỒ CHÍ MINH – NĂM 2016
Trang 2ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Võ Tấn Lực
TRỰC QUAN HÓA DỮ LIỆU DỊCH BỆNH TAY CHÂN MIỆNG
KHẢO SÁT TẬP DỮ LIỆU TỈNH BÌNH DƯƠNG
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS.TRẦN VĨNH PHƯỚC
TP HỒ CHÍ MINH – NĂM 2016
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc
TP Hồ Chí Minh, ngày 19 tháng 04 năm 2016
Người thực hiện
Võ Tấn Lực
Trang 4Tôi xin cảm ơn quý thầy cô giảng viên và chuyên viên tại trường Đại học Công nghệ Thông tin đã truyền đạt những kiến thức quý báu cũng như hỗ trợ cho tôi trong những công tác học vụ trong suốt thời gian học tập vừa qua
Tôi xin chân thành cảm ơn sâu sắc đến ban lãnh đạo và các anh chị tại trung tâm khí tượng thủy văn tỉnh Bình Dương, trung tâm y tế dự phòng thị xã Thuận An
và trung tâm y tế dự phòng tỉnh Bình Dương đã hỗ trợ tôi về mặt dữ liệu bệnh tay chân miệng, dữ liệu khí tượng và những ý kiến đóng góp trong lĩnh vực quản lý bệnh tay chân miệng trên địa bàn Tỉnh Bình Dương
Cuối cùng tôi xin gửi lời cám ơn đến gia đình, đồng nghiệp và người vợ của tôi đã luôn bên cạnh hỗ trợ động viên và tạo điều kiện thuận lợi cho tôi hoàn thành luận văn
Trang 5MỤC LỤC
DANH MỤC BẢNG 3
DANH MỤC HÌNH VẼ 4
GIỚI THIỆU 5
CHƯƠNG 1 TỔNG QUAN VỀ TRỰC QUAN HÓA VÀ NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 7
1.1 Khái niệm về trực quan hóa 7
1.2 Các công trình nghiên cứu liên quan 8
CHƯƠNG 2 BIỂU DIỄN TRỰC QUAN DỮ LIỆU BỆNH TAY CHÂN MIỆNG VÀ CÁC YẾU TỐ KHÍ HẬU 10
2.1 Biến dữ liệu 10
2.2 Biến trực quan 11
2.2.1 Hình dạng 12
2.2.2 Vị trí 12
2.2.3 Màu sắc 15
2.3 Các phép biến đổi từ biến dữ liệu thành biến trực quan 15
2.4 Phân cụm dữ liệu bệnh tay chân miệng và dữ liệu khí hậu 19
2.5 Kết luận 23
CHƯƠNG 3 CHƯƠNG TRÌNH MÔ PHỎNG 24
3.1 Giới thiệu 24
3.2 Thu thập dữ liệu và thiết kế cơ sở dữ liệu 24
3.2.1 Dữ liệu bệnh tay chân miệng 24
3.2.2 Dữ liệu khí hậu 26
3.3 Thiết kế cơ sở dữ liệu 28
Trang 63.4 Chương trình mô phỏng 32
3.5 Kết luận 40
CHƯƠNG 4 KIỂM CHỨNG TƯƠNG QUAN CỦA BỆNH TAY CHÂN MIỆNG VỚI CÁC YẾU TỐ KHÍ HẬU TỈNH BÌNH DƯƠNG BẰNG HỆ SỐ TƯƠNG QUAN SPEARMAN 42
4.1 Giới thiệu 42
4.2 Kết quả thực hiện kiểm chứng bằng hệ số tương quan Spearman 42
4.3 Kết luận 45
CHƯƠNG 5 KẾT LUẬN 47
5.1 Kết luận 47
5.2 Hướng phát triển 48
TÀI LIỆU THAM KHẢO 49
Trang 7DANH MỤC BẢNG Bảng 2 1 Bảng dữ liệu bệnh tay chân miệng và các yếu tố khí hậu theo đơn vị tuần
tại khu vực a trong năm y 10
Bảng 2 2 Kết quả phân cụm dữ liệu bệnh tổng hợp của tỉnh Bình Dương 20 Bảng 2 3 Kết quả giá trị nhỏ nhất và giá trị lớn nhất trong từng cụm của dữ liệu
bệnh tổng hợp tại Tỉnh Bình Dương sau khi đã hiệu chỉnh 20
Bảng 2 4 Kết quả phân cụm dữ liệu bệnh tại tất cả các huyện thị trong tỉnh 21 Bảng 2 5 Số lượng bệnh nhân lớn nhất và nhỏ nhất trong từng cụm khi phân cụm
số liệu tất cả các huyện thị 21
Bảng 2 6 Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu tổng
lượng mưa trên toàn địa bàn tỉnh 21
Bảng 2 7 Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu tổng
lượng mưa trên các khu vực huyện thị 22
Bảng 2 8 Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu nhiệt độ
trung bình trên toàn địa bàn tỉnh 22
Bảng 2 9 Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu nhiệt độ
cao nhất trung bình trên toàn địa bàn tỉnh 22
Bảng 2 10 Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu độ ẩm
trung bình trên toàn địa bàn tỉnh 23
Bảng 3 1 Dữ liệu bệnh tay chân miệng tại tỉnh Bình Dương trong tuần thứ 1 năm
Bảng 3 5 Bảng “environmental_tbl” lưu trữ thông tin về khí hậu và bệnh tay chân
miệng tại các khu vực theo thời gian 30
Bảng 4 1 Bảng danh sách các biến được sử dụng trong kiểm chứng tương quan
bằng hệ số tương quan Spearman 43
Trang 8DANH MỤC HÌNH VẼ
Hình 1 1 Quy trình trực quan hóa dữ liệu 7
Hình 2 1 Hệ trục tọa độ 3 chiều Oxyz 13
Hình 2 2 Bản đồ tỉnh Bình Dương gồm 7 huyện thị năm 2013 13
Hình 2 3 Biểu diễn các biến dữ liệu theo độ cao 14
Hình 2 4 Biểu diễn giá trị các biến dữ liệu theo độ cao và màu sắc 15
Hình 3 1 Giao diện chính của chương trình thử nghiệm biểu diễn trực quan dữ liệu bệnh tay chân miệng và các yếu tố khí hậu khảo sát tại tỉnh Bình Dương 34
Hình 3 2 Minh họa đổi màu trạng thái và hiển thị thông tin cơ bản của khu vực đang được di chuyển chuột 35
Hình 3 3 Khối thời gian nhiều biến biểu diễn các biến dữ liệu theo trục thời gian36 Hình 3 4 Số người nhiễm bệnh bắt đầu trên 100 ca một tuần khảo sát năm 2012 37 Hình 3 5 Số người nhiễm bệnh bắt đầu xuống dưới 100 ca một tuần khảo sát năm 2012 37
Hình 3 6 Khảo sát mối tương quan giữa bệnh tay chân miệng và các yếu tố khí hậu trên toàn tỉnh Bình Dương từ năm 2012 đến 2014 39
Hình 3 7 Thay đổi góc quan sát khối thời gian nhiều biến bằng thao tác xoay 39
Hình 4 1 Hệ số tương quan giữa các biến dữ liệu khảo sát năm 2012 43
Hình 4 2 Hệ số tương quan giữa các biến dữ liệu khảo sát năm 2013 44
Hình 4 3 Hệ số tương quan giữa các biến dữ liệu khảo sát năm 2014 44
Trang 9và mối tương quan giữa bệnh với các yếu tố khí hậu là yêu cầu cấp thiết Điều này
sẽ hỗ trợ ngành y tế và người dân có đầy đủ thông tin kịp thời, góp phần tích cực trong việc ngăn ngừa bệnh xảy ra
Mục tiêu chính của đề tài là đề xuất một mô hình biểu diễn trực quan dữ liệu bệnh tay chân miệng và các yếu tố khí hậu như nhiệt độ trung bình, nhiệt độ cao nhất, độ ẩm trung bình, và tổng lượng mưa trên khối thời gian nhiều biến Khối thời gian nhiều biến này sẽ hỗ trợ người dùng trong việc xác định tương quan giữa dữ liệu bệnh, thời gian, và các yếu tố khí hậu Ngoài ra, đề tài còn xây dựng một chương trình mô phỏng trực quan khối thời gian nhiều biến với bộ dữ liệu được thu thập tại Trung tâm y tế dự phòng và Trung tâm khí tượng thủy văn tỉnh Bình Dương Kết quả trực quan hóa này đã hỗ trợ các chuyên gia dịch tễ đánh giá sự tương quan của các tác nhân của bệnh hoặc theo dõi diễn biến tình hình dịch
Để thực hiện mục tiêu trên, luận văn được cấu trúc thành 5 chương như sau:
Chương 1 Tổng quan về trực quan hóa và những công trình nghiên cứu liên quan Giới thiệu khái niệm về trực quan hóa dữ liệu Giới thiệu về các mô hình
trực quan hóa như khối không gian thời gian, tọa độ song song và khối nhiều biến Giới thiệu tình hình biểu diễn thống kê bệnh tay chân miệng tại Việt Nam và việc xác định tương quan với các yếu tố khí hậu
Trang 10Chương 2 Biểu diễn trực quan dữ liệu bệnh tay chân miệng và dữ liệu khí hậu Trong chương này chúng tôi sẽ trình bày khái niệm biến dữ liệu và biến trực
quan được sử dụng trong mô hình trực quan dữ liệu bệnh tay chân miệng và dữ liệu khí hậu Định nghĩa các ánh xạ biến các bộ giá trị như thời gian - địa điểm, thời gian
- địa điểm - loại biến dữ liệu sang giá trị biến dữ liệu và giá trị màu sử dụng trong trực quan hóa dữ liệu Đồng thời chúng tôi ứng dụng thuật toán phân cụm K-Means trong thực hiện phân cụm giá trị của các loại biến dữ liệu theo nhu cầu sử dụng
Chương 3 Chương trình mô phỏng trực quan dữ liệu bệnh tay chân miệng và dữ liệu khí hậu – khảo sát tập dữ liệu tỉnh Bình Dương Cài đặt chương
trình mô phỏng với bộ dữ liệu được thu thập trong tỉnh Bình Dương từ năm 2012 đến 2014
Chương 4 Sử dụng hệ số tương quan Spearman kiểm tra tương quan của
dữ liệu bệnh tay chân miệng và dữ liệu khí hậu Kiểm định kết quả được rút ra sau
khi trả lời một số câu hỏi về sự tương quan của các biến dữ liệu bằng chương trình
mô phỏng với kết quả được thực hiện bằng sử dụng hệ số tương quan Spearman
Chương 5 Kết luận và hướng phát triển Đánh giá kết quả đã thực hiện và
đề xuất hướng phát triển của đề tài
Trang 11CHƯƠNG 1 TỔNG QUAN VỀ TRỰC QUAN HÓA VÀ NHỮNG
CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
1.1 Khái niệm về trực quan hóa
Trực quan hóa dữ liệu là thuật ngữ chung dùng để mô tả các tác vụ biểu diễn diễn dữ liệu thành các dạng có thể quan sát được nhằm hỗ trợ người dùng hiểu được những tính năng quan trọng của dữ liệu thông qua các tương tác bằng thị giác Các
mô hình, xu hướng và mối tương quan có thể không được phát hiện thông qua các
dữ liệu biểu diễn dựa trên văn bản hoặc con số nhưng có thể được khám phá và phân tích dễ dàng hơn thông qua các dạng biểu đồ hoặc hình ảnh đại diện trực quan [6]
Các kỹ thuật trực quan hóa dữ liệu sẽ biểu diễn dữ liệu sang các dạng hiển thị khác, người dùng sẽ sử dụng những kiến thức và kinh nghiệm của mình phối hợp với dữ liệu quan sát được để phân tích và khám phá dữ liệu [6] Ưu điểm của phương pháp trực quan hóa dữ liệu là người sử dụng các dữ liệu đã được trực quan hóa có thể đóng góp tri thức và kinh nghiệm của mình vào trong việc đưa ra kết quả phân tích dữ liệu
Hình 1 1 Quy trình trực quan hóa dữ liệu
(Nguồn: Trích dẫn từ [7])
Trang 121.2 Các công trình nghiên cứu liên quan
Dữ liệu về bệnh tay chân miệng và các yếu tố khí hậu lần lượt được thu thập
từ Trung tâm Y tế Dự phòng và Trung tâm Khí tượng Thủy văn Tỉnh Bình Dương
Dữ liệu bao gồm số người nhiễm bệnh, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng lượng mưa, độ ẩm trung bình theo từng tuần tại các khu vực khảo sát khác nhau Các biến dữ liệu này sẽ được áp dụng các kỹ thuật trực quan hóa để biểu diễn trực quan đến người dùng
Hiện tại, một số kỹ thuật trực quan hóa đã được ứng dụng để biểu diễn trực quan dữ liệu như mô hình khối không gian thời gian, tọa độ song song, và khối nhiều biến Các loại mô hình trực quan hóa khác nhau sẽ đáp ứng cho các mục tiêu trực quan hóa khác nhau Mỗi mô hình biểu diễn sẽ có những ưu khuyết điểm riêng
và vẫn chưa có mô hình nào có thể đáp ứng được tất cả các yêu cầu rất đa dạng của người sử dụng
Tọa độ song song là một kỹ thuật phổ biến trong trực quan hóa và phân tích
dữ liệu nhiều biến Trong kỹ thuật này mỗi chiều dữ liệu tương ứng với một trục, các trục được bố trí song song và cách đều với nhau Một bộ dữ liệu n chiều sẽ được biểu diễn trên n trục, và các các điểm trên các trục liền kề sẽ được nối với nhau bằng đoạn thẳng [8, 9] Hạn chế của kỹ thuật này là không thể biểu diễn trực quan được dữ liệu không gian 2 hoặc 3 chiều, không thể áp dụng các chỉ thị màu trong phân cụm các cấp độ giá trị của dữ liệu Việc xác định mối tương quan giữa nhiều biến dữ liệu sẽ gặp hạn chế vì mỗi biến dữ liệu dữ liệu chỉ có 2 biến dữ liệu khác liền kề trước và sau
Mô hình khối không gian thời gian cung cấp một kỹ thuật biểu diễn dữ liệu không gian và thời gian trên một hệ trục tọa độ thẳng góc 3 chiều [10, 11] Trong đó
dữ liệu về không gian được biểu diễn trên mặt phẳng Oxy và trục Oz được sử dụng
để biểu diễn dữ liệu thời gian Mô hình khối không gian thời gian cơ bản có thể giải quyết được hạn chế của tọa độ song song trong việc biểu diễn được dữ liệu không gian Tuy nhiên khối không gian thời gian bị giới hạn trong không gian 3 chiều Oxyz nên sẽ không thể biểu diễn thêm được những biến dữ liệu liên quan khác liên
Trang 13quan do bị giới hạn về số chiều Một số công trình nghiên cứu đã đề xuất việc tích hợp nhiều khối không gian thời gian để biểu diễn thêm được nhiều biến dữ liệu
Khối nhiều biến là một phương pháp tiếp cận trực quan hóa dữ liệu dựa trên việc kết hợp nhiều hệ tọa độ 2 chiều với khối không gian thời gian 3 chiều, trong đó trục thời gian và mặt phẳng không gian biểu diễn địa điểm, khu vực sẽ được sử dụng chung cho các biến dữ liệu Khối nhiều biến giải quyết được khuyết điểm về
sự giới hạn số chiều trong khối không gian và thời gian [12, 13, 14]
Các mô hình trực quan hóa đã được ứng dụng trong nhiều lĩnh vực như hỗ trợ suy luận trên thông tin không gian và thời gian [6], trực quan hóa dữ liệu di chuyển [13, 14], ,… Trong lĩnh vực y tế, trực quan hóa được sử dụng để biểu diễn
dữ liệu dịch bệnh nhằm hỗ trợ các chuyên gia y tế hiểu rõ về diễn biến của dịch bệnh cũng như sự tương quan của dịch bệnh với các yếu tố liên quan khác từ đó đưa
ra các chương trình phòng chống dịch bệnh hiệu quả, giảm thiểu ảnh hưởng của dịch bệnh đến xã hội
Một số công trình nghiên cứu trực quan hóa dữ liệu bệnh tay chân miệng đã được thực hiện, tuy nhiên việc biểu diễn thống kê số lượng người nhiễm bệnh tay chân miệng chỉ được thực hiện với khảo sát trên không gian 2 chiều Việc xác định
sự tương quan giữa số ca bệnh và các yếu tố khác chỉ được thực hiện bằng khảo sát nhiều mô hình biểu diễn 2 chiều và kết hợp với hệ số tương quan trong thống kê Tại Việt Nam, dữ liệu được khảo sát chủ yếu chỉ là số người nhiễm bệnh theo thời gian diễn ra bệnh trên địa bàn các tỉnh [1, 2] mà chưa có xác định sự tương quan với các yếu tố khí hậu như các công trình nghiên cứu quốc tế [15, 16, 17] Do đó một
mô hình trực quan hóa dữ liệu có thể hỗ trợ phân tích dữ liệu bệnh bệnh với các yếu
tố khí hậu tương ứng tại Việt Nam là yêu cầu cấp thiết
Thách thức của mô hình trực quan hóa dữ liệu dịch bệnh tay chân miệng và các yếu tố khí hậu là việc xác định mô hình biểu diễn phù hợp hỗ trợ phân tích dữ liệu Một mô hình biểu diễn phù hợp sẽ hỗ trợ tốt cho người sử dụng hệ thống dễ dàng hơn trong việc hiểu được chính xác thông tin, xác định sự tương quan, và các nguyên nhân ẩn chứa trong các biến dữ liệu Mô hình phải có khả năng hỗ trợ giải đáp những câu hỏi phân tích của các chuyên gia
Trang 14CHƯƠNG 2 BIỂU DIỄN TRỰC QUAN DỮ LIỆU BỆNH TAY
CHÂN MIỆNG VÀ CÁC YẾU TỐ KHÍ HẬU
2.1 Biến dữ liệu
Các trung tâm y tế dự phòng theo dõi diễn biến của dịch bệnh bằng việc ghi nhận dữ liệu dịch bệnh trong suốt các khoảng thời gian như theo ngày, tuần, tháng hoặc năm được xem như một đơn vị thời gian Dữ liệu bệnh tay chân miệng và các yếu tố khí hậu tại khu vực khảo sát được ghi nhận thành dạng một bảng dữ liệu bao gồm số người nhiễm bệnh, giá trị độ ẩm trung bình, nhiệt độ cao nhất trung bình, nhiệt độ trung bình, tổng lượng mưa theo tuần và năm khảo sát tương ứng Với mỗi khu vực được khảo sát sẽ có tập hợp các dòng dữ liệu dữ liệu dịch bệnh và môi trường tương ứng Tại mỗi dòng của bảng dữ liệu, một đơn vị thời gian kết hợp với các dữ liệu của bệnh như khu vực và số người nhiễm bệnh
Bảng 2 1 Bảng dữ liệu bệnh tay chân miệng và các yếu tố khí hậu theo đơn vị tuần tại
khu vực a trong năm y
(°C)
Tổng lượng mưa
trung bình và tổng lượng mưa trong tuần thứ j tại khu vực a năm y Dựa trên tính
chất đặc trưng, các biến sẽ được phân làm hai loại là biến độc lập và biến phụ thuộc Trong đó biến độc lập là biến được dùng để giải thích cho một hiện tượng hoặc sự
Trang 15vật, biến độc lập thường là các giá trị có sẵn hoặc cố định Biến phụ thuộc là các biến được giải thích từ biến độc lập
Từ dữ liệu thu thập được tại trung tâm y tế dự phòng và trung tâm khí trượng thủy văn thì số người nhiễm bệnh và các biến về khí hậu được xem xét như các biến phụ thuộc vào khu vực (tỉnh, huyện, thị xã) trong một đơn vị thời gian (tuần) trong khi các biến thời gian và khu vực được xem như các biến độc lập Do đó các biến
dữ liệu cần được khảo sát của bệnh tay chân miệng bao gồm số người nhiễm bệnh, thời gian, khu vực, tổng lượng mưa, độ ẩm trung bình, nhiệt độ trung bình và nhiệt
độ cao nhất trung bình
Để tổng quát hóa các biến dữ liệu được khảo sát đối với bệnh tay chân miệng, chúng tôi phân chia các biến dữ liệu này vào trong 3 tập cơ bản bao gồm tập khu vực L, tập thời gian T và tập các biến dữ liệu P Trong đó tập khu vực L bao gồm danh sách các khu vực như huyện, thị xã hoặc tỉnh thành phố Các khu vực này được biểu diễn bằng các hình dạng đặc trưng như tập hợp điểm, tập hợp đường Tập thời gian T là một tập hợp các giá trị thời gian được khảo sát theo đơn vị tuần Mỗi phần tử trong tập biến dữ liệu P có các tính chất đặc trưng riêng, các tính chất này được biểu diễn là giá trị của các biến như số người nhiễm bệnh và các yếu tố khí hậu
2.2 Biến trực quan
Trong trực quan hóa dữ liệu, các nhà trực quan hóa đã phân các loại biến trực quan thành hai loại là biến phẳng và biến thị giác [18] Trong đó biến phẳng còn là chiều, trong một hệ trục tọa độ thì đó chính là các trục tọa độ Biến thị giác nhằm mục đích tăng cường sự cảm nhận khi quan sát và phân biệt sự thay đổi của các biến dữ liệu Các kiểu biến thị giác được bao gồm các loại như độ lớn, độ sáng, độ mịn, màu sắc, hướng, và hình dạng
Mô hình trực quan được xây dựng với mục tiêu biểu diễn trực quan, hỗ trợ phân tích và xác định được sự tương quan giữa các biến dữ liệu Các biến dữ liệu
được xác định bao gồm Thời gian - tuần, 𝑇𝑜𝑡𝑎𝑙𝑃𝑎𝑡𝑖𝑒𝑛𝑡, 𝐴𝑣𝑔𝐻𝑢𝑚𝑖𝑑𝑖𝑡𝑦,
𝐴𝑣𝑔𝐻𝑖𝑔ℎ𝑒𝑠𝑡𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒, 𝐴𝑣𝑔𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒, 𝑇𝑜𝑡𝑎𝑙𝑅𝑎𝑖𝑛𝐹𝑎𝑙𝑙 Mỗi biến dữ liệu
sẽ được biểu diễn thành biến phẳng và các biến thị giác tương ứng Người dùng mô
Trang 16hình trực quan sẽ dễ dàng hơn trong việc khảo sát sự tương quan của các biến dữ liệu đồng thời trả lời được một số câu hỏi phân tích Các biến trực quan được sử
dụng trong mô hình gồm có hình dạng, vị trí, và màu sắc
2.2.1 Hình dạng
Một trong những biểu đồ phổ biến nhất được sử dụng trong việc so sánh các giá trị là biểu đồ hình cột Biểu đồ hình cột thường được sử dụng để biểu diễn dữ liệu rời rạc có xu hướng phụ thuộc vào thời gian hoặc một chuỗi giá trị Vì ưu điểm trong việc phân tích dữ liệu nên biểu đồ hình cột sử dụng biểu diễn các giá trị của các biến dữ liệu như số người nhiễm bệnh, nhiệt độ trung bình, nhiệt độ cao nhất trung bình, độ ẩm trung bình và tổng lượng mưa trong một thời điểm và khu vực tương ứng Các cột chỉ khác nhau về độ cao và màu sắc, khoảng cách giữa các cột phải tương ứng với tỉ lệ thời gian được phân chia trên trục thời gian Bề ngang của các cột cũng được biểu diễn bằng nhau, không có sự chênh lệnh giữa các biến dữ liệu
2.2.2 Vị trí
Đối với biểu đồ hình cột trong không gian 2 chiều gặp nhiều, các biến dữ liệu sẽ được biểu diễn liên tục trên 1 trục liên tục nhau, điều này gây hạn chế trong việc phân tích và xác định ra các sự tương quan khi số lượng biến dữ liệu nhiều Để xác định sự tương quan của bệnh tay chân miệng và các yếu tố khí hậu thì tất cả các biến dữ liệu đều phải được biểu diễn trên cùng một mô hình trực quan Nhằm giải quyết hạn chế của biểu đồ hình cột trong không gian 2 chiều, hệ trục tọa độ 3 chiều xyz sẽ được sử dụng Các cột đại diện cho từng biến dữ liệu tại một đơn vị thời gian, chúng tôi sử dụng hệ trục tọa độ 3 chiều xyz, trong đó trục hoành x biểu diễn thời gian theo đơn vị tuần, trục tung y biểu diễn lần lượt các biến dữ liệu và trục cao
z biểu diễn giá trị của từng biến dữ liệu Trục x có gốc tọa độ mang giá trị 1, đại diện cho tuần thứ 1 trong khoảng thời gian được khảo sát, mỗi một đơn vị là một tuần, các tuần được biểu diễn là các số tự nhiên Tên các biến dữ liệu sẽ được biểu diễn lần lượt trên trục tung y Trục tung y sẽ là một tập hợp tên các biến dữ liệu Mỗi cặp giá trị biến dữ liệu và tuần sẽ được biểu diễn thành một vị trí trên mặt phằng Oxy
Trang 17Hình 2 1 Hệ trục tọa độ 3 chiều Oxyz
Bên cạnh các giá trị các biến dữ liệu theo thời gian được biểu diễn trên hệ trục tọa độ 3 chiều, các khu vực khảo sát cũng được biểu diễn trực quan thành một bản đồ 2 chiều riêng biệt nhằm giúp người dùng xác định được mối tương quan giữa các khu vực với nhau Bản đồ thể hiện địa giới hành chính của 7 huyện thị trong tỉnh Bình Dương bao gồm Thành phố Thủ Dầu Một, Thị xã Thuận An, Thị xã
Dĩ An, Huyện Bến Cát, Huyện Tân Uyên, Huyện Phú Giáo, Huyện Dầu Tiếng Tập hợp tất cả 7 huyện thị chính là địa giới hành chính của tỉnh Bình Dương, đây cũng được xem như một khu vực cần được khảo sát
Hình 2 2 Bản đồ tỉnh Bình Dương gồm 7 huyện thị năm 2013
Trang 18Trong hình 2.1 “Hệ trục tọa độ 3 chiều xyz”, cao độ z biểu diễn giá trị của từng loại biến dữ liệu như số người bị bệnh, nhiệt độ, độ ẩm và lượng mưa tại từng khu vực trong một đơn vị thời gian trên một hệ trục tọa độ Mỗi bộ giá trị (biến dữ liệu, tuần, giá trị) sẽ được biểu diễn thành một cột trong không gian 3 chiều xyz Trong đó vị trị trên mặt phẳng Oxy được xác định từ cặp giá trị (biến dữ liệu, tuần)
Độ cao của một loại biến dữ liệu thể hiện hiện sự thay đổi giá trị theo thời gian Sự chênh lệch về độ cao giữa hai biến dữ liệu tại một thời điểm không dùng để so sánh giá trị giữa hai biến dữ liệu với nhau vì chúng có sự khác biệt về đơn vị đo Mối tương quan về độ cao của các biến dữ liệu sẽ hỗ trợ người dùng trong việc xác định mối liên hệ giữa các các biến dữ liệu trong một khoảng thời gian
Nhằm thể hiện rõ nét bản chất của biến thời gian và các biến dữ liệu khi được biểu diễn trong hệ trục tọa độ 3 chiều Oxyz, chúng tôi gọi khối hình học dùng
để biểu diễn biến thời gian và các biến dữ liệu là khối “Thời gian nhiều biến” Các trục tọa độ Ox, Oy, và Oz lần lượt được gọi là trục tuần, trục biến dữ liệu, và trục giá trị
Hình 2 3 Biểu diễn các biến dữ liệu theo độ cao
Trang 192.2.3 Màu sắc
Một trong những mục tiêu của phân tích dữ liệu là phân biệt sự khác nhau, sự thay đổi giá trị, và sự liên quan giữa những thay đổi của các biến dữ liệu Độ đậm nhạt màu sắc được sử dụng để so sánh bên cạnh giá trị độ cao của từng biến dữ liệu
sẽ làm tăng cường và làm rõ thêm các các thông tin muốn được hiển thị Tùy theo giá trị độ cao của từng loại biến dữ liệu, màu sắc sẽ được sử dụng cho biểu diễn trực quan cho các giá trị, đối với các khoảng giá trị khác nhau các cột dữ liệu sẽ mang những giá trị màu sắc tương ứng Người dùng có thể dựa vào mối tương quan giữa màu sắc của các biến dữ liệu trong từng thời điểm để xác định mối liên hệ Mỗi biến
dữ liệu sẽ được định nghĩa một số màu sắc cố định, giá trị cao thấp của một biến dữ liệu sẽ quyết định độ đậm nhạt của biến tại thời điểm đó
Hình 2 4 Biểu diễn giá trị các biến dữ liệu theo độ cao và màu sắc
2.3 Các phép biến đổi từ biến dữ liệu thành biến trực quan
Các biến dữ liệu của bệnh tay chân miệng gồm số người nhiễm bệnh, độ ẩm trung bình, lượng mưa trung bình, nhiệt độ trung bình, nhiệt độ cao nhất trung bình,
Trang 20thời gian và khu vực Trong đó thời gian và khu vực là hai biến độc lập Các biến
dữ liệu còn lại như số người nhiễm bệnh, độ ẩm trung bình, tổng lượng mưa, nhiệt
độ trung bình và nhiệt độ cao nhất trung bình là các biến phụ thuộc vào thời gian và khu vực Các mối quan hệ giữa tập biến dữ liệu và tập biến trực quan sẽ được biểu diễn một cách rõ ràng theo mô hình toán với các định nghĩa của các tập giá trị như sau:
Thời gian được khảo sát đối với bệnh tay chân miệng tại các trung tâm y tế
dự phòng của tỉnh được sử dụng theo đơn vị tuần, mỗi tuần có 7 ngày, mỗi năm có
52 tuần bắt đầu từ tuần số 1 đến tuần số 52 Trong trường hợp các tuần không đủ 7 ngày sẽ được gộp chung với tuần không đủ 7 ngày của năm trước hoặc sau năm đang xét Tập tuần khảo sát được đặt là tập T ⊂ N* với N* là tập các số tự nhiên khác 0 Có tất cả 8 khu vực được khảo sát là toàn tỉnh Bình Dương và 7 huyện thị trong tỉnh bao gồm Tp Thủ Dầu Một, Thị xã Thuận An, Thị xã Dĩ An, Huyện Bến Cát, Huyện Dầu Tiếng, Huyện Phú Giáo, Huyện Tân Uyên Các huyện thị được
tổng quát hóa thể hiện trong một tập vị trí L = {Tỉnh Bình Dương, Tp Thủ Dầu Một,
Thị xã Thuận An, Thị xã Dĩ An, Huyện Bến Cát, Huyện Dầu Tiếng, Huyện Phú Giáo, Huyện Tân Uyên}, mỗi khu vực khảo sát được xem như một phần tử trong tập
vị trí
Tập các biến dữ liệu 𝑃 chứa các biến dữ liệu như số người nhiễm bệnh, nhiệt
độ trung bình, độ ẩm trung bình, tổng lượng mưa, và nhiệt độ cao nhất trung bình là các biến phụ thuộc vào thời gian và khu vực Số người nhiễm bệnh là giá trị nguyên thuộc tập số tự nhiên trong khi đó các yếu tố khí hậu là các giá trị thuộc tập số thực
(2.1)
Trang 21Với θ(𝑡, 𝑙, 𝑝) ∈ ℝ là giá trị của biến dữ liệu p tại khu vực l tại thời điểm t
Gọi 𝐶 là tập màu được sử dụng trong trực quan hóa, số phần tử trong tập
màu là một số mã màu cố định được định nghĩa trước Mỗi phần tử trong tập màu là một mã màu trong không gian màu RGB Từ viết tắt của R là red – đỏ, G là green – xanh lá cây, và B là blue – xanh lam [19] Mỗi màu trong không gian màu RGB là một tổ hợp thích hợp các giá trị của 3 màu trên Ví dụ RGB(153,255,153) là một màu trong không gian màu RGB được tổ hợp từ giá trị R = 153, giá trị G = 255, và giá trị B = 153
Ta gọi ánh xạ biến giá trị của biến dữ liệu thành một mã màu tương ứng trong tập màu C là φ Khi đó ánh xạ φ được biểu diễn như sau:
Với φ(z, 𝑝, 𝑙) là mã màu trong tập màu C ứng với giá trị biến dữ liệu p tại khu vực
l Các khoảng phân chia màu của từng biến dữ liệu được thực hiện từ việc phân cụm
toàn bộ dữ liệu của biến dữ liệu theo khu vực tương ứng bằng thuật toán phân cụm K-Means với số cụm là 3 tương ứng với 3 mức độ quan tâm là thấp, trung bình, và cao Chi tiết quá trình thực hiện phân cụm dữ liệu sẽ được trình bày trong mục 3 của chương hiện tại φ(z, 𝑝, 𝑙) được xác định như sau:
Nếu biến dữ liệu p = “Độ ẩm trung bình” thì:
𝜑(𝑧, 𝑝, 𝑙 ) = {
𝑅𝐺𝐵(153,255,153) 𝑛ế𝑢 𝑧 < 78,5
𝑅𝐺𝐵(51,255,51) 𝑛ế𝑢 78 ≤ 𝑧 < 85 𝑅𝐺𝐵(0,153,0) 𝑛ế𝑢 85 ≤ 𝑧
(2.3)
Nếu biến dữ liệu p = “Nhiệt độ trung bình” thì:
φ(z, 𝑝, 𝑙) = {
𝑅𝐺𝐵(229,232,118) 𝑛ế𝑢 z < 26,37 𝑅𝐺𝐵(247,255,139) 𝑛ế𝑢 26,37 ≤ 𝑧 < 28,5
𝑅𝐺𝐵(254,209,96) 𝑛ế𝑢 28,5 ≤ 𝑧
(2.4)
Nếu biến dữ liệu p = “Nhiệt độ cao nhất trung bình” thì:
Trang 22φ(z, 𝑝, 𝑙) = {
𝑅𝐺𝐵(204,255,51) 𝑛ế𝑢 z < 32,5 𝑅𝐺𝐵(255,255,102) 𝑛ế𝑢 32.5 ≤ 𝑧 < 34,77
ℎ𝑜ặ𝑐 ( 33,2 ≤ 𝑧 < 93,4 𝑣à 𝑙 ≠ "Tỉnh Bình Dương" ) 𝑅𝐺𝐵(0,39,145) 𝑛ế𝑢 520 ≤ 𝑧 𝑣à 𝑙 = "Tỉnh Bình Dương"
ℎ𝑜ặ𝑐 ( 7 ≤ 𝑧 < 18 𝑣à 𝑙 ≠ "Tỉnh Bình Dương" ) 𝑅𝐺𝐵(255,0,0) 𝑛ế𝑢 95 ≤ 𝑧 𝑣à 𝑙 = "Tỉnh Bình Dương"
hoặc ( 18 ≤ 𝑧 𝑣à 𝑙 ≠ "Tỉnh Bình Dương" )
(2.7)
Khối thời gian nhiều biến dùng để biểu diễn biến thời gian và các biến
dữ liệu là tập 𝑉 = 𝑇 × 𝑃 × ℝ Với 𝑇 là tập thời gian, 𝑃 là tập các loại biến dữ liệu được khảo sát, ℝ và 𝐶 lần lượt là là tập số thực chứa các giá trị của biến dữ liệu và tập màu tương ứng từng giá trị của biến dữ liệu tại một đơn vị thời gian và khu vực được khảo sát Ta gọi 𝜎 là ánh xạ biến bộ giá trị thời gian, khu vực, và loại biến dữ liệu vào trong khối thời gian nhiều biến 𝑉 Khi đó ánh xạ 𝜎 được xác định như sau:
Trang 232.4 Phân cụm dữ liệu bệnh tay chân miệng và dữ liệu khí hậu
Tập C được định nghĩa là tập chứa các mã màu của từng loại biến dữ liệu Vấn đề được đặt ra là ánh xạ biến giá trị của từng biến dữ liệu tại từng khu vực sang
mã màu được xác định như thế nào Trong mục 2, ánh xạ φ biến bộ giá trị (z, 𝑝, 𝑙) sang mã màu trong tập C Các khoản giá trị z của biến dữ liệu được tính toán thông qua thuật toán phân cụm K-Means
Cho đến thời điểm hiện tại nước ta chưa có quy định cụ thể nào về việc phân cụm các cấp độ số lượng bệnh nhân cho bệnh tay chân miệng Do đó phân cụm số lượng bệnh nhân vào các nhóm cấp độ là điều cấp thiết và hỗ trợ tốt cho các nhà quản lý y tế theo dõi số lượng bệnh nhân từng thời điểm để có các chiến lược phòng chống bệnh hiệu quả Được sự tư vấn của các chuyên gia quản lý dịch bệnh tại Trung tâm Y tế dự phòng Thị xã Thuận An tỉnh Bình Dương, số lượng cụm dữ liệu của bệnh và các yếu tố khí hậu chỉ nên là 3 cụm cho từng loại biến dữ liệu Số lượng cụm này đáp ứng được 3 cấp độ quan tâm của nhà quản lý đối với số lượng người nhiễm bệnh là số lượng thấp, số lượng trung bình, và số lượng cao Ứng với từng cấp độ bệnh sẽ có những phương thức tuyên truyền cảnh báo phòng bệnh khác nhau Đồng thời việc phân thành 3 cụm dữ liệu thuận tiện cho người dùng, rõ ràng trong việc khảo sát dữ liệu, không bị rối vì quá nhiều cấp độ giá trị của các biến dữ liệu
Đối với dữ liệu bệnh tay chân miệng, dữ liệu số người nhiễm bệnh trên toàn địa bàn tỉnh Bình Dương và số người nhiễm bệnh tại các huyện thị trên địa bàn tỉnh được phân cụm riêng Đối với cấp độ quản lý trên toàn tỉnh thì số lượng người nhiễm bệnh sẽ cao hơn số lượng người nhiễm bệnh trên khu vực huyện thị xã, vì vậy khi dùng chung số liệu phân cụm thì sẽ không hợp lý Thực hiện phân cụm 2 bảng số liệu là bảng số liệu bệnh tổng hợp của tỉnh Bình Dương và bảng số liệu bệnh tại các huyện thị từ năm 2012 đến năm 2014 với số cụm là 3 bằng phần mềm thống kê R Software ta thu được kết quả sau:
Trang 24Bảng 2 2 Kết quả phân cụm dữ liệu bệnh tổng hợp của tỉnh Bình Dương dựa vào số liệu
thực tế từ năm 2012 đến năm 2014
Cụm Kích
thước Điểm trung tâm
Giá trị nhỏ nhất trong cụm
Giá trị lớn nhất trong cụm
Bảng 2 3 Kết quả giá trị nhỏ nhất và giá trị lớn nhất trong từng cụm của dữ liệu bệnh tổng
hợp tại Tỉnh Bình Dương sau khi đã hiệu chỉnh
Cụm Giá trị nhỏ
nhất trong cụm
Giá trị lớn nhất trong cụm
Trang 25Bảng 2 4 Kết quả phân cụm dữ liệu bệnh tại tất cả các huyện thị trong tỉnh
Cụm Kích
thước
Điểm trung tâm
Giá trị nhỏ nhất trong cụm
Giá trị lớn nhất trong cụm
1 36 29,111111 21 50
2 303 11,158416 8 20
3 753 3,366534 0 7
Khi đó để tổng quát hóa dữ liệu lớn nhất trong cụm số 1, thì giá trị lớn nhất
sẽ được tăng từ 50 thành ∞ để có thể phủ được trong trường hợp số bệnh nhân lớn hơn 50 trong các năm tiếp theo trong các huyện thị xã Khi đó bảng số lượng bệnh nhân lớn nhất và nhỏ nhất theo từng cụm tại tất cả các huyện thị như sau:
Bảng 2 5 Số lượng bệnh nhân lớn nhất và nhỏ nhất trong từng cụm khi phân cụm số liệu
tất cả các huyện thị
Cụm Giá trị nhỏ
nhất trong cụm
Giá trị lớn nhất trong cụm
số liệu tổng lượng mưa trên toàn địa bàn tỉnh như sau:
Bảng 2 6 Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu tổng lượng mưa
trên toàn địa bàn tỉnh
Cụm Giá trị nhỏ
nhất trong cụm
Giá trị lớn nhất trong cụm
2 214,76 534,5
Trang 26Bảng 2 7 Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu tổng lượng mưa
trên các khu vực huyện thị
Cụm Giá trị nhỏ
nhất trong cụm
Giá trị lớn nhất trong cụm
Bảng 2 8 Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu nhiệt độ trung
bình trên toàn địa bàn tỉnh
Cụm Giá trị nhỏ
nhất trong cụm
Giá trị lớn nhất trong cụm
2 26,36 28,31
Bảng 2 9 Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu nhiệt độ cao nhất
trung bình trên toàn địa bàn tỉnh
Cụm Giá trị nhỏ
nhất trong cụm
Giá trị lớn nhất trong cụm
2 32,56 34,94
Trang 27Bảng 2 10 Giá trị lớn nhất và giá trị nhỏ nhất trong từng cụm của dữ liệu độ ẩm trung
bình trên toàn địa bàn tỉnh
Cụm Giá trị nhỏ
nhất trong cụm
Giá trị lớn nhất trong cụm
P Các biến dữ liệu được khảo sát bao gồm số người nhiễm bệnh, độ ẩm trung bình, nhiệt độ trung bình, nhiệt độ cao nhất trung bình, và tổng lượng mưa tại các khu vực khác nhau
Khối thời gian nhiều biến 𝑉 = (𝑇 × 𝑃 × ℝ) bằng tích của các tập thời gian, tập biến dữ liệu, tập số thực ℝ chứa giá trị của loại biến dữ liệu được biểu diễn trong không gian 3 chiều Trong đó tập thời gian 𝑇 được biểu diễn trên trục hoành thời gian với đơn vị là tuần, tập loại biến dữ liệu được biểu diễn trên trục tung biến
dữ liệu và không gian ℝ biểu diễn giá trị của biến dữ liệu được thể hiện trên trục cao giá trị
Ánh xạ biến đổi bộ giá trị thời gian, khu vực, và loại biến dữ liệu (𝑡, 𝑙, 𝑝) thành các giá trị màu, độ cao và vị trí trong khối thời gian nhiều biến được định nghĩa chi tiết Mỗi bộ giá trị (𝑡, 𝑙, 𝑝) sẽ được biểu diễn trong khối thời gian nhiều biến với các giá trị tương ứng trên từng hệ trục tọa độ Mã màu của mỗi bộ giá trị được định nghĩa thông qua ánh xạ màu phụ thuộc vào thời gian, khu vực, biến dữ liệu, và giá trị của biến dữ liệu Đề xuất các khoảng phân loại của giá trị biến dữ liệu thu được từ việc phân cụm bảng số liệu tay chân miệng và các yếu tố thời tiết bằng thuật toán K-Means