1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Nghiên cứu một số phương pháp nội suy và tiên đoán trên dữ liệu cảm biến di động nhằm tạo ra bản đồ ô nhiễm môi trường thời gian thực

104 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu một số phương pháp nội suy và tiên đoán trên dữ liệu cảm biến di động nhằm tạo ra bản đồ ô nhiễm môi trường thời gian thực
Tác giả Nguyễn Minh Tâm
Người hướng dẫn TS. Đào Minh Sơn, TS. Đặng Thanh Hải
Trường học Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 104
Dung lượng 54,11 MB

Nội dung

Bản đồ này vừa nội suy ra các giá trị ô nhiễm không khí ở các vùng không được phủ sóng bởi các trạm thu thập dữ liệu, vừa tiên đoán giá trị chỉ số chất lượng không khí AQ] trong thời gia

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

CB KO

NGUYEN MINH TAM

NGHIÊN CỨU MOT SO PHƯƠNG PHÁP NỘI SUY VÀ TIEN DOAN TREN DU LIEU CẢM BIEN DI ĐỘNG NHAM TẠO

RA BẢN ĐỎ Ô NHIEM MOI TRUONG THỜI GIAN THỰC.

LUẬN VĂN THẠC SĨNGÀNH: CÔNG NGHỆ THÔNG TIN

Mã số: 8 48 02 01

TP HO CHÍ MINH - NĂM 2021

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

CB KO

`

NGUYỄN MINH TÂM

NGHIÊN CỨU MỘT SÓ PHƯƠNG PHÁP NỘI SUY VÀ TIÊN

DOAN TREN DU LIEU CẢM BIEN DI ĐỘNG NHẰM TẠO

RA BẢN DO Ô NHIEM MOI TRƯỜNG THỜI GIAN THỰC.

LUẬN VĂN THẠC SĨNGÀNH: CÔNG NGHỆ THÔNG TIN

Mã số: 848 02 01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 TS ĐÀO MINH SƠN

2 TS DANG THANH HAI

TP HO CHÍ MINH ~ NĂM 2021

Trang 3

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi đưới sự hướng

dẫn của Tiến sĩ Đào Minh Sơn và Tiến sĩ Đặng Thanh Hải Các kết quả đạt được

trong luận văn là sản phâm của riêng cá nhân, không sao chép của người khác Nội

dung của luận văn có tham khảo và sử dụng một số thông tin, tài liệu từ các nguồn

sách, tạp chí được liệt kê trong mục tài liệu tham khảo.

Tác giả luận văn

= ay

Nguyễn Minh Tam

Trang 4

Để hoàn thành luận văn thạc sĩ này, bên cạnh sự cố gắng nỗ lực hết mình củabản thân, tôi còn nhận được sự giúp đỡ tận tình và động viên khích lệ của Thầy Tiến

sĩ Đào Minh Sơn và Tiến sĩ Đặng Thanh Hải cùng với quý Thầy, Cô của Trường Đại

Học Công Nghệ Thông Tin — Dai học quốc gia Thành Phố Hồ Chí Minh

Thông qua đây, tôi xin gửi lời cảm ơn chân thành nhất đến Thầy Tiến sĩ ĐàoMinh Sơn, Tiến sĩ Đặng Thanh Hải cùng quý Thay, Cô và ban cán bộ nhà Trường,những người đã tạo điều kiện thuận lợi nhất cho tôi trong suốt quá trình học tập và

nghiên cứu.

Xin chân thành cảm ơn !

Học viên

iz h

Nguyễn Minh Tâm

Trang 5

DANH MỤC CÁC TỪ VIET TAT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

CHƯƠNG 1 GIGI THIỆU TONG QUAN

1.1 Giới thiệu bài toán

1⁄2 Công bố kết quả nghiên cứu

1.3 Các nghiên cứu liên quan về nội suy và tiên đoán giá trị AQI

14 Hệ thống thu thập dữ liệu

CHƯƠNG 2 GIẢI PHÁP

2.1 Tổng quan

2.2 Các đề xuất giải pháp

2.3 Phương pháp dự đoán giá trị bị thiếu

2.4 Phương pháp đo lường chỉ số chất lượng không khí cá nhân

25 Kết quả thực nghiệm và thảo luận

CHƯƠNG 3 ÁP DUNG CHO TP HO CHÍ MINH

3.3.3 Kết quả và thảo luận

3.3.4 Kết luận và hướng phát triển

CHƯƠNG 4 KÉT LUẬN

DANH MỤC CÔNG BÓ KHOA HỌC

TÀI LIỆU THAM KHẢO

12 12 13 14 16 20

27 27

27 29

31 32 33 35

35 35 38 39 4I 42 43

Trang 6

Ð wr rnaws

PMas : Particulate Matter 2.5.

AQI: Air Quality Index

PAQI: Personal Air Quality Index

AQHI: Air Quality Health Index

PSI: Pollutant Standard Index

API: Air Pollutant Index

GIS : Geographic Information Systems

GPS: Positioning System

WHO: World Heath Organization

Trang 7

Bảng giải thích tập đữ liệu Trang 20

Bảng đặc trưng của những tuyến đường Trang 21

Bảng kết quả chạy trên tập dữ liệu Development dataset Trang 22

Bang kết quả chạy trên tap dit liệu Testing dataset Trang 23Bảng kết quả chạy trên tập dữ liệu Training dataset Trang 23Bang kết quả chạy trên tập đữ liệu Testing dataset Trang 24

Bảng so sánh với những đội khác trong MediaEval 2019 Trang 24

Bang Chi tiét cha tap dữ liệu và các thuộc tính được thu thập Trang 28

Bảng Chỉ tiết các đặc trưng Part-Of-Day (POD) Trang 29Bảng chuyền đồi giá trị AQI thành mức AQI Trang 31

Bang Chi tiết của các siêu tham số cho việc tối ưu hoá cho các model máy

học Trang 36Bảng so sánh các model khác nhau về ước lượng giá trị AQI trên tập dữ liệu

“MNR-Air” Trang 38

Bang so sánh sự khác nhau giữa các model cho việc dự đoán mức AQI trên

tập dữ liệu “MNR-Air” với ba kịch bản Trang 38

Trang 8

1.1 Sơ dé kết nối hệ thống thu thập dit liệu di động Trang 10

3.1 Sơ đồ quy trình 5 fold-cross-validation cho việc tạo lập dữ liệu meta-level

Trang 37

3.2 Tuyến đường được sử dụng trong tap dữ liệu “MNR-Air” cho tình nguyện

viên lựa chọn Trang 37

Trang 9

CHƯƠNG 1 GIỚI THIỆU TONG QUAN

1.1 Giới thiệu bài toán

Hiện nay, ô nhiễm không khí đang là vấn đề được quan tâm nhiều nhất trên toànthế giới vì nó có ảnh hưởng rat lớn đối với sức khoẻ của con người Thành Phó HồChi Minh là một trong những thành phó lớn và phát triển bậc nhất của Việt Nam, nơi

có nhiều khu công nghiệp, dân sé đông, mật độ giao thông tăng cao và có nhiều côngtrình giao thông được trién khai Nơi đây thường phải đối mặt với nhiều khó khăn vàthách thức về vấn đề môi trường Nhằm đảm bảo sức khoẻ của người dân thành phốđược tốt hơn thì việc bảo vệ môi trường là một trong những yếu tố quan trọng cầnthực hiện mà trong đó ô nhiễm không khí là một trong những thách thức lớn nhất cầnđược quan tâm vì nó có ảnh hưởng rat lớn đến sức khoẻ của con người đang sống va

làm việc tại nơi đây.

Nhiều nghiên cứu về chất lượng không khí đã được thực hiện, nhằm đưa ra những

dự đoán về tác động của ô nhiễm không khí đối với con người Trong mục [1], các

tác giả đã đưa ra nhiều bằng chứng từ các nghiên cứu khác nhau và cho thấy ô nhiễm

không khí có thể ảnh hưởng đến tìm mạch, đường hô hấp và đặc biệt hơn là các hạtbụi mịn có đường kính 2.5ym được ký hiệu là PM:s có thé gây ra bệnh viêm xoang

Trong mục [2], các tác giả đưa ra nhiều bằng chứng thu thập từ nhiều nguồn và chỉ

ra các tác động của ô nhiễm không khí đối với cá nhân ở nhiều gốc độ (sức khoẻ, tâmlý) Các yếu tố ô nhiễm được dé cập bao gồm các yếu tố về môi trường như (PM:s,Nitrogen dioxide NOa, Ozone O3, Sulfur dioxide SO2), các yéu tố thời tiết (nhiệt độ,

độ ẩm) và đặc biệt là các đặc trưng về đô thị, giao thông Hầu hết các cuộc điều tra

về lĩnh vực này đều tập trung vào việc đo lường chỉ số chất lượng không khí bằngcách sử dụng các dit liệu từ các cam biến và từ các trạm đo ô nhiễm không khí đượcđặt cố định Mặc dù đây là vấn đề quan trọng nhưng việc thu thập dữ liệu chưa cónhiều nỗ lực, các nhà nghiên cứu rất khó tiếp cận nguồn dữ liệu ô nhiễm không khítốt, ngoại trừ một số trang web và ứng dụng công cộng nhằm phục vụ người dân nhưAirVisual [3] và Envisoft [4] Nhìn chung, độ chỉ tiết của bản đỗ ô nhiễm hiện tại màngười dân thành phó Hé Chí Minh đang dùng khá thô Có rất nhiều vùng hoàn toàn

Trang 10

không có dữ liệu Ngoài ra, do các trạm đo lường quá ít và rải rác, các phương pháp

nội suy thông thường không thé dua ra một bản đồ ô nhiễm chất lượng tốt với độ chỉ

tiết cao

Lấy cảm hứng từ những vấn đề được đề cập ở trên, luận văn mong muốn tìm ra

một phương pháp tạo ra bản đồ ô nhiễm với độ chỉ tiết cao Bản đồ này vừa nội suy

ra các giá trị ô nhiễm không khí ở các vùng không được phủ sóng bởi các trạm thu

thập dữ liệu, vừa tiên đoán giá trị chỉ số chất lượng không khí (AQ]) trong thời gianngắn (short-term) Mục đích sử dụng của bản đồ này là cung cấp dữ liệu ô nhiễmmột cách kinh tế và chủ động, nhằm hỗ trợ khám phá mối liên hệ giữa môi trườngxung quanh và sức khoẻ của con người Đây cũng là mục tiêu nghiên cứu của đề tàinày Để làm được điều này, luận văn tiếp cận hai nguồn dữ liệu cố định và di động.Nguồn dữ liệu cố định thu thập trên các nguồn mở (ví dụ [3],[4]), nguồn dữ liệu di

động truy xuât từ bộ dữ liệu MNR-HCM [8] và MNR-Air [9] Bộ dữ liệu MNR được

thu thâp bằng các hộp cảm biến môi trường giá thành thấp gắn trên các xe gắn máychạy xung quanh thành phố

Van đề này rất thích hợp cho Tp Hồ Chí Minh khi các trạm thu thập dir liệu 6nhiễm môi trường đang rat thiếu và cần rất nhiều thời gian và kinh phí dé có thé phủcác trạm này khắp thành phó Thay vì xây dựng trạm, có thể nhờ vào người tham gia

giao thông (ví du như Grab, Sinh viên, người dan) đặt những thiết bị này trên xe của

ho dé thu thập dữ liệu Với những dữ liệu được thu thập từ nguồn này sẽ được sửdụng vào việc phân tích, nghiên cứu nhằm đưa ra những dự đoán và tạo nên một bản

đồ chỉ tiết về ô nhiễm môi trường, qua đó có thể mang lại những thông tin hữu íchnhằm bảo vệ sức khoẻ của con người

1.2 Công bố kết quả nghiên cứu

Trong quá trình thực hiện đề tài, các phần của luận văn đã được lần lượtcông bố tại các hội nghị trong và ngoài nước như sau:

1.2.1 FAIR 2020

Urbanegoaqi: A System To Measure Air Qualification Index Using Egocentric

And Urban Sensing Data [5].

Trang 11

Bài báo có id 154, nghiên cứu giới thiệu về hệ thống UrbanEgoAQI dùng dé dựđoán chất lượng không khí (AQD) từ dữ liệu lifelog và các cảm biến đô thị Hệ thống

có khả năng nội suy các giá trị AQI ở phạm vi hẹp bằng cách sử dụng thông tin thời

tiết và AQI từ các nguồn mở cùng với thuật toán lọc theo thời gian mở rộng bán kínhtăng dần Ngoài ra, hệ thống có thé đo được cảm nhận AQI của cá nhân và phản ứng

của người dân bằng cách sử dụng dir liệu lifelog (ảnh, tags) và dữ liệu cảm biến đô

thị (thời tiết, AQI từ các nguồn mở) Hệ thống tính toán giá trị trung bình của tông sốtags của người dân và các đặc trưng đô thị được trích xuất từ các luồng giao thông

mà người đân đi chuyển thường xuyên và lặp lại Hệ thống được đánh giá thông qua

cuộc thi “Mediaeval 2019 Insight for wellbeing” với dữ liệu, đánh giá và được so

sánh với các kết quả của các nhóm khác được cung cấp bởi nhà tổ chức Kết quả thựcnghiệm cho thấy hệ thống hoạt động tốt với độ chính xác cao

1.2.2, MediaEval 2019

1.2.2.1 Predicting Missing Data by Using Multimodal Data Analytics [6].

Bài báo giới thiệu một phương pháp phân tích dữ liệu đa phương thức dé dựđoán phần dữ liệu bị thiếu do thiết bị cảm biến thu thập không đầy đủ Với cách tiếpcận này, việc tìm kiếm dữ liệu ở những vị trí và thời gian gần nhất bằng cách dùng

thuật toán lọc thời gian và bán kính quét tăng dan đề thay thế những dữ liệu bị thiếu

Phương pháp này được đánh giá bằng cách sử dụng bộ dữ liệu của MediaEval 2019Insight for welbeing [2] Kết quả cho thấy phương pháp đề xuất hoạt động tốt và dựđoán dit liệu bị thiếu với độ chính xác cao

1.2.2.2 Leveraging Egocentric and Surrounding Environment Data to

Adaptively Measure a Personal Air Quality Index [7].

Một giải pháp mới được giới thiệu dé do chỉ số chất lượng không khí, phảnánh quan điểm cá nhân của con người đối với môi trường xung quanh Hai cách tiếp

cận được đưa ra và áp dụng bộ dữ liệu của MediaEval 2019 Insight for Welbeing [2].

Chỉ số chất lượng không khí được tính toán bằng cách sử dụng dữ liệu cảm biến, sử

dung tag cảm xúc của người dùng và các đặc trưng của môi trường xung quanh đó

một cách phù hợp Bên cạnh đó còn có một phương pháp khác là tính giá trị trung

Trang 12

bình của các tag cảm xúc của người dùng và đặc trưng của các tuyến đường đề xácđịnh chỉ số chất lượng không khí cá nhân tại khu vực khảo sát.

1.2.3 ICDAR 2020

MNR-HCM Data: A Personal Lifelog and Surrounding Environment Dataset

in Ho-Chi-Minh City, Viet Nam [8]

Giới thiệu một bộ dữ liệu mới chứa những dữ liệu về nhật ký cá nhân hàng

ngày và môi trường xung quanh được thu thập định kỳ dọc theo các tuyến đườngđược xác định trước tại Thành Phó Hồ Chí Minh Các thiết bị tự phát triển cũng nhưkiến trúc hệ thống để thu thập, lưu trữ, truy cập và hiển thị dữ liệu và một số chủ đềứng dụng nghiên cứu thú vị cũng được giới thiệu trong bài báo, đặc biệt là hiéu về

mối tương quan giữa sức khoẻ con người với môi trường cũng như là ô nhiễm không

khí và mật độ giao thông.

1⁄24 MMM 2021

MNR-Air: An Economic and Dynamic Crowdsourcing Mechanism to collect Personal Lifelog and Surrounding Environment Dataset A Case Study

in Ho Chi Minh City, Vietnam [9].

Bài báo này giới thiệu một nguồn thu thập bộ dữ liệu nhật ký cá nhân và môi

trường xung quanh từ đa phần người dân một cách linh động và kinh tế có tên là

MNR-Air Điểm thuận lợi của bộ thiết bị này là sử dụng những hộp cảm biến cá nhân

có thể đặt trên các xe máy của người dân để thu thập dữ liệu Bộ dữ liệu MNR-HCM

cũng được giới thiệu ở phần trên, bộ dữ liệu này chứa dữ liệu thời , ô nhiễm không

khí, dữ liệu toạ độ GPS, hình ảnh về nhật ký hàng ngày và nhận thức của người dân

về đô thị trên quy mô cá nhân Bên cạnh đó cũng có thảo luận về mức độ hữu ích của

MNR-Air khi đóng góp vào cộng đồng khoa học dữ liệu và các cộng đồng khác nhằm

mang lại lợi ích cho mọi người trong các khu đô thị.

1.3 Các nghiên cứu liên quan về nội suy và tiên đoán giá trị AQI

Chi số chất lượng không khí (AQI) là một trong những phép đo phổ biến nhất

được nhiều quốc gia sử dụng để ước tính mức độ ô nhiễm không khí tại một khu vực

được chọn Thông thường, AQI có giá trị càng cao thì nguy cơ ảnh hưởng tới sức

khoẻ cộng đồng càng cao Đáng chú ý là ở các quốc gia khác nhau có thể có AQI

Trang 13

(mức độ và phạm vi) riêng của họ, gắn với các tiêu chuẩn chất lượng không khí quốcgia khác nhau Ví dụ như Hongkong và Canada đều đang sử dụng chỉ số sức khoẻ

chất lượng không khí (AQHI-Air Quality Health Index), Malaysia thì chọn chỉ số ô

nhiễm không khí (API-Air Pollutant Index), trong khi đó Singapore thì chọn chỉ sốtiêu chuẩn ô nhiễm (PSI-Pollutant Standard Index) Để đo mức AQI tại các trạm quan

trắc khắp mỗi thành phó, các cơ quan nhà nước sử dụng sáu mức chất ô nhiễm trong

khí quyền, đó là sulfur dioxide (SO›), nitrogen dioxide (NO), PMio, PM¿s, carbon

monoxide (CO), and ozone (Os) Thông thường, mỗi điểm có thé được chỉ định từngchất ô nhiễm này và điểm cuối cùng được tính là giá trị lớn nhất trong số tat cả sáuđiểm riêng lẻ Tuy nhiên, các tram quan trắc thường đặt cách xa nhau, ké cả trongthành phố lớn Do đó, mức AQI tại một vị trí cụ thể chủ yếu được tính toán từ trạmquan trắc gần nhất có thé bao phủ một khu vực khá lớn trong thành phó, có thể đượcxem là AQI toàn cục Việc cần thiết là có một cách tốt hơn để đo mức AQI cục bộ tạimột vi trí cụ thể Vi dụ, nhiều người muốn có ứng dụng có thé hiển thị mức độ AQI

một cách nhanh chóng khi họ lái xe đi làm, đi xung quanh thành phố hoặc là khi hoạt

động ngoài trời để họ chuẩn bị những thứ cần thiết cho việc bảo vệ sức khoẻ của họ

Trong suốt thập kỷ qua, ô nhiễm không khí là vấn đề môi trường đáng chú ý ởnhiều quốc gia trên toàn thé giới, đặc biệt là đối với Châu A, Châu Âu và Châu Mỹ

Trong môi trường đô thị, hầu hết các ngành công nghiệp và giao thông đã thải ra một

lượng lớn các chất gây ô nhiễm vào không khí, điều này có thể gây ra nguy cơ nghiêm

trọng cho van dé sức khoẻ không chỉ ở những nước phát triển và đang phát triển ma

còn ở các nước có thu nhập thấp và trung bình Điều đáng chú ý là gần đây có khoảng91% dân số thế giới sống ở các khu vực khác nhau, nơi mà có chất lượng không khí

vượt quá giới hạn cảnh báo của tổ chức y tế thé giới (WHO) Đặc biệt, 6 nhiễm không

khí đã giết chết khoảng bảy triệu người trên toàn thế giới mỗi năm do nhiều bệnh tậtkhác nhau, chẳng hạn như đột quy, bệnh tim mach, ung thư phổi và các bệnh hô hapmãn tính WHO cũng chỉ ra rằng cứ 10 người thì có khoảng 9 người đang hít thởkhông khí chứa nhiều chất ô nhiễm Vì vậy, nhiều quốc gia đang làm hết sức đề kiểmsoát ô nhiễm không khí và cải thiện chất lượng không khí Giao thông sạch hơn, nhà

ở tiết kiệm năng lượng, điện, công nghiệp và quản lý chất thải đô thị tốt hơn dé trở

Trang 14

thành một phan quan trọng trong việc giảm thiểu các yếu tố quan trọng của ô nhiễm

không khí.

Đã có nhiều công trình nghiên cứu liên quan đến việc dự đoán mức độ chỉ số chất

lượng không khí trong những năm qua như là nhóm tác giả Dizian và các đồng nghiệp[24] đã trình bày phương pháp máy học để dự đoán nồng độ ô nhiễm không khí hàng

giờ dựa trên dữ liệu khí tượng của những ngày trước đó Nhóm nghiên cứu Mehdi và

các đồng nghiệp [25] đã nghiên cứu bài toán dự đoán giá trị PMas ở khu vực thànhthị của Tehran bằng cách sử dụng dữ liệu vệ tinh và dữ liệu địa lý Từ các nguồn dữ

liệu này, họ đã trích xuất các đặc trưng quan trọng và sử dụng các mô hình máy học

dé xây dựng một mô hình phù hợp cho bài toán và kết quả thực nghiệm cho thấy môhình được đề xuất đạt được kết quả quan Nhóm nghiên cứu Zhang và các đồngnghiệp [26] đã nghiên cứu vấn đề ước tính chất lượng không khí bằng cách sử dụngcác mô hình máy học sâu dựa trên hình ảnh, cụ thể là họ trích xuất các đặc điểm ngữnghĩa từ những hình ảnh được chụp lại từ máy ảnh và sau đó là họ dự đoán chất lượng

không khí dựa trên những đặc điểm này Dựa theo kết quả thực nghiệm cho thấy các

tác giả đã sử dụng bộ dữ liệu chất lượng không khí có tên là NWNU-AQI và so sánh

với ba bộ phân lớp khác nhau như là AQC-Net, Support Vector Machine (SVM) và

Deep Residual Network (ResNet) Các kết quả cho thấy AQC-Net có thể vượt trộihơn so với các kỹ thuật khác Nhóm tác giả Edoardo Arnaudo [27] đã đề xuất cáccách tiếp cận máy học khác nhau cho van dé ước lượng chat lượng không khí bằng

cách sử dụng dữ liệu giao thông và khí tượng được thu thập tại khu vực thành thị của

Milan Kết quả thực nghiệm cho thấy các phương pháp đề xuất có thể đạt kết quả tốt

cho việc ước lượng chất lượng không khí mà không cần sử dụng các loại cảm biến

đất tiền

1.4 Hệ thống thu thập dữ liệu

1.4.1 Mô tả hệ thống thu thập dữ liệu

Hệ thống thu thập dữ liệu được thiết kế dé thu thập dữ liệu tại các tuyến đường

được định sẵn tại khu vực Thành Phố H6 Chí Minh với kịch bản như sau: hai hoặcnhiều người thu thập dữ liệu sẽ được trang bị xe máy được gắn bộ cảm biến thu thập

đữ liệu và camera lifelog cùng điện thoại smartphone có cài ứng dụng thu thập cảm

Trang 15

xúc Xe máy được chạy trên quãng đường đã được chỉ định với tốc độ khoảng 30km/h Quá trình này sẽ được thực hiện ba lần mỗi ngày theo khung giờ nhất định

20-vào giờ cao điểm, buổi sáng bắt đầu từ 7 giờ, buổi trưa bắt đầu từ 11 giờ và buổi chiều

bắt đầu từ 17 giờ, thời điểm này mật độ giao thông rất cao và quãng đường xe chạyđược chọn là từ 9km hoặc nhiều hơn Người thu thập dữ liệu sẽ đánh tag cảm xúc khi

dừng xe tại các đèn đỏ hoặc là đi vào khu vực ùn tắc giao thông, những nơi khó di

chuyền Việc đánh tag cảm xúc như vậy có thé làm tăng mối tương quan tìm ân giữa

ô nhiễm không khí, kẹt xe và sức khoẻ của con người Những tuyến đường xe chạy

qua mang đặc trưng của các cảnh quan môi trường khác nhau như là công viên, đường

lớn, đường nhỏ, ven sông và đường có mật độ giao thông cao.

Các tuyến đường mà các thành viên thực hiện thu thập dữ liệu được liệt kê trong

bảng 1.1 như sau:

Bảng 1.1 Bảng các tuyến đường thực hiện thu thập dữ liệu

STT Tuyến đường Đặc trưng

Tuyến đường chính có

4 „.| công viên với nhiều cây

1 | Vòng xoay Lăng Cha Cả - Nguyên Văn Troi

xanh và mật độ giao

thông cao

Tuyến đường chính với

x x : mật độ giao thông cao, ít

2_ | Nguyên Van Troi — Câu Công Ly và

cây xanh và nhiêu toà

nhà cao tầng

Tuyến đường doc bờ kè

: với nhiều cây xanh, mật

3 | Câu Công Lý — Cách Mang Tháng Tám R

độ giao thông khá nhiêu

và ít toà nhà.

Tuyến đường chính với

4 | Cách Mạng Tháng Tám - Ngã Tư Bảy Hiền | mật độ giao thông cao, ít

cây xanh, nhiêu nhà cao.

Trang 16

tầng, có công viên vớinhiều cây xanh

Ngã Tư Bảy Hiền — Vòng xoay Lăng Cha Cả

Tuyến đường chính với

mật độ giao thông cao

nhưng ít cây xanh.

Nguyễn Tất Thành — Cầu Khánh Hội —

Đường Tôn Đức Thắng - Đường Nguyễn

Hữu Cảnh — Đường Nguyễn Binh Khiêm —

Cầu Thị Nghè

Tuyến đường chính có

công viên với nhiêu cây

xanh

Đường Xô Viết Nghệ Tĩnh - Đường Điện

Biên Phủ - Đường Dinh Tiên Hoàng —

Đường Võ Thị Sáu - Công Trường Dân Chủ

Tuyến đường chính với

mật độ giao thông cao, ít

cây xanh và nhiều toànhà cao tầng

Duong Cách Mang Tháng Tám — Đường

Nguyễn Thị Minh Khai - Đường Hai Bà

Trưng — Đường Lê Thánh Tôn - Đường

Đường Nguyễn Thị Nghĩa - Cau Ông Lãnh

— Đường Hoàng Diệu

Tuyển đường gần bờ

sông, giao thông và cây

xanh ít, nhiều toà nhà

cao tầng

1.4.2 Mô hình thiết kế hệ thống

Mục đích của việc thu thập dữ liệu này là để tạo ra bộ dữ liệu dùng chung cho.cộng đồng, đây không chỉ là bộ dữ liệu lưu trữ về dữ liệu của môi trường xung quanh

(dữ liệu ô nhiễm không khí, thời tiếp) mà nó còn lưu trữ về hình ảnh lifelog, dữ liệu

tâm sinh lý và đánh giá cảm xúc của con người trong môi trường đang khảo sát.

Thiết bị thu thập là thiết bị nhỏ gọn, không dây bao gồm các cảm biến thu thậpdit liệu được kết nối với nhau và được đặt trong hộp nhỏ, thuận tiện cho việc di chuyển

bằng cách đi bộ hoặc là gắn trên xe máy Bên cạnh đó người thu thập dữ liệu còn có

Trang 17

thể tận dụng điện thoại thông minh để đánh giá cảm xúc của mình về môi trường tựnhiên qua ứng dụng được thiết kế cho quá trình thu thập.

Vì đây là lần đầu tiên làm về thu thập dữ liệu nên việc thực hiện thu thập chỉ

được triển khai trên quy mô nhỏ, trong tương lai nếu được phát triển tốt thì thiết bị

này sẽ được tích hợp trên những người tham gia giao thông và chúng được kết nốivới nhau, lúc đó có thể tạo ra một mạng lưới cảm biến để thu thập dự liệu của cả

thành phố một cách liên tục

1.4.2.1 Danh sách thiết bị

Bảng 1.2 Bảng danh sách các thiết bị

STT Tên thiết bị Mô tả

Board mach vi điều khiển đượcdùng để kết nối các thiết bị cảm

1 | Board mach Arduino Uno R3 biến va tương tac với nhau

Thông qua phần mềm và phầncứng hỗ trợ

Dùng cho việc kêt nôi, thu thập

Wifi ESP8266 NodeMCU Lua R R

2 dữ liệu và điêu khiên qua sóng

CP2102

wifi.

Cảm biến bụi quang học dùng để

đo chất lượng không khí dựa trên

3 | SDSO11 :

tín hiệu laser đê đo các hạt không

khí hoặc bụi PM2.s hoặc PMio,

MQ136,MQ7,MQ131,CJMCU- | Cảm biến thu tín hiệu khí SO2,

4

6814 khí CO, Os, NO2.

5 | MicroSD Hỗ trợ card thẻ nhớ Micro SD

Cảm biến thu tín hiệu tia cực tím

6 | UVM-30A

bước sóng 200 — 370nm.

7 | Quạt Thiết bị làm mát các cảm biến

Trang 18

Cảm biến nhiệt độ & Độ âm môi

trường theo giời gian thực, sai số

interface.

1.4.2.2 Sơ đồ kết nói hệ thống

Man hình LCD 1 Man hinh LCD 2

|

Các thiết Board mạch ‹ | ModuleWift

-bicam }—* Arduino UNO |-—> _ESP8266

biến hà mm,

|

Module định vị GPS Module đọc thẻ nhớ SD

Hình 1.1 Sơ đồ kết nói hệ thống thu thập dữ liệu di động

Theo sơ đồ trên thì các thiết bị cam biến về nhiệt độ, độ am, cảm biến bụi PMas,

NO¿, SO¿, O3, tia cực tím UV được nối trực tiếp vào board mach Arduino UNO R3

va board mach này được kết nối với màn hình LCD 1 dé hiển thị thông tin về PM:s,nhiệt độ, độ âm va tia cực tim UV, board mạch Arduino UNO R3 cũng được kết nối

Trang 19

với Module Wifi ESP8266 va module này cùng lúc được kết nối với module xác định

vị trí GPS và màn hình LCD 2 được kết nối đến Module Wifi nhằm đề hiển thị thêm

thông tin về NO›, CO, SO›, Os Các thông tin thu thập được sẽ được đưa lên cloud

server và thiết bị đọc thẻ nhớ SD để lưu trữ và xử lý dữ liệu thu được

Về tổng quan, tại một thời êm T, chỉ có 1 hoặc 2 thiết bị cảm ứng di động hoạtđộng Do đó, trên bản đồ chỉ có 2 vị trí đo được giá trị AQI Mở rộng ra với N thiết

bị di động, thì tại thời điểm T, chỉ có tổng cộng N vị trí đo được giá trị AQI Hơn nữa,các vị trí này là động, rất khó có thé có lại một bản đồ ở thời điểm T+delta giống nhưmột bản đồ tại thời điểm T Điều này nói lên độ khó của bài toán nội suy và tiên đoán

dé liệu dựa trên các điểm quan trắc di động này Đây là thách thức chủ yếu của đề

tài.

Trang 20

CHƯƠNG 2 GIẢI PHÁP

Trong chương này, các phương pháp tiên đoán AQI doc theo các tuyến đường mà các điểm quan trắc di động di chuyển được trình bày.

2.1 Tổng quan

Dựa vào những dữ liệu về thời tiết (nhiệt độ, độ ẩm), chỉ số chất lượng không

khí, dữ liệu về nhật ký lifelog, các cảm biến về khí hậu được thu thập từ các trạm cốđịnh và di động, chúng tôi đã tiến hành phân tích và đưa ra hệ thống có thể dự đoán

và nội suy được các giá trị AQI tại các điểm không có giá trị AQI, bằng cách sử dụngcác giá trị về chỉ số AQI và thời tiết đã thu thập được trong cùng khu vực với thuậttoán lọc thời gian và bán kính quét tăng dan Bên cạnh đó, hệ thống này còn có thé

đo lường chỉ số AQI với cảm xúc của con người tại nơi xảy ra ô nhiễm không khí dựavào những hình ảnh và bảng đánh giá cảm xúc (user’s tag) và dữ liệu cảm biến đô thị(ví dụ như là dữ liệu về thời tiết, chỉ số chất lượng không khí toàn khu vực, các chỉ

số chất lượng không khí từ các nguồn cung cấp miễn phí) được thu thập Bằng cách

áp dụng các giá trị trung bình của các bảng đánh giá cảm xúc của người dùng và các

đặc trưng được trích xuất từ hình ảnh được thu thập từ các tuyến đường (đữ liệu nàyđược thu thập từ các thiết bị đi động trong suốt quá trình di chuyền thu được những

đi chuyển lặp đi lặp lại của mọi người).

Hệ thống được đánh giá bằng cách sử dụng bộ dữ liệu của MediaEval 2019 [2]

Bộ dữ liệu này, về bản chat, khá giống với bộ dữ liệu MNR-HCM [8] và MNR Air[9], do đều được thu thập bằng các trạm quan trắc di động MediaEval2019 (Insight

for wellbeing) đưa ra thử thách cho việc tiên đoán và nội suy giá trị AQI dựa vào các

đữ liệu được thu thập bằng các trạm quan trắc di động kết hợp với các nguồn dữ liệu

mở khác MediaEval2019 tạo ra thử thách nhằm vào hai vấn đề:

- Vấn đề thứ nhất (Nội suy): là yêu cầu người tham gia phát triển một giảthuyết về mối liên hệ giữa các dữ liệu không đồng nhất từ nguồn dữ liệu thu thậpđược và các nguồn dữ liệu mở nhằm tìm kiếm và điều chỉnh một cách chính xácnhững đoạn mà dữ liệu AQI bị thiếu

- Vấn dé thứ hai (Tiên đoán): yêu cầu người tham gia dự đoán được chi sốchất lượng không khí cá nhân tại vị trí và thời gian xác định bằng cách sử dụng các

Trang 21

dữ liệu từ các nguồn thu thập được (ví dụ như là hình ảnh lifelog, nhịp tim, bước.

chân, cảm xúc của con người trong khu vực khảo sát) và dữ liệu môi trường xung

quanh (ví dụ như dữ liệu ô nhiễm không khí, thời tiết) nhằm mục đích đo lường sức

khoẻ và cảm xúc cá nhân dựa trên chất lượng không khí tại khu vực

Hệ thống UrbanEgoAQI được thiết kế đặc biệt dé đáp ứng hai thách thức nêutrên, với hệ thống đã giải quyết thử thách đầu tiên bằng cách nội suy các giá trị AQIcục bộ bị thiếu bằng cách sử các giá trị AQI toàn cục và thời tiết cũng như thuật toánlọc thời gian với bán kính quét tăng dần Với thử thách thứ hai, hệ thông đã giải quyếtđược bằng cách áp dụng các giá trị trung bình của các tag cảm xúc của mọi người vànhững đặc trưng được trích xuất từ dữ liệu của các tuyến đường (dữ liệu được thuthập trong quá trình lặp đi lặp lại của mọi người) Hệ thống đã được so sánh kết quảvới các nhóm khác cùng tham gia thử thách và kết quả thực nghiệm cho thay phươngpháp được đề xuất có hiệu quả tốt và có thé dự đoán giá trị bị thiếu với độ chính xác

cao.

2.2 Các đề xuất giải pháp

Nhu đề cập ở phần trên, mục đích chính của phương pháp được đề xuất là xâydựng một giả thuyết có thê thực hiện các liên kết giữa các dữ liệu không đồng nhấtnhằm xây dựng một hệ thống có thê dự đoán giá trị bị thiểu trong tập dữ liệu đượccung cấp [1] Giả thuyết này chỉ ra mối liên quan chặt chẽ giữa việc thu thập dữ liệukhông đồng nhất tại vị trí và thời gian gần nhau Do đó, việc xây dựng thuật toán lọcthời gian và quét bán kính tăng dần dé thu thập thêm dữ liệu có giá trị ở những vị trígần nhau, dé từ đó dựa vào dữ liệu này có thể dự đoán được những dữ liệu có giá trị

bị thiếu

Theo tập cơ sở đữ liệu được cung cấp, tác động của các yếu tố môi trường, dữ

liệu thời tiết, đô thị và giao thông lên con người đã được tìm thấy và phát hiện ra rằng

các đường phố chính có nhiều xe cộ qua lại và ít cây xanh hơn nên chỉ số chất lượng

không khí cá nhân cục bộ (PAQI) thấp và ngược lại Dựa vào quan sát này, đã đưa ramột gợi ý dé có thé đề xuất ra giải pháp dé đo lường giá trị PAQI bằng cách sử dụng

giá trị AQI, thẻ đánh giá cảm xúc của người dân quanh khu vực (user’s tag) và những

đặc trưng trực quan Dau tiên là tính chi số chất lượng không khí bằng cách sử dụng

Trang 22

dữ liệu cảm biến, sau đó là có hai cách tính được dé cập ở phần dưới dé có thé tiênđoán ra được chỉ số PAQI và những phương pháp này đã được giới thiệu và đánh giá

trong MediaEval 2019.

Cách tính thứ nhất của bước tiếp theo là sử dụng các thẻ cảm xúc và các đặctrưng trực quan của con người đề đo lường chỉ số PAQI một cách thích ứng

Cách tính thứ hai của bước tiếp theo là tận dụng các giá trị trung bình của các

thẻ đánh giá cảm xúc của người dân quanh khu vực (user’s tag) và các đặc trưng của

các tuyến đường đề xác định chỉ số PAQI

2.3 Phương pháp dự đoán giá trị bị thiếu

2.3.1 Xứ lý dữ liệu

a Khoanh vùng thời gian

Chức năng này là đê thu thập tất cả các dữ liệu theo thời gian Đầu tiên là

phân cụm tat cả các tập dự liệu đã cho thành các nhóm khác nhau dé có cùng ngày vàgiờ (tức là cùng ngày), sau đó, chỉ dữ liệu được thu thập trong thời gian bắt đầu và

thời gian kết thúc được chọn Cần lưu ý rằng thời gian bắt đầu và thời gian kết thúc

biểu thị khoảng thời gian dir liệu bị thiếu

b Khoanh vùng vi trí

Dé thu thập tat cả dữ liệu theo vị trí gần nhau thì công thức tính khoảng

cách của hai toạ độ đã được định nghĩa và những toạ độ được thu thập trong khoảng

cách được tính này đều được chọn và công thức tính khoảng cách này được tính như

© @, @, lần lượt là vĩ độ của điểm 1 và điểm 2 (tính bằng radians)

© By, Bz lần lượt là kinh độ của điểm 1 và điểm 2 (tính bằng

Trang 23

o Bán kính quét được đặt từ 1m đến 100m2.3.2 Dự đoán giá trị bị thiếu

Sau khi khoanh vùng thời gian và khoanh vùng vi trí, giá trị PM2.s của một số

vi trí gần tâm nhất sẽ được lấy sau đó sẽ tính toán giá trị lớn nhất, giá trị nhỏ nhất và

giá trị trung bình của những giá trị này từ vị trí cần dự đoán Đề tối ưu hoá kết quảtính toán, tại thời điểm này thì bán kính vùng quét được tăng dan từ 1m đến 20m déquét tất cả các vị trí Theo kinh nghiệm thực tế thì chọn bán kính 20m là lý tưởngnhất vì trong bán kính này các giá trị PMas dự đoán có độ chính xác cao nhất Nếutrong bán kính này, không tìm được giá trị PM25 thì giá trị này sẽ được lấy ở mộtđiểm gần nhất trong khoảng [21m, 100m] Tuy nhiên, nếu trong khoảng [0m, 100m]

mà không tìm được giá trị PM: thì giá trị PMas được gan giá trị là 0 và thuật toán

được xây dựng như sau:

Thuật toán: khôi phục giá trị PM:s từ những vi trí và thời gian gần nhất.DataA: đưa tất cả dữ liệu vào trong một nhóm;

DataB: trong DataA, nhận tat cả dữ liệu trong khoảng Starttime đến endtime

của dit liệu bị thiếu PM:s

DataC: Chứa danh sách toạ độ của dữ liệu bị thiếu PMas;

for mỗi toạ độ trong DataC do

- Khởi tạo mảng (PMas) chứa những giá trị PMzs;

- Khởi tao mảng toa độ (coordinate) lưu trữ toa độ;

'While bán kính nhỏ hơn hoặc bằng 100 do

for mỗi toạ độ trong DataB do

đặt d là khoảng cách toạ độ trong DataC và DataB;

if d nhỏ hơn bán kính và toa độ không nằm trong mảng chứa toạ

độ then

- Thêm giá trị PMas of toa độ B vào mang(PM2:s);

- Thém toa độ vào mang toa độ (coordianate);

else

không làm gì;

end

Trang 24

if bán kính lớn hơn 20 và số phan tử trong mảng (PMas) lớn hơn

0 then

tính giá trị xuất ra cho PMas,

- Tìm giá trị maximum trong mang (PMas);

- Tính giá trị trung bình của tat cả các giá trị trong mang

(PM›s);

- Tìm giá trị minimum trong mảng (PM2:s);

Thoát khỏi vòng lặp trên DataB và sau đó thoát khỏi

2.4.1 Xứ lý dữ liệu

- Trước tiên, đữ liệu doc theo mỗi tuyến đường được xử lý trước để loại bỏnhiễu và những thứ không liên quan Các phép nội suy cần thiết được tiến hành đểnội suy ra được giá trị AQI đê bù vào cho những dữ liệu bị thiếu giá trị này

- Sau sau đó hai trường hợp của giải pháp được đề xuất được xây dựng như

Sau:

+ Trường hợp 1:

Trang 25

Từ tập dữ liệu được cung cấp thì có thể xác định được một nhóm người

đi theo những tuyến đường cụ thể Vì tập dữ liệu năm 2018, thời gian được thu thậptheo từng giây nên khi xử lý thi được chuyền đổi sang phút dé đảm bảo giữ lại giá trịcao nhất của mỗi yếu tố trong vòng một phút Sau đó dựa vào các yếu tố này (ví dụPM:s, NO¿, Os) dé tính ra được giá trị AQI và tiếp theo là những đặc trưng trực quan

sẽ được trích xuất dựa vào hình ảnh thu được.

" Trường hợp 2:

Đầu tiên thi thu thập tất cả những dữ liệu trong cùng một nhóm và sau

đó chỉ giữ lại những dữ liệu toa độ cùng với user’s tag Kế đến, chia nhỏ mỗi đoạncủa một tuyến đường thành bốn đoạn nhỏ hơn nhằm tạo ra những đoạn đường càngthẳng càng tốt dé quét tất cả các điểm được gắn tag trên đoạn đó Sau đó, quét bánkính với bán kính bằng khoảng cách giữa các đoạn nhỏ nảy, nếu phát hiện bất kỳđiểm được tag nào nằm trong phạm vi này đều được thu thập và tính giá trị trung bình

của user’s tag (ví dụ: giả sử khoảng cách giữa điểm bắt đầu con đường và điểm cuối

con đường là 100m, thì khoảng cách này được chia nhỏ thành bốn đoạn, mỗi đoạn

25m và sẽ có 3 điểm mới ở giữa).

2.4.2 Trích xuất đặc trưng trực quan

Bên cạnh những đặc trưng trực quan được cung cấp từ Ban tổ chức còn có một

công cụ được phát triển dé tải về những hình ảnh từ Google Street View dựa vào toạ

độ được cung cấp trong tập dữ liệu, việc này nhằm mục đích làm phong phú thêm tập

dữ liệu về hình ảnh Cuối cùng là trích xuất mật độ giao thông cũng như là mật độ

cây xanh trong những hình ảnh thu được này.

2.4.3 Do lường chỉ số chất lượng không khí cá nhân

Dữ liệu đầu vào là dữ liệu được lấy từ dữ liệu đã được tiền xử lý tương ứngvới mỗi trường hợp

o Trường hợp 1:

Phương pháp đo lường chỉ số chất lượng không khí cá nhân, đầu tiên được

tính bằng cách sử dụng công thức tính toán chỉ số AQI, sau đó user’s tag và mật độ

giao thông, mật độ cây xanh được sử dụng để tuỳ chỉnh các giá trị chỉ số (PAQI) Một

Trang 26

hàm được xây dựng dé điều chỉnh sự thích ứng chỉ số chất lượng không khí thành chi

số chất lượng không khí cá nhân như sau:

FO) =IE, ƒaecton.œ, (2.2)

©_ factor,«— mật độ giao thông,

©_ ƒactorsz——nật độ cây xanh,

0 @ +a, +ứ¿=1

+ Truéc tiên, định nghĩa ø; = #; = a3 = 1/3 sau đó sử dung cách tiếpcận dựa vào ad-hoc dé tính toán giá trị của các factor và điều chỉnh giá trị của œ tương

ứng với mỗi factor.

* Với ƒactor;, nếu giá trị của này lớn thi a, tăng và ngược lại thì ø; giảm

* Với factor, nếu giá trị này cao thi a2 giảm và ngược lai thì a, tăng

* Với factor;, nếu giá trị này cao thì ø;tăng và ngược lại thì ø; giảm.Vòng lặp tối ưu này tiếp tục được thực hiện cho đền khi sự hội tụ Xây ra,với giá trị lớn nhất của @ là 1 và giá trị nhỏ nhất của ø là 0

o Trường hợp 2:

= Trước tiên, dựa vào điểm bắt đầu và điểm kết thúc dé định nghĩa những

đặc trưng của tuyến đường 1,2 và 3 được nêu trong bảng 2.1

Trang 27

= Sau đó, tính giá trị trung bình của user’s tag.

*_ Cuối cùng là tính toán trọng số của tuyến đường Wy như sau:

PAQlinput

W:=———

Trong đó:

o_ PAQIupu: là đa phần của PAQI dựa vào tập dữ

liệu Development của các tuyến đường 1,2,3

© _ avg(user's tag): là giá trị trung bình của user’s tag

trên các tuyến đường 1,2,3

Trọng số của các đặc trưng được tính dựa vào tập đữ liệu có đầy đủ tất cả các

dữ liệu bao gồm PAQlipu, user’s tag và các đặc trưng Ví dụ: trọng số đặc trưng của

Main street được tính dựa trên các đặc trưng: PAQI = {1,1,2} => PAQIinput = 1, user’s

tag ={3,4,3} => avg(user’s tag) = 3 và trọng s6 của tuyến đường Main street là Wr

=1/3 =0.33 tương tự, dựa vào đó có thé tìm được trong số của các đặc trưng còn lại

Vi không thé tìm thấy được đặc trưng của Mountain trail trong tập dữ liệu

Development nên giả định trọng số của “Mountain trail” bằng với trọng số của

“Bayside path”.

Bảng 2.1 Bảng Trọng số của các đặc trưngĐặc trưng | Trọng số Đặc trưng Trọng số

Main street 0.33 Shopping street 0.5

Path 0.67 Underground arcade 0.25

Sightseeing 1.5 Garden 1.5

Street 0.5 Bayside path 2

Park 1.5 Mountain trail 2

Dựa vào Bảng 2.1, sử dụng các giá tri trong số của bảng này để suy ra giá

trị PAQI của các tuyến đường 4 và 5 theo công thức sau:

PAQToutput = Wr avg(user’s tag) (2.5) Trong do:

© = PAQTouput là giá trị dự đoán của tuyến đường 4,5o W¿ là trọng số trong Bảng 2.1

Trang 28

o_ Avg(user’s tag) là giá trị trung bình của user’s tag trên tuyến

đường 4,5.

2.5 Kết quá thực nghiệm và thao luận

Trong MediaEval 2019, bộ dữ liệu về thời tiết và dữ liệu ô nhiễm không khí,hình ảnh lifelog, tags được những người đeo các cảm biến ghi lại và sử dụng điệnthoại thông minh đi bộ dọc theo các tuyến đường được chỉ định trước trong thành phốcung cấp chúng tôi đã phát triển các phương pháp xử lý đữ liệu để có được sự hiểubiết sâu sắc về cảm xúc cá nhân Trong cuộc thi này, chúng tôi đã giải quyết được hai

thử thách lớn:

- Dự đoán giá trị bị thiếu:

Chúng tôi đã phát triển một giả thuyết về mối liên kết giữa các dit liệu

va xây dựng một hệ thống có thé thay thé các đoạn dữ liệu bị thiếu hoặc không chính

xác Đặc biệt với 10 truy vấn, mỗi truy vấn cung cấp cho chúng tôi một vài records

dữ liệu và yêu cầu chúng tôi dự đoán các giá trị còn thiếu

- _ Đo lường chỉ số chất lượng không khí cá nhân (PAQD:

Chúng tôi đã phát triển một phương pháp đê tự động dự đoán PAQI tại

vị trí và thời gian cụ thé bang cách sử dụng dữ liệu được cung cấp hoặc dữ liệu từ cácnguồn khác nhằm mục đích đo lường sức khoẻ của cá nhân liên quan đến chất lượngkhông khí mà họ đang hít thở Cụ thể, có một truy vấn và truy vấn này cung cấp chochúng tôi một số records dữ liệu và yêu cầu dự đoán chất lượng không khí cá nhâncủa một nhóm người đang di chuyển dọc theo cùng tuyến đường

Tập dữ liệu được sử dụng cho hai nhiệm vụ này được gọi là SEPHLA [1], đây là tập

dữ liệu chứa dữ liệu được biểu thị trong bảng 2.2 như sau:

Bảng 2.2 Bảng giải thích tập dữ liệu

Danh sách dữ liệu Loại dữ liệu

'Walking routes Tên đường, GPS, thời gian

Psychophysiology Bước chân, nhịp tim

Pollutant PM;s, NO2, O3

concentrations

Trang 29

Weather variables Nhiệt độ, độ âm

Images Hinh anh

Urban perception tags | Đô thị, sạch sẽ, ồn ào, mãng xanh, giao thông

Emotional tags Phan khích, chán nan, mức độ mệt mõi, hơi thở

SEPHLA thu thập dữ liệu qua những cảm biến có thể đeo tay, lifelogcamera và điện thoại thông minh được gắn cùng người thu thập dữ liệu Có năm nhóm.thu thập dữ liệu theo năm tuyến đường khác nhau bao gồm năm cảnh quan đô thị

được chú thích trong bảng 2.3 Đặc trưng của những tuyến đường

Bảng 2.3 Bảng đặc trưng của những tuyến đường

Sô Thứ tự Tên Đặc điểm

1 Momochihama | Bờ biên

2 Ohori Park Công viên với hồ nước và cây xanh

3 Tenjin Khu vực kinh doanh trong thành phố

4 Kashi Khu dân cư trong thành phố

5 Fukuoka Airport | Trung tâm giao thông

Mỗi nhóm bắt đầu ở cùng vị trí và tự do lựa chọn tuyến đường từ diémđược chỉ định đến điểm mục tiêu Điện thoại thông minh lấy dữ liệu hình ảnh suốt

năm tuyến đường, hầu hết được chụp tại các trạm kiểm soát được chỉ định trước và

dit liệu hình anh này được chú thích với dang đầu ra bao gồm ba loại (thuộc tính,

danh mục và ý tưởng).

Đánh giá cho mỗi nhiệm vụ được định nghĩa như sau:

Dự đoán dit liệu bị thiếu: việc đánh giá sẽ tính toán sự khác nhau

giữa giá trị được dự đoán và giá trị ground truth bằng cách sử dụng một phép đo đơn

giản the normalized Euclidean distances (L2 distance) Min-max normalization sẽ

được áp dung dé đưa giá trị vào trong vùng phù hợp [0,1]

Trang 30

L Do lường PAQI: đánh giá sẽ tính dựa trên sự khác nhau của các lop

được dự đoán với các lớp phù hợp băng cách áp dụng trung bình cộng của khoảngcách tuyệt đối (L1) giữa các cặp

2.5.1 Kết quả thực nghiệm của dự đoán dữ liệu bị thiếu:

Bảng 2.4 biểu thị kết quả thực nghiệm chạy trên bộ đữ liệu Development

dataset, Bảng 2.5 chạy trên bộ dữ liệu Testing dataset.

Bảng 2.4 Bảng kết quả chạy trên tập dữ liệu Development dataset

Questtion ID, File name, Number Euclidean distances (L2 distance)

Start tim, End time of values Min-max [0,1]

missing | Maximum Average Minimum

Trang 31

Bảng 2.5 Bảng kết quả chạy trên tập dữ liệu Testing dataset.

Group_id Method Run id Score

xác hơn hai phương pháp còn lại, tuy nhiên không có khoảng cách lớn giữa các

phương pháp.

2.5.2 Kết quả thực nghiệm của đo lường PAQI:

Kết quả thực nghiệm chạy trên bộ dữ liệu Training dataset được biểu thị trongBảng 2.6, kết quả này cho thấy có thẻ đo lường PAQI với độ chính xác chấp nhận

được.

Bang 2.6 Bảng kết quả chạy trên tập dữ liệu training dataset

Trang 32

ROUTE/ List of course ground truth List of course run 1

Course 2/ (1, 2, 3, 4, 1) 1,2, 2,4, 2 Course 3/ (2, 1, 2, 0, 3, 3, 2) 2, 1,2, 2,4, 2,2

Bang 2.7 Bang két quả chạy trên tập dit liệu Testing dataset

Group id Subtask id Runid | Score

SHT UIT 2 1 0.8 SHT UIT 2 2 1

Trong Bảng 2.7, có thé thấy rằng lần chạy của phương pháp 1 có hiệu qua tốthơn so với phương pháp thứ 2 Điều này cho thấy rằng việc đo lường PAQI bằng cáchđiều chỉnh sự thích ứng theo user’s tag, mật độ giao thông và mật độ cây xanh hiệu

quả hơn so với việc sử dụng các giá trị trung bình của user”s tag và các đặc trưng của

tuyến đường trong phương pháp 2 có sử dụng cách làm tròn số khi tính toán các giá

trị trung bình của user’s tag nên có thể ảnh hưởng đến toàn bộ hiệu suất

2.5.3 So sánh

Các phương pháp đề xuất được so sánh với những phương pháp khác được

phát triển bởi những người tham gia MediaEval 2019 trên cùng một tập dữ liệu vàviệc đánh giá do Ban tô chức cuộc thi cung cấp dé so sánh Chúng tôi cũng phân tích

ưu điểm và khuyết điểm của các phương pháp của mình so với những phương pháp

khác và kết quả được thé hiện trong bảng 2.8

Bảng 2.8 Bảng so sánh với những đội khác trong MediaEval 2019.

Group id Task Run id Score

Healthism 1 3 0.00042718

SHT UIT 1 3 0.00046321 DCU 1 1 0.01531041

Healthism 2 19 0.3

SHT UIT 2 1 0.8

Trang 33

quan hệ giữa các yếu tố mức thấp và PMas với nhiều lớp phân loại yếu và tránh vấn

đề vượt quá vì dung lượng model bị hạn chế Họ tập trung vào dữ liệu ở mức các conđường, không tập trung đến những cảm biến thành thị bao gồm NOa,Os,NO Các yếu

tố được thu thập từ những thiết bị cầm tay như PMas, nhiệt độ, độ âm, nhịp tim Trongphương pháp đo PAQI, tat cả những lần chạy của họ được train với thuật toán GBDT

nhưng trên những đặc trưng khác và sử dụng cơ sở dữ liệu GIS từ bên ngoài cho

OpenStreetMap đề có mô tả chính xác về môi trường xung quanh như là các toà nhà,những con đường và cảnh quan Họ định vị dọc theo tuyến đường bằng cách trượt

windows (với bước trượt là 20m và khoanh vùng với bán kinh 25m bao quanh vị trí

đó) Sau đó họ thu thập tất cả các mô tả về thiên nhiên và đô thị trong bán kính đượckhoanh vùng này và tat cả các yêu tố này được phân chia thủ công vào con đường,toà nhà và cảnh quan Họ tiếp tục phân cụm các nhận thức chủ quan của con ngườitheo sự đa dạng của đô thị tự nhiên thành các nhóm khác nhau Tất cả các vị trí được

gan cùng nhãn với nhãn của các đoạn tương ứng.

Trong nhiệm vụ dự đoán dữ liệu bị thiếu, phương pháp của chúng tôi đã đạt

được score cao khoảng 0.00046, cao hơn nhóm DCU [29] trong Bảng 2.8, nhóm đạt

score xAp xỉ khoảng 0.0153 Điều này có nghĩa là cách tiếp cận của chúng tôi đưa ra

model dự đoán tốt hơn so với nhóm DCU Tuy nhiên, nhóm Healthism có phương

pháp phù hợp và đạt được số score cao nhất khoảng 0.00042 Và trong nhiệm vụ thứhai của phương pháp đo PAQI, cách tiếp cận của chúng tôi đạt được score là 0.8 xếpsau nhóm Healthism với score đạt được là 0.3, điều này chứng tỏ phương pháp củachúng tôi dat score cao hơn nhóm DCU với số score đạt được là 1.0

Trang 34

Nhóm DCU đề xuất phương pháp hồi quy tuyến tính cho nhiệm vụ đầu tiên và

họ xây dựng model hồi tuy tuyến tính y = wT+ + b và áp dụng giảm gradient đề tìmtham số w và b tốt nhất nhằm thiểu khoảng cách giữa model dự đoán với giá trị

ground-truth của bộ dữ liệu train Phương pháp nay đạt được score 0.0153 Phuong

pháp đo PAQI, họ giải quyết bài toán bằng cách suy luận từ dữ liệu PMas củalifelogger và đạt được score 1.0 Phương pháp của họ là định nghĩa lại dữ liệu dé lấy

dữ liệu PM:s chính xác cho mỗi tuyến đường bằng cách tính toán khoảng cách giữa

GPS của tuyến đường và GPS hiện tại của người thu thập Tiếp theo họ lấy đữ liệucho 27 tuyến đường trong vòng 7 ngày từ các nhóm thu thập khác nhau, đối với mỗi

di liệu trong một ngày được thu thập bởi người thu thập, ho tính giá trị trung bình

của PMa.s và xem xét giá trị trung bình lớn nhất của giá trị PMa.s như là một tiêu chí

để đánh giá giá trị AQI của một tuyến đường vào ngày đó, sau đó họ tính trung bìnhgiá trị AQI của 7 ngày và đánh giá lại dé suy ra giá trị AQI của tuyến đường

Trang 35

CHƯƠNG 3 ÁP DỤNG CHO TP HÒ CHÍ MINHTrong chương này, luận văn đi sâu vào việc giới thiệu và phân tích giải pháp đềxuất ở các chương trên và bài toán cụ thé tại tp Hồ Chí Minh Trong chương này, ditliệu thu thập bằng thiết bị quan trắc di động cùng với dữ liệu thu thập từ các nguồn

mở được sử dung để đánh giá giải pháp dé xuất

3.1 Phân tích vấn đề

Việc đánh giá các giá trị và mức độ chỉ số chất lượng không khí luôn là mộtkhía cạnh quan trọng trong van đề nghiên cứu các tác động không tốt có thé có đốivới sức khoẻ liên quan đến chất lượng không khí hiện tại Trong nghiên cứu này, sửdụng máy học và lựa chọn các thuộc tính thích hợp cho vấn đề ước tính chất lượngkhông khí cục bộ dựa vào những cảm biến đơn giản có thể thu thập được trong thờigian thực và những đặc trưng khác như là thông tin về dấu thời gian, đữ liệu địa lý và

dữ liệu thời tiết, trích xuất các đặc trưng hữu ích cho bài toán và áp dụng các modelmáy học khác nhau để dự đoán giá trị và mức độ AQI ở những vị trí người sử dụng

mong muốn.

Bộ dữ liệu được sử dụng là bộ dữ liệu MNR-Air [9] được thu thập bởi các tình

nguyện viên tại Thành Phố Hồ Chi Minh trong nhiều ngày, những tình nguyện viênnày sử dụng những hộp cảm biến chứa đựng những cảm biến tương ứng đề đo lường

sáu chất gây ô nhiễm không khí như SO2, NO›, PMio, PMas, CO và Os cũng như hai

thuộc tính khác (nhiệt độ, độ Am) khi ho di chuyén trén tuyén đường được chi địnhvào một lộ trình nhất định để tao ra mức AQI trung thực nhất

Kết quả thực nghiệm cho thấy rằng việc kết hợp các loại đặc trưng khác nhau

và sử dụng CatBoost/XGBoost và tất cả các loại đặc trưng có thê tốt hơn những cáchtiếp cận khác

3.2 Phương pháp đề xuất

Thành phó Hồ Chí Minh là nơi có nền kinh tế phát triển nên thu hút rất nhiềungười từ mọi nơi của đất nước Chính vì vậy mà nơi đây có lượng người dân sinh

sống rất đông và Thành phố ngày càng phải đối mặt với nhiều thách thức mà một

trong những thách thức đáng quan tâm là vẫn đề môi trường, khói bụi từ các nhà máy,

Trang 36

các phương tiện giao thông lam ảnh hưởng đến van dé 6 nhiễm không khí mà cụ théhơn là chất lượng không khí đo được ở nơi này thường là ở mức rất cao.

Trong nghiên cứu này, phương pháp ước tính chỉ số chất lượng không khí cục

bộ bằng cách xây dựng một thuật toán thích hợp và trích xuất các đặc trưng tại vị trícần ước tính được đề xuất Theo đó, phương pháp này sẽ sử dụng bộ dữ liệu MNR-

Air [9] được thu thập từ các tình nguyện viên trong khoảng thời gian từ 09/07/2020

đến 28/08/2020 tại Thành Phó Hồ Chí Minh Những thuộc tính khác nhau của tập dữ

liệu được sử dụng như là thời gian và vị trí (được thu thập thông qua điện thoại thông

minh của tình nguyện viên), đữ liệu cảm biến, dữ liệu về thời tiết (nhiệt độ, sương,

độ ẩm, tốc độ gió, áp suất) đây là dữ liệu được công khai tại Thành Phố Mô hình

máy học được xây dựng nhằm mục đích dự đoán mức AQI thích hợp tại vị trí nhất

định của người dan trong thành phố Cần lưu ý rằng giá trị ground-truth của AQI cục

bộ và các mức AQI có thể được tính toán dựa vào phép đo của sáu chất ô nhiễmkhông khí như sau: PMs, PMio, NO2, CO, SO; và Os được biểu thi trong Bảng 3.1

như là giá trị cao nhất của AQI riêng lẻ của từng chất gây ô nhiễm

Bảng 3.1 Bảng chỉ tiết của tập dữ liệu và các thuộc tính được thu thập

Loại dữ liệu Thông số Đơn vị

Thời gian unitless

Trang 37

Điểm sương °CThoi tiét cong Độ am #

còn sử dụng thêm các đặc trưng sau:

- _ Đặc trưng về dấu thời gian: Đối với bài toán này thì thông tin dấu thời

gian có thé trở nên hữu ích vì chất lượng không khí có thé thay đồi rất nhiều qua cácthời điểm khác nhau trong ngày Đặc biệt ở Thành Phố Hồ Chí Minh, tình trạng kẹt

xe thường xuyên trở nên nghiêm trọng vào những giờ cao điểm và giao thông chính

là nguồn gây ô nhiễm, ngoài ra mật độ giao thông có thé là một yếu tố ảnh hưởng đếnchất lượng không khí cục bộ trong một khoảng thời gian cụ thể Đáng chú ý, đỉnhđiểm của nồng độ PMas thường xảy ra vào các giờ cao điểm do lượng khí thải phươngtiện giao thông gia tăng [11] Do đó, hai loại đặc trưng thời gian được trích xuất đó

là Part-Of-Day (POD) và isRush-Hour (isRH) Đối với đặc trưng POD, thời gian 24

giờ được chia thành năm nhóm, như minh hoạ trong Bang 3.2 Đối với đặc trưng

isRH, vì dữ liệu chủ yếu được thu thập từ các khu vực thành thị, các giờ cao điểmthường được tính vào budi sáng (từ 7 giờ đến 9 giờ sáng) và buổi chiều (từ 16 giờđến 17 giờ) vì những giờ này hay xảy ra tình trạng kẹt xe và khí thải của các phươngtiện giao thông có thé ảnh hưởng đáng kể đến PM¿s Do đó, dữ liệu thu thập trongkhoảng thời gian nay được cho là giờ cao điểm

Bảng 3.2 Bảng chỉ tiết các đặc trưng Part-Of-Day (POD)

Khung thời gian Nhóm

5:00 AM đến trước 7:00 AM Budi sáng sớm

7:00 AM đến trước 12:00 AM | Budi sáng

12:00 AM đến trước 4:00 PM | Budi Chiều

4:00 PM đến trước 8:00 PM Budi tối

Trang 38

8:00 PM đến trước 5:00 AM Ban đêm

- Đặc trưng về vị trí: Tại một số vị trí cụ thể như gần sân bay, mật độ giao

thông có thể cao hơn đáng kể so với một số vị trí khác, dẫn đến có sự dao động về

mực độ của chất lượng không khí Trong phương pháp này, khoảng cách giữa từngđịa điểm và vị trí gần sân bay nhất ở Thành Phó Hồ Chí Minh sẽ được xem xét vì nó

có thể có thông tin hữu ích có thể góp phần vào việc phân tích ô nhiễm không khí Sử

dụng công thức Haversine cho việc tính toán khoảng cách, đây là một phương trình

phân tích dé điều hướng và mang lại kết quả chính xác khi xác định khoảng cách lớn

nhất giữa hai điểm trên bề mặt trái đất dựa trên kinh độ và vĩ độ của nó Với hai điểm

A và B thì công thức Haversine có thể được tính như sau:

=) + cos(p,).cos(pg) sin” (4)y2 G.1)

- Dic trưng về thời tiết: Thông tin liên quan đến thời tiết như (nhiệt độ,

điêm sương, m và áp suất) được thu thập từ các trạm cục bộ, được xem như là

đặc trưng thời tiết công cộng Những đặc trưng này có thé được coi là thông tin bổsung có thể cải thiện độ mạnh và độ tin cậy của model máy học Trong các thửnghiệm, thông tin thời tiết từ các trạm cô định gần với địa diém giám sát nhất đượcchọn đó là trạm gần sân bay của thành phố Dữ liệu về thời tiết được cập nhật 30 phútmột lần và được công khai rộng rãi Trong phần sau sẽ thảo luận về tác động của việc

sử dụng dit liệu thời tiết công cộng đối với việc cải thiện độ chính xác của mô hình

máy học.

Trang 39

3.2.2 Xây dung model

Để training một model thích hợp cho bai toán, chia tập dữ liệu thô thành cáctập dữ liệu training và tap dữ liệu testing Tiến hành xáo trộn các quan sát và sử dung80% trong số đó dé training và đánh giá, 20% còn lại làm bộ kiểm tra Mục đích củanghiên cứu này nhằm ước tính các giá trị AQI bằng cách sử dụng mô hình hồi quy va

sau đó tính toán mức AQI cục bộ ở vị trí hiện tại của người dùng Công thức AQI của

dai loan [12] được sử dụng để chuyền đổi các giá trị AQI thành các mức AQI

Bảng 3.3 Bảng chuyền đổi giá trị AQI thành mức AQI [12]

Air Quality Index (AQD

- Gid tri AQI ti 0 ~ 50 thì mức AQI là tốt — Chất lượng không khí được xem

là đạt tiêu chuẩn và ô nhiễm không khí coi như không hoặc gây rat ít nguy hiểm

Trang 40

- Giá trị AQI từ 51 ~ 100 thi mức AQI trung bình — Chat lượng không khí

ở mức chấp nhận được, tuy nhiên một số chất gây ô nhiễm có thể ảnh hưởng đến sức

khoẻ của một số Ít người nhạy cảm với không khí bị ô nhiễm

- Giá trị AQI từ 101 ~ 150 thì mức AQI không tốt cho người nhạy cảm —nhóm người nhạy cảm có thê chịu ảnh hưởng sức khoẻ Số đông không có nguy cơ

bị tác động.

- Giá trị AQI từ 151 ~ 200 thì mức AQI ở mức có hại cho sức khoẻ — Mỗi

người đều có thể sẽ chịu tác động đến sức khoẻ, nhóm người nhạy cảm có thể bị ảnh

hưởng nghiêm trọng hơn.

- Gid trị AQI từ 201~300 thì mức AQI rất có hại cho sức khoẻ — cảnh báonguy hại sức khoẻ nghiêm trọng Da số moi người đều bị ảnh hưởng

- Giá trị AQI trên 300 thì mức AQI nguy hiểm — cảnh báo sức khoẻ đến tat

cả mọi người có thể chịu tác động nghiêm trọng, đến sức khoẻ

Những thuật toán dự đoán được đánh giá bằng cách sử dụng 5 Fold crossvalidation với bộ kiểm tra hold-out: Linear Regression [13], Support Vector Machine

(SVM) [14], Random Forest [15], Extra Trees [16], XGBoost [17], Catboost [18] va

cách tiếp cận Stacking Generalization [19] Ngoài ra, còn có chuẩn bị thêm ba kịch

bản khác nhau cho mỗi thuật toán máy học đề đánh giá hiệu suất tương ứng theo mỗi

trường hợp như sau: sử dụng hoặc không sử dụng các đặc trưng dựa trên thời gian, vị

trí và dữ liệu thời tiết được công khai

3.2.3 Phuong pháp Stacking

Để nâng cao hiệu suất của công cụ ước tính AQI, kỹ thuật stackinggeneralization [19] được sử dụng, đây là một cách tiếp cận mới của việc kết hợp nhiềulớp Ý tưởng chính là sử dụng lớp meta-level (hoặc level-1) dựa vào kết quả dau ra

của các lớp cơ bản (hoặc level-0) được ước tính thông qua cross validation [20].

Về chỉ tiết, ba model được sử dụng: Random Forest, XGBoost và CatBoost

như những model level-0 Do lường hiệu quả của những model được chọn thông qua

5 fold cross validation Trong suốt quá trình xác nhận 5 fold cross validation, tập dữliệu D! D5 được chia ngẫu nhiên thành năm phần rời rac Ở mỗi k fold, k=1 5,hai models level-0 được train sử dung phan D\D* và áp dụng đến phần test Dk để dự

Ngày đăng: 08/11/2024, 17:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN