Bài toán đặt ra ở đây, là nếu có một bản đồ trực tuyến, hiển thị thông số 6 nhiễm không khí cùng với một thuật toán tiên đoán chỉ số ô nhiễm trong thời gian ngắn, và thuật toán tìm đường
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Ox*O.
NGUYEN DANG HIEU
DU DOAN TUYẾN DUONG GIAM THIẾU TÁC DONG
CUA Ô NHIEM KHONG KHÍ DỰA TREN
CO SO DU LIEU QUAN TRAC DI DONG
l LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
Mã số: 8480201
Trang 2ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Ox*O.
NGUYEN DANG HIEU
DU DOAN TUYEN DUONG GIAM THIEU TAC DONG
CUA Ô NHIEM KHÔNG KHÍ DỰA TREN
CƠ SỞ DỮ LIỆU QUAN TRẮC DI ĐỘNG
._ LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
Mã số: 8480201
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGUYÊN THÀNH DƯƠNG
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ này được viết và trình bày bởi chính tôi Đây
là kết quả nghiên cứu của tôi đưới sự hướng dẫn trực tiếp của Tiền sĩ Nguyễn Thành
Dương Mọi tham khảo trong luận văn này đều được trích dẫn rõ ràng Đồng thời, tôi
xin cam đoan rằng các kết quả thực nghiệm được trình bày trong luận văn này là trung
thực Tôi xin chịu hoàn toàn trách nhiệm về mọi sao chép không hợp lệ hoặc các vi
phạm về quy chế đào tạo khác.
Trang 4LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành nhất đến Tiến sĩ Nguyễn Thành Dương là cán bộ hướng dẫn luận văn thạc sĩ Chúc thầy luôn dồi dào sức khỏe và thành công
trong sự nghiệp nghiên cứu khoa học và giảng day Tôi xin chân thành cảm ơn nhóm.
nghiên cứu MNR-Team do Tiến sĩ Đào Minh Sơn dẫn dắt và các thành viên trong nhóm đã hỗ trợ tôi trong suốt quá trình nghiên cứu của mình Cuối cùng, tôi xin cam
ơn các thay, cô, va cán bộ của Trường Dai học Công nghệ thông tin - Dai hoc quốc gia Thành phố Hồ Chí Minh đã truyền đạt những kiến thức và tạo điều kiện tốt nhất
trong quá trình học tập của tôi tại Trường.
Trang 5TÓM TÁT
Ô nhiễm không khí ở TP Hồ Chí Minh đang là vấn đề cấp bách hiện nay Lãnh
đạo thành phó, các nhà quản lý, các nhà khoa học, và các công ty công nghệ đang ‹ đầu
tư chất xám và nhân lực cũng như hợp tác dé giải pháp cho vấn đề giảm thiểu ô
nhiễm không khí Có thé thấy một trong các liên ¡quan giữa hoạt động trong thành phố
và ô nhiễm không khí là giao thông ô nhiễm Số lượng xe máy dày đặc dẫn tới nông
độ khí thải cao (bên cạnh các tác nhân khác) Ngoài ra, khi kẹt xe, mật độ xe nd may
va đứng tai chỗ rất lớn, dẫn đến độ 6 nhiễm cục bộ tăng đột biến, ảnh hưởng trực tiếp
tới sức khỏe người dân.
Bài toán đặt ra ở đây, là nếu có một bản đồ trực tuyến, hiển thị thông số 6 nhiễm không khí cùng với một thuật toán tiên đoán chỉ số ô nhiễm trong thời gian ngắn, và thuật toán tìm đường đi tối ưu từ A tới C tránh các tuyến có ô nhiễm cao thì
sẽ giúp người dân tránh được rủi ro ô nhiễm không khí Hơn thế nữa, điều này dẫn
tới sự phân p! lại luồng giao thông, tránh dồn hết vào một số điểm ở giờ cao điểm, gián tiếp giảm thiểu kẹt xe trong thành phố
Một trong các thách thức của bài toán là dữ liệu ô nhiễm không khí của TP.
Hồ Chí Minh hiện nay chưa được công bố rộng rãi, ngoại trừ các dữ liệu của tổ chức
quốc tế, hoặc công ty tư nhân Ngoài ra dữ liệu giao thông được cung cấp từ các
CCTV của thành phố chỉ bao phủ một số điểm giao thông trọng yếu Dữ liệu quan
trắc cục bộ ở TP Hồ chí Minh vẫn chưa có, ngoại trừ dữ liệu của nhóm MNR u 27]
(dữ liệu cá nhân) được tạo bởi các tác giả đề tài, trong phạm vi nhỏ (một số tuyến có
định trong thành phd) Về bản chat, dữ liệu mở và dữ liệu cá nhân là bổ trợ cho nhau.
Về lý thuyết, dữ liệu mở sử dụng dữ liệu từ các trạm cố định, và số lượng trạm cố
định này là rất ít (theo thực tiễn ở TP Hồ Chí Minh) Do vậy, nếu dữ cá nhân và
dữ liệu mở được thu thập trong cùng một phạm vi bao phủ bởi trạm có định, sẽ không
có mâu thuẫn xảy ra (độ sai số chấp nhận được) Vấn dé này, luận văn đã thử nghiệm tại Đà Lạt với bộ ghi nhận dữ liệu cá nhân tại vị trí gần nơi có 3 trạm có định Trường hợp vi trí bộ ghi nhận dữ liệu cá nhân cách xa trạm cố định, thì dữ liệu mở là dữ liệu
suy đoán (interpolation), độ chính xác không cao Đó là lý do phải cần bộ ghi nhận
dữ liệu cá nhân để có thé có dữ liệu chính xác ngoài phạm vi bao phủ của trạm cô
định Trong trường hợp này, dữ liệu cá nhân được xem xét là dữ liệu chính thức, và
dữ liệu mở chỉ là dữ liệu tham khảo Ở các trường hợp ngoài phạm vi bao phủ của cả trạm cô định và trạm di động, thì két quả sẽ là một tích hợp giá trị suy đoán của cả hai nguồn dữ liệu.
Do vậy, thử thách kế tiếp là khả năng thu thập, tổng hợp các nguồn thông tin có sẵn dé tạo lập bản đồ trực tuyến về ô nhiễm không khí ở mức chỉ tiết Dữ liệu từ
nguồn tổng hợp này có thể được dùng để xây dựng mô hình tiên đoán ô nhiễm không
khí trong thời gian ngắn, doc theo các tuyên giao thông Từ đó xây dựng nên một dịch
vụ tìm kiếm đường đi tối ưu tránh các vùng ô nhiễm không khí Hiện tại, theo kiến
thức của tác giả, chưa có dịch vụ nào như mô tả hoạt động ở thành phố.
Đề tài dựa trên hai thuật toán quan trọng: (1) dự đoán giá trị AQI (Air Quality Index) dựa trên dữ liệu ghi nhận trong thời gian dài, và (2) lên kế hoạch đường đi
nhằm tránh các chướng ngại (path planning problem with obstacle avoidance) Hai
van dé này không mới và đã có nhiều nghiên cứu liên quan Tuy nhiên, dé tích hợp
lại, phù hợp với dữ liệu thu thập từ cả dữ liệu mở và của tác giả, và xây dựng nên một
ứng dụng hữu ich |: t vấn đề mới.
Bộ cơ sở dữ của nhóm MNR [1,27] (dang tiếp tục thu thập thường xuyên)
và các nguồn dữ liệu mở được dùng dé phát trién, kiểm tra, và so sánh hiệu suất các
iii
Trang 6thuật toán khác nhau (bao gồm thuật toán tự thân phát triển, và các thuật toán hiện
có) Hiện tại, thuật toán (1) dự đoán giá trị AQI đã được tác giả phát triên và thử nghiệm trên thách thức MediaEval 2019 [31] Vấn đề tiếp theo là phải chỉnh sửa thuật toán cho phù hợp với dữ liệu thu thập tại TP Hồ Chí Minh Thuật toán (2) sẽ được
phát triển trong thời gian tới.
Trong nghiên cứu này, luận văn tập trung mô tả thuật toán tiên đoán AQI (Air
Quality Index) trong thời gian ngắn dựa trên dé liệu của nhóm MNR [1,27] và dit liệu
mở của TP Hồ Chí Minh Xây dựng thuật toán lên kế hoạch đường đi (cập nhật thời gian thực) nhằm tránh tối đa các vùng bị ô nhiễm Sau đó, tích hợp các thuật toán và xây dựng ứng dụng website và ứng dụng trên nền tảng điện thoại cho phép người dùng nhập điểm xuất phát, điểm đến, và hiển thị kế hoạch đường đi Kết quả thực
nghiệm chỉ ra rằng phương pháp đề xuất trong luận văn giúp giảm khoảng 31.47%
chỉ số AQI so với các phương pháp tìm kiếm đường đi được so sánh, tuy nhiên độ
dài quãng đường cũng tăng nhẹ mặc dù trong phương pháp này cần ít cảm biến hơn.
Kết quả của quá trình nghiên cứu này đã được công bố tại 7 bài báo Hai (02) trong số đó, học viên thực hiện luận văn là tác giả đứng tên đầu.
Trang 71.1 Tính cấp thiết của dé tai
1.1.1 Giới thiệu dé tài.
143 Đối tượng và phạm vi nghiên cứu
1.4 Ý nghĩa khoa học và ý nghĩa thực tiễn
1.5 Cơ sở lý thuyết và các nghiên cứu liên quan
1.5.1 Tổng quan cơ sở lý thuyết
1.5.2 Các nghiên cứu liên quan trong
CHƯƠNG 2 DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU.
2.1 Dữ liệu.
2.1.1 Tập dit liệu MNR-HCM
2.1.2 Thu thập dữ liệu
2.2 Phương pháp nghiên cứu
CHƯƠNG 3 DỰ ĐOÁN VÀ NỘI SUY AQI
3.1 Dự đoán và nội suy AQI
3.1.1 Dự đoán AQI
3.1.2 Nội suy không gian
3.2 Bản đồ nguy cơ AQI trực tu’
CHUONG 4 TÌM DUONG ĐI TRÁNH Ô NHIEM KHÔNG KHÍ
4.1 Bài toán tìm đường đi tránh ô nhiễm không khí
4.2 Nền tảng AQI-T-RM
4.2.1 Động lực và mục tiêu
4.2.2 Phương pháp
Trang 85.2 Hướng phát triển tương lai
DANH MỤC CÔNG BO KHOA HỌC CUA TÁC GIA
TÀI LIỆU THAM KHẢO
Trang 9DANH MỤC VIẾT TẮT
AQI Air Quality Index
CCTV Closed-circuit television
GPS Global Positioning System
IDW Inverse Distance Weight
API Application Programming Interface AQI-T-RM Air pollution and Traffic Risk Map CAR Clean Air Routing Algorithm
PAQI Personal Air Quality Index
Trang 10DANH MỤC BANG BIEU
Bảng 2 1 Các tuyến đường đã chọn và đặc trưng cảnh quan của chúng
Bảng 3 1 Kết quả chạy thử nghiệm trên tập dữ liệu kiểm tra (MediaEval2019).
Bang 3 2 Đánh giá kết quả các thực thi trên tập dữ liệu kiểm tra (MediaEval2019) 15 Bảng 3 3 Đánh giá kết quả trên tập dữ liệu MNR-HCM.
Bảng 4 1 So sánh AQI-T-RM với các thuật toán khác
Bảng 4 2 Bảng so sánh 3 thuật trong trong tường hợp tìm kiêm offline
Bảng 4 3 Bảng so sánh 3 thuật trong trong tường hợp tìm kiếm online
Trang 11Hình 2 1 Khu vực khảo sát va các trạm quan trắc lân cận
Mô hình hóa dữ liệu AQI thô và dữ liệu AQI được dự đoán và nội suy 11
Mô tả thuật toán tìm kiếm theo thời gian
Mô tả thuật toán tìm kiếm theo vị trí
Ví vụ về một trường hợp sử dụng API
So đồ hệ thống xây dựng bản đồ AQI trực tuy:
Ảnh chụp bản đồ nguy cơ AQI trực tuyến ở thời điểm T
Thuật toán tng thé của AQI-T-RM
Sự tương quan về mật độ cảm biến
Hình ảnh về giao diện chính của ứng dụng AQI-T-RM
Mô phồng dang 3D các lớp xếp chồng lên nhau theo thời gian
Giả lập qua trình thử nghiệm các thuật toán
Giao diện ứng dụng AQI-T-RM trên thiết bị di động
Trang 12CHƯƠNG 1 MỞ DAU
1.1 Tính cấp thiết của đề tài
1.1.1 Giới thiệu đề tài
Ô nhiễm không khí ở thành phố Hồ Chí Minh dang là vấn đề cấp bách hiện nay.
Lãnh đạo thành phó, các nhà quản lý, các nhà khoa học, và các công ty công nghệ
đang đầu tư chất xám và nhân lực cũng như hợp tác để tìm giải pháp cho van dé giảm
thiểu ô nhiễm không khí Có thể thấy một trong các liên quan giữa hoạt động trong
thành phó và ô nhiễm không khí là giao thông ô nhiễm Số lượng xe máy dày đặc dẫn
tới nồng độ khí thải cao (bên cạnh các tác nhân khác) Ngoài ra, khi kẹt xe, mật độ xe
nỗ máy và đứng tại chỗ rất lớn, dẫn đến độ ô nhiễm cục bộ tăng đột biến, ảnh hưởng
trực tiếp tới sức khỏe người dân.
Bài toán đặt ra ở đây, là nếu có một bản đồ trực tuyến, hiển thị thông số ô nhiễm
không khí cùng với một thuật toán dự đoán chỉ số ô nhiễm trong thời gian ngắn, và
thuật toán tìm đường đi tối ưu từ A tới C tránh các tuyến có ô nhiễm cao thì sẽ giúp người dân tránh được rủi ro ô nhiễm không khí Điều này dẫn tới sự phân | phối lại
luồng giao thông, tránh dồn hết vào một số điểm ở giờ cao điểm, gián tiếp giảm thiểu
kẹt xe trong thành phố.
1.1.2 Ly do chọn đề tài
Dữ liệu ô nhiễm không khí của thành phố Hồ Chí Minh hiện nay chưa được công
bố rộng rãi, ngoại trừ các dữ liệu của tổ chức quốc tế, hoặc công ty tư nhân Ngoài ra
u giao thông được cung cấp từ các CCTV của thành phố chỉ bao phủ một số điểm giao thông trọng yếu Dữ liệu quan trắc cục bộ ở TP Hồ chí Minh vẫn chưa có,
ngoại trừ dữ liệu bộ dữ liệu của nhóm MNR [1,27] (dữ liệu cá nhân) được tao bởi các tác giả đề tài, trong phạm vi nhỏ (một số tuyên có định trong thành phó) Về bản chất,
di liệu mở và dữ liệu cá nhân là bỗ trợ cho nhau Về lý thuyết, đữ liệu mở sử dụng
từ các trạm có định, và số lượng trạm có định nay là rất it (theo thực tiễn ở
TP Hồ Chí Minh) Do vậy, nếu dữ liệu cá nhân và dữ liệu mở được thu thập trong cùng một phạm vi bao phủ bởi trạm cố định, sẽ không có mâu thuẫn xảy ra (độ sai số chấp nhận dug ấn dé này, luận văn đã thử nghiệm tại Da Lạt với bộ ghi nhận dữ liệu cá nhân tại vị trí gần nơi có 3 trạm cô định Trường hợp vi trí bộ ghi nhận dữ liệu
cá nhân cách xa trạm cô định, thì dữ liệu mở là đữ liệu suy đoán (interpolation), độ chính xác không cao Đó là ly do phải cần bộ ghi nhận dữ liệu cá nhân dé có thé có
dữ liệu chính xác ngoài phạm vi bao phủ của trạm có định Trong trường hợp này, dữ liệu cá nhân được xem xét là dữ liệu chính thức, và dữ liệu mở chỉ là dữ liệu tham
khảo Ở các trường hợp ngoài phạm vi bao phủ của cả trạm cố định và trạm di động, thì kết quả sẽ là một tích hợp giá trị suy đoán của cả hai nguồn dir liệu.
Thử thách ở đây là có thê thu thập, tổng hợp các nguôn thông tin có sẵn đề tạo
lập bản đồ trực tuyến về ô nhiễm không khí ở mức chỉ tiệt Từ đó có đủ dữ liệu đê xây dựng mô hình dự đoán ô nhiễm không khí trong thời gian ngắn, đọc theo các
tuyến giao thông Từ đó xây dựng nên một dịch vụ tìm kiếm đường đi tối ưu tránh các vùng ô nhiễm không khí Hiện tại, theo kiến thức của tác giả, chưa có dịch vụ nào
như mô tả hoạt động ở thành phô.
Định nghĩa về thuật ngữ “thời gian ngắn” được sử dụng trong luận văn:
ô nhiễm không khí trong thời gian ngăn nghĩa là từ dữ liệu thu thập từ
biến động ở thời điểm hiện tại (t) sẽ được dùng để dự đoán chỉ số ô nhiễm không khí
ở thời điểm tương lai t+i mỗi i được xem xét là trong 5 phút tới và phạm vi tối đa dé
dy đoán là 60 phút, thời gian dự kiến đi hết đường.
Trang 131.2 Mục tiêu nghiên cứu
1.2.1 Mục tiêu chung
Thu thập, tong hợp các ng ồn thông tin có sẵn dé tạo lập ban dé trực tuyến về 6
nhiễm không khí ở ở mức chỉ tiết Từ đó xây dựng mô hình dự đoán ô nhiễm không khí
trong thời gian ngắn, doc theo các tuyến giao thông Từ đó xây dựng nên một dịch vụ
tìm kiếm đường đi tối ưu tránh các vùng ô nhiễm không khí.
- _ Tích hợp các thuật toán và xây dựng ứng dụng nhập điểm xuất phát, điểm đến,
và hiển thị kế hoạch đường đi.
13 Đối tượ g và phạm vi nghiên cứu
Do hạn chế về thời gian, số liệu và nguồn lực đề tài chỉ thực hiện trong giới hạn
Sau:
- Đối tượng nghiên cứu: bộ dữ liệu của nhóm MNR [1,27] và dữ liệu mở của
TP Hồ Chí Minh.
Phạm vi nghiên cứu: Một khu vực trên địa bàn thành phó Hồ Chí Minh.
1 A Y nghĩa khoa học và ý nghĩa thực tiễn
- Ý nghĩa thực tiễn: từ bản đồ trực tuyến, hiển thị thông số ô nhiễm không khí
cùng với một thuật toán dự đoán chỉ số ô nhiễm trong thời gian ngắn, và thuật toán
tìm đường đi tối ưu từ A tới C tránh các tuyến có ô nhị cao thì sẽ giúp người dân tránh được rủi ro ô nhiễm không khí Điều này dẫn tới sự phân phôi lại luồng
giao thông, tránh dồn hết vào một số điểm ở giờ cao điểm, gián tiếp giảm thiểu kẹt
xe trong thành phố.
- _Ý nghĩa khoa học: Đề tài dựa trên hai thuật toán quan trọng: (1) dự đoán giá
trị AQI (Air Quality Index) dựa trên dữ liệu ghi nhận trong thời gian dài, và (2) lên
kế hoạch đường đi nhằm tránh các chướng ngại (path planning problem with
obstacle avoidance) Hai vấn đề này không mới và đã có nhiều nghiên cứu liên
quan Tuy nhiên, dé tích hợp lại, phù hợp với dữ liệu thu thập từ cả dir liệu mở và
của tác giả, và xây dựng nên một ứng dụng hữu ích là một vẫn đề mới.
Trang 1415 Cơsởlý thuyết và các nghiên cứu liên quan
1.5.1 Tổng quan cơ sở lý thuyết
Ô nhiễm không khí là một mối quan tâm ngày càng tăng ở Việt Nam trong vài
năm gần đây Nó đã trở thành một trong những nguyên nhân quan trọng ảnh hưởng đến nhiều khía cạnh của đời sống con người từ xã hội, chăm sóc sức khỏe đến kinh
tế, đặc biệt là ở các khu vực đô thị và khu công nghiệp [21 Hiểu rõ hơn về ảnh hưởng của ô nhiễm không khí đối với sức khỏe con người dé tim ra chính sách phù hợp nhằm đối phó nhanh chóng là yêu cầu đang nổi lên của cả chính phủ và các nhà khoa
học [3] Trong [4], các tác giả đã đưa ra bằng chứng đáng kê về mối tương quan chặt
chẽ giữa ô nhiễm không khí và nguy cơ nhập viện về hô hap và tim mach, đặc biệt là
ở thành phố đông dân nhất Việt Nam Trong các đối tượng khác nhau, trẻ em là đối
tượng dé bị tổn thương bởi ô nhiễm không khí, đặc biệt là hệ hô hấp và trí não của con người [5] Trong [47], tác giả chỉ ra mối liên hệ giữa việc tiếp xúc các chất ô
nhiễm không khí: PM;s, NO, và SO; với tỷ lệ tử vong do bệnh tim thiếu máu cục bộ
(IHD), tim phổi và ung thư phôi Trong các nghiên cứu [48, 49] ở Trung Quốc và Tây
Ban Nha cũng chỉ ra rằng việc tiếp xúc nhiều hơn với các chất ô nhiễm không khí
khác nhau (đặc biệt là PMio) có liên quan đến tiền sử tram cảm thường xuyên hơn.
Ô nhiễm không khí cũng tác động đến du lịch, vốn là một lĩnh vực thiết yếu
đóng góp GDP của Việt Nam Trong [6], các tác giả tuyên bố rằng việc tiếp xúc ngắn
hạn với các chất gây 6 nhì không khí trong khi đến thăm các vùng có mức độ ô
nhiễm không khí cao có thê dẫn đến những ảnh hưởng sức khỏe cấp tính.
Nhiều nguyên nhân dẫn đến tinh trang ô nhiễm môi trường không khí ở các đô
thị luôn ở mức cao Trong [2], các tác giả đã chỉ ra rang ở Việt Nam, đặc biệt là ở các khu vực thành thị, những lý do hàng đầu đối với ô nhiễm không khí đến từ giao thông
và xây dựng, trong khi ở các khu công nghiệp, nguyên nhân chính bắt nguon từ các
nhà máy Trong [6], các tác giả đã dé cập rằng ô nhiễm không khí chủ yếu là môi
trường khói thuốc lá, hoạt động giao thông và các quán ăn đường phố.
Mặc dù nghiên cứu về ô nhiễm không khí là một yêu cầu mới nồi, nhưng chưa
có nhiều nỗ lực để thu thập thông tin ô nhiễm không khí với độ chỉ tiết nhỏ hơn và mật độ cao Các nhà nghiên cứu rất khó tiếp cận nguồn dữ liệu ô nhiễm không khí tốt, ngoại trừ một số trang web và ứng dụng công cộng nhằm phục vụ công dân bình
thường như AirVisual [7], EnviSoft [8], IQAir [9], AQIcn [I01 và Breezometer [11],
để kề tên một số Thật không may, không phải tất cả đều miễn phí và các nhà nghiên
cứu phải trả rat nl én dé có bộ dữ liệu can thiết cho nghiên cứu của họ Bên cạnh
đó, các nguồn dữ liệu này không cung cấp độ chỉ tiết và mật độ cao Hầu hết các
nguồn được dé cập chỉ cung cấp một giá trị cho cả một thành phó bat ké quy mô của
nó Một lựa chọn khác cho các nhà nghiên cứu là tìm kiếm các bộ dữ liệu do các quốc
gia khác tạo ra Thật không may, các bộ dữ liệu này chủ yếu đến từ các nguồn khí
tượng hoặc vệ tỉnh có thê không phản ánh chính xác tình hình mặt đất [12] [13] Các nhà nghiên cứu Việt Nam và các đồng nghiệp nước ngoài của họ đã cố gắng tạo tập
dữ liệu của họ dé tránh phụ thuộc đáng kế vào các nguồn dữ liệu mở.Trong [14] thiết
lập các trạm ô nhiễm không khí để thu thập PMas và PMio hang giờ tại năm địa điểm
trong thành phố, bao gôm các khu vực đô thị, khu dân cư và vỉa hè Trong [6], các tác giả đã sử dụng thiết bị đo cam tay để thu thập PMas va carbon đen được tiến hành trong mùa mưa năm 2014 tại TP Hồ Chí Minh, Đà Lạt và Nha Trang Trong [12], các tác giả đã tích hợp các phép đo trên mặt đất, dữ liệu khí tượng và vệ tỉnh để lập bản đồ nồng độ PM theo thời gian ở lưới 10 x 10 km trên toàn bộ Việt Nam Lấy cảm
Trang 15kinh tế và năng động đề xây dựng một cơ chế cung cấp dữ liệu hàng loạt để thu thập
ô nhiễm không khí với độ chảy nhỏ hơn và mật độ cao [1, 27) Trong [1, 27] trình bày
thiết kế một hộp cảm biến nhỏ được lắp ráp nhiều cảm biến khác nhau về thời tiết, ô
nhiễm không khí, GPS và máy ảnh kỹ thuật số để thu thập dữ liệu ở mức độ chi tiết
nhỏ (tức là dưới 10m) Hộp cảm biến này có thể được mang theo bởi người đi bộ hoặc
vận động viên đi vòng quanh thành phố Khi các hộp cảm biến này được trải rộng ra
cả một thành phó, chúng sẽ trở thành các trạm di động dẫn đến việc có một bản đồ lưới trong đó mỗi đỉnh là một hộp cảm biến và mỗi cạnh là kết nói giữa hai đỉnh gần
nhất Trong nghiên cứu này cũng phát triển một thuật toán có thé nội suy giá trị của
AQI dựa trên bản đồ lưới này dé có giá trị AQI ngay cả khi không có cảm biến Phát
triển một ứng dụng dé lấy phản hồi từ người dùng để làm phong phú bộ đữ liệu là
tiền đề để phát triển các ứng dụng có giá trị sau này.
Từ bộ dữ liệu [1,27], luận văn nêu ra một cách giải quyết vấn dé giảm tác động của ô nhiễm không khí là sử : dụng tuyến đường đi ít ô nhiễm hơn để đi lại Vị lựa
chọn một con đường thay thế có thể dài hơn so với đường ngắn nhất, nhưng về lông
thê, tỉ lệ đoạn đường phải đi và nồng độ ô nhiễm AQI phải ở mức tốt nhất Bên cạnh
đó, cung cấp cho người dùng những lựa chọn khác nhau (ví dụ, ưu tiên giảm thiểu
AQI tôi đa mà không quan tâm độ dài đường đi, chấp nhận rủi ro AQI cao với độ dài
đường đi ngắn nhất, trung hoà cả AQI và độ dài đường đi) Hiện tại, ở Việt nam, các
ứng dụng tìm đường phô biến ở Việt Nam và được ưa chuộng (ví dụ Google Maps,
HERE maps, Vietbando Navigator) sẽ gợi ý các tuyến đường ngắn nhất Tuy nhiên,
trước tình hình ngày càng nghiêm trong của ô nhiễm không khí, theo tìm hiểu của tác
giả thì người tham gia giao thông tại thành phố Hồ Chí Minh lại chưa có được ứng dụng nao giúp họ tìm kiếm được con đường giảm thiểu tac động ô nhiễm không khí.
1.5.2 Các nghiên cứu liên quan trong và ngoài nước
Trong phần này sẽ tổng hợp các phương pháp phổ biến giải quyết bài toán tìm kiếm đường đi tránh ô nhiễm khong khí Đầu tiên, tìm kiếm những nghiên cứu liên
quan đến van đề dữ liệu ô nhiễm không khí, các phương pháp dự đoán AQI và thuật
toán lập kế hoạch đường đi tránh ô nhiễm không khí bằng cách sử dụng các từ khóa tìm kiếm trên Google Scholar [45]
* Từ khóa: “Air Quality Index”, “Shortest Path”, “routing avoid air pollution”,
“aqi ho chỉ minh forecasting”, “PM25 ho chi minh forecasting”, “routing
avoid air pollution in ho chi minh”
* Năm xuất bản: 2015-2021
Các công trình nghiên cứu được tổng hợp và phân loại thành 2 phần như sau:
a Liên quan phương pháp dự đoán giá trị AQI dựa trên dữ liệu ghi nhận trong thời gian dài
Đã có nhiều công trình khác nhau liên quan đến vấn đề dự đoán mức AQI trong vài năm qua Dixian và đồng nghiệp [33] đã trình bày một phương pháp học máy để
dự đoán nồng độ ô nhiễm không khí hàng giờ dựa trên dữ liệu khí tượng của những ngày trước đó Mehdi và các đồng nghiệp [34] đã nghiên cứu vấn dé dự đoán PMas
trong khu vực đô thị của Tehran bằng cách sử dụng dữ liệu vệ tinh và khí tượng,
PMas đo trên mặt đất và dữ liệu địa lý Từ các nguồn dữ liệu này, họ trích xuất các
tính năng quan trọng và sử dụng các mô hình học máy để xây dựng một mô hình phù
hợp cho vân đề Kết quả thử nghiệm cho thấy mô hình được đề xuất có thể đạt được
kết quả đầy hứa hẹn với những cách giải độ dày quang học Aerosol khác nhau.
4
Trang 16Zhang và cộng sự [35] đã nghiên cứu vấn đề ước tính chất lượng không khí bằng cách sử dụng mô hình học sâu dựa trên hình ảnh Chỉ tiết hơn, họ trích xuất các đặc
điểm ngữ nghĩa từ các hình ảnh cảnh được camera chụp lại và sau đó nhằm dự đoán
mức chất lượng không khí dựa trên các tính năng này Trong các thí nghiệm, các tác
giả đã sử dụng bộ dữ liệu chất lượng không khí ngoài trời, cụ thể là NWNU-AQI, và
so sánh ba bộ phân loại khác nhau, bao gom AQC-Net, Máy vecto hỗ trợ (SVM) và Mạng lưới dư sâu (ResNet) Kết quả thử nghiệm cho thấy AQC-Net có t ội hon han so với các kỹ thuật khác Trong [36] , Edoardo và cộng sự đã dé xuất các
cách tiếp cận máy học khác nhau cho vấn đề ước tính chất lượng không khí bằng cách
sử dụng dữ liệu giao thông và khí tượng, được thu thập tại khu vực đô thị của Milan.
Kết quả thử nghiệm cho thấy phương pháp đề xuất của họ có thể đạt được kết quả đầy hứa hẹn cho việc ước lượng chất lượng không khí mà không cần sử dụng các loại
thiết bị cảm biến lat tiên Yves và các đồng nghiệp đã trình bảy một đánh giá ngắn gọn có hệ thống về mô hình chất lượng không khí ngoài trời bằng các kỹ thuật học
máy khác nhau [37] Các công trình khác có liên quan đến dự báo chất lượng không
khí có thể được tìm thấy tại [1, 38, 39] Trong [46], Minh Hieu Nguyen và các cộng
sự đã trình bày phương pháp dự đoán nông độ PM:s bằng cách lựa chọn tính năng bằng thuật toán di truyền và mô hình Encoder-Decoder trên bộ dữ liệu chất lượng không khí ở Hà Nôi và Đài Loan (dit liệu trạm) Trong [50], các tác giả phân tích sô
liệu bụi và nồng độ CO, SOz, NO; bằng phương pháp nghịch đảo khoảng cách có
trọng số (IDW) và đã được chứng minh là có hiệu quả trong việc mô hình hóa không,
gian ô nhiễm khí quyền trong khu vực nghiên cứu Trong [61], nhóm tác giả sử dụng các mô hình Weather Research and Forecasting Model), mô hình SMOKE (Sparse
Matrix Operator Kernel Emission ), mô hình CMAQ (Community Multi-scale Air)
tich hop dé phat triển một hệ thống dự báo chat lượng không khí Lay dữ liệu đầu vào
từ trạm quan trắc phát thải công nghiệp và giao thông, hệ thống dự báo đã được hiệu chỉnh và câu hình sử dụng các thông số cục bộ dé đưa ra dự báo hàng giờ cho
"TP.HCM Dữ liệu về ô nhiễm không khí (PM:s) từ cảm biến chỉ phí thấp.
Có thé thấy hầu hết các nghiên cứu về dự đoán chất lượng không khí sử dụng dữ
liệu trạm Tuy nhiên, các trạm kiểm soát thường đặt cách xa nhau, kể cả trong thành
phố lớn Vì vậy, mức AQI tai một địa điểm cụ thể chủ yếu được tính toán từ trạm kiểm soát gần nhất, nó có thể bao phủ một khu vực khá lớn trong thị trần, có thê được
coi là “AQI toàn cầu” Ngoài ra, trong nghiên cứu [61], cũng đề xuất hướng tiếp cận
dựa trên các thiết bị quan trắc ô nhiễm không khí sử dụng cảm biến chỉ phí thấp đóng
vai trò như một trạm quan trắc thay thế, khi nguồn dir liệu 6 nhiễm không khí tai thành phố Hồ Chí Minh chưa đầy đủ hoặc khó tiếp cận Do đó, cần thiết có một cách tốt hơn để đo mức AQL cục bộ tại một địa điểm cụ thé Ví dụ, nhiều người muốn có một ng dụng có thể nhanh chóng hiền thị mức AQI khi lái xe đi làm, đi quanh thành phố hoặc tham gia các hoạt động ngoài trời dé chuẩn bị các biện pháp bảo vệ
cần thiết cho sức khỏe của họ.
Nhằm mục đích điều tra về vấn đề ước tính AQI cục bộ bằng cách sử dụng các cảm biến đơn giản trong nghiên cứu này sử dụng phương pháp đã trình bày trong MediaEval 2019 [31], phương pháp này đơn giản nhưng hiệu quả đáng kể hơn so với các cách tiếp cận khác.
b Liên quan bài toán lập kế hoạch đường đi tránh ô nhiễm
Trong [23], các tác giả sử dụng định tuyến động va dữ liệu là PM¡o Họ mô hình
hóa dữ liệu PMio trên các lưới (grid) có kích cỡ 1 km x 1 km và sử dụng Máy định tuyến mã nguồn mở (Open Source Routing Machine) với dữ liệu bản đồ bản đồ từ
Trang 17(AQD từ dữ liệu cảm biến va sử dụng dich vụ định tuyến do nền tang ArcGIS Online cung cấp giúp tránh các khu vực bị ô nhiễm cao Trong [25], giới thiệu phương pháp giám sát và kiểm soát chất lượng không khí trên đường Họ sử dụng bộ dữ liệu được thu thập từ một tập hợp các trạm giám sát chất lượng không khí, các cảm biến ô nhiễm
chỉ phí thấp, dữ liệu theo ngữ cảnh và dữ liệu sẵn có của mạng lưới đường bộ để tạo
một mạng lưới giao thông động Dữ liệu được sử dụng dé tính toán AQI của mạng
lưới giao thông động Mạng lưới này được biêu thị dưới dạng một đồ thị có trọng số.
Trọng số này được gán với chỉ số ô nhiễm của nơi tương ứng Chỉ số chất lượng không khí được dự đoán bằng cách áp dụng mạng nơ-ron nhân tạo và thuật toán
Dijkstra đóng vai trò là thuật toán tìm đường nhằm chỉ ra con đường tốt nhất về chỉ
sô AQI Trong [26], các tác giả đề xuất một thuật toán có tên là CAR, thuật toán này
có hàm trọng số đánh giá mức độ tiếp xúc với chất ô nhiễm PMo,s của người dùng tại
các giao lộ của mang lưới giao thông và được xem như là tiêu chí dé điều hướng qua các giao lộ có mức độ phơi nhiễm PMs t ip nhat CAR str dung thuat toán tim đường
đi A* để tìm kiếm con đường có chỉ phí thấp giữa hai vị trí dự trên hai yếu tố: giá trị
PM:s và khoảng cách Trong [51], các tác giả phát triên mô hình hồi quy sử dụng dữ liệu muội than (black carbon) được thu thập động bằng cách gắn thiết bị quan trắc
muội than lên người đi chuyền bằng xe đạp và ứng dụng đề định tuyến đường đi tránh
ô nhiễm.
Các nghiên cứu trên tập trung vào đề xuất tuyến đường tối ưu về khía cạnh
chất lượng không khí bằng cách kết hợp dữ liệu chất lượng không khí thu được từ các
trạm quan trắc và các thuật toán tìm đường phổ biến (như Dijkstra, A*) Mật độ bao
phủ của trạm quan trắc đóng vai trò quan trọng trong việc hoạt động có hiệu quả hay không của các phương pháp này Gần đây, đã xuất hiện các nghiên cứu sử dụng thêm
đữ liệu động, tuy nhiên chỉ dựa trên một nhất định như trường hợp trong nghiên cứu [51] la nồng độ muội than (black carbon), chưa phản ánh hết mức độ ô nhiễm không khí ở các tuyến đường vì nồng độ ô nhiễm không khí còn có các chỉ số khác Hơn nữa, việc thay đổi theo thời gian của AQI chưa được chú trọng khai thác Khi đi quãng.
đường từ A đến C mất khoảng một giờ thì việc tính toán trọng số dựa trên AQI tại
thời điểm tìm kiếm sẽ chưa thé phản ánh chính xác giá trị AQI trong xuyên suốt quãng
đường mà người đó đi.
Để giải quyết các vấn đề trên, luận văn tập trung nghiên cứu phát triển thuật
toán lên kế hoạch đường đi (cập nhật thời gian thực) nhằm tránh tối đa các vùng bị ô
nhiễm không khí dựa trên dữ liệu của nhóm MNR [1,27] đây là dữ liệu được thu thập
ở mật độ chỉ tiết và cục bộ bằng hệ thống cảm biến động và không cần quá nhiều trạm quan trắc.
Trang 18CHƯƠNG 2 DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1 Dữ liệu
Trong chương này, trình bày tổng quan về dữ liệu được sử dụng trong luận văn được đề cập Nguồn được trích dẫn từ các bài báo đã được công bố của nhóm MNR[I,27] Dữ liệu này đã được giới thiệu cho cộng đồng khoa học quốc tế đánh giá
cũng như tham gia nghiên cứu và bội dữ liệu được công khai ở [52] Trong đó, bộ dữ
liệu MNR lần đầu được thu thập tại thành phố Hồ Chí Minh và công bố tại ICDAR
"20 [53] có tên gọi MNR-HCM (phiên bản đầu tiên) tác giả tham gia vai trò là đồng
tác giả Sau đó, một chiến dịch thu thập dữ liệu mới được tổ chức với nhiều cải tiến
về thiết bị quan trắc di động, quy mô, được công bố tại hội nghị MMM2I [54] với
vai trò tác giả chính Do đó, dữ liệu sử dụng trong luận văn là hợp lệ và không có
tranh chấp bản quyền.
Ngoài dữ liệu MNR, các nguồn dữ liệu mở (dữ liệu trạm) đóng vai trò là nguồn
dữ liệu bô sung Vì hầu hết các nguôn dữ liệu về môi trường không khí ở Việt Nam
rất khó tiếp cận, chưa có các nguôn dit liệu cục bộ được thu thập động, hầu hết là từ
các trạm quan trắc (bao gồm cá nhân, các tổ chức phi lợi nhuận) và cách xa khu vực
ma luận văn đang khảo sát (khu vực được bao quanh bởi hình vuông trong Hình 3.1) Chỉ có duy nhất một tram được đặt ở Tông Lãnh sự quán Hoa Kỳ ở TP Hồ Chi Minh
là nằm bên trong khu vực khảo sát Trong Hình 2.1 phản ánh mật độ phân bố của các
trạm quan trắc chất lượng không khí, theo thông tin từ [9].
) Cho Ba Chi if NA DEN ae
Hình 2 1 Khu v vực khảo sát và các trạm quan trắc lân cận
Trong chương này, luận văn cũng sẽ mô tả tổng quan về cơ chế dịch vụ đám đông
(crowdsourcing) kinh tế và năng động để thu thập bộ đữ liệu môi trường liên quan
đến dữ liệu nhật ký cá nhân cụ thé là MNR-Air [1,27] Lợi thé đáng kể của cơ chế
này là sử dụng hộp cảm biến cá nhân có thể mang theo trên người (và phương tiện của họ) để thu thập dữ liệu, kêt hợp với dit liệu từ camara hình trình, dit liệu cảm xúc
thu thập từ ứng dụng trên thiét bi di động Tập dữ liệu MNR-HCM cũng được giới
thiệu như là đầu ra của MNR-Air và được thu thập tại Thành phố Hồ Chí Minh, Việt
Nam ở mức độ chi tiết cao và đa dạng Tập dữ liệu MNR-HCM chứa dữ liệu thời tiết,
dữ liệu ô nhiễm không khí, dữ liệu GPS, hình ảnh đời sống và nhận thức của người dân về bản chất cảnh quan đô thị trên quy mô cá nhân.
2.1.1 Tập dữ liệu MNR-HCM
Trang 19MNR-Air thu thập cả dữ liệu về môi trường xung quanh ở quy mô cá nhân (ví dụ:
ô nhiễm không khí, thời tiết) va đữ liệu đời sông (tức là hình ảnh, nhận thức, bản chất
đô thị, sự tắc nghẽn) Dữ liệu quan trắc môi trường không khí gồm các dit liệu thời
im, nhiệt độ) các thông số 6 nhiễm (nồng độ các chất bụi, CO, SO2, NO2 ).
Giá trị AQI (Air Quality Index) được tính toán dựa trên 5 chất ô nhiễm chính, bao gồm: Ôzôn mặt đất (O3), ô nhiễm hạt (bụi PM2.5 và PM10), cácbon mônôxít (CO) , lưu huỳnh đioxít (SO2) và nitơ đioxít (NO2) [29] Khu vực khảo sát được chọn Thành
phố Hồ Chí Minh, Việt Nam, là nơi thử nghiệm vì đây là nơi đông dân và là một trong những nơi có tình trạng ô nhiễm không khí đáng báo động tại Việt Nam [1, 3, 4, 11,
13].
Tiến hành chiến dịch thu thập dữ liệu trên các tuyến đường được xác định trước,
được tuần tra ba lần mỗi ngày (buổi sáng, buổi trưa, buổi tối) bởi những người đi xe
máy, phương thức vận chuyên phổ biến nhất tại Việt Nam Dữ liệu cảm biến được
chuyển lên điện toán đám mây ở chế độ thời gian thực trong khi dữ liệu hình ảnh
được tải lên từ thẻ nhớ lên điện toán đám mây vào cuôi ngày sau khi được bảo vệ
quyên riêng tư Trong quy mô nhỏ và linh hoạt này, ¡ người đeo hộp cảm biến
(Hình 2.2) và tương tác với các ứng dụng được cài đ săn trên điện thoại sẽ trở thành
6 ả di động va thông minh, nếu được kết nối, có thé tạo ra một mạng lưới cảm bị ập dữ ủa cả thà 6 một cách liên tục và không
nguyện viên Các tình nguyện viên sẽ điều khiển máy tuần tra dọc theo tuyến đường
được xác định trước Tình nguyện viên là những người trong độ tuổi thanh niên và
được lựa chọn ngẫu nhiên để đảm bảo khảo sát là khách quan Tuyến đường dài khoảng 17 km, là một vòng khép kín, có hai tình nguyện viên tuần tra ngược chiều.
Các tình nguyện viên đảm bảo duy trì tốc độ trung bình trong khoảng [20-30] km/h
và phải tuần tra ba lần mỗi | ngày: sáng, trưa và chiều muộn, mỗi lần kéo dài trong
khoảng 3 giờ Chiến dịch tiến hành từ ngày 12 tháng 7 năm 2020 đến ngày 31 tháng
7 năm 2020.
> Lộ trình thu thập dữ liệu
Trang 20Dé nắm bắt sự đa dạng của cảnh quan đô thị có thé liên quan đến ô nhiễm
không khí, các tuyến đường khảo sát bao gồm công viên, nơi có mật độ giao thông
cao, đường nhỏ và đường ven sông Khung thời gian được chọn để khảo sát là vào
giờ cao diém để thu thập dữ liệu nhằm chứng minh giả thuyết & mối liên hệ giữa
giao thông vận tải và ô nhiễm không khí, căng thẳng, thời tiết và tắc nghẽn Hình 2.3
và Bang 2.1 biểu thị bản đồ tuyến đường và tính chất đô thị của tuyến đường.
Bảng 2 1 Các tuyến đường đã chọn và đặc trưng cảnh quan của chúng
STT Tuyến đường Cảnh quan
Nguyễn Tất Thành - cầu Khánh Hội Tuyên đường chính với con đường
1 - Tôn Đức Thắng -Nguyén Hữu Cảnh - ven sông và công viên có rất nhiều
Nguyễn Binh Khiêm - cầu Thị Nghè cây xanh,
Xô Viết Nghệ Tĩnh - Điện Biên Phủ - Đình
2 Tiên Hoàng -Võ Thị Sáu - Công Trường
Vang xoay Dân Chủ xanh và nhiêu tòa nhà,
Tuyến đường chính đông đúc, ít cây
Cách Mạng Tháng Tám - Nguyễn Thi
3 Minh Khai -Hai Bà Trưng - Lê Thánh Tôn
- Nguyễn Thị Nghĩa
Có nhiêu công viên lớn với
nhiêu cây xanh và xe cộ đông đúc.
Hoàng Diệu nhiều tòa nhà cao tang.
Nguyễn Thị Nghĩa - cầu Ông Lãnh - Gần sông, giao thông, ít cây xanh,
Hình 2 3 Tuyến đường thu thập dữ liệu tại thành phó Hồ Chí Minh, Việt Nam
> Mô tả dữ liệu
Dữ liệu được thu thập được tổ chức và tiến hành xử lý dữ liệu Mối tương quan
giữa các loại dữ liệu được thu thập dọc theo một tuyến đường trong một khoảng thời
gian được tính toán thủ công Tất cả các phân đoạn dữ liệu có độ tương quan cao đều
được trích xuất và dan nhãn Sử dụng hệ số tương quan Pearson [60] dé xác định mối
tương quan, hệ số tương quan Pearson r được định nghĩa như sau: cho hai biến số x
và y từ n mẫu, hệ số tương quan Pearson được ước tính bằng công thức sau đây:
Trang 21r=
JJkiG2?SEi0i-ø)2 (2.1)
Sau đây là các mô tả dữ liệu và cầu trúc thư mục.
- Dé liệu hình ảnh: được lưu trữ trong các thư mục sau:
¢ The hình ảnh (image_tag): Chita hình ảnh được chụp bởi điện thoại thông
minh trong bốn tuyến đường Hầu hết các hình ảnh được thực hiện tại các
trạm kiểm soát được xác định trước Thông tin của mỗi hình ảnh được ghi
lại trong userX-feel-tags-dd-mm-yyyy.csv.
e Ảnh: Các ảnh chứa được chụp bằng camara hành trình (mỗi thư mục con chứa các ảnh được chụp trong ngày khảo sát theo định dang “yyyymmdd”).
* Hình ảnh được ghi lai dưới dang 3 giây/ hình từ ngày 12 tháng 7 năm
2020 đến ngày 31 tháng 7 năm 2020.
- _ Thẻ cảm xúc: được lưu trữ trong
© emotion_tags: Chứa thông tin về tat cả các điểm kiểm tra của bốn tuyến đường trong một ngày theo định dạng userX-feel-tags-dd-mm-yyyy.csv.
- Dit liệu cảm biến: được lưu trữ trong:
s« Cảm biến: Các giá trị thông số của cảm biến được đo trong ngày ở bốn
tuyến đường, bao gồm bản chất đô thị, các biến đồi thời tiết, nông độ các
chất ô nhiễm và tâm sinh lý (mỗi thư mục con chứa giá trị cảm biến được
lấy trong ngày đo theo định dạng ”yyyymmdđ”).
o Chứa giá trị Thời gian (Time), Kinh độ (Longitude), Vĩ độ
(Latitude), Độ ẩm, Nhiệt độ (Temperature), Độ F, PM2.s, PMio, UV,
NO2, CO, SO2, O3, Nhịp tim, Hình ảnh.
o Tất cả dữ liệu được lưu trữ trong tệp "userX / yyyy-mm-dd.csv" được ghi lại sau mỗi 2 hoặc 3 giây.
2.2 Phương pháp nghiên cứu
Phương pháp nghiên cứu được trình bày trong luận văn được thực hiện qua
các bước sau:
e Bước 1: Thu thập và xử lý dit liệu động
© _ Bước 2: Xây dựng thuật toán tiên đoán AQI trong thời gian ngắn dựa trên
dữ liệu của nhóm MNR [1, 27] và dữ liệu mở của TP Hồ Chí Minh.
© Bước 3: Xây dựng thuật toán lên kế hoạch đường đi (cập nhật thời gian
thực) nhằm tránh tối đa các vùng bị ô nhiễm.
¢ _ Bước 4: Phát triển ứng dụng tìm kiếm đường đi tránh ô nhiễm không khí.
10
Trang 22Hình 3 1 Mô hình hóa dữ liệu AQI thô và dữ liệu AQI được dự đoán và nội suy
Trong hình 3.1 tại mỗi thời điểm T thì tập dữ liệu MNR-HCM chỉ có hai điểm
tương ứng hai cảm biến động đang hoạt động và được mô hình hóa trên bản đồ Hai
cảm biến nay sẽ có AQI tai các vị trí mà cảm biến đi qua Hệ thống cảm biến hiện tại
chưa đủ đề bao phủ khu vực khảo sát Do đó, cần sử dụng các thuật toán dự đoán và
nội suy AQI dé làm giàu dữ liệu, xây dựng ban đồ nguy cơ AQI trực tuyến, tạo tiền
đề cho thuật toán tìm đường Hình 3.1 cũng cho thấy sự khác biệt khi mô hình hóa
dir liệu thô và dữ liệu đã được dự đoán và nội suy.
3.1.1 Dự đoán AQI
Trong phan sẽ trình bay chỉ tiết phương pháp đã sử dụng dé dự đoán AQI trong nhiệm
vụ trong MediaEval 2019 Dữ liệu đê thực nghiệm các thuật toán là dữ liệu MediaEval
2019 và dữ liệu MNR-HCM được thu thập trong năm 2020.
>_ Hình thành vấn đề
Tổ chức Multimedia Evaluation Benchmark (MediaEval) đưa ra các thử thách dưới dạng các nhiệm vụ được chia sẻ Mục tiêu của MediaEval là phát triển và đánh giá các thuật toán và công nghệ mới để trích xuất, truy cập và khám phá dữ liệu đa phương tiện Các nhiệm vụ của MediaEval là sáng tạo, liên quan nhiều đến dữ liệu
đa phương tiện (ví dụ: âm thanh, hình ảnh, văn bản, ngữ cảnh) và tập trung vào các khía cạnh con người và xã hội [41].
Trong năm 2019, tác giả cùng nhóm cộng sự tham gia nhiệm vụ “Insight for
Wellbeing: Multimodal personal health lifelog data analysis”, mô tả chỉ tiết được giới thiệu trong [42] Trong [42] đưa ra bối cảnh rằng các khám phá sự liên kết giữa tình
trạng khỏe mạnh và hạnh phúc (wellbeing) của cá nhân và môi trường xung quanh đã
Trang 23này không được thực hiện trên quy mô cá nhân riêng lẻ Các thông tin cục bộ về ô nhiễm không khí (PMas, PMio, NO›, Os), về thời tiết (nhiệt độ, độ âm), về cảnh quan
đô thị và hành vi cá nhân (như dữ liệu về tâm sinh lý) đóng vai trò quan trọng Bắt nguồn từ việc dit liệu này chưa được thu thập đủ mọi thời điểm, vấn đề đặt ra là liệu
một phần những dữ liệu này có thê được dùng để đưa ra được cái nhìn về tình trạng,
sức khỏe và hạnh phúc của cá nhân cá nhân hay không? Hay nói cách khác, có một giả thuyết nào về các mối liên hệ trong dữ liệu dé hiểu được tình trạng sức khỏe và hạnh phúc cá nhân sử dụng dữ khiếm khuyết Phát triển một giả thuyết về các
ói liên hệ trong dữ liệu không đồng nhất dé có một mô hình đa phương thức tốt để
hiệu tác động của môi trường đôi với sức khỏe và hạnh phúc cá nhân ở quy mô cục
bộ là cần thiết Vì không phải tất cả các thành phố đều đảm bảo tiêu chuẩn ô nhiễm
không khí và không phải tat cả mọi người đều phản ứng với điều kiện môi trường
như nhau Các hình ảnh được chụp bởi góc nhìn người thứ nhất có thể mang lại những
dấu hiệu quan trọng đề hiểu tình hình môi trường trong trường hợp thiếu dữ liệu chính
xác từ các trạm ô nhiễm không khí Từ đó, nhóm tô chức nhiệm vụ (Task Organizers) yéu cầu người tham gia phải giải quyết hai hiém vụ: (1) “segment replacement”
cầu người tham gia phát triển một gia thuyết về mi liên hệ trong dữ liệu không đẳng
nhất và xây dựng một hệ thống có khả năng chỉnh sửa một cách chính xác những đoạn dữ liệu bị xóa (2) “AQI prediction” yêu cầu người tham gia dự đoán AQI cá
nhân - PAQI (Chỉ số chất lượng không khí cá nhân) tại một vị trí và thời gian đặt biệ
bằng cách sử dụng các đữ liệu chưa rõ ràng hoặc dữ liệu đầy đủ từ tập con của nguồn
dir liệu.
Trong phần này sẽ mô tả chỉ tiết quá trình giải quyết nhiệm vụ (1), từ những kinh nghiệm giải quyết nhiệm vụ trong nhiệm vụ (1) góp đóng vai trò như kết quả
ban dau (baseline) của bài toán tìm đường đi tránh 6 nhiễm không khí Bảng ghi chú
công việc được đã đăng trong CEUR Workshop [31].
> Sự giới thiệu
Ô nhiễm không khí được chứng minh là một yếu tố ảnh hưởng đáng kể đến con người [3] Vì vậy, có khả năng dự đoán ô nhiễm không khí là mục tiêu của nhiều
hoạt động nghiên cứu [43] Tuy nhiên, trước khi dự đoán ô nhiễm không khí, việc thu
thập dữ liệu 6 nhiễm không khí từ các cảm biến và dữ liệu từ các đối tượng có thé tác
động hoặc bị ảnh hưởng bởi ô nhị không khí có thể có thứ tự ưu tiên hơn [3].
Những van đề như nhiễu, ngoại lệ và thiếu dữ liệu thường xảy ra khi thu thập đữ liệu theo hướng gây hại nghiêm trọng đến độ chính xác của giai đoạn dự đoán Do đó,
nhiệm vụ trong “MediaEval 2019 Insight for wellbeing” thách thức những người
tham gia khôi phục dit liệu bi thiếu được ghi lại bởi các cảm biến ô nhiễm không khí
(ví dụ: PMas) [42].
> Phương pháp
Mục đích chính của phương pháp được đề xuất là xác định một giả thuyết có thé đại diện cho mối liên hệ giữa các dữ liệu không đồng nhất và hướng tới việc xây dựng một hệ thống có thể dự đoán các giá trị bị thiểu trong tập dữ liệu được cung cấp Giả thuyết chỉ ra rằng có mối liên hệ chặt chẽ giữa việc ghi dữ liệu không đồng nhất
tại thời gian và vị trí gần đó Từ đó, xây dựng thuật toán lọc theo thời gian và quy tắc tìm kiếm theo bán kính tăng dần để thu thập dữ liệu lân cận có giá trị có thể được
sử dụng để dự đoán dữ liệu bị thiếu Các phần (phụ) sau đây mô tả chỉ tiết cách lọc
dữ liệu và thu thập thông tin vị trí hữu ích dé dự đoán dữ liệu bị thiếu.
a Xử lý dữ liệu
Tìm kiếm theo thời gian (Circling Time): hàm này để thu thập tat cả dữ liệu thời gian lân cận Đầu tiên, phân cụm tắt cả các tập dữ liệu đã cho thành các nhóm khác
12
Trang 24nhau để mỗi nhóm có cùng ngày và giờ (tức là cùng ngày) Sau đó, chi dữ liệu xảy ra trong start_time và end_time mới được chọn Cần lưu ý rằng start_time và end_time biểu thị khoảng thời gian thiếu đữ liệu.
Tìm kiếm theo không gian (Circling Position): Công thức tính khoảng cách của 2
tọa độ điểm được dùng dé tìm kiếm, thu thập tat ca đữ liệu vị trí lân cận Tất cả dữ
liệu được ghi lại trong khoảng nay sẽ được chọn Công thức công thức Haversine được định nghĩa như sau:
d= 2rsin“ ( [ane (=
Trong đó :
d: là khoảng cách giữa 2 điểm.
r: là bán kính.
a1,b1: là vĩ độ, kinh độ của điểm thứ 1.
a2, b2: là vĩ độ, kinh độ của điểm thứ 2
b Dự đoán dữ liệu bị thiếu
Sau khi thực thi ham Circling Time và Circling Position, thu được giá trị PMs.s
của một số vị an nhất; sau đó tính giá trị tối đa (maximum), giá trị tối thiểu
(minimum) và giá trị trung bình (average) của các giá trị này từ một vị trí cân dự
ưu hóa kết quả, cần tăng dần bán kính từng bước từ 01 mét đến 20 mét
để quét tât cả các vị trí Theo kinh nghiệm của trong quá trình thử nghiệm, bán kính
lý tưởng là 20 mét vì trong bán kính 20 mét các giá trị PMa.s dự đoán đạt độ chính
xác cao nhất, Nếu trong bán kính 20 mét, chúng ta không thé lay được nao, chúng ta sẽ lấy một điểm gần nhất trong [21 mét, 100 mét] Nếu không có điêm trong
[0 mét, 100 mét], giá tri đặt cho PM:s bằng 0 và từ đó nghiên cứu đề xuất xây dựng thuật toán Thuật toán được mô tả dưới dạng sơ đồ khối trong hình 3.2 và hình 3.3
được đề xuất như sau:
/ ne, cata snare box oa oen ny /
Is time in data set ‘AQI <: AOI in dataset
|AQI = linear interpolation(datat, data2)
I1'wo adjacent dataset
Hình 3 2 Mô tả thuật toán tìm kiếm theo thời gian
) + cos(a1) cos(a2) sin? Ce) ) 4.1)
Trang 25> Kết quả
Kết quả thử nghiệm chạy trên tập dữ liệu đào tao (training data) trong bộ dữ
liệu MediaEval 2019 được biêu thị trong Bảng 3.1
Bảng 3 1 Kết quả chạy thử nghiệm trên tập dữ liệu kiểm tra (MediaEval2019).
Question ID, File name, Start time, | Number Euclidean distances (L2 distanse)
End time of values Min- max [0,1
missing | Maximum | Average Minimun
Trang 26> Danh gia
Đối với dir liệu MediaEval 2019 đã được ban tổ chức phân chia thành
tập dữ liệu thử nghiệm (training data) và tập dữ liệu kiểm tra (testing data) Thuật toán dé xuất sẽ được thực thi trên dữ liệu thử nghiệm để kiểm tra tính hiệu quả, sau đó sẽ được tiến hành thực thi với bộ dữ liệu kiểm tra và nộp kết
quả cho bản tô chức đánh giá.
Đối với dữ liệu MNR-HCM, có hai thiết bị cảm biến do hai tình nguyện
viên dùng dé thu thập trên cùng tuyến đường và ngược chiều nhau Bộ dữ liệu
MNR-HCM sẽ được sử dụng dé đánh giá hiệu quả thuật toán của thuật toán đề
xuất Tương ứng với mỗi đoạn đường trong bảng 2.1 sẽ được a ẩn đi thông tin giá trị AQI tại 300 địa điểm dọc theo tuyến đường, đóng vai trò là sự thật nền tang (ground truth), chỉ giữ lai thông tin thời gian, vị trí (kinh độ, vĩ độ) Dữ liệu từ bộ cảm biến, dữ liệu mở (từ trạm quan trắc) sẽ đóng vai trò là dữ liệu
đầu vào.
Việc đánh giá sẽ tính toán sự khác biệt giữa các giá trị dự đoán va giá trị
Sự thật nền tảng (ground truth) bằng cách sử dụng một phép đo đơn giản áp
dụng giá trị trung bình cộng của các khoảng cách Euclid (khoảng cách L2).
Chuẩn hóa Min-max normalizing được áp dụng thu nhỏ khoảng dữ liệu sao cho phạm vi được có định trong khoảng từ [0, 1].
Bảng 3 2 Đánh giá kết quả các thực thi trên tập dit liệu kiểm tra (MediaEval2019)
Group id Method Run id Euclidean distances
(L2 distanse) Min- max [0,1]
SHT UIT Maximum 1 0.00483679
SHT UIT Average 2 0.00054178 SHT UIT Minimum 3 0.00046321
Bang 3 3 Đánh giá kết quả trên tập dữ liệu MNR-HCM
Route ID Number of Euclidean distances (L2 distanse)
values missing Min- max [0,1]
Maximum Average Minimun
1 300 0.00392464 0.00056225 | 0.00047391
2 300 0.00487596 0.00057319 | 0.00048122
3 300 0.00730592 0.00054727 | 0.00045331
4 300 0.00484793 0.00058345 | 0.00047742
Trang 27Trong bảng 3.2, kết quả thực thi trên tập dữ liệu kiểm tra (Testing data) của
MediaEval 2019 với ba trường hợp Tối đa, Tôi thiểu và Trung bình Kết quả tốt nhất
được ghi nhận với trường hợp Tối thiểu (trong phạm vi bán kính 20 m) Kết quả này cho thay rằng mặc dù phương pháp đề xuất trong nghiên cứu này rất đơn giản nhưng
lại có hiệu quả Vì giá trị Tối thiểu có độ nhiễu rất thấp nên giá trị này chính xác hơn
hai phương pháp còn lại (Tối đa, Trung bình) Tuy nhiên, không có khoảng cách lớn
giữa các lần thực thi.
Theo kết quả chung cuộc từ ban t6 chức, ở nhiệm vụ đầu tiên, kết quả nghiên cứu
đã đạt được sô diém cao xấp xi 000046, cao hơn nhóm DCU dat sô điểm xap xi
0,0153 Có nghĩa là cách tiếp cận nay đưa ra mô hình dự đoán tốt hơn so với nhóm
trên Tuy nhiên, nhóm Healthism có một phương pháp phù hợp và đạt số điểm cao.
nhất là khoảng 000042.
Trong bảng 3.3, trình bày kết quả thực thi trên tập dữ liệu của MNR-HCM trên
cả ba trường hợp Tối đa, Tối thiểu và Trung bình thì kết quả cho thấy thuật toán tỏa
ra hiệu quả với trường hợp Tối thiểu.
> Thảo luận
Trong báo cáo công việc tại nhiệm vụ MediaEval 2019 Insight for Wellbeing nhiệm vụ phụ một Nghiên cứu này sử dụng thuật toán lọc thời gian, không gian và
-quy tắt gia tăng dựa trên bán kính đề thu thập dữ liệu vị trí và thời gian lân cận nhằm
dự đoán dữ liệu bị thiếu Kết quả cho thấy giải pháp có độ chính xác cao Đây cũng
là nền tảng cho những thử nghiệm ban đầu đề giải quyết vấn đề tìm kiếm con đường
tránh ô nhiễm không khí sẽ được phát triển trong các giai đoạn tiếp theo.
Thuật toán đề xuất trong nghiên cứu nay tỏ ra hiệu quả cho trường hợp dựa đoán
AQI dọc theo các tuyến đường theo thời gian và vị trí Để tạo được một bản đồ AQI
bao phu toàn bộ khu vực khảo sát cần áp dụng thêm các phương pháp nội suy.
3.1.2 Nội suy không gian
Hau hết các thuật toán tìm đường đi ngắn nhất thường sử dụng trọng số là thời gian và khoảng cách Mỗi đoạn đường có các thuộc tính khác nhau như chiều dài,
giới hạn tốc độ và chiều rộng Hiện tại, hệ thống cảm biến trong MNR-Air [1, 27] và
cả các trạm quan trắc dữ liệu ô nhiễm không khí chưa thể bao phủ được toàn bộ khu vực khảo sát Thuật toán trình bày trong hình 3.2 và hình 3.3 được sử dụng để dự đoán AQI dọc theo tuyến đường theo vị trí và thời gian Do đó, đê có dữ liệu bảo phủ
được khu vực khảo sát cần thực hiện nội suy dữ liệu dé có các giá trị AQI cho toàn
bộ khu vực.
Trong phan này sẽ mô tả việc sử dụng phương pháp nội suy không gian để xác
định giá trị AQI ở những khu vực lân cận mà hệ thống cảm biến chưa thể phủ đến
.Dựa vào những vị trí đã thu thập được dữ liệu sau đó kết hợp phương pháp dự đoán
AQI đã trình bày ở trên cùng với phương pháp nội suy thích hợp để xây dựng API dự
cung cấp giá trị AQI cho toàn bộ khu vực khảo sát.
Có rất nhiều phương pháp nội suy, mỗi phương pháp có ưu và nhược điểm
khác Trong nghiên cứu này, sẽ lựa chọn thuật toán nghịch đảo khoảng cách có trọng
số (IDW) đề xác định giá trị AQI cho những khu _vực chưa được thu thập dữ liệu.
Phương pháp IDW giúp xác định giá trị của các điểm chưa biết bằng cách tính trung
bình trọng số khoảng cách các giá trị của các điểm đã biết trong vùng lân cận [28].
Phương pháp IDW được chọn vì đây phương pháp đơn giản, nhanh chóng và dễ thực
hiện Theo [26] các tác giả đã thực nghiệm với bộ dữ liệu của họ và cũng chỉ ra rằng IDW tính toán nhanh hơn phương pháp Kriging Trong tương lai, hệ thông cảm biến của MNR-Air [1,27] được phát triển và có độ bao phủ lớn hơn thì phương pháp IDW
sẽ càng hiệu quả và chính xác.
16
Trang 28Trọng số mỗi điểm được tính theo công thức sau:
(3.2)
Trong đó: i là các điểm dữ liệu đã biết giá trị; n là số điểm đã biết; Z¿ là giá trị điểm thứ i; đ là khoảng cách điểm i; k là hằng số IDW, k càng cao thì độ
ảnh hưởng của các điểm ở xa càng thấp, thông thường p =
Kết hợp thuật toán dự đoán AQI dọc theo tuyến đường và phương pháp IDW
để xây dựng API cho phép dự đoán AQI ở bat kỳ vị trị và thời gian nao, và cách thức
hoạt động API này như sau:
~:python predict.py -lat <values> lon <> date <>
Trong do: —
+ Tham số lat: vĩ độ
+ Tham số 1on: kinh độ
+ Tham số date: thời gian
` Việc sử dụng API này cho sẽ giúp có đầy đủ dữ liệu cần thiết dé xây dựng bản
đô nguy cơ AQI trực tuyên Hình 3.4 là ảnh chụp kết quả khi gọi API này.
Hình 3 4 Ví vụ về một trường hợp sử dụng API
3.2 Ban đồ nguy cơ AQI trực tuyến
Bản đồ nguy cơ AQI trực tuyến này đóng vai trò quan trọng nghiên cứu tìm đường
đi tránh ô nhiễm sẽ được trình trong nội dung sau Có rất nhiều cách khác nhau đề
xây dựng bản đồ Trong phan này sẽ mô tả bản đồ AQI trực tuyến được tạo ra bang cách mô hình hóa dữ liệu được xử lý bằng thuật toán dự đoán và nội suy Các dữ liệu
này sẽ được mô hình hóa thành các lớp (layer) có độ lớn 250 mét x 250 mét theo tiêu chuẩn Nhật Bản [30], mỗi lớp chứa giá trị AQI ở thời điểm 7 và T + i Nghiên cứu
này sử dụng thư viện OpenLayers [44], OpenLayers là một thư viện JavaScript mã
nguồn mở được sử dung dé hiên thị dữ liệu lên bản đồ Nó cung cấp API dé xây dung các ứng dụng thông tin địa lý dựa trên web tương tự như Google Maps Hình 3.5 mô
tả sơ đồ hệ thông xây dựng bản đồ nguy cơ AQI trực tuyến.
Trang 29MNR-HCM Data
Xử lý, dữ liệu
Trực quan hóa dữ liệu
Hình 3 5 Sơ đồ hệ thống xây dựng bản đồ AQI trực tuyến Trong hình 3.6 là ảnh chụp bản đồ nguy cơ AQI trực tuyến với các lớp (layer)
chứa giá trị AQI xêp chong lên nhau, đại điện cho giá trị AQI ở thời diém T và T + i.
Trang 30CHƯƠNG 4 TÌM ĐƯỜNG ĐI TRÁNH Ô NHIEM KHÔNG KHÍ
4.1 Bài toán tìm đường đi tránh ô nhiễm không khí
Phương pháp được đề xuất đề giải cho bài toàn tìm đường đi tránh ô nhiễm
không khí sẽ được trình bày trong chương này Đây là chương trọng tâm nghiên cứu của luận văn, tập trung trình bày quá trình nghiên cứu bài toán tìm đường đi tránh ô
nhiễm không khí dựa trên bản đồ nguy cơ AQI trực tuyến xây dựng bằng phương
pháp dự đoán AQI và nội suy không gian Luận văn sẽ trình bày từ các kết quả bước đầu xây dựng nền tảng AQI-T-RM trên co Sở kết quả nghiên cứu từ MediaEval 2019
[31] và trình bày các nghiên cứu cải tiến thuật toán, cải tiễn và phát triển các tính
năng cho ứng dụng tìm đường đi tránh ô nhiễm không khí.
4.2 Nên tang AQI-T-RM
_Trong phan sẽ mô tả quá trình nghiên cứu và xây dựng “Bản đồ nguy cơ về ô nhiễm không khí, kẹt xe” (AQI-T-RM), trong đó trọng tâm xoay quanh vấn đề ô
nhiễm không khí và tìm đường đi tránh ô nhiễm được phát triển dựa trên kết quả
nghiên cứu đã trình bày trong nhiệm vụ MediaEval 2019 [31] AQI-T-RM được xem
như kết quả bước đầu trong nghiên cứu bài toán tìm đường đi tránh ô nhiễm không khí tại TP Hồ Chí Minh, khi áp dụng thuật toán đã trong nhiệm vụ MediaEval 2019
Việt Nam, trước tình hình 6 nhiễm không khí tại đây ngày càng đáng báo động.
Ứng dụng AQI-T-RM nhằm mục đích cung cap cho mọi người khả năng lập
kế hoạch du lich/di đường đê bảo vệ sức khỏe và tiết kiệm thời gian của họ Cốt lõi của AQI-T-RM là thuật toán có thé dự đoán chỉ số chất lượng không khí (AQI) một cách nhanh chóng và thuật toán có thê tìm ra tuyến đường tối ưu giữa hai điểm trên bản đồ (về mặt AQI ít hơn các tuyến đường khác) Nghiên cứu nảy giả định rằng AOI
và tắc nghẽn có mối quan hệ chặt chẽ với nhau: càng nhiều xe lưu thông trên tuyến
đường, AQI càng nhiều Giả thuyết này dựa trên nghiên cứu được công bố trên [2, 6, 14].
Hiện tại, chưa có ứng dụng nào như AQI-T-RM chạy trên bộ dữ liệu ô nhiễm không khí tại Thành phó Hồ Chí Minh Mọi người chủ yếu dựa vào thông tin AQI được cung cấp | miễn phí bởi một số trang web/nguồn mở [7-11] Thật không may, những các nguồn dữ liệu này chỉ cung cap giá trị AQI cho khu vực rộng lớn (ví dụ:
toàn thành phó), và không có chức năng lập kế hoạch du lịch của họ dựa trên dữ liệu
ô nhiễm không khí.
4.2.2 Phương pháp
Nghiên cứu này phát triển một thuật toán đơn giản nhưng hiệu quả đề hỗ trợ
moi người tìm đường đi ngăn nhất giữa hai địa điểm A và B với ít tác động của AQI
xấu hơn: (1) sử dụng Google Map API dé xác định vị trí ba tuyến đường ngắn nhất giữa A và B, (2) tính toán tông AQI cho từng tuyến đường sử dụng tập dữ liệu MNR-
HCM với các thuật toán nội suy và dự đoán phù hợp, và (3) chọn đường đi có tổng
AQI nhỏ nhất làm phương án dé xuất cho mọi người Hình 4.1 mô tả thuật toán tổng
thể trong phương pháp đề cập.
Trang 31Thuật toán sử đã được trình bày bày trong MediaEval 2019 [31] để dự đoán AQI dọc theo mỗi tuyến đường Trong trường hợp này, thay vì sử dụng dữ liệu từ các
tram ô nhiễm không khí, ứng dụng này sử dụng tập dữ liệu MNR-HCM do các trạm
di động cung cấp Sau khi có ba tuyến đường ngắn nhất với thời gian x4p xi cần thiết
dé hoàn thành các tuyến đường nay, nghiên cứu này áp dụng thuật toán đã dé cập để
dự đoán AQI từ T đến T + mỉ (với mỉ là thời gian cần thiết để hoàn thành chặng đường, thứ ï) Sau đó, ứng dụng có thể nhanh chóng ước tính tổng AQI cho mỗi tuyến đường
và trực quan hóa nó cho mọi người, bao gồm các tuyến đường, tổng khoảng cách, thời gian di chuyền và bản đồ chất lượng không khí dưới dạng màu của tuyến đường Màu của đường biểu thị mức chất lượng không khí (Xanh Lục: Tốt, Vàng: Trung bình, Cam: Kém, Nâu: Xấu, Tím: Rất xấu, Đỏ: Nguy hại), như được mô tả trong Hình
6 Về màu sắc của đường biểu diễn AQI mức độ, các ngưỡng được áp dụng để xác định danh mục TOT/TRUNG BINH/XAU/RAT XAU/NGUY HAI được tính bằng
AQI Đài Loan [29].
Ge tap A>
aan
get waypoint of out
Hình 4 1 Thuật toán tổng thé của AQI-T-RM
4.2.3 Cấu trúc nền táng AQI-T-RM
Trong phan này sẽ mô tả chỉ tiết thiết kế hệ thông AQI-T-RM như một ứng
dung dang client-server (Hình 4.2) kết nôi với cơ sở dữ liệu MNR-HCM và cho phép
mọi người tương tác với hệ thống dé có được kế hoạch di chuyển tối ưu của họ.
Client (ReactJS / React Native):
o Hiệu suất cao, đồng nhất ngôn ngữ cho cả web và mobile đề tăng tốc độ phát
20
Trang 32o Chọn Apache vì Apache được đánh giá cao về độ ôn định Đặc thù kích thước
mỗi request không lớn nên tốc độ xử lý mỗi request của các load balancer
không chênh lệch nhau nhiều nên ưu tiên chọn tiêu chí độ ôn định.
Container (docker):
o Vì phải chạy nhiều instance server nên cần đảm bảo các instance hoạt động độc lập với nhau, đồng thời sử dụng Docker để việc đeploy server nhanh và đảm bảo tính đồng nhất giữa các môi trường.
Server
o Dùng NestJS dé đảm bảo application sé 6n định va dé mở rộng về sau.
Về cơ sé dữ liệu, ứng dụng được phát triển với co sở dữ liệu dang NoSQL, là MongoDB để truy cập và quản lý dit liệu được thu thập từ sensors Loại cơ sở dit liệu này phù hợp cho các ứng dụng yêu cầu có lượng dữ liệu lớn và độ trễ thấp.
Nghiên cứu này so sánh tập dit liệu và mô hình với tập dữ liệu và mô hình được
giới thiệu trong [26], cụ thể là thuật toán CAR Thuật toán CAR sử dụng tập dữ liệu được thu thập bởi các trạm ô nhiễm không khí, cụ thể là tại Big Taipei, trải rộng ra
toàn thành phố (Hình 4.3) Nó cung cap thuật toán nội suy tuyên tinh theo không gian
có thể hỗ trợ mọi người có tuyến đường tối ưu dé tránh AQI xấu nhất có thé trong khi
vẫn tiết kiệm thời gian di chuyển Về mặt lý thuyết, lập dữ liệu MNR-HCM chứa dữ
liệu được thu thập ở mọi ngóc ngách của thành phố trong khi tập dữ liệu Big Taipei
thì không Bên cạnh đó, số lượng các tram (di động) của MNR-Air có thé dé dàng
Trang 33tăng lên so với các trạm Big Taipei AQI-T-RM tỏ ra hữu ích ngay cả khi sử dụng rất
ít cảm biến Do đó, chúng ta có thể nói rằng AQI-T-RM có thé hoạt động tốt hơn
CAR trên khía cạnh tận dụng dữ liệu mặt dù hai phương pháp được khảo sát ở hai
khu vực khác nhau và trên tập dữ liệu khác nhau Bảng 4.1 biểu thị sự so sánh giữa
AQI-T-RM với tập dữ liệu MNR-HCM va CAR với tập dữ liệu Big Taipei.
Hình 4.4 là ảnh chụp giao diện chính của ứng dụng AQI-T-RM Trong ba tuyến đường mà Google Maps đề xuất, ứng dụng sẽ so sánh tổng mức AQI của ba tuyến đường, tìm tuyến đường tốt nhất, so sánh với tuyến đường xấu nhất va thu được mức giảm phơi nhiễm.
Kết quả cho thấy lợi ích tốt hơn cho người dân khi sử dụng tập dữ liệu và ứng
dụng của trong nghiên cứu này Hiện tại AQI-T-RM chi tiến hành tính toán AQI trên
ba tuyến đường do Google Maps đề xuất, điều này khiến cho AQI-T-RM bị hạn chế
khi trường hợp cả ba tuyên đường được Goole Maps đề xuất ( đều có chất lượng không
khí xâu, khi đó AQI-T-RM không thé đề xuất con đường tốt khác, các van đề về sự
thay đổi AQI trong suốt quá trình di chuyển chưa được quan tâm Tuy nhiên, kết quả
bước đầu mà AQI-T-RM sẽ là động lực thúc đây các nghiên cứu cải tiến và phát triển
phương pháp tìm đường đi tránh ô nhiễm tốt hơn.
^ — 9 Qua
a) Các cảm biến động sử dụng trong MNR-Air b) Phân bố cảm biến PM, „ ở Đài Loan
Hình 4 3 Sự tương quan về mật độ cảm biến
2
Trang 34= 1 Map Satellite GEM Center @)
Ton Duc Thang x
Le Duan and Nam Ky Khoi Nghia x
Hình 4 4 Hình ảnh về giao diện chính của ứng dụng AQI-T-RM
Bang 4 1 So sánh AQI-T-RM với các thuật toán khác
Số lượng | s¿ 43 Chấto | Đôcất Su tăng
Môhình | Dữliệu ST hán | Số lần giả lập | rà giảm phơi | quãng
cảm biến nhiễm Thêm đường
MNR-HCM <0.5 k
AQUT-RM | Gocaset 2 100 AQI 30.25 % (averase)*
CAR [26] _| Big Taipei | 2963 ** |4364 PM2.5 17.1% 2.5%
* Phan trăm tăng khoảng cách chưa được tính toán ,
++ Dựa trên trang chủ [32], số lượng cảm biến PM: được triển khai trên khắp Dai Loan
4.3 Phát triển thuật toán tìm đường đi tránh ô nhiễm không khí
4.3.1 Phương pháp luận
Trong phần này luận văn đề cập đến việc tìm ra còn đường tránh ô nhiễm không khí từ điểm bắt đầu đến điểm kết thúc Sử dụng phương tiện di chuyển là xe máy (phương tiện đi lại phô biến ở Việt Nam) Đối với tốc độ, lựa chọn tốc độ giới hạn mặc định của từng loại xe áp dung cho hầu hết các tuyến đường di chuyển trong nội ô thành phố Theo phương tiện di chuyền, thời gian di chuyển đến điểm đến dễ dang ước tính được, trong phạm vi khảo sát, gan tổng thời gian di chuyền dự kiến từ điểm bắt đầu đến điểm đến điểm kết thúc khoảng một giờ đồng hồ Sử dụng bản đồ nguy cơ AQI trực tuyến đã tạo với các lớp chồng lên nhau có độ kích 250 mét x 250
mét theo chuẩn Nhật Bản được định nghĩa tại [30] và chứa giá trị AQI (Hình 4.5).
Từ đó, tìm di qua các lớp chồng có giá trị nhỏ chính là con đường tôi ưu tránh 6 nl iễm
cần tìm Nghiên cứu này sử dụng thuật toán tìm kiếm cổ điểm Dijkstra để tìm kiếm
đường đi qua các lớp Tuy nhiên trọng sô ở đây là AQI và độ dài quãng đường, giá
trị AQI thay đổi theo thời gian T (Hình 4.6) Nghiên cứu nay cũng đưa ra các trường,
hợp bao gom tìm kiếm offline đà người dùng chỉ tìm trước lúc đi, và khi đi thì không
đổi tuyến đường nữa) va tìm kiếm online (thuật toán sẽ cập nhật lại tuyến đường sau
Trang 35mỗi delta-t time) nhằm có gắng chi ra con đường tối ưu về mặt chỉ số AQI tối ưu nhất.
Thuật
T; = T; + delta,
T; =T, + delta,
T, =T§ + delta,
giải tìm kiếm đường đi tránh ô nhiễm được đề xuất dựa trên kết hợp với thuật
toán Dijkstra [40] được trình bày như dưới đây.
vào: Node bắt đầu và node kết thúc, thời gian T
ra: Trả về total_distance, total AOI, path
Cho D = {}, parent = {} // Mang này dùng để theo doi con đường ngắn nhất từ đầu đến cuối
Khởi tạo D[s] = 0 and D[v] = infinity // khoảng cách
ban đầu từ nguồn đến đỉnh v được đặt thành vô cực
Khởi tạo Parent[s] = 0
.Q := the set of all nodes
0 adjust_cost = AQI[u]*Distance[v] [u] +D[v]
Giá trị AOI[u] được chon theo thời gian T
24
Trang 3611 if adjust_cost < D[u]:
12 D[u] = adjust_cost
13 parent[u] = v
14 ©.push (u)
15 Record `total_distance“ ,“total_AQI”
16 Return total AOI, total_distance, and path
Thuật toán 4 1 MNR-Algorithm trên cơ sở chỉnh stra Dijkstra
a Tìm offline (tức là người ta tìm trước lúc đi, và khi đi thì không đổi tuyến
đường đi nữa)
Nhập vào điểm đầu (Si) điểm cuối (Sy), thời gian T Nhu vậy nếu muốn đi từ
Si đến Sy (segment), giả xử mat khoảng 60 phút chẳng hạn Đoạn từ S¡ đến Sw
(segment) sẽ được chia thành các đoạn S¡-Sa (T1), S2-S3 (T2), S2-S3 (T3), Sa-S4 (Ts), S4-Ss (Ts), Sn (TN) với T2 = T¡ + T; T3 = T1 + 2T; Ta= T1 + 3T; Ts = T1 + 4T;
Thuật toán dùng các lớp (layer) từ To tới Tk (ước lượng k thì tùy theo tốc độ
trung bình xe máy) dé tính đường đi với chi phi theo giá trị AQI và chiều dài đoạn
đường Sau đó, khi người dùng đi, thì họ cứ tới lớp nảo, thì update AQI layer đó (nếu cao thì cảnh báo, nếu thấp thì không cần cảnh báo).
b Tìm online, tức là cứ đi vài lớp (layer), thì lại tính toán lại đường đi 1 lần
(vì thực sự các lớp (layer) T; được update sau mỗi delta-t time, ví dụ gan mặc định là
5 phút)
Với b thì phải định dạng delta-layer, tức là bao nhiêu layer thì tinh lại tuyến đường 1 lần, Với b thì nó chính là bài toán a lặp di lặp lại (với số layer giảm dan) và
cũng cảnh báo khi người đi vào vùng AQI cao.
c Là tuyến đường của ho bắt buộc phải qua N điểm (vi dụ nhu đầu tiên đi đón con, sau đó đi đón vợ, sau đó đi siêu thì, và về nhà) Như vậy bài toán trong trường hợp này là tính đường đi ngắn nhất sao cho đi quan hết N điểm đó (bài toán người
đưa thư)
4.3.2 So sánh và đánh giá
Trang 37Trong phần sẽ trình bày những kết quả thực nghiệm và so sánh giữa phương pháp đề xuất được đặt tên là MNR-Algorithm với các phương pháp khác cụ thể là Dijkstra và CAR (A*) Các ngưỡng được áp dụng để xác định danh mục TOT/TRUNG BÌNH/XÂU/RÁT XAU/NGUY HAI được tính bằng AQI Đài Loan
(29].
Đối với thuật toán Dijkstra nguyên thủy được cài đặt như sau: dùng thuật toán Dijkstra tìm kiếm đường đi ngắn nhất từ A đến C sau đó tính toán giá trị AQI của cả đoạn đường đã đi Đối với thuật toán CAR (A*) đã được mô tả chỉ tiết trong [26], tiến hành cài đặt lại và áp dụng trên tap dit liệu của MNR-HCM Các thử nghiệm sẽ được thực nghiệm cho cả 2 trường hợp tìm kiếm online và tìm kiếm offline Kết quả được trình bày chỉ tiết trong hai bảng bảng bên dưới.
Trong hình 4.7 giả lập lại quá trình vận hành 3 thuật toán trong bối cảnh thực
tế Trình giả lập này mô phỏng hành vi trong thực tế khi một người sử dụng ứng dụng tìm đường đi tránh ô nhiễm không khí Giả lập này bao gồm (1) bảng thông tin thê
hiện tên thuật toán đang vận hành, tốc độ di chuyển, đồ dài quãng đường, chỉ số AQI;
(2) nút khới động/tạm dừng trình giả lập; (3) các lớp (layer) sinh ra từ dự đoán và nội
suy AQI; (4) Nhãn của các thuật toán đang được chạy duoc thể hiện trực quan; (4) cho phép hiện thị các dự đoán và nội suy AQI trong tương lai gần ví dụ 5 phút tới, 10
Ba tới và 15 phút tới.
Agortm 1
Nhìn vào bảng kết quả có thể nhận thấy trường hợp tìm và cập nhật tuyến đường mới dựa trên thông tin AQI được cập nhật theo thời gian T cho kết quả tốt nhất Điều nay giúp cũng có thêm lập luận được đưa ra ban đầu, tìm kiếm đường đi tránh ô nhiễm không khí cần quan tâm đến sự thay đổi giá AQI trong suốt đường di
chuyền Sự thay đổi AQI này có thé được lý giải dựa vào sự tăng hay giảm mật độ xe
cộ ở các tuyên đường Việc cập nhật AQI theo Delta time sẽ giúp kịp thời điều chỉnh
các tuyến đường tốt hơn so với ban đầu, giúp giảm chỉ số AQlIrany binh trên cả quãng.
đường.
26
Trang 38Thuật toán MNR-Algorithm giúp giảm đến 31.47% chỉ số AQI (so sánh với
Dijkstra nguyên thủy) tuy nhiên độ dài quãng đường tăng dưới 500 mét.
a Trường hợp tìm kiếm offline (Tim và đề xuất đường | lần, không thay đổi)
Bảng 4 2 Bảng so sánh 3 thuật trong trong tường hợp tìm kiếm offline
Tên Phương pháp | Số lần giả lập | Tổng độ dài AQKTrrung bình
đường (KM)
MNR-Algorithm 100 8.6 46.89 (Tốt)
Dijkstra 100 8,2 68,42 (Trung Binh)
CAR (A*) 100 8.4 59.5(Trung Binh)
b Trường hợp tìm kiếm online (Tìm và cập nhật bản ò, cập nhật tuyến
đường mới dựa trên thông tin AQI đc cập nhật ở thời điêm T)
Bảng 4 3 Bảng so sánh 3 thuật trong trong tường hợp tìm kiếm online
Tên Phương pháp _ | Số lần giả lập Tổng độ dài AQltrung binh
đường (KM)
MNR-Algorithm 100 8,72 44,78 (Tốt)
Dijkstra 100 8,2 65,34 (Trung Binh)
CAR (A*) 100 8,35 58.5 (Trung Binh)
4.3.3 Thảo luận
Trong phần nghiên cứu này đã giới thiệu phương pháp tìm đường đi tránh ô
nhiễm theo thời gian thực và chứng minh được tính hiệu quả khi giúp cắt giảm chỉ số AQI mặc dù phương pháp này hoạt động chỉ với 2 thiết bị cảm biến Việc chú trọng
vào sự thay đổi AQI xuyên suốt quá trình di chuyển giúp mang lại hiểu quả tích cực,
phản ánh qua việc phương pháp tìm kiếm online đạt kết quả tốt nhất Trong phiên bản đầu tiên thì AQI-T-RM chỉ có ứng dụng web Trong nghiên cứu này, AQI-T-RM sẽ được cập nhật thuật toán xử lý mới và cho ra đời phiên bản trên ứng dụng di động
nhằm xử lý phần theo dõi và đưa ra các cảnh báo về ô nhiễm không khí trong suốt
quá trình di chuyển của người dùng, đề xuất cập nhật lại đường đi.
Bên cạnh đó, MNR- -Algorithm chỉ mới khảo sát ở trường hợp giả lập, chưa
xem xét day đủ các yếu té đặc trưng môi trường giao thông (đường I chiều, đường 2 chiều), mật độ người di chuyển (tình hình kẹt xe), tình hình khí hâu (hướng gió đổi hướng, mưa/nắng) tại cùng địa điểm, nhiệt độ cao thấp khi có cây dọc hai bên đường, Trong tương lai, để giải quyết vấn đề trên, cần tiếp tục nghiên cứu cải tiến
MNR-Algorithm, tận dụng tối đa giá trị của bộ dữ MNR-HCM mang lại Tiếp tục mở
rộng mạng lưới c am biến động để tăng độ bao phủ cho khu vực khảo sát.
4.4 Phát triên ứng dụng
Các kết quả nghiên cứu được đề cập ở trên, sẽ được vận dụng dé phát triển ứng dụng trên thiết bị điện thoại di động chạy nền tảng Android và cập nhật lại thuật toán
Trang 39nền tảng của ứng dụng RM Hình 4.8 ảnh chụp giao diện ứng dụng
AQI-T-RM phiên bản chạy trên di động.
Giao diện ứng dụng này đơn giản cho phép người dùng nhập điểm bắt đầu và điểm kết thúc, người dùng nhắn vào “Lets Go” hệ thống sẽ xử lý và trả kết quả hiền
thị trên bản đồ tương tự cách thức hoạt động của ứng dụng AQI-T-RM ở phiên bản web Khi người dùng di chuyền, và đi vào vùng có AQI cao, ứng dụng sẽ hiện cảnh
động này sẽ cảnh giúp cảnh báo khi người sử dụng đi vào khu vực có AQI cao Các
chức năng tiện ích khác sẽ được nghiên cứu và phát triển trong thời gian tới Hứa hẹn đây là là ứng dụng thu hút được sự quan tâm đông đảo người dân nhất là bối cảnh ô nhiễm không khí ở TP Hồ Chí Minh ngày càng báo động.
Riêng ứng dụng AQI-T-RM phiên bản web đã được cập nhật phiên bản mới, có
thé được truy cập và sử dụng thử tại https://nifty-shirley-Sa6f48.netlify.app/
28
Trang 40CHƯƠNG 5 KÉT LUẬN VÀ KHUYÉN NGHỊ
5.1 Kết qua đạt được
Nghiên cứu này đã đề xuất một hệ thống tìm đường đi tránh ô nhiễm không khí ở một khu vực tại TP Hồ Chí Minh dựa trên nguồn dir liệu của nhóm MNR [1,27].
Hệ thống này cung cấp thông tin hữu ích cho người dân có thể dựa vào đó lên kế
hoạch đường đi cho phù hợp giảm thiêu tác động ô nhiễm không khí, tránh các tuyến
đường đông đúc, kẹt xe, giúp bảo vệ sức khỏe Ở khía cạnh các nhà quản lý môi trường, quản lý đô thị giúp họ nắm bắt được tình hình ô nhiễm không khí cục bộ được nhanh chóng, kịp thời hơn, từ đó đưa ra các hướng giải quyết Hệ thống tỏ ra hiệu quả khi giúp giảm 31.47% chỉ số AQI khi so sánh với các giải pháp khác mặc dù cần
[1] Nguyen D.H., Nguyen-Tai TL., Nguyen MT., Nguyen TB., Dao MS (2021)
MNR-Air: An Economic and Dynamic Crowdsourcing Mechanism to Collect
Personal Lifelog and Surrounding Environment Dataset A Case Study in Ho Chi Minh City, Vietnam /n: Lokoẽ J et al (eds) MultiMedia Modeling MMM 2021.
Lecture Notes in Computer Science, vol 12573 Springer, — Cham.
hutps://doi.org/10.1007/978-3-030-67835-7_18
[2] Tan-Loc Nguyen-Tai, Dang-Hieu Nguyen, Minh-Tam Nguyen, Thanh-Duong
Nguyen, Thanh-Hai Dang, and Minh-Son Dao 2020 MNR-HCM Data: A Personal
Lifelog and Surrounding Environment Dataset in Ho-Chi-Minh City, Viet Nam Jn
Proceedings of the 2020 on Intelligent Cross-Data Analysis and Retrieval Workshop
(ICDAR '20) Association for Computing Machinery, New York, NY, USA, 21-26 DOIF-https://doi.org/10.1145/3379174.3392320
[3] Nguyen, Trung-Quan., Nguyen, D.H., Nguyen T.T.L (2020) Personal Air
Quality Index Prediction Using Inverse Distance Weighting Method MediaEval
2020.
[4] Nguyen, Trung-Quan., Nguyen, D.H., Nguyen T.T.L (2020) Use Visual
Features From Surrounding Scenes to Improve Personal Air Quality Data Prediction
Performance MediaEval 2020.
[5] Nguyen MT., Nguyen-Tai TL., Nguyen D.H (2020) URBANEGOAQI: A SYSTEM TO MEASURE AIR QUALIFICATION INDEX USING EGOCENTRIC
AND URBAN SENSING DATA In: Kỷ yếu Hội nghị KHCN Quốc gia lần thir XIII
về Nghiên cứu cơ ban và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày
8-9/10/2020 DOI: 10.15625/vap.2020.00203