LỜI CAM ĐOAN Tôi xin cam đoan đề tài luận văn “Nghiên cứu xử lý dữ liệu thiếu trong tính toán chỉ số chất lượng không khí AQI của hệ thống quan trắc không khí tự động” công trình nghiên
Trang 1ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
Trang 2ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
Trang 3LỜI CAM ĐOAN Tôi xin cam đoan đề tài luận văn “Nghiên cứu xử lý dữ liệu thiếu trong tính toán chỉ số chất lượng không khí (AQI) của hệ thống quan trắc không khí tự động” công trình nghiên cứu của bản thân tôi Các số liệu, kết quả nghiên cứu và các kết luận trong luận văn là trung thực, không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định
Học viên
Phạm Lê Sơn
Trang 4LỜI CÁM ƠN
Để hoàn thành luận văn Thạc sĩ này, tôi chân thành gởi lời cảm ơn và bày tỏ lòng kính trọng nhất đến TS Đoàn Văn Thắng và TS Nguyễn Thị Hồng là người Thầy người
Cô đã tận tình hướng dẫn hoàn thành luận văn này
Tôi cũng xin cảm ơn quí thầy cô Đại học Thủ Dầu Một, các bạn Học viên Cao học lớp CH21HT01 đã giúp đỡ tôi trong quá trình thực hiện luận văn này
Trân trọng!
Bình Dương, ngày … tháng … năm 2023
Học viên
Phạm Lê Sơn
Trang 5TÓM TẮT LUẬN VĂN THẠC SĨ Vấn đề thiếu dữ liệu khá phổ biến, vì vậy việc giải quyết vấn đề thiếu giá trị là cần thiết để cải thiện đáng kể các vấn đề khai thác và phân tích dữ liệu của chúng ta một cách chính xác Hiện nay, có rất nhiều cách tiếp cận khác nhau để xử lý các giá trị bị thiếu hay thường gọi là thiếu dữ liệu, mỗi cách đều có ưu nhược điểm khác nhau
Nghiên cứu tập trung vào việc xử lý dữ liệu của hệ thống quan trắc không khí xung quanh tự động với mục tiêu chính là xử lý và giải quyết vấn đề thiếu dữ liệu đo đạc trong quá trình quan trắc tự động, phục vụ cho việc tính toán chỉ số chất lượng không khí (AQI) Nghiên cứu trình bày mô hình có thể xử lý dữ liệu thiếu bằng các mô hình Hồi quy tuyến tính và mô hình K -Nearest Neighbor để hoàn chỉnh chuỗi dữ liệu và dự báo kết quả AQI từ những kết quả quan trắc không khí tự động
Kết quả dự kiến của nghiên cứu này là nâng cao độ chính xác của dữ liệu, cung cấp dữ liệu về quan trắc môi trường đáng tin cậy hơn, hỗ trợ hiệu quả trong quản lý môi trường Đây cũng là cơ sở đề xuất áp dụng trong việc xử lý dữ liệu về quan trắc môi trường không khí xung quanh tự động trên địa bàn tỉnh Bình Dương
Trang 6MỤC LỤC
MỤC LỤC .iv
DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT vii
DANH MỤC BẢNG viii
DANH MỤC HÌNH ix
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 7
1.1 Tổng quan về quan trắc môi trường không khí xung quanh 7
1.1.1 Mục tiêu chương trình: 7
1.1.2 Thông số quan trắc: 7
1.1.3 Phương án lấy mẫu, đánh giá sơ bộ vị trí quan trắc: 7
1.1.4 Khảo sát khu vực quan trắc 7
1.1.5 Thiết kế phương án quan trắc chi tiết 7
1.1.6 Tần suất và thời gian quan trắc 8
1.1.7 Phương pháp lấy mẫu, đo đạc và phân tích 8
1.2 Tổng quan về quan trắc không khí xung quanh tự động, liên tục 9
1.2.1 Chức năng 9
1.2.2 Cấu hình tổng quan trạm quan trắc không khí tự động, liên tục 10
1.2.3 Thành phần 10
1.2.4 Chỉ tiêu 10
1.3 Chất lượng không khí và ảnh hưởng đến sức khỏe 11
1.4 Chỉ số chất lượng không khí AQI 12
1.4.1 Phương pháp tính AQI 13
1.4.2 Danh mục chỉ số chất lượng không khí 13
1.4.3 Mục tiêu của Chỉ số chất lượng không khí (AQI) 14
1.5 Chất lượng không khí và vấn đề dự báo 14
1.5.1 Chất lượng không khí và ảnh hưởng đến sức khỏe 14
1.5.2 Dự báo chất lượng không khí 15
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 16
2.1 Tổng quan về hồi quy tuyến tính 16
2.1.1 Khái niệm 16
Trang 72.2 Lợi ích chính của hồi quy tuyến tính 18
2.2.1 Dễ dàng thực hiện 18
2.2.2 Khả năng giải thích 18
2.2.3 Khả năng mở rộng 18
2.2.4 Tối ưu cho mô hình trực tuyến 18
2.3 Vẽ đường hồi quy 18
2.3.1 Mối quan hệ tuyến tính thuận 19
2.3.2 Mối quan hệ tuyến tính phủ định 19
2.4 Tìm dòng phù hợp nhất 19
2.5 Chức năng ước lượng 20
2.6 Gradient Descent 20
2.7 Hiệu suất mô hình 23
2.8 Các giả định về hồi quy tuyến tính 23
2.9 Phân loại hồi quy tuyến tính 24
2.9.1 Hồi quy tuyến tính đơn giản (Simple Linear Regression) 25
2.9.2 Hồi quy tuyến tính đa biến (Linear Regression Multiple Features - MLR) 27
2.10 Thuật toán KNN (K Nearest Neighbor) 29
2.10.1 Khái niệm 29
2.10.2 Quy trình thực hiện 29
2.10.3 Lựa chọn K 30
2.10.4 Nhiễu trong KNN 31
2.10.5 Phương pháp tính khoảng cách 32
2.10.6 Ưu điểm và nhược điểm 33
CHƯƠNG 3 MÔ HÌNH ĐỀ XUẤT CHO BÀI TOÁN XỬ LÝ DỮ LIỆU THIẾU, THỰC NGHIỆM VÀ KẾT QUẢ 34
3.1 Xây dựng bài toán 34
3.2 Giả thiết- yêu cầu- mục tiêu của vấn đề 35
3.3 Cơ sở dữ liệu, thông tin của bài toán 36
3.4 Đề xuất xây dựng mô hình bổ khuyết dữ liệu quan trắc 37
3.5 Môi trường cài đặt và bộ dữ liệu 38
3.5.1 Môi trường cài đặt Jupyter Notebook 38
Trang 83.6 Kết quả thực nghiệm mô hình 43
KẾT LUẬN VÀ KIẾN NGHỊ 45
1 Kết luận 45
2 Kiến nghị 45
TÀI LIỆU THAM KHẢO 46
Trang 9DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT
MLR Linear regression multiple features Hồi quy tuyến tính đa biến
RNN-GRU Recurrent Neural Network with Gated Recurrent Unit
RNN-LSTM Recurrent Neural Network with Long Short-Term Memory
Trang 10DANH MỤC BẢNG
Bảng 1.1 Chỉ số chất lượng không khí 13
Bảng 2.1 Danh sách bệnh nhân tiểu đường 17
Bảng 3.1 Các giá trị BPi đối với các thông số 39
Bảng 3.2 Số dòng khuyết dữ liệu từng thuộc tính 42
Bảng 3.3 Phân chia dữ liệu huấn luyện các model 43
Bảng 3.4 Kết quả thực nghiệm chỉ số ICO 43
Bảng 3.5 Kết quả thực nghiệm chỉ số INO2 43
Bảng 3.6 Kết quả thực nghiệm chỉ số ISO2 43
Bảng 3.7 Kết quả thực nghiệm chỉ số IO3 43
Bảng 3.8 Giá trị AQI theo ngày sau khi điền khuyến dữ liệu 44
Trang 11DANH MỤC HÌNH
Hình 1.1 Kiến trúc trạm quan trắc 10
Hình 2.1 Bản chất hồi quy tuyến tính 17
Hình 2.2 Tuyến tính thuận 19
Hình 2.3 Tuyến tính phủ định 19
Hình 2.4 Chọn α trên j(α)’ 21
Hình 2.5 Với giá trị learning rate cao 22
Hình 2.6 Với giá trị learning rate thấp 22
Hình 2.7 Tỷ lệ hàm lỗi và số lần lặp 22
Hình 2.8 Mỗi α là một đường thẳng dự đoán mới 23
Hình 2.9 Thuật toán KNN 29
Hình 2.10 Phân tích cách chọn K trong KNN 30
Hình 2.11 Nhiễu trong KNN 31
Hình 2.12 Áp dụng định lý pytago để tính công thức euclid 33
Hình 3.1 Vị trí của trạm quan trắc tự động CLKK Cái Lân 36
Hình 3.2 Một phần bộ dữ liệu quan trắc 37
Hình 3.3 Mô hình khuyến nghị xử lý dữ liệu thiếu 37
Hình 3.4 Dữ liệu trích ngang các tiêu chuẩn cần thiết đánh giá AQI 41
Hình 3.5 Thông số tổng quan dữ liệu 41
Hình 3.6 Vùng dữ liệu thiếu 42
Hình 3.7 Tỷ lệ dữ liệu khiếm khuyết 42
Hình 3.8 Biểu đồ so sánh AQI sau khi đầy đủ dữ liệu 44
Trang 12MỞ ĐẦU
1 Lý do nghiên cứu
AQI (Air Quality Index) là một chỉ số báo cáo chất lượng không khí hàng ngày Đây được coi là một thước đo đơn giản hóa mức độ ô nhiễm không khí, cho biết không khí xung quanh ta là sạch hay ô nhiễm, ô nhiễm đến mức độ nào Rủi ro đối với sức khỏe cộng đồng càng cao khi chỉ số AQI càng lớn Chỉ số AQI tập trung vào sự ảnh hưởng tới sức khỏe người dân có thể gặp trong vòng vài giờ hoặc vài ngày sau khi hít thở không khí ô nhiễm
Các quốc gia khác nhau hiện nay đang sử dụng bộ tiêu chí và công thức tính chất lượng không khí riêng, tương ứng với các tiêu chuẩn chất lượng không khí được ban hành theo tiêu chuẩn của từng quốc gia
Tại Việt Nam, chỉ số AQI thường được tính toán dựa trên chỉ số của 5 loại
ô nhiễm không khí lớn nhất, gồm có: tầng ozone (O3), ô nhiễm hạt dạng bụi mịn (PM2.5, PM10 - còn được gọi là vật chất hạt), Carbon monoxide (CO), Sulfur dioxide (SO2) và Nito dioxide (NO2) Sau khi áp dụng các công thức tính toán cho ra giá trị với AQI của từng thông số, giá trị AQI hiển thị sẽ là giá trị AQI lớn nhất trong năm tham số theo đơn vị thời gian được quy định (1 giờ và 1 ngày)
Hiện tại, trên lãnh thổ Việt Nam, đã có nhiều tỉnh thành đã được lắp đặt các hệ thống quan không khí xung quanh tự động, liên tục như Hà Nội, Quảng Ninh, Đồng Nai,…từ đó, hệ thống sẽ tính toán ra chỉ số AQI để công bố đến người dân trong khu vực sự ảnh hưởng của không khí ô nhiễm tới sức khỏe con người có thể gặp phải trong vòng vài giờ hoặc vài ngày sau khi hít phải Khi chỉ
số này càng lớn thì mức độ nguy hiểm càng cao
Tuy nhiên, hệ thống quan không khí xung quanh tự động, liên tục trong quá trình vận hành cũng sẽ xảy ra lỗi liên quan đến thiết bị đo hoặc những sự cố khác dẫn đến chuỗi dữ liệu sẽ bị gián đoạn, dữ liệu không logic, gọi chung là dữ liệu bị thiếu, từ đó dẫn đến việc công bố kết quả tính toán AQI không chính xác,
dữ liệu tổng hợp trong các báo cáo định kỳ sẽ bị gián đoạn
Với những lập luận đã trình bày, tôi chọn đề tài “Nghiên cứu xử lý dữ liệu thiếu trong tính toán chỉ số chất lượng không khí (AQI) của hệ thống quan trắc
Trang 13không khí tự động” là cần thiết, đảm bảo cho việc khôi phục chuỗi dữ liệu, tính toán chỉ số AQI được đầy đủ, chính xác
2 Mục tiêu nghiên cứu
2.1 Mục tiêu tổng quát
Mục tiêu của nghiên cứu là các phương pháp, thuật toán khai phá dữ liệu nhằm áp dụng xây dựng mô hình có khả năng xử lý dữ liệu thiếu và đảm bảo tính chính xác
2.2 Mục tiêu cụ thể
Nghiên cứu tập dữ liệu về quan trắc chất lượng không khí tự động
Nghiên cứu các phương pháp xử lý dữ liệu bị thiếu bằng mô hình hồi quy tuyến tính và mô hình KNN, nhằm hoàn chỉnh chuỗi dữ liệu và tính toán kết quả AQI từ những kết quả quan trắc không khí tự động
Đề xuất sử dụng xử lý dữ liệu bị thiếu cho các trạm quan trắc không khí tự động tại Bình Dương
3 Tổng quan tình hình nghiên cứu
3.1 Các nghiên cứu nước ngoài
Nurzaman, Titin Siswantining, Saskya Mary Soemartojo, Devvi Sarwinda (2019) nghiên cứu “Áp dụng phương pháp quy nạp đa biến hồi quy tuần tự trên
dữ liệu thiếu thông thường đa biến” Trong nghiên cứu này, các tác giả đã áp dụng phương pháp tính toán đa biến hồi quy tuần tự để tính toán các giá trị còn thiếu trong dữ liệu đa biến thông thường Đây là một phương pháp tính toán đa biến có các giá trị tính toán được lấy từ chuỗi mô hình hồi quy, trong đó mỗi biến chứa các giá trị bị thiếu sẽ được hồi quy đối với tất cả các biến khác không chứa các giá trị bị thiếu làm biến dự đoán Cách để có được giá trị quy đổi là sử dụng phương pháp lặp để rút ra các giá trị từ phân bố hậu nghiệm dự đoán của các giá trị còn thiếu trong mỗi mô hình hồi quy liên tiếp Kết quả đánh giá chất lượng cắt
bỏ trên dữ liệu mô phỏng bằng cách sử dụng Lỗi bình phương trung bình gốc (RMSE) [1]
Pınar Cihan (2020) nghiên cứu “Tiếp cận phương pháp học sâu để xử ký
Trang 14nhau đã được ước lượng bằng cách sử dụng các phương pháp mã hóa tự động khử nhiễu (DAE), k-nearest neighbor (kNN) và quy nạp đa biến bằng phương trình chuỗi (MICE) Đánh giá hiệu quả của phương pháp này dựa trên các tiêu chí về lỗi bình phương trung bình gốc (RMSE) Kết quả nghiên cứu cho thấy, phương pháp DAE hiệu quả hơn các phương pháp thống kê còn lại trong việc ước lượng giá trị bị thiếu cho các tập dữ liệu lớn [2]
Steve Hadeed, Mary Kay O'Rourke, Jefferey L Burgess, Robin B Harris, Robert A Canales (2020) nghiên cứu các phương pháp xử lý để giải quyết dữ liệu còn thiếu trong giám sát ngắn hạn các chất gây ô nhiễm không khí Giám sát các chất gây ô nhiễm môi trường là một phần quan trọng trong nghiên cứu khoa học phơi nhiễm và thực hành y tế công cộng Dữ liệu bị thiếu thường gặp phải khi thực hiện giám sát ngắn hạn (<24 giờ) chất gây ô nhiễm không khí bằng máy theo dõi thời gian thực, đặc biệt là ở những khu vực có nguồn lực hạn chế Mục đích của nghiên cứu là đánh giá các phương pháp xử lý hiện có để xử lý dữ liệu
bị thiếu cho các màn hình thời gian thực hoạt động trong thời gian ngắn Kết quả qua một số chỉ số, cho thấy các phương pháp đơn biến quy định các giá trị còn thiếu dựa trên dữ liệu không đầy đủ được quan sát thấy trong các hộ gia đình hoạt động tốt nhất Phương pháp định lượng Markov, ngẫu nhiên và trung bình là những phương pháp hoạt động tốt nhất mang lại ước tính trung bình 24 giờ với giá trị thấp nhất [3]
A Alsaber, Jiazhu Pan, A Al-Hurban (2021) nghiên cứu “Xử lý dữ liệu bị thiếu phức tạp bằng cách sử dụng phương pháp tiếp cận rừng ngẫu nhiên cho bộ
dữ liệu giám sát chất lượng không khí: Nghiên cứu điển hình về dữ liệu môi trường Kuwait (2012 đến 2018)” Trong nghiên cứu môi trường, dữ liệu bị thiếu thường là thách thức đối với mô hình thống kê Bài viết này đề cập đến một số kỹ thuật để xử lý các giá trị còn thiếu trong bộ dữ liệu đo lường chất lượng không khí bằng cách sử dụng phương pháp đa biến Các kỹ thuật dữ liệu bị thiếu MCAR, MAR và NMAR được áp dụng cho tập dữ liệu Kết quả cho thấy kỹ thuật MAR có RMSE và MAE thấp nhất Nhóm tác giả kết luận rằng MI sử dụng phương pháp missForest có mức độ chính xác cao trong việc ước tính các giá trị
Trang 15còn thiếu MissForest có lỗi định lượng thấp nhất (RMSE và MAE) trong số các phương pháp định lượng khác và do đó, có thể được coi là phù hợp để phân tích
dữ liệu chất lượng không khí [4]
3.2 Các nghiên cứu trong nước
Mạc Duy Hưng (2018), Ứng dụng học máy để điền dữ liệu giám sát chất lượng không khí còn thiếu Trong bài báo này, ba mô hình học máy đã được áp dụng để dự đoán và điền vào dữ liệu giám sát chất lượng không khí còn thiếu cho các trạm Gia Lâm và Nha Trang tại Hà Nội và Khánh Hòa, bao gồm Trung bình
di chuyển tự hồi quy (ARMA), Mạng thần kinh nhân tạo (ANN) và Hồi quy vectơ hỗ trợ (SVR) Hai chất gây ô nhiễm không khí là NO2 và PM10 được chọn cho nghiên cứu này Những kết quả này chỉ ra rằng học máy là một phương pháp khả thi để giải quyết vấn đề thiếu dữ liệu vốn là một trong những vấn đề lớn nhất của các trạm quan trắc chất lượng không khí ở Việt Nam [5]
Viện Khoa học và Công nghệ Tính toán thuộc Sở Khoa học Công nghệ thành phố Hồ Chí Minh (2018) đã xây dựng Ứng dụng có tên gọi: “Xây dựng hệ thống dự báo không khí vùng Thành phố Hồ Chí Minh”, với hướng tiếp cận mới
là sử dụng các mô hình quang hóa kết hợp với mô hình dự báo khí tượng để dự báo chất lượng không khí theo thời gian thực ở Thành phố Hồ Chí Minh và một
số vùng lân cận [6]
Nguyễn Công Nhựt, Lai Văn Nhút và Bùi Hùng Vương (2018) báo cáo về
“Ứng dụng phương pháp nội suy Cokriging để dự báo chỉ số chất lượng không khí cho nồng độ bụi TSP thành phố Đà Nẵng” Báo cáo đã sử dụng nồng độ TSP được ghi nhận tại một số trạm quan sát ở thành phố Đà Nẵng, và áp dụng phương pháp nội suy Cokriging để tạo mô hình phù hợp để dự báo nồng độ TSP tại một
số trạm không có dữ liệu quan trắc trong thành phố Nhóm tác giả đã đóng góp
để tìm kiếm các mô hình thống kê tốt theo một số tiêu chí, và tìm các mô hình có
độ chính xác cao [7]
Phan Thị Thu Hồng (2020) so sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều Bài viết đã giới thiệu các phương pháp xử
Trang 16thời gian đơn biến được xây dựng Cuối cùng, thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử dụng bốn chỉ số đánh giá Thông qua kết quả thử nghiệm, phương pháp DTWBI (Dynamic Time Warping-based imputation) và eDTWBI (là phương pháp mở rộng của phương pháp DTWBI) đạt được kết quả vượt trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng Phương pháo na.interp (phương pháp nội suy na.interp, Hyndman & Khandakar, 2008) cho kết quả dự báo tốt hơn trong trường hợp dữ liệu vừa có tính chất mùa vụ và
Nguyễn Thành Phong (2022) thực hiện “Luận văn xây dựng ứng dụng dự báo chất lượng không khí đô thị” Luận văn đã áp dụng hai thuật toán dự báo RNN-LSTM và RNN-GRU dựa trên bộ dữ liệu các chất gây ô nhiễm từ Sentinel-5P và bộ dữ liệu bụi mịn PM2.5 để xây dựng mô hình dự báo [10]
4 Đối tượng, phạm vi nghiên cứu
4.1 Đối tượng nghiên cứu
- Thuật toán học máy Linear regression (Hồi quy tuyến tính);
- Thuật toán học máy K-Nearest Neighbors (KNN);
- Các thông số chất lượng không khí cơ bản, gồm có: tầng ozone (O3), ô nhiễm hạt dạng bụi mịn (PM2.5, PM10 - còn được gọi là vật chất hạt), carbon monoxide (CO), sulfur dioxide (SO2) và nitơ dioxide (NO2)
4.2 Phạm vi nghiên cứu
- Mô hình hồi quy tuyến tính đơn giản
- Thuật toán học máy KNN: tính toán giá trị đầu ra bằng cách lấy trung bình (hoặc trung vị) của các giá trị đầu ra của K lân cận gần nhất
Trang 17- Các thông số cơ bản về chất lượng không khí xung quanh tại trạm quan trắc không khí tự động Khu công nghiệp Cái Lân, tỉnh Quảng Ninh
5 Phương pháp nghiên cứu
- Nghiên cứu tổng quan mô hình hồi quy tuyến tính và thuật toán học máy KNN
- Phương pháp thu thập số liệu, phân tích thống kê
- Nghiên cứu phương pháp xử lý dữ liệu bị thiếu bằng mô hình hồi quy tuyến tính và thuật toán KNN
- Phương pháp nghiên cứu so sánh
6 Kết quả nghiên cứu dự kiến
Tìm ra và khôi phục những dữ liệu còn khiếm khuyết trong quá trình quan trắc chất lượng không khí tự động nhằm tính toán chỉ số AQI được đầy đủ, chính xác
7 Đóng góp của nghiên cứu
Phục vụ xử lý, bổ khuyết các dữ liệu được quan trắc phục vụ công việc giám sát quản lý cho các trạm quan trắc không khí tự động tại Bình Dương sau này
Trang 18CHƯƠNG 1 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
1.1 Tổng quan về quan trắc môi trường không khí xung quanh
1.1.1 Mục tiêu chương trình:
Mục tiêu của chương trình quan trắc chất lượng môi trường không khí xung quanh nhằm đánh giá diễn biến chất lượng môi trường không khí xung quanh trên địa bàn nhất định, phục vụ công tác lập báo cáo hiện trạng môi trường tỉnh
và giúp các cơ quan quản lý đưa ra những quyết sách đúng và kịp thời trong quy hoạch sử dụng tài nguyên hợp lý để phát triển kinh tế xã hội; đồng thời cung cấp
số liệu, thông tin có độ tin cậy và có hệ thống về chất lượng môi trường phục vụ cho công tác quản lý môi trường, làm cơ sở xây dựng các kế hoạch bảo vệ môi trường và tài nguyên nhằm phát triển bền vững
ồn khu công nghiệp và đô thị), áp suất khí quyển, tốc độ gió, hướng gió
CO, SO2, NO2, TSP, Bụi
PM10, Bụi PM2.5, O3, H2S,
NH3, Benzen, Toluen, Xylen, Styren, Chì (Pb) và các hợp chất (tính theo chì)
1.1.3 Phương án lấy mẫu, đánh giá sơ bộ vị trí quan trắc:
Phương án lấy mẫu được thiết kế sơ bộ bao gồm việc xác định tuyến, điểm lấy mẫu và đánh dấu trên bản sơ đồ; mô tả vị trí địa lý, tọa độ điểm quan trắc và
ký hiệu các điểm quan trắc; mô tả sơ bộ nguồn tác động, đối tượng ảnh hưởng, các tác động đến khu vực quan trắc
1.1.4 Khảo sát khu vực quan trắc
Dựa trên phương án sơ bộ lấy mẫu được thiết lập, tiến hành khảo sát khu vực quan trắc để thực hiện lấy mẫu, đánh giá và phân tích các chỉ tiêu tại các vị trí lấy mẫu theo các thành phần môi trường
1.1.5 Thiết kế phương án quan trắc chi tiết
Trang 19Từ phương án lấy mẫu sơ bộ và khảo sát thực tế khu vực quan trắc, lập chương trình quan trắc bao gồm tên điểm quan trắc, ký hiệu các điểm quan trắc,
mô tả các điểm quan trắc, vị trí lấy mẫu, nguồn gây tác động và các tác động của khu vực quan trắc, tần suất
Trước mỗi đợt quan trắc, xây dựng kế hoạch quan trắc; trong đó, xác định chính xác tuyến, điểm lấy mẫu Sơ đồ các điểm quan trắc thực hiện theo điểm, tọa độ được phê duyệt
1.1.6 Tần suất và thời gian quan trắc
- Tần suất quan trắc: 12 đợt/ năm
- Thời gian quan trắc: hàng tháng
1.1.7 Phương pháp lấy mẫu, đo đạc và phân tích
Trang 20STT Thông số Phương pháp
1.2 Tổng quan về quan trắc không khí xung quanh tự động, liên tục
Giải pháp quan trắc chất lượng không khí xung quanh tự động, liên tục giúp nhanh chóng xác định nguồn gốc của ô nhiễm không khí và mức độ ô nhiễm không khí ảnh hưởng đến sức khỏe cộng động theo các tiêu chuẩn cho phép hiện hành
Trạm quan trắc môi trường không khí xung quanh tự động, liên tục chính
là tổ hợp các loại máy móc, thiết bị quan trắc môi trường có khả năng đo đạc, phân tích chất lượng thành phần không khí xung quanh thông qua cảm biến và bộ truyền tải, đồng thời truyền dữ liệu đến “tầng ứng dụng” thông qua mạng dây/không dây 4G với phương thức tự động, liên tục Các kết quả quan trắc sẽ được truyền trực tiếp về trung tâm quản lý, cung cấp dữ liệu về chất lượng không khí trong khu vực nhằm phục vụ công tác quản lý nhà nước về bảo vệ môi trường
và đảm bảo sức khỏe người dân
1.2.1 Chức năng
Giải pháp quan trắc chất lượng không khí xung quanh là giải pháp hữu hiệu để giám sát thường xuyên liên tục chất lượng không khí xung quanh khu vực giám sát nhằm: Để đảm bảo sức khỏe cộng đồng, độ ô nhiễm không khí được ước lượng và phải đạt mức dựa trên các tiêu chuẩn hiện hành
Để xác định tác động của các nguồn thải độc lập hoặc một nhóm nguồn thải tới chất lượng không khí tại vùng địa phương, cung cấp thông tin phục vụ cho việc lập kịch bản kiểm soát ô nhiễm và quy hoạch phát triển công nghiệp
Để phân tích diễn biến chất lượng môi trường không khí theo thời gian và không gian
Trang 21Khuyến nghị các cảnh báo về sự ô nhiễm môi trường không khí
Đảm bảo luôn lắng nghe và đồng hành với các yêu cầu quản lý môi trường của cả Trung ương và địa phương
1.2.2 Cấu hình tổng quan trạm quan trắc không khí tự động, liên tục
Hình 1.1 Kiến trúc trạm quan trắc 1.2.3 Thành phần
Các thiết bị quan trắc bao gồm cảm biến (sensor), máy lấy mẫu, thiết bị phân tích (analyzer) sẽ đo lường và phân tích những chỉ tiêu về môi trường không khí xung quanh Kết quả đo và phân tích sẽ được chuyển thành dữ liệu, sau đó được thu thập bởi bộ thu thập dữ liệu (datalogger) Các dữ liệu này được truyền về trạm điều khiển (Trạm Trung tâm) đặt tại trung tâm quan trắc và đồng thời được truyền về Sở Tài nguyên và Môi trường
1.2.4 Chỉ tiêu
Thông tư 10/2021/TT-BTNMT của Bộ Tài nguyên và Môi trường, có hiệu lực ngày 16/8/2021 quy định nhóm những thông số tối thiểu đối với các trạm quan trắc chất lượng không khí tự động bao gồm:
SO2, NO: Thường phát sinh trong quá trình sản xuất công nghiệp và trong
Trang 22axit, gây kích ứng hệ hô hấp của con người và gây ô nhiễm quang hóa học khi các Oxit Nitơ phản ứng với hợp chất hữu cơ bay hơi xung quanh để tạo thành Peroxyacetyl Nitrate
CO: Một loại khí độc thông thường sinh ra trong quá trình đốt nhiên liệu hóa thạch thường thấy tại các nhà máy nhiệt điện, lò đốt rác thải tập trung
PM10: Kim loại nặng hoặc các hợp chất độc hại khác sẽ được gắn trên
PM10 Hệ hô hấp của con người rất nhạy cảm trước những tác động của PM10
PM2.5: Tương tự như PM10, nhưng PM2.5 sẽ đi trực tiếp vào phổi người và các loại động vật
Ozone (O3): Nghiêm trọng hơn PM2.5 hoặc Oxit Nitơ vượt ngưỡng Đây là chất oxy hóa mạnh, khi bị oxy hóa sẽ chuyển thành SO2, NO hoặc hợp chất hữu
cơ dạng hạt, 85% ô nhiễm quang hóa là do vượt quá Ozone
Hầu hết các quốc gia trên thế giới đều coi đây là các thông số cần giám sát bắt buộc và là tiêu chuẩn chung của các hệ thống quan trắc chất lượng không khí
tự động
Ngoài ra còn có thêm một số thông số bắt buộc đo đạc tại hiện trường như: hướng gió, tốc độ gió, nhiệt độ, độ ẩm tương đối, thiết bị đo áp suất không khí, bức xạ mặt trời Và các thông số nâng cao, đặc thù cho từng khu vực như: Khí kim loại nặng, Hydrogen Sulfide, Ammonia, Hydrofluoric Acid, khí Hydrocacbon, các hợp chất hữu cơ bay hơi
1.3 Chất lượng không khí và ảnh hưởng đến sức khỏe
Chúng ta thấy rằng, chất lượng không khí được quan tâm trên toàn thế giới, trong đó có Việt Nam, bởi tính nguy hiểm của nó đối với sức khỏe của người dân và hệ sinh thái Tổ chức Y tế Thế giới ước tính trong năm 2012, gần 7 triệu ca tử vong đã được xác định là do ô nhiễm không khí, trong đó khoảng 9%
là do nguyên nhân ung thư phổi, 17% là do các bệnh phổi mạn tính, 30% do các nguyên nhân như bệnh tim, thiếu máu cục bộ và đột quỵ liên quan đến ô nhiễm không khí, và 9% là do nhiễm trùng đường hô hấp
Trang 23Chất lượng không khí dựa trên thành phần hóa học của khí quyển, trong
đó bụi, O3, NO2, hợp chất hữu cơ dạng hạt, CO và SO2 là những thông số đặc biệt được quan tâm hơn cả Nhiều nghiên cứu đã chỉ ra rằng, khi nồng độ của các nguyên tố này tăng lên 10 μg/m3 hoặc 1mg/m3, tỷ lệ tử vong do các nguyên nhân tăng lên đều từ 0,38% đến 7,3%, và tỷ lệ tử vong do các bệnh liên quan đến hô hấp từ 0,51% đến 1,62%, tỷ lệ tử vong do các bệnh tim mạch từ 0,44% đến 4,77%
Các nghiên cứu dự báo ô nhiễm không khí tại thành phố Hồ Chí Minh từ
2004 đến 2007, đã có một mối liên quan chặt chẽ giữa số ca nhập viện do bệnh
hô hấp và nồng độ ô nhiễm bao gồm các chất PM10, NO2, SO2 và O3 Báo cáo này cho thấy nồng độ PM10 có tới 1126 ngày vượt quá quy chuẩn của Tổ chức Y
tế Thế giới trong thời gian nghiên cứu, còn những đối tượng nhạy cảm hơn là nhóm người già và trẻ em, đặc biệt là trẻ em dưới 5 tuổi Khi khoảng cách giữa các phân vị của nồng độ O3 tăng lên 86 μg/m3 sẽ giảm tỷ lệ ra viện của bệnh nhi mắc các bệnh hô hấp 5%, còn 61,5 μg/m3 sẽ giảm 6%
Như vậy có thể thấy rằng, công tác dự báo ô nhiễm không khí theo cách tốt sẽ giúp người dân có thể chủ động hơn trong việc hạn chế ảnh hưởng tiêu cực của ô nhiễm không khí đến sức khỏe, cũng như cung cấp những biến động và chiến lược quản lý ô nhiễm không khí phù hợp
1.4 Chỉ số chất lượng không khí AQI
Chỉ số chất lượng không khí AQI là một công cụ quan trọng được sử dụng
để đo lường mức độ ô nhiễm của không khí Nó được xây dựng trên cơ sở các yếu tố ô nhiễm không khí, bao gồm cả các hạt nhỏ và lớn, độ ẩm và các khí độc hại như oxit nitơ, oxit siêu và các chất cồn khác Chỉ số này được sử dụng để đo lường sự biến đổi của chất lượng không khí trong thời gian ngắn và dài hạn, giúp cho các cơ quan quản lý khí hậu đánh giá được tình trạng của môi trường và có thể áp dụng các biện pháp xử lý khí thải tốt hơn Cơ quan Bảo vệ Môi trường Hoa Kỳ tính toán AQI cho năm chất gây ô nhiễm không khí chính, theo đó các tiêu chuẩn chất lượng không khí quốc gia đã được thiết lập để bảo vệ sức khỏe
Trang 24ngại về sức khỏe càng lớn Khái niệm AQI đã được sử dụng rộng rãi ở nhiều nước phát triển trong hơn ba thập kỷ qua AQI nhanh chóng phổ biến thông tin chất lượng không khí trong thời gian thực
1.4.1 Phương pháp tính AQI
Để tính AQI, các yếu tố không khí cơ bản như khí ozone, khí độc, khí amoni, khí trực khuẩn, khí phai, khí lang… Tất cả các yếu tố được xếp hạng dựa trên các mức độ nguy hiểm đối với sức khỏe và chỉ số AQI được tính toán dựa trên các giá trị của các yếu tố không khí Điểm AQI cao là biểu hiện của sự ô nhiễm không khí nghiêm trọng
Khảo sát chất lượng không khí của các quốc gia khác nhau được thực hiện bằng cách sử dụng các thang điểm khác nhau Ví dụ, Mỹ sử dụng thang điểm
500, trong đó, giá trị từ 0 đến 50 được xem là tốt, trong khi giá trị 301 đến 500 được xem là nguy hiểm Ấn Độ cũng sử dụng thang điểm 500 Trong mỗi ngày, các chất ô nhiễm chính được đo lường, và các chỉ số này được chuyển đổi thành giá trị AQI riêng biệt cho mỗi chất gây ô nhiễm bằng cách sử dụng các công thức tiêu chuẩn Độ AQI cao nhất trong số đó được báo cáo là độ AQI hàng ngày 1.4.2 Danh mục chỉ số chất lượng không khí
Bảng 1.1 Chỉ số chất lượng không khí
Đạt yêu cầu (51–
Ô nhiễm vừa phải
Trang 251.4.3 Mục tiêu của Chỉ số chất lượng không khí (AQI)
So sánh điều kiện chất lượng không khí tại các thành phố khác nhau, AQI giúp phân tích sự thay đổi từ cải thiện hoặc suy thoái, giúp thông báo cho công chúng về điều kiện môi trường, cũng như xác định các tiêu chuẩn bị lỗi và các chương trình giám sát không đầy đủ AQI cũng có lợi ích đặc biệt cho những người bị bệnh trầm trọng hơn do ô nhiễm không khí
1.5 Chất lượng không khí và vấn đề dự báo
1.5.1 Chất lượng không khí và ảnh hưởng đến sức khỏe
Mức độ rủi ro của chất lượng không khí đối với sức khỏe người và hệ sinh thái đã được quan tâm rộng rãi trên thế giới, trong đó có Việt Nam Theo tổ chức
Y tế Thế giới, gần 7 triệu ca tử vong trong năm 2012 đều có liên quan đến ô nhiễm không khí, chiếm 10% trong số các ca tử vong do tất cả các nguyên nhân [11] Trong đó, có khoảng 9% do nguyên nhân ung thư phổi, 17% do các bệnh phổi mạn tính, 30% do các nguyên nhân như bệnh tim, thiếu máu cục bộ và đột quỵ liên quan đến ô nhiễm không khí, và 9% do nhiễm trùng đường hô hấp
Chất lượng không khí, thường được liên kết với thành phần hóa học của khí quyển, đặc biệt là bụi, O3, NO2, các hợp chất hữu cơ dễ bay hơi, CO và SO2
có độ nguy hiểm cao đối với sức khỏe Nhiều nghiên cứu dịch tễ học tại Hồng Kông và Đài Loan đã chỉ ra rằng sự gia tăng nồng độ của O3, NO2, SO2 và PM2.5
có thể gây ra tăng số ca nhập viện do các nguyên nhân hen và viêm phổi Một kết quả nổi bật được báo cáo bởi Di và cộng sự [12] nghiên cứu trên hơn 60 triệu người thụ hưởng bảo hiểm y tế (Medicare) tại Mỹ trong khoảng 2000 đến 2012 cho thấy, mỗi 10 μg/m3 tăng trong nồng độ của PM2.5 có thể khiến tỷ lệ tử vong tăng lên 7,3%, trong khi đó nếu nồng độ của O3 tăng lên 10 ppb thì tỷ lệ tử vong
sẽ tăng lên 1,1% Bên cạnh đó, một phân tích tổng hợp được thực hiện tại nhiều thành phố của Trung Quốc [13] cũng cho thấy mỗi khi nồng độ của PM2.5 tăng lên 10 μg/m3 thì tỷ lệ tử vong do các nguyên nhân sẽ tăng lên 0,38%; tăng 0,51%
tỷ lệ tử vong do các bệnh liên quan đến hô hấp và tăng 0,44% tỷ lệ tử vong do các bệnh tim mạch Đồng thời, gia tăng nồng độ của SO2, NO2 và O3 lên 10
3
Trang 26Khi nồng độ CO tăng lên 1mg/m3 (1000 μg/m3), nghiên cứu đã thấy tỷ lệ
tử vong do tất cả các nguyên nhân tăng 3,7%, do bệnh tim mạch tăng 4,77% Nghiên cứu tại Hồ Chí Minh cũng cho thấy sự liên quan giữa diễn biến của nồng
độ chất ô nhiễm và số ca nhập viện do bệnh liên quan đến hô hấp Khi nồng độ của PM10, NO2 và SO2 tăng lên 10 μg/m3, tỷ lệ tăng ca nhập viện do hô hấp tăng lên 0,7%, 8% và 2% tương ứng [14] Trong báo cáo [15], nghiên cứu phát hiện nồng độ PM10 vượt quá quy chuẩn của Tổ chức Y tế Thế giới trong 79% thời gian nghiên cứu Nhóm đối tượng nhạy cảm hơn cả với CLKK là những người già và trẻ em Nghiên cứu tại Hà Nội cho thấy, khi nồng độ O3 tăng lên 86 μg/m3,
tỷ lệ ra viện của bệnh nhi mắc các bệnh hô hấp giảm 5%, trong khi, với PM10 là 61,5 μg/m3 thì tỷ lệ ra viện giảm 6% Điều này cho thấy, nếu công tác dự báo CLKK được thực hiện tốt, người dân sẽ có thể chủ động làm giảm sức ảnh hưởng của ô nhiễm không khí đến sức khỏe Các cơ quan cũng có thể thiết lập các chính sách và chiến lược quản lý CLKK hiệu quả hơn
1.5.2 Dự báo chất lượng không khí
Qua những năm gần đây, các tác động tiêu cực của ô nhiễm không khí đối với sức khỏe con người và môi trường đã trở nên càng rõ rệt Theo [11], [13], tiếp xúc với nồng độ cao của ô nhiễm không khí có thể gây ra các phản ứng cấp tính như kích ứng thị giác, da, khó thở và nặng hơn có thể là tử vong Nếu tiếp xúc trong thời gian dài (phơi nhiễm mạn tính), có thể làm tổn thương hệ miễn dịch, suy giảm miễn dịch và dẫn đến nặng hơn như bệnh tim mạch và bệnh ung thư Ngoài ra, ô nhiễm không khí còn ảnh hưởng xấu đến hệ sinh thái tự nhiên [16], [17] Bởi vậy, nhiều cơ quan hữu trách đã phát triển các hệ thống dự báo CLKK để dự báo nồng độ các chất ô nhiễm quan trọng như O3, NO2, PM2.5 và
PM10 [18], [19] [Những thông tin này được sử dụng để đưa ra các cảnh báo sớm
về CLKK để cảnh báo người dân về việc phòng tránh tổn thương do ô nhiễm không khí gây ra Ngoài ra, các mô hình dự báo CLKK cũng tạo ra các lợi ích kinh tế và xã hội lớn bằng cách giúp xây dựng các chiến lược giảm thiểu ô nhiễm không khí
Trang 27CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về hồi quy tuyến tính
2.1.1 Khái niệm
Phân tích hồi quy là nghiên cứu mối liên hệ phụ thuộc của một biến (gọi
là biến phụ thuộc) vào một hay nhiều biến khác (gọi là các biến độc lập), với ý tưởng ước lượng hoặc/và dự đoán giá trị trung bình (tổng thể) của các biến phụ thuộc trên cơ sở các biến độc lập (dựa trên mẫu)
Hồi quy tuyến tính định lượng mối quan hệ giữa một hoặc nhiều biến dự đoán và một biến kết quả Hồi quy tuyến tính thường được sử dụng để phân tích
và mô hình hóa dự đoán
Ví dụ: nó có thể được sử dụng để định lượng các tác động tương đối của tuổi tác, giới tính và chế độ ăn uống (các biến dự đoán) đối với chiều cao (biến kết quả) Hồi quy tuyến tính còn được gọi là hồi quy bội , hồi quy đa biến , bình phương nhỏ nhất thông thường và hồi quy
Biến độc lập cũng là biến dự đoán hoặc biến giải thích không thay đổi do
sự thay đổi của các biến khác Tuy nhiên, biến phụ thuộc thay đổi theo biến động của biến độc lập Mô hình hồi quy dự đoán giá trị của biến phụ thuộc, là biến phản hồi hoặc biến kết quả đang được phân tích hoặc nghiên cứu
Do đó, hồi quy tuyến tính là một thuật toán học có giám sát mô phỏng mối quan hệ toán học giữa các biến và đưa ra dự đoán cho các biến số hoặc liên tục như doanh số, tiền lương, tuổi tác, giá sản phẩm, v.v
Phương pháp phân tích này thuận lợi khi có ít nhất hai biến trong dữ liệu, như được quan sát thấy trong dự báo thị trường chứng khoán, quản lý danh mục đầu tư, phân tích khoa học, v.v
Hồi quy tuyến tính là một thuật toán cung cấp mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc để dự đoán kết quả của các sự kiện trong tương lai Đây là một phương pháp thống kê được sử dụng trong khoa học dữ liệu và học máy để phân tích dự đoán
Trang 28Ví dụ : Dự đoán bệnh của bệnh nhân dựa vào thông tin chiều cao, cân nặng, tuổi
Bảng 2.1 Danh sách bệnh nhân tiểu đường DANH SÁCH BỆNH NHÂN TIỂU ĐƯỜNG
2.1.2 Bản chất của thuật toán
Hình 2.1 Bản chất hồi quy tuyến tính
Ta cần tìm ra mối quan hệ giữa các cặp (xi,yi) để dự đoán giá trị y của điểm dữ liệu x mới Để làm điều này ta cần tìm được quan hệ giữa (xi,yi) để từ đó
Trang 29đưa ra được dự đoán Trong trường hợp này, ta cần vẽ được một đường thể hiện quan hệ trong tập dữ liệu
2.2 Lợi ích chính của hồi quy tuyến tính
Hồi quy tuyến tính là một công cụ thống kê phổ biến được sử dụng trong khoa học dữ liệu, nhờ một số lợi ích mà nó mang lại, chẳng hạn như:
2.2.1 Dễ dàng thực hiện
Mô hình hồi quy tuyến tính dễ thực hiện về mặt tính toán vì nó không đòi hỏi nhiều chi phí kỹ thuật, kể cả trước khi khởi chạy mô hình cũng như trong quá trình bảo trì mô hình
2.2.2 Khả năng giải thích
Không giống như các mô hình học sâu khác, hồi quy tuyến tính tương đối đơn giản Kết quả là, thuật toán này vượt trội so với các mô hình black-box có nhược điểm trong việc chứng minh biến đầu vào nào khiến biến đầu ra thay đổi 2.2.3 Khả năng mở rộng
Hồi quy tuyến tính không nặng về mặt tính toán và do đó, rất phù hợp trong các trường hợp cần mở rộng quy mô Ví dụ: mô hình có thể mở rộng quy
mô tốt liên quan đến khối lượng dữ liệu tăng lên (dữ liệu lớn)
2.2.4 Tối ưu cho mô hình trực tuyến
Tính dễ tính toán của các thuật toán này cho phép chúng được sử dụng trong cài đặt trực tuyến Mô hình có thể được train và retrain với từng ví dụ mới
để tạo ra dự đoán trong thời gian thực, không giống như mạng nơron hoặc thuật toán Support Vector Machine hỗ trợ nhiều tính toán và yêu cầu nhiều tài nguyên máy tính cũng như thời gian chờ đợi đáng kể để retrain tập dữ liệu mới Tất cả những yếu tố này làm cho các mô hình tính toán chuyên sâu như vậy trở nên đắt
đỏ và không phù hợp với các ứng dụng thời gian thực
2.3 Vẽ đường hồi quy
Một đường tuyến tính thể hiện mối quan hệ giữa các biến phụ thuộc và biến độc lập được gọi là đường hồi quy Một đường hồi quy có thể hiển thị hai loại mối quan hệ:
Trang 302.3.1 Mối quan hệ tuyến tính thuận
Trang 31Các giá trị khác nhau cho trọng số hoặc hệ số của các đường (a0, a1) đưa ra một đường hồi quy khác, vì vậy chúng ta cần tính toán các giá trị tốt nhất cho 0 và 1 để tìm đường phù hợp nhất, vì vậy để tính toán giá trị này, chúng ta sử dụng hàm chi phí
2.5 Chức năng ước lượng
Các giá trị khác nhau cho trọng số hoặc hệ số của các đường (a0, a1) tạo ra các đường hồi quy khác nhau và hàm chi phí được sử dụng để ước tính các giá trị của hệ số cho đường phù hợp nhất
Hàm chi phí tối ưu hóa các hệ số hoặc trọng số hồi quy Nó đo lường hiệu suất của một mô hình hồi quy tuyến tính
Đối với phương trình tuyến tính trên, MSE có thể được tính như sau:
2.6 Gradient Descent
Độ dốc gốc được sử dụng để giảm thiểu MSE bằng cách tính toán độ dốc của hàm chi phí Mô hình hồi quy sử dụng độ dốc gốc để cập nhật các hệ số của
Trang 32đường bằng cách giảm hàm chi phí Nó được thực hiện bằng cách lựa chọn ngẫu nhiên các giá trị của hệ số và sau đó cập nhật lặp lại các giá trị để đạt được hàm chi phí tối thiểu
Để dùng kỹ thuật Gradient Descent ta cần nhắc lại hàm lỗi (cost) ở trên, thì hàm lỗi này chính là khoảng cách giữ các điểm với đường thẳng ta cần dự đoán hàm này càng gần giá trị min thì càng tốt vì khi đấy đường thẳng chúng ta tìm được sẽ là đường thẳng tương đối chính xác Để tìm được giá trị min của hàm lỗi ta cần đạo hàm hàm lỗi này và tìm giá trị cực tiểu của hàm
- H(x0) làm đường thằng cần dự đoán
- m là tổng số feature
Lúc đầu ta sẽ chọn ngẫu nhiên số α thay vào J(α)’ để biết được tại thời điểm α là hàm lỗi J(α) đang tăng hay giảm để các vòng lặp sau tăng hay giảm α
Hình 2.4 Chọn α trên j(α)’
Giá trị α tiếp theo sẽ phụ thuộc vào giá trị learning rate Learning rate là giá trị chênh lệch giữa 2 α Nếu như giá trị learning rate quá lớn thì khi α giảm sẽ qua khỏi điểm cực trị sẽ không được giá trị như mong muốn
Trang 33Hình 2.5 Với giá trị learning rate cao Nếu như giá trị learning rate quá bé thì vòng lặp sẽ hoạt rất lâu tốn rất nhiều tài nguyên của máy
Hình 2.6 Với giá trị learning rate thấp Cho nên chọn learning rate là rất quan trọng với một tập dữ liệu lớn Sau mỗi lần train lại thì hàm lỗi sẽ giảm cho đến 1 giá trị gần bằng 0
Trang 34Mỗi lặp là sẽ có 1 α mới suy ra sẽ có 1 đường thằng dự đoán mới Càng về sau sẽ càng hội tụ lại
Hình 2.8 Mỗi α là một đường thẳng dự đoán mới 2.7 Hiệu suất mô hình
Mức độ phù hợp xác định mức độ phù hợp của đường hồi quy với tập hợp các quan sát Quá trình tìm kiếm mô hình tốt nhất trong số các mô hình khác nhau được gọi là tối ưu hóa Nó có thể đạt được bằng phương pháp R dưới đây:
o R-squared là một phương pháp thống kê xác định mức độ phù hợp
o Nó đo lường sức mạnh của mối quan hệ giữa các biến phụ thuộc và biến độc lập trên thang điểm từ 0-100%
o Giá trị cao của R-square xác định sự khác biệt ít hơn giữa giá trị dự đoán và giá trị thực tế và do đó đại diện cho một mô hình tốt
o Nó còn được gọi là hệ số xác định, hoặc hệ số xác định bội cho hồi quy bội
o Nó có thể được tính từ công thức:
2.8 Các giả định về hồi quy tuyến tính
Dưới đây là một số giả định quan trọng của Hồi quy tuyến tính Đây là