Đồ án tốt nghiệp đại họcLỜI CẢM ƠN Đồ án tốt nghiệp với Đề tài “Nghiên cứu các thuật toán học máy và ứng dụng trong dựbáo cháy rừng” là kết quả của quá trình có gắng không ngừng nghỉ của
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THÔNG
KHOA CÔNG NGHỆ THÔNG TIN I
DE TÀI:
“NGHIÊN CỨU CÁC THUẬT TOÁN HỌC MÁY VÀ
ỨNG DỤNG TRONG DỰ BÁO CHÁY RỪNG”
Giảng viên hướng dẫn: TS NGUYÊN ĐÌNH HÓA Sinh viên thựchiện : KIEU THỊ NGỌC BÍCH
D17CNPM4
2017 — 2022
ĐẠI HOC CHÍNH QUY
HA NỘI - 12/2021
Trang 2HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THÔ
KHOA CÔNG NGHỆ THONG TIN I
(os
DO AN
DE TAI:
“NGHIEN CUU CAC THUAT TOAN HOC MAY VA
UNG DUNG TRONG DU BAO CHAY RUNG”
Giang viên hướng din: TS NGUYEN ĐÌNH HOA Sinh viên thựchiện : KIEU THỊ NGỌC BICH
D17CNPM4
2017 — 2022
DAI HOC CHINH QUY
HÀ NỘI - 12/2021
Trang 3Đồ án tốt nghiệp đại học
LỜI CẢM ƠN
Đồ án tốt nghiệp với Đề tài “Nghiên cứu các thuật toán học máy và ứng dụng trong dựbáo cháy rừng” là kết quả của quá trình có gắng không ngừng nghỉ của bản thân và được sựgiúp đỡ tận tình, động viên khích lệ của thầy cô, bạn bè và người thân Qua đây, Em xin gửilời cảm ơn chân thành đến những người đã giúp đỡ em trong thi gian học tập — thực hiện đồ
án tốt nghiệp vừa qua
Đầu tiên, em xin gửi lời cảm ơn sâu sắc đến quý thầy cô trong khoa Công nghệ thôngtin Học viện Công nghệ Bưu chính Viễn thông đã tâm huyết dạy dỗ, truyền đạt những kiếnthức quý báu cho chúng em trong suốt 4.5 năm đại hoc dé em có được những kiến thức chuyênmôn day đủ về ngành nghề về Công nghệ thông tin Những kiến thức được tiếp thu trong suốtquá trình học tập tại trường không chỉ giúp em hoàn thành tốt đồ án tốt nghiệp được giao màcòn là hành trang quý báu dé em có thé tự tin khi ra trường làm việc
Đặc biệt, em xin trân trọng cảm ơn thầy giáo TS.Nguyễn Đình Hóa - người đã trực
tiếp tận tình hướng dẫn cũng như cung cấp tài liệu, thông tin khoa học cần thiết cho bài luậnnày lời cảm ơn chân thành và sâu sắc nhất Xin cảm ơn lãnh đạo, ban giám hiện cùng toàn thé
các thầy cô giáo Học viện Công nghệ Bưu chính Viễn thông khoa Công nghệ thông tin I đã
tạo điêu kiện cho em hoàn thành tôt đô án của mình.
Do giới hạn kiên thức và khả năng lý luận của bản thân còn nhiêu thiêu sót và hạn chê,
kính mong sự chỉ dẫn và đóng góp của các Thay, Cô dé bài luận văn của tôi được hoàn thiện
hơn.
Lời cuôi cùng, em xin kính chúc thây cô nhiêu sức khỏe, thành công và hạnh phúc.
Em xin chân thành cảm ơn!
Hà Nội, tháng 12 năm 2021
Sinh viên Bích
Kiều Thị Ngọc BíchKiều Thị Ngọc Bich - D17CNPM4 3
Trang 4Đồ án tốt nghiệp đại học
NHAN XÉT, ĐÁNH GIÁ, CHO DIEM
(Của giảng viên hướng dẫn)
Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm tốt nghiệp
¬ ,ngày tháng năm 2021
CÁN BỘ - GIANG VIÊN HUONG DAN
Kiều Thị Ngọc Bích - DI7CNPM4
Trang 5Đồ án tốt nghiệp đại học
NHAN XÉT, ĐÁNH GIÁ, CHO DIEM
(Của giảng viên phản biện)
Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm tốt nghiệp
¬ ,ngày tháng năm 2021
CÁN BỘ - GIANG VIÊN PHAN BIEN
Kiều Thị Ngọc Bích - DI7CNPM4
Trang 6Đồ án tốt nghiệp đại học
MỤC LỤC
LOT CẢM ƠN 2t 2 t2 H2 H222 2
DANH MỤC CÁC BANG VÀ HÌNH VẼ 2-5252 St E2 1221211211211 11 11111 8 DANH MỤC CÁC Ki HIỆU VÀ TỪ VIET TẮTT 2 2 EeEE£EE+EE+EeEEeEzErrxerxeree 9
CHUONG 1 TÌM HIỂU CAC THUAT TOÁN HỌC MAY TRONG PHAN LOẠI DU’
LIEU eee cccecceseceecseesececesessececscessecsecsessecsecssessesseceeeesessecseeesecaeceseeaesaeseeeesesaeseeeeaesaeed 12
1.1 Thuật toán Decision Tree Classification - - - cành re 12
1.1.1 Khái niệm Cây quyết định (Decision Tree) - << << <2 121.1.2 Thuật toán Cây quyết định - - +2 sSE+E9EE2E2E2EE121212121 21111111 1crxe, 131.1.3 Ưu điểm và hạn chế của cây quyết định - - 2 2+ +x+z++z+xezxerszrezed 18
1.2 Thuật toán Random Forest Classificafion - - 5à 2s re 19
1.2.1 Giới thiệu về Random FOres( - + tt St S338 EESESESEEEEEEEESESEEEEEEEErErkrsrsrez 191.2.2 Cách thức Random Forest hoạt đỘng - ¿+ 1S 1S + sikrssekree 191.2.3 Ưu điểm và nhược điểm của thuật toán Random FOrest - - - +s+szs+¿ 20
1.3 Thuật toán Kernel SVM - LG G 112111211 11H11 k1 TH HH kg ky 21
1.3.1 Giới thiệu về thuật toán SVM seeceesseecseecseecseessneeseeesnecsnecsneesneesneesneenneenneenees 211.3.2 Các ưu điểm và nhược điểm của SVM ou eeseesseesseesseecsteeseeseeesseesneesneennecsneenees 241.3.3 Ham {ca 241.3.4 Sử dụng Kernel với SVM sư 25 1.4 Thuật toán Naive Bayes - HH HT HS HH TH ng KH ky 27
1.4.1 Giới thiệu về thuật toán Naive Bayes - 2-5-5255 S2*+EcE2tcErkererkrrerees 27
1.4.2 Định lý Bayes - - HSH TH nH HH HH 27 1.4.3 Cách hoạt động của thuật toán Naive Bayes -. c TH sgk re 281.4.4 Ưu và nhược điểm của Naive Bayes - - 2c Se St 22t v2 29
CHƯƠNG 2 UNG DUNG HỌC MAY TRONG DU BAO CHAY RỪNG 31
2.1 Tổng quan về hiện trang cháy rừng hiện nay trên thé giới - 312.2 Tổng quan về hệ thống cảnh báo cháy rừng EWI - 25 scs+ccczxcrees 34
2.3 Các yếu tố thời tiết ảnh hướng đến cháy rừng , -2- 52 csccscezxereez 42
"NI 4+ 42Kiều Thị Ngọc Bich - D17CNPM4 6
Trang 7Đồ án tốt nghiệp đại học
2.3.2 Tốc độ giÓ 2c t2 21E212112121021211211121121111112111 1012111 g 442.3.3 Độ ẩm tương đối - - ¿2 SE EEE12111212121211111111 111111111 cce 47
"mm ae 48
2.4 Ứng dụng học máy trong dự báo cháy rừng - 2-2 s+2s+s+xezxezxzxees 49
CHUONG 3 CAC KET QUÁ THỰC NGHIỆM - 2 2©52+2S+2Ezxezxzrezxez 51
KP AA(( NOải i00) 51 3.2 Mô hình đánh giá thuật toan ccc ceccceseceneeeeeeeeeeeesseeenseeeeseeessaeensas 52 3.3 Thuc nghiệm trên tập dữ liệu - G 21112 1S 11911191 rệt 53 3.3.1 Thuật toán Decision Tree với thư viện Scikit-Learn - 55-5555 << 54
3.3.2 Thuật toán Random Forest (Rừng ngẫu nhiên) với Scikit-Learn - 57
3.3.3 Thuật toán Kernel SVM c cv 59 3.3.4 Thuật toán Naive BayeS HH HH ng và 633.4 Đánh gid và kết WAM occ ceccccccccsssessessssssscsessssecsessessssucsessssssessesusseeseesesseaess 65KET LUAN 02577 :-2II.Ã 69
TÀI LIEU THAM KHAO 5 E55 EEEE9EE*EEEEEEEEEEEEEEEEEETEEEEEEEEEEEEEEEEErkrtkerrted 70
Kiều Thị Ngọc Bich - D17CNPM4 7
Trang 8Đồ án tốt nghiệp đại học
DANH MỤC CÁC BANG VÀ HÌNH VE
DANH MỤC HÌNH ANH
Hình 1.1 Cấu trúc của cây quyết định ¿+ 2 +E+SSE+E£EE2EEEEEEEEEEEEEEEEEEEEEEcrrrrei 12
Hình 1.2 Cây quyết định về dự báo cháy rừng ở Lebanon dựa trên thời tiết năm 2012 17
Hình 1.3 Cách hoạt động của Random Forest - - < E211 11139511119 ve 19
Hình 2.1 Thảm hóa chảy rừng ở Amazon (2019) - 6 + 111993011 1199111 ng 31
Hình 2.2 Những đám cháy thiệt hai nặng nề nhât trong lịch sử c ccccscesccscesessesseseeseeseeeesee 33Hình 2.3 Cháy rừng dữ dội tai Algeria tháng 8 gây thiệt hại nghiêm trọng về người 34Hình 2.4 Cau trúc tinh toán chỉ số thời tiết cháy - ¿2 + 2+seSE+E£+E££EtEEtEzEerxereerees 36
Hình 2.5 FFMC, DMC, DC trong 1 mùa cháy năm 2015 55+ +5 s‡*++*s++seexesss2 38
Hình 2.6 Biểu d6 chỉ số cháy - - 2E SE 2E9EE212E121212121112121212111111111 1111 1x0 39Hình 2.7 Sơ đồ dé tính toán sáu thành phan tiêu chuẩn của hệ thống EWI 43Hình 2.8 Ảnh hưởng của nhiệt độ đến thảm thực vật 2-2-5 2 52+E+£zE+£zzxzeerxez 45Hình 2.9 Tốc độ gió theo độ gồ ghé của địa hình xung quanh -. 2 2s s+zs+s++: 46Hình 3.1 Giao diện trang web demo: gồm 10 thuộc tính nhãn va button “Predict” 67Hình 3.2 Giao diện trang web đlemO - - - < + + 1111991011119 ngà 67Hinh 3.3 Két qua du dan ÐHdddadadẦẦỒIẶIẶIẶIẶẶẶ 68
DANH MUC BANG
Bang 1.1 Các loại thuộc tíÍnhh - .- <1 133221111112 11 11119 111 19 TH Hà 16Bang 1.2 Một số mẫu điền hình thể hiện sự phân loại các thuộc tính ứng với thực tế l6Bang 1.3 Thống ké theo thuc tinh t8" 17Bang 2.1 Bảng xếp hạng chỉ số cháy cao và cực đoan - ¿5 + ++c2xez++zzxerxerserees 39Bảng 3.1 Đánh giá độ chính xác các thuật tOán - - <6 11321319 1191 kg rệt 65
Kiều Thị Ngọc Bich - D17CNPM4 8
Trang 9Đồ án tốt nghiệp đại học
DANH MỤC CÁC Ki HIỆU VA TỪ VIET TAT
Kí hiệu/ Chữ viết tắt Ý nghĩaBUI Chỉ số tích lũy
CFFDRS He thông Xếp hang nguy cơ cháy rừng
của Canada
DC Mã hạn hánDMC Mã độ ẩm DuffEMC Độ am cân bằngFEDC Mã nguy hiểm cháy rừngFEMC Mã độ 4m nhiên liệu mịnFWI Chỉ số thời tiết cháy
GFDC Ma nguy hiém chay coISI Chi sé lay lan ban dau
Trang 10Đồ án tốt nghiệp đại học
LOI MỞ DAU
Thuật ngữ hoc máy có lẽ không còn quá xa lạ với con người ngày nay bởi chúng đã
được sử dụng trên phạm vi toàn thế giới Hiện tai, Machine Learning đã đạt được rất nhiềuthành tựu to lớn và trở thành hướng nghiên cứu chính trong AI (trí tuệ nhân tạo).
Thuật toán học máy được chia thành 2 loại chính bao gồm: học có giám sát và học
không giám sát Học có giám sát là phương pháp sử dụng những dữ liệu được gán nhãn sẵn
dé suy luận ra quan hệ giữa đầu vào và đầu ra Sau khi tìm hiểu cách tốt nhất dé mô hình hóacác mối quan hệ cho dữ liệu được gán nhãn, thuật toán huấn luyện sẽ được sử dụng cho các
bộ dữ liệu mới Ung dụng của học có giám sát chính là giúp xác định tín hiệu tốt nhất dé dựbáo xu hướng, lợi nhuận trong tương lai trong lĩnh vực cổ phiếu, chứng khoán Một vài giảithuật phổ biến trong Supervised Learning: Linear Regression, Logistic Regression, RandomForest, Decision Tree (bài toán hồi quy) và Random Forest, Support Vector, Decision Tree(bài toán phân loại) Học không giám sát sử dụng những dữ liệu chưa được gán nhãn sẵn dé
suy luận va tim cách dé mô ta dit liệu cùng cau trúc của chúng Ứng dụng của học không giám
sát đó là hỗ trợ phân loại thành các nhóm có đặc điểm tương đồng
Học máy ngày càng được ứng dụng rộng rãi, đa lĩnh vực trong thực tiễn cuộc sống con
người ngày nay Các bạn có thể dàng nhận thấy Machine Learning đang được sử dụng với
mục đích phân tích dữ liệu lớn dé có thé đưa ra những dự đoán xu hướng trong tương lai Ví
dụ như dự đoán kết quả bầu cử chính trị, dự đoán biến động của thị trường chứng khoán, hiệntượng cháy rừng, bệnh ung thư,
Dự báo cháy rừng là một thành phần chính của kiểm soát cháy rừng Đây là một vấn
đề môi trường lớn tạo ra sự tàn phá sinh thái dưới dạng cảnh quan tài nguyên thiên nhiên bị
đe dọa, phá vỡ sự ôn định của hệ sinh thái, làm tăng nguy cơ đối với các hiểm họa thiên nhiên
và làm suy giảm các nguồn tài nguyên như nước gây ra hiện tượng nóng lên toàn cầu và ô
nhiễm nguôn nước.
Phát hiện cháy là một yếu tố quan trọng dé kiểm soát các sự cố như vậy Dự báo cháyrừng dự kiến sẽ làm giảm tác động của cháy rừng trong tương lai Với sự phát triển nhanhKiều Thị Ngọc Bích - DI7CNPM4 10
Trang 11Đồ án tốt nghiệp đại học
chóng của công nghệ, nhiều hệ thống đã ra đời dé đưa ra cảnh báo sớm cho cháy rừng Có thé
kê đến như: hệ thống cảnh báo cháy rừng nhờ cảm biến (cảm biến nhiệt độ, cảm biến khói );
hệ thống cảnh báo cháy rừng thông qua vệ tinh; hệ thống cảnh báo cháy rừng phát hiện quavideo, hình ảnh từ camera quan trắc Tuy nhiên, với các bài toán có khối lượng dữ liệu lớn,nhiều đầu vào, độ chính xác dự báo của các mô hình thống kê vẫn còn hạn chế Gần đây, các
mô hình học máy đã được đề xuất cho cháy rừng do chúng làm việc tốt hơn với dữ liệu lớn,
có nhiều đầu vào Nhìn chung, độ chính xác của các mô hình học máy là tốt hơn các mô hình
thống kê Nhiều thuật toán phát hiện đám cháy có sẵn với các cách tiếp cận khác nhau đề phát
hiện dam cháy Đồ án được xây dựng với mục đích nghiên cứu và so sánh các mô hình họcmáy khác nhau dé dự đoán cháy rừng như Decision Tree, Random Forest, Kernel SVM vaNaive Bayes dựa trên các yếu tố thời tiết và một số chỉ số trong dự báo cháy như nhiệt độ,
mưa, gió và độ âm, mã độ âm, Từ kêt qua của đô án có thê đem lại
Đồ án “Nghiên cứu các thuật toán học máy và ứng dụng trong dự báo cháy rừng” đượcxây dựng gồm 3 chương
Chương 1: Tìm hiểu các thuật toán học máy trong phân loại dit liệu
Chương 2: Ứng dụng học máy trong dự báo cháy rừng Chương 3: Các kết quả thực nghiệm
Phần Kết Luận
Trong chương 1 sẽ trình bày về các thuật toán học máy phục vụ bài toán phân loại làDecision Tree, Random Forest, Kernel SVM, Naive Bayes Trong chương 2 trình bày vé baitoán phát hiện cháy rừng và phương pháp sử dung dé phát hiện cháy rừng Tiếp theo ở
chương 3 trình bày các kết quả thực nghiệm, đánh giá và so sánh các kết quả đạt được Cuốicùng phần kết luận tong hop lai các nội dung da dat được trong đồ án, nêu nhận xét về các
ưu và nhược điểm về phương pháp, về kết quả thực nghiệm Cuối cùng phan kết luận sẽ nêuđịnh hướng phát triển nội dung của đồ án
Kiều Thị Ngọc Bích - DI7CNPM4 11
Trang 12Đồ án tốt nghiệp đại học
CHUONG 1 TÌM HIỂU CÁC THUẬT TOÁN HỌC MAY TRONG
PHAN LOẠI DU LIEU
Ngày nay phân loại dữ liệu (classification) là một trong những hướng nghiên cứu chínhcủa khai phá dữ liệu Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin củacon người có thé trích rút ra các quyết định nghiệp vụ thông minh.Phân lớp và dự đoán là hai
dạng của phân tích dữ liệu nhằm trích rút ra một mô hình nhằm mô tả các lớp dữ liệu quan
trọng hay dự đoán xu hướng dữ liệu tương lai Bài toán phân loại dữ liệu là quá trình phân lớp
một đối tượng đữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp (model)
Mô hình này được xây dựng dựa trên một tập dữ liệu được xây dựng trước đó có gán nhãn(hay còn gọi là tập huấn luyện) Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữliệu.
Như vậy, nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phan lớp dé khi có
dữ liệu mới thì có thé xác định được dữ liệu đó thuộc vào phân lớp nào Có nhiều bài toán
phân lớp dữ liệu như phân lớp nhị phan (binary), phân lớp đa lớp (multiclass), phân lớp da tri.
Ứng dụng của bài toán này được sử dụng rất nhiều và rộng rãi trong thực tế ví dụ như
bài toán nhận dạng khuôn mặt, nhận diện giọng nói, phát hiện email spam
Và đối với các bài toán phân lớp đữ liệu chúng ta sử dụng các thuật toán học có giám
sát (supervised learning) dé xây dựng mô hình cho bài toán này Sau đây chúng ta sẽ tìm hiểu
khái quát về các thuật toán phân loại trong học máy
1.1 Thuật toán Decision Tree Classification
1.1.1 Khái niệm Decision Tree (Cây quyết định)
Decision Tree (Cây quyết định) là một kỹ thuật học có giám sát có thể được sử dụngcho cả bài toán phân loại và bài toán hồi quy, nhưng chủ yếu nó được ưu tiên hơn dé giải cácbài toán phân loại Nó là một bộ phân loại có cấu trúc cây, trong đó các nút bên trong đại diệncho các tính năng của tập dữ liệu, các nhánh biểu thị các quy tắc quyết định và mỗi nút lá đại
diện cho kết quả
Kiều Thị Ngọc Bích - DI7CNPM4 12
Trang 13Đồ án tốt nghiệp đại học
Trong cây quyết định, có hai nút, đó là Nút quyết định (Decision Node) và Nút lá (LeafNode) Các nút quyết định được sử dụng dé đưa ra bất kỳ quyết định nào và có nhiều nhánh,trong khi nút lá là đầu ra của các quyết định đó và không chứa bất kỳ nhánh nào khác
Tóm lại, cho dit liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của
nó, cây quyết định sẽ sinh ra các luật dé dự đoán lớp của các dữ liệu chưa biết
Hình dưới đây minh họa cấu trúc của cây quyết định
Tree
Sub-Leaf Node Sub-Leaf Node Leaf Node
Leaf Node Leaf Node
Hình 1.1.1.1 Cấu trúc của cây quyết địnhCác nút và các nhánh được cấu tạo từ mỗi cây Mỗi nút đại điện cho mỗi thuộc tínhtrong một lớp được phân loại và mỗi tập con xác định một giá trị mà nút có thé nhận Do phântích đơn giản và độ chính xác của chúng trên nhiều dạng dữ liệu, cây quyết định đã tìm thấynhiều trường triển khai
1.1.2 Thuật toán Decision Tree
1.1.2.1 Thuật toán ID3
Đề xây dựng cây quyết định với thuật toán ID3 trước tiên cần xác định thứ tự của thuộctính cần được xem xét tại mỗi bước Trong trường hợp đối tượng có nhiều thuộc tính và mỗi
thuộc tính có nhiều giá trị khác nhau thì việc xác định thứ tự tối ưu nhất của các thuộc tính
thường là rất khó Vì vậy, dé đơn giản ý tưởng của ID3 như sau:
'WhileQ:
Bước 1: Chon A © thuộc tính quyết định “tốt nhất” cho nút kế tiếpKiều Thị Ngọc Bích - DI7CNPM4 13
Trang 14Đồ án tốt nghiệp đại học
Bước 2: Gán A là thuộc tính quyết định cho nút
Bước 3: Với mỗi giá trị của A, tạo nhánh con mới của nút
Bước 4: Phân loại các mẫu huấn luyện cho các nút lá
Bước 5: Nếu các mẫu huấn luyện được phân loại hoàn toàn thì NGUNG,
Ngược lai, lặp với các nút lá mớThuật toán ID3 xây dựng cây quyết định được trình bày như sau:
* Với:
- decisionTree là biến chứa tập Nodes củ a cây quyết định.
- Values_Attribute là biến chứa gia trị củ a các Attribute.
- Attribute là biến lưu tên các Attribute(Các mẫu huấn luyệ n).
Function DecisionTree (decisionTree, Values_Attribute, Attribute)
{
- Tinh Gain củ a các Attribute dé tim ra Attributei có Gain lớn nhất
(thuéc tính có lợi nhất) Gan Attributei là thuộ c tính quyết định cho nut.
+ Add node Attributei vào decisionTree: decisionTree.name = Attribute[i]; + Khởi tao list<node> trong decisionTree: decisionTree.arrnodes = new list<node>
- Xét tất cả giá trị (Values_Attribute) của Attributei, nếu giá trị j nào có mẫu
là node lá thì:
+ decisionTree.arrNodes[J].name = Value_Attribute[i] [j].name;
+ decisionTree.arrNodes[j].value = giá tri mẫu củ a giá trị thuộ c tính Attributei
- Nếu tất cả các giá trị (Values_Attribute) của Attributei đều có mẫu là node
lá => Return cây quyết định
decisionTree Ngược lại, nếu giá trị có mẫu là node cành (nút nộ i bộ) thì
tiếp tục từ giá trị của Attribute
j có node cành tìm kiếm nút có thuộ c tính quyết định[Tìm Attribute mới có
Gain lớn nhất trong tập
Kiều Thị Ngọc Bích - DI7CNPM4 14
Trang 15Nhu vay, dé thuật toán ID3 thực hiện được, cần phải xác định được thứ tự chọn cácthuộc tính và chọn được thuộc tính quan trọng nhất cho việc phân lớp với nút đó Tham sỐđược sử dụng dé xác định thuộc tính phân loại tốt nhất cho mỗi bước là Information Gain
1.1.2.2 Entropy va Information GainEntropy là thuật ngữ thuộc Nhiệt động lực hoc, là thước đo của sự biến đổi, hỗn loan
hoặc ngẫu nhiên Năm 1948, Shannon đã mở rộng khái niệm Entropy sang lĩnh vực nghiên
cứu, thông kê với công thức như sau:
Cc
Entropy (S) = — » Dilog2 Di
í=1
Trong đó p¡ là tỷ lệ các đối tượng trong tập S thuộc vào lớp I, và 0*loga0 = 0
- Entropy = 0 nếu tất cả các đối tượng đều thuộc cùng một lớp
- Entropy = 1 nếu các đối tượng thuộc vào các lớp có số lượng như nhau
- Entropy € (0,1) nếu các đối tượng thuộc vào các lớp khác nhau có số lượng
khác nhau.
Information Gain do mức độ giảm Entropy néu chi tap S theo các giá tri của thuộc tính
đó Information Gain của thuộc tính A đối với tập S được tính như sau:
Trang 16Đồ án tốt nghiệp đại học
bộ dữ liệu khí tượng năm 2012 (361 bản ghi) được sử dụng?!.
Sv={xÌx€ S và xa = v}
Một nghiên cứu điển hình về thuật toán Cây quyết định trong cảnh báo cháy rừng với
Bộ dữ liệu gồm 4 thuộc tính: nhiệt độ đo vào buổi trưa (T), độ âm tương đối (RH), tốc
độ gió (WS), lượng mưa trong 24 giờ (P).
Mỗi thuộc thuộc tính có 3 loại: thấp, trung bình và cao theo bảng 1 Quyết định sau đó
“E” biểu thị khả năng cháy cực cao và “NF” biéu thị khả năng xảy ra hỏa hoạn không thé đoán
Bang 1.1 Các loại thuộc tính
Một mẫu phân loại đơn giản được tìm thấy trong bảng 2
Nhiệt mec) khí | Độ + đôi Tốc độ gió ( ms) _ Kết quả
25,17 | Trungbình | 62 | Trung bình | 0,88 Thâp 0 Thâp Cháy
255 | Trungbình | 62 | Trung bình | 1,07 | Trungbinh| 0 Thấp | Không cháy
26,08 | Trung bình | 57 | Trung bình | 1,13 | Trungbình| 0 Thấp Cháy
25,23 | Trungbình | 60 | Trung bình | 1,18 | Trungbình| 0 Thâp | Không chay
25,07 | Trungbình | 52 | Trung bình | 0,52 Thâp 0 | Thap | Không cháy
25,02 | Trungbình | 63 | Trung bình | 1,03 | Trungbình| 0 Thấp Không cháy
30,16 Cao 56 | Trung bình | 1,32 | Trungbình| 0 Thấp Cháy
10,74 Thấp T7 Cao 3,7 Cao 8,3 Cao Không cháy
11,12 Thấp 82 Cao 4,1 Cao 18,9 | Cao Không cháy
11,47 Thâp 78 Cao 2/7 | Trungbình| 0 Thâp | Không cháy
Bang 1.2 Một sô mẫu điển hình thé hiện sự phân loại các thuộc tính ứng với kết quả thực tế
Dé vẽ cây quyết định chúng ta phải tìm thuộc tính root dé bắt đầu chia nhỏ Saukhi xem xét tat cả các trường hợp, chúng ta có thê kết luận ở bảng 3
T | Cháy Shave RH | Chay Shane WS | Chay Shan P | Chay Shae
Thấp |271| 3 | 268 | 38 | 8 30 |158| II | 147 |288| 25 | 263
prune 88 | 21 | 67 |125| 15 | 110 |112| 15 | 97 | 13] 0 13
Cao | 2 | 2 0 |198| 3 | 195 |91| 0 | 91 |60] 1 59
Kiều Thị Ngọc Bích - DI7CNPM4 l6
Trang 17Đồ án tốt nghiệp đại học
Bảng 1.3 Thống kê theo thuộc tínhLưu ý rằng năm 2012, 26 vụ cháy được phát hiện trong 361 ngày, do đó:
Entropy (S) = (—): (+ (=): (=) = 0.373425 METOPY Wo) = 361) °92\ 361) † (§ø1) 92 ger) | = 0:
Bây giờ chúng ta di tinh Entropy của nhiệt độ E Tenap (S),E Ttrưng bình (S), Er „(S):
Er (S) = (= )! (= )+ (=): (=) = 0,0878066 Tenap? = 271) ”92\271) ” (271) 592\271))—”
21 21 67 67
Tung pạn (9) = (=) logo (=) + (=) log (= 3) = 0,7927652
Er,„„(S) = ((5) loge (5) + (5) logs ()) =0
— Ex(S) = ((%) Erinip SD + (FE) Erinn inn S) + (52) En,„(S)) 361 = 0.259166
> Gain(S,T) = E(S) — Er(S) = 0,114259
Tuong tu:
Gain(S, RH) = E(S) — Epy(S) = 0,0498435 Gain(S, WS) = E(S) — Ews(S) = 0,0376338 Gain(S, P) = E(S) — Ep(S) = 0,0134699
Từ đó ta thay rằng Gain(S,T) là cao nhất và đó là gốc của cây quyết định
Trong giai đoạn 2, ta sẽ xem xét trường hợp SI có giá trị nhiệt độ thấp nhất ở bước 1.Bây giờ chúng ta có 3 trường hợp cháy trong số 271 E(S,) = 0,373425 Khi tính toán mứctăng, chúng ta thu được rang độ 4m tương đối có mức tăng cao nhất là:
Gain(S,,RH) = E(S1)T— Enu(S¡) = 0,2934059 Gain(S,,WS) = E(S,) — Eus(S,) = 0,2922296
Sau đó các trường hợp S; va Sz được tính tương tự Cũng trong lần này, độ âm tương
đôi được cho là có mức tăng cao nhât.
Kiều Thị Ngọc Bích - DI7CNPM4 17
Trang 18các biến mục tiêu thông qua các quy định học được suy ra từ dữ liệu đào tạo Thuật toán DT
có thé được sử dung dé giải các bài toán hồi quy và phân loại, tuy nhiên nó cũng có ưu điểm
và hạn chê
1.1.3.1 Uu diễn
Có một số lợi thé của việc sử dụng cây quyết định dé phân tích và dự đoán
— Cây quyết định có thể được sử dụng dự đoán cả giá trị liên tục và giá trỊ rời rạc,
tức là chúng hoạt động tốt cho cả nhiệm vụ hồi quy và phân loại
— Chúng đòi hỏi ít nỗ lực hơn dé dao tạo thuật toánKiều Thị Ngọc Bích - DI7CNPM4 18
Trang 19Một sô nhược điêm của thuật toán Decision Tree
— Khó giải quyết được những vấn đề có dữ liệu phụ thuộc thời gian liên tục
— Dễ xảy ra lỗi khi có quá nhiều lớp chi phí tính toán để xây dựng mô hình cây
quyết định CAO.
1.2 Thuật toán Random Forest Classification
1.2.1 Giới thiệu về Random Forest
Random Forest là một loại thuật toán học máy có giám sát dựa trên ensemble learning.Emsemble learning là một kiểu học mà bạn kết hợp nhiều loại thuật toán khác nhau hoặc cùng
một thuật toán nhiều lần dé tạo thành một mô hình dự đoán mạnh mẽ hơn Thuật toán Random
Forest kết hợp nhiều thuật toán cùng loại, tức là nhiều cây quyết định để tạo ra một rừng cây,
do đó có tên là “Random Forest” (rừng ngẫu nhiên) Thuật toán Random Forest có thể sử dụng
cho cả bài toán hồi quy và phân loại
1.2.2 Cách thức Random Forest hoạt động.
Mã giả cho hoạt động của Random Forest:
Chọn ngẫu nhiên “k” features từ tập “m” features (k << m)
Từ tập “k” features, tính toàn ra node “d” là tốt nhất cho Node phan loai
._ Chia các node con theo node tốt nhất vừa tim được
Lap lại bước 1-3 cho đến khi đạt k node
1.
2
3
4
5 Lap lại bước 1-4 dé tao ra “n” cay
Dé biểu diễn dự đoán sử dụng Random Forest đã huấn luyện, ta sử dụng các bước bêndưới:
1 Lay các test features và sử dụng các Cây quyết định đã tạo ra dé dự đoán kết
quả, lưu nó vào một danh sách.
2 Tính toán số lượng vote trên toàn bộ Forest cho từng kết quả
3 Lay kêt quả cho sô lượng vote lớn nhat làm kêt quả cuôi cho minh.
Kiều Thị Ngọc Bích - DI7CNPM4 19
Trang 20Hình 1.1.2.1 Cách hoạt động cua Random Forest
1.2.3 Uu điểm và nhược điểm của thuật toán Random Forest
Như bắt kỳ thuật toán nào, có những ưu điểm và nhược điểm khi sử dụng nó Trong
hai phần tiếp theo chúng ta sẽ xem xét ưu và nhược điểm của việc sử dụng rừng ngẫu nhiên
dé phân loại và hỗồi quy
1.2.3.1 Uu điểm
Thuật toán Random Forest không sai lệch vì có nhiều cây và mỗi cây được huấn luyệntrên mỗi tập con dữ liệu Về cơ bản, thuật toán Random Forest dựa vào sức mạnh của “đám
đông”; do đó sự chênh lệch về tổng thé được giảm xuống
Thuật toán này rất ôn định Ngay cả khi một điểm đữ liệu mới được đưa vào tập dữ
liệu, thuật toán tổng thé không bị ảnh hưởng nhiều vì dữ liệu mới có thể ảnh hưởng đến một
cây, nhưng rât khó đê nó tác động đên tât cả các cây.
Thuật toán Random Forest hoạt động tốt ngay trong cả bài toán phân loại và hồi quy
Kiều Thị Ngọc Bich - D17CNPM4 20
Trang 21Đồ án tốt nghiệp đại học
Thuật toán Random Forest cũng làm việc tốt khi dit liệu có bị thiếu giá trị hoặc nó chưađược chia tỷ lệ tốt
1.2.3.2 Nhược diễn
Một nhược điểm lớn của Random Forest nằm ở sự phức tạp của thuật toán Nó yêu cầu
nhiều tài nguyên tính toán hơn, do số lượng lớn các cây quyết định được kết hợp với nhau
Do độ phức tạp của chúng, chúng đòi hỏi nhiều thời gian để đào tạo hơn so với các
thuật toán tương đương khác.
1.3 Thuật toán Kernel SVM
13.1 Giới thiệu về thuật toán SVM
SVM là một thuật toán giám sát, nó có thé sử dụng cho cả việc phân loại hoặc đệ quy.Tuy nhiên nó được sử dụng chủ yếu cho việc phân loại Trong thuật toán này, chúng ta vẽ đồ
thị đữ liệu là các điểm trongn chiều ( ở đây n là sé lượng các tinh năng bạn có) với giá tri của
mỗi tính năng sẽ là một phần liên kết Sau đó chúng ta thực hiện tìm "đường bay" phân chiacác lớp Đường bay - nó chỉ hiểu đơn giản là 1 đường thang có thé phân chia các lớp ra thànhhai phần riêng biệt Cách hoạt động của thuật toán SVM
y
Support Vectors i sự
Support Vectors hiểu một cách đơn giản là các đối tượng trên đồ thị tọa độ quan sát,
SVM là một biên giới dé chia hai lớp tốt nhất
Mô hình toán học
Support Vector Machine không đưa ra kha năng output băng 1 như Logistic Regression,thay vào nó nó chỉ đơn thuần dự đoán output bằng 0 hay bang 1
Kiều Thị Ngọc Bích - DI7CNPM4 21
Trang 22Đồ án tốt nghiệp đại học
j= (1 khixTMw > 0
0 khixTw <0
Độ chính xác của phương trình giả thuyết
Trong Support Vector Machine, phan mat mát mỗi input đóng góp có dang hàm hinge
loss
0,k(1 — x? khiy=1
cost(x) = lv ( x w)) r ýmax(0,k(1 — xˆw)) khi y = 0
Với k là số dương bat kỳ
Khi y = 1, cost(x) = 0 nếu xŸw > 1 và cost(x) tăng dần nếu x'w < 1 và tiến tới âm vô
Trang 23O đây hăng sô C đóng vai trò như x là độ chính quy hóa của ham mat mát giúp kiêm
soát sai lầm của phương trình giả thuyết Khi xảy ra underfitting, ta cần tăng C Khi xảy raoverfitting, ta cần giảm C
Nghiệm của thuật toán Suport Vector Machine
Ta có thê tìm diém cực tiêu của ham mat mát băng thuật toán Gradient Descent với các biên đôi
Một đặc điểm của Support Vector Machine là nó luôn cố gắng tim nghiệm sao cho
Dicision Boundary cách xa các điểm dữ liệu nhất cho thé Trong hình dưới đây, thuật toán có
xu hướng chọn phương án A thay vì phương án B vì nó cách xa các điểm dữ liệu hơn Điều
này có thé dan tới overfitting và ta có thé làm giảm xu hướng này bang cách giảm C.
A B
Kiéu Thi Ngọc Bích - DI7CNPM4 23
Trang 24Đồ án tốt nghiệp đại học
Việc tìm nghiệm của thuật toán Support Vector Machine tương đối phức tạp nếu càiđặt thủ công Có rất nhiều thư viện đã được cài đặt sẵn Support Vector Machine và ta nêndùng chúng vì chắng những giúp tiết kiệm thời gian mà các thư viện đó còn được áp dụngnhiều kỹ thuật tối ưu hóa đề thuật toán chạy nhanh hơn
1.3.2 Các ưu điểm và nhược điểm của SVM
1.3.2.1 Uu điển
— Hiệu quả trên bộ dữ liệu có nhiều tinh năng, như dữ liệu tài chính hoặc y tế
— Hiệu quả trong trường hợp số lượng tính năng lớn hơn số lượng điểm dữ liệu
— Sử dụng một tập hợp con các điểm huấn luyện trong hàm quyết định được gọi
là vectơ hỗ trợ dé làm cho bộ nhớ hiệu quả
— Các chức năng nhân khác nhau có thê được chỉ định cho chức năng quyết định.
Bạn có thé sử dụng các nhân chung, nhưng cũng có thé chỉ định các nhân tùychỉnh.
13.2.2 Nhược điểm
— Nêu sô lượng tính năng lớn hơn rât nhiêu so với sô lượng điêm dữ liệu, thì việc
tránh trùng lắp khi chọn các hàm nhân và thuật ngữ chính quy là rất quan trọng
— SVM không trực tiếp cung cấp các ước tính xác suất Chúng được tính toán bằng
cách sử dụng xác nhận chéo năm lần đắt tiền
— Hoạt động tốt nhất trên các bộ mẫu nhỏ vì thời gian đảo tạo cao
Tính chất này dé đảm bảo cho việc hàm mục tiêu của bài toán đối ngẫu (5) là lôi
— Trong thực hành, có một vài hàm số k() không thỏa mãn điều kiện Merrcer
nhưng vẫn cho kết quả chấp nhận được Những hàm số này vẫn được gọi làKiều Thị Ngọc Bích - DI7CNPM4 24
Trang 25Đồ án tốt nghiệp đại học
kernel Trong bài viết này, tôi chỉ tập trung vào các hàm kernel thông dụng và
có săn trong các thư viện.
Nêu một hàm kernel thỏa mãn điêu kiện (7), xét Cy = VnÀn, ta Sẽ có:
A'KA = Đn=1 3 m=1 k(Xm.Xn)YnVmÂnÂn 2 0, Van (8)
với K là một ma trận đối xứng mà phan tử ở hang thir nn cột thứ mm của nó được định
nghĩa bởi: Kam = Yn¥mK(Xm Xn)
Từ (8) ta suy ra K là một ma trận nửa xác định dương Vi vậy, bài toán tối ưu (5) córàng buộc là lồi và hàm mục tiêu là một ham lỗi Vì vậy chúng ta có thé giải quyết bài toánnày một cách hiệu quả.
Trong bài viết này, tôi sẽ không đi sâu vào việc giải quyết bài toán (5) vì nó hoàn toàntương tự như bài toán đối ngẫu của Soft Margin SVM Thay vào đó, tôi sẽ trình bày các hàm
kernel thông dụng và hiệu năng của chúng trong các bài toán thực tế Việc này sẽ được thực
hiện thông qua các ví dụ và cách sử dụng thư viện sklearn.
1.3.4 Sử dụng Kernel với SVM
Lý do giúp Support Vector Machine trở nên mạnh mẽ khi so sánh với LogisticRegression là bởi nó hoạt động rất tốt khi áp dụng Kernel đề giải quyết các bài toán có dữ liệu
phân bố phức tạp! Mặc dù Kernel cũng có thé sử dụng với Logistic Regression nhưng
Support Vector Machine có nhiều phương pháp tối ưu cho Kernel hơn nên người ta thườngchỉ sử dụng Kernel với Support Vector Machine.
Khi các điểm dữ liệu phân bố phức tạp, dé tim Decision Boundary phù hợp ta phải thêmcác biến mới Tuy nhiên, nhược điểm của cách này là khó chọn ra bộ các biến phù hợp và tốnnhiều công sức dé thử nhiều phương án khác nhau
Ý tưởng cơ bản của Kernel SVM và các phương pháp kernel nói chung là tìm một phép
biến đổi sao cho dữ liệu ban đầu là không phân biệt tuyến tính được biến sang không gianmới Ở không gian mới này, dữ liệu trở nên phân biệt tuyến tính
Nói một cách ngắn gọn, Kernel SVM là việc đi tìm một hàm số biến đổi dữ liệu x từkhông gian feature ban đầu thành dữ liệu trong một không gian mới bằng hàm số ®(x) TrongKiều Thị Ngọc Bích - DI7CNPM4 25
Trang 26Đồ án tốt nghiệp đại học
ví dụ nay, hàm ®() đơn giản là giới thiệu thêm một chiều dữ liệu mới (một feature mới) là mộthàm số của các features đã biết Hàm số này cần thỏa mãn mục đích của chúng ta: trong khônggian mới, dữ liệu giữa hai classes là phân biệt tuyến tính hoặc gần như phân biệt tuyến tính.Khi đó, ta có thê dùng các bộ phân lớp tuyến tính thông thường như PLA, Logistic Regression,hay Hard/Soft Margin SVM.
Như trước đó đã đề cập đến việc sử dung hàm co bản ®(x) dé tạo đặc trưng cho tập dữ
liệu nhằm nâng được chiều của dữ liệu ban đầu Bằng các hàm cơ bản này, ta có thể tạo cácmặt cong phân tách cho phù hợp với các điểm dữ liệu không phân tách tuyến tính
Khi đó tôi ưu biên mêm được việt dưới dang:
Sao cho 0 < 4; SC YE, Ajy,0,i € [1,m]
Khi đó tham số tương ứng sẽ là:
we 3j>¡Äiy¡®(%¡)
1
b= IS = sgn (> Aiyi P(x)? P(x) + s)- = sgn (> Aivik (xj, x) + )
Như vậy, chỉ cần ham Kernel K(x, x) dé tính tích vô hướng giữa các điểm dữ liệu trong
không gian mới là ta có thê ước lượng được một điêm mới năm trong phân lớp nào.
Việc sử dụng hàm Kernel ở đây sẽ giúp giảm được công sô tính từng hàm ® và tích vô hướng giữa chúng Nó có thê tính được cho bât kì không gian nào rât hiệu quả Kê cả các không gian với sô chiêu vô hạn Bởi nó chỉ cân tính tích vô hướng giữa các diém dữ liệu màthôi Tất nhiên dé làm được điều đó thi Kernel phải thoả mãn điều kiện Mercer
Kiều Thị Ngọc Bích - DI7CNPM4 26
Trang 27X ian lIx—yll?
Keres) TÚ 16G) ng xã) vy eR
Sigmoid (Sigmoid | K(z,y) = tanh (ax'y + b),a,b > 0,Vx,y € R”
Kernels)
1.4 Thuật toán Naive Bayes
1.4.1 Giới thiệu về thuật toán Naive Bayes
Thuật toán Naive Bayes là một giải thuật thuộc lớp giải thuật thống kê, nó có thể dựđoán xác suất của một phần tử dữ liệu thuộc vào một lớp là bao nhiêu Phân lớp Bayes đượcxây dựng dựa trên định lý Bayes (định lý được đặt theo tên tác giả là Thomas Bayes), Thuật toán Naive Bayes là gì?
Thuật toán Naive Bayes là một ky thuật phân loại dựa trên định lý Bayes với giả định
về sự độc lập giữa các yếu tô dự đoán Nói một cách dễ hiểu, bộ phân loại Naive Bayes giả
định rằng sự hiện diện của một đối tượng cụ thé trong một lớp không liên quan đến sự hiệndiện của bất kỳ đối tượng định lý nào khác
Ví dụ, một quả có thê được coi là quả táo nêu nó có màu đỏ, tròn và đường kính khoảng
3 inch Ngay cả khi các đặc điêm này phụ thuộc vào nhau hoặc dựa trên sự tôn tại của các đặc điêm khác, tât cả các đặc tính này đêu góp phân độc lập vào xác suât quả này là táo và đó là
lý do tai sao nó được gọi là Naive'.
Mô hình Naive Bayes dé xây dựng va đặc biệt hữu ích cho các tập dữ liệu rất lớn Cùng
với sự đơn giản, Naive Bayes được biết đến là làm tốt hơn các phương pháp phân loại thậm
Trang 28Đồ án tốt nghiệp đại học
Công thức chỉ ra xác suất của A xảy ra nếu B cũng xảy ra, ta viết là P(AIB) Và nếu tabiết xác suất của B xảy ra khi biết A, ta viết là P(B|A) cũng như xác suất độc lập của A và B
e P(A|B) là “xác suất của A khi biết B”
e P(A) là xác suất Xảy ra của A
e P(BỊA) là “xác suất của B khi biết A”
e P(B) là xác suất xảy ra của BSuy ra:
P(AB) = P(A|B)P(B) = P(B|A)P(A)
Công thức Bayes:
P(AB)_— P(A|B)P(P) P(A|B)P(B)
PBI) = Ba) ~~ PA) ` PAB)+PAB)
P(A|B) P(A|B)P(B)
P(AB) + P(AB) P(A|B)P(B) + P(A|B)P(B)
Công thức Bayes tổng quátVới P(A) >0 và {B¡, Bz, ,Bn} là một hệ day đủ các biến cố:
- _ Tổng xác suất của hệ bang 1:
P(P,|A) = P(A) 1, P(A|B;) P (Bi)
1.4.3 Cách hoạt động của thuật toán Naive Bayes
Bộ phân lớp Naive Bayes hay bộ phân lớp Bayes (simple bayes classifier) hoạt động như sau:
Bước 1: Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần tử dữ liệu X được biểudiễn bằng một vectơ chứa n giá trị thuộc tính Al, A2, ,An = {x1,x2, ,xn}
Kiều Thị Ngọc Bích — D17CNPM4 28
Trang 29Đồ án tốt nghiệp đại học
Bước 2: Giả sử có m lớp Cl, C2, ,Cm Cho một phan tử dữ liệu X, bộ phân lớp sẽ gán
nhãn cho X là lớp có xác suất hậu nghiệm lớn nhất Cụ thể, bộ phân lớp Bayes sẽ dự đoán X
thuộc vào lớp Ci nếu và chỉ nếu:
P(CilX) > P(CjIX) (1<=i, j <=m, i !=j) Giá tri này sé tinh dựa trên định ly Bayes.
Bước 3: Dé tim xác suất lớn nhất, ta nhận thay các giá tri P(X) là giống nhau với mọi
lớp nên không cần tính Do đó ta chỉ cần tìm giá trị lớn nhất của P(XICi) * P(Ci) Chú ý rằngP(Ci) được ước lượng băng |Di||D|, trong đó Di là tập các phan tử dữ liệu thuộc lớp Ci Nếuxác suất tiền nghiệm P(Ci) cũng không xác định được thì ta coi chúng bằng nhau P(C1) =P(C2) = = P(Cm), khi đó ta chỉ cần tìm giá trị P(XICi) lớn nhất
Bước 4: Khi số lượng các thuộc tính mô tả dữ liệu là lớn thì chi phí tính toán P(XICi)
là rất lớn, do đó có thể giảm độ phức tạp của thuật toán Naive Bayes giả thiết các thuộc tínhđộc lập nhau Khi đó ta có thể tính:
Khi giả định về tính độc lập, bộ phân loại Naive Bayes hoạt động tốt hơn so với các
mô hình hồi quy logistic và bạn cần ít dữ liệu đào tao hơn
Nó hoạt động tốt trong trường hợp các biến số đầu vào phân loại so với các biến số.
Đối với biến số, phân phối chuẩn được giả định
1.4.4.2 Nhược diémNếu biến phân loại có một danh mục (trong tập dữ liệu thử nghiệm), không được quansát trong tập dữ liệu huấn luyện, thì mô hình sẽ chỉ định xác suất 0 và sẽ không thể đưa ra dựđoán Điều này thường được gọi là “Tần số không” Dé giải quyết van dé này, chúng ta có thé
Kiều Thị Ngọc Bích - DI7CNPM4 29
Trang 30Đồ án tốt nghiệp đại học
sử dụng kỹ thuật làm min Một trong những kỹ thuật làm min đơn giản nhất được gọi là
Laplace.
Mặt khác, Naive Bayes cũng được biết đến như một công cụ ước lượng toi, vì vậy kết
quả xác suất từ dự đoán proba không được quá coi trọng
Một hạn chế khác của Naive Bayes là giả định về các yếu tố dự đoán độc lập Trong
cuộc sông thực, hầu như không thể có được một tập hợp các yếu tố dự đoán hoàn toàn độc
^
lập.
Kiều Thị Ngọc Bich - D17CNPM4 30
Trang 31Đồ án tốt nghiệp đại học
CHƯƠNG 2 ỨNG DỤNG HỌC MÁY TRONG DỰ BÁO CHÁY
RỪNG
2.1 Tổng quan về hiện trạng cháy rừng hiện nay trên thế giới
Trên Trái đất, Cháy rừng bắt đầu do sét đánh hoặc do con người vô tình, và mọi người
sử dụng đám cháy có kiểm soát để quản lý đất nông nghiệp và đồng cỏ và dọn sạch thảm thực
vật tự nhiên cho đất canh tác Hỏa hoạn có thé tạo ra một lượng lớn khói ô nhiễm, giải phóng
khí nhà kính và vô tình làm suy thoái các hệ sinh thái Tuy nhiên, hỏa hoạn cũng có thể loại
bỏ những bụi cây đã chết và đang chết dần, có thê giúp khôi phục hệ sinh thái trở lại trạng thái
tốt Trong nhiều hệ sinh thái, bao gồm cả rừng núi và đồng cỏ, thực vật cùng tiến hóa với lửa
và cân dot định kỳ dé sinh sản.
Trong những năm gần đây, tác động tàn khốc của các trận cháy rừng, khiến hơn 100người thiệt mang và hàng nghìn người mat nhà cửa, đã chiếm lĩnh các tiêu đề trên khắp thégiới.
Kiều Thị Ngọc Bich - D17CNPM4 31
Trang 32Đồ án tốt nghiệp đại học
Một số quốc gia đã báo cáo những vụ hỏa hoạn tôi tệ nhất của họ trong nhiều thập kỷ,bao gồm hàng trăm vụ hỏa hoạn chết người trên khắp Địa Trung Hải Tại Algeria, ít nhất 90
người đã thiệt mạng.
Dam cháy Dixie của California - đám cháy lớn thứ hai trong lịch sử của bang, và đấm
cháy rừng ở Siberia đang được coi là một số đám cháy lớn nhất trong lịch sử được ghi lại
Theo Cơ quan Vũ trụ Châu Au, “cháy rừng ảnh hưởng đến ước tính khoảng bốn triệu
km vuông (1,5 triệu dặm vuông) đất của Trái đất mỗi năm” Đặt nó trong bối cảnh, đó là
khoảng một nửa diện tích của Hoa Kỳ, lớn hơn Ấn Độ, hoặc gan gap bốn lần kích thước của
Nigeria.
Chay rừng đang gia tang
Trong khi cháy rừng là một phan tự nhiên của nhiều môi trường như một cách đề loại
bỏ bụi cây chết và phục hồi chất dinh dưỡng, các nhà khoa học đã cảnh báo rang chúng dangtrở nên thường xuyên hơn và lan rộng hơn.
Vào tháng 8, một báo cáo đáng báo động của Liên hợp quốc cho răng hoạt động củacon người gây ra những thay đổi "chưa từng có" đối với khí hậu Các nhà khoa học trên toàncầu cho biết nhân loại sẽ phải trải qua thời tiết khắc nghiệt hơn trong những năm tới và sẽgánh chịu hậu quả do mực nước biển dâng cao và băng ở Bắc Cực tan chảy
Theo Trung tâm Nghiên cứu Dịch té học về Thảm họa, ít nhất 470 thảm họa cháy rừng
- những sự cố khiến 10 người trở lên hoặc hon 100 người bị ảnh hưởng - đã được báo cáo trêntoàn cầu ké từ năm 1911, gây thiệt hại ít nhất 120 tỷ USD.“
Kiều Thị Ngọc Bích - DI7CNPM4 32
Trang 33Hình 2.2 Những dam cháy thiệt hai nặng né nhât trong lịch sw
Vào thang 8 năm 2021, vụ cháy rừng ở Algeria đã gây ra thương vong cho ít nhất 90
người, trong đó có 33 binh sĩ, đã thiệt mạng trong các vụ cháy rừng, theo chính quyền địa phương Cơ quan Bảo vệ Dân sự Algeria cho biết, các đám cháy rừng bắt đầu bùng phát từ hôm Thứ Hai (9/8), sau đó lan rộng tại nhiều khu vực Tính đến tối ngày 11/8, Algeria đã ghi
nhận 99 vụ cháy rừng tại 16 bang trên toàn quốc !!3!
Kiều Thi Ngọc Bích - DI7CNPM4 33
Trang 34Đồ án tốt nghiệp đại học
Trong một vài năm qua những trận cháy rừng đã xảy ra ở rất nhiều nước trên thế giới
như là Algeria, Canada, Hy Lạp, Mỹ, Brazil, Úc, và Hợp chủng quốc Hoa Kỳ (USA) đã nângcao nhận thức toàn cầu và lo ngại về sức tàn phá và hậu quả của việc cháy rừng Tuy nhiên
mức độ phức tạp và mức độ ảnh hưởng của cháy rừng đã vượt qua những con số thống kê
được cung cấp bởi các báo cáo và phương tiện truyền thông chính thức về tông diện tích bịcháy, số ngôi nhà bị phá hủy hoặc thương vong về người Tổ chức Y tế Thế giới (WHO) đãxác định cháy rừng và đặc biệt là những nơi xảy ra cháy gần với các khu vực đô thị là mộttrong những mối de doa lớn đối với an ninh y tế toàn cầu trong thé kỉ 21, nhắn mạnh sự cầnthiết của các chính trị gia, chuyên gia và các bên liên quan phải nhìn nhận mức độ và tính đachiều của các tác động của cháy rừng và các rủi ro dẫn đến hậu quả WHO cũng đã cảnh báorằng cần phải có những biện pháp hữu hiệu dé quản lý rủi ro và khủng hoảng
Ở nước ta, mỗi năm xảy ra hàng trăm vụ cháy rừng, thiêu hủy ngàn héc ta rừng khác
nhau Theo báo cáo năm 2020, cả nước đã xảy ra 179 vụ cháy rừng, gây thiệt hại 645 ha (giảm1.331 ha so với cùng kỳ năm 2019) Vì thế, vấn đề phòng chống cháy rừng và hạn chế nhữnghậu quả xâu do cháy rừng gây ra là một việc làm cân thiệt.
2.2 Tong quan về hệ thống cảnh báo cháy rừng FWI
Kiều Thị Ngọc Bích - D17CNPM4 34
Trang 35Đồ án tốt nghiệp đại học
Hệ thống Chỉ số Thời tiết Cháy (FWI) là phan đầu tiên của Hệ thống Xếp hạng Nguy
cơ Cháy rừng của Canada (CFFDRS) được đưa vào New Zealand vào năm 1980 Nó đã được
chứng minh là một hệ thống xếp hạng nguy hiểm cháy phù hợp cho quốc gia này FWI đãđược đánh giá trong nhiều mùa trước khi nó được giới thiệu cho mùa cháy 1980-1981
Chỉ số Thời tiết cháy (FWD) là một chỉ số dựa trên khí tượng được sử dụng trên toàn
thế giới dé ước tính nguy cơ hỏa hoạn Nó bao gồm các thành phần khác nhau giải thích cho
ảnh hưởng của độ 4m nhiên liệu và gió đến hành vi và sự lan truyền của đám cháy FWI càngcao thì điều kiện khí tượng càng thuận lợi dé gây ra cháy rừng Chỉ số này có thé giúp hìnhthành chiến lược du lịch dài hạn và lập kế hoạch đầu tư trong tương lai trong điều kiện khí hậuthay đồi
Hệ thống FWI yêu cầu quan sát thời tiết được thu thập từ địa điểm và thời gian quansát tiêu chuan Các tiêu chuẩn về vị trí này có thé được tìm thấy trong cuốn Weather Guidefor the Canadian Forest Fire Danger Rating System (Lawson and Armitage, 2008)!!! Hệ thống
yéu cầu các quan sát được thực hiện vào buổi trưa khi mặt trời đạt đỉnh.
FWI dựa trên kết quả do thời tiết được thực hiện vào giờ chuan giữa trưa và xếp hạng
nguy cơ hỏa hoạn tại đỉnh điểm giữa buổi chiều từ 2:00 - 4:00 chiều Các bài đọc về thời tiết
được yêu cầu là:
* Nhiệt độ không khí (trong bóng râm)
* Độ âm tương đối (trong bóng râm)
* Tốc độ gió (ở độ cao 10 mét so với mặt đất trong thời gian trung bình hơn 10 phút)
* Lượng mưa (Trong 24 giờ trước)
Chỉ số Thời tiết Cháy (The Weather Index) có sáu thành phần:
Ba mã độ âm nhiên liệu
1 Mã độ 4m nhiên liệu mịn (FFMC-Fine Fuel Moisture Code)
2 Mã độ âm Duff (DMC-Duff Moisture Code)
3 Mã hạn hán (DC- Drought Code)
Ba chỉ số hành vi cháy
1 Chỉ số lây lan ban dau (ISI - Initial Spread index)Kiều Thị Ngọc Bich - D17CNPM4 35