1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các thuật toán học máy và ứng dụng trong dự báo cháy rừng

71 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu các thuật toán học máy và ứng dụng trong dự báo cháy rừng
Tác giả Kiều Thị Ngọc Bích
Người hướng dẫn TS. Nguyễn Đỉnh Hoa
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Công nghệ thông tin
Thể loại Đồ án tốt nghiệp đại học
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 71
Dung lượng 19,11 MB

Nội dung

Đồ án tốt nghiệp đại họcLỜI CẢM ƠN Đồ án tốt nghiệp với Đề tài “Nghiên cứu các thuật toán học máy và ứng dụng trong dựbáo cháy rừng” là kết quả của quá trình có gắng không ngừng nghỉ của

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THÔNG

KHOA CÔNG NGHỆ THÔNG TIN I

DE TÀI:

“NGHIÊN CỨU CÁC THUẬT TOÁN HỌC MÁY VÀ

ỨNG DỤNG TRONG DỰ BÁO CHÁY RỪNG”

Giảng viên hướng dẫn: TS NGUYÊN ĐÌNH HÓA Sinh viên thựchiện : KIEU THỊ NGỌC BÍCH

D17CNPM4

2017 — 2022

ĐẠI HOC CHÍNH QUY

HA NỘI - 12/2021

Trang 2

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THÔ

KHOA CÔNG NGHỆ THONG TIN I

(os

DO AN

DE TAI:

“NGHIEN CUU CAC THUAT TOAN HOC MAY VA

UNG DUNG TRONG DU BAO CHAY RUNG”

Giang viên hướng din: TS NGUYEN ĐÌNH HOA Sinh viên thựchiện : KIEU THỊ NGỌC BICH

D17CNPM4

2017 — 2022

DAI HOC CHINH QUY

HÀ NỘI - 12/2021

Trang 3

Đồ án tốt nghiệp đại học

LỜI CẢM ƠN

Đồ án tốt nghiệp với Đề tài “Nghiên cứu các thuật toán học máy và ứng dụng trong dựbáo cháy rừng” là kết quả của quá trình có gắng không ngừng nghỉ của bản thân và được sựgiúp đỡ tận tình, động viên khích lệ của thầy cô, bạn bè và người thân Qua đây, Em xin gửilời cảm ơn chân thành đến những người đã giúp đỡ em trong thi gian học tập — thực hiện đồ

án tốt nghiệp vừa qua

Đầu tiên, em xin gửi lời cảm ơn sâu sắc đến quý thầy cô trong khoa Công nghệ thôngtin Học viện Công nghệ Bưu chính Viễn thông đã tâm huyết dạy dỗ, truyền đạt những kiếnthức quý báu cho chúng em trong suốt 4.5 năm đại hoc dé em có được những kiến thức chuyênmôn day đủ về ngành nghề về Công nghệ thông tin Những kiến thức được tiếp thu trong suốtquá trình học tập tại trường không chỉ giúp em hoàn thành tốt đồ án tốt nghiệp được giao màcòn là hành trang quý báu dé em có thé tự tin khi ra trường làm việc

Đặc biệt, em xin trân trọng cảm ơn thầy giáo TS.Nguyễn Đình Hóa - người đã trực

tiếp tận tình hướng dẫn cũng như cung cấp tài liệu, thông tin khoa học cần thiết cho bài luậnnày lời cảm ơn chân thành và sâu sắc nhất Xin cảm ơn lãnh đạo, ban giám hiện cùng toàn thé

các thầy cô giáo Học viện Công nghệ Bưu chính Viễn thông khoa Công nghệ thông tin I đã

tạo điêu kiện cho em hoàn thành tôt đô án của mình.

Do giới hạn kiên thức và khả năng lý luận của bản thân còn nhiêu thiêu sót và hạn chê,

kính mong sự chỉ dẫn và đóng góp của các Thay, Cô dé bài luận văn của tôi được hoàn thiện

hơn.

Lời cuôi cùng, em xin kính chúc thây cô nhiêu sức khỏe, thành công và hạnh phúc.

Em xin chân thành cảm ơn!

Hà Nội, tháng 12 năm 2021

Sinh viên Bích

Kiều Thị Ngọc BíchKiều Thị Ngọc Bich - D17CNPM4 3

Trang 4

Đồ án tốt nghiệp đại học

NHAN XÉT, ĐÁNH GIÁ, CHO DIEM

(Của giảng viên hướng dẫn)

Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm tốt nghiệp

¬ ,ngày tháng năm 2021

CÁN BỘ - GIANG VIÊN HUONG DAN

Kiều Thị Ngọc Bích - DI7CNPM4

Trang 5

Đồ án tốt nghiệp đại học

NHAN XÉT, ĐÁNH GIÁ, CHO DIEM

(Của giảng viên phản biện)

Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm tốt nghiệp

¬ ,ngày tháng năm 2021

CÁN BỘ - GIANG VIÊN PHAN BIEN

Kiều Thị Ngọc Bích - DI7CNPM4

Trang 6

Đồ án tốt nghiệp đại học

MỤC LỤC

LOT CẢM ƠN 2t 2 t2 H2 H222 2

DANH MỤC CÁC BANG VÀ HÌNH VẼ 2-5252 St E2 1221211211211 11 11111 8 DANH MỤC CÁC Ki HIỆU VÀ TỪ VIET TẮTT 2 2 EeEE£EE+EE+EeEEeEzErrxerxeree 9

CHUONG 1 TÌM HIỂU CAC THUAT TOÁN HỌC MAY TRONG PHAN LOẠI DU’

LIEU eee cccecceseceecseesececesessececscessecsecsessecsecssessesseceeeesessecseeesecaeceseeaesaeseeeesesaeseeeeaesaeed 12

1.1 Thuật toán Decision Tree Classification - - - cành re 12

1.1.1 Khái niệm Cây quyết định (Decision Tree) - << << <2 121.1.2 Thuật toán Cây quyết định - - +2 sSE+E9EE2E2E2EE121212121 21111111 1crxe, 131.1.3 Ưu điểm và hạn chế của cây quyết định - - 2 2+ +x+z++z+xezxerszrezed 18

1.2 Thuật toán Random Forest Classificafion - - 5à 2s re 19

1.2.1 Giới thiệu về Random FOres( - + tt St S338 EESESESEEEEEEEESESEEEEEEEErErkrsrsrez 191.2.2 Cách thức Random Forest hoạt đỘng - ¿+ 1S 1S + sikrssekree 191.2.3 Ưu điểm và nhược điểm của thuật toán Random FOrest - - - +s+szs+¿ 20

1.3 Thuật toán Kernel SVM - LG G 112111211 11H11 k1 TH HH kg ky 21

1.3.1 Giới thiệu về thuật toán SVM seeceesseecseecseecseessneeseeesnecsnecsneesneesneesneenneenneenees 211.3.2 Các ưu điểm và nhược điểm của SVM ou eeseesseesseesseecsteeseeseeesseesneesneennecsneenees 241.3.3 Ham {ca 241.3.4 Sử dụng Kernel với SVM sư 25 1.4 Thuật toán Naive Bayes - HH HT HS HH TH ng KH ky 27

1.4.1 Giới thiệu về thuật toán Naive Bayes - 2-5-5255 S2*+EcE2tcErkererkrrerees 27

1.4.2 Định lý Bayes - - HSH TH nH HH HH 27 1.4.3 Cách hoạt động của thuật toán Naive Bayes -. c TH sgk re 281.4.4 Ưu và nhược điểm của Naive Bayes - - 2c Se St 22t v2 29

CHƯƠNG 2 UNG DUNG HỌC MAY TRONG DU BAO CHAY RỪNG 31

2.1 Tổng quan về hiện trang cháy rừng hiện nay trên thé giới - 312.2 Tổng quan về hệ thống cảnh báo cháy rừng EWI - 25 scs+ccczxcrees 34

2.3 Các yếu tố thời tiết ảnh hướng đến cháy rừng , -2- 52 csccscezxereez 42

"NI 4+ 42Kiều Thị Ngọc Bich - D17CNPM4 6

Trang 7

Đồ án tốt nghiệp đại học

2.3.2 Tốc độ giÓ 2c t2 21E212112121021211211121121111112111 1012111 g 442.3.3 Độ ẩm tương đối - - ¿2 SE EEE12111212121211111111 111111111 cce 47

"mm ae 48

2.4 Ứng dụng học máy trong dự báo cháy rừng - 2-2 s+2s+s+xezxezxzxees 49

CHUONG 3 CAC KET QUÁ THỰC NGHIỆM - 2 2©52+2S+2Ezxezxzrezxez 51

KP AA(( NOải i00) 51 3.2 Mô hình đánh giá thuật toan ccc ceccceseceneeeeeeeeeeeesseeenseeeeseeessaeensas 52 3.3 Thuc nghiệm trên tập dữ liệu - G 21112 1S 11911191 rệt 53 3.3.1 Thuật toán Decision Tree với thư viện Scikit-Learn - 55-5555 << 54

3.3.2 Thuật toán Random Forest (Rừng ngẫu nhiên) với Scikit-Learn - 57

3.3.3 Thuật toán Kernel SVM c cv 59 3.3.4 Thuật toán Naive BayeS HH HH ng và 633.4 Đánh gid và kết WAM occ ceccccccccsssessessssssscsessssecsessessssucsessssssessesusseeseesesseaess 65KET LUAN 02577 :-2II.Ã 69

TÀI LIEU THAM KHAO 5 E55 EEEE9EE*EEEEEEEEEEEEEEEEEETEEEEEEEEEEEEEEEEErkrtkerrted 70

Kiều Thị Ngọc Bich - D17CNPM4 7

Trang 8

Đồ án tốt nghiệp đại học

DANH MỤC CÁC BANG VÀ HÌNH VE

DANH MỤC HÌNH ANH

Hình 1.1 Cấu trúc của cây quyết định ¿+ 2 +E+SSE+E£EE2EEEEEEEEEEEEEEEEEEEEEEcrrrrei 12

Hình 1.2 Cây quyết định về dự báo cháy rừng ở Lebanon dựa trên thời tiết năm 2012 17

Hình 1.3 Cách hoạt động của Random Forest - - < E211 11139511119 ve 19

Hình 2.1 Thảm hóa chảy rừng ở Amazon (2019) - 6 + 111993011 1199111 ng 31

Hình 2.2 Những đám cháy thiệt hai nặng nề nhât trong lịch sử c ccccscesccscesessesseseeseeseeeesee 33Hình 2.3 Cháy rừng dữ dội tai Algeria tháng 8 gây thiệt hại nghiêm trọng về người 34Hình 2.4 Cau trúc tinh toán chỉ số thời tiết cháy - ¿2 + 2+seSE+E£+E££EtEEtEzEerxereerees 36

Hình 2.5 FFMC, DMC, DC trong 1 mùa cháy năm 2015 55+ +5 s‡*++*s++seexesss2 38

Hình 2.6 Biểu d6 chỉ số cháy - - 2E SE 2E9EE212E121212121112121212111111111 1111 1x0 39Hình 2.7 Sơ đồ dé tính toán sáu thành phan tiêu chuẩn của hệ thống EWI 43Hình 2.8 Ảnh hưởng của nhiệt độ đến thảm thực vật 2-2-5 2 52+E+£zE+£zzxzeerxez 45Hình 2.9 Tốc độ gió theo độ gồ ghé của địa hình xung quanh -. 2 2s s+zs+s++: 46Hình 3.1 Giao diện trang web demo: gồm 10 thuộc tính nhãn va button “Predict” 67Hình 3.2 Giao diện trang web đlemO - - - < + + 1111991011119 ngà 67Hinh 3.3 Két qua du dan ÐHdddadadẦẦỒIẶIẶIẶIẶẶẶ 68

DANH MUC BANG

Bang 1.1 Các loại thuộc tíÍnhh - .- <1 133221111112 11 11119 111 19 TH Hà 16Bang 1.2 Một số mẫu điền hình thể hiện sự phân loại các thuộc tính ứng với thực tế l6Bang 1.3 Thống ké theo thuc tinh t8" 17Bang 2.1 Bảng xếp hạng chỉ số cháy cao và cực đoan - ¿5 + ++c2xez++zzxerxerserees 39Bảng 3.1 Đánh giá độ chính xác các thuật tOán - - <6 11321319 1191 kg rệt 65

Kiều Thị Ngọc Bich - D17CNPM4 8

Trang 9

Đồ án tốt nghiệp đại học

DANH MỤC CÁC Ki HIỆU VA TỪ VIET TAT

Kí hiệu/ Chữ viết tắt Ý nghĩaBUI Chỉ số tích lũy

CFFDRS He thông Xếp hang nguy cơ cháy rừng

của Canada

DC Mã hạn hánDMC Mã độ ẩm DuffEMC Độ am cân bằngFEDC Mã nguy hiểm cháy rừngFEMC Mã độ 4m nhiên liệu mịnFWI Chỉ số thời tiết cháy

GFDC Ma nguy hiém chay coISI Chi sé lay lan ban dau

Trang 10

Đồ án tốt nghiệp đại học

LOI MỞ DAU

Thuật ngữ hoc máy có lẽ không còn quá xa lạ với con người ngày nay bởi chúng đã

được sử dụng trên phạm vi toàn thế giới Hiện tai, Machine Learning đã đạt được rất nhiềuthành tựu to lớn và trở thành hướng nghiên cứu chính trong AI (trí tuệ nhân tạo).

Thuật toán học máy được chia thành 2 loại chính bao gồm: học có giám sát và học

không giám sát Học có giám sát là phương pháp sử dụng những dữ liệu được gán nhãn sẵn

dé suy luận ra quan hệ giữa đầu vào và đầu ra Sau khi tìm hiểu cách tốt nhất dé mô hình hóacác mối quan hệ cho dữ liệu được gán nhãn, thuật toán huấn luyện sẽ được sử dụng cho các

bộ dữ liệu mới Ung dụng của học có giám sát chính là giúp xác định tín hiệu tốt nhất dé dựbáo xu hướng, lợi nhuận trong tương lai trong lĩnh vực cổ phiếu, chứng khoán Một vài giảithuật phổ biến trong Supervised Learning: Linear Regression, Logistic Regression, RandomForest, Decision Tree (bài toán hồi quy) và Random Forest, Support Vector, Decision Tree(bài toán phân loại) Học không giám sát sử dụng những dữ liệu chưa được gán nhãn sẵn dé

suy luận va tim cách dé mô ta dit liệu cùng cau trúc của chúng Ứng dụng của học không giám

sát đó là hỗ trợ phân loại thành các nhóm có đặc điểm tương đồng

Học máy ngày càng được ứng dụng rộng rãi, đa lĩnh vực trong thực tiễn cuộc sống con

người ngày nay Các bạn có thể dàng nhận thấy Machine Learning đang được sử dụng với

mục đích phân tích dữ liệu lớn dé có thé đưa ra những dự đoán xu hướng trong tương lai Ví

dụ như dự đoán kết quả bầu cử chính trị, dự đoán biến động của thị trường chứng khoán, hiệntượng cháy rừng, bệnh ung thư,

Dự báo cháy rừng là một thành phần chính của kiểm soát cháy rừng Đây là một vấn

đề môi trường lớn tạo ra sự tàn phá sinh thái dưới dạng cảnh quan tài nguyên thiên nhiên bị

đe dọa, phá vỡ sự ôn định của hệ sinh thái, làm tăng nguy cơ đối với các hiểm họa thiên nhiên

và làm suy giảm các nguồn tài nguyên như nước gây ra hiện tượng nóng lên toàn cầu và ô

nhiễm nguôn nước.

Phát hiện cháy là một yếu tố quan trọng dé kiểm soát các sự cố như vậy Dự báo cháyrừng dự kiến sẽ làm giảm tác động của cháy rừng trong tương lai Với sự phát triển nhanhKiều Thị Ngọc Bích - DI7CNPM4 10

Trang 11

Đồ án tốt nghiệp đại học

chóng của công nghệ, nhiều hệ thống đã ra đời dé đưa ra cảnh báo sớm cho cháy rừng Có thé

kê đến như: hệ thống cảnh báo cháy rừng nhờ cảm biến (cảm biến nhiệt độ, cảm biến khói );

hệ thống cảnh báo cháy rừng thông qua vệ tinh; hệ thống cảnh báo cháy rừng phát hiện quavideo, hình ảnh từ camera quan trắc Tuy nhiên, với các bài toán có khối lượng dữ liệu lớn,nhiều đầu vào, độ chính xác dự báo của các mô hình thống kê vẫn còn hạn chế Gần đây, các

mô hình học máy đã được đề xuất cho cháy rừng do chúng làm việc tốt hơn với dữ liệu lớn,

có nhiều đầu vào Nhìn chung, độ chính xác của các mô hình học máy là tốt hơn các mô hình

thống kê Nhiều thuật toán phát hiện đám cháy có sẵn với các cách tiếp cận khác nhau đề phát

hiện dam cháy Đồ án được xây dựng với mục đích nghiên cứu và so sánh các mô hình họcmáy khác nhau dé dự đoán cháy rừng như Decision Tree, Random Forest, Kernel SVM vaNaive Bayes dựa trên các yếu tố thời tiết và một số chỉ số trong dự báo cháy như nhiệt độ,

mưa, gió và độ âm, mã độ âm, Từ kêt qua của đô án có thê đem lại

Đồ án “Nghiên cứu các thuật toán học máy và ứng dụng trong dự báo cháy rừng” đượcxây dựng gồm 3 chương

Chương 1: Tìm hiểu các thuật toán học máy trong phân loại dit liệu

Chương 2: Ứng dụng học máy trong dự báo cháy rừng Chương 3: Các kết quả thực nghiệm

Phần Kết Luận

Trong chương 1 sẽ trình bày về các thuật toán học máy phục vụ bài toán phân loại làDecision Tree, Random Forest, Kernel SVM, Naive Bayes Trong chương 2 trình bày vé baitoán phát hiện cháy rừng và phương pháp sử dung dé phát hiện cháy rừng Tiếp theo ở

chương 3 trình bày các kết quả thực nghiệm, đánh giá và so sánh các kết quả đạt được Cuốicùng phần kết luận tong hop lai các nội dung da dat được trong đồ án, nêu nhận xét về các

ưu và nhược điểm về phương pháp, về kết quả thực nghiệm Cuối cùng phan kết luận sẽ nêuđịnh hướng phát triển nội dung của đồ án

Kiều Thị Ngọc Bích - DI7CNPM4 11

Trang 12

Đồ án tốt nghiệp đại học

CHUONG 1 TÌM HIỂU CÁC THUẬT TOÁN HỌC MAY TRONG

PHAN LOẠI DU LIEU

Ngày nay phân loại dữ liệu (classification) là một trong những hướng nghiên cứu chínhcủa khai phá dữ liệu Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin củacon người có thé trích rút ra các quyết định nghiệp vụ thông minh.Phân lớp và dự đoán là hai

dạng của phân tích dữ liệu nhằm trích rút ra một mô hình nhằm mô tả các lớp dữ liệu quan

trọng hay dự đoán xu hướng dữ liệu tương lai Bài toán phân loại dữ liệu là quá trình phân lớp

một đối tượng đữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp (model)

Mô hình này được xây dựng dựa trên một tập dữ liệu được xây dựng trước đó có gán nhãn(hay còn gọi là tập huấn luyện) Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữliệu.

Như vậy, nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phan lớp dé khi có

dữ liệu mới thì có thé xác định được dữ liệu đó thuộc vào phân lớp nào Có nhiều bài toán

phân lớp dữ liệu như phân lớp nhị phan (binary), phân lớp đa lớp (multiclass), phân lớp da tri.

Ứng dụng của bài toán này được sử dụng rất nhiều và rộng rãi trong thực tế ví dụ như

bài toán nhận dạng khuôn mặt, nhận diện giọng nói, phát hiện email spam

Và đối với các bài toán phân lớp đữ liệu chúng ta sử dụng các thuật toán học có giám

sát (supervised learning) dé xây dựng mô hình cho bài toán này Sau đây chúng ta sẽ tìm hiểu

khái quát về các thuật toán phân loại trong học máy

1.1 Thuật toán Decision Tree Classification

1.1.1 Khái niệm Decision Tree (Cây quyết định)

Decision Tree (Cây quyết định) là một kỹ thuật học có giám sát có thể được sử dụngcho cả bài toán phân loại và bài toán hồi quy, nhưng chủ yếu nó được ưu tiên hơn dé giải cácbài toán phân loại Nó là một bộ phân loại có cấu trúc cây, trong đó các nút bên trong đại diệncho các tính năng của tập dữ liệu, các nhánh biểu thị các quy tắc quyết định và mỗi nút lá đại

diện cho kết quả

Kiều Thị Ngọc Bích - DI7CNPM4 12

Trang 13

Đồ án tốt nghiệp đại học

Trong cây quyết định, có hai nút, đó là Nút quyết định (Decision Node) và Nút lá (LeafNode) Các nút quyết định được sử dụng dé đưa ra bất kỳ quyết định nào và có nhiều nhánh,trong khi nút lá là đầu ra của các quyết định đó và không chứa bất kỳ nhánh nào khác

Tóm lại, cho dit liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của

nó, cây quyết định sẽ sinh ra các luật dé dự đoán lớp của các dữ liệu chưa biết

Hình dưới đây minh họa cấu trúc của cây quyết định

Tree

Sub-Leaf Node Sub-Leaf Node Leaf Node

Leaf Node Leaf Node

Hình 1.1.1.1 Cấu trúc của cây quyết địnhCác nút và các nhánh được cấu tạo từ mỗi cây Mỗi nút đại điện cho mỗi thuộc tínhtrong một lớp được phân loại và mỗi tập con xác định một giá trị mà nút có thé nhận Do phântích đơn giản và độ chính xác của chúng trên nhiều dạng dữ liệu, cây quyết định đã tìm thấynhiều trường triển khai

1.1.2 Thuật toán Decision Tree

1.1.2.1 Thuật toán ID3

Đề xây dựng cây quyết định với thuật toán ID3 trước tiên cần xác định thứ tự của thuộctính cần được xem xét tại mỗi bước Trong trường hợp đối tượng có nhiều thuộc tính và mỗi

thuộc tính có nhiều giá trị khác nhau thì việc xác định thứ tự tối ưu nhất của các thuộc tính

thường là rất khó Vì vậy, dé đơn giản ý tưởng của ID3 như sau:

'WhileQ:

Bước 1: Chon A © thuộc tính quyết định “tốt nhất” cho nút kế tiếpKiều Thị Ngọc Bích - DI7CNPM4 13

Trang 14

Đồ án tốt nghiệp đại học

Bước 2: Gán A là thuộc tính quyết định cho nút

Bước 3: Với mỗi giá trị của A, tạo nhánh con mới của nút

Bước 4: Phân loại các mẫu huấn luyện cho các nút lá

Bước 5: Nếu các mẫu huấn luyện được phân loại hoàn toàn thì NGUNG,

Ngược lai, lặp với các nút lá mớThuật toán ID3 xây dựng cây quyết định được trình bày như sau:

* Với:

- decisionTree là biến chứa tập Nodes củ a cây quyết định.

- Values_Attribute là biến chứa gia trị củ a các Attribute.

- Attribute là biến lưu tên các Attribute(Các mẫu huấn luyệ n).

Function DecisionTree (decisionTree, Values_Attribute, Attribute)

{

- Tinh Gain củ a các Attribute dé tim ra Attributei có Gain lớn nhất

(thuéc tính có lợi nhất) Gan Attributei là thuộ c tính quyết định cho nut.

+ Add node Attributei vào decisionTree: decisionTree.name = Attribute[i]; + Khởi tao list<node> trong decisionTree: decisionTree.arrnodes = new list<node>

- Xét tất cả giá trị (Values_Attribute) của Attributei, nếu giá trị j nào có mẫu

là node lá thì:

+ decisionTree.arrNodes[J].name = Value_Attribute[i] [j].name;

+ decisionTree.arrNodes[j].value = giá tri mẫu củ a giá trị thuộ c tính Attributei

- Nếu tất cả các giá trị (Values_Attribute) của Attributei đều có mẫu là node

lá => Return cây quyết định

decisionTree Ngược lại, nếu giá trị có mẫu là node cành (nút nộ i bộ) thì

tiếp tục từ giá trị của Attribute

j có node cành tìm kiếm nút có thuộ c tính quyết định[Tìm Attribute mới có

Gain lớn nhất trong tập

Kiều Thị Ngọc Bích - DI7CNPM4 14

Trang 15

Nhu vay, dé thuật toán ID3 thực hiện được, cần phải xác định được thứ tự chọn cácthuộc tính và chọn được thuộc tính quan trọng nhất cho việc phân lớp với nút đó Tham sỐđược sử dụng dé xác định thuộc tính phân loại tốt nhất cho mỗi bước là Information Gain

1.1.2.2 Entropy va Information GainEntropy là thuật ngữ thuộc Nhiệt động lực hoc, là thước đo của sự biến đổi, hỗn loan

hoặc ngẫu nhiên Năm 1948, Shannon đã mở rộng khái niệm Entropy sang lĩnh vực nghiên

cứu, thông kê với công thức như sau:

Cc

Entropy (S) = — » Dilog2 Di

í=1

Trong đó p¡ là tỷ lệ các đối tượng trong tập S thuộc vào lớp I, và 0*loga0 = 0

- Entropy = 0 nếu tất cả các đối tượng đều thuộc cùng một lớp

- Entropy = 1 nếu các đối tượng thuộc vào các lớp có số lượng như nhau

- Entropy € (0,1) nếu các đối tượng thuộc vào các lớp khác nhau có số lượng

khác nhau.

Information Gain do mức độ giảm Entropy néu chi tap S theo các giá tri của thuộc tính

đó Information Gain của thuộc tính A đối với tập S được tính như sau:

Trang 16

Đồ án tốt nghiệp đại học

bộ dữ liệu khí tượng năm 2012 (361 bản ghi) được sử dụng?!.

Sv={xÌx€ S và xa = v}

Một nghiên cứu điển hình về thuật toán Cây quyết định trong cảnh báo cháy rừng với

Bộ dữ liệu gồm 4 thuộc tính: nhiệt độ đo vào buổi trưa (T), độ âm tương đối (RH), tốc

độ gió (WS), lượng mưa trong 24 giờ (P).

Mỗi thuộc thuộc tính có 3 loại: thấp, trung bình và cao theo bảng 1 Quyết định sau đó

“E” biểu thị khả năng cháy cực cao và “NF” biéu thị khả năng xảy ra hỏa hoạn không thé đoán

Bang 1.1 Các loại thuộc tính

Một mẫu phân loại đơn giản được tìm thấy trong bảng 2

Nhiệt mec) khí | Độ + đôi Tốc độ gió ( ms) _ Kết quả

25,17 | Trungbình | 62 | Trung bình | 0,88 Thâp 0 Thâp Cháy

255 | Trungbình | 62 | Trung bình | 1,07 | Trungbinh| 0 Thấp | Không cháy

26,08 | Trung bình | 57 | Trung bình | 1,13 | Trungbình| 0 Thấp Cháy

25,23 | Trungbình | 60 | Trung bình | 1,18 | Trungbình| 0 Thâp | Không chay

25,07 | Trungbình | 52 | Trung bình | 0,52 Thâp 0 | Thap | Không cháy

25,02 | Trungbình | 63 | Trung bình | 1,03 | Trungbình| 0 Thấp Không cháy

30,16 Cao 56 | Trung bình | 1,32 | Trungbình| 0 Thấp Cháy

10,74 Thấp T7 Cao 3,7 Cao 8,3 Cao Không cháy

11,12 Thấp 82 Cao 4,1 Cao 18,9 | Cao Không cháy

11,47 Thâp 78 Cao 2/7 | Trungbình| 0 Thâp | Không cháy

Bang 1.2 Một sô mẫu điển hình thé hiện sự phân loại các thuộc tính ứng với kết quả thực tế

Dé vẽ cây quyết định chúng ta phải tìm thuộc tính root dé bắt đầu chia nhỏ Saukhi xem xét tat cả các trường hợp, chúng ta có thê kết luận ở bảng 3

T | Cháy Shave RH | Chay Shane WS | Chay Shan P | Chay Shae

Thấp |271| 3 | 268 | 38 | 8 30 |158| II | 147 |288| 25 | 263

prune 88 | 21 | 67 |125| 15 | 110 |112| 15 | 97 | 13] 0 13

Cao | 2 | 2 0 |198| 3 | 195 |91| 0 | 91 |60] 1 59

Kiều Thị Ngọc Bích - DI7CNPM4 l6

Trang 17

Đồ án tốt nghiệp đại học

Bảng 1.3 Thống kê theo thuộc tínhLưu ý rằng năm 2012, 26 vụ cháy được phát hiện trong 361 ngày, do đó:

Entropy (S) = (—): (+ (=): (=) = 0.373425 METOPY Wo) = 361) °92\ 361) † (§ø1) 92 ger) | = 0:

Bây giờ chúng ta di tinh Entropy của nhiệt độ E Tenap (S),E Ttrưng bình (S), Er „(S):

Er (S) = (= )! (= )+ (=): (=) = 0,0878066 Tenap? = 271) ”92\271) ” (271) 592\271))—”

21 21 67 67

Tung pạn (9) = (=) logo (=) + (=) log (= 3) = 0,7927652

Er,„„(S) = ((5) loge (5) + (5) logs ()) =0

— Ex(S) = ((%) Erinip SD + (FE) Erinn inn S) + (52) En,„(S)) 361 = 0.259166

> Gain(S,T) = E(S) — Er(S) = 0,114259

Tuong tu:

Gain(S, RH) = E(S) — Epy(S) = 0,0498435 Gain(S, WS) = E(S) — Ews(S) = 0,0376338 Gain(S, P) = E(S) — Ep(S) = 0,0134699

Từ đó ta thay rằng Gain(S,T) là cao nhất và đó là gốc của cây quyết định

Trong giai đoạn 2, ta sẽ xem xét trường hợp SI có giá trị nhiệt độ thấp nhất ở bước 1.Bây giờ chúng ta có 3 trường hợp cháy trong số 271 E(S,) = 0,373425 Khi tính toán mứctăng, chúng ta thu được rang độ 4m tương đối có mức tăng cao nhất là:

Gain(S,,RH) = E(S1)T— Enu(S¡) = 0,2934059 Gain(S,,WS) = E(S,) — Eus(S,) = 0,2922296

Sau đó các trường hợp S; va Sz được tính tương tự Cũng trong lần này, độ âm tương

đôi được cho là có mức tăng cao nhât.

Kiều Thị Ngọc Bích - DI7CNPM4 17

Trang 18

các biến mục tiêu thông qua các quy định học được suy ra từ dữ liệu đào tạo Thuật toán DT

có thé được sử dung dé giải các bài toán hồi quy và phân loại, tuy nhiên nó cũng có ưu điểm

và hạn chê

1.1.3.1 Uu diễn

Có một số lợi thé của việc sử dụng cây quyết định dé phân tích và dự đoán

— Cây quyết định có thể được sử dụng dự đoán cả giá trị liên tục và giá trỊ rời rạc,

tức là chúng hoạt động tốt cho cả nhiệm vụ hồi quy và phân loại

— Chúng đòi hỏi ít nỗ lực hơn dé dao tạo thuật toánKiều Thị Ngọc Bích - DI7CNPM4 18

Trang 19

Một sô nhược điêm của thuật toán Decision Tree

— Khó giải quyết được những vấn đề có dữ liệu phụ thuộc thời gian liên tục

— Dễ xảy ra lỗi khi có quá nhiều lớp chi phí tính toán để xây dựng mô hình cây

quyết định CAO.

1.2 Thuật toán Random Forest Classification

1.2.1 Giới thiệu về Random Forest

Random Forest là một loại thuật toán học máy có giám sát dựa trên ensemble learning.Emsemble learning là một kiểu học mà bạn kết hợp nhiều loại thuật toán khác nhau hoặc cùng

một thuật toán nhiều lần dé tạo thành một mô hình dự đoán mạnh mẽ hơn Thuật toán Random

Forest kết hợp nhiều thuật toán cùng loại, tức là nhiều cây quyết định để tạo ra một rừng cây,

do đó có tên là “Random Forest” (rừng ngẫu nhiên) Thuật toán Random Forest có thể sử dụng

cho cả bài toán hồi quy và phân loại

1.2.2 Cách thức Random Forest hoạt động.

Mã giả cho hoạt động của Random Forest:

Chọn ngẫu nhiên “k” features từ tập “m” features (k << m)

Từ tập “k” features, tính toàn ra node “d” là tốt nhất cho Node phan loai

._ Chia các node con theo node tốt nhất vừa tim được

Lap lại bước 1-3 cho đến khi đạt k node

1.

2

3

4

5 Lap lại bước 1-4 dé tao ra “n” cay

Dé biểu diễn dự đoán sử dụng Random Forest đã huấn luyện, ta sử dụng các bước bêndưới:

1 Lay các test features và sử dụng các Cây quyết định đã tạo ra dé dự đoán kết

quả, lưu nó vào một danh sách.

2 Tính toán số lượng vote trên toàn bộ Forest cho từng kết quả

3 Lay kêt quả cho sô lượng vote lớn nhat làm kêt quả cuôi cho minh.

Kiều Thị Ngọc Bích - DI7CNPM4 19

Trang 20

Hình 1.1.2.1 Cách hoạt động cua Random Forest

1.2.3 Uu điểm và nhược điểm của thuật toán Random Forest

Như bắt kỳ thuật toán nào, có những ưu điểm và nhược điểm khi sử dụng nó Trong

hai phần tiếp theo chúng ta sẽ xem xét ưu và nhược điểm của việc sử dụng rừng ngẫu nhiên

dé phân loại và hỗồi quy

1.2.3.1 Uu điểm

Thuật toán Random Forest không sai lệch vì có nhiều cây và mỗi cây được huấn luyệntrên mỗi tập con dữ liệu Về cơ bản, thuật toán Random Forest dựa vào sức mạnh của “đám

đông”; do đó sự chênh lệch về tổng thé được giảm xuống

Thuật toán này rất ôn định Ngay cả khi một điểm đữ liệu mới được đưa vào tập dữ

liệu, thuật toán tổng thé không bị ảnh hưởng nhiều vì dữ liệu mới có thể ảnh hưởng đến một

cây, nhưng rât khó đê nó tác động đên tât cả các cây.

Thuật toán Random Forest hoạt động tốt ngay trong cả bài toán phân loại và hồi quy

Kiều Thị Ngọc Bich - D17CNPM4 20

Trang 21

Đồ án tốt nghiệp đại học

Thuật toán Random Forest cũng làm việc tốt khi dit liệu có bị thiếu giá trị hoặc nó chưađược chia tỷ lệ tốt

1.2.3.2 Nhược diễn

Một nhược điểm lớn của Random Forest nằm ở sự phức tạp của thuật toán Nó yêu cầu

nhiều tài nguyên tính toán hơn, do số lượng lớn các cây quyết định được kết hợp với nhau

Do độ phức tạp của chúng, chúng đòi hỏi nhiều thời gian để đào tạo hơn so với các

thuật toán tương đương khác.

1.3 Thuật toán Kernel SVM

13.1 Giới thiệu về thuật toán SVM

SVM là một thuật toán giám sát, nó có thé sử dụng cho cả việc phân loại hoặc đệ quy.Tuy nhiên nó được sử dụng chủ yếu cho việc phân loại Trong thuật toán này, chúng ta vẽ đồ

thị đữ liệu là các điểm trongn chiều ( ở đây n là sé lượng các tinh năng bạn có) với giá tri của

mỗi tính năng sẽ là một phần liên kết Sau đó chúng ta thực hiện tìm "đường bay" phân chiacác lớp Đường bay - nó chỉ hiểu đơn giản là 1 đường thang có thé phân chia các lớp ra thànhhai phần riêng biệt Cách hoạt động của thuật toán SVM

y

Support Vectors i sự

Support Vectors hiểu một cách đơn giản là các đối tượng trên đồ thị tọa độ quan sát,

SVM là một biên giới dé chia hai lớp tốt nhất

Mô hình toán học

Support Vector Machine không đưa ra kha năng output băng 1 như Logistic Regression,thay vào nó nó chỉ đơn thuần dự đoán output bằng 0 hay bang 1

Kiều Thị Ngọc Bích - DI7CNPM4 21

Trang 22

Đồ án tốt nghiệp đại học

j= (1 khixTMw > 0

0 khixTw <0

Độ chính xác của phương trình giả thuyết

Trong Support Vector Machine, phan mat mát mỗi input đóng góp có dang hàm hinge

loss

0,k(1 — x? khiy=1

cost(x) = lv ( x w)) r ýmax(0,k(1 — xˆw)) khi y = 0

Với k là số dương bat kỳ

Khi y = 1, cost(x) = 0 nếu xŸw > 1 và cost(x) tăng dần nếu x'w < 1 và tiến tới âm vô

Trang 23

O đây hăng sô C đóng vai trò như x là độ chính quy hóa của ham mat mát giúp kiêm

soát sai lầm của phương trình giả thuyết Khi xảy ra underfitting, ta cần tăng C Khi xảy raoverfitting, ta cần giảm C

Nghiệm của thuật toán Suport Vector Machine

Ta có thê tìm diém cực tiêu của ham mat mát băng thuật toán Gradient Descent với các biên đôi

Một đặc điểm của Support Vector Machine là nó luôn cố gắng tim nghiệm sao cho

Dicision Boundary cách xa các điểm dữ liệu nhất cho thé Trong hình dưới đây, thuật toán có

xu hướng chọn phương án A thay vì phương án B vì nó cách xa các điểm dữ liệu hơn Điều

này có thé dan tới overfitting và ta có thé làm giảm xu hướng này bang cách giảm C.

A B

Kiéu Thi Ngọc Bích - DI7CNPM4 23

Trang 24

Đồ án tốt nghiệp đại học

Việc tìm nghiệm của thuật toán Support Vector Machine tương đối phức tạp nếu càiđặt thủ công Có rất nhiều thư viện đã được cài đặt sẵn Support Vector Machine và ta nêndùng chúng vì chắng những giúp tiết kiệm thời gian mà các thư viện đó còn được áp dụngnhiều kỹ thuật tối ưu hóa đề thuật toán chạy nhanh hơn

1.3.2 Các ưu điểm và nhược điểm của SVM

1.3.2.1 Uu điển

— Hiệu quả trên bộ dữ liệu có nhiều tinh năng, như dữ liệu tài chính hoặc y tế

— Hiệu quả trong trường hợp số lượng tính năng lớn hơn số lượng điểm dữ liệu

— Sử dụng một tập hợp con các điểm huấn luyện trong hàm quyết định được gọi

là vectơ hỗ trợ dé làm cho bộ nhớ hiệu quả

— Các chức năng nhân khác nhau có thê được chỉ định cho chức năng quyết định.

Bạn có thé sử dụng các nhân chung, nhưng cũng có thé chỉ định các nhân tùychỉnh.

13.2.2 Nhược điểm

— Nêu sô lượng tính năng lớn hơn rât nhiêu so với sô lượng điêm dữ liệu, thì việc

tránh trùng lắp khi chọn các hàm nhân và thuật ngữ chính quy là rất quan trọng

— SVM không trực tiếp cung cấp các ước tính xác suất Chúng được tính toán bằng

cách sử dụng xác nhận chéo năm lần đắt tiền

— Hoạt động tốt nhất trên các bộ mẫu nhỏ vì thời gian đảo tạo cao

Tính chất này dé đảm bảo cho việc hàm mục tiêu của bài toán đối ngẫu (5) là lôi

— Trong thực hành, có một vài hàm số k() không thỏa mãn điều kiện Merrcer

nhưng vẫn cho kết quả chấp nhận được Những hàm số này vẫn được gọi làKiều Thị Ngọc Bích - DI7CNPM4 24

Trang 25

Đồ án tốt nghiệp đại học

kernel Trong bài viết này, tôi chỉ tập trung vào các hàm kernel thông dụng và

có săn trong các thư viện.

Nêu một hàm kernel thỏa mãn điêu kiện (7), xét Cy = VnÀn, ta Sẽ có:

A'KA = Đn=1 3 m=1 k(Xm.Xn)YnVmÂnÂn 2 0, Van (8)

với K là một ma trận đối xứng mà phan tử ở hang thir nn cột thứ mm của nó được định

nghĩa bởi: Kam = Yn¥mK(Xm Xn)

Từ (8) ta suy ra K là một ma trận nửa xác định dương Vi vậy, bài toán tối ưu (5) córàng buộc là lồi và hàm mục tiêu là một ham lỗi Vì vậy chúng ta có thé giải quyết bài toánnày một cách hiệu quả.

Trong bài viết này, tôi sẽ không đi sâu vào việc giải quyết bài toán (5) vì nó hoàn toàntương tự như bài toán đối ngẫu của Soft Margin SVM Thay vào đó, tôi sẽ trình bày các hàm

kernel thông dụng và hiệu năng của chúng trong các bài toán thực tế Việc này sẽ được thực

hiện thông qua các ví dụ và cách sử dụng thư viện sklearn.

1.3.4 Sử dụng Kernel với SVM

Lý do giúp Support Vector Machine trở nên mạnh mẽ khi so sánh với LogisticRegression là bởi nó hoạt động rất tốt khi áp dụng Kernel đề giải quyết các bài toán có dữ liệu

phân bố phức tạp! Mặc dù Kernel cũng có thé sử dụng với Logistic Regression nhưng

Support Vector Machine có nhiều phương pháp tối ưu cho Kernel hơn nên người ta thườngchỉ sử dụng Kernel với Support Vector Machine.

Khi các điểm dữ liệu phân bố phức tạp, dé tim Decision Boundary phù hợp ta phải thêmcác biến mới Tuy nhiên, nhược điểm của cách này là khó chọn ra bộ các biến phù hợp và tốnnhiều công sức dé thử nhiều phương án khác nhau

Ý tưởng cơ bản của Kernel SVM và các phương pháp kernel nói chung là tìm một phép

biến đổi sao cho dữ liệu ban đầu là không phân biệt tuyến tính được biến sang không gianmới Ở không gian mới này, dữ liệu trở nên phân biệt tuyến tính

Nói một cách ngắn gọn, Kernel SVM là việc đi tìm một hàm số biến đổi dữ liệu x từkhông gian feature ban đầu thành dữ liệu trong một không gian mới bằng hàm số ®(x) TrongKiều Thị Ngọc Bích - DI7CNPM4 25

Trang 26

Đồ án tốt nghiệp đại học

ví dụ nay, hàm ®() đơn giản là giới thiệu thêm một chiều dữ liệu mới (một feature mới) là mộthàm số của các features đã biết Hàm số này cần thỏa mãn mục đích của chúng ta: trong khônggian mới, dữ liệu giữa hai classes là phân biệt tuyến tính hoặc gần như phân biệt tuyến tính.Khi đó, ta có thê dùng các bộ phân lớp tuyến tính thông thường như PLA, Logistic Regression,hay Hard/Soft Margin SVM.

Như trước đó đã đề cập đến việc sử dung hàm co bản ®(x) dé tạo đặc trưng cho tập dữ

liệu nhằm nâng được chiều của dữ liệu ban đầu Bằng các hàm cơ bản này, ta có thể tạo cácmặt cong phân tách cho phù hợp với các điểm dữ liệu không phân tách tuyến tính

Khi đó tôi ưu biên mêm được việt dưới dang:

Sao cho 0 < 4; SC YE, Ajy,0,i € [1,m]

Khi đó tham số tương ứng sẽ là:

we 3j>¡Äiy¡®(%¡)

1

b= IS = sgn (> Aiyi P(x)? P(x) + s)- = sgn (> Aivik (xj, x) + )

Như vậy, chỉ cần ham Kernel K(x, x) dé tính tích vô hướng giữa các điểm dữ liệu trong

không gian mới là ta có thê ước lượng được một điêm mới năm trong phân lớp nào.

Việc sử dụng hàm Kernel ở đây sẽ giúp giảm được công sô tính từng hàm ® và tích vô hướng giữa chúng Nó có thê tính được cho bât kì không gian nào rât hiệu quả Kê cả các không gian với sô chiêu vô hạn Bởi nó chỉ cân tính tích vô hướng giữa các diém dữ liệu màthôi Tất nhiên dé làm được điều đó thi Kernel phải thoả mãn điều kiện Mercer

Kiều Thị Ngọc Bích - DI7CNPM4 26

Trang 27

X ian lIx—yll?

Keres) TÚ 16G) ng xã) vy eR

Sigmoid (Sigmoid | K(z,y) = tanh (ax'y + b),a,b > 0,Vx,y € R”

Kernels)

1.4 Thuật toán Naive Bayes

1.4.1 Giới thiệu về thuật toán Naive Bayes

Thuật toán Naive Bayes là một giải thuật thuộc lớp giải thuật thống kê, nó có thể dựđoán xác suất của một phần tử dữ liệu thuộc vào một lớp là bao nhiêu Phân lớp Bayes đượcxây dựng dựa trên định lý Bayes (định lý được đặt theo tên tác giả là Thomas Bayes), Thuật toán Naive Bayes là gì?

Thuật toán Naive Bayes là một ky thuật phân loại dựa trên định lý Bayes với giả định

về sự độc lập giữa các yếu tô dự đoán Nói một cách dễ hiểu, bộ phân loại Naive Bayes giả

định rằng sự hiện diện của một đối tượng cụ thé trong một lớp không liên quan đến sự hiệndiện của bất kỳ đối tượng định lý nào khác

Ví dụ, một quả có thê được coi là quả táo nêu nó có màu đỏ, tròn và đường kính khoảng

3 inch Ngay cả khi các đặc điêm này phụ thuộc vào nhau hoặc dựa trên sự tôn tại của các đặc điêm khác, tât cả các đặc tính này đêu góp phân độc lập vào xác suât quả này là táo và đó là

lý do tai sao nó được gọi là Naive'.

Mô hình Naive Bayes dé xây dựng va đặc biệt hữu ích cho các tập dữ liệu rất lớn Cùng

với sự đơn giản, Naive Bayes được biết đến là làm tốt hơn các phương pháp phân loại thậm

Trang 28

Đồ án tốt nghiệp đại học

Công thức chỉ ra xác suất của A xảy ra nếu B cũng xảy ra, ta viết là P(AIB) Và nếu tabiết xác suất của B xảy ra khi biết A, ta viết là P(B|A) cũng như xác suất độc lập của A và B

e P(A|B) là “xác suất của A khi biết B”

e P(A) là xác suất Xảy ra của A

e P(BỊA) là “xác suất của B khi biết A”

e P(B) là xác suất xảy ra của BSuy ra:

P(AB) = P(A|B)P(B) = P(B|A)P(A)

Công thức Bayes:

P(AB)_— P(A|B)P(P) P(A|B)P(B)

PBI) = Ba) ~~ PA) ` PAB)+PAB)

P(A|B) P(A|B)P(B)

P(AB) + P(AB) P(A|B)P(B) + P(A|B)P(B)

Công thức Bayes tổng quátVới P(A) >0 và {B¡, Bz, ,Bn} là một hệ day đủ các biến cố:

- _ Tổng xác suất của hệ bang 1:

P(P,|A) = P(A) 1, P(A|B;) P (Bi)

1.4.3 Cách hoạt động của thuật toán Naive Bayes

Bộ phân lớp Naive Bayes hay bộ phân lớp Bayes (simple bayes classifier) hoạt động như sau:

Bước 1: Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần tử dữ liệu X được biểudiễn bằng một vectơ chứa n giá trị thuộc tính Al, A2, ,An = {x1,x2, ,xn}

Kiều Thị Ngọc Bích — D17CNPM4 28

Trang 29

Đồ án tốt nghiệp đại học

Bước 2: Giả sử có m lớp Cl, C2, ,Cm Cho một phan tử dữ liệu X, bộ phân lớp sẽ gán

nhãn cho X là lớp có xác suất hậu nghiệm lớn nhất Cụ thể, bộ phân lớp Bayes sẽ dự đoán X

thuộc vào lớp Ci nếu và chỉ nếu:

P(CilX) > P(CjIX) (1<=i, j <=m, i !=j) Giá tri này sé tinh dựa trên định ly Bayes.

Bước 3: Dé tim xác suất lớn nhất, ta nhận thay các giá tri P(X) là giống nhau với mọi

lớp nên không cần tính Do đó ta chỉ cần tìm giá trị lớn nhất của P(XICi) * P(Ci) Chú ý rằngP(Ci) được ước lượng băng |Di||D|, trong đó Di là tập các phan tử dữ liệu thuộc lớp Ci Nếuxác suất tiền nghiệm P(Ci) cũng không xác định được thì ta coi chúng bằng nhau P(C1) =P(C2) = = P(Cm), khi đó ta chỉ cần tìm giá trị P(XICi) lớn nhất

Bước 4: Khi số lượng các thuộc tính mô tả dữ liệu là lớn thì chi phí tính toán P(XICi)

là rất lớn, do đó có thể giảm độ phức tạp của thuật toán Naive Bayes giả thiết các thuộc tínhđộc lập nhau Khi đó ta có thể tính:

Khi giả định về tính độc lập, bộ phân loại Naive Bayes hoạt động tốt hơn so với các

mô hình hồi quy logistic và bạn cần ít dữ liệu đào tao hơn

Nó hoạt động tốt trong trường hợp các biến số đầu vào phân loại so với các biến số.

Đối với biến số, phân phối chuẩn được giả định

1.4.4.2 Nhược diémNếu biến phân loại có một danh mục (trong tập dữ liệu thử nghiệm), không được quansát trong tập dữ liệu huấn luyện, thì mô hình sẽ chỉ định xác suất 0 và sẽ không thể đưa ra dựđoán Điều này thường được gọi là “Tần số không” Dé giải quyết van dé này, chúng ta có thé

Kiều Thị Ngọc Bích - DI7CNPM4 29

Trang 30

Đồ án tốt nghiệp đại học

sử dụng kỹ thuật làm min Một trong những kỹ thuật làm min đơn giản nhất được gọi là

Laplace.

Mặt khác, Naive Bayes cũng được biết đến như một công cụ ước lượng toi, vì vậy kết

quả xác suất từ dự đoán proba không được quá coi trọng

Một hạn chế khác của Naive Bayes là giả định về các yếu tố dự đoán độc lập Trong

cuộc sông thực, hầu như không thể có được một tập hợp các yếu tố dự đoán hoàn toàn độc

^

lập.

Kiều Thị Ngọc Bich - D17CNPM4 30

Trang 31

Đồ án tốt nghiệp đại học

CHƯƠNG 2 ỨNG DỤNG HỌC MÁY TRONG DỰ BÁO CHÁY

RỪNG

2.1 Tổng quan về hiện trạng cháy rừng hiện nay trên thế giới

Trên Trái đất, Cháy rừng bắt đầu do sét đánh hoặc do con người vô tình, và mọi người

sử dụng đám cháy có kiểm soát để quản lý đất nông nghiệp và đồng cỏ và dọn sạch thảm thực

vật tự nhiên cho đất canh tác Hỏa hoạn có thé tạo ra một lượng lớn khói ô nhiễm, giải phóng

khí nhà kính và vô tình làm suy thoái các hệ sinh thái Tuy nhiên, hỏa hoạn cũng có thể loại

bỏ những bụi cây đã chết và đang chết dần, có thê giúp khôi phục hệ sinh thái trở lại trạng thái

tốt Trong nhiều hệ sinh thái, bao gồm cả rừng núi và đồng cỏ, thực vật cùng tiến hóa với lửa

và cân dot định kỳ dé sinh sản.

Trong những năm gần đây, tác động tàn khốc của các trận cháy rừng, khiến hơn 100người thiệt mang và hàng nghìn người mat nhà cửa, đã chiếm lĩnh các tiêu đề trên khắp thégiới.

Kiều Thị Ngọc Bich - D17CNPM4 31

Trang 32

Đồ án tốt nghiệp đại học

Một số quốc gia đã báo cáo những vụ hỏa hoạn tôi tệ nhất của họ trong nhiều thập kỷ,bao gồm hàng trăm vụ hỏa hoạn chết người trên khắp Địa Trung Hải Tại Algeria, ít nhất 90

người đã thiệt mạng.

Dam cháy Dixie của California - đám cháy lớn thứ hai trong lịch sử của bang, và đấm

cháy rừng ở Siberia đang được coi là một số đám cháy lớn nhất trong lịch sử được ghi lại

Theo Cơ quan Vũ trụ Châu Au, “cháy rừng ảnh hưởng đến ước tính khoảng bốn triệu

km vuông (1,5 triệu dặm vuông) đất của Trái đất mỗi năm” Đặt nó trong bối cảnh, đó là

khoảng một nửa diện tích của Hoa Kỳ, lớn hơn Ấn Độ, hoặc gan gap bốn lần kích thước của

Nigeria.

Chay rừng đang gia tang

Trong khi cháy rừng là một phan tự nhiên của nhiều môi trường như một cách đề loại

bỏ bụi cây chết và phục hồi chất dinh dưỡng, các nhà khoa học đã cảnh báo rang chúng dangtrở nên thường xuyên hơn và lan rộng hơn.

Vào tháng 8, một báo cáo đáng báo động của Liên hợp quốc cho răng hoạt động củacon người gây ra những thay đổi "chưa từng có" đối với khí hậu Các nhà khoa học trên toàncầu cho biết nhân loại sẽ phải trải qua thời tiết khắc nghiệt hơn trong những năm tới và sẽgánh chịu hậu quả do mực nước biển dâng cao và băng ở Bắc Cực tan chảy

Theo Trung tâm Nghiên cứu Dịch té học về Thảm họa, ít nhất 470 thảm họa cháy rừng

- những sự cố khiến 10 người trở lên hoặc hon 100 người bị ảnh hưởng - đã được báo cáo trêntoàn cầu ké từ năm 1911, gây thiệt hại ít nhất 120 tỷ USD.“

Kiều Thị Ngọc Bích - DI7CNPM4 32

Trang 33

Hình 2.2 Những dam cháy thiệt hai nặng né nhât trong lịch sw

Vào thang 8 năm 2021, vụ cháy rừng ở Algeria đã gây ra thương vong cho ít nhất 90

người, trong đó có 33 binh sĩ, đã thiệt mạng trong các vụ cháy rừng, theo chính quyền địa phương Cơ quan Bảo vệ Dân sự Algeria cho biết, các đám cháy rừng bắt đầu bùng phát từ hôm Thứ Hai (9/8), sau đó lan rộng tại nhiều khu vực Tính đến tối ngày 11/8, Algeria đã ghi

nhận 99 vụ cháy rừng tại 16 bang trên toàn quốc !!3!

Kiều Thi Ngọc Bích - DI7CNPM4 33

Trang 34

Đồ án tốt nghiệp đại học

Trong một vài năm qua những trận cháy rừng đã xảy ra ở rất nhiều nước trên thế giới

như là Algeria, Canada, Hy Lạp, Mỹ, Brazil, Úc, và Hợp chủng quốc Hoa Kỳ (USA) đã nângcao nhận thức toàn cầu và lo ngại về sức tàn phá và hậu quả của việc cháy rừng Tuy nhiên

mức độ phức tạp và mức độ ảnh hưởng của cháy rừng đã vượt qua những con số thống kê

được cung cấp bởi các báo cáo và phương tiện truyền thông chính thức về tông diện tích bịcháy, số ngôi nhà bị phá hủy hoặc thương vong về người Tổ chức Y tế Thế giới (WHO) đãxác định cháy rừng và đặc biệt là những nơi xảy ra cháy gần với các khu vực đô thị là mộttrong những mối de doa lớn đối với an ninh y tế toàn cầu trong thé kỉ 21, nhắn mạnh sự cầnthiết của các chính trị gia, chuyên gia và các bên liên quan phải nhìn nhận mức độ và tính đachiều của các tác động của cháy rừng và các rủi ro dẫn đến hậu quả WHO cũng đã cảnh báorằng cần phải có những biện pháp hữu hiệu dé quản lý rủi ro và khủng hoảng

Ở nước ta, mỗi năm xảy ra hàng trăm vụ cháy rừng, thiêu hủy ngàn héc ta rừng khác

nhau Theo báo cáo năm 2020, cả nước đã xảy ra 179 vụ cháy rừng, gây thiệt hại 645 ha (giảm1.331 ha so với cùng kỳ năm 2019) Vì thế, vấn đề phòng chống cháy rừng và hạn chế nhữnghậu quả xâu do cháy rừng gây ra là một việc làm cân thiệt.

2.2 Tong quan về hệ thống cảnh báo cháy rừng FWI

Kiều Thị Ngọc Bích - D17CNPM4 34

Trang 35

Đồ án tốt nghiệp đại học

Hệ thống Chỉ số Thời tiết Cháy (FWI) là phan đầu tiên của Hệ thống Xếp hạng Nguy

cơ Cháy rừng của Canada (CFFDRS) được đưa vào New Zealand vào năm 1980 Nó đã được

chứng minh là một hệ thống xếp hạng nguy hiểm cháy phù hợp cho quốc gia này FWI đãđược đánh giá trong nhiều mùa trước khi nó được giới thiệu cho mùa cháy 1980-1981

Chỉ số Thời tiết cháy (FWD) là một chỉ số dựa trên khí tượng được sử dụng trên toàn

thế giới dé ước tính nguy cơ hỏa hoạn Nó bao gồm các thành phần khác nhau giải thích cho

ảnh hưởng của độ 4m nhiên liệu và gió đến hành vi và sự lan truyền của đám cháy FWI càngcao thì điều kiện khí tượng càng thuận lợi dé gây ra cháy rừng Chỉ số này có thé giúp hìnhthành chiến lược du lịch dài hạn và lập kế hoạch đầu tư trong tương lai trong điều kiện khí hậuthay đồi

Hệ thống FWI yêu cầu quan sát thời tiết được thu thập từ địa điểm và thời gian quansát tiêu chuan Các tiêu chuẩn về vị trí này có thé được tìm thấy trong cuốn Weather Guidefor the Canadian Forest Fire Danger Rating System (Lawson and Armitage, 2008)!!! Hệ thống

yéu cầu các quan sát được thực hiện vào buổi trưa khi mặt trời đạt đỉnh.

FWI dựa trên kết quả do thời tiết được thực hiện vào giờ chuan giữa trưa và xếp hạng

nguy cơ hỏa hoạn tại đỉnh điểm giữa buổi chiều từ 2:00 - 4:00 chiều Các bài đọc về thời tiết

được yêu cầu là:

* Nhiệt độ không khí (trong bóng râm)

* Độ âm tương đối (trong bóng râm)

* Tốc độ gió (ở độ cao 10 mét so với mặt đất trong thời gian trung bình hơn 10 phút)

* Lượng mưa (Trong 24 giờ trước)

Chỉ số Thời tiết Cháy (The Weather Index) có sáu thành phần:

Ba mã độ âm nhiên liệu

1 Mã độ 4m nhiên liệu mịn (FFMC-Fine Fuel Moisture Code)

2 Mã độ âm Duff (DMC-Duff Moisture Code)

3 Mã hạn hán (DC- Drought Code)

Ba chỉ số hành vi cháy

1 Chỉ số lây lan ban dau (ISI - Initial Spread index)Kiều Thị Ngọc Bich - D17CNPM4 35

Ngày đăng: 08/03/2024, 13:54

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w