CHƯƠNG 1. TỔNG QUAN CƠ SỞ LÝ LUẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU NGUY CƠ VÀ CẢNH BÁO CHÁY RỪNG TỈNH SƠN LA TRÊN CƠ SỞ ỨNG DỤNG CÔNG NGHỆ ĐỊA THÔNG TIN
1.3. Quan điểm, phương pháp và quy trình nghiên cứu
1.3.2. Phương pháp nghiên cứu
Luận án đã sử dụng các phương pháp nghiên cứu truyền thống của Địa lí học như: phương pháp nghiên cứu trong phòng kết hợp với phương pháp nghiên cứu ngoài thực địa và kết hợp với các phương pháp nghiên cứu khác cụ thể như sau:
1.3.2.1. Phương pháp tổng hợp, kế thừa và phân tích tài liệu
Luận án đã thu thập, sưu tầm, tổng hợp tài liệu từ các nguồn khác nhau và sắp xếp chúng theo một trình tự liên quan đến nội dung nghiên cứu.
1.3.2.2. Phương pháp khảo sát thực địa
Tác giả đã thực hiện các chuyến khảo sát thực địa ở tỉnh Sơn La (kết hợp với các đợt khảo sát thực địa của đề tài KHCN-TB.13C/13 - 18 do GS.TS Nguyễn Ngọc Thạch chủ trì) trong các năm từ 2016-2020 theo hướng: 1) Khảo sát, tìm hiểu đặc điểm các điều kiện tự nhiên, kinh tế - xã hội xây dựng bộ tiêu chí và thu thập số liệu, 2) Xác thực và kiểm chứng các điểm hot spot, điểm cháy, vụ cháy đã xảy ra trong quá khứ, xác định tọa độ điểm cháy bằng GPS, xây dựng mẫu khóa ảnh, đối chứng vụ cháy bằng ảnh viễn thám trên thực địa, 3) Tham vấn cán bộ kiểm lâm và người dân địa phương để xây dựng cơ sở dữ liệu luận án và kiểm chứng các kết quả nghiên cứu (phụ lục 2).
Tác giả đã thực hiện 3 đợt khảo sát thực địa (thời gian thực địa 5 ngày/đợt) với các nội dung được thực hiện như sau:
- Đợt 1 (từ ngày 29/08/2016):
+ Gặp gỡ và trao đổi với lãnh đạo và các cơ quan chuyên môn có liên quan đến nội dung nghiên cứu ở tỉnh Sơn La.
+ Thu thập các số liệu thống kê, từ các cơ quan chuyên môn: Văn phòng UBND; Sở, chi cục, phòng tài nguyên và môi trường; Sở, phòng Nông nghiệp và phát triển nông thôn; Chi cục, hạt kiểm lâm; Văn phòng, chi nhánh văn phòng đăng ký quyền sử dụng đất ở tỉnh Sơn La.
- Đợt 2 (từ ngày 03/03/2017):
+ Thu thập bổ sung các số liệu từ các cơ quan chuyên môn: Văn phòng UBND;
Sở, chi cục, phòng tài nguyên và môi trường; Sở, phòng Nông nghiệp và phát triển nông thôn; Chi cục, hạt kiểm lâm; Văn phòng, chi nhánh văn phòng đăng ký quyền sử dụng đất ở tỉnh Sơn La và huyện Thuận Châu.
+ Khảo sát thực địa tìm hiểu đặc điểm các điều kiện tự nhiên, kinh tế - xã hội tỉnh Sơn La theo bộ tiêu chí đề xuất và xây dựng bộ mẫu khóa ảnh viễn thám SPOT 6 trong nghiên cứu NCCBCR ở tỉnh Sơn La và các huyện Thuận Châu, Bắc Yên, Mai Sơn, Quỳnh Nhai, Mai Châu, Vân Hồ, Phù Yên và Mường La.
+ Tham gia lắp đặt và chạy thử nghiệm Trạm thời tiết thông minh iMetos ở 03 xã: Phỏng Lái, Tông Lệnh và Chiềng Bom ở huyện Thuận Châu.
+ Tham vấn cán bộ kiểm lâm và người dân địa phương để bổ sung hoàn thiện cơ sở dữ liệu luận án.
- Đợt 3 (từ ngày 30/03/2018):
+ Khảo sát thực địa kiểm chứng một số kết quả nghiên cứu và các bản đồ trọng điểm NCCR đã thành lập ở tỉnh Sơn La, huyện Thuận Châu và các xã Long Hẹ, Bó Mười, Chiềng Bom, Mường É và Liệp Tè, Phổng Lập và Co Mạ.
+ Tham gia tập huấn và chuyển giao WebGIS phục vụ nghiên cứu CBSTBCR cho huyện Thuận Châu.
1.3.2.3. Phương pháp tham vấn chuyên gia
Trong quá trình nghiên cứu, tác giả đã tìm hiểu, trao đổi thông tin và tổ chức hội thảo luận án để thu nhận, tiếp thu nhiều ý kiến đóng góp quý báu của các nhà khoa học, các cán bộ quản lý và người dân ở địa phương. Từ đó, tác giả có được tư duy khoa
học logic, trau dồi kinh nghiệm thực tiễn, xây dựng cơ sở khoa học để xác lập Bộ tiêu chí cho mô hình nghiên cứu NCCBCR và giải quyết các vấn đề nghiên cứu.
1.3.2.4. Phương pháp bản đồ
Trong quá trình nghiên cứu, luận án đã dựa trên cơ sở nguồn tư liệu bản đồ của các cơ quan chuyên môn (hành chính, địa hình, mưa, thủy văn, rừng...), các kỹ thuật phân tích và kết quả nghiên cứu của luận án cũng được thể hiện trên bản đồ.
1.3.2.5. Phương pháp Viễn thám
Viễn thám là ngành khoa học thu nhận từ xa các thông tin về các đối tượng, hiện tượng trên Trái Đất mà không cần tiếp xúc trực tiếp với chúng. Các tư liệu ảnh viễn thám được sử dụng trong luận án bao gồm: Ảnh Landsat 8 và ảnh SPOT 6. Các nguồn dữ liệu viễn thám này được sử dụng để xây dựng các bản đồ hiện trạng rừng tỉnh Sơn La năm 2016 (giải đoán từ dữ liệu ảnh vệ tinh SPOT 6) và thành lập bản đồ chỉ số ΔNBR (xử lý từ dữ liệu ảnh vệ tinh Landsat 8) phục vụ cho nghiên cứu NCCBCR tỉnh Sơn La và kiểm chứng dữ liệu điểm nóng và điểm cháy.
Các phần mềm viễn thám được sử dụng gồm có: PCI Geomatica 2016, Envi 5.3 và Google Earth Engine.
1.3.2.6. Phương pháp GIS
Xây dựng cơ sở dữ liệu các nhân tố ảnh hưởng đến nghiên cứu NCCBCR
trong môi trường GIS là nhiệm vụ quan trọng hàng đầu để xây dựng dữ liệu đầu vào luận án (thông qua việc phân tích Tam giác môi trường cháy rừng ở tỉnh Sơn La).
Một số mô hình phân tích NCCBCR xây dựng trong môi trường GIS đã dựa
trên giả thiết những vùng có cháy rừng xảy trong điều kiện môi trường hiện tại sẽ là những vùng có tiềm năng cao xảy ra cháy rừng trong tương lai. Hay nói cách khác, những điểm cháy rừng trong tương lai sẽ xảy ra tại những nơi có điều kiện môi trường tương tự như những nơi có cháy rừng đã xảy trong quá khứ. Những kiểu môi trường như vậy có thể đánh giá thông qua nghiên cứu các nhân tố ảnh hưởng đến quá trình
cháy rừng như: độ cao, độ dốc địa hình, hiện trạng sử dụng đất... Các yếu tố này được số hóa và tổ chức thành các lớp thông tin hoặc chuyên đề cơ sở dữ liệu trong môi trường GIS theo Bộ tiêu chí luận án xác lập (bảng 2.15) bao gồm các nội dung sau:
- Chuẩn hoá các dữ liệu thu thập được.
- Mô hình đánh giá tổng hợp các địa tổng thể:
Đánh giá tổng hợp là sự đánh giá được thực hiện trên nhiều mặt, nhiều thuộc
tính của đối tượng và cùng một thời điểm.
Để đánh giá một cách tổng hợp theo nhiều chỉ tiêu của một tập hợp các đối tượng địa lý cùng loại, trước hết cần căn cứ vào mục đích đặt ra ban đầu, tiến hành đánh giá đối tượng theo từng chỉ tiêu riêng lẻ, sau đó tiến hành đánh giá tổng hợp theo các chỉ tiêu trong Bộ tiêu chí.
- Xây dựng bản đồ hiện trạng của các nhân tố liên quan đến luận án (độ cao, độ dốc, giao thông, thủy văn...).
- Nhập bản đồ thành dạng số (tự động hóa bản đồ).
- Tự động hoá xác định trọng số bản đồ các hợp phần.
- Phương pháp xử lý mô hình không gian nhiều lớp thông tin.
- Các thuật toán xử lý:
+ Ma trận chéo Crossing.
+ Các thuật toán phân loại (Classify).
+ Thuật toán tích hợp nhiều lớp thông tin theo trọng số.
+ Thuật toán tính đổi các tích hợp thông tin tạo bản đồ khoảng cách và các buffer ảnh hưởng...
+ Các thuật toán lọc tạo bản đồ độ dốc, hướng dốc, tính mật độ....
Phần mềm được sử dụng thực hiện là phần mềm ArcGis 10.5.
1.3.2.7. Phương pháp phân tích đa chỉ tiêu MCA
Đề tài nghiên cứu NCCBCR tỉnh Sơn La trên cơ sở ứng dụng CNĐTT, trong đó: bản đồ trọng điểm nguy cơ cháy rừng được thành lập dựa việc xác định các yếu tố chính ảnh hưởng đến cháy rừng thông qua tham vấn kiến thức các chuyên gia, kết hợp thống kê xác suất các điểm cháy đã xảy ra cho từng chỉ tiêu trong Bộ tiêu chí. Khi chồng xếp các lớp thông tin bằng GIS, dựa trên tham vấn ý kiến của các chuyên gia để xếp hạng cho các chỉ tiêu và sử dụng phương pháp Đánh giá thứ bậc - Analytic Hierarchy Process (AHP) để xác định trọng số của các chỉ tiêu.
a) Khái niệm
MCA là công cụ ra quyết định được sử dụng để đánh giá các vấn đề khi đối mặt với các thay đổi và kỳ vọng khác nhau và muốn tìm các giải pháp tốt nhất liên quan đến các mục tiêu khác nhau trong các lĩnh vực như: quản lý tài
nguyên thiên nhiên, sinh thái, môi trường, kinh tế xã hội… MCA được phát triển nhằm giải quyết các vấn đề đa chỉ tiêu trong quá trình đưa ra quyết định cho chỉ tiêu phù hợp nhất.
Quá trình ra quyết định thường bao gồm 5 giai đoạn chính: 1) Xác định vấn đề, 2) Thiết lập các chỉ tiêu và tạo ra lựa chọn thay thế để lựa chọn chỉ tiêu, 3) Đánh giá tiêu chuẩn, 4) Lựa chọn phương pháp đa chỉ tiêu phù hợp và 5) Sắp xếp các giải pháp thay thế [33].
b) Quy trình thực hiện MCA
- Xác định các phương án chính sách hay giải pháp sẽ phân tích MCA được ứng dụng hầu hết trong các lĩnh vực và thường được sử dụng trong quá trình ra quyết định. Vì vậy, trước khi tiến hành phân tích cần phải xác định vấn đề là gì và cần phân tích nhằm mục đích gì.
- Xác định chỉ tiêu đánh giá Sau khi xác định được vấn đề cần giải quyết, cần phải xác định hệ thống các chỉ
tiêu đánh giá vấn đề đó. Tùy thuộc vào tính chất của vấn đề mà những chỉ tiêu được lựa chọn sao cho phù hợp nhất. Đây là bước quan trọng có tính chất quyết định đến kết quả MCA. Thông thường các chỉ tiêu được lựa chọn sẽ dựa trên kiến thức chuyên gia.
c) Đánh giá thứ bậc - Analytic Hierarchy Process (AHP)
Vào những năm đầu thập niên 1970, Thomas L.Saaty [80] đã phát triển phương pháp ra quyết định. Phân tích thứ bậc AHP giúp xử lý các vấn đề có nhiều
tiêu chuẩn phức tạp, được ứng dụng rộng rãi nhất trong MCA.
AHP giúp trả lời các câu hỏi như: “nên chọn phương án nào?” hay “phương
án nào là tốt nhất?” bằng cách chọn một phương án tốt nhất thỏa mãn các chỉ tiêu
của người ra quyết định. AHP giúp cho người đưa ra quyết định có thể xác định chính xác mức độ ảnh hưởng của các nhân tố đến vấn đề nghiên cứu. Từ đó, giúp họ nhận
định vấn đề nghiên cứu rõ ràng hơn và tầm quan trọng của các nhân tố ảnh hưởng như thế nào đến vấn đề được đưa ra.
Các bước phân tích và xử lý các chỉ tiêu cháy rừng theo AHP được thực hiện bằng phần mềm ArcGis 10.5.
1.3.2.8. Phương pháp học máy (ML)
Trí tuệ nhân tạo AI (Artificial Intelligence) là các kỹ thuật giúp cho máy tính
thực hiện được những công việc của con người chúng ta (ví dụ: như một chương trình chơi cờ vua tự động có thể được coi là một chương trình có sử dụng AI hay viết tắt là một chương trình AI). Trong lĩnh vực AI có một nhánh nghiên cứu về khả năng tự học của máy tính được gọi là học máy [92].
- Một bài toán ML cần trải qua 5 bước chính:
Bước 1. Chọn mô hình: Chọn một mô hình thống kê cho tập dữ liệu (ví dụ
như: mô hình thống kê Becnuli, mô hình phân phối chuẩn...).
Bước 2. Tìm tham số: Các mô hình thống kê có các tham số tương ứng, nhiệm
vụ lúc này là tìm các tham số này sao cho phù hợp với tập dữ liệu nhất có thể.
Bước 3. Suy luận: Sau khi có được mô hình và tham số, ta có thể dựa vào
chúng để đưa ra suy luận cho một đầu vào mới nào đó.
Bài toán ML nào cũng đều cần có dữ liệu để huấn luyện, ta có thể coi nó là điều kiện tiên quyết vì vậy dữ liệu sau khi có được cần phải xử lý:
Bước 4. Chuẩn hoá: Tất cả các dữ liệu đầu vào đều cần được chuẩn hoá để
máy tính có thể xử lý được. Quá trình chuẩn hoá bao gồm số hóa dữ liệu, co giãn
thông số cho phù hợp với bài toán. Việc chuẩn hóa này ảnh hưởng trực tiếp tới tốc độ huấn luyện cũng như hiệu quả huấn luyện.
Bước 5. Phân chia: Việc mô hình được chọn có khớp với tập dữ liệu đang có
hay không có nghĩa là giả thuyết của ta là đúng và có thể xảy ra tình huống dữ liệu thật lại không khớp. Vấn đề này trong học máy được gọi là khớp quá (Overfitting).
Vì vậy khi huấn luyện người ta phải phân chia dữ liệu ra thành 3 loại để có thể kiểm chứng được phần nào mức độ tổng quát của mô hình. Cụ thể 3 loại đó là:
(1) Tập huấn luyện (Training set): Chiếm 60%. Dùng để học khi huấn luyện dữ liệu.
(2) Tập kiểm chứng (Cross validation set): Chiếm 20%. Dùng để kiểm chứng mô hình khi huấn luyện.
(3) Tập kiểm tra (Test set): Chiếm 20%. Dùng để kiểm tra xem mô hình đã
phù hợp chưa sau khi huấn luyện.
Lưu ý rằng, tập kiểm tra ta phải lọc riêng ra và không được can thiệp, được sử dụng chúng trong khi huấn luyện. Còn tập huấn luyện và tập kiểm chứng thì nên xáo trộn đổi cho nhau để mô hình tính toán được huấn luyện với các mẫu ngẫu nhiên nhất có thể. Luận án đã lựa chọn phương pháp ML nhằm tăng cường tính khách quan trong nghiên cứu và đảm bảo độ chính xác cao của các lớp thông tin đầu vào khi tiến hành phân tích thông qua các thuật toán để lựa chọn thuật toán cho kết quả tốt nhất phục vụ công tác nghiên cứu bằng phần mềm mã nguồn mở Weka 3.9.3 [86].
Luận án đã lựa chọn kỹ thuật ML theo hướng Học có giám sát SL để có thể đưa ra dự đoán đầu ra cho một đầu vào mới chưa gặp bao giờ (có thể thêm các lớp đầu vào thử nghiệm) để tăng cường độ khách quan, chính xác cho kết quả nghiên cứu và sử dụng 03 thuật toán để phân tích, so sánh và lựa chọn thuật toán tốt nhất cho kết quả nghiên cứu bao gồm các thuật toán: RF, SVM và MLP.
a. Thuật toán Random Forest
Hình 1.8. Mô hình thuật toán Random Forest [45]
RF được đề xuất bởi Breiman vào năm 2001 [45]. Đây là thuật toán phân loại
có kiểm định dựa trên cây quyết định và kỹ thuật bagging and bootstrapping đã được cải tiến. Bootstrapping là một phương pháp rất nổi tiếng trong thống kê được giới thiệu bởi Efron vào năm 1979 [50]. Phương pháp này được thực hiện như sau: từ một
quần thể ban đầu lấy ra một mẫu L = (x1, x2,..,xn) gồm n thành phần để tính toán các tham số mong muốn. Trong các bước tiếp theo lặp lại b lần tạo ra mẫu Lb cũng gồm n phần từ L bằng cách lấy lại mẫu với sự thay thế các thành phần trong mẫu ban đầu
sau đó tính toán các tham số mong muốn (hình 1.8).
Phương pháp Bagging được xem như là một phương pháp tổng hợp kết quả có được từ các bootstraping sau đó huấn luyện mô hình từ các mẫu ngẫu nhiên này
và cuối cùng đưa ra dự đoán phân loại dựa vào số phiếu bầu cao nhất của lớp phân loại. Cây quyết định là một sơ đồ phát triển có cấu trúc dạng cây phân nhánh đi từ gốc cho đến lá, giá trị các lớp phân loại của mẫu được đưa vào kiểm tra trên cây quyết định. Mỗi mẫu tương ứng có một đường đi từ gốc (tức là dữ liệu đầu vào) đến lá (là các kết quả phân loại dự đoán đầu ra) và biểu diễn dự đoán giá trị phân lớp mẫu đó.
Mỗi sơ đồ cây trong tập mẫu được tạo thành từ tập hợp các điểm ảnh huấn luyện được lựa chọn ngẫu nhiên để huấn luyện mô hình phân loại RF (mỗi tập mẫu
bootstrap sẽ cho ra một tree và ntree tương ứng với nbootstrap). Khi một tập mẫu được rút ra từ tập huấn luyện (bootstrap) với sự thay thế có hoàn lại. Theo ước tính có khoảng 1/3 các phần tử không nằm trong mẫu này và vì thế chúng không tham gia vào quá trình huấn luyện. Điều này có nghĩa là chỉ có khoảng 2/3 các phần tử trong tập huấn luyện tham gia vào trong các tính toán để phân loại (gọi là dữ liệu in of bag) và 1/3 các phần tử này dùng để kiểm tra sai số (gọi là dữ liệu out of bag). Dữ liệu out of bag được sử dụng để ước lượng sai số tạo ra từ việc kết hợp các kết quả phân loại riêng lẻ sau đó được tổng hợp trong mô hình RF cũng như dùng để ước tính các biến
quan trọng (variable important) bằng chức năng Importance.
Việc ước tính các biến quan trọng được xem xét theo hai chỉ số là: (1) Độ chính xác giảm bình quân cho mỗi biến (MDA - Mean Decrease Accuracy) và (2) Sự giảm bình quân hệ số Gini đối với mỗi biến (MDG - Mean Decrease Gini).
MDA là độ chính xác của mỗi biến độc lập phân loại dựa trên đánh giá tỉ lệ sai số.
Hệ số Gini cho phép đo độ đồng nhất của mỗi lớp. Hệ số Gini (1909) càng giảm khi một lớp cụ thể nào đó có các phần tử được gán sai nhãn trong kết quả phân loại càng ít [58].