Mơ hình mạng thần kinh có thể sử dụng kết hợp nhiều hàm toán học khác nhau để xây dựng nhằm giải quyết các vấn đề riêng biệt. Dƣới đây là các hàm toán học sử dụng trong nghiên cứu đƣa vào mạng huấn luyện cụ thể gồm: Tangent, sigmoid, activation,… Kết quả của mơ hình cho từng điểm là khả năng có hay khơng xuất hiện dịch bệnh sốt rét tại điểm đó. Sự kết hợp mạng lƣới điểm nghiên cứu tạo ra bản đồ kết quả về nguy cơ dịch bệnh sốt rét trên toàn địa bàn nghiên cứu.
2.1.3. Tối ƣu hóa dựa trên khái niệm địa lý sinh học (BBO - Biogeography- based optimization)
Địa lý sinh học đã đƣợc nghiên cứu từ thế kỷ thứ 19, đến những năm 1960 Robert MacArthur và Edward Wilson bắt đầu làm việc cùng nhau trên các mơ hình tốn học về địa lý sinh học, cơng trình của họ phát triển đỉnh điểm với ấn bản năm 1967 có tên “The Theory of Island Biogeography”. Những năm gần đây Địa lý sinh
học đƣợc nghiên cứu cùng các thuật tốn và dần hình thành nên khái niệm Tối ƣu hóa dựa trên địa lý sinh học (BBO), hay đƣợc hiểu là thuật tốn tính tốn tiến hóa đƣợc thúc đẩy bởi một q trình tự nhiên (địa lý sinh học) do Dan Simon giới thiệu vào đầu vào năm 2008.
Địa lý sinh học tự nhiên mơ tả cách các lồi trong tự nhiên di cƣ từ đảo này sang đảo khác, cách lồi mới phát sinh và lồi nào đó trở nên tuyệt chủng nhƣ thế nào. Khái niệm “Đảo” đƣợc hiểu là một môi trƣờng sống chung chung trong tự nhiên đặc trƣng và tách biệt về mặt địa lý với mơi trƣờng sống khác. Mỗi đảo có các điều kiện để quyết định tính phù hợp cho các lồi cƣ trú, chỉ số phù hợp môi trƣờng sống đƣợc gọi là HSI (Habitat Suitability Index), cịn các điều kiện của mơi trƣờng sống đó đƣợc coi là các biến chỉ số phù hợp SIV (Suitability Index Variables). SIV có thể đƣợc coi là các biến độc lập của mơi trƣờng sống cịn HSI là các biến phụ thuộc.
Một mơi trƣờng sống có chỉ số HSI cao sẽ có số lƣợng lồi lớn và ngƣợc lại mơi trƣờng có chỉ số HSI thấp sẽ có số lƣợng lồi nhỏ. Đặc điểm của mơi trƣờng sống có HSI cao cịn thể hiện ở tỷ lệ nhập cƣ thấp vì mơi trƣờng gần nhƣ bão hịa với các lồi, sẽ có nhiều lồi di cƣ đến môi trƣờng sống lân cận gần đó (điều này khơng có nghĩa là một loài di cƣ hoàn toàn biến mất khỏi mơi trƣờng sống đó mà chỉ một vài đại diện của lồi đó di cƣ). Khi số lƣợng di cƣ của các lồi tới một mơi trƣờng sống tăng lên sẽ làm tăng chỉ số HSI của mơi trƣờng đó vì sự phù hợp của môi trƣờng sống tỷ lệ thuận với sự đa dạng sinh học của nó. Tuy nhiên, nếu HSI của một mơi trƣờng sống thấp thì các lồi cƣ trú ở đó sẽ có xu hƣớng tuyệt chủng, điều này sẽ tiếp tục mở đƣờng cho việc nhập cƣ bổ sung. Do đó, mơi trƣờng sống có HSI thấp sẽ năng động hơn trong phân bố lồi của chúng so với mơi trƣờng sống có chỉ số HSI cao.
Trên đây là cách phân bố loài trong tự nhiên, xét tƣơng tự với các giải pháp vấn đề có thể bất kỳ trong lĩnh vực nào và mỗi giải pháp đƣợc định lƣợng sự phù hợp của nó. Một giải pháp tốt tƣơng tự nhƣ một mơi trƣờng có chỉ số HSI cao,
ngƣợc lại một giải pháp kém thể hiện nhƣ một mơi trƣờng có chỉ số HSI thấp. Nhƣ vậy có thể thấy, các giải pháp có HSI cao chống lại sự thay đổi nhiều hơn các giải pháp HSI thấp và các giải pháp HSI cao có xu hƣớng chia sẻ các tính năng (features) của chúng cho giải pháp có HSI thấp (điều này cũng có ý nghĩa tƣơng tự nhƣ trong địa lý sinh học tự nhiên là các tính năng sẽ khơng biến mất khỏi giải pháp có HSI cao mà các tính năng mới sẽ xuất hiện trong các giải pháp có HSI thấp). Các giải pháp kém sẽ có nhiều tính năng từ giải pháp tốt. Việc bổ sung các tính năng mới vào các giải pháp có HSI thấp có thể nâng cao chất lƣợng của các giải pháp đó. Đây đƣợc hiểu là phƣơng pháp giải quyết vấn đề tối ƣu hóa dựa trên địa lý sinh học (BBO) [35].
BBO tối ƣu hóa một vấn đề nhất định bằng cách kết hợp một giải pháp ứng viên hiện có với một giải pháp ứng viên mới đƣợc tạo ra theo một công thức đơn giản. Đây là thuật tốn tiến hóa, có khả năng tối ƣu hóa một hàm bằng cách ngẫu nhiên và lặp đi lặp lại cải thiện các giải pháp.
Hình 2.6 Mơ hình minh họa về phong phú lồi với một mơi trƣờng sống
Tỷ lệ di cƣ và nhập cƣ các lồi của một mơi trƣờng ảnh hƣởng tới số lƣợng các lồi trong mơi trƣờng đó thể hiện cụ thể trong mơ hình trên với 2 trục là trục tỷ lệ (rate) và trục số lƣợng loài (K). Đồ thị minh họa cơ bản về cơ chế và mối quan hệ giữa đƣờng nhập cƣ và đƣờng di cƣ. Hai đƣờng chéo tƣơng ứng là tỷ lệ di cƣ (emigration rate) và nhập cƣ của các loài (immigration rate), trong thực tế 2 đƣờng chéo này có thể là những đƣờng cong phức tạp, trên đây là mơ hình giản lƣợc. I
(Immigration Max) là tỷ lệ nhập cƣ tối đa, E (Emigration Max) là tỷ lệ di cƣ tối đa. Ko, Kmax tƣơng ứng là số lƣợng cân bằng của các loài và số lƣợng loài tối đa.
Tỷ lệ nhập cƣ tối đa khi khơng có lồi nào sống trong mơi trƣờng đó, khi các lồi nhập cƣ vào mơi trƣờng, mơi trƣờng sống sẽ trở nên đơng đúc hơn lúc đó một số lồi khó tồn tài hơn trong mơi trƣờng đó nên tỷ lệ nhập cƣ giảm và bắt đầu xuất hiện di cƣ tìm nơi cƣ trú mới, tỷ lệ di cƣ cao nhất khi số lƣợng lồi trong mơi trƣờng ở mức tối đa. Số lƣợng loài cân bằng khi 2 tỷ lệ trên đạt ngƣỡng tại điểm giao nhau trong mơ hình. Trong tự nhiên với mỗi mơi trƣờng sống có thể xảy ra các biến động nhƣ thiên tai, ảnh hƣởng xấu của mơi trƣờng hay xuất hiện lồi ăn thịt sẽ tác động tới sự cân bằng tỷ lệ di cƣ và nhập cƣ, khi đó mơi trƣờng sẽ cần thêm khoảng thời gian để dần trở về trạng thái cân bằng.
Phƣơng pháp BBO thƣờng đƣợc sử dụng để tối ƣu hóa các hàm giá trị đa chiều. BBO mô phỏng sự phân bố địa lý các điều kiện tự nhiên - kinh tế - xã hội trong vùng nghiên cứu.
2.1.4. Các tham số hiệu năng (Performance parameters)
Đề tài sử dụng hai đơn vị thống kê, sai số tiêu chuẩn (Root Mean Square Error - RMSE) và độ sai tuyệt đối trung bình (Mean Absolute Error - MAE) thƣờng đƣợc sử dụng đánh giá hiệu năng của mơ hình dự đốn (Buczak và cộng sự. 2015). Mặc dù RMSE đƣợc đánh giá là nhạy cảm với giá trị lớn và một số ngoại lệ (Ch và cộng sự. 2014). Để khắc phục sự nhạy cảm này, việc sàng lọc đƣợc thực hiện để làm sạch các ngoại lệ và chuẩn hóa dữ liệu đầu vào bằng cách đƣa chúng vào cùng mức so sánh. Ngoài ra, để đo lƣờng chỉ số Kappa, đƣờng cong Đặc tính vận hành thu (ROC - đƣờng cong đặc trƣng hoạt động của bộ thu nhận - để xác định là có tín hiệu hay chỉ là do nhiễu, là một đồ thị một trục là Độ nhạy, trục còn lại là Đặc trƣng cho một hệ thống phân loại nhị phân khi mà ngƣỡng phân loại của nó bị thay đổi) và phần diện tích dƣới đƣờng cong (AUC) là thƣớc đo cho độ chính xác của bài kiểm tra, chẳng hạn: 1 là tối ƣu, 0.5 là kém. Phần diện tích này có ý nghĩa là thƣớc
hai chiều là True Positive Rate và True Negative Rate thay đổi theo trục x và y [34]. Trong đó, hai biến đƣợc tính nhƣ sau:
2.2. Mô phỏng mạng neurons bằng các hàm trong MATLAB
MATLAB (Matrix laboratory) là một trong các phần mềm hỗ trợ tốt nhất cho các công thức toán ma trận và hiển thị thông tin do công ty MathWorks thiết kế. MATLAB có khả năng chạy trên nhiều hệ điều hành nên khá thân thiện, nhƣ trên máy tính cá nhân đƣợc cài đặt hệ điều hành Windows. MATLAB đƣợc điều khiển bằng tập các lệnh, có khả năng lập trình với cú pháp dịch lệnh (scrip file). Các lệnh trong Matlab rất hiệu quả, cho phép giải nhiều loại cơng thức tốn khác nhau, đặc biệt các hệ phƣơng trình tuyến tính hoặc các hàm tốn phức tạp. Ngồi ra, MatLab còn biết đến bởi khả năng xử lý dữ liệu, biểu diễn đồ họa chính xác trong khơng gian 2 chiều cũng nhƣ 3 chiều, các tập lệnh trong MATLAB đƣợc cung cấp từ bộ công cụ Toolboxs (với các hàm toán học riêng để thiết lập mơ hình mạng neuron nhân tạo) và có khả năng mở rộng bởi các hàm ứng dụng do ngƣời dùng tạo lập.
Một điểm đặc biệt nữa của phần mềm là ngƣời dùng khơng cần có nhiều kiến thức về kỹ thuật lập trình phức tạp, mà chỉ cần có hiểu biết cơ bản về tốn ứng dụng, phƣơng pháp tính và một số kỹ thuật lập trình cơ bản là có thể sử dụng phần mềm nhƣ một cơng cụ hữu ích cho lĩnh vực mình nghiên cứu, học tập.
Các công cụ trong MATLAB cung cấp các hàm để tạo mạng, huấn luyện mạng, đƣa ra kết quả dự đốn/phân lớp, v.v. hoặc thay đổi các đặc tính của mạng neuron. Nếu mạng neuron khơng cho kết quả chính xác nhƣ mong đợi chúng ta có thể thay đổi các giá trị khởi tạo của mạng và huấn luyện lại mạng. Ngoài ra, chúng ta có thể tăng số neuron trong lớp ẩn lên nhằm tăng độ linh hoạt của mạng, tuy nhiên số lƣợng lớp ẩn phải tối ƣu vì số lƣợng lớp ẩn sẽ ảnh hƣởng trực tiếp tới hiệu năng chạy của hệ thống. Với những ƣu điểm nổi bật, MATLAB là giải pháp hữu
hiệu đƣợc tác giả lựa chọn trong nghiên cứu này để giải quyết bài toán dự đoán nguy cơ sốt rét trên địa bàn tỉnh Đắk Nơng.
Hình 2.7 Phần mềm hỗ trợ tính tốn, xây dựng mơ hình mạng MATLAB
Sử dụng phần mềm MATLAB để thiết kế mạng neurons và huấn luyện mạng, tạo ra véc-tơ đầu vào và véc-tơ kết quả của các mẫu. Thiết lập mạng, khởi tạo và chạy mơ hình trong Phần mềm MATLAB rồi trả ra kết quả.
Chƣơng 2, tác giả đã trình bày cụ thể các phƣơng pháp, mơ hình thực hiện; Khai thác dữ liệu nghiên cứu; Triển khai mạng thần kinh nhân tạo kết hợp tối ƣu hóa bằng BBO trong phần mềm MATLAB để có đƣợc kết quả. Xử lý dữ liệu, chạy mơ hình và các kết quả nhận đƣợc sẽ đƣợc trình bày và đánh giá trong Chƣơng 3 của Luận văn nghiên cứu.
2.3. Dữ liệu nghiên cứu
Dữ liệu thu thập trong đề tài nghiên cứu để đƣa vào mơ hình bao gồm nhiều nguồn dữ liệu khác nhau, gồm cả dữ liệu thơ và dữ liệu thứ cấp, có thể phân chia thành 2 nhóm sau:
Dữ liệu bản đồ, GIS, viễn thám: Bản đồ hiện trạng sử dụng đất, ảnh vệ tinh
Số liệu: Thống kê điều kiện tự nhiên, kinh tế - xã hội tỉnh Đắk Nông; Thống kê về dịch tễ sốt rét của tỉnh.
Lựa chọn và xây dựng nguyên tắc chuẩn dữ liệu đầu vào trƣớc khi xử lý dữ liệu là một bƣớc quan trọng, nhằm mục đích tạo ra tính nhất quán cho các lớp dữ liệu khi tham chiếu với nhau.
Sau đó, các tham số đƣợc đƣa vào mơ hình, từ kinh nghiệm và độ chính xác của nguồn dữ liệu thơ ban đầu là ảnh viễn thám Landsat và mơ hình số độ cao DEM có độ phân giải 30m. Nên tác giả lựa chọn độ phân giải 30m để chuẩn hóa và xử lý với tất cả các lớp dữ liệu tham chiếu khác.
Nhìn chung các nhóm yếu tố chính ảnh hƣởng đến sự phát sinh và lan truyền của dịch bệnh sốt rét có thể chia thành các nhóm: Nhóm yếu tố tự nhiên, nhóm yếu tố kinh tế - xã hội và nhóm yếu tố sinh học. Về lý thuyết, các yếu tố hay biến số đƣa vào mơ hình càng nhiều thì càng đảm bảo tính chính xác của kết quả, tuy nhiên trong nhiều trƣờng hợp việc có thêm các biến số không làm tăng đáng kể kết quả mà sẽ ảnh hƣởng tới hiệu năng của mơ hình. Do đó, u cầu việc sàng lọc, lựa chọn các yếu tố ảnh hƣởng tới dịch bệnh sốt rét cho đúng và đủ là một bƣớc quan trọng để đảm bảo chất lƣợng kết quả. Dƣới đây là danh sách các yếu tố chính đƣợc đề xuất (địa hình, khí hậu, xã hội,…):
Bảng 2.1 Dữ liệu đầu vào cho mơ hình huấn luyện mạng
STT Tham số
đầu vào Mô tả
Nguồn gốc dữ liệu (Metadata)
Sự tác động của các yếu tố tới sự phát sinh và lan truyền của muỗi Anopheles
và dịch bệnh sốt rét
1 DEM
Giá trị điểm độ cao
Dữ liệu từ nguồn mơ hình số độ cao DEM ASTER có độ phân giải 30m (tại trang https://earthexplorer.
Địa hình là một yếu tố quan trọng khơng chỉ ảnh hƣởng đến điều kiện sinh thái của muỗi mà còn liên quan
2 Dodoc Giá trị độ
3 Huongdoc Giá trị hƣớng dốc
usgs.gov/) trực tiếp tới điều kiện
đói nghèo, thiếu thốn của cộng đồng dân cƣ. 4 NDVI Giá trị chỉ số thực vật Xử lý từ ảnh Landsat 8 tháng 2/2017 ảnh đƣợc tải xuống từ trang (theo địa chỉ https://earthexplorer. usgs.gov/), (NDVI - Normalized Difference Vegetation Index) - NDVI đƣợc coi là chỉ số thực vật phổ biến và đƣợc sử dụng rộng rãi nhất để đo độ che phủ thực vật trong các nghiên cứu sốt rét (Kiang và cộng sự. 2006; Ge và cộng sự. 2016) - NDMI đƣợc sử dụng để theo dõi tình trạng hạn hán thơng qua ƣớc tính độ ẩm thực vật rất quan trọng trong các nghiên cứu về dịch sốt rét [34]. 5 NDMI Giá trị chỉ số độ ẩm Xử lý từ ảnh Landsat 8 tháng 2/2017, (NDMI - Normalized difference moisture index) 6 LST Giá trị chỉ số nhiệt độ bề mặt Xử lý từ ảnh Landsat 8 tháng 2/2017, (LST - Land Surface Temperature) Yếu tố nhiệt ảnh hƣởng trực tiếp tới môi trƣờng sinh thái của muỗi Anopheles
7 Luongmua
Giá trị lƣợng mƣa quan trắc
Dữ liệu chiết xuất từ 18 trạm khí tƣợng tại Tây Nguyên (đƣợc tính trung bình giá trị lƣợng mƣa theo năm)
Từ khi bệnh sốt rét đƣợc xác định là bệnh nhạy cảm với khí hậu nhất (Darkoh và cộng sự. 2017), ba yếu tố khí hậu, là nhiệt độ (°C), Lƣợng mƣa (mm), Độ ẩm (%) liên 8 Nhietdo Giá trị nhiệt độ quan trắc
Dữ liệu chiết xuất từ 18 trạm khí tƣợng tại Tây Ngun (tính
tốn giá trị trung bình nhiệt theo năm)
quan tới tỷ lệ bệnh sốt rét đƣợc lựa chọn (Kiang và cộng sự. 2006). 9 DoAm Giá trị độ ẩm quan trắc
Dữ liệu chiết xuất từ 18 trạm khí tƣợng tại Tây Ngun (đƣợc tính trung bình giá trị độ ẩm theo năm) 10 Gio Giá trị mức gió quan trắc
Dữ liệu chiết xuất từ 18 trạm khí tƣợng tại Tây Ngun (đƣợc tính trung bình giá trị gió theo năm)
Muỗi anopheles bay trong không trung nên gió ảnh hƣởng tới hƣớng di chuyển và môi trƣờng sinh thái của muỗi Anopheles.
11 KC_Rung Khoảng cách tới bìa rừng Dữ liệu từ bản đồ hiện trạng sử dụng đất năm 2010, chiết xuất các loại đất nông nghiệp rồi sử
dụng cơng cụ
euclidean distances
để tính
Khoảng cách đến rừng (hay khoảng cách đến nơi trú ẩn của muỗi)
12 KC_Dancu Khoảng cách tới khu dân cƣ Dữ liệu từ bản đồ hiện trạng sử dụng đất năm 2010, chiết xuất các loại đất ở rồi sử dụng công cụ
euclidean distances
để tính
Khoảng cách đến khu dân cƣ (vừa là nơi trú ẩn vừa là nơi kiếm ăn của muỗi và lan truyền của dịch bệnh) 13 KC_SongHo Khoảng cách tới Dữ liệu từ bản đồ hiện trạng sử dụng đất năm 2010, chiết Khoảng cách đến sông, vùng đất ẩm ƣớt (nơi sinh sản của muỗi
ao v.v. xuất các loại đất sông/suối rồi sử dụng công cụ euclidean distances để tính Anopheles) 14 KC_VungA mUot Khoảng cách tới