1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Phân tích và dự báo hiện tượng xâm nhập mặn tại Bến Tre

124 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Và Dự Báo Hiện Tượng Xâm Nhập Mặn Tại Bến Tre
Tác giả Huỳnh Thanh Tân
Người hướng dẫn TS. Nguyễn Gia Tuấn Anh
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 124
Dung lượng 61,55 MB

Nội dung

Hiện tại Bến Tre có 27 trạm dùng đê đo độ mặn, cập nhật thông tin theo số liệu hàng ngày và tiến hành phân tích dự báo theo tuần, 10 ngày..., Việc phân tích, dự báo chưa được ứng dụng nh

Trang 1

ĐẠI HỌC QUÓC GIA THÀNH PHÓ HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

HUỲNH THANH TÂN

PHÂN TÍCH VÀ DỰ BÁO HIỆN TƯỢNG XÂM NHẬP MĂN TẠI BÉN TRE

LUẬN VĂN THẠC SĨ

NGÀNH CÔNG NGHỆ THÔNG TIN

MA SO: 8.48.02.01

NGƯỜI HƯỚNG DAN KHOA HỌC

TS NGUYÊN GIA TUẦN ANH

Trang 2

LỜI CAM ĐOAN Tôi xin cam đoan dé tài “Phân tích và dự báo hiện tượng xâm nhập mặn

tại Bến Tre” là công trình nghiên cứu của bản thân dưới sự hướng dẫn của Thầy

TS Nguyễn Gia Tuấn Anh, không có sự sao chép của người khác, công trình nghiên cứu khác Những số liệu và tài liệu tham khảo trong luận văn đều được

cho phép và có chú thích nguồn rõ ràng, minh bạch Đề tài là sản phẩm nghiên

cứu của bản thân, phần mềm, số liệu và kết quả trong luận văn là trung thực Em xin chịu trách nhiệm và kỷ luật của nhà trường đối với những sai phạm trong đề

tài của mình.

Người cam đoan

Huỳnh Thanh Tân

Trang 3

LỜI CẢM ƠN

Sau thời gian nghiên cứu, em đã hoàn thành luận văn “Phân tích và dự

báo hiện tượng xâm nhập mặn tại Bến Tre” Dé hoàn thành luận văn thạc si, lời đầu tiên em xin chân thành cảm ơn sự giúp đỡ và hướng dẫn của thầy TS Nguyễn Gia Tuấn Anh Thầy đã có những hướng dẫn, nhận xét, chỉnh sửa hợp

lý để hướng cho em có một luận văn hoàn chỉnh Những quan tâm, chỉ bảo của Thay làm em tin tưởng vào ban thân nhiều hơn, vừa tạo động lực phấn đấu dé

em giúp hoàn thành tốt hơn, có trách nhiệm với bản thân hơn.

Để hoàn thiện Luận văn này không chỉ là công sức của bản thân mà còn là

sự đóng góp, giúp đỡ của nhiều cá nhân, đơn vị trên địa bàn tỉnh Bến Tre, đặc biệt là Đài Khí tượng thủy văn tỉnh Bến Tre đã cung cấp số liệu giúp em hoàn

thành nghiên cứu của mình.

Ngoài những số liệu và sự giúp đỡ nhiệt tình từ các đơn vị trong tỉnh, em

xin cảm ơn Trung tâm Động lực học Thủy khí Môi trường — Trường Dai học

Khoa học tự nhiên — Đại học Quốc Gia Hà Nội đã cử Ths Nguyễn Bách Tùng

hỗ trợ phương pháp và hướng dẫn sử dung mô hình dé tính toán.

Em xin cảm ơn các tình cảm của toàn thể Thay, C6 dao tao Sau dai hoc trường Đại hoc Công nghệ thông tin đã tận tâm, tận tình truyền đạt những kiến

thức vô cùng giá trị trong suốt thời gian học Đây là nền tảng quý báu làm hành

trang cho em tự tin hơn trong quá trình nghiên cứu thực hiện đề tài này.

Cuối cùng, Em xin cảm ơn đến gia đình, cơ quan và các anh/chị Khóa cao

học Công nghệ thông tin K12- đợt 2, những người đã cùng đồng hành, giúp đỡ

em trong quá trình học tập và làm luận văn.

Trang 4

Phương pháp luận .0

Các bước tiền hành

Phạm vi và giới hạn - s5 se ssseksterssereeerrerrreerrrrrreeerseercee LO

CHƯƠNG I TONG QUAN

L1 Tổng quan về nghiên cứu xâm nhập mặn quốc tế - 12 1.2 Tổng quan về nghiên cứu xâm nhập mặn trong nước - 13 1.3 Tổng quan về khu vực tỉnh Bến Tre ::::¿£222222vvvvvvcccrccee 14 13.1 Vị trí địa lí tỉnh Bến Tre

CHƯƠNG II CÁCH TIẾP CAN VÀ PHƯƠNG PHÁP NGHIÊN CỨU 19 II.1 Cách tiếp cận:

1L2 Phương pháp nghiên cứu

CHƯƠNG III ĐỀ XUẤT PHƯƠNG PHÁP PHAN TÍCH - 20

IIL.2 Một số hồi quy tuyến tính cơ bản -:

II.2.1 Hồi quy tuyến tính đơn giản (simple linear regression).

II.2.2 Bình phương nhỏ nhất (ordinary least square).

III.2.3 Gradient Descent

Trang 5

II.3.2 Độ chính xác của phương trình giả thuy:

II.3.3 Nghiệm của thuật toán Support Vector Machine.

III.3.4 Kernel với Support Vector Machine

III.4 Thuật toán Gradient Boosting Regession: -« 28

TIL4.1 Ý tưởng của boosting ccscceesssssssesecsssssesecosssseessesssieescesssneesessese 28

III.4.2 Gradient Boosting

CHƯƠNG IV GIGI THIỆU BO DU LIEU - PHAN TICH DU LIỆU 31 IV.1 Bộ dữ liệu chua 31

IV.2 Phân tích dữ liệu: ¿-::cc2c c2, 46 IV.3 Xây dung mô hình dự báo - ¿- + + +ètss‡kekekekrrrkrkerrreree 50

1V.3.1 Mô hình hồi qui tuyến tính -cc:c++++2222vvvvvvrvrrrrcree 50

CHƯƠNG V DANH GIA KET QUA PHAN TÍCH VA DỰ BAO XÂM

Trang 6

Bản đồ xâm nhập mặn cao nhất năm 2016

minh họa Hàm hinge loss

minh họa Hàm hinge ÏOSS - 552525252 ‡e+ereeeeeexersrere

Minh họa Support Vector Machine - 525 sccc+zxecxzrerrerrrer 27 Biên tập Dữ liệu trạm Mỹ Hóa năm 2019 7+ S+cst+xsxerereree 46 Biên tập Dữ liệu trạm An Hóa năm 2019

Ảnh hưởng độ mặn theo tháng

Ảnh hưởng độ mặn theo ngày trong tháng -.:: 5255cc:++ccs+ 48

Ảnh hưởng độ mặn theo chu kỳ triều

Hình 10: Ảnh hưởng độ mặn theo lưu lượng nước từ sông đồ ra biền 49

Hình 11: Ảnh hưởng độ mặn theo lưu lượng nước biển dé về sông

Hình 12: Mô hình hồi quy tuyến tính 1 biến

Hình 13: Mô hình hồi quy tuyến tính 2 biến -cccccccz+cccvcsccccrrcece.c.- SL

Hình 14: Mô hình hồi quy tuyến tính 3 biến ¿-©22¿+2222222cz+tcrx+ 51

Hình 15: Mô hình máy học thé hiện độ mặn trong theo tháng 22

Hình 15: Mô hình Support Vector Regression trong dự báo

Hình 16: Mô hình Support Vector Regression trong dự báo

Hình 17: Mô hình Gradient Boosting Regression trong dự báo 53

Trang 7

DANH MỤC BẢNG

Bảng 1: Dữ liệu Trạm Mỹ Hóa năm 2019

Bảng 2: Dữ liệu trạm An Thuận năm 2019

Trang 8

DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIET TAT

ĐBSCL Đồng bằng sông Cửu Long

CSDL Cơ sở dữ liệu

GIS Hệ thống thông tin địa lý

DHI Viện Thủy lực Đan Mạch

BDKH Biến đối khí hậu

NBD Nước biên dâng

MIKE Mô hình mô phòng

Trang 9

MỞ ĐÀU

Đông băng Sông Cửu Long bao gôm phân đât thuộc 13 tỉnh thành phô

gồm: Long An, Đồng Tháp, Tiền Giang, Vĩnh Long, Trà Vinh, Bến Tre, An

Giang, Hậu Giang, Sóc Trăng, Bạc Liêu, Cà Mau, Kiên Giang và thành phố Cần Thơ Đây là vùng đất thấp ven biển của Việt Nam sẽ là khu vực bị tác hại nặng

né nhất do biến đồi khí hậu gây ra Trong những năm gần dây, Bến Tre là tỉnh bị ảnh hưởng nặng của nước nhiễm mặn và đất nhiễm mặn.

Công tác phân tích và dự báo độ mặn rat phức tap, được thực hiện bằng thủ công Hiện tại Bến Tre có 27 trạm dùng đê đo độ mặn, cập nhật thông tin theo số liệu hàng ngày và tiến hành phân tích dự báo theo tuần, 10 ngày , Việc phân tích, dự báo chưa được ứng dụng nhiều các tiến bộ khoa học công nghệ như: số hóa cơ sở dữ liệu và bản đồ thiên tai; các phần mềm thống kê, tổng hợp;

báo chính xác trong tương lai.

Đặt vấn đề

Phân tích, dự báo xâm nhập mặn có ý nghĩa vô cùng quan trọng trong ngành

nông nghiệp tinh nha Các năm gần đây có nhiều nghiên cứu vẻ tình hình xâm nhập mặn tại ĐBSCL nhưng có hai xu hướng chủ yếu đó là:

- Một là nghiên cứu theo diện rộng, hướng này sẽ tiến hành nghiên cứu theo vùng Tại Tây Nam bộ, thì các nghiên cứu đều hướng về vủng ĐBSCL Hướng nghiên cứu này sẽ đánh giá tổng quan về tình hình xâm nhập mặn, đưa ra các giải pháp dé hạn chế, không có các sản phẩm thực tế

Trang 10

- Hai là nghiên cứu theo từng tinh, tại tỉnh Bến Tre có hai nghiên cứu đáng chú ý là “xác định nguyên nhân, dự báo tình hình xâm nhập mặn vào đất

và nước tải tỉnh Bến Tre trong điều kiện biến đổi khí hậu — nước biển dâng Đề xuất các giải pháp thích ứng” và nghiên cứu “thực trạng giải

pháp tái cơ cấu ngành nông nghiệp tỉnh Bến Tre” Hướng nghiên cứu này

có kết quả cũng là các giải pháp theo từng giai đoạn.

Cả hai hướng nghiên cứu đều đưa ra giải pháp thích ứng phi hợp, hạn chế các thiệt hại gây ra đối với tình hình xâm nhập mặn trong điều kiện biến đổi khi hậu Về lâu về dài, cần có một công cụ thể hiện các nghiên cứu phân tích, dự báo xâm nhập mặn tỉnh Bến Tre

Mục tiêu:

Xây dựng và phân tích số liệu thực đo và số liệu mô phỏng dự báo xâm nhập

mặn trên địa bàn tỉnh Bến Tre và thử nghiệm với số liệu tại trạm đo mặn của

tỉnh Bến Tre

Mục tiêu cụ thể: - Thu thập các dữ liệu hiện có tại các trạm thủy văn Mỹ Hóa,

thủy văn An Thuận và một số trạm thủy văn liên quan thuộc địa bàn tỉnh Bến

Tre và vùng lân cận;

- Phân tích số liệu thực đo tại trạm thủy văn Mỹ Hóa và An Thuận;

- Phân tích số liệu mô phỏng tại trạm thủy văn Mỹ Hóa và An Thuận;

- Đề xuất mô hình dự báo thông qua các thuật toán Hồi quy tuyến tính và phương pháp máy học.

Phương pháp luận

Phương pháp điều tra, thu thập

Thu thập các thông tin, dữ liệu liên quan về khí tượng thủy văn, các hiện tượng thiên tai có nguồn gốc KTTV, hiện trạng các ngành, lĩnh vực kinh tế xã hội và quy hoạch/kế hoạch phát triển trong giai đoạn tới, bổ sung các thông tin về điều kiện địa lý tự nhiên và KTXH, hiện trạng và quy hoạch hệ thống cơ sở hạ tầng

thủy lợi, đê điều.

Trang 11

Phương pháp thống kê phân tích hệ thống và ké thừa các tài liệu đã có

Kế thừa và chọn lọc tư liệu về xâm nhập mặn, thu thập số liệu, phân tích tài liệu trong và ngoài nước hiện có liên quan đến nghiên cứu Kế thừa các phương pháp nghiên cứu về phân tích dữ liệu hệ thống trong các nghiên cứu trước đây.

Phương pháp mô hình toán

Sử dụng phương pháp hồi quy tuyến tính và áp dụng mô hình máy học đề kiểm

định tính chính xác, đánh giá quá trình xâm nhập mặn.

Phương pháp lấy ý kiến chuyên gia:

Lấy ý kiến đóng góp của các chuyên gia về cách tiếp cận, thiết kế nghiên cứu, phương pháp luận về đánh giá hiện tượng xâm nhập mặn; luận cứ khoa học các vấn đề cần giải quyết, phân tích đánh giá nguyên nhân và tìm kiếm các giải pháp khắc phục cả trước mắt và lâu dài

Các bước tiến hành

Đề xây dựng một hệ thống phân tích, cảnh báo xâm nhập mặn đáp ứng được yêu cầu là chính xác, hạn chế một phần sử dụng phương pháp thủ công hiện tại Cần triển khai các bước như sau:

Bước 1: Thu thập số liệu, chuẩn hóa số liệu

Bước 2: Mô tả và Phân tích số liệu.

Bước 3: Xây dựng mô hình dự báo.

Bước 4: Đánh giá kết quả phân tích và dự báo.

Phạm vi và giới hạn l l

Trong phạm vi bài báo cáo, Em xin đê xuât mô hình chạy thực nghiệm

gồm 2 phương pháp do là đo chu kỳ triều tại tram An Thuận - Ba Tri và đo theo ngày tại trạm Mỹ Hóa — Thành phó Bến Tre.

- Do theo chu kỳ triều (tram An Thuận - Ba Tri): mỗi tháng có 2 chu kỳ

triều, kéo đài 15 ngày/Chu kỳ Số liệu được đo cho mỗi chu kỳ là 12 lần/ngày Phương pháp đo tích sâu, đo 3 tầng nước là tầng mặt, tầng giữa và tầng đáy Dữ

Trang 12

- Do theo ngày (tram Mỹ Hóa — Thành phố Bến Tre): số liệu được đo mỗi ngày, với 12 lần/ngày Áp dụng hình thức đo tích sâu, đo 3 tầng nước là tầng mặt, tầng giữa và tầng đáy Dữ liệu được thu thập từ năm 2019-2021 và 5 tháng đầu năm 2022.

- Dữ liệu: dạng bảng biểu, dữ liệu cột có 14 cột, 12 cột thé hiện giờ đo mẫu

nước theo giờ lẻ, 02 cột còn lại thé hiện tỉ lệ (%o) cao nhất, thấp nhất và dữ lệu dòng thể hiện ngày đo (từ ngày 01/01 đến 15/6) thé hiện số liệu đo theo chu ky

triều hoặc theo ngày Cấu trúc luận văn

Cấu trúc sẽ bao gồm các chương, cụ thể như sau:

- Chương | (Tổng Quan): bao gồm giới thiệu tổng quan về hướng nghiên

cứu, khu vực nghiên cứu, phương pháp nghiên cứu

- Chương 2 (Cách tiếp cận và phương pháp nghiên cứu liên quan): trình bày phương pháp nghiên cứu phỏ biến về phân tích, dự báo xâm nhập mặn và

cách lựa chọn mô hình.

- Chương 3 (Phương pháp đề xuất): sử dụng phương pháp hồi quy tuyến

tính và mô hình máy học để phân tích sự ảnh hưởng, tác động giữa các

yếu tổ liên quan đến xâm nhập mặn, xây dựng mô hình dự báo.

- Chương 4 (Giới thiệu bộ dữ liệu — phân tích dự liệu): Giới thiệu dữ liệu

chuyên ngành Thủy văn được thu thập từ 2 Trạm Thủy văn An Thuận và

Mỹ Hóa trong 3 năm 2019-2021 và 5 tháng đầu năm 2022 Phân tích dữ

liệu và xây dựng mô hình dự báo.

-_ Chương V: (Đánh giá kết quả phân tích): đánh giá kết quả phân tích và

mô hình dự báo.

- _ Kết luận và hướng phát triển.

Trang 13

CHUONG I TONG QUAN

I.1 Tổng quan về nghiên cứu xâm nhập mặn quốc tế

Do tính chất quan trọng của hiện tượng xâm nhập mặn có liên quan đến hoạt

động kinh tế - xã hội của nhiều quốc gia nên vấn đề tính toán và nghiên cứu đã được đặt ra từ lâu Mục tiêu chủ yếu của công tác nghiên cứu là nắm được quy

luật của các quá trình này để phục vụ hoạt động kinh tế - xã hội, quốc phòng

vùng cửa sông như ở các nước như Mỹ, Nga, Hà Lan, Nhật, Trung Quốc, SỬ dụng các phương pháp cơ bản được thực hiện bao gồm: thực nghiệm (dựa trên

số liệu quan trắc) và mô phỏng quá trình bằng các mô hình toán Việc mô phỏng quá trình dòng chảy trong sông ngòi bằng mô hình toán được bắt đầu từ khi

Saint — Vennant công bố hệ phương trình mô phỏng quá trình thủy động lực

trong hệ thống kênh hở một chiều nồi tiếng mang tên ông Chính nhờ phương

pháp giải của hệ phương trình Saint — Venant nên kỹ thuật tính sai phân và công

cụ máy tính điện tử đáp ứng được thì mô phỏng dòng chảy trong sông ngòi là

công cụ quan trọng để nghiên cứu Mọi dự án phát triển tài nguyên nước trên thế giới hiện nay đều coi mô hình toán dòng chảy là nội dung tính toán không thể

thiếu.

Zhang Xinfeng và Deng Jiaquan đã nghiên cứu các yếu tố ảnh hưởng của xâm nhập mặn ở cửa sông Châu Giang (Trung Quốc) và sử dụng bền vững tài nguyên nước tại sông Châu Giang Tác giả đã đánh giá tầm quan trọng của nước thượng

nguồn, hồ chứa đến quá trình day lùi mặn trong thời kỳ khô hạn năm 2006 —

2007 và 2007 - 2008 Ngoài ra, nghiên cứu này đã nêu rõ tầm quan trọng của hồ chứa, hướng gió, hình thái sông ảnh hưởng trực tiếp đến quá trình xâm nhập

mặn tại sông Châu Giang [1]

M.M.Prabhakaran và G.Resmi đã nghiên cứu đánh giá xâm nhập mặn vùng cửa

sông Periyar - Án Độ Nghiên cứu này tác giả sử dụng Brockway Model (2006)

là mô hình thực nghiệm để đánh giá sự phù hợp vùng cửa sông Periyar và dự đoán xâm nhập mặn Tác giả sử dụng mô hình thực nghiệm đạt được kết quả

Trang 14

xâm nhập mặn năm 2008, 2009, 2010 có xâm nhập mặn có chiều dài tỉ lệ

nghich với lượng nước sông ở cửa sông [2]

L2 Tổng quan về nghiên cứu xâm nhập mặn trong nước

Nghiên cứu xâm nhập mặn ở Việt Nam được quan tâm từ những năm 60 khi bắt đầu tiến hành quan trắc độ mặn ở hai vùng đồng bằng sông Hồng và sông Cửu Long Đối với đồng bằng sông Cửu Long đo đặc điểm địa hình không có đê bao

và mức độ ảnh hưởng của xâm nhập mặn có tính quyết định đến sản xuất nông nghiệp ở vựa lúa lớn nhất cả nước nên việc nghiên cứu xâm nhập mặn ở đây được chú trọng nhiều hơn, đặc biệt thời kỳ sau năm 1976 Khởi đầu là các công trình nghiên cứu, tính toán của Ủy ban sông Mê Kông về xác định ranh giới xâm nhập mặn theo các phương pháp thống kê trong hệ thống kênh rạch ở 9 vùng cửa sông thuộc đồng bằng sông Cửu Long Các kết quả tính toán từ chuỗi số liệu thực đo đã lập lên bản đồ đẳng trị mặn với hai chỉ tiêu cơ bản 1% và 4%o cho toàn khu vực đồng bằng trong những tháng 12 đến tháng 4 Nhiều báo cáo dưới các hình thức công bố khác nhau đã xây dựng các bản đồ xâm nhập mặn từ số liệu cập nhật và xem xét nhiều khía cạnh tác động ảnh hưởng các nhân tố địa

hình, KTTV và tác động các hoạt động kinh tế đến xâm nhập mặn ở đồng bằng

sông Cửu Long

Việc day nhanh công tác nghiên cứu xâm nhập mặn ở nước ta được đánh dấu vào năm 1980 khi bắt đầu triển khai dự án nghiên cứu xâm nhập mặn đồng bằng sông Cửu Long dưới sự tài trợ của Ban Thư ký Ủy ban sông Mê Kông Trong khuôn khổ dự án này, một số mô hình tính xâm nhập triều, mặn đã được xây dựng như của Ban Thư ký Ủy ban sông Mê Kông và một số cơ quan trong nước

như Viện Quy hoạch và Quản lý nước, Viện cơ học, Các mô hình này đã được

ứng dụng vào việc nghiên cứu quy hoạch phát triển châu thổ sông Cửu Long, tính toán hiệu quả các công trình chống xâm nhập mặn ven biển đề tăng vụ và

mở rộng diện tích nông nghiệp trong mùa khô, dự báo xâm nhập mặn dọc sông

Cổ Chiên

Trang 15

Một số nhà khoa học Việt Nam điển hình là cố Giáo sư Nguyễn Như Khuê, Nguyễn Ân Niên, Nguyễn Tat Đắc, Nguyễn Văn Điệp, Nguyễn Minh Sơn, Trần Văn Phúc, Nguyễn Hữu Nhân đã xây dựng thành công các mô

hình thuỷ lực mạng sông kết hợp tính toán xâm nhập triều mặn như

VRSAP, EKSAL, FWQ87, SAL, SALMOD, HYDROGIS Các báo cáo trên

chủ yếu tập trung xây dựng thuật toán tính toán quá trình xâm nhập mặn thích hợp với điều kiện địa hình, KTTV ở đồng bằng sông Cửu Long Kết quả được nhìn nhận khả quan và bước đầu một số mô hình đã thử nghiệm ứng dụng dự

báo xâm nhập mặn.

Nghiên cứu Mô hình học máy dựa trên nền tảng Brightics AI bao gồm Mô hình hồi quy tuyến tính và mô hình dự báo chuỗi thời gian ARIMA của nhóm tác giả

Nguyễn Đầu Hoàng; Nhâm Ngọc Tân; Nguyễn Thị Huế - Cục Công nghệ Thông,

tin - Bộ Tài nguyên và Môi trường — năm 2022 [3] Kết qua đạt được của nghiên cứu là xây dựng được mô hình theo phương pháp học máy có giám sát nhằm hỗ

trợ cảnh báo, dự báo xâm ngập mặn hiệu quả cho lưu vực sông Hậu.

Nghiên cứu đề xuất kết hợp các phương pháp Ensemble Learning như Bagging (đóng bao); boosting (tăng cường); stacking (xếp chồng) của nhóm tác giả Đặng Hữu Nghị, Bùi Thị Vân Anh; Nguyễn Thị Huế - Trường Đại học Mỏ - Địa chất

~ năm 2022 [4] Nhóm tác giả kết hợp các mô hình dự báo riêng lẻ thành một

mô hình dự báo có tính chính xác hơn áp dụng cho bài toán dự báo độ mặn cửa

sông cho một số sông tại Cà Mau Kết quả của nghiên cứu là nhóm thuật toán Bagging Ensemble Learning cho kết quả hiệu quả hơn trong xây dựng mô hình

dự báo xâm nhập mặn.

1.3 Tổng quan về khu vực tỉnh Bến Tre

13.1 Vị trí dia lí tinh Bến Tre

Đồng bằng Sông Cửu Long bao gồm phan đất thuộc 13 tỉnh thành phố gồm: Long An, Đồng Tháp, Tiền Giang, Vĩnh Long, Trà Vinh, Bến Tre, An

Trang 16

Thơ Đây là vùng đất thấp ven biển của Việt Nam sẽ là khu vực bị tác hại nặng

nề nhất do biến đổi khí hậu gây ra Trong những năm gan dây, Bến Tre là tinh bị ảnh hưởng nặng của nước nhiễm mặn và đất nhiễm mặn Diện tích tự nhiên của Bến Tre là 2.360 km2, do 3 cù lao là cù lao An Hóa, cù lao Bảo, cù lao Minh

hợp thành và được bôi tụ phù sa từ 4 nhánh sông là sông Tiền, sông Ba Lai,

sông Hàm Luông, sông Cổ Chiên.

Khí hậu bến Tre là vùng khí hậu nhiệt đới gió mùa cận xích đạo, có hai mùa là mùa mưa và mùa khô: Mùa mưa từ tháng 5 đến tháng 11 và Mùa khô từ tháng 12 đến tháng 4 năm sau Bến Tre có nền nhiệt khá cao, ít biến đổi Nhiệt

độ trung bình hàng năm dao động từ 26°C — 27°C.

Trung bình hàng năm, Bến Tre có lượng mưa dao động từ 2.000 đến 2.300 mm diễn ra vào mùa mưa, mùa khô mưa rất ít chỉ chiếm 2-6% Vào mùa

khô, Bến Tre phải chịu thiếu nước tram trọng phục vụ cho việc tưới tiêu, những

năm gần đây còn bị ảnh hưởng nghiêm trọng của xâm nhập mặn.

Bến Tre chịu ảnh hưởng của gió mùa đông bắc vào mùa khô và gió mùa tây nam

vào mùa mưa Mùa gió đông bắc là thời kỳ khô hạn, mùa gió tây nam là thời kỳ

mưa âm

1.3.2 Tình hình xâm nhập mặn trên khu vực tính Bến Tre

Công tác phòng chống, ứng phó xâm nhập mặn vào mùa khô hàng năm đều được sự quan tâm chỉ đạo của Tỉnh ủy, Ủy ban nhân dân tỉnh, huy động cả

hệ thống chính trị cùng toàn thể nhân dân tập trung thực hiện rất nhiều giải pháp nhằm giảm thiểu thiệt hại do hạn, mặn gây ra Tuy nhiên, những năm gan đây

tình hình xâm nhập mặn trên địa bàn tỉnh diễn biến phức tạp, bất thường đã ảnh

hưởng rất lớn đến mọi mặt đời sống, sản xuất của nhân dân, doanh nghiệp trên địa bàn tỉnh; cụ thể:

Trong mùa khô năm 2015 - 2016, mặn tăng cao đột ngột và xâm nhập rat

sâu, vào cuôi thang 3/2016, độ mặn 4%o đã xâm nhập cách các cửa sông khoảng

từ 50 - 70km, độ mặn 1%o xâm nhập trên phạm vi gần như toàn tỉnh (162/164

Trang 17

xã, phường, thị tran) Ước tính giá trị thiệt hại của riêng ngành nông nghiệp là 1.800 tỷ đồng, trong đó có khoảng 30.000 ha đất sản xuất nông nghiệp và 1.800

ha nuôi trồng thủy sản bị ảnh hưởng; 41.325 hộ dân thiếu nước sinh hoạt.

Mùa khô năm 2019 - 2020, tỉnh Bến Tre đang phải đối mặt với đợt xâm

nhập mặn có thể nói là khốc liệt nhất trong lịch sử, mức độ nghiêm trọng hơn rất

nhiều so với đợt mặn lịch sử mùa khô năm 2015 - 2016 Ngay từ giữa tháng 11/2019 mặn đã bắt đầu xâm nhập vào các cửa sông chính, đến đầu tháng 12/2019 mặn xâm nhập nhanh và rất sâu, độ mặn 2%o hầu như bao phủ toàn tỉnh

Bến Tre; so với trung bình nhiều năm, mặn xâm nhập sớm hơn từ 2 - 3 tháng (tùy vị trí trên các sông); so với mùa khô năm 2015 - 2016, độ mặn cao nhất các

trạm cao hơn từ 1 - 7%o; độ mặn 4%o xâm nhập mặn sâu hon so với năm 2016 từ

10 - 25 km trên các sông chính Độ mặn cao và duy trì từ tháng 12/2019 làm cho

nguồn nước trên sông Hàm Luông và Cửa Dai không có nước ngọt, riêng trên

sông Cổ Chiên xuất hiện những đợt nước độ mặn thấp từ tháng 3 có thể phục vụ sinh hoạt, sản xuất cho người dân (chủ yếu các xã ven sông thuộc huyện Chợ

Lách và Mỏ Cày Bắc).

Theo số liệu thống kê, xâm nhập mặn mùa khô năm 2019 - 2020 đã gây ảnh hưởng đến mọi mặt đời sống, sản xuất của người dân, doanh nghiệp trên địa bàn tỉnh; cụ thể: 5.401 ha lúa vụ Đông Xuân 2019 -2020 (vụ 3) chết (tỉnh đã có

khuyến cáo không sản xuất nhưng do người dân tự ý xuống giống); rau màu bị

ảnh hưởng 168 ha; 27.985 ha cây ăn trái trên địa bàn tỉnh đều bị ảnh hưởng

(trong đó: 6.674 ha diện tích ảnh hưởng từ 30 - 70%, 2.603 ha thiệt hại trên 70%

và 274 ha cây ăn trái có nguy cơ chết); khoảng 600 ha cây giống và 1,2 triệu cây hoa kiểng các loại bị ảnh hưởng; tất cả diện tích nuôi trồng thủy sản nước ngọt trên địa bàn đều bị ảnh hưởng, trong đó diện tích bị ảnh hưởng nặng là 2.110,1 ha; có khoảng 86.896 hộ dân bị thiếu nước sinh hoạt Một số lĩnh vực khác cũng

bị ảnh hưởng như: các doanh nghiệp, nhất là doanh nghiệp hoạt động lĩnh vực chế biến; lĩnh vực thi công xây dựng, đô thị; du lich;

Hiện trạng hệ thống công trình thủy lợi và khả năng chủ động được nguồn

nước ngọt phục vụ sản xuất, sinh hoạt trên địa bàn tỉnh Bến Tre đã được sự quan

tâm, hỗ trợ của Chính phủ, các Bộ, ngành Trung ương, trong những năm qua

Trang 18

tỉnh Bến Tre đã được đầu tư xây dựng một số công trình quan trọng thuộc dự án

Hệ thống thủy lợi Bắc - Nam Bến Tre; công trình Cống đập Ba Lai; hồ chứa nước Kênh Lấp, huyện Ba Tri; nhiều tuyến đê sông, đê bao cục bộ, đê bao các cén, Các công trình được đầu tư đã phát huy hiệu quả ngăn mặn, trữ ngọt trên

địa bàn tỉnh.

Tuy nhiên, hệ thống công trình thủy lợi vẫn chưa được khép kín như: hệ thống

thủy lợi Bắc và Nam Bến Tre đầu tư còn đở dang và Dự án quản lý nước (JICA3) vừa triển khai giai đoạn thiết kế và đấu thầu xây lắp, do đó tỉnh chưa thể chủ động kiểm soát được nguồn nước ngọt trong tình huống xâm nhập mặn diễn biến gay gắt, điển hình như mùa khô năm 2019 - 2020 vừa qua, thì các địa

phương trong tỉnh đều bị ảnh hưởng hết sức nghiêm trọng, độ mặn trên 20/00 đã

bao phủ toàn tỉnh.

Hình 1: Bản đồ xâm nhập mặn cao nhất năm 2016

13.3 Hiện trạng phân tích dữ liệu xâm nhập mặn trên địa bàn tỉnh Bến Tre 1.3.3.1 Hiện trạng công tác dự báo xâm nhập mặn trên địa ban tỉnh Bến Tre

Công tác dự báo xâm nhập mặn tại Bến Tre chỉ kế thừa các dữ liệu dùng cho khu vực Nam bộ đề tham khảo Bến Tre chưa áp dụng hay xây dựng mô

Trang 19

hình mô phỏng tính toán Công tác dự báo chỉ sử dụng năng lực và kinh

nghiệm dự báo của cán bộ chuyên trách Để xây dựng một hệ thống cảnh báo thay đổi cho cách làm hiện tại, thì Hệ thống mô phỏng xâm nhập mặn là thật

sự cần thiết

Đề xây dựng mô hình dự báo, cần thu thập các số liệu, tham số như mực

nước, độ mặn, lưu lượng mực nước, mốc thời gian

1.3.3.2 Hiện trạng công tác thu thập và phân tích xử lí dữ liệu xâm nhập mặn của

tỉnh Bắn Tre

Hiện tại những số liệu thu thập, dự báo độ mặn thu thập, xử lý và lưu

thành các file Excel riêng lẻ gây khó khăn trong công tác quản lý, tính toản chỉ

dựa vào thống kê là chính.

Phân tích dữ liệu hiện có và đánh giá xâm nhập mặn Để triển khai các

giai đoạn tiếp theo thì cần phải có hệ thống phân tích và dự báo Tiếp theo, cần phải có 1 Phần mềm quan lý Phần mềm phải đáp ứng các yêu cầu về quản

lý như: số hóa được các số liệu hiện có, hiền trị trực quan sinh động bằng các số liệu, biểu đồ biểu diễn, hiển thị ban đồ các vị trí trạm đo, công tác báo cáo thống

Trang 20

CHƯƠNG II CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU

II.1 Cách tiếp cận:

- Tham khảo các công trình nghiên cứu xâm nhập mặn tại ĐBSCL dé làm tài

liệu thực hiện đề tài Hầu hết các công trình nghiên cứu hiện tại là những nghiên cứu xâm nhập nhập mặn tại ĐBCSL, chưa có phân tích cụ thể các yếu tố ảnh

hưởng trên địa bàn tình Bến Tre.

- Thu thập số liệu KTTV (độ mặn, mực nước ) hiện có tại 2 trạm Mỹ Hóa — Thành phố Bến Tre và trạm An Thuận — ba Tri dé làm cơ sở phân tích cho dé tài

II.2 Phương pháp nghiên cứu

- Phương pháp thu thập tài liệu: Thu thập các thông tin, dữ liệu liên quan về khí tượng thủy văn, các hiện tượng thiên tai có nguồn gốc KTTV, hiện trạng các

ngành, lĩnh vực kinh tế xã hội và quy hoạch/kế hoạch phát triển trong giai đoạn tới, bổ sung các thông tin về điều kiện địa lý tự nhiên và KTXH, hiện trạng và

quy hoạch hệ thống cơ sở hạ tầng thủy lợi, đê điều.

- Phương pháp phân tích, thống kê: Kế thừa và chọn lọc tư liệu về xâm nhập mặn, thu thập số liệu, phân tích tài liệu trong và ngoài nước hiện có liên quan đến nghiên cứu Kế thừa các phương pháp nghiên cứu về phân tích dữ liệu hệ thống trong các nghiên cứu trước đây.

-Phương pháp mô hình toán: sử dụng Phương pháp hồi quy tuyến tính và các thuận toán máy học để phân tích dữ liệu; sử dụng các thuật toán máy học đề xây

dựng mô hình tính toán va dự báo có thé kết hợp với mô hình MIKE11 dé mô

phỏng, đối chiếu, kiểm tra độ chính xác với mô hình phân tích sử dụng máy học.

- Phương pháp lấy ý kiến chuyên gia: Lấy ý kiến đóng góp của các chuyên gia

về cách tiếp cận, thiết kế nghiên cứu, phương pháp luận về đánh giá hiện tượng

xâm nhập mặn; luận cứ khoa học các vấn đề cần giải quyết, phân tích đánh giá

nguyên nhân và tìm kiếm các giải pháp khắc phục cả trước mắt và lâu dai

Trang 21

CHƯƠNG III ĐÈ XUẤT PHƯƠNG PHÁP PHAN TÍCH

III.1 Thuật toán hồi quy tuyến tính:

Trong lĩnh vực học máy, mô hình dự đoán (predictive modelling) đưa ra

phương án dự đoán chính xác nhất có thể đạt được, giảm nguy cơ sai số thấp nhất của mô hình Trong các ứng dụng sử dụng học máy, chúng ta sẽ dùng và

vay mượn các thuật toán từ các lĩnh vực kể cả các thuật toán dùng trong thống

kê sử dụng cho dự đoán và chỉnh sửa giảm thiểu sai số.

Hồi quy tuyến tính (linear regression) được phát triển trong lĩnh vực thống kê và nó được nghiên cứu đề áp dụng như là mô hình để tìm hiểu mối liên

hệ giữa các biến số đầu vào và đầu ra, được sử dụng trong máy học Chúng ta xem hồi quy tuyến tính vừa là một thuật toán thống kê vừa là một thuật toán học

máy.

Chúng ta có thé dùng các phương pháp, kỹ thuật khác nhau dé chuẩn bị hoặc

huấn luyện phương trình hồi quy tuyến tính từ dữ liệu, trong đó phương pháp phổ biến nhất được gọi là Bình phương nhỏ nhất thông thường (Ordinary least squares) và phương pháp Gradient Descent Mô hình hồi quy này được gọi là

Ordinary least squares linear regression, hay ngắn gọn hơn là Least squares

Tegression.

Cách biểu diễn mô hình hồi quy tuyến tính

Mô hình hồi quy tuyến tính là một phương trình tuyến tính kết hợp một tập giá trị đầu vào cụ thể (x), nghiệm là đầu ra dự đoán cho tập giá trị đầu vào đó (y).

Cả giá trị đầu vào (x) và giá trị đầu ra (y) đều là dạng số (numeric).

Phương trình tuyến tính đưa ra một hệ số tỷ lệ cho mỗi giá trị hoặc cột đầu vào, được gọi là hệ số (coefficient) và được biểu thị bằng chữ cái Hy Lạp viết hoa

Beta (B) Ngoài hệ số của biến đầu vào, trong phương trình còn có thêm 1 hệ số

tự do (intercept/ bias coefficient), hệ số này tăng hay giảm sẽ làm đường thang tịnh tiến lên trên hoặc xuống dưới trong đồ thị hai chiều.

Trang 22

II.2 Một số hồi quy tuyến tính cơ bản

11.2.1 Hồi quy tuyến tính đơn giản (simple linear regression)

Với hồi quy tuyến tính đơn giản thì chỉ có một biến đầu vào duy nhất, chúng ta

có thể sử dụng các phép toán thống kê đề ước tính các hệ só.

Bạn sẽ phải tính toán các thuộc tính thống kê từ dữ liệu như trung bình (means),

độ lệch chuẩn (standard deviations), tương quan (correlations) và hiệp phương

sai (covariance) Chúng ta phải thực hiện các phép toán này trên toàn bộ dữ liệu.

Bạn hoàn toàn có thể thực hiện kỹ thuật này bằng excel Tuy nhiên, trong thực

tế, kỹ thật này không thực sự có nhiều tính ứng dụng.

11.2.2 Bình phương nhé nhất (ordinary least square)

Khi có nhiêu hon một biên đâu vào (x), chúng ta có thé sử dung phương pháp

Bình phương nhỏ nhất (ordinary least square) dé ước tinh giá trị của các hệ số Nguyên tắc của phương pháp này là tìm các gia trị hệ số sao cho tổng bình phương các phần du (residuals) là nhỏ nhất Với một đường thing hồi quy, ta tính toán khoảng cách từ mỗi điểm dữ liệu đến đường hồi quy đó, bình phương giá trị này và tổng tất cả các lỗi bình phương lại với nhau Mục đích của phương pháp bình phương nhỏ nhất (ordinary least square) là tối thiểu giá trị tng bình

phương này.

Cách tiếp cận này coi đữ liệu như một ma trận và sử dụng các phép toán đại số

tuyến tính dé ước tính các giá trị tối ưu cho các hệ sé Bạn phải thực hiện các phép toán này trên toàn bộ dữ liệu, điều đó có nghĩa là bạn phải có đủ bộ nhớ để

chứa dữ liệu và thực hiện các phép toán ma trận.

Trong thực tế, trừ khi làm một bài tập trong môn đại số tuyến tính, bạn không

cần phải tự mình tính toán khi sử dụng phương pháp bình phương nhỏ nhất Phép toán này thường được xây dựng sẵn trong các phần mềm thống kê và bạn

có thé thực hiện chi bằng một vài thao tác đơn giản.

Trang 23

Phương pháp này bắt đầu với việc chọn các giá trị ngẫu nhiên cho mỗi hệ số Tổng bình phương các sai số (residual) được tính cho từng cặp giá trị đầu vào và đầu ra Các hệ số Beta được cập nhật theo hướng giảm thiểu tối đa tổng bình phương sai số Quá trình được lặp lại cho đến khi đạt được tổng bình phương sai

số nhỏ nhất hoặc không thể cải thiện thêm được nữa.

Khi sử dụng phương pháp này, bạn phải chọn learning rate (alpha) xác định kích

thước của bước cải tiến cần thực hiện trên mỗi lần lặp lại quy trình.

Gradient descent thường được áp dụng vào phép toán hồi quy tuyến tính vì nó tương đối dé hiểu Trong thực tế, phương pháp này rất hữu ích khi bạn có một tập dữ liệu rat lớn với số lượng hàng hoặc số cột lớn hơn bộ nhớ.

1II.2.4 Chính quy hóa (Regularization)

Có những phần mở rộng của việc đào tạo mô hình tuyến tính được gọi là các

phương pháp chính quy hóa (regularization) Mục đích là giảm thiểu tổng bình phương sai số của mô hình trên dữ liệu huấn luyện (sử dụng bình phương nhỏ

nhất) và cùng với đó là giảm cả độ phức tạp của mô hình (như số lượng hoặc kích thước tuyệt đối của tổng tat cả các hệ số trong mô hình)

Hai thuật toán chính quy hóa phé biến sử dụng trong hồi quy tuyến tính là:

- Lasso Regression: trong đó phương pháp Bình phương nhỏ nhất được sửa đổi để cũng giảm thiểu tổng tuyệt đối của các hệ số (được gọi là chính

quy L1).

Trang 24

Ridge Regression: trong đó phương pháp Bình phương nhỏ nhất được sửa đổi dé cũng giảm thiểu tổng bình phương tuyệt đối của các hệ số (được

gọi là chính quy L2).

Các phương pháp này thường được sử dụng khi các biến đầu vào có sự tương

quan (collinearity) với nhau, khi đó nếu chỉ sử dụng phương pháp bình phương

nhỏ nhất trên dir liệu đào tạo sẽ không cho kết quả tốt.

Dữ liệu cho hồi quy tuyến tính

Mô hình hồi quy tuyến tính dựa trên một số giả định (assumption) về dữ liệu Chúng ta cần đảm bảo thỏa mãn các giả định này dé đảm bảo mô hình hồi quy

có ý nghĩa Sau đây sẽ là một số lưu ý cho mô hình hồi quy tuyến tính phổ biến nhất — mô hình bình phương nhỏ nhất (Ordinary least squares):

Giả định tuyến tinh (Linear Assumption) Hồi quy tuyến tính giả định

rằng mối quan hệ giữa biến độc lập và biến phụ thuộc là tuyến tính, chứ không hỗ trợ các quan hệ khác Bạn có thé cần phải chuyền đổi dữ liệu dé

làm cho mối quan hệ trở nên tuyến tính (ví dụ: lấy logarit trong trường

hợp quan hệ là hàm mũ).

Loại bó nhiễu (noise) Hồi quy tuyến tính giả định rằng các biến đầu vào

và đầu ra của bạn không bị nhiễu Bạn có thé cần sử dụng các phương

pháp làm sạch dữ liệu cho phép bạn làm rõ hơn tín hiệu trong dữ liệu của

mình tố Điều này quan trọng nhất đối với biến đầu ra và bạn cần loại bỏ các giá trị ngoại lệ trong biến đầu ra (y) nếu có thé.

Loại bỏ twong quan giữa các biến (Collinearity) Mô hình hồi quy tuyến

tính sẽ không chính xác khi bạn có các biến đầu vào tương quan cao với

nhau Bận cần tính toán các hệ số tương quan theo cặp cho dit liệu dau vào của bạn và loại bỏ bớt biến đầu vào nếu nó có tương quan quá cao với

biến khác.

Phân phối Gaussian Hồi quy tuyên tính sẽ đưa ra các dự đoán đáng tin

cậy hơn nêu các biên dau vào và dau ra của bạn có phân phôi Gaussian

Trang 25

(phân phối chuẩn) Bạn có thể nhận được một số lợi ích bằng cách sử

dụng các phép biến đồi (ví dụ: log hoặc BoxCox) trên các biến của bạn để làm cho phân phối của chúng gần giống phân phối chuẩn hơn.

- Thay đối thang do của biến dau vào Hồi quy tuyến tính thường sẽ đưa ra

các dự đoán đáng tin cậy hơn nếu thay đổi lại thang đo của các biến đầu vào bằng cách tiêu chuẩn hóa (standardization) hoặc chuẩn hóa

(normalization).

III.3 Thuật toán Support Vector Machine

11.3.1 Mô hình toán học:

Support Vector Machine là thuật toán học giám sát (supervied learning) được sử

dụng cho phân lớp dữ liệu áp dụng cho nhiều loại bài toán nhận dạng và phân

loại

Support Vector Machine không đưa ra kha năng output bằng | như Logistic

Regression, thay vào nó nó chi đơn thuần dự đoán output bằng 0 hay bằng 1.

yˆ={10khi xTw>0khi xTw<0

Thuật toán của Support Vector Machine

Bước 0: Bình thường hóa dữ liệu và áp dụng kernel nếu cần thiết.

Bước 1: Chọn một điểm bat kỳ (w0,w1, wn) va các tham số a, C, k.

Bước 2: Liên tiếp lặp lại các phép biến đồi

Bước 3: Thuật toán dừng lại khi J(w) thay đổi rất nhỏ hoặc trị tuyệt đối các đạo

hàm riêng rat nhỏ Nếu thuật toán không thể kết thúc thì chọn giá trị a nhỏ hon

Trang 26

1IL.3.2 Độ chính xác của phương trình giả thuyết

Trong Support Vector Machine, phan mat mát mdi input đóng góp có dạng hàm

Hinh 2: minh hoa Ham hinge loss.

Khi y = 0, cost(x) = 0 nếu xTw<-1 và cost(x) tăng dan nếu xTw>—1 và tiến tới

dương vô cực.

Trang 27

xIw

-1 le) Hình 3: minh họa Hàm hinge loss

Ham mất mát của Support Vector Machine

J(w)=C}mi=1[y(1)max(0,k(I=x()Tw))#+(1=y())max(0.k(I+x()Tw))]+12Xnj=l

w2j

Ở đây hằng số C đóng vai trò như 12 là độ chính quy hóa của hàm mắt mát giúp kiểm soát sai lầm của phương trình giả thuyết Khi xảy ra underfitting, ta cần

tăng C Khi xảy ra overfitting, ta cần giảm C.

1IIL3.3 Nghiệm của thuật toán Support Vector Machine

Ta có thê tìm diém cực tiêu của ham mat mát bang thuật toán Gradient Descent

với các biến đổi

Trang 28

Một đặc điểm của Support Vector Machine là nó luôn có gắng tìm nghiệm sao cho Dieision Boundary cách xa các điểm dữ liệu nhất cho thẻ Trong hình dưới

đây, thuật toán có xu hướng chọn phương án A thay vì phương án B vì nó cách

xa các điểm đữ liệu hơn Điều này có thé dẫn tới overfitting và ta có thé làm

giảm xu hướng này bằng cách giảm C.

Hình 4: Minh họa Support Vector Machine

Việc tìm nghiệm của thuật toán Support Vector Machine tương đối phức tạp nếu cài đặt thủ công Có rất nhiều thư viện đã được cài đặt sẵn Support Vector Machine và ta nên dùng chúng vì chẳng những giúp tiết kiệm thời gian mà các

thư viện đó còn được áp dụng nhiều kỹ thuật tối ưu hóa dé thuật toán chạy

nhanh hơn.

1IIL3.4 Kernel với Support Vector Machine

Ly do giúp Support Vector Machine trở nên mạnh mẽ khi so sánh với Logistic

Regression là bởi nó hoạt động rất tốt khi áp dụng Kernel để giải quyết các bài toán có dữ liệu phân bố phức tạp Mặc dù Kernel cũng có thể sử dụng với Logistic Regression nhưng Support Vector Machine có nhiều phương pháp tối

ưu cho Kernel hơn nên người ta thường chỉ sử dụng Kernel với Support Vector

Machine.

Trang 29

Khi các điểm dữ liệu phân bố phức tap, dé tim Decision Boundary phù hợp ta phải thêm các biến mới Tuy nhiên, nhược điểm của cách này là khó chọn ra bộ các biến phù hợp và tốn nhiều công sức đề thử nhiều phương án khác nhau.

Kernel thực chất là một hàm tính toán các biến mới của input Có nhiều loại

Kernel khác nhau Trong đó phổ biến nhất là Gaussian Kernel.

Gaussian Kernel tìm độ giống nhau giữa điểm dữ liệu x và điểm mốc | như sau

Áp dụng thuật toán Support Vector Machine với bộ dữ liệu mới này, ta có thể

tìm được phương trình đường Decision Boundary cho bài toán ban đầu.

Tham số ø2 ảnh hưởng đến kết quả thuật toán Nếu ø2 nhỏ, f giảm nhanh khi điểm dữ liệu ra xa điểm mốc Nếu ø2 lớn, f giảm chậm khi điểm dữ liệu ra xa điểm mốc Khi xảy ra underfitting, cần giảm giá trị ø2 Khi xảy ra overfitting, cần tăng giá trị 02.

III.4 Thuật toán Gradient Boosting Regession: :

Thực toán Gradient Boosting Regession dựa trên sự kêt hợp Adaptive Boosting

(AdaBoost) + Gradient Boosting Đề xuất phương pháp với tư tưởng là thay vì

cố gắng xây dựng một mô hình tốt duy nhất, chúng ta sẽ xây dựng một họ các

mô hình yếu hơn một chút, nhưng khi kết hợp các mô hình lại, (nếu có thể kết

hợp một cách chính xác) sẽ thu được một mô hình còn vượt trội hơn cả.

HL4.1 Ý trởng của boosting

-Xây dựng một lượng lớn các model (thường là cùng loại) Mỗi model sau sẽ học

cách sửa những errors của model trước (dữ liệu mà model trước dự đoán sai) ->

Trang 30

số được update qua mỗi model (cụ thé ở đây là trọng số của những dir liệu dự đoán đúng sẽ không đổi, còn trọng số của những dữ liệu dự đoán sai sẽ được tăng thêm) Chúng ta sẽ lấy kết quả của model cuối cùng trong chuỗi model này

làm kết quả trả về.

Ý tưởng cơ bản là Boosting sẽ tạo ra một loạt các model yếu, học bổ sung lẫn

nhau Nói cách khác, trong Boosting, các model sau sẽ cố gắng học để hạn chế lỗi lầm của các model trước.

Vậy làm thể nào để hạn chế được sai lầm từ các model trước ? Boosting tiến hành đánh trọng số cho các mô hình mới được thêm vào dựa trên các cách tối ưu khác nhau Tuy theo cách đánh trọng số (cách để các model được fit một cách tuần tự) và cách tổng hợp lại các model, từ đó hình thành nên 2 loại Boosting :

+ Adaptive Boosting (AdaBoost)

+ Gradient Boosting

+ Boosting là một quá trình tuần tự, không thẻ xử lí song song, do đó, thời

gian train mô hình có thé tương đối lâu.

+ Sau mỗi vòng lặp, Boosting có khả năng làm giảm error theo cấp số nhân.

+ Boosting sẽ hoạt động tốt nếu base learner của nó không quá phức tap

cũng như error không thay đổi quá nhanh.

+ Boosting giúp làm giảm giá trị bias cho các model base learner.

11.4.2 Gradient Boosting ;

Gradient Boosting là một dang tông quát hóa của AdaBoost.

Gradient Boosting xây dựng thuật toán nhằm giải quyết bài toán tối ưu sau :

Trang 31

« y: label

«+ cn: confidence score của weak learner thứ n (hay còn gọi là trong số)

+ wn: weak learner thứ n

Thoat nhìn, công thức trên có vẻ khá giống với Bagging, thế nhưng cách tính ra

các giá tri confidence score kia lại làm nên sự khác biệt về hướng giải quyết của

Boosting Thay vì cố gang quét tìm tat cả các giá trị cn,wn dé tìm nghiệm tối ưu toàn cục - một công việc tốn nhiều thời gian và tài nguyên, chúng ta sẽ cô ging

tìm các giá trị nghiệm cục bộ sau khi thêm mỗi một mô hình mới vào chuỗi mô

hình với mong muốn dan đi đến nghiệm toàn cục.

Không giống như AdaBoost xây dựng các gốc cây, Gradient Boost xây dựng các

cây thường có 8-32 lá.

Gradient Boost xem vấn đề tăng cường (boosting problem) là một vấn đề tối ưu

hóa, trong đó nó sử dụng một hàm mat mát (loss function) và có gắng giảm thiểu

lỗi Đây là lý do tại sao nó được gọi là Gradient boost, vì nó được lấy cảm hứng

từ sự giảm dần độ dốc (gradient descent).

Cuối cùng, cây được sử dụng để dự đoán lượng dư của các mẫu (dự đoán trừ

thực tế).

Mặc dù điểm cuối cùng có thé gây nhầm lẫn, nhưng tat cả Gradient Boost bắt đầu bằng cách xây dựng một cây đề có gắng phù hợp với dữ liệu và các cây tiếp theo được xây dựng nhằm mục đích giảm phần dư (lỗi) Nó thực hiện điều này bằng cách tập trung vào các khu vực mà những người học hiện có hoạt động

kém, tương tự như AdaBoost.

Trang 32

CHƯƠNG IV GIỚI THIỆU BỘ DỮ LIỆU - PHÂN TÍCH DỮ LIỆU

IV.1 Bộ đữ liệu chuẩn:

IV.1.1 Do các chỉ số:

- Do độ mặn: để xác định niêm mặn trong quá trình nước biển xâm nhập vào sông Việc đo được thực hiện ở các độ sâu khác nhau trên sông: đo điểm thấp nhất sát đáy sông, đo tầng giữa và tầng mặt của sông Thời gian đo là các giở lẻ

trong ngày.

- Do mực nước: xác định mực nước lúc đỉnh triều (Đỉnh cao) để làm cơ sở tính

toán quá trình nước chảy về các nhánh sông, đo mực nước lúc triều kiệt (chân thấp) dé xác định khả năng xâm nhập mặn từ biển vào Thời gian do là các giờ lẻ

trong ngày.

- Lưu lượng nước thượng nguồn: xác định lưu lượng nước từ thượng nguồn đỗ

về (chảy xuôi) sông, đây là lượng nước từ các nhánh sông chảy ra biển mỗi

ngày; xác định lưu lượng nước từ biển chảy về thượng nguồn (Chảy ngược) Thời gian đo là mỗi giờ trong ngày.

IV.1.2 Thu thập số liệu và xử lý dữ liệu

Dữ liệu được thu thập từ 02 trạm Mỹ Hóa và An Thuận:

- Dữ liệu độ mặn của 02 Trạm từ năm 2019 đến năm 2021 và 5 thang đầu

năm 2022

- Dữ liệu lưu lượng nước thượng nguồn dé về được đo từ trạm Mỹ Thuận:

bao gồm lưu lượng nước từ các nhánh sông chảy qua trạm Mỹ Thuận ra

biển và lưu lượng nước từ biển chảy vào, dit liệu được thu thập trong 02

năm 2019 và 2020 (Dữ liệu năm 2021 vẫn chưa có).

- Dữ liệu Mực nước từ năm 2019 đến năm 2021 và 5 tháng đầu năm 2022

của 2 trạm

- Tất cả số liệu được tính từ ngày 01 tháng 01 và kết thúc vào ngày 15 tháng 6 hàng năm Do Chu kỳ mặn tại Bến Tre thường kết thúc vào trung

Trang 33

tuần tháng 6, từ giữa cuối tháng hiện tượng xâm nhập mặn không còn rõ rang, thậm chí không còn.

IV.1.3 Dữ liệu minh họa:

à ay A â mă: nước | nước | nguồn chảy aren

Ngày dương | Ngayam | Độ mặn | di | chân | rabiển | "8UÔn trong

cao | thấp | trong ngày (Chay

(em) | (em) | (Chay xuôi) y

Trang 34

16/01/2019 | 1/12/2018) 125 | -57 [ 135430 -34655 17/01/2019 |12122018| 2; -86 | 128550 “49410 18/01/2019 | 13/12/2018) 3, | 140 | -87 | 133100 753829 J901/2019 141220181 1; 143 | -123 | 149330 -71200

270/2 |2212/2018| 9 5 148 | -93 | 169940 -62619

28/01/2019 |23/122018| gy | 140 | 57 | 162010 -43488 29/01/2019 | 24/12/2018 g2 129 | -5I | 148100 -33293 3001/2019 |25122018| 95 133 | -68 | 123190 -39138

31/01/2019 |26122018 o2 -84 | 132890 “44915 01/02/2019 | 27/12/2018} 5 | 19 | -114 | 127550 “37019 02/02/2019 | 28/12/2018 03 122 | -121 142470 -60646 03/02/2019 | 29/12/2018 03 119 | -140 140400 -65210 04/02/2019 |30122018| gy | H7 | -147 | 143890 770429

05/02/2019 | 91/01/2019 |g 4 123 | -144 | 137470 -70682

06/02/2019 | 02/01⁄2019| 4 126 | -144 | 148620 “76105

07/02/2019 | 93/01/2019 | g2 124 | -148 | 151730 “71520

08/02/2019 | 04012019 o2 112 |-144 | 145240 -79355 09/02/2019 | 95/01/2019 |g 1 110 | -132 | 135340 “81745

Trang 35

10/02/2019 | 96/01/2019 |g 1 110 [-113 [ 138860 -77280 11/02/2019 | 97/01/2019 |g 1 117 | 92 | 131900 -75750 12/02/2019 |0#012019| g;y | 122 | -535 | 133590 -57659 13/02/2019 |09/01/2019| g;y | l5 | 48 | 115110 -46020

28/02/2019 | 24/01/2019 |g ¢ 83 | -91 | 121840 739264 01/03/2019 | 25/01/2019 |g 5 98 | -115 | 126010 -64272

Trang 36

0703/2019 |02/02/2019| ạ; | 100 | -150 | 148390 -73909 08/03/2019 | 93/02/2019} yg | 110 | -137| 139310 -83072 09/03/2019 | 94/02/2019 |g 5 112 | -125 | 142500 “82780 1003/2019 | 0502/2019} g 4 | 105 | -118 | 140560 ~75862

11/03/2019 | 96/02/2019 |g 4 105 | -101 [ 147300 -82430

12/03/2019 | 97/02/2019 | gà 106 | -106 | 138570 “75833

1303/2019 | 08/02/2019 |g | 107 | -106 | TT35330 -71629

14/03/2019 | 99/02/2019 |g 9 94 | -105 | 131840 -53390 15/03/2019 | 10/02/2012 g2 94 | -117 | 116900 -50469 16/03/2019 | 11/02/2019) ga 98 | -109 117730 -54857 1703/2019 | 12/02/2019) ạ; | H7 | -1H | 132770 -70290 18/03/2019 | 13/02/2019 9.5 128 | -125 | 138620 -61545 19/03/2019 | 14/02/2019 4.4 | 136 | -136 | 147220 "83850 2003/2019 | 15/02/2019 |g 4 | ‘42 | -135 | 14296 -93000

21/03/2019 | 16/02/2019 |g 5 145 | -142 | 160510 -98342 22/03/2019 |17/02/2019| yg | 149 | -136 | 150770 -109950 23/03/2019 |18/022019| yg | 144 | -118 | 154365 -105170 24/03/2019 | 19/02/2019] ạy | 141 | -112 | 149580 -106420 25/03/2019 |2002/2019| gy | 133 |-H0 | 147940 -92340 26/03/2019 | 21/02/2019} yg | 130 | -H5 | 131190 “16780 21/03/2019 | 22/02/2019 | gs I1 | -93 118745 -66060 28/03/2019 | 23/02/2019 | ga 81 | -115 131875 -33190 29/03/2019 | 24/02/2019 |g 9 88 | -131 [| 142165 “49120 30/03/2019 | 25/02/2019) g2 96 | -138 131415 -59570

3103/2019 | 2602/2019 |g | 100 |-139| 147710 -65810

Trang 37

01/04/2019 |27/022019| ¡ÿ | 106 | -143 | 138320 -67140 02/04/2019 |78022012| yg | 106 | -128 | 135H5 -59780 0/04/2019 |29/02/2019| ¡¿ | H3 | -121 | 13145 775680 04/04/2019 | 30/02/2019} pg | 119 | -115 | 133620 -80470

05/04/2019 | 91/3/2019 | 44 123 | -102 | 129185 -90020

06042019 | 02372019 |), | 124 | +96 | 136505 -88960

07/04/2019 | 03/3/2012 | 1a 126 | -110 | 139220 “88410

08/04/2019 | 04/3/2019 | yy 123 | -110 | 142990 -94510 09/04/2019 | 05/3/2019 | + 120 | -I18 | 143320 -83676

1004/2019 | 063/2019| 96 | H0 |-132| 145410 -78190

H/04/2019 | 03/2019 | ys | 103 | -142 | 141340 -69830

12/0/2019 | 083/2019| 94, | 88 |-147| 1260 -52600

13/04/2019 | 093/201921 ga 84 | -148 | 127035 -50330 14/04/2019 | 103/2019 | 95 92 | -156 | 141330 -62310 15/04/2019 | 11/3/2019 | ạ; | 105 |-160 | 142035 -71440 16/04/2019 | 12/3/2019 | ạ; | 113 | -155 | 140210 -62390 17/04/2019 | 13/3/2019 | gà 126 | -142 | 143790 -§8620 18/04/2019 | 143/2019| ạs | 134 | -128 | 143165 -97400 19/04/2019 | 15/3/2019 | gg | 137 | -119 | 145830 -97930 20/04/2019 | 16/3/2019 | ạ„s 136 | -136 | 150980 -84970 21/04/2019 | 17/3/2019 | gs 134 | -136 | 153270 -84596 22/04/2019 | 1832019 | os | 128 |-147| 147300 “95470 23/04/2019 | 19/3/2019 | gs 124 | -146 | 141500 -91790 24/04/2019 | 20/3/2019 | gg 118 | -140 | 129920 “74305

25/04/2019 | 21/3/2019 | 3 100 | -142 | 135600 -53304

Trang 38

26/04/2019 | 22/3/2019 | go 89 | -146 [ 141055 -55710 27/04/2019 | 23/3/2019 | g2 90 | -146 | 139185 -62010 28/04/2019 | 24/3/2019 | g2 89 | -137 | 148750 -61440 29/04/2019 | 25/3/2019 | gy 97 |-132 | 133265 -54950

30/04/2019 | 26/3/2019 | ạạ 103 | -124 | 134535 758390

01/05/2019 | 27/3/2019 | gs 100 | -128 | 125080 -55940

02/05/2019 | 28/3/2019 | ga 103 | -I13 | 113460 -68920 03/05/2019 | 29/3/2019 | gg 103 | -116 | 128710 “79470

04/05/2019 | 30/3/2019 |g 7 103 | -135 | 128520 -86400 05/05/2019 | 01⁄42019 06 104 | -149 129015 -84385 06/05/2019 | 92/4/2019 | 6 | TIS | -160 | 130810 “93250 07/05/2019 | 93/4/2019 | g 114 | -160 | 134345 -87960 08/05/2019 | 94/4/2019 | gg | l3 | -166 [ 134405 778670 09/05/2049 | 0542019 | 44 | 107 | -170 | 134810 -68620

10/05/2019 | 90/4/2019 |g 3 96 |-170| 131135 753490 11/05/2019 | 97/4/2019 | g2 98 | -169 | 130935 -50050 12/05/2019 | 08/4/2019 | ạ; | 106 | -163 | 138940 -57030 13/05/2019 | 99/4/2019 | ạ; | 107 |-160[ 157225 -59980 14/05/2019 | 104/2019| gs | 118 | -153 | 143200 -65610 15/05/2019 | 11/4/2019 | g.5 122 | -134 | 143655 +14

Trang 39

21/05/2019 | 17/4/2019 |g | 105 |-179 | 140615 “81210 22/05/2019 | 18/4/2019 | 4 | 100 | -182 | 132840 770650 23/05/2019 | 19/4/2019 | gy 9% | -183 | 128640 762962 24/05/2019 | 20/4/2019 |g 89 | -176 | 131780 756270

10/06/2019 | 98/5/2019 | g2 84 | -189 | 168760 -44375

11/06/2019 | 09/5/2019 02 85 | -170 173330 -37473 12/06/2019 | 19/5/2019 | gy 100 | -151 | 173225 -47260

13062019 | 11/5/2019 | gy 103 | -126 | 156955 -51608

14/06/2019 | 12/5/2019 | gy 99 | -155 | 155090 -5I831

Trang 40

15/06/2019 | 13/5/2019 |g 102 [-176 [ 153520 -54490

Bảng 1: Dữ liệu Tram Mỹ Hóa năm 2019

Tram An Thuan:

Mực nước | Mực nước Mực Mực Ngày dương | Ngày âm | Độ mặn | đỉnh cao | chân thấp | „hước | nude

lịch lịch - | caonhất | An Thuận | An Thuận | “inh cao | chan

(em) (em) y Hóa ip Mỹ

11/01/2019 | 06/12/2018) 120 -125 120 -123

12/01/2019 | 07/12/2018 m 126 -108 124 “113 13/01/2019 | 08/12/2018 120 86 123 95 14/01/2019 | 09/12/2018 116 -50 126 -64 15/01/2019 | 107122018) Hà -30 118 39 16/0/2019 | 11122018) 120 4B 125 “37 1700/2019 | 127122018) 142 -69 -86 18/01/2019 | 13/12/2018 144 -86 140 -§7 19/01/2019 | 14/12/2018 152 -128 143 -123

Ngày đăng: 24/11/2024, 14:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN