Hiện tại Bến Tre có 27 trạm dùng đê đo độ mặn, cập nhật thông tin theo số liệu hàng ngày và tiến hành phân tích dự báo theo tuần, 10 ngày..., Việc phân tích, dự báo chưa được ứng dụng nh
Trang 1ĐẠI HỌC QUÓC GIA THÀNH PHÓ HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
HUỲNH THANH TÂN
PHÂN TÍCH VÀ DỰ BÁO HIỆN TƯỢNG XÂM NHẬP MĂN TẠI BÉN TRE
LUẬN VĂN THẠC SĨ
NGÀNH CÔNG NGHỆ THÔNG TIN
MA SO: 8.48.02.01
NGƯỜI HƯỚNG DAN KHOA HỌC
TS NGUYÊN GIA TUẦN ANH
Trang 2LỜI CAM ĐOAN Tôi xin cam đoan dé tài “Phân tích và dự báo hiện tượng xâm nhập mặn
tại Bến Tre” là công trình nghiên cứu của bản thân dưới sự hướng dẫn của Thầy
TS Nguyễn Gia Tuấn Anh, không có sự sao chép của người khác, công trình nghiên cứu khác Những số liệu và tài liệu tham khảo trong luận văn đều được
cho phép và có chú thích nguồn rõ ràng, minh bạch Đề tài là sản phẩm nghiên
cứu của bản thân, phần mềm, số liệu và kết quả trong luận văn là trung thực Em xin chịu trách nhiệm và kỷ luật của nhà trường đối với những sai phạm trong đề
tài của mình.
Người cam đoan
Huỳnh Thanh Tân
Trang 3LỜI CẢM ƠN
Sau thời gian nghiên cứu, em đã hoàn thành luận văn “Phân tích và dự
báo hiện tượng xâm nhập mặn tại Bến Tre” Dé hoàn thành luận văn thạc si, lời đầu tiên em xin chân thành cảm ơn sự giúp đỡ và hướng dẫn của thầy TS Nguyễn Gia Tuấn Anh Thầy đã có những hướng dẫn, nhận xét, chỉnh sửa hợp
lý để hướng cho em có một luận văn hoàn chỉnh Những quan tâm, chỉ bảo của Thay làm em tin tưởng vào ban thân nhiều hơn, vừa tạo động lực phấn đấu dé
em giúp hoàn thành tốt hơn, có trách nhiệm với bản thân hơn.
Để hoàn thiện Luận văn này không chỉ là công sức của bản thân mà còn là
sự đóng góp, giúp đỡ của nhiều cá nhân, đơn vị trên địa bàn tỉnh Bến Tre, đặc biệt là Đài Khí tượng thủy văn tỉnh Bến Tre đã cung cấp số liệu giúp em hoàn
thành nghiên cứu của mình.
Ngoài những số liệu và sự giúp đỡ nhiệt tình từ các đơn vị trong tỉnh, em
xin cảm ơn Trung tâm Động lực học Thủy khí Môi trường — Trường Dai học
Khoa học tự nhiên — Đại học Quốc Gia Hà Nội đã cử Ths Nguyễn Bách Tùng
hỗ trợ phương pháp và hướng dẫn sử dung mô hình dé tính toán.
Em xin cảm ơn các tình cảm của toàn thể Thay, C6 dao tao Sau dai hoc trường Đại hoc Công nghệ thông tin đã tận tâm, tận tình truyền đạt những kiến
thức vô cùng giá trị trong suốt thời gian học Đây là nền tảng quý báu làm hành
trang cho em tự tin hơn trong quá trình nghiên cứu thực hiện đề tài này.
Cuối cùng, Em xin cảm ơn đến gia đình, cơ quan và các anh/chị Khóa cao
học Công nghệ thông tin K12- đợt 2, những người đã cùng đồng hành, giúp đỡ
em trong quá trình học tập và làm luận văn.
Trang 4Phương pháp luận .0
Các bước tiền hành
Phạm vi và giới hạn - s5 se ssseksterssereeerrerrreerrrrrreeerseercee LO
CHƯƠNG I TONG QUAN
L1 Tổng quan về nghiên cứu xâm nhập mặn quốc tế - 12 1.2 Tổng quan về nghiên cứu xâm nhập mặn trong nước - 13 1.3 Tổng quan về khu vực tỉnh Bến Tre ::::¿£222222vvvvvvcccrccee 14 13.1 Vị trí địa lí tỉnh Bến Tre
CHƯƠNG II CÁCH TIẾP CAN VÀ PHƯƠNG PHÁP NGHIÊN CỨU 19 II.1 Cách tiếp cận:
1L2 Phương pháp nghiên cứu
CHƯƠNG III ĐỀ XUẤT PHƯƠNG PHÁP PHAN TÍCH - 20
IIL.2 Một số hồi quy tuyến tính cơ bản -:
II.2.1 Hồi quy tuyến tính đơn giản (simple linear regression).
II.2.2 Bình phương nhỏ nhất (ordinary least square).
III.2.3 Gradient Descent
Trang 5II.3.2 Độ chính xác của phương trình giả thuy:
II.3.3 Nghiệm của thuật toán Support Vector Machine.
III.3.4 Kernel với Support Vector Machine
III.4 Thuật toán Gradient Boosting Regession: -« 28
TIL4.1 Ý tưởng của boosting ccscceesssssssesecsssssesecosssseessesssieescesssneesessese 28
III.4.2 Gradient Boosting
CHƯƠNG IV GIGI THIỆU BO DU LIEU - PHAN TICH DU LIỆU 31 IV.1 Bộ dữ liệu chua 31
IV.2 Phân tích dữ liệu: ¿-::cc2c c2, 46 IV.3 Xây dung mô hình dự báo - ¿- + + +ètss‡kekekekrrrkrkerrreree 50
1V.3.1 Mô hình hồi qui tuyến tính -cc:c++++2222vvvvvvrvrrrrcree 50
CHƯƠNG V DANH GIA KET QUA PHAN TÍCH VA DỰ BAO XÂM
Trang 6Bản đồ xâm nhập mặn cao nhất năm 2016
minh họa Hàm hinge loss
minh họa Hàm hinge ÏOSS - 552525252 ‡e+ereeeeeexersrere
Minh họa Support Vector Machine - 525 sccc+zxecxzrerrerrrer 27 Biên tập Dữ liệu trạm Mỹ Hóa năm 2019 7+ S+cst+xsxerereree 46 Biên tập Dữ liệu trạm An Hóa năm 2019
Ảnh hưởng độ mặn theo tháng
Ảnh hưởng độ mặn theo ngày trong tháng -.:: 5255cc:++ccs+ 48
Ảnh hưởng độ mặn theo chu kỳ triều
Hình 10: Ảnh hưởng độ mặn theo lưu lượng nước từ sông đồ ra biền 49
Hình 11: Ảnh hưởng độ mặn theo lưu lượng nước biển dé về sông
Hình 12: Mô hình hồi quy tuyến tính 1 biến
Hình 13: Mô hình hồi quy tuyến tính 2 biến -cccccccz+cccvcsccccrrcece.c.- SL
Hình 14: Mô hình hồi quy tuyến tính 3 biến ¿-©22¿+2222222cz+tcrx+ 51
Hình 15: Mô hình máy học thé hiện độ mặn trong theo tháng 22
Hình 15: Mô hình Support Vector Regression trong dự báo
Hình 16: Mô hình Support Vector Regression trong dự báo
Hình 17: Mô hình Gradient Boosting Regression trong dự báo 53
Trang 7DANH MỤC BẢNG
Bảng 1: Dữ liệu Trạm Mỹ Hóa năm 2019
Bảng 2: Dữ liệu trạm An Thuận năm 2019
Trang 8DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIET TAT
ĐBSCL Đồng bằng sông Cửu Long
CSDL Cơ sở dữ liệu
GIS Hệ thống thông tin địa lý
DHI Viện Thủy lực Đan Mạch
BDKH Biến đối khí hậu
NBD Nước biên dâng
MIKE Mô hình mô phòng
Trang 9MỞ ĐÀU
Đông băng Sông Cửu Long bao gôm phân đât thuộc 13 tỉnh thành phô
gồm: Long An, Đồng Tháp, Tiền Giang, Vĩnh Long, Trà Vinh, Bến Tre, An
Giang, Hậu Giang, Sóc Trăng, Bạc Liêu, Cà Mau, Kiên Giang và thành phố Cần Thơ Đây là vùng đất thấp ven biển của Việt Nam sẽ là khu vực bị tác hại nặng
né nhất do biến đồi khí hậu gây ra Trong những năm gần dây, Bến Tre là tỉnh bị ảnh hưởng nặng của nước nhiễm mặn và đất nhiễm mặn.
Công tác phân tích và dự báo độ mặn rat phức tap, được thực hiện bằng thủ công Hiện tại Bến Tre có 27 trạm dùng đê đo độ mặn, cập nhật thông tin theo số liệu hàng ngày và tiến hành phân tích dự báo theo tuần, 10 ngày , Việc phân tích, dự báo chưa được ứng dụng nhiều các tiến bộ khoa học công nghệ như: số hóa cơ sở dữ liệu và bản đồ thiên tai; các phần mềm thống kê, tổng hợp;
báo chính xác trong tương lai.
Đặt vấn đề
Phân tích, dự báo xâm nhập mặn có ý nghĩa vô cùng quan trọng trong ngành
nông nghiệp tinh nha Các năm gần đây có nhiều nghiên cứu vẻ tình hình xâm nhập mặn tại ĐBSCL nhưng có hai xu hướng chủ yếu đó là:
- Một là nghiên cứu theo diện rộng, hướng này sẽ tiến hành nghiên cứu theo vùng Tại Tây Nam bộ, thì các nghiên cứu đều hướng về vủng ĐBSCL Hướng nghiên cứu này sẽ đánh giá tổng quan về tình hình xâm nhập mặn, đưa ra các giải pháp dé hạn chế, không có các sản phẩm thực tế
Trang 10- Hai là nghiên cứu theo từng tinh, tại tỉnh Bến Tre có hai nghiên cứu đáng chú ý là “xác định nguyên nhân, dự báo tình hình xâm nhập mặn vào đất
và nước tải tỉnh Bến Tre trong điều kiện biến đổi khí hậu — nước biển dâng Đề xuất các giải pháp thích ứng” và nghiên cứu “thực trạng giải
pháp tái cơ cấu ngành nông nghiệp tỉnh Bến Tre” Hướng nghiên cứu này
có kết quả cũng là các giải pháp theo từng giai đoạn.
Cả hai hướng nghiên cứu đều đưa ra giải pháp thích ứng phi hợp, hạn chế các thiệt hại gây ra đối với tình hình xâm nhập mặn trong điều kiện biến đổi khi hậu Về lâu về dài, cần có một công cụ thể hiện các nghiên cứu phân tích, dự báo xâm nhập mặn tỉnh Bến Tre
Mục tiêu:
Xây dựng và phân tích số liệu thực đo và số liệu mô phỏng dự báo xâm nhập
mặn trên địa bàn tỉnh Bến Tre và thử nghiệm với số liệu tại trạm đo mặn của
tỉnh Bến Tre
Mục tiêu cụ thể: - Thu thập các dữ liệu hiện có tại các trạm thủy văn Mỹ Hóa,
thủy văn An Thuận và một số trạm thủy văn liên quan thuộc địa bàn tỉnh Bến
Tre và vùng lân cận;
- Phân tích số liệu thực đo tại trạm thủy văn Mỹ Hóa và An Thuận;
- Phân tích số liệu mô phỏng tại trạm thủy văn Mỹ Hóa và An Thuận;
- Đề xuất mô hình dự báo thông qua các thuật toán Hồi quy tuyến tính và phương pháp máy học.
Phương pháp luận
Phương pháp điều tra, thu thập
Thu thập các thông tin, dữ liệu liên quan về khí tượng thủy văn, các hiện tượng thiên tai có nguồn gốc KTTV, hiện trạng các ngành, lĩnh vực kinh tế xã hội và quy hoạch/kế hoạch phát triển trong giai đoạn tới, bổ sung các thông tin về điều kiện địa lý tự nhiên và KTXH, hiện trạng và quy hoạch hệ thống cơ sở hạ tầng
thủy lợi, đê điều.
Trang 11Phương pháp thống kê phân tích hệ thống và ké thừa các tài liệu đã có
Kế thừa và chọn lọc tư liệu về xâm nhập mặn, thu thập số liệu, phân tích tài liệu trong và ngoài nước hiện có liên quan đến nghiên cứu Kế thừa các phương pháp nghiên cứu về phân tích dữ liệu hệ thống trong các nghiên cứu trước đây.
Phương pháp mô hình toán
Sử dụng phương pháp hồi quy tuyến tính và áp dụng mô hình máy học đề kiểm
định tính chính xác, đánh giá quá trình xâm nhập mặn.
Phương pháp lấy ý kiến chuyên gia:
Lấy ý kiến đóng góp của các chuyên gia về cách tiếp cận, thiết kế nghiên cứu, phương pháp luận về đánh giá hiện tượng xâm nhập mặn; luận cứ khoa học các vấn đề cần giải quyết, phân tích đánh giá nguyên nhân và tìm kiếm các giải pháp khắc phục cả trước mắt và lâu dài
Các bước tiến hành
Đề xây dựng một hệ thống phân tích, cảnh báo xâm nhập mặn đáp ứng được yêu cầu là chính xác, hạn chế một phần sử dụng phương pháp thủ công hiện tại Cần triển khai các bước như sau:
Bước 1: Thu thập số liệu, chuẩn hóa số liệu
Bước 2: Mô tả và Phân tích số liệu.
Bước 3: Xây dựng mô hình dự báo.
Bước 4: Đánh giá kết quả phân tích và dự báo.
Phạm vi và giới hạn l l
Trong phạm vi bài báo cáo, Em xin đê xuât mô hình chạy thực nghiệm
gồm 2 phương pháp do là đo chu kỳ triều tại tram An Thuận - Ba Tri và đo theo ngày tại trạm Mỹ Hóa — Thành phó Bến Tre.
- Do theo chu kỳ triều (tram An Thuận - Ba Tri): mỗi tháng có 2 chu kỳ
triều, kéo đài 15 ngày/Chu kỳ Số liệu được đo cho mỗi chu kỳ là 12 lần/ngày Phương pháp đo tích sâu, đo 3 tầng nước là tầng mặt, tầng giữa và tầng đáy Dữ
Trang 12- Do theo ngày (tram Mỹ Hóa — Thành phố Bến Tre): số liệu được đo mỗi ngày, với 12 lần/ngày Áp dụng hình thức đo tích sâu, đo 3 tầng nước là tầng mặt, tầng giữa và tầng đáy Dữ liệu được thu thập từ năm 2019-2021 và 5 tháng đầu năm 2022.
- Dữ liệu: dạng bảng biểu, dữ liệu cột có 14 cột, 12 cột thé hiện giờ đo mẫu
nước theo giờ lẻ, 02 cột còn lại thé hiện tỉ lệ (%o) cao nhất, thấp nhất và dữ lệu dòng thể hiện ngày đo (từ ngày 01/01 đến 15/6) thé hiện số liệu đo theo chu ky
triều hoặc theo ngày Cấu trúc luận văn
Cấu trúc sẽ bao gồm các chương, cụ thể như sau:
- Chương | (Tổng Quan): bao gồm giới thiệu tổng quan về hướng nghiên
cứu, khu vực nghiên cứu, phương pháp nghiên cứu
- Chương 2 (Cách tiếp cận và phương pháp nghiên cứu liên quan): trình bày phương pháp nghiên cứu phỏ biến về phân tích, dự báo xâm nhập mặn và
cách lựa chọn mô hình.
- Chương 3 (Phương pháp đề xuất): sử dụng phương pháp hồi quy tuyến
tính và mô hình máy học để phân tích sự ảnh hưởng, tác động giữa các
yếu tổ liên quan đến xâm nhập mặn, xây dựng mô hình dự báo.
- Chương 4 (Giới thiệu bộ dữ liệu — phân tích dự liệu): Giới thiệu dữ liệu
chuyên ngành Thủy văn được thu thập từ 2 Trạm Thủy văn An Thuận và
Mỹ Hóa trong 3 năm 2019-2021 và 5 tháng đầu năm 2022 Phân tích dữ
liệu và xây dựng mô hình dự báo.
-_ Chương V: (Đánh giá kết quả phân tích): đánh giá kết quả phân tích và
mô hình dự báo.
- _ Kết luận và hướng phát triển.
Trang 13CHUONG I TONG QUAN
I.1 Tổng quan về nghiên cứu xâm nhập mặn quốc tế
Do tính chất quan trọng của hiện tượng xâm nhập mặn có liên quan đến hoạt
động kinh tế - xã hội của nhiều quốc gia nên vấn đề tính toán và nghiên cứu đã được đặt ra từ lâu Mục tiêu chủ yếu của công tác nghiên cứu là nắm được quy
luật của các quá trình này để phục vụ hoạt động kinh tế - xã hội, quốc phòng
vùng cửa sông như ở các nước như Mỹ, Nga, Hà Lan, Nhật, Trung Quốc, SỬ dụng các phương pháp cơ bản được thực hiện bao gồm: thực nghiệm (dựa trên
số liệu quan trắc) và mô phỏng quá trình bằng các mô hình toán Việc mô phỏng quá trình dòng chảy trong sông ngòi bằng mô hình toán được bắt đầu từ khi
Saint — Vennant công bố hệ phương trình mô phỏng quá trình thủy động lực
trong hệ thống kênh hở một chiều nồi tiếng mang tên ông Chính nhờ phương
pháp giải của hệ phương trình Saint — Venant nên kỹ thuật tính sai phân và công
cụ máy tính điện tử đáp ứng được thì mô phỏng dòng chảy trong sông ngòi là
công cụ quan trọng để nghiên cứu Mọi dự án phát triển tài nguyên nước trên thế giới hiện nay đều coi mô hình toán dòng chảy là nội dung tính toán không thể
thiếu.
Zhang Xinfeng và Deng Jiaquan đã nghiên cứu các yếu tố ảnh hưởng của xâm nhập mặn ở cửa sông Châu Giang (Trung Quốc) và sử dụng bền vững tài nguyên nước tại sông Châu Giang Tác giả đã đánh giá tầm quan trọng của nước thượng
nguồn, hồ chứa đến quá trình day lùi mặn trong thời kỳ khô hạn năm 2006 —
2007 và 2007 - 2008 Ngoài ra, nghiên cứu này đã nêu rõ tầm quan trọng của hồ chứa, hướng gió, hình thái sông ảnh hưởng trực tiếp đến quá trình xâm nhập
mặn tại sông Châu Giang [1]
M.M.Prabhakaran và G.Resmi đã nghiên cứu đánh giá xâm nhập mặn vùng cửa
sông Periyar - Án Độ Nghiên cứu này tác giả sử dụng Brockway Model (2006)
là mô hình thực nghiệm để đánh giá sự phù hợp vùng cửa sông Periyar và dự đoán xâm nhập mặn Tác giả sử dụng mô hình thực nghiệm đạt được kết quả
Trang 14xâm nhập mặn năm 2008, 2009, 2010 có xâm nhập mặn có chiều dài tỉ lệ
nghich với lượng nước sông ở cửa sông [2]
L2 Tổng quan về nghiên cứu xâm nhập mặn trong nước
Nghiên cứu xâm nhập mặn ở Việt Nam được quan tâm từ những năm 60 khi bắt đầu tiến hành quan trắc độ mặn ở hai vùng đồng bằng sông Hồng và sông Cửu Long Đối với đồng bằng sông Cửu Long đo đặc điểm địa hình không có đê bao
và mức độ ảnh hưởng của xâm nhập mặn có tính quyết định đến sản xuất nông nghiệp ở vựa lúa lớn nhất cả nước nên việc nghiên cứu xâm nhập mặn ở đây được chú trọng nhiều hơn, đặc biệt thời kỳ sau năm 1976 Khởi đầu là các công trình nghiên cứu, tính toán của Ủy ban sông Mê Kông về xác định ranh giới xâm nhập mặn theo các phương pháp thống kê trong hệ thống kênh rạch ở 9 vùng cửa sông thuộc đồng bằng sông Cửu Long Các kết quả tính toán từ chuỗi số liệu thực đo đã lập lên bản đồ đẳng trị mặn với hai chỉ tiêu cơ bản 1% và 4%o cho toàn khu vực đồng bằng trong những tháng 12 đến tháng 4 Nhiều báo cáo dưới các hình thức công bố khác nhau đã xây dựng các bản đồ xâm nhập mặn từ số liệu cập nhật và xem xét nhiều khía cạnh tác động ảnh hưởng các nhân tố địa
hình, KTTV và tác động các hoạt động kinh tế đến xâm nhập mặn ở đồng bằng
sông Cửu Long
Việc day nhanh công tác nghiên cứu xâm nhập mặn ở nước ta được đánh dấu vào năm 1980 khi bắt đầu triển khai dự án nghiên cứu xâm nhập mặn đồng bằng sông Cửu Long dưới sự tài trợ của Ban Thư ký Ủy ban sông Mê Kông Trong khuôn khổ dự án này, một số mô hình tính xâm nhập triều, mặn đã được xây dựng như của Ban Thư ký Ủy ban sông Mê Kông và một số cơ quan trong nước
như Viện Quy hoạch và Quản lý nước, Viện cơ học, Các mô hình này đã được
ứng dụng vào việc nghiên cứu quy hoạch phát triển châu thổ sông Cửu Long, tính toán hiệu quả các công trình chống xâm nhập mặn ven biển đề tăng vụ và
mở rộng diện tích nông nghiệp trong mùa khô, dự báo xâm nhập mặn dọc sông
Cổ Chiên
Trang 15Một số nhà khoa học Việt Nam điển hình là cố Giáo sư Nguyễn Như Khuê, Nguyễn Ân Niên, Nguyễn Tat Đắc, Nguyễn Văn Điệp, Nguyễn Minh Sơn, Trần Văn Phúc, Nguyễn Hữu Nhân đã xây dựng thành công các mô
hình thuỷ lực mạng sông kết hợp tính toán xâm nhập triều mặn như
VRSAP, EKSAL, FWQ87, SAL, SALMOD, HYDROGIS Các báo cáo trên
chủ yếu tập trung xây dựng thuật toán tính toán quá trình xâm nhập mặn thích hợp với điều kiện địa hình, KTTV ở đồng bằng sông Cửu Long Kết quả được nhìn nhận khả quan và bước đầu một số mô hình đã thử nghiệm ứng dụng dự
báo xâm nhập mặn.
Nghiên cứu Mô hình học máy dựa trên nền tảng Brightics AI bao gồm Mô hình hồi quy tuyến tính và mô hình dự báo chuỗi thời gian ARIMA của nhóm tác giả
Nguyễn Đầu Hoàng; Nhâm Ngọc Tân; Nguyễn Thị Huế - Cục Công nghệ Thông,
tin - Bộ Tài nguyên và Môi trường — năm 2022 [3] Kết qua đạt được của nghiên cứu là xây dựng được mô hình theo phương pháp học máy có giám sát nhằm hỗ
trợ cảnh báo, dự báo xâm ngập mặn hiệu quả cho lưu vực sông Hậu.
Nghiên cứu đề xuất kết hợp các phương pháp Ensemble Learning như Bagging (đóng bao); boosting (tăng cường); stacking (xếp chồng) của nhóm tác giả Đặng Hữu Nghị, Bùi Thị Vân Anh; Nguyễn Thị Huế - Trường Đại học Mỏ - Địa chất
~ năm 2022 [4] Nhóm tác giả kết hợp các mô hình dự báo riêng lẻ thành một
mô hình dự báo có tính chính xác hơn áp dụng cho bài toán dự báo độ mặn cửa
sông cho một số sông tại Cà Mau Kết quả của nghiên cứu là nhóm thuật toán Bagging Ensemble Learning cho kết quả hiệu quả hơn trong xây dựng mô hình
dự báo xâm nhập mặn.
1.3 Tổng quan về khu vực tỉnh Bến Tre
13.1 Vị trí dia lí tinh Bến Tre
Đồng bằng Sông Cửu Long bao gồm phan đất thuộc 13 tỉnh thành phố gồm: Long An, Đồng Tháp, Tiền Giang, Vĩnh Long, Trà Vinh, Bến Tre, An
Trang 16Thơ Đây là vùng đất thấp ven biển của Việt Nam sẽ là khu vực bị tác hại nặng
nề nhất do biến đổi khí hậu gây ra Trong những năm gan dây, Bến Tre là tinh bị ảnh hưởng nặng của nước nhiễm mặn và đất nhiễm mặn Diện tích tự nhiên của Bến Tre là 2.360 km2, do 3 cù lao là cù lao An Hóa, cù lao Bảo, cù lao Minh
hợp thành và được bôi tụ phù sa từ 4 nhánh sông là sông Tiền, sông Ba Lai,
sông Hàm Luông, sông Cổ Chiên.
Khí hậu bến Tre là vùng khí hậu nhiệt đới gió mùa cận xích đạo, có hai mùa là mùa mưa và mùa khô: Mùa mưa từ tháng 5 đến tháng 11 và Mùa khô từ tháng 12 đến tháng 4 năm sau Bến Tre có nền nhiệt khá cao, ít biến đổi Nhiệt
độ trung bình hàng năm dao động từ 26°C — 27°C.
Trung bình hàng năm, Bến Tre có lượng mưa dao động từ 2.000 đến 2.300 mm diễn ra vào mùa mưa, mùa khô mưa rất ít chỉ chiếm 2-6% Vào mùa
khô, Bến Tre phải chịu thiếu nước tram trọng phục vụ cho việc tưới tiêu, những
năm gần đây còn bị ảnh hưởng nghiêm trọng của xâm nhập mặn.
Bến Tre chịu ảnh hưởng của gió mùa đông bắc vào mùa khô và gió mùa tây nam
vào mùa mưa Mùa gió đông bắc là thời kỳ khô hạn, mùa gió tây nam là thời kỳ
mưa âm
1.3.2 Tình hình xâm nhập mặn trên khu vực tính Bến Tre
Công tác phòng chống, ứng phó xâm nhập mặn vào mùa khô hàng năm đều được sự quan tâm chỉ đạo của Tỉnh ủy, Ủy ban nhân dân tỉnh, huy động cả
hệ thống chính trị cùng toàn thể nhân dân tập trung thực hiện rất nhiều giải pháp nhằm giảm thiểu thiệt hại do hạn, mặn gây ra Tuy nhiên, những năm gan đây
tình hình xâm nhập mặn trên địa bàn tỉnh diễn biến phức tạp, bất thường đã ảnh
hưởng rất lớn đến mọi mặt đời sống, sản xuất của nhân dân, doanh nghiệp trên địa bàn tỉnh; cụ thể:
Trong mùa khô năm 2015 - 2016, mặn tăng cao đột ngột và xâm nhập rat
sâu, vào cuôi thang 3/2016, độ mặn 4%o đã xâm nhập cách các cửa sông khoảng
từ 50 - 70km, độ mặn 1%o xâm nhập trên phạm vi gần như toàn tỉnh (162/164
Trang 17xã, phường, thị tran) Ước tính giá trị thiệt hại của riêng ngành nông nghiệp là 1.800 tỷ đồng, trong đó có khoảng 30.000 ha đất sản xuất nông nghiệp và 1.800
ha nuôi trồng thủy sản bị ảnh hưởng; 41.325 hộ dân thiếu nước sinh hoạt.
Mùa khô năm 2019 - 2020, tỉnh Bến Tre đang phải đối mặt với đợt xâm
nhập mặn có thể nói là khốc liệt nhất trong lịch sử, mức độ nghiêm trọng hơn rất
nhiều so với đợt mặn lịch sử mùa khô năm 2015 - 2016 Ngay từ giữa tháng 11/2019 mặn đã bắt đầu xâm nhập vào các cửa sông chính, đến đầu tháng 12/2019 mặn xâm nhập nhanh và rất sâu, độ mặn 2%o hầu như bao phủ toàn tỉnh
Bến Tre; so với trung bình nhiều năm, mặn xâm nhập sớm hơn từ 2 - 3 tháng (tùy vị trí trên các sông); so với mùa khô năm 2015 - 2016, độ mặn cao nhất các
trạm cao hơn từ 1 - 7%o; độ mặn 4%o xâm nhập mặn sâu hon so với năm 2016 từ
10 - 25 km trên các sông chính Độ mặn cao và duy trì từ tháng 12/2019 làm cho
nguồn nước trên sông Hàm Luông và Cửa Dai không có nước ngọt, riêng trên
sông Cổ Chiên xuất hiện những đợt nước độ mặn thấp từ tháng 3 có thể phục vụ sinh hoạt, sản xuất cho người dân (chủ yếu các xã ven sông thuộc huyện Chợ
Lách và Mỏ Cày Bắc).
Theo số liệu thống kê, xâm nhập mặn mùa khô năm 2019 - 2020 đã gây ảnh hưởng đến mọi mặt đời sống, sản xuất của người dân, doanh nghiệp trên địa bàn tỉnh; cụ thể: 5.401 ha lúa vụ Đông Xuân 2019 -2020 (vụ 3) chết (tỉnh đã có
khuyến cáo không sản xuất nhưng do người dân tự ý xuống giống); rau màu bị
ảnh hưởng 168 ha; 27.985 ha cây ăn trái trên địa bàn tỉnh đều bị ảnh hưởng
(trong đó: 6.674 ha diện tích ảnh hưởng từ 30 - 70%, 2.603 ha thiệt hại trên 70%
và 274 ha cây ăn trái có nguy cơ chết); khoảng 600 ha cây giống và 1,2 triệu cây hoa kiểng các loại bị ảnh hưởng; tất cả diện tích nuôi trồng thủy sản nước ngọt trên địa bàn đều bị ảnh hưởng, trong đó diện tích bị ảnh hưởng nặng là 2.110,1 ha; có khoảng 86.896 hộ dân bị thiếu nước sinh hoạt Một số lĩnh vực khác cũng
bị ảnh hưởng như: các doanh nghiệp, nhất là doanh nghiệp hoạt động lĩnh vực chế biến; lĩnh vực thi công xây dựng, đô thị; du lich;
Hiện trạng hệ thống công trình thủy lợi và khả năng chủ động được nguồn
nước ngọt phục vụ sản xuất, sinh hoạt trên địa bàn tỉnh Bến Tre đã được sự quan
tâm, hỗ trợ của Chính phủ, các Bộ, ngành Trung ương, trong những năm qua
Trang 18tỉnh Bến Tre đã được đầu tư xây dựng một số công trình quan trọng thuộc dự án
Hệ thống thủy lợi Bắc - Nam Bến Tre; công trình Cống đập Ba Lai; hồ chứa nước Kênh Lấp, huyện Ba Tri; nhiều tuyến đê sông, đê bao cục bộ, đê bao các cén, Các công trình được đầu tư đã phát huy hiệu quả ngăn mặn, trữ ngọt trên
địa bàn tỉnh.
Tuy nhiên, hệ thống công trình thủy lợi vẫn chưa được khép kín như: hệ thống
thủy lợi Bắc và Nam Bến Tre đầu tư còn đở dang và Dự án quản lý nước (JICA3) vừa triển khai giai đoạn thiết kế và đấu thầu xây lắp, do đó tỉnh chưa thể chủ động kiểm soát được nguồn nước ngọt trong tình huống xâm nhập mặn diễn biến gay gắt, điển hình như mùa khô năm 2019 - 2020 vừa qua, thì các địa
phương trong tỉnh đều bị ảnh hưởng hết sức nghiêm trọng, độ mặn trên 20/00 đã
bao phủ toàn tỉnh.
Hình 1: Bản đồ xâm nhập mặn cao nhất năm 2016
13.3 Hiện trạng phân tích dữ liệu xâm nhập mặn trên địa bàn tỉnh Bến Tre 1.3.3.1 Hiện trạng công tác dự báo xâm nhập mặn trên địa ban tỉnh Bến Tre
Công tác dự báo xâm nhập mặn tại Bến Tre chỉ kế thừa các dữ liệu dùng cho khu vực Nam bộ đề tham khảo Bến Tre chưa áp dụng hay xây dựng mô
Trang 19hình mô phỏng tính toán Công tác dự báo chỉ sử dụng năng lực và kinh
nghiệm dự báo của cán bộ chuyên trách Để xây dựng một hệ thống cảnh báo thay đổi cho cách làm hiện tại, thì Hệ thống mô phỏng xâm nhập mặn là thật
sự cần thiết
Đề xây dựng mô hình dự báo, cần thu thập các số liệu, tham số như mực
nước, độ mặn, lưu lượng mực nước, mốc thời gian
1.3.3.2 Hiện trạng công tác thu thập và phân tích xử lí dữ liệu xâm nhập mặn của
tỉnh Bắn Tre
Hiện tại những số liệu thu thập, dự báo độ mặn thu thập, xử lý và lưu
thành các file Excel riêng lẻ gây khó khăn trong công tác quản lý, tính toản chỉ
dựa vào thống kê là chính.
Phân tích dữ liệu hiện có và đánh giá xâm nhập mặn Để triển khai các
giai đoạn tiếp theo thì cần phải có hệ thống phân tích và dự báo Tiếp theo, cần phải có 1 Phần mềm quan lý Phần mềm phải đáp ứng các yêu cầu về quản
lý như: số hóa được các số liệu hiện có, hiền trị trực quan sinh động bằng các số liệu, biểu đồ biểu diễn, hiển thị ban đồ các vị trí trạm đo, công tác báo cáo thống
kê
Trang 20CHƯƠNG II CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU
II.1 Cách tiếp cận:
- Tham khảo các công trình nghiên cứu xâm nhập mặn tại ĐBSCL dé làm tài
liệu thực hiện đề tài Hầu hết các công trình nghiên cứu hiện tại là những nghiên cứu xâm nhập nhập mặn tại ĐBCSL, chưa có phân tích cụ thể các yếu tố ảnh
hưởng trên địa bàn tình Bến Tre.
- Thu thập số liệu KTTV (độ mặn, mực nước ) hiện có tại 2 trạm Mỹ Hóa — Thành phố Bến Tre và trạm An Thuận — ba Tri dé làm cơ sở phân tích cho dé tài
II.2 Phương pháp nghiên cứu
- Phương pháp thu thập tài liệu: Thu thập các thông tin, dữ liệu liên quan về khí tượng thủy văn, các hiện tượng thiên tai có nguồn gốc KTTV, hiện trạng các
ngành, lĩnh vực kinh tế xã hội và quy hoạch/kế hoạch phát triển trong giai đoạn tới, bổ sung các thông tin về điều kiện địa lý tự nhiên và KTXH, hiện trạng và
quy hoạch hệ thống cơ sở hạ tầng thủy lợi, đê điều.
- Phương pháp phân tích, thống kê: Kế thừa và chọn lọc tư liệu về xâm nhập mặn, thu thập số liệu, phân tích tài liệu trong và ngoài nước hiện có liên quan đến nghiên cứu Kế thừa các phương pháp nghiên cứu về phân tích dữ liệu hệ thống trong các nghiên cứu trước đây.
-Phương pháp mô hình toán: sử dụng Phương pháp hồi quy tuyến tính và các thuận toán máy học để phân tích dữ liệu; sử dụng các thuật toán máy học đề xây
dựng mô hình tính toán va dự báo có thé kết hợp với mô hình MIKE11 dé mô
phỏng, đối chiếu, kiểm tra độ chính xác với mô hình phân tích sử dụng máy học.
- Phương pháp lấy ý kiến chuyên gia: Lấy ý kiến đóng góp của các chuyên gia
về cách tiếp cận, thiết kế nghiên cứu, phương pháp luận về đánh giá hiện tượng
xâm nhập mặn; luận cứ khoa học các vấn đề cần giải quyết, phân tích đánh giá
nguyên nhân và tìm kiếm các giải pháp khắc phục cả trước mắt và lâu dai
Trang 21CHƯƠNG III ĐÈ XUẤT PHƯƠNG PHÁP PHAN TÍCH
III.1 Thuật toán hồi quy tuyến tính:
Trong lĩnh vực học máy, mô hình dự đoán (predictive modelling) đưa ra
phương án dự đoán chính xác nhất có thể đạt được, giảm nguy cơ sai số thấp nhất của mô hình Trong các ứng dụng sử dụng học máy, chúng ta sẽ dùng và
vay mượn các thuật toán từ các lĩnh vực kể cả các thuật toán dùng trong thống
kê sử dụng cho dự đoán và chỉnh sửa giảm thiểu sai số.
Hồi quy tuyến tính (linear regression) được phát triển trong lĩnh vực thống kê và nó được nghiên cứu đề áp dụng như là mô hình để tìm hiểu mối liên
hệ giữa các biến số đầu vào và đầu ra, được sử dụng trong máy học Chúng ta xem hồi quy tuyến tính vừa là một thuật toán thống kê vừa là một thuật toán học
máy.
Chúng ta có thé dùng các phương pháp, kỹ thuật khác nhau dé chuẩn bị hoặc
huấn luyện phương trình hồi quy tuyến tính từ dữ liệu, trong đó phương pháp phổ biến nhất được gọi là Bình phương nhỏ nhất thông thường (Ordinary least squares) và phương pháp Gradient Descent Mô hình hồi quy này được gọi là
Ordinary least squares linear regression, hay ngắn gọn hơn là Least squares
Tegression.
Cách biểu diễn mô hình hồi quy tuyến tính
Mô hình hồi quy tuyến tính là một phương trình tuyến tính kết hợp một tập giá trị đầu vào cụ thể (x), nghiệm là đầu ra dự đoán cho tập giá trị đầu vào đó (y).
Cả giá trị đầu vào (x) và giá trị đầu ra (y) đều là dạng số (numeric).
Phương trình tuyến tính đưa ra một hệ số tỷ lệ cho mỗi giá trị hoặc cột đầu vào, được gọi là hệ số (coefficient) và được biểu thị bằng chữ cái Hy Lạp viết hoa
Beta (B) Ngoài hệ số của biến đầu vào, trong phương trình còn có thêm 1 hệ số
tự do (intercept/ bias coefficient), hệ số này tăng hay giảm sẽ làm đường thang tịnh tiến lên trên hoặc xuống dưới trong đồ thị hai chiều.
Trang 22II.2 Một số hồi quy tuyến tính cơ bản
11.2.1 Hồi quy tuyến tính đơn giản (simple linear regression)
Với hồi quy tuyến tính đơn giản thì chỉ có một biến đầu vào duy nhất, chúng ta
có thể sử dụng các phép toán thống kê đề ước tính các hệ só.
Bạn sẽ phải tính toán các thuộc tính thống kê từ dữ liệu như trung bình (means),
độ lệch chuẩn (standard deviations), tương quan (correlations) và hiệp phương
sai (covariance) Chúng ta phải thực hiện các phép toán này trên toàn bộ dữ liệu.
Bạn hoàn toàn có thể thực hiện kỹ thuật này bằng excel Tuy nhiên, trong thực
tế, kỹ thật này không thực sự có nhiều tính ứng dụng.
11.2.2 Bình phương nhé nhất (ordinary least square)
Khi có nhiêu hon một biên đâu vào (x), chúng ta có thé sử dung phương pháp
Bình phương nhỏ nhất (ordinary least square) dé ước tinh giá trị của các hệ số Nguyên tắc của phương pháp này là tìm các gia trị hệ số sao cho tổng bình phương các phần du (residuals) là nhỏ nhất Với một đường thing hồi quy, ta tính toán khoảng cách từ mỗi điểm dữ liệu đến đường hồi quy đó, bình phương giá trị này và tổng tất cả các lỗi bình phương lại với nhau Mục đích của phương pháp bình phương nhỏ nhất (ordinary least square) là tối thiểu giá trị tng bình
phương này.
Cách tiếp cận này coi đữ liệu như một ma trận và sử dụng các phép toán đại số
tuyến tính dé ước tính các giá trị tối ưu cho các hệ sé Bạn phải thực hiện các phép toán này trên toàn bộ dữ liệu, điều đó có nghĩa là bạn phải có đủ bộ nhớ để
chứa dữ liệu và thực hiện các phép toán ma trận.
Trong thực tế, trừ khi làm một bài tập trong môn đại số tuyến tính, bạn không
cần phải tự mình tính toán khi sử dụng phương pháp bình phương nhỏ nhất Phép toán này thường được xây dựng sẵn trong các phần mềm thống kê và bạn
có thé thực hiện chi bằng một vài thao tác đơn giản.
Trang 23Phương pháp này bắt đầu với việc chọn các giá trị ngẫu nhiên cho mỗi hệ số Tổng bình phương các sai số (residual) được tính cho từng cặp giá trị đầu vào và đầu ra Các hệ số Beta được cập nhật theo hướng giảm thiểu tối đa tổng bình phương sai số Quá trình được lặp lại cho đến khi đạt được tổng bình phương sai
số nhỏ nhất hoặc không thể cải thiện thêm được nữa.
Khi sử dụng phương pháp này, bạn phải chọn learning rate (alpha) xác định kích
thước của bước cải tiến cần thực hiện trên mỗi lần lặp lại quy trình.
Gradient descent thường được áp dụng vào phép toán hồi quy tuyến tính vì nó tương đối dé hiểu Trong thực tế, phương pháp này rất hữu ích khi bạn có một tập dữ liệu rat lớn với số lượng hàng hoặc số cột lớn hơn bộ nhớ.
1II.2.4 Chính quy hóa (Regularization)
Có những phần mở rộng của việc đào tạo mô hình tuyến tính được gọi là các
phương pháp chính quy hóa (regularization) Mục đích là giảm thiểu tổng bình phương sai số của mô hình trên dữ liệu huấn luyện (sử dụng bình phương nhỏ
nhất) và cùng với đó là giảm cả độ phức tạp của mô hình (như số lượng hoặc kích thước tuyệt đối của tổng tat cả các hệ số trong mô hình)
Hai thuật toán chính quy hóa phé biến sử dụng trong hồi quy tuyến tính là:
- Lasso Regression: trong đó phương pháp Bình phương nhỏ nhất được sửa đổi để cũng giảm thiểu tổng tuyệt đối của các hệ số (được gọi là chính
quy L1).
Trang 24Ridge Regression: trong đó phương pháp Bình phương nhỏ nhất được sửa đổi dé cũng giảm thiểu tổng bình phương tuyệt đối của các hệ số (được
gọi là chính quy L2).
Các phương pháp này thường được sử dụng khi các biến đầu vào có sự tương
quan (collinearity) với nhau, khi đó nếu chỉ sử dụng phương pháp bình phương
nhỏ nhất trên dir liệu đào tạo sẽ không cho kết quả tốt.
Dữ liệu cho hồi quy tuyến tính
Mô hình hồi quy tuyến tính dựa trên một số giả định (assumption) về dữ liệu Chúng ta cần đảm bảo thỏa mãn các giả định này dé đảm bảo mô hình hồi quy
có ý nghĩa Sau đây sẽ là một số lưu ý cho mô hình hồi quy tuyến tính phổ biến nhất — mô hình bình phương nhỏ nhất (Ordinary least squares):
Giả định tuyến tinh (Linear Assumption) Hồi quy tuyến tính giả định
rằng mối quan hệ giữa biến độc lập và biến phụ thuộc là tuyến tính, chứ không hỗ trợ các quan hệ khác Bạn có thé cần phải chuyền đổi dữ liệu dé
làm cho mối quan hệ trở nên tuyến tính (ví dụ: lấy logarit trong trường
hợp quan hệ là hàm mũ).
Loại bó nhiễu (noise) Hồi quy tuyến tính giả định rằng các biến đầu vào
và đầu ra của bạn không bị nhiễu Bạn có thé cần sử dụng các phương
pháp làm sạch dữ liệu cho phép bạn làm rõ hơn tín hiệu trong dữ liệu của
mình tố Điều này quan trọng nhất đối với biến đầu ra và bạn cần loại bỏ các giá trị ngoại lệ trong biến đầu ra (y) nếu có thé.
Loại bỏ twong quan giữa các biến (Collinearity) Mô hình hồi quy tuyến
tính sẽ không chính xác khi bạn có các biến đầu vào tương quan cao với
nhau Bận cần tính toán các hệ số tương quan theo cặp cho dit liệu dau vào của bạn và loại bỏ bớt biến đầu vào nếu nó có tương quan quá cao với
biến khác.
Phân phối Gaussian Hồi quy tuyên tính sẽ đưa ra các dự đoán đáng tin
cậy hơn nêu các biên dau vào và dau ra của bạn có phân phôi Gaussian
Trang 25(phân phối chuẩn) Bạn có thể nhận được một số lợi ích bằng cách sử
dụng các phép biến đồi (ví dụ: log hoặc BoxCox) trên các biến của bạn để làm cho phân phối của chúng gần giống phân phối chuẩn hơn.
- Thay đối thang do của biến dau vào Hồi quy tuyến tính thường sẽ đưa ra
các dự đoán đáng tin cậy hơn nếu thay đổi lại thang đo của các biến đầu vào bằng cách tiêu chuẩn hóa (standardization) hoặc chuẩn hóa
(normalization).
III.3 Thuật toán Support Vector Machine
11.3.1 Mô hình toán học:
Support Vector Machine là thuật toán học giám sát (supervied learning) được sử
dụng cho phân lớp dữ liệu áp dụng cho nhiều loại bài toán nhận dạng và phân
loại
Support Vector Machine không đưa ra kha năng output bằng | như Logistic
Regression, thay vào nó nó chi đơn thuần dự đoán output bằng 0 hay bằng 1.
yˆ={10khi xTw>0khi xTw<0
Thuật toán của Support Vector Machine
Bước 0: Bình thường hóa dữ liệu và áp dụng kernel nếu cần thiết.
Bước 1: Chọn một điểm bat kỳ (w0,w1, wn) va các tham số a, C, k.
Bước 2: Liên tiếp lặp lại các phép biến đồi
Bước 3: Thuật toán dừng lại khi J(w) thay đổi rất nhỏ hoặc trị tuyệt đối các đạo
hàm riêng rat nhỏ Nếu thuật toán không thể kết thúc thì chọn giá trị a nhỏ hon
Trang 261IL.3.2 Độ chính xác của phương trình giả thuyết
Trong Support Vector Machine, phan mat mát mdi input đóng góp có dạng hàm
Hinh 2: minh hoa Ham hinge loss.
Khi y = 0, cost(x) = 0 nếu xTw<-1 và cost(x) tăng dan nếu xTw>—1 và tiến tới
dương vô cực.
Trang 27xIw
-1 le) Hình 3: minh họa Hàm hinge loss
Ham mất mát của Support Vector Machine
J(w)=C}mi=1[y(1)max(0,k(I=x()Tw))#+(1=y())max(0.k(I+x()Tw))]+12Xnj=l
w2j
Ở đây hằng số C đóng vai trò như 12 là độ chính quy hóa của hàm mắt mát giúp kiểm soát sai lầm của phương trình giả thuyết Khi xảy ra underfitting, ta cần
tăng C Khi xảy ra overfitting, ta cần giảm C.
1IIL3.3 Nghiệm của thuật toán Support Vector Machine
Ta có thê tìm diém cực tiêu của ham mat mát bang thuật toán Gradient Descent
với các biến đổi
Trang 28Một đặc điểm của Support Vector Machine là nó luôn có gắng tìm nghiệm sao cho Dieision Boundary cách xa các điểm dữ liệu nhất cho thẻ Trong hình dưới
đây, thuật toán có xu hướng chọn phương án A thay vì phương án B vì nó cách
xa các điểm đữ liệu hơn Điều này có thé dẫn tới overfitting và ta có thé làm
giảm xu hướng này bằng cách giảm C.
Hình 4: Minh họa Support Vector Machine
Việc tìm nghiệm của thuật toán Support Vector Machine tương đối phức tạp nếu cài đặt thủ công Có rất nhiều thư viện đã được cài đặt sẵn Support Vector Machine và ta nên dùng chúng vì chẳng những giúp tiết kiệm thời gian mà các
thư viện đó còn được áp dụng nhiều kỹ thuật tối ưu hóa dé thuật toán chạy
nhanh hơn.
1IIL3.4 Kernel với Support Vector Machine
Ly do giúp Support Vector Machine trở nên mạnh mẽ khi so sánh với Logistic
Regression là bởi nó hoạt động rất tốt khi áp dụng Kernel để giải quyết các bài toán có dữ liệu phân bố phức tạp Mặc dù Kernel cũng có thể sử dụng với Logistic Regression nhưng Support Vector Machine có nhiều phương pháp tối
ưu cho Kernel hơn nên người ta thường chỉ sử dụng Kernel với Support Vector
Machine.
Trang 29Khi các điểm dữ liệu phân bố phức tap, dé tim Decision Boundary phù hợp ta phải thêm các biến mới Tuy nhiên, nhược điểm của cách này là khó chọn ra bộ các biến phù hợp và tốn nhiều công sức đề thử nhiều phương án khác nhau.
Kernel thực chất là một hàm tính toán các biến mới của input Có nhiều loại
Kernel khác nhau Trong đó phổ biến nhất là Gaussian Kernel.
Gaussian Kernel tìm độ giống nhau giữa điểm dữ liệu x và điểm mốc | như sau
Áp dụng thuật toán Support Vector Machine với bộ dữ liệu mới này, ta có thể
tìm được phương trình đường Decision Boundary cho bài toán ban đầu.
Tham số ø2 ảnh hưởng đến kết quả thuật toán Nếu ø2 nhỏ, f giảm nhanh khi điểm dữ liệu ra xa điểm mốc Nếu ø2 lớn, f giảm chậm khi điểm dữ liệu ra xa điểm mốc Khi xảy ra underfitting, cần giảm giá trị ø2 Khi xảy ra overfitting, cần tăng giá trị 02.
III.4 Thuật toán Gradient Boosting Regession: :
Thực toán Gradient Boosting Regession dựa trên sự kêt hợp Adaptive Boosting
(AdaBoost) + Gradient Boosting Đề xuất phương pháp với tư tưởng là thay vì
cố gắng xây dựng một mô hình tốt duy nhất, chúng ta sẽ xây dựng một họ các
mô hình yếu hơn một chút, nhưng khi kết hợp các mô hình lại, (nếu có thể kết
hợp một cách chính xác) sẽ thu được một mô hình còn vượt trội hơn cả.
HL4.1 Ý trởng của boosting
-Xây dựng một lượng lớn các model (thường là cùng loại) Mỗi model sau sẽ học
cách sửa những errors của model trước (dữ liệu mà model trước dự đoán sai) ->
Trang 30số được update qua mỗi model (cụ thé ở đây là trọng số của những dir liệu dự đoán đúng sẽ không đổi, còn trọng số của những dữ liệu dự đoán sai sẽ được tăng thêm) Chúng ta sẽ lấy kết quả của model cuối cùng trong chuỗi model này
làm kết quả trả về.
Ý tưởng cơ bản là Boosting sẽ tạo ra một loạt các model yếu, học bổ sung lẫn
nhau Nói cách khác, trong Boosting, các model sau sẽ cố gắng học để hạn chế lỗi lầm của các model trước.
Vậy làm thể nào để hạn chế được sai lầm từ các model trước ? Boosting tiến hành đánh trọng số cho các mô hình mới được thêm vào dựa trên các cách tối ưu khác nhau Tuy theo cách đánh trọng số (cách để các model được fit một cách tuần tự) và cách tổng hợp lại các model, từ đó hình thành nên 2 loại Boosting :
+ Adaptive Boosting (AdaBoost)
+ Gradient Boosting
+ Boosting là một quá trình tuần tự, không thẻ xử lí song song, do đó, thời
gian train mô hình có thé tương đối lâu.
+ Sau mỗi vòng lặp, Boosting có khả năng làm giảm error theo cấp số nhân.
+ Boosting sẽ hoạt động tốt nếu base learner của nó không quá phức tap
cũng như error không thay đổi quá nhanh.
+ Boosting giúp làm giảm giá trị bias cho các model base learner.
11.4.2 Gradient Boosting ;
Gradient Boosting là một dang tông quát hóa của AdaBoost.
Gradient Boosting xây dựng thuật toán nhằm giải quyết bài toán tối ưu sau :
Trang 31« y: label
«+ cn: confidence score của weak learner thứ n (hay còn gọi là trong số)
+ wn: weak learner thứ n
Thoat nhìn, công thức trên có vẻ khá giống với Bagging, thế nhưng cách tính ra
các giá tri confidence score kia lại làm nên sự khác biệt về hướng giải quyết của
Boosting Thay vì cố gang quét tìm tat cả các giá trị cn,wn dé tìm nghiệm tối ưu toàn cục - một công việc tốn nhiều thời gian và tài nguyên, chúng ta sẽ cô ging
tìm các giá trị nghiệm cục bộ sau khi thêm mỗi một mô hình mới vào chuỗi mô
hình với mong muốn dan đi đến nghiệm toàn cục.
Không giống như AdaBoost xây dựng các gốc cây, Gradient Boost xây dựng các
cây thường có 8-32 lá.
Gradient Boost xem vấn đề tăng cường (boosting problem) là một vấn đề tối ưu
hóa, trong đó nó sử dụng một hàm mat mát (loss function) và có gắng giảm thiểu
lỗi Đây là lý do tại sao nó được gọi là Gradient boost, vì nó được lấy cảm hứng
từ sự giảm dần độ dốc (gradient descent).
Cuối cùng, cây được sử dụng để dự đoán lượng dư của các mẫu (dự đoán trừ
thực tế).
Mặc dù điểm cuối cùng có thé gây nhầm lẫn, nhưng tat cả Gradient Boost bắt đầu bằng cách xây dựng một cây đề có gắng phù hợp với dữ liệu và các cây tiếp theo được xây dựng nhằm mục đích giảm phần dư (lỗi) Nó thực hiện điều này bằng cách tập trung vào các khu vực mà những người học hiện có hoạt động
kém, tương tự như AdaBoost.
Trang 32CHƯƠNG IV GIỚI THIỆU BỘ DỮ LIỆU - PHÂN TÍCH DỮ LIỆU
IV.1 Bộ đữ liệu chuẩn:
IV.1.1 Do các chỉ số:
- Do độ mặn: để xác định niêm mặn trong quá trình nước biển xâm nhập vào sông Việc đo được thực hiện ở các độ sâu khác nhau trên sông: đo điểm thấp nhất sát đáy sông, đo tầng giữa và tầng mặt của sông Thời gian đo là các giở lẻ
trong ngày.
- Do mực nước: xác định mực nước lúc đỉnh triều (Đỉnh cao) để làm cơ sở tính
toán quá trình nước chảy về các nhánh sông, đo mực nước lúc triều kiệt (chân thấp) dé xác định khả năng xâm nhập mặn từ biển vào Thời gian do là các giờ lẻ
trong ngày.
- Lưu lượng nước thượng nguồn: xác định lưu lượng nước từ thượng nguồn đỗ
về (chảy xuôi) sông, đây là lượng nước từ các nhánh sông chảy ra biển mỗi
ngày; xác định lưu lượng nước từ biển chảy về thượng nguồn (Chảy ngược) Thời gian đo là mỗi giờ trong ngày.
IV.1.2 Thu thập số liệu và xử lý dữ liệu
Dữ liệu được thu thập từ 02 trạm Mỹ Hóa và An Thuận:
- Dữ liệu độ mặn của 02 Trạm từ năm 2019 đến năm 2021 và 5 thang đầu
năm 2022
- Dữ liệu lưu lượng nước thượng nguồn dé về được đo từ trạm Mỹ Thuận:
bao gồm lưu lượng nước từ các nhánh sông chảy qua trạm Mỹ Thuận ra
biển và lưu lượng nước từ biển chảy vào, dit liệu được thu thập trong 02
năm 2019 và 2020 (Dữ liệu năm 2021 vẫn chưa có).
- Dữ liệu Mực nước từ năm 2019 đến năm 2021 và 5 tháng đầu năm 2022
của 2 trạm
- Tất cả số liệu được tính từ ngày 01 tháng 01 và kết thúc vào ngày 15 tháng 6 hàng năm Do Chu kỳ mặn tại Bến Tre thường kết thúc vào trung
Trang 33tuần tháng 6, từ giữa cuối tháng hiện tượng xâm nhập mặn không còn rõ rang, thậm chí không còn.
IV.1.3 Dữ liệu minh họa:
à ay A â mă: nước | nước | nguồn chảy aren
Ngày dương | Ngayam | Độ mặn | di | chân | rabiển | "8UÔn trong
cao | thấp | trong ngày (Chay
(em) | (em) | (Chay xuôi) y
Trang 3416/01/2019 | 1/12/2018) 125 | -57 [ 135430 -34655 17/01/2019 |12122018| 2; -86 | 128550 “49410 18/01/2019 | 13/12/2018) 3, | 140 | -87 | 133100 753829 J901/2019 141220181 1; 143 | -123 | 149330 -71200
270/2 |2212/2018| 9 5 148 | -93 | 169940 -62619
28/01/2019 |23/122018| gy | 140 | 57 | 162010 -43488 29/01/2019 | 24/12/2018 g2 129 | -5I | 148100 -33293 3001/2019 |25122018| 95 133 | -68 | 123190 -39138
31/01/2019 |26122018 o2 -84 | 132890 “44915 01/02/2019 | 27/12/2018} 5 | 19 | -114 | 127550 “37019 02/02/2019 | 28/12/2018 03 122 | -121 142470 -60646 03/02/2019 | 29/12/2018 03 119 | -140 140400 -65210 04/02/2019 |30122018| gy | H7 | -147 | 143890 770429
05/02/2019 | 91/01/2019 |g 4 123 | -144 | 137470 -70682
06/02/2019 | 02/01⁄2019| 4 126 | -144 | 148620 “76105
07/02/2019 | 93/01/2019 | g2 124 | -148 | 151730 “71520
08/02/2019 | 04012019 o2 112 |-144 | 145240 -79355 09/02/2019 | 95/01/2019 |g 1 110 | -132 | 135340 “81745
Trang 3510/02/2019 | 96/01/2019 |g 1 110 [-113 [ 138860 -77280 11/02/2019 | 97/01/2019 |g 1 117 | 92 | 131900 -75750 12/02/2019 |0#012019| g;y | 122 | -535 | 133590 -57659 13/02/2019 |09/01/2019| g;y | l5 | 48 | 115110 -46020
28/02/2019 | 24/01/2019 |g ¢ 83 | -91 | 121840 739264 01/03/2019 | 25/01/2019 |g 5 98 | -115 | 126010 -64272
Trang 360703/2019 |02/02/2019| ạ; | 100 | -150 | 148390 -73909 08/03/2019 | 93/02/2019} yg | 110 | -137| 139310 -83072 09/03/2019 | 94/02/2019 |g 5 112 | -125 | 142500 “82780 1003/2019 | 0502/2019} g 4 | 105 | -118 | 140560 ~75862
11/03/2019 | 96/02/2019 |g 4 105 | -101 [ 147300 -82430
12/03/2019 | 97/02/2019 | gà 106 | -106 | 138570 “75833
1303/2019 | 08/02/2019 |g | 107 | -106 | TT35330 -71629
14/03/2019 | 99/02/2019 |g 9 94 | -105 | 131840 -53390 15/03/2019 | 10/02/2012 g2 94 | -117 | 116900 -50469 16/03/2019 | 11/02/2019) ga 98 | -109 117730 -54857 1703/2019 | 12/02/2019) ạ; | H7 | -1H | 132770 -70290 18/03/2019 | 13/02/2019 9.5 128 | -125 | 138620 -61545 19/03/2019 | 14/02/2019 4.4 | 136 | -136 | 147220 "83850 2003/2019 | 15/02/2019 |g 4 | ‘42 | -135 | 14296 -93000
21/03/2019 | 16/02/2019 |g 5 145 | -142 | 160510 -98342 22/03/2019 |17/02/2019| yg | 149 | -136 | 150770 -109950 23/03/2019 |18/022019| yg | 144 | -118 | 154365 -105170 24/03/2019 | 19/02/2019] ạy | 141 | -112 | 149580 -106420 25/03/2019 |2002/2019| gy | 133 |-H0 | 147940 -92340 26/03/2019 | 21/02/2019} yg | 130 | -H5 | 131190 “16780 21/03/2019 | 22/02/2019 | gs I1 | -93 118745 -66060 28/03/2019 | 23/02/2019 | ga 81 | -115 131875 -33190 29/03/2019 | 24/02/2019 |g 9 88 | -131 [| 142165 “49120 30/03/2019 | 25/02/2019) g2 96 | -138 131415 -59570
3103/2019 | 2602/2019 |g | 100 |-139| 147710 -65810
Trang 3701/04/2019 |27/022019| ¡ÿ | 106 | -143 | 138320 -67140 02/04/2019 |78022012| yg | 106 | -128 | 135H5 -59780 0/04/2019 |29/02/2019| ¡¿ | H3 | -121 | 13145 775680 04/04/2019 | 30/02/2019} pg | 119 | -115 | 133620 -80470
05/04/2019 | 91/3/2019 | 44 123 | -102 | 129185 -90020
06042019 | 02372019 |), | 124 | +96 | 136505 -88960
07/04/2019 | 03/3/2012 | 1a 126 | -110 | 139220 “88410
08/04/2019 | 04/3/2019 | yy 123 | -110 | 142990 -94510 09/04/2019 | 05/3/2019 | + 120 | -I18 | 143320 -83676
1004/2019 | 063/2019| 96 | H0 |-132| 145410 -78190
H/04/2019 | 03/2019 | ys | 103 | -142 | 141340 -69830
12/0/2019 | 083/2019| 94, | 88 |-147| 1260 -52600
13/04/2019 | 093/201921 ga 84 | -148 | 127035 -50330 14/04/2019 | 103/2019 | 95 92 | -156 | 141330 -62310 15/04/2019 | 11/3/2019 | ạ; | 105 |-160 | 142035 -71440 16/04/2019 | 12/3/2019 | ạ; | 113 | -155 | 140210 -62390 17/04/2019 | 13/3/2019 | gà 126 | -142 | 143790 -§8620 18/04/2019 | 143/2019| ạs | 134 | -128 | 143165 -97400 19/04/2019 | 15/3/2019 | gg | 137 | -119 | 145830 -97930 20/04/2019 | 16/3/2019 | ạ„s 136 | -136 | 150980 -84970 21/04/2019 | 17/3/2019 | gs 134 | -136 | 153270 -84596 22/04/2019 | 1832019 | os | 128 |-147| 147300 “95470 23/04/2019 | 19/3/2019 | gs 124 | -146 | 141500 -91790 24/04/2019 | 20/3/2019 | gg 118 | -140 | 129920 “74305
25/04/2019 | 21/3/2019 | 3 100 | -142 | 135600 -53304
Trang 3826/04/2019 | 22/3/2019 | go 89 | -146 [ 141055 -55710 27/04/2019 | 23/3/2019 | g2 90 | -146 | 139185 -62010 28/04/2019 | 24/3/2019 | g2 89 | -137 | 148750 -61440 29/04/2019 | 25/3/2019 | gy 97 |-132 | 133265 -54950
30/04/2019 | 26/3/2019 | ạạ 103 | -124 | 134535 758390
01/05/2019 | 27/3/2019 | gs 100 | -128 | 125080 -55940
02/05/2019 | 28/3/2019 | ga 103 | -I13 | 113460 -68920 03/05/2019 | 29/3/2019 | gg 103 | -116 | 128710 “79470
04/05/2019 | 30/3/2019 |g 7 103 | -135 | 128520 -86400 05/05/2019 | 01⁄42019 06 104 | -149 129015 -84385 06/05/2019 | 92/4/2019 | 6 | TIS | -160 | 130810 “93250 07/05/2019 | 93/4/2019 | g 114 | -160 | 134345 -87960 08/05/2019 | 94/4/2019 | gg | l3 | -166 [ 134405 778670 09/05/2049 | 0542019 | 44 | 107 | -170 | 134810 -68620
10/05/2019 | 90/4/2019 |g 3 96 |-170| 131135 753490 11/05/2019 | 97/4/2019 | g2 98 | -169 | 130935 -50050 12/05/2019 | 08/4/2019 | ạ; | 106 | -163 | 138940 -57030 13/05/2019 | 99/4/2019 | ạ; | 107 |-160[ 157225 -59980 14/05/2019 | 104/2019| gs | 118 | -153 | 143200 -65610 15/05/2019 | 11/4/2019 | g.5 122 | -134 | 143655 +14
Trang 3921/05/2019 | 17/4/2019 |g | 105 |-179 | 140615 “81210 22/05/2019 | 18/4/2019 | 4 | 100 | -182 | 132840 770650 23/05/2019 | 19/4/2019 | gy 9% | -183 | 128640 762962 24/05/2019 | 20/4/2019 |g 89 | -176 | 131780 756270
10/06/2019 | 98/5/2019 | g2 84 | -189 | 168760 -44375
11/06/2019 | 09/5/2019 02 85 | -170 173330 -37473 12/06/2019 | 19/5/2019 | gy 100 | -151 | 173225 -47260
13062019 | 11/5/2019 | gy 103 | -126 | 156955 -51608
14/06/2019 | 12/5/2019 | gy 99 | -155 | 155090 -5I831
Trang 4015/06/2019 | 13/5/2019 |g 102 [-176 [ 153520 -54490
Bảng 1: Dữ liệu Tram Mỹ Hóa năm 2019
Tram An Thuan:
Mực nước | Mực nước Mực Mực Ngày dương | Ngày âm | Độ mặn | đỉnh cao | chân thấp | „hước | nude
lịch lịch - | caonhất | An Thuận | An Thuận | “inh cao | chan
(em) (em) y Hóa ip Mỹ
11/01/2019 | 06/12/2018) 120 -125 120 -123
12/01/2019 | 07/12/2018 m 126 -108 124 “113 13/01/2019 | 08/12/2018 120 86 123 95 14/01/2019 | 09/12/2018 116 -50 126 -64 15/01/2019 | 107122018) Hà -30 118 39 16/0/2019 | 11122018) 120 4B 125 “37 1700/2019 | 127122018) 142 -69 -86 18/01/2019 | 13/12/2018 144 -86 140 -§7 19/01/2019 | 14/12/2018 152 -128 143 -123