Mô tả bài toán - _ Nghiên cứu mô hình phân đoạn ngữ nghĩa cho ảnh đất nông nghiệp được chụp từ trên cao với mục tiêu khai thác dữ liệu từ trên cao tốt hơn các mô hình trước đó.. Trong đó
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
VÕ ĐĂNG CHÂU NGUYÊN PHƯƠNG BẢO NGỌC
KHÓA LUẬN TÓT NGHIỆP
PHÂN ĐOẠN NGỮ NGHĨA CHO ẢNH NÔNG NGHIỆP
CHỤP TỪ TRÊN CAO
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
TP HO CHÍ MINH, 2023
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HỌC MAY TÍNH
VO DANG CHAU - 19521282 NGUYEN PHƯƠNG BAO NGỌC - 19521907
_ KHOA LUAN TOT NGHIỆP _ PHAN DOAN NGỮ NGHĨA CHO ANH NÔNG NGHIỆP
CHỤP TỪ TRÊN CAO
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
GIẢNG VIÊN HƯỚNG DẪN
TS MAI TIỀN DŨNG
Trang 3ĐẠI HỌC QUỐC GIA TP HO CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
DE CƯƠNG CHI TIẾT
Tên đề tài: Phân đoạn ngữ nghĩa cho ảnh nông nghiệp chụp từ trên cao
Tên đề tài tiếng Anh: Semantic Segmentation of Agricultural Aerial Images
Ngôn nøữ thực hiện: Tiếng Việt
Cán bộ hướng dẫn: TS Mai Tiến Dũng
Thời gian thực hiện: Từ ngày 10/09/2022 đến ngày 1/3/2023.
Sinh viên thực hiện:
Võ Đăng Châu Lớp: KHTN2019
Email:19521282@gm.uit.edu.vn Dién thoai: 0326556505
Nguyễn Phương Bao Ngoc Lop: KHTN2019
Email: 19521907@gm.uit.edu.vn Dién thoai: 0333259953
Nội dung đề tài:
A Tông quan van dé
Phân đoạn ngữ nghĩa là một trong những bai toán căn bản cua thị giác máy tinh có tính
ứng dụng cao trong thực tế Trong những năm gần đây, việc quan tâm và ứng dụng phân
đoạn ngữ nghĩa vào nông nghiệp đang ngày càng mạnh mẽ, phục vụ cho các tác vụ như
tự động hóa thu hoạch, tưới tiêu, giám sát nông nghiệp, lập bản đồ nông nghiệp, Trong
khóa luận nay, chúng tôi tập trung nghiên cứu phân đoạn ngữ nghĩa trong phạm vi ảnh
nông nghiệp được chụp từ trên cao.
B Mô tả bài toán
- _ Nghiên cứu mô hình phân đoạn ngữ nghĩa cho ảnh đất nông nghiệp được chụp từ
trên cao với mục tiêu khai thác dữ liệu từ trên cao tốt hơn các mô hình trước đó.
- au vào: Ảnh nông nghiệp được chụp từ trên cao Trong khóa luận này, ảnh đầu
vào được định nghĩa gồm 4 channel R, G, B và NIR.
- aura: Ảnh phân đoạn cho từng loại đối tượng nông nghiệp của anh đầu vào.
C Đối tượng và phạm vi nghiên cứu
- _ Đối tượng nghiên cứu: Hình ảnh nông nghiệp được chụp từ trên cao.
- Pham vi nghiên cứu: Mô hình và thuật toán phân đoạn ngữ nghĩa, các kỹ thuật
giúp khai thác dữ liệu và xây dựng mô hình cho đối tượng nghiên cứu.
Trang 4D Mục tiêu
- Khao sát và đánh giá được các nghiên cứu liên quan đến việc sử dụng phân đoạn
ngữ nghĩa cho ảnh nông nghiệp được chụp từ trên cao.
- _ Thực hiện xây dựng mô hình đề xuất cho bài toán.
- _ Thực hiện cải tiễn giúp tăng hiệu quả so với phương pháp đề xuất.
E Nội dung thực hiện
Nội dung 1: Khảo sát, đánh giá các hướng tiếp cận liên quan
- Phuong pháp thực hiện:
+ Khảo sát, tìm hiểu và tổng hợp kết quả của các hướng tiếp cận liên quan.
- Kết quả dự kiến:
+ Các hướng tiếp cận liên quan và ưu nhược điểm của chúng.
Nội dung 2: Xây dựng mô hình
- Phuong pháp thực hiện:
+ Xây dựng một mô hình dựa trên hướng tiếp cận theo đuổi.
+ Thực hiện một số cải tiến trên mô hình ban dau.
- Kết quả dự kiến:
+ Một mô hình phục vụ bai toán ban đầu.
Nội dung 3: Thực nghiệm mô hình
- Phuong pháp thực hiện:
+ Tìm hiểu, lựa chọn bộ đữ liệu thích hợp.
+ Tiến hành thực nghiệm trên bộ dữ liệu và đánh giá kết quả của mô hình so
với các phương pháp trước đó.
+ Thử nghiệm mô hình với một số cải tiễn và theo dõi kết quả.
- Kết quả dự kiến:
+ Đánh giá được hiệu suất của mô hình mới so với các mô hình ban đầu.
Nội dung 4: Báo cáo KLIN
Trình bảy các nội dung đã tìm hiểu trong khóa luận.
Tài liệu tham khảo chính
Antonio Tavera; Edoardo Arnaudo; Carlo Masone; Barbara Caputo, Augmentation Invariance and Adaptive Sampling in Semantic Segmentation of Agricultural Aerial
Trang 5Phân công làm việc:
1 Võ Đăng Châu
- Tim hiêu nên tảng kiên thức của các nghiên cứu liên quan.
- Tim hiểu hướng tiếp cận chính trong khóa luận.
- Tìm hiểu cải tiễn thay đổi ham mất mát.
- _ Xây dựng mô hình và thực nghiệm.
- Tổng hợp và viết báo cáo.
2 Nguyễn Phương Bảo Ngọc
- Tim hiểu tổng quan về bai toán.
- Tìm hiểu hướng tiếp cận chính trong khóa luận.
- Tim hiểu cải tiến liên quan đến tăng cường dữ liệu.
- Xay dựng mô hình và thực nghiệm.
- _ Xây dựng giao diện kiểm thử.
Tổng hợp và viết báo cáo.
Xác nhận của CBHD TP HCM, ngày 12 thang 01 nam 2023
(Ký tên và ghi rõ ho tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Mai Tiên Dũng Võ Đăng Châu
Nguyễn Phương Bảo Ngọc
Trang 6Mục lục
LỜI CẢM ƠN xiii
TÓM TẮT KHOÁ LUẬN xiv
1 TONG QUAN 1
11 Tínhứng dụng| Ặ 0 0.00.00 0000000008 1 1.2 Giới thiệu bàitoán| 0.0.02 ee eee 4
Bla ai®@ |.7 6
1.3.3 Mat cân bằng lớp nghiêm trọng| - 7
SA FH 8
OE ấn nh“ eraaaaú 91.6 Cấu trúc Khóa luận tốtnghiệp| - - 9
2_ NGHIÊN CỨU LIÊN QUAN 10
2.2 Phân đoạn ngữ nghĩa cho anh chụp từ trên không| 19
Fusion of Multi-spectral Data)|_ - 19 2.2.2 _ Phân đoạn nông nghiệp chính xác 21
2.3 Ảnh cận hồng ngoại (NIR)| Ặ.ẶẶ ee 22
Trang 74_ THỰC NGHIỆM VÀ DANH GIÁ 40
4.1 Môi trường và ngôn ngữ cài đặt| 40
4.2 Phương pháp đánh gia) 2.2 0.0.00 000000000 22 eee 40 4.3 Bộ dữ lệu thựcnghiệm| Ặ.ẶẶẶẶẶ 0008 41
Trang 8Danh sach hinh ve
1.1 Minh họa cho mô hình nông trại thông minh| 2
1.2 Minh họa cho các ứng dụng của phân đoạn ngữ nghĩa 2
13 Minh họa cho ứng dụng phát hiện códại 3
¬ 5
1.5 Minh họa cho thách thức l| ẶẶẶẶ.e 6 1.6 Minh họa cho thách thức l[ - 7 1.7 Minh họa cho thách thức 2} 0.0.0.00.0 00 00 ee 8
2.12 Minh họa vai trò của alphal| Ặ.ẶẶẶẶ ee 27
3.1 Minh họa cho hướng tiếp cận trong khóa luận| - 29
3.2 Minh họa quá trình sampling| Ặ 31
3.3 Minh họa cho kiến trúc Augmentation Invariancel 33
3.4 Minh họa cho các kỹ thuật tang cường hìnhảnh| 34
3.5 Minh họa cho các tăng cường hình anh trong khóa luận| 35
Trang 91X
Trang 10Danh sách bảng
4.1 Thực nghiệm kết hợp RGB với NIR trên tập huấn luyện và đánh giá
Agri-¬—— 45
4.2 Thực nghiệm hệ RGB trên tập huấn luyện và đánh giá DeepGlobe
4.3 Thực nghiệm so sánh hiệu suất từng phan trên tập huấn luyện và đánh giá
Agriculture - Vision.| ee 46
44 Thực nghiệm so sánh hiệu suất các cải tiên so với mô hình ban dau trên tập
Trang 11Danh mục từ viết tắt
AIAS Augmentation Invariance and Adaptive Sampling
RGB Red, Green, Blue
NIR Near Infrared Reflectance
CNN Convolutional Neural Network
IoU Intersection ové Union
GNSS Global Navigation Satellite System
IoT Internet of Things
CNN Convolutional Neural Networks
R-CNN Region-based Convolutional Neural Networks
GPU Graphics Processing Unit
x1
Trang 12feature
deep feature
hand-crafted feature prediction mask
target mask ground truth
annotation input
output
sampling
xii
Trang 13LOI CAM ON
Chúng tôi xin gửi lời cảm ơn sâu sắc nhất đến TS Mai Tiến Dũng - người da tận tình
hướng dẫn chúng tôi từ lúc bắt đầu cho đến lúc kết thúc và hoàn thành khóa luận này.Những câu hỏi của thầy luôn mang đến cho chúng tôi những sự hiểu biết mới, và những
định hướng quan trọng trong quá trình hoàn thành khóa luận Đó là những kiến thức quý
báu, cũng như là những kinh nghiệm quan trọng của chúng tôi trong con đường nghiên
cứu của chúng tôi sau này.
Chúng tôi xin gửi lời cảm ơn đến các thầy cô trong khoa Khoa học máy tính và các
thầy cô tại Trường Dai học Công nghệ thông tin - ĐHQG TP HCM đã tận tình giảng day,truyền tải kinh nghiệm, kiến thức và kỹ năng của các thầy cô cho chúng tôi Những kiếnthức, kinh nghiệm vô giá đó đã giúp chúng tôi rất nhiều trong quá trình hoàn thành khóaluận Những điều được thay, cô giảng day sẽ luôn là hành trang quan trọng, không bao
giờ quên trên con đường trưởng thành của chúng tôi sau này.
Chúng tôi cũng muốn gửi lời cảm ơn đến ba, mẹ, gia đình và những người bạn củalớp KHTN2019 Họ là những người đã luôn tiếp thêm động lực và đồng hành cùng tôitrong suốt chặng đường đại học
Cuối cùng, chúng tôi xin gửi lời cảm ơn chân thành nhất đến toàn thể Trường Đại học
Công nghệ thông tin và đặc biệt là khoa Khoa học máy tính Việc học tập, nghiên cứu và
phát triển tại ngôi trường này là điều vô cùng may mắn và quý giá đối với chúng tôi
Trang 14TÓM TẮT KHOÁ LUẬN
Phân đoạn ngữ nghĩa là một tác vụ thị giác máy tính cơ bản phục vụ cho nhiều lĩnh
vực trong đời sống Hiện nay, các ứng dụng nổi bật của phân đoạn ngữ nghĩa có thể kể
đến như xe tự hành, V tế, sinh trắc học, Phân đoạn ngữ nghĩa đã và đang được áp dụng
cho các lĩnh vực trên, đạt được nhiều hiệu quả tích cực Những năm gần đây, người ta bắt
đầu quan tâm đến việc ứng dụng học sâu trong lĩnh vực nông nghiệp Cùng với sự ra đời
và phát triển của các mô hình nông trại thông minh, học sâu được mong đợi sẽ trở thành hạt nhân thúc đẩy sự gia tăng giá trị cho các hoạt động nông nghiệp và trở thành tương lai của nền nông nghiệp Trong đó, phân đoạn ngữ nghĩa là một trong những ứng dụng
quan trọng, có thể phục vụ cho nhiều tác vụ của lĩnh vực nông nghiệp như tự động hóa
việc thu hoạch, tưới tiêu, xây dựng bản đồ nông trại, theo đõi và giám sát nông trại, Đặcbiệt, cùng với sự phát triển của các thiết bị quay chụp hiện đại như máy bay không ngườilái hay vệ tinh, việc thu thập, phân tích và ứng dụng ảnh chụp từ trên cao mang đếnnhiều lợi thế cho phân đoạn ngữ nghĩa ảnh nông nghiệp Trong dé tài này, nhóm chúngtôi sẽ tập trung nghiên cứu ứng dụng của phân đoạn ngữ nghĩa đối với ảnh nông nghiệp
trong phạm vi cụ thể là ảnh nông nghiệp được chụp từ trên cao.
Qua quá trình khảo sát các nghiên cứu liên quan, chúng tôi nhận thấy việc áp dụng
các mô hình học sâu cho bài toán phân đoạn ngữ nghĩa ảnh nông nghiệp chụp từ trên cao
đã đạt được một số hiệu quả nhất định Song hầu hết các mô hình trên ban đầu được xây
dựng cho lĩnh vực khác như xe tự hành hay y tế Việc áp dụng trực tiếp các mô hình màkhông xem xét các đặc điểm đặc trưng của bài toán nông nghiệp dẫn đến hiệu quả chưa
được như mong đợi Ba khó khăn chính của bài toán này là: (1) thông tin nông nghiệp
không chỉ giới hạn trong phổ RGB như các lĩnh vực khác; (2) góc chụp từ trên cao xuốnglàm ảnh bị thiếu khả năng tham chiếu không gian so với ảnh thông thường; (3) việc mắt
cân bằng lớp nghiêm trọng do sự phân bồ các thực thể trong ảnh sẽ có kích thước rất khácnhau Chúng tôi đã nghiên cứu và tìm ra ra một giải pháp kết hợp sau: (1) Thực hiện huấn
luyện kết hợp cả ảnh phổ RGB và ảnh phổ NIR; (2) Sử dụng kỹ thuật chọn mẫu Adaptive
Sampling để giải quyết vấn dé mat cân bằng lớp nghiêm trọng ; (3) Sử dụng kỹ thuậtAugmentation Invariance để giải quyết vấn dé thiếu tham chiếu do góc chụp Chúng tôi
đã tiến hành thực nghiệm trên các mô hình có kiến trúc khác nhau nhằm mục đích sosánh với mô hình được dé xuất Ngoài ra chúng tôi cũng thực hiện một số cải tiến so với
hướng tiếp cận ban đầu để đưa ra đánh giá và nâng cao hiệu suất.Chúng tôi thực hiện
Trang 16cao và các thách thức mà bài toán đang gặp phải Chúng tôi cũng đưa ra mục tiêu muốn
đạt được trong khóa luận Câu trúc của Khóa luận tốt nghiệp cũng sẽ được đề cập trong
chương này.
11 Tính ứng dụng
Nông trại thông minh đang là mô hình xu hướng được sử dụng trong nông
nghiệp, không chỉ giúp tăng khả năng tiết kiệm lao động, tự động hóa mà còn nâng cao
hiệu quả của các hoạt động canh tác, từ đó thúc đẩy gia tăng giá trị các hoạt động nôngnghiệp Vì vậy, nông trại thông minh được xem như là tương lai của nền nông nghiệp.Một số nghiên cứu giúp hoàn thiện các mô hình nông trại thông minh có thể kể đến như
tự động hóa máy kéo, máy gặt sử dụng GNSS ;hệ thống tưới nước tự động dựa trêncác thiết bị và cảm biến IơT [17]; giám sát cây trồng, bón phân tự động dựa vào máy baykhông người lai [6]
Mặc dù các công nghệ đã được đưa vào sử dụng trong thực tế và đạt được một số hiệu
quả nhất định, phần lớn các công nghệ được áp dụng trong nông trại thông minh là dựatrên cơ chế lặp đi lặp lại, có quy trình đơn giản, cổ định và phải được lập từ trước Trongbối cảnh đó, người ta đặt ra nhiều mong đợi vào các kĩ thuật Học máy, đặc biệt là Học sâu
có thể thay đổi và mang đến nhiều đóng góp lớn cho các mô hình nông trại thông minh
Trang 17Self-driving Tractor Watering Syster Agricultural APP.
HINH 1.1: Minh họa cho một số nghiên cứu trong một mô hình nông trại
thông minh
Các ứng dụng thực tiễn sử dụng Học sâu đã và đang phát triển nhanh chóng, mang
lại hiệu quả tích cực trong các lĩnh vực liên quan đến xe tự hành [20], sinh trac hoc
hay y té (3) Những năm gan đây, việc áp dung Học sâu trong các lĩnh vực liên quan đến
nông nghiệp nhận được nhiều sự quan tâm và bước đầu đạt được nhiều hiệu
quả trong đa dạng các tác vụ Bài viết này đặc biệt nghiên cứu về các ứng dụng của phânđoạn ngữ nghĩa đối với ảnh nông nghiệp, phạm vi cụ thể là ảnh nông nghiệp được chụp
từ trên cao.
HÌNH 1.2: Minh họa cho các ứng dụng của phân đoạn ngữ nghĩa trong các
lĩnh vực (a) Trong lĩnh vực xe tự hành (b) Trong lĩnh vực y tế (c) Trong lĩnh
vực sinh trắc học.
Nguồn: (a) Y Naresh, S Little, N O’Connor, "A Residual Encoder-Decoder
Network for Semantic Segmentation in Autonomous Driving Scenarios ",
2018 (b) Asadi, Maryam and Azad, Reza and Fathy, Mahmood and Escalera,
Sergio, "Multi-level Context Gating of Embedded Collective Knowledge for
Medical Image Segmentation", 2020 (c) Peter Rot, Z Emeršiš, "Deep
Multi-class Eye Segmentation for Ocular Biometrics", 2018.
Trang 18Chương 1 TONG QUAN 3
Phan đoạn ngữ nghĩa cho anh nông nghiệp là một trong những nhiệm vụ chính của
ứng dụng học sâu lên nền nông nghiệp, thu hút rất nhiều quan tâm và nghiên cứu trong
các năm gần đây Năm 2020, Champ và các cộng sự [1] đã đề xuất phương pháp phân
đoạn ảnh nông nghiệp sử dụng R-CNN cho nhiệm vụ phân biệt cây trồng với cỏ dai.Cùng năm, Saba và các cộng sự cũng dé xuất phương pháp phân đoạn ngữ nghĩa
để phát hiện sớm các vùng đất thiếu chất đinh dưỡng Năm 2022, Dmytro Filatov cùng
cộng sự cũng dé xuất sử dụng mô hình Unet cho việc phân biệt rừng va vùng nước,
tự đó có ý nghĩa giám sát môi trường, theo dõi sự biến đổi khí hậu thông qua việc theo
đõi diện tích rừng và nước Có thể thấy, phân đoạn ngữ nghĩa cho ảnh nông nghiệp được
ứng dụng trong rất nhiều các tác vụ nông nghiệp như lập bản đồ nông trại, giám sát câytrồng, tự động hóa việc thu hoạch, bón phân, tưới tiêu,
HINH 1.3: Phát hiện cỏ dai (màu đỏ) xen lẫn trong các hàng cây trồng (màu
xanh) Mặt nạ cây trồng được thể hiện bằng màu xanh lá cây và cỏ dại có màu
đỏ.
Nguồn : M Dian Bah, Adel Hafiane, Raphael Canals, "Deep Learning with
Unsupervised Data Labeling for Weed Detection in Line Crops in UAV
Im-ages", 2018.
Đặc biệt, trong đồ án này, nhóm chúng tôi tập trung vào phan đoạn ảnh nông nghiệp
với góc nhìn được chụp từ trên cao, thông qua sự giúp đỡ của các máy bay không người
lái hay vệ tỉnh.
Trang 19Chương 1 TONG QUAN 4
1.2 Giới thiệu bai toán
Phân đoạn ngữ nghĩa ảnh nông nghiệp chụp từ trên cao là bài toán cụ thể của bài toán
phân đoạn ngữ nghĩa hình ảnh với đối tượng chính là ảnh nông nghiệp được chụp
từ trên cao Nhiệm vụ chính của bài toán phân đoạn ngữ nghĩa hình ảnh là dựa trên dữ
liệu ảnh đầu vào để thực hiện phân loại cho từng điểm ảnh trong ảnh thành một phạmtrù ngữ nghĩa nhất định, tức là không chỉ tìm ra phân loại của đối tượng mà còn chỉ rõ
vị trí cụ thể của đối tượng có trong ảnh Với đối tượng cụ thể là ảnh nông nghiệp từ trên
cao, mục tiêu của bài toán là ảnh phân đoạn của các loại đối tượng nông nghiệp có trongảnh Tùy thuộc vào bộ dữ liệu huấn luyện, các lớp đối tượng nông nghiệp có thể được
định nghĩa khác nhau.
Đầu vào và đầu ra của bài toán có thể định nghĩa như sau:
* Đầu vào: Ảnh nông nghiệp được chụp từ trên cao Trong khóa luận này, ảnh đầu
vào là ảnh có bốn kênh R, G, B và NIR Ảnh này thường được kết hợp từ một ảnh
phổ RGB và một ảnh phổ NIR có chứa cùng thông tin hình ảnh nông nghiệp được
chụp từ trên cao.
¢ Đầu ra: Ảnh đã được phân đoạn ngữ nghĩa cho các lớp đối tượng nông nghiệp của
ảnh đầu vào Các nhãn gán phụ thuộc vào cách định nghĩa lớp nông nghiệp của
từng bộ dữ liệu Ở minh họa bên dưới, bộ dữ liệu Agriculture - Vision chia dữ
liệu thành 9 lớp.
Trang 20Chương 1 TONG QUAN 5
Dau vao Dau ra
được chụp từ trên cao nghĩa cho ảnh đầu vùo
is hà Ö®©®@©@&@®®®®
Ảnh gồm 4 channels R, G, B, NIR
( q ) back double dry endrow nutrient planter woter water weed
-ground =plant) -down -deficiency -skip -way -cluster
HÌNH 1.4: Ví du cho đầu vào va đầu ra của bài toán
1.3 Những thách thức
Ung dụng phân đoạn ngữ nghĩa trong công tác giám sát môi trường từ ảnh chụp từ
trên cao phát triển đáng kể trong những năm gần đây, với các ví dụ như phân loại độ che
phủ [31||16], khoanh vùng cháy rừng [4], xác định vùng rừng bị chặt phá[27], Trong các
ứng dụng kể đến trên, kỹ thuật học sâu đã mang đến những kết quả đáng hứa hẹn, nhờ
vào khối lượng đữ liệu ngày một lớn và da dạng Song, ta thay phần lớn các mô hình giải
quyết các ứng dụng trên ban đầu được thiết kế cho các trường hợp khác như xe tự hành
hay y tế - những lĩnh vực có miễn dữ liệu khác biệt rất lớn so với ảnh nông nghiệp chụp
từ trên không Sau đó các mô hình này được chuyển qua sử dụng cho ảnh nông nghiệp
chụp từ trên không mà không xem xét các đặc điểm đặc trưng của bài toán, từ đó dẫn đến
việc không khai thác hiệu quả dữ liệu và đem lại hiệu quả không cao Đặc biệt, ba đặc
trưng nổi bật của ảnh nông nghiệp chụp từ trên không dưới đây cũng là ba thách thức
chúng tôi sẽ giải quyết trong khóa luận này
Trang 21Chương 1 TONG QUAN 6
1.3.1 Thông tin không chỉ giới han trong phổ RGB
Không giống như các lĩnh vực khác thường chỉ sử dụng phổ ảnh RGB để phân tích
và trích xuất thông tin, đối với ảnh nông nghiệp, chỉ ảnh phổ RGB là chưa đủ Khi phantích hình ảnh nông nghiệp, người ta thường chú trọng đến hàm lượng nước, hàm lượngđường cũng như các thông số khác để xác định các thông tin nông nghiệp Những chi
tiết này không thể phản ánh đủ chỉ trong ảnh phổ RGB Như vậy, thông thường để có thể
khai thác tốt hơn các thông tin nông nghiệp, người ta thường quan tâm đến một quang
phổ khác là NIR[2].
RGB NIR
HÌNH 1.5: Minh họa thông tin hình ảnh giữa hai phổ ảnh RGB và NIR
1.3.2 Góc nhìn từ trên xuống làm ảnh bị thiếu khả năng tham chiếu
không gian
Với một bức ảnh được chụp từ trên cao, phối cảnh của ảnh sẽ có góc nhìn từ trên cao
nhìn xuống Tức là thông thường, ảnh sẽ được chụp bởi một máy bay có gắn camera, ảnh
vệ tinh hay mới hơn là các hệ thống máy bay không người lái Với ảnh có góc nhìn từ trên
xuống, bức ảnh sẽ bị thiếu khả năng tham chiếu không gian so với ảnh thông thường
Điều này có nghĩa ảnh chụp từ trên cao thường bị thiếu chiều sâu, thiếu điểm tham chiếu
và đặc biệt, nó còn cho phép chụp một cảnh với đa dạng các góc quay xung quanh trục
tung (xem hình 1.2) Đối với các dữ liệu ảnh khác, ví dụ ảnh được dùng cho bài toán xe
tự hành, mô hình sẽ được học từ các ảnh có cau trúc ngữ nghĩa của các đối tượng trongcảnh nhất quán hơn, ví dụ một bức ảnh chụp con đường sẽ là con đường ở dưới còn bầu
Trang 22Chương 1 TỔNG QUAN 7
trời ở phía trên Thì đối với đữ liệu ảnh được chụp từ trên cao, điều này sẽ không đúng
Từ đó ta thấy nếu áp dụng các mô hình ban đầu cho dạng dữ liệu này, mô hình sẽ không
đạt được hiệu quả như kỳ vọng Từ đây chúng tôi đặt ra kỳ vọng xây dựng một mô hình
có tính bắt biến đối với những ảnh có cùng thông tin nhưng khác biệt về góc chụp
HÌNH 1.6: Anh được chụp từ trên cao có thể có nhiều góc nhìn khác nhau
nhưng vẫn đều là một khung cảnh Tuy vậy, các mô hình thông thường không
được thiết kế với mong muốn có thể dịch chuyển các điểm trong ảnh sẽ cho
ra kết quả đầu ra khác biệt nhau Mô hình chúng tôi thiết kế với kỳ vọng học các cách biểu diễn ảnh linh hoạt và mạnh mẽ hơn, từ đó cho ra kết quả đầu
ra bat biến với các trường hợp như vậy.
Nguồn : Antonio Tavera, Edoardo Arnaudo, Carlo Masone, Barbara Caputo,
"Augmentation Invariance and Adaptive Sampling in Semantic Segmentation
of Agricultural Aerial Images", 2022
1.3.3 Mat cân bằng lớp nghiêm trong
Mặc dù vấn dé về mat cân bằng lớp là khó khăn điển hình của bài toán phân đoạnngữ nghĩa [18]; đối với ảnh được chụp từ trên cao, sự mat cân bằng lớp diễn ra đặc biệt
nghiêm trọng Lý do bởi vì với ảnh chụp từ trên cao, sự phân bồ các thực thể trong ảnh
sẽ nằm trong phạm vi từ rất nhỏ đến rất lớn, ví dụ một cánh đồng lớn với một chiếc xetải nhỏ Khi sự mắt cân bằng lớp diễn ra nghiêm trọng như vậy, các mô hình đòi hỏi phảiđược thiết kế phức tạp hơn Đây là điều các mô hình truyền thống trước đây chưa đáp
ứng được.
Trang 23Chương 1 TONG QUAN 8
HÌNH 1.7: Ví dụ về su mat cân bằng lớp nghiêm trọng trong ảnh được chụp
từ trên cao
Ảnh chụp từ trên cao bởi các thiết bị vệ tỉnh hay máy bay tự lái ngày càng trở nên phổ
biến và đóng vai trò quan trọng trong phân đoạn ngữ nghĩa ảnh nông nghiệp Song các
van dé trên lai rat ít được xem xét và nhắc đến Điều này khiến các mô hình được thiết
kế không tận dụng được toàn bộ dữ liệu và đem lại kết quả không hiệu quả Từ đó động
lực về một mô hình có thể xử lý tốt dang dữ liệu ảnh chụp từ trên cao là hoàn toàn cầnthiết Đó cũng là lý do nhóm chúng tôi thực hiện khóa luận này với mục đích xây dựng
mô hình hiệu quả hơn cho phân đoạn ngữ nghĩa ảnh nông nghiệp được chụp từ trên cao.
1.4 Mục tiêu khóa luận
Thông qua khóa luận này, nhóm chúng tôi mong muốn đạt được những mục tiêu sau:
¢ Khảo sát và đánh giá được các nghiên cứu liên quan đến việc sử dụng phân đoạn
ngữ nghĩa cho ảnh nông nghiệp được chụp từ trên cao.
e Thực hiện mô hình đề xuất cho bài toán
© Thực hiện cải tiến giúp tăng hiệu quả so với phương pháp đề xuất
Trang 24Chương 1 TONG QUAN 9
1.5 Dong gop trong khoa luan
¢ Tim hiểu kỹ thuật Adaptive Sampling (AS) va Augmentation Invariance(A]) giúp
tăng hiệu suất
e Đề xuất một số cải tiến cải thiện hiệu suất:
— Cải tiến về tăng cường dữ liệu
— Cải tiến về thay đổi hàm mắt mát
1.6 Cấu trúc Khóa luận tốt nghiệp
Nội dung Khóa luận tốt nghiệp được tổ chức như sau:
° Chương||giới thiệu tổng quan về khóa luận.
° Chương|2|chúng tôi trình bày các nghiên cứu liên quan đến bài toán này.
° ChươngJ|trình bày chỉ tiết các hướng tiếp cận của khóa luận.
¢ Chuong/4| chung tôi trình bày môi trường thực nghiệm, bộ dữ liệu, phương pháp
đánh giá và kết quả thực nghiệm
e Chương B|là phần kết luận và hướng phát triển của khóa luận.
Trang 25Chương 2
NGHIÊN CỨU LIÊN QUAN
Tóm tắt
Ở chương này chúng tôi trình bày tổng quan về các hướng giải quyết bài toán phân
đoạn ngữ nghĩa cho ảnh nông nghiệp chụp từ trên cao Trước tiên, chúng tôi sẽ giới thiệu
về hướng tiếp cận để giải quyết bài toán phân đoạn ngữ nghĩa Sau đó chúng tôi sẽ giớithiệu một hướng tiếp cận cải tiến của nó giải quyết bài toán đối với các hình ảnh đượcchụp từ trên cao Với mỗi hướng tiếp cận, chúng tôi giới thiệu về các mô hình và phươngpháp nổi trội được sử dụng để giải quyết những van dé cốt lõi của hướng tiếp cận đó
2.1 Phân đoạn ngữ nghĩa
Hướng tiếp cận này bao gồm những phương pháp được sử dụng để giải quyết cácbài toán phân đoạn ngữ nghĩa đang phổ biến trong lĩnh vực thị giác máy tính, bắt đầu từ
phương pháp cơ bản nhất là Fully Convolutional Network (FCN) [24] Sau đó chung tôi sé
giới thiệu về một trong số những mô hình phổ biến là High Resolution Network (HRNet)
[28] Và cuối cùng, chúng tôi sẽ nói về một mô hình mới mẻ được giới thiệu trong thời
gian gần đây là SegFormer [35].
2.1.1 Fully Convoluntional Network
Mục tiêu cơ bản của tác vụ phân đoạn ngữ nghĩa là gán nhãn cho mỗi pixel của bức
ảnh đầu vào với từng lớp cụ thể Tuy nhiên, néu sử dụng mạng CNN và thực hiện bài toánphân loại bình thường thì sẽ cần một số lượng lớn các tham số khiến cho việc tính toán trởnên phức tạp và tiêu tốn tài nguyên Vì thế, mô hình Fully Convolutional Network được
Trang 26Chương 2 NGHIÊN CUU LIÊN QUAN 11
giới thiệu Mô hình sẽ học cách ánh xa từ hình anh đầu vào sang ban dé phân đoạn tương
ứng của nó thông qua quá trình chuyển đổi liên tiếp các ánh xạ đặc trưng bằng phép tíchchập.
Trong quá trình huấn luyện, để có thể chat lọc được những thông tin có giá trị caonhằm thu được một Feature Map mang giá trị thông tin về vị trí và cường độ của các pix-
els, mô hình FCN được áp dụng phương pháp Downsampling (ví dụ bằng việc sử dụng
Pooling) Feature Map này sau đó được áp dụng Upsampling bằng cách sử dụng các lớp
transposed convolution để giải nén và kết quả cuối cùng thu được là một segmentation
map có độ phân giải cao của bức ảnh đầu vào, với mỗi pixel đã được gắn nhãn vào lớp có
tỉ lệ cao nhất
htc (FI)
HINH 2.1: M6 hinh FCN[24] với Downsampling và Upsampling
Phương pháp Downsampling Upsampling có nhược điểm là nó sẽ làm giảm nghiêmtrong độ phân giải của ảnh đầu vào khiến cho thông tin bị mat mát, khiến cho quá trìnhtái tạo lại những chỉ tiết trong bức ảnh là rất khó khăn, và kết quả sẽ không có độ chính
xác cao Để giải quyết van dé này, người ta đã áp dụng phương pháp Skip Connection Y
tưởng chính là chúng ta thực hiện predict output tại một lớp trong giai đoạn
Downsam-pling để kết hợp với output Kết quả đó sẽ được kết hợp cùng với output thô có được khi
đi qua hết mô hình Kết quả cuối cùng thu được là ranh giới phân đoạn của các lớp sẽ trở
nên chính xác hơn.
2.1.2 UNet
Kiến trúc mang UNet [23], lần đầu tiên được áp dụng cho phân đoạn ảnh y tế, có
cốt lõi là kĩ thuật Fully Convoluntional Network Đúng như tên gọi, kiến trúc tổng quát
Trang 27Chương 2 NGHIÊN CUU LIÊN QUAN 12
32x upsampled 2x upsampled 16x upsampled 2x upsampled 8x upsampled prediction (FCN-32s) prediction _ prediction (FCN-16s) _ prediction prediction (FCN-8s)
HINH 2.2: Minh họa cach hoạt động của Skip Connection[24] FCN-32s không
thực hiện Skip Connection và Upsample ở stride 32; FCN-16s thực hiện Skip
Connectionn ở lớp pool4, stride 16; FCN-8s thực hiện Skip Connectionn ở lớp
pool3, stride 8; kết quả là mức độ chỉ tiết được tăng lên và ranh giới được xác
của mô hình này giống như chữ "U" để có thể vừa thực hiện cùng lúc 2 chức năng:
Downsampling-Upsampling và Skip Connection.
Mang Unet bao gồm một nửa phía bên trái và một nửa phía bên phải Nửa bên trái
là một kiến trúc mạng tích chập thực hiện quá trình Downsampling Nó bao gồm 2 lớp
tích chập 3x3 cùng với hàm kích hoạt ReLU và một toán tử max pooling kích thước 2x2
cho mỗi tầng để giảm chiều của ảnh đầu vào Với mỗi bước Downsampling như vậy, số
kênh đặc trưng được nhân đôi Nửa bên phải của Unet thực hiện quá trình Upsampling
bằng cách đảo ngược trình tự so với nửa bên trái Mỗi bước sẽ bao gồm một lớp tích chập
2x2 để tăng chiều và chia đôi số lượng kênh đặc trưng Ban dé đặc trưng đó sẽ được kết
hợp cùng với feature map tương ứng của nua bên trái và 2 lớp tích chập 3x3 cùng với
hàm kích hoạt ReLU Việc kết hợp này là cần thiết vì trong quá trình xử lý, các pixel biênthường biến mat Lớp cuối cùng là một lớp tích chập 1x1 để ánh xạ các vector đặc trưngtới số lượng lớp mong muốn
So với những mô hình thị giác máy tính tiền nhiệm như Mask RCNN, Unet có nhữngđặc điểm nổi bật như:
® toàn bộ kiến trúc không hề sử dụng một lớp fully connected nào Đối với các mô
hình end-to-end thông thường, lớp kế cuối của mạng sẽ là các lớp fully connected
để kết nồi các đặc trưng đã phân tích được nhằm đưa ra kết quả dự đoán Tuy nhiên,
ở kiến trúc U-net, việc kết nối các đặc trưng sẽ do nửa sau của mạng đóng vai trò là
decoder đảm nhận, điều này giúp mạng không cần mạng fully connected, do đó cóthể chấp nhận input với kích thước bắt kì
Trang 28Chương 2 NGHIÊN CUU LIÊN QUAN 13
Jefe! | [+ + => conv 3x3, ReLU
oo "sân h copy and cro Ÿ se 512 1024 512 t py p
© SÁT 45 5 4 up-conv 2x2
(> 5 =
Đó ca s => conv 1x1
mo N
HINH 2.3: Minh họa mô hình của Unet{23] Unet có hình chữ U với 2 nửa Nửa
bên trái đảm nhận nhiệm vụ encoder với các phép nhân tích chập và padding
để cô đặc đặc điểm của hình ảnh Nửa bên phải đảm nhận nhiệm vụ decoder nhằm tái tạo lại ảnh phân đoạn, được kết hợp với các feature map ở encoder
nhằm nâng cao hiệu suất của mô hình.
* U-net sử dụng Phương pháp đệm (Padding method), điều này giúp kiến trúc có
thể phân đoạn hình ảnh được hoàn toàn Phương pháp này đặc biệt quan trọng khi
phân đoạn cho các hình ảnh, nếu không, độ phân giải có thể bị hạn chế bởi dung
lượng của bộ nhớ GPU.
Là một mô hình cơ bản để giải quyết bài toán phân đoạn ngữ nghĩa ảnh, Unet cũng
có những mặt hạn chế nhất định Mô hình Unet không phù hợp để xử lý những hình ảnh
có độ phân giải cao và kích thước lớn khiến nó có thể gặp vấn đề về tính toán và bộ nhớ
Thêm vào đó, việc có một cấu trúc phức tạp với nhiều lớp tích chập khiến cho việc tính
toán càng mắt thời gian hơn và việc huấn luyện có thể bị chậm lại khi tiến đến những lớp
ở giữa.
Trang 29Chương 2 NGHIÊN CUU LIÊN QUAN 14
2.1.3 High-Resolution Network
Mô hình Unet là một mô hình co ban để thực hiện Semantic Segmentation nên nó cómột số nhược điểm nhất định Một trong số đó là độ phân giải của bức ảnh đầu vào sẽgiảm xuống rõ rệt, khiến cho chất lượng, độ chính xác và cả vị trí đối tượng của Segmen-
tation Map được dự đoán là không được cao cho dù đã áp dụng Upsampling va Skip
Connection Trong khi đó, phân đoạn ngữ nghĩa hình ảnh là một tác vụ rất nhạy cảm với
vị trí của vật thể và trong suốt quá trình học, cả độ phân giải cao lẫn chiều sâu cần phảiđược duy trì Để giải quyết van dé nay, High-Resolution Network (HRNet) đã được giới
thiéu [28] So với Unet, thiết kế của HRNet mang lại hiệu quả tính toán, đặc biệt là với
các ảnh có độ phân giải cao Ngoài ra, mạng cũng hiệu quả đối với các đối tượng có kích
thước nhỏ.
Ý tưởng chính của HRNet đó chính là mô hình sẽ chia thành kiến trúc nhiều tầng với
tầng phía sau sẽ vừa giữ lại lớp đặc trưng có độ phân giải cao ở tầng phía trước, vừa tạothêm lớp đặc trưng mới có độ phân giải thấp nhưng sâu hơn và có đặc trưng rõ ràng hơn.Các lớp song song này sẽ bổ nghĩa cho nhau, và cuối cùng chúng ta sẽ thu được đặc trưng
có độ phân giải cao đồng thời vừa có chiều sâu
Mẫu chốt của mô hình này là sự kết hợp giữa các lớp đặc trưng với nhau được lặp đilặp lại tại cuối mỗi block Mục đích là để trao đổi các thông tin ngữ nghĩa, nhờ đó mà khảnăng học của mô hình được tăng cường và đảm bảo rằng mô hình có thể học được các
đặc trưng ở các độ phân giải khác nhau Nhờ đó mà độ chính xác của mô hình trong việc
phân đoạn ảnh được cải thiện hơn nhiều Xem hình minh họa 2.4 để hiểu cách kết hợp
đặc trưng của HRNet.
HRNet vẫn có trong mình những nhược điểm khá rõ ràng Một trong số đó là do cóquá nhiều tham số và có kiến trúc phức tạp khiến khả năng học của mô hình quá mạnh
nên dé xảy ra van dé overfit khi thực hiện huấn luyện cho mô hình Ngoài ra việc phải
duy trì liên tục các layer với nhiều mức độ phân giải khác nhau khiến cho mô hình trởnên phức tạp và việc tính toán và lưu trữ cũng trở nên khó khăn hơn rất nhiều vì có rất
nhiều tham số cần được học Mô hình SegFormer có thể giải quyết được van dé này
2.1.4 SegFormer
Một phương thức tiếp cận khác đang nổi lên những năm gan day cho tác vu phân
đoạn ngữ nghĩa hình ảnh là sử dụng kiến trúc Transformer Kết hợp với việc sử dụng một
Trang 30Chương 2 NGHIÊN CUU LIÊN QUAN 15
HINH 2.4: Minh hoa mô hình của HRNet(28] Qua nhiều block, luồng thứ 1
màu vàng vẫn luôn được duy trì từ đầu cho đến cuối Từ cuối block 1, đặc trưng có độ phân giải thấp nhưng có chiều sâu cao hơn (màu cam) bắt đầu
xuất hiện và tiếp tục duy trì cho đến cuối Tương tự với block 2, 3 và 4
backbone mạnh làm encoder, việc chia input thành các patch và phần decoder có nhiệm
vụ kết hợp các feature map ở các mức độ khác nhau nhằm tổng hợp được nhiều loại đặctrưng cục bộ và toàn cục khác nhau, từ đó nâng cao hiệu suất của mô hình Sự thành công
của SegFormer đã được chứng minh thực nghiệm khi so sánh cùng với những mô hình
khác như FCN-r50, HRNet, DeepLab
SegFormer có 2 điểm đáng chú ý:
s® Sử dụng MixTransformer cho Backbone nhằm tạo ra các feature map ở mức độ khác
nhau, là một điều cần thiết để nâng cao hiệu suất của bài toán semantic
segmenta-tion.
* Một lightweight All-MLP decoder có hiệu suất cao nhưng không phức tạp hay đòi
hỏi tính toán phức tạp.
Trang 31Chương 2 NGHIÊN CUU LIÊN QUAN 16
HINH 2.5: Minh hoa HRNetFusion[28| Minh họa cách kết hợp thông tin ngữ
nghĩa giữa các đặc trưng độ phân giải cao, trung bình và thấp của HRNet.
Kiến trúc của SegFormer bao gồm 2 thành phần chính: (1) là encoder với kiến trúc
Trans-formation phân tang để chon lọc các đặc trưng ở các mức độ khác nhau, (2) là decoder vớicốt lõi là lightweight All-MLP decoder có nhiệm vụ tổng hợp các đặc trưng từ encoder dé
đưa ra segmentation map.
Ảnh đầu vào có kích thước HxWx3 được chia thành các patch có kích thước 4x4 Các
patch này sẽ được sử dụng làm input để đưa vào encoder với 4 block Transformation, mỗi
block sẽ cho ra một feature map có kích thước bằng 1/4; 1/8; 1/16; 1/32 so với mức phan
giải của bức ảnh đầu vào Tất cả các feature map sau đó sẽ được đưa vào một layer MLPvới nhiệm vụ kết hợp tat cả lại để đưa ra một segmentation map có độ phân giải là
với Ng, là số class
Kiến trúc Transformer được sử dụng trong SegFormer được gọi là Mix Transformer
(MiT) gồm các phiên ban tử MiT BO đến MiT B5 Càng về sau các phiên bản sẽ có tốc độchạy chậm hơn nhưng cho hiệu năng tốt hơn Mỗi block MiT sẽ có:
e Efficient Self-Attention: Attention là một phan quan trọng trong mô hình
Trans-former trong việc học cách lấy thông tin quan trọng từ các vị trí khác nhau của
input bằng cách tính toán các trọng số Trong self-attention, input sẽ được sử dụng
để tính toán một trọng số cho mỗi phần tử trong đó, dựa trên sự tương đồng của
phần tử đó với các phần tử khác trong input Trong các mô hình Transformer sửdụng cho thị giác máy tính, việc tính toán self-attention ban đầu như đã biết sẽ có
Trang 32Chương 2 NGHIÊN CUU LIÊN QUAN 17
i
deli2AO
Figure 2: The proposed SegFormer framework consists of two main modules: A hierarchical Transformer
encoder to extract coarse and fine features; and a lightweight All-MLP decoder to directly fuse these multi-level
features and predict the semantic segmentation mask “FFN” indicates feed-forward network.
HINH 2.6: Minh họa cấu trúc va flow của mô hình SegFormer[35].
nhiều head, mỗi head có 3 ma trận Q (Query), K (Key), V (Value) cùng kích thước
NxC, với N = WxH là độ dài của sequence khi đưa vào Transformer, công thức tinh
attention như sau:
VDhenad
Cơ chế này rất tiêu tốn tài nguyên tính toán và lưu trữ vì nó cần phải tính toán độ
Attension(Q,K,v) = Softmax( )V
tương đồng của các cặp vị trí khác nhau Độ phức tạp của thuật toán là O(NxN) là
hoàn toàn không phù hợp với những ảnh có độ phân giải cao Do đó ta thực hiện
quá trình giảm chiều dài sequence, nhằm tạo ra Efficient Self-Attention[35] có độ
phức tạp thuật toán và độ phức tạp lưu trữ thấp hơn:
N
K= Reshape(5,C -R,K)
K = Linear(C - R,C)(R)
Trang 33Chương 2 NGHIÊN CUU LIÊN QUAN 18
Efficient Self-Attention được sử dụng vì có độ phức tạp lưu trữ và độ phức tạp thuậttoán là tuyến tính Nhờ đó mà độ phức tạp của thuật toán giảm xuống còn O(N?/R)với hệ số R có thể được cài đặt là 64, 16, 4, 1
® Mix-FNN: Mô hình Vision Transformer sử dung positional encoding để lưu lại vị
trí của từng pixel trong ảnh Tuy nhiên độ phân giải của nó là cố định Vì vậy khi độ
phân giải của dữ liệu trong tập test khác với dữ liệu trong tập train có sự khác biệt
thì cần phải tính toán nội suy Việc này có nhiều bất cập khiến cho ảnh đầu vào bịnhiễu và từ đó hiệu suất bị giảm đi Để thay thế, SegFormer đã sử dụng Mix-FNN
Ưu điểm của nó là có khả năng cảm biến không gian phức tạp, có hiệu suất cao
nhưng kết câu đơn giản, dé dàng triển khai và tính toán nhanh Ngoài ra nó có khảnăng sử liệu các dạng ảnh lớn hơn so với positional encoder Công thức:
Xout = MLP(GELU(Conv3x3MLP(xin))) + Xin
Với Xin là đầu ra của layer Efficient Self Attention, va GELU là một phiên bản chạy
mượt hơn so với ReLU
* Overlap Patch Merging: trong kiến trúc Mix Transformer encoder, ảnh được chia
thành các patch có kích thước 4x4 chồng lan lên nhau nhằm đảm bảo thông tin vị tri
cục bộ và thêm thông tin vị trí giữa các patch Đó là vì mô hình SegFormer không
sử dụng positional encoder như các mô hình Transformer thông thường khác.
Lightweight All-MLP decoder chỉ cần mang MLP (là một layer Convolution với kernel
size = 1) ma không cần sử dụng các module phức tap dé tổng hợp các feature vì ban than
encoder của SegFormer đã có hiệu suất cao hon nhiều so với các encoder truyền thốngkhác Decoder này bao gồm 4 bước: Đầu tiên, 4 feature map F; từ 4 block MiT sẽ được đưa
qua mạng MLP để có đồng bộ hóa chiều của channel Sau đó, chúng sẽ được upsampling
về kích thước (H/4, W/4) và được concatenate lại với nhau Kế đến là một mạng MLPđược tạo ra để có thé tổng hợp các đặc trưng này Cuối cùng là một mạng MLP khác được
sử dụng nhằm tạo ra một segmentation mask từ những đặc trưng đã được tổng hợp Độ
phân giải của mask là H/4 x W/4 x Nas Mask sẽ được upsampling 4 lần để có được kíchthước của ảnh gốc
SegFormer nhiều ưu điểm cho phép nó có thể xử lý những ảnh đầu vào có độ phân
giải cao dé dàng như khả năng tính toán hiệu quả do mô hình chia ảnh ra thành các gói
Trang 34Chương 2 NGHIÊN CUU LIÊN QUAN 19
giúp giảm lượng tính toán nhưng vẫn đảm bảo về hiệu năng và thời gian huấn luyện.Ngoài ra, nhờ cơ chế Efficient Self-Attention, SegFormer có khả năng tổng hợp thông tin
cục bộ và toàn cục, nhằm phân đoạn ảnh chính xác hơn và chất lượng ảnh đầu ra cũngcao hơn Thực tế cho thấy SegFormer có hiệu suất tốt hơn trên nhiều bài toán và nhiều bộ
đữ liệu khác nhau.
2.2 Phân đoạn ngư nghĩa cho ảnh chụp từ trên không
Trong lĩnh vực quan sát trên không, môi trường mục tiêu của bài toán phân đoạn ngữnghĩa có sự đa dạng rất đáng kể Mỗi môi trường như vậy sẽ gắn với những ứng dụngkhác nhau trong thực tế, cũng như là những yêu cầu và thách thức khác nhau Đối với
tác vụ land cover, thách thức chính là sự khác biệt lớn về mặt kích thước của mỗi lớp ngữnghĩa (ví dụ một cái hồ nước có thể rất lớn nhưng một con kênh sẽ có điện tích nhỏ hơnrất nhiều) và sự khác biệt rõ ràng về mặt hình ảnh giữa các miền khác nhau Vấn dé đầu
tiên có thể được giải quyết bằng việc áp dụng các mô hình khai thác nhiều mức đặc trưng
khác nhau như HRNet hay SegFormer, và van đề thứ 2 có thể được giải quyết với DomainAdaptation Đối với lĩnh vực nông nghiệp, một vài phương pháp có thể kể đến như Auto-
mated Fusion of Multi-spectral Data được áp dụng trong bài toán "Tổng hợp dữ liệu hiệu
quả với chỉ số thực vật tổng quát: kiểm nghiệm từ bài toán phân đoạn đất che phủ trong
nông nghiệp" (Effective Data Fusion with Generalized Vegetation Index: Evidence from
Land Cover Segmentation in Agriculture) [25] hay phuong phap Precise Crop
Segmenta-tion thực hiện trong bài toán "Phân loại cây trồng và cỏ dai cho nông nghiệp chính xác
bằng cách sử dụng phân đoạn Pixel-Wise độc lập về ngữ cảnh" (Crop and Weeds
Clas-sification for Precision Agriculture using Context-Independent Pixel-Wise Segmentation)
vì các bức ảnh nông nghiệp chụp từ trên cao hiểm khi bị giới han trong phổ khả kiến
và thường bao gồm các phổ khác như cận hồng ngoại (Near-Infrared)
2.2.1 Tổng hợp tự động dữ liệu đa quang phổ [rs14215600](Automated
Fusion of Multi-spectral Data)
Quá trình tu động kết hợp dữ liệu đa phổ là quá trình kết hợp các tam ảnh chụp từ
các bộ cảm biến đa phổ khác nhau nhằm tạo ra một hình ảnh kết hợp có chứa thông tin
từ tat cả các bộ cảm biến Các bộ cảm biến này có thể bao gồm các tia X, ánh sáng hồng
Trang 35Chương 2 NGHIÊN CUU LIÊN QUAN 20
ngoại, ánh sáng rõ và các bước sóng khác Khi kết hợp các tắm ảnh đa phổ, quá trình tựđộng hóa sẽ giúp tạo ra một hình ảnh cực kỳ chỉ tiết và chính xác, giúp cho việc phân tích
và xử lý dữ liệu trở nên dé dàng và hiệu quả hon.
Đầu vào của quá trình tổng hợp tự động dữ liệu đa phổ là một tập hợp các hình ảnh
đa phổ được chụp bởi các thiết bị viễn thám, thường có các dải phổ khác nhau Đầu ra làmột hình ảnh hợp nhất duy nhất kết hợp thông tin từ tất cả các hình ảnh đầu vào thànhmột biểu diễn duy nhất với các đặc điểm quang phổ và không gian được cải thiện Hìnhảnh hợp nhất này có thể được sử dụng cho các ứng dụng khác nhau như phân loại lớp
phủ đất, phát hiện đối tượng và phát hiện thay đổi
Các bước để tổng hợp ảnh bao gồm:
1. Thu thập dữ liệu đa phổ: Điều này liên quan đến việc thu thập dữ liệu từ nhiều cảm
biến, chang hạn như vệ tinh hoặc cảm biến trên không, thu thập các dải phổ khác
nhau.
Tiên xử lý: Bước này liên quan đến hiệu chỉnh hình hoc và phóng xa của dữ liệu thu
được Hiệu chỉnh bức xạ điều chỉnh độ sáng và độ tương phản của hình ảnh, trongkhi hiệu chỉnh hình học hiệu chỉnh biến dạng do vị trí và hướng của cảm biến gây
ra.
Hiệu chỉnh: Hình ảnh thu được có thể không được căn chỉnh hoàn hảo do sự khác
biệt về vị trí cảm biến, hướng và các yếu tố khác Hiệu chỉnh liên quan đến việc sắpxếp các hình ảnh để chúng có thể được so sánh và kết hợp
Hợp nhất dữ liệu: Được minh họa trong hình 2.7 Bước này liên quan đến việc kếthợp các hình ảnh đã được hiệu chỉnh để tạo một hình ảnh mới kết hợp thông tin
quang phổ từ tất cả các hình ảnh đầu vào Có nhiều phương pháp khác nhau đểhợp nhất dữ liệu, chẳng hạn như hợp nhất dựa trên pixel, dựa trên tính năng và
dựa trên quyết định
Xử lý hậu kỳ: Bước cuối cùng liên quan đến việc nâng cao chất lượng của hình ảnh
hợp nhất bằng cách loại bỏ nhiễu, cải thiện độ phân giải không gian và sửa mọi biến
dạng còn lại.