1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Phân đoạn ngữ nghĩa cho ảnh nông nghiệp chụp từ trên cao

71 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân đoạn ngữ nghĩa cho ảnh nông nghiệp chụp từ trên cao
Tác giả Võ Đăng Châu, Nguyễn Phương Bảo Ngọc
Người hướng dẫn TS. Mai Tiến Dũng
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học Máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 71
Dung lượng 43,77 MB

Nội dung

Mô tả bài toán - _ Nghiên cứu mô hình phân đoạn ngữ nghĩa cho ảnh đất nông nghiệp được chụp từ trên cao với mục tiêu khai thác dữ liệu từ trên cao tốt hơn các mô hình trước đó.. Trong đó

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

VÕ ĐĂNG CHÂU NGUYÊN PHƯƠNG BẢO NGỌC

KHÓA LUẬN TÓT NGHIỆP

PHÂN ĐOẠN NGỮ NGHĨA CHO ẢNH NÔNG NGHIỆP

CHỤP TỪ TRÊN CAO

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

TP HO CHÍ MINH, 2023

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HỌC MAY TÍNH

VO DANG CHAU - 19521282 NGUYEN PHƯƠNG BAO NGỌC - 19521907

_ KHOA LUAN TOT NGHIỆP _ PHAN DOAN NGỮ NGHĨA CHO ANH NÔNG NGHIỆP

CHỤP TỪ TRÊN CAO

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

GIẢNG VIÊN HƯỚNG DẪN

TS MAI TIỀN DŨNG

Trang 3

ĐẠI HỌC QUỐC GIA TP HO CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

DE CƯƠNG CHI TIẾT

Tên đề tài: Phân đoạn ngữ nghĩa cho ảnh nông nghiệp chụp từ trên cao

Tên đề tài tiếng Anh: Semantic Segmentation of Agricultural Aerial Images

Ngôn nøữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: TS Mai Tiến Dũng

Thời gian thực hiện: Từ ngày 10/09/2022 đến ngày 1/3/2023.

Sinh viên thực hiện:

Võ Đăng Châu Lớp: KHTN2019

Email:19521282@gm.uit.edu.vn Dién thoai: 0326556505

Nguyễn Phương Bao Ngoc Lop: KHTN2019

Email: 19521907@gm.uit.edu.vn Dién thoai: 0333259953

Nội dung đề tài:

A Tông quan van dé

Phân đoạn ngữ nghĩa là một trong những bai toán căn bản cua thị giác máy tinh có tính

ứng dụng cao trong thực tế Trong những năm gần đây, việc quan tâm và ứng dụng phân

đoạn ngữ nghĩa vào nông nghiệp đang ngày càng mạnh mẽ, phục vụ cho các tác vụ như

tự động hóa thu hoạch, tưới tiêu, giám sát nông nghiệp, lập bản đồ nông nghiệp, Trong

khóa luận nay, chúng tôi tập trung nghiên cứu phân đoạn ngữ nghĩa trong phạm vi ảnh

nông nghiệp được chụp từ trên cao.

B Mô tả bài toán

- _ Nghiên cứu mô hình phân đoạn ngữ nghĩa cho ảnh đất nông nghiệp được chụp từ

trên cao với mục tiêu khai thác dữ liệu từ trên cao tốt hơn các mô hình trước đó.

- au vào: Ảnh nông nghiệp được chụp từ trên cao Trong khóa luận này, ảnh đầu

vào được định nghĩa gồm 4 channel R, G, B và NIR.

- aura: Ảnh phân đoạn cho từng loại đối tượng nông nghiệp của anh đầu vào.

C Đối tượng và phạm vi nghiên cứu

- _ Đối tượng nghiên cứu: Hình ảnh nông nghiệp được chụp từ trên cao.

- Pham vi nghiên cứu: Mô hình và thuật toán phân đoạn ngữ nghĩa, các kỹ thuật

giúp khai thác dữ liệu và xây dựng mô hình cho đối tượng nghiên cứu.

Trang 4

D Mục tiêu

- Khao sát và đánh giá được các nghiên cứu liên quan đến việc sử dụng phân đoạn

ngữ nghĩa cho ảnh nông nghiệp được chụp từ trên cao.

- _ Thực hiện xây dựng mô hình đề xuất cho bài toán.

- _ Thực hiện cải tiễn giúp tăng hiệu quả so với phương pháp đề xuất.

E Nội dung thực hiện

Nội dung 1: Khảo sát, đánh giá các hướng tiếp cận liên quan

- Phuong pháp thực hiện:

+ Khảo sát, tìm hiểu và tổng hợp kết quả của các hướng tiếp cận liên quan.

- Kết quả dự kiến:

+ Các hướng tiếp cận liên quan và ưu nhược điểm của chúng.

Nội dung 2: Xây dựng mô hình

- Phuong pháp thực hiện:

+ Xây dựng một mô hình dựa trên hướng tiếp cận theo đuổi.

+ Thực hiện một số cải tiến trên mô hình ban dau.

- Kết quả dự kiến:

+ Một mô hình phục vụ bai toán ban đầu.

Nội dung 3: Thực nghiệm mô hình

- Phuong pháp thực hiện:

+ Tìm hiểu, lựa chọn bộ đữ liệu thích hợp.

+ Tiến hành thực nghiệm trên bộ dữ liệu và đánh giá kết quả của mô hình so

với các phương pháp trước đó.

+ Thử nghiệm mô hình với một số cải tiễn và theo dõi kết quả.

- Kết quả dự kiến:

+ Đánh giá được hiệu suất của mô hình mới so với các mô hình ban đầu.

Nội dung 4: Báo cáo KLIN

Trình bảy các nội dung đã tìm hiểu trong khóa luận.

Tài liệu tham khảo chính

Antonio Tavera; Edoardo Arnaudo; Carlo Masone; Barbara Caputo, Augmentation Invariance and Adaptive Sampling in Semantic Segmentation of Agricultural Aerial

Trang 5

Phân công làm việc:

1 Võ Đăng Châu

- Tim hiêu nên tảng kiên thức của các nghiên cứu liên quan.

- Tim hiểu hướng tiếp cận chính trong khóa luận.

- Tìm hiểu cải tiễn thay đổi ham mất mát.

- _ Xây dựng mô hình và thực nghiệm.

- Tổng hợp và viết báo cáo.

2 Nguyễn Phương Bảo Ngọc

- Tim hiểu tổng quan về bai toán.

- Tìm hiểu hướng tiếp cận chính trong khóa luận.

- Tim hiểu cải tiến liên quan đến tăng cường dữ liệu.

- Xay dựng mô hình và thực nghiệm.

- _ Xây dựng giao diện kiểm thử.

Tổng hợp và viết báo cáo.

Xác nhận của CBHD TP HCM, ngày 12 thang 01 nam 2023

(Ký tên và ghi rõ ho tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Mai Tiên Dũng Võ Đăng Châu

Nguyễn Phương Bảo Ngọc

Trang 6

Mục lục

LỜI CẢM ƠN xiii

TÓM TẮT KHOÁ LUẬN xiv

1 TONG QUAN 1

11 Tínhứng dụng| Ặ 0 0.00.00 0000000008 1 1.2 Giới thiệu bàitoán| 0.0.02 ee eee 4

Bla ai®@ |.7 6

1.3.3 Mat cân bằng lớp nghiêm trọng| - 7

SA FH 8

OE ấn nh“ eraaaaú 91.6 Cấu trúc Khóa luận tốtnghiệp| - - 9

2_ NGHIÊN CỨU LIÊN QUAN 10

2.2 Phân đoạn ngữ nghĩa cho anh chụp từ trên không| 19

Fusion of Multi-spectral Data)|_ - 19 2.2.2 _ Phân đoạn nông nghiệp chính xác 21

2.3 Ảnh cận hồng ngoại (NIR)| Ặ.ẶẶ ee 22

Trang 7

4_ THỰC NGHIỆM VÀ DANH GIÁ 40

4.1 Môi trường và ngôn ngữ cài đặt| 40

4.2 Phương pháp đánh gia) 2.2 0.0.00 000000000 22 eee 40 4.3 Bộ dữ lệu thựcnghiệm| Ặ.ẶẶẶẶẶ 0008 41

Trang 8

Danh sach hinh ve

1.1 Minh họa cho mô hình nông trại thông minh| 2

1.2 Minh họa cho các ứng dụng của phân đoạn ngữ nghĩa 2

13 Minh họa cho ứng dụng phát hiện códại 3

¬ 5

1.5 Minh họa cho thách thức l| ẶẶẶẶ.e 6 1.6 Minh họa cho thách thức l[ - 7 1.7 Minh họa cho thách thức 2} 0.0.0.00.0 00 00 ee 8

2.12 Minh họa vai trò của alphal| Ặ.ẶẶẶẶ ee 27

3.1 Minh họa cho hướng tiếp cận trong khóa luận| - 29

3.2 Minh họa quá trình sampling| Ặ 31

3.3 Minh họa cho kiến trúc Augmentation Invariancel 33

3.4 Minh họa cho các kỹ thuật tang cường hìnhảnh| 34

3.5 Minh họa cho các tăng cường hình anh trong khóa luận| 35

Trang 9

1X

Trang 10

Danh sách bảng

4.1 Thực nghiệm kết hợp RGB với NIR trên tập huấn luyện và đánh giá

Agri-¬—— 45

4.2 Thực nghiệm hệ RGB trên tập huấn luyện và đánh giá DeepGlobe

4.3 Thực nghiệm so sánh hiệu suất từng phan trên tập huấn luyện và đánh giá

Agriculture - Vision.| ee 46

44 Thực nghiệm so sánh hiệu suất các cải tiên so với mô hình ban dau trên tập

Trang 11

Danh mục từ viết tắt

AIAS Augmentation Invariance and Adaptive Sampling

RGB Red, Green, Blue

NIR Near Infrared Reflectance

CNN Convolutional Neural Network

IoU Intersection ové Union

GNSS Global Navigation Satellite System

IoT Internet of Things

CNN Convolutional Neural Networks

R-CNN Region-based Convolutional Neural Networks

GPU Graphics Processing Unit

x1

Trang 12

feature

deep feature

hand-crafted feature prediction mask

target mask ground truth

annotation input

output

sampling

xii

Trang 13

LOI CAM ON

Chúng tôi xin gửi lời cảm ơn sâu sắc nhất đến TS Mai Tiến Dũng - người da tận tình

hướng dẫn chúng tôi từ lúc bắt đầu cho đến lúc kết thúc và hoàn thành khóa luận này.Những câu hỏi của thầy luôn mang đến cho chúng tôi những sự hiểu biết mới, và những

định hướng quan trọng trong quá trình hoàn thành khóa luận Đó là những kiến thức quý

báu, cũng như là những kinh nghiệm quan trọng của chúng tôi trong con đường nghiên

cứu của chúng tôi sau này.

Chúng tôi xin gửi lời cảm ơn đến các thầy cô trong khoa Khoa học máy tính và các

thầy cô tại Trường Dai học Công nghệ thông tin - ĐHQG TP HCM đã tận tình giảng day,truyền tải kinh nghiệm, kiến thức và kỹ năng của các thầy cô cho chúng tôi Những kiếnthức, kinh nghiệm vô giá đó đã giúp chúng tôi rất nhiều trong quá trình hoàn thành khóaluận Những điều được thay, cô giảng day sẽ luôn là hành trang quan trọng, không bao

giờ quên trên con đường trưởng thành của chúng tôi sau này.

Chúng tôi cũng muốn gửi lời cảm ơn đến ba, mẹ, gia đình và những người bạn củalớp KHTN2019 Họ là những người đã luôn tiếp thêm động lực và đồng hành cùng tôitrong suốt chặng đường đại học

Cuối cùng, chúng tôi xin gửi lời cảm ơn chân thành nhất đến toàn thể Trường Đại học

Công nghệ thông tin và đặc biệt là khoa Khoa học máy tính Việc học tập, nghiên cứu và

phát triển tại ngôi trường này là điều vô cùng may mắn và quý giá đối với chúng tôi

Trang 14

TÓM TẮT KHOÁ LUẬN

Phân đoạn ngữ nghĩa là một tác vụ thị giác máy tính cơ bản phục vụ cho nhiều lĩnh

vực trong đời sống Hiện nay, các ứng dụng nổi bật của phân đoạn ngữ nghĩa có thể kể

đến như xe tự hành, V tế, sinh trắc học, Phân đoạn ngữ nghĩa đã và đang được áp dụng

cho các lĩnh vực trên, đạt được nhiều hiệu quả tích cực Những năm gần đây, người ta bắt

đầu quan tâm đến việc ứng dụng học sâu trong lĩnh vực nông nghiệp Cùng với sự ra đời

và phát triển của các mô hình nông trại thông minh, học sâu được mong đợi sẽ trở thành hạt nhân thúc đẩy sự gia tăng giá trị cho các hoạt động nông nghiệp và trở thành tương lai của nền nông nghiệp Trong đó, phân đoạn ngữ nghĩa là một trong những ứng dụng

quan trọng, có thể phục vụ cho nhiều tác vụ của lĩnh vực nông nghiệp như tự động hóa

việc thu hoạch, tưới tiêu, xây dựng bản đồ nông trại, theo đõi và giám sát nông trại, Đặcbiệt, cùng với sự phát triển của các thiết bị quay chụp hiện đại như máy bay không ngườilái hay vệ tinh, việc thu thập, phân tích và ứng dụng ảnh chụp từ trên cao mang đếnnhiều lợi thế cho phân đoạn ngữ nghĩa ảnh nông nghiệp Trong dé tài này, nhóm chúngtôi sẽ tập trung nghiên cứu ứng dụng của phân đoạn ngữ nghĩa đối với ảnh nông nghiệp

trong phạm vi cụ thể là ảnh nông nghiệp được chụp từ trên cao.

Qua quá trình khảo sát các nghiên cứu liên quan, chúng tôi nhận thấy việc áp dụng

các mô hình học sâu cho bài toán phân đoạn ngữ nghĩa ảnh nông nghiệp chụp từ trên cao

đã đạt được một số hiệu quả nhất định Song hầu hết các mô hình trên ban đầu được xây

dựng cho lĩnh vực khác như xe tự hành hay y tế Việc áp dụng trực tiếp các mô hình màkhông xem xét các đặc điểm đặc trưng của bài toán nông nghiệp dẫn đến hiệu quả chưa

được như mong đợi Ba khó khăn chính của bài toán này là: (1) thông tin nông nghiệp

không chỉ giới hạn trong phổ RGB như các lĩnh vực khác; (2) góc chụp từ trên cao xuốnglàm ảnh bị thiếu khả năng tham chiếu không gian so với ảnh thông thường; (3) việc mắt

cân bằng lớp nghiêm trọng do sự phân bồ các thực thể trong ảnh sẽ có kích thước rất khácnhau Chúng tôi đã nghiên cứu và tìm ra ra một giải pháp kết hợp sau: (1) Thực hiện huấn

luyện kết hợp cả ảnh phổ RGB và ảnh phổ NIR; (2) Sử dụng kỹ thuật chọn mẫu Adaptive

Sampling để giải quyết vấn dé mat cân bằng lớp nghiêm trọng ; (3) Sử dụng kỹ thuậtAugmentation Invariance để giải quyết vấn dé thiếu tham chiếu do góc chụp Chúng tôi

đã tiến hành thực nghiệm trên các mô hình có kiến trúc khác nhau nhằm mục đích sosánh với mô hình được dé xuất Ngoài ra chúng tôi cũng thực hiện một số cải tiến so với

hướng tiếp cận ban đầu để đưa ra đánh giá và nâng cao hiệu suất.Chúng tôi thực hiện

Trang 16

cao và các thách thức mà bài toán đang gặp phải Chúng tôi cũng đưa ra mục tiêu muốn

đạt được trong khóa luận Câu trúc của Khóa luận tốt nghiệp cũng sẽ được đề cập trong

chương này.

11 Tính ứng dụng

Nông trại thông minh đang là mô hình xu hướng được sử dụng trong nông

nghiệp, không chỉ giúp tăng khả năng tiết kiệm lao động, tự động hóa mà còn nâng cao

hiệu quả của các hoạt động canh tác, từ đó thúc đẩy gia tăng giá trị các hoạt động nôngnghiệp Vì vậy, nông trại thông minh được xem như là tương lai của nền nông nghiệp.Một số nghiên cứu giúp hoàn thiện các mô hình nông trại thông minh có thể kể đến như

tự động hóa máy kéo, máy gặt sử dụng GNSS ;hệ thống tưới nước tự động dựa trêncác thiết bị và cảm biến IơT [17]; giám sát cây trồng, bón phân tự động dựa vào máy baykhông người lai [6]

Mặc dù các công nghệ đã được đưa vào sử dụng trong thực tế và đạt được một số hiệu

quả nhất định, phần lớn các công nghệ được áp dụng trong nông trại thông minh là dựatrên cơ chế lặp đi lặp lại, có quy trình đơn giản, cổ định và phải được lập từ trước Trongbối cảnh đó, người ta đặt ra nhiều mong đợi vào các kĩ thuật Học máy, đặc biệt là Học sâu

có thể thay đổi và mang đến nhiều đóng góp lớn cho các mô hình nông trại thông minh

Trang 17

Self-driving Tractor Watering Syster Agricultural APP.

HINH 1.1: Minh họa cho một số nghiên cứu trong một mô hình nông trại

thông minh

Các ứng dụng thực tiễn sử dụng Học sâu đã và đang phát triển nhanh chóng, mang

lại hiệu quả tích cực trong các lĩnh vực liên quan đến xe tự hành [20], sinh trac hoc

hay y té (3) Những năm gan đây, việc áp dung Học sâu trong các lĩnh vực liên quan đến

nông nghiệp nhận được nhiều sự quan tâm và bước đầu đạt được nhiều hiệu

quả trong đa dạng các tác vụ Bài viết này đặc biệt nghiên cứu về các ứng dụng của phânđoạn ngữ nghĩa đối với ảnh nông nghiệp, phạm vi cụ thể là ảnh nông nghiệp được chụp

từ trên cao.

HÌNH 1.2: Minh họa cho các ứng dụng của phân đoạn ngữ nghĩa trong các

lĩnh vực (a) Trong lĩnh vực xe tự hành (b) Trong lĩnh vực y tế (c) Trong lĩnh

vực sinh trắc học.

Nguồn: (a) Y Naresh, S Little, N O’Connor, "A Residual Encoder-Decoder

Network for Semantic Segmentation in Autonomous Driving Scenarios ",

2018 (b) Asadi, Maryam and Azad, Reza and Fathy, Mahmood and Escalera,

Sergio, "Multi-level Context Gating of Embedded Collective Knowledge for

Medical Image Segmentation", 2020 (c) Peter Rot, Z Emeršiš, "Deep

Multi-class Eye Segmentation for Ocular Biometrics", 2018.

Trang 18

Chương 1 TONG QUAN 3

Phan đoạn ngữ nghĩa cho anh nông nghiệp là một trong những nhiệm vụ chính của

ứng dụng học sâu lên nền nông nghiệp, thu hút rất nhiều quan tâm và nghiên cứu trong

các năm gần đây Năm 2020, Champ và các cộng sự [1] đã đề xuất phương pháp phân

đoạn ảnh nông nghiệp sử dụng R-CNN cho nhiệm vụ phân biệt cây trồng với cỏ dai.Cùng năm, Saba và các cộng sự cũng dé xuất phương pháp phân đoạn ngữ nghĩa

để phát hiện sớm các vùng đất thiếu chất đinh dưỡng Năm 2022, Dmytro Filatov cùng

cộng sự cũng dé xuất sử dụng mô hình Unet cho việc phân biệt rừng va vùng nước,

tự đó có ý nghĩa giám sát môi trường, theo dõi sự biến đổi khí hậu thông qua việc theo

đõi diện tích rừng và nước Có thể thấy, phân đoạn ngữ nghĩa cho ảnh nông nghiệp được

ứng dụng trong rất nhiều các tác vụ nông nghiệp như lập bản đồ nông trại, giám sát câytrồng, tự động hóa việc thu hoạch, bón phân, tưới tiêu,

HINH 1.3: Phát hiện cỏ dai (màu đỏ) xen lẫn trong các hàng cây trồng (màu

xanh) Mặt nạ cây trồng được thể hiện bằng màu xanh lá cây và cỏ dại có màu

đỏ.

Nguồn : M Dian Bah, Adel Hafiane, Raphael Canals, "Deep Learning with

Unsupervised Data Labeling for Weed Detection in Line Crops in UAV

Im-ages", 2018.

Đặc biệt, trong đồ án này, nhóm chúng tôi tập trung vào phan đoạn ảnh nông nghiệp

với góc nhìn được chụp từ trên cao, thông qua sự giúp đỡ của các máy bay không người

lái hay vệ tỉnh.

Trang 19

Chương 1 TONG QUAN 4

1.2 Giới thiệu bai toán

Phân đoạn ngữ nghĩa ảnh nông nghiệp chụp từ trên cao là bài toán cụ thể của bài toán

phân đoạn ngữ nghĩa hình ảnh với đối tượng chính là ảnh nông nghiệp được chụp

từ trên cao Nhiệm vụ chính của bài toán phân đoạn ngữ nghĩa hình ảnh là dựa trên dữ

liệu ảnh đầu vào để thực hiện phân loại cho từng điểm ảnh trong ảnh thành một phạmtrù ngữ nghĩa nhất định, tức là không chỉ tìm ra phân loại của đối tượng mà còn chỉ rõ

vị trí cụ thể của đối tượng có trong ảnh Với đối tượng cụ thể là ảnh nông nghiệp từ trên

cao, mục tiêu của bài toán là ảnh phân đoạn của các loại đối tượng nông nghiệp có trongảnh Tùy thuộc vào bộ dữ liệu huấn luyện, các lớp đối tượng nông nghiệp có thể được

định nghĩa khác nhau.

Đầu vào và đầu ra của bài toán có thể định nghĩa như sau:

* Đầu vào: Ảnh nông nghiệp được chụp từ trên cao Trong khóa luận này, ảnh đầu

vào là ảnh có bốn kênh R, G, B và NIR Ảnh này thường được kết hợp từ một ảnh

phổ RGB và một ảnh phổ NIR có chứa cùng thông tin hình ảnh nông nghiệp được

chụp từ trên cao.

¢ Đầu ra: Ảnh đã được phân đoạn ngữ nghĩa cho các lớp đối tượng nông nghiệp của

ảnh đầu vào Các nhãn gán phụ thuộc vào cách định nghĩa lớp nông nghiệp của

từng bộ dữ liệu Ở minh họa bên dưới, bộ dữ liệu Agriculture - Vision chia dữ

liệu thành 9 lớp.

Trang 20

Chương 1 TONG QUAN 5

Dau vao Dau ra

được chụp từ trên cao nghĩa cho ảnh đầu vùo

is hà Ö®©®@©@&@®®®®

Ảnh gồm 4 channels R, G, B, NIR

( q ) back double dry endrow nutrient planter woter water weed

-ground =plant) -down -deficiency -skip -way -cluster

HÌNH 1.4: Ví du cho đầu vào va đầu ra của bài toán

1.3 Những thách thức

Ung dụng phân đoạn ngữ nghĩa trong công tác giám sát môi trường từ ảnh chụp từ

trên cao phát triển đáng kể trong những năm gần đây, với các ví dụ như phân loại độ che

phủ [31||16], khoanh vùng cháy rừng [4], xác định vùng rừng bị chặt phá[27], Trong các

ứng dụng kể đến trên, kỹ thuật học sâu đã mang đến những kết quả đáng hứa hẹn, nhờ

vào khối lượng đữ liệu ngày một lớn và da dạng Song, ta thay phần lớn các mô hình giải

quyết các ứng dụng trên ban đầu được thiết kế cho các trường hợp khác như xe tự hành

hay y tế - những lĩnh vực có miễn dữ liệu khác biệt rất lớn so với ảnh nông nghiệp chụp

từ trên không Sau đó các mô hình này được chuyển qua sử dụng cho ảnh nông nghiệp

chụp từ trên không mà không xem xét các đặc điểm đặc trưng của bài toán, từ đó dẫn đến

việc không khai thác hiệu quả dữ liệu và đem lại hiệu quả không cao Đặc biệt, ba đặc

trưng nổi bật của ảnh nông nghiệp chụp từ trên không dưới đây cũng là ba thách thức

chúng tôi sẽ giải quyết trong khóa luận này

Trang 21

Chương 1 TONG QUAN 6

1.3.1 Thông tin không chỉ giới han trong phổ RGB

Không giống như các lĩnh vực khác thường chỉ sử dụng phổ ảnh RGB để phân tích

và trích xuất thông tin, đối với ảnh nông nghiệp, chỉ ảnh phổ RGB là chưa đủ Khi phantích hình ảnh nông nghiệp, người ta thường chú trọng đến hàm lượng nước, hàm lượngđường cũng như các thông số khác để xác định các thông tin nông nghiệp Những chi

tiết này không thể phản ánh đủ chỉ trong ảnh phổ RGB Như vậy, thông thường để có thể

khai thác tốt hơn các thông tin nông nghiệp, người ta thường quan tâm đến một quang

phổ khác là NIR[2].

RGB NIR

HÌNH 1.5: Minh họa thông tin hình ảnh giữa hai phổ ảnh RGB và NIR

1.3.2 Góc nhìn từ trên xuống làm ảnh bị thiếu khả năng tham chiếu

không gian

Với một bức ảnh được chụp từ trên cao, phối cảnh của ảnh sẽ có góc nhìn từ trên cao

nhìn xuống Tức là thông thường, ảnh sẽ được chụp bởi một máy bay có gắn camera, ảnh

vệ tinh hay mới hơn là các hệ thống máy bay không người lái Với ảnh có góc nhìn từ trên

xuống, bức ảnh sẽ bị thiếu khả năng tham chiếu không gian so với ảnh thông thường

Điều này có nghĩa ảnh chụp từ trên cao thường bị thiếu chiều sâu, thiếu điểm tham chiếu

và đặc biệt, nó còn cho phép chụp một cảnh với đa dạng các góc quay xung quanh trục

tung (xem hình 1.2) Đối với các dữ liệu ảnh khác, ví dụ ảnh được dùng cho bài toán xe

tự hành, mô hình sẽ được học từ các ảnh có cau trúc ngữ nghĩa của các đối tượng trongcảnh nhất quán hơn, ví dụ một bức ảnh chụp con đường sẽ là con đường ở dưới còn bầu

Trang 22

Chương 1 TỔNG QUAN 7

trời ở phía trên Thì đối với đữ liệu ảnh được chụp từ trên cao, điều này sẽ không đúng

Từ đó ta thấy nếu áp dụng các mô hình ban đầu cho dạng dữ liệu này, mô hình sẽ không

đạt được hiệu quả như kỳ vọng Từ đây chúng tôi đặt ra kỳ vọng xây dựng một mô hình

có tính bắt biến đối với những ảnh có cùng thông tin nhưng khác biệt về góc chụp

HÌNH 1.6: Anh được chụp từ trên cao có thể có nhiều góc nhìn khác nhau

nhưng vẫn đều là một khung cảnh Tuy vậy, các mô hình thông thường không

được thiết kế với mong muốn có thể dịch chuyển các điểm trong ảnh sẽ cho

ra kết quả đầu ra khác biệt nhau Mô hình chúng tôi thiết kế với kỳ vọng học các cách biểu diễn ảnh linh hoạt và mạnh mẽ hơn, từ đó cho ra kết quả đầu

ra bat biến với các trường hợp như vậy.

Nguồn : Antonio Tavera, Edoardo Arnaudo, Carlo Masone, Barbara Caputo,

"Augmentation Invariance and Adaptive Sampling in Semantic Segmentation

of Agricultural Aerial Images", 2022

1.3.3 Mat cân bằng lớp nghiêm trong

Mặc dù vấn dé về mat cân bằng lớp là khó khăn điển hình của bài toán phân đoạnngữ nghĩa [18]; đối với ảnh được chụp từ trên cao, sự mat cân bằng lớp diễn ra đặc biệt

nghiêm trọng Lý do bởi vì với ảnh chụp từ trên cao, sự phân bồ các thực thể trong ảnh

sẽ nằm trong phạm vi từ rất nhỏ đến rất lớn, ví dụ một cánh đồng lớn với một chiếc xetải nhỏ Khi sự mắt cân bằng lớp diễn ra nghiêm trọng như vậy, các mô hình đòi hỏi phảiđược thiết kế phức tạp hơn Đây là điều các mô hình truyền thống trước đây chưa đáp

ứng được.

Trang 23

Chương 1 TONG QUAN 8

HÌNH 1.7: Ví dụ về su mat cân bằng lớp nghiêm trọng trong ảnh được chụp

từ trên cao

Ảnh chụp từ trên cao bởi các thiết bị vệ tỉnh hay máy bay tự lái ngày càng trở nên phổ

biến và đóng vai trò quan trọng trong phân đoạn ngữ nghĩa ảnh nông nghiệp Song các

van dé trên lai rat ít được xem xét và nhắc đến Điều này khiến các mô hình được thiết

kế không tận dụng được toàn bộ dữ liệu và đem lại kết quả không hiệu quả Từ đó động

lực về một mô hình có thể xử lý tốt dang dữ liệu ảnh chụp từ trên cao là hoàn toàn cầnthiết Đó cũng là lý do nhóm chúng tôi thực hiện khóa luận này với mục đích xây dựng

mô hình hiệu quả hơn cho phân đoạn ngữ nghĩa ảnh nông nghiệp được chụp từ trên cao.

1.4 Mục tiêu khóa luận

Thông qua khóa luận này, nhóm chúng tôi mong muốn đạt được những mục tiêu sau:

¢ Khảo sát và đánh giá được các nghiên cứu liên quan đến việc sử dụng phân đoạn

ngữ nghĩa cho ảnh nông nghiệp được chụp từ trên cao.

e Thực hiện mô hình đề xuất cho bài toán

© Thực hiện cải tiến giúp tăng hiệu quả so với phương pháp đề xuất

Trang 24

Chương 1 TONG QUAN 9

1.5 Dong gop trong khoa luan

¢ Tim hiểu kỹ thuật Adaptive Sampling (AS) va Augmentation Invariance(A]) giúp

tăng hiệu suất

e Đề xuất một số cải tiến cải thiện hiệu suất:

— Cải tiến về tăng cường dữ liệu

— Cải tiến về thay đổi hàm mắt mát

1.6 Cấu trúc Khóa luận tốt nghiệp

Nội dung Khóa luận tốt nghiệp được tổ chức như sau:

° Chương||giới thiệu tổng quan về khóa luận.

° Chương|2|chúng tôi trình bày các nghiên cứu liên quan đến bài toán này.

° ChươngJ|trình bày chỉ tiết các hướng tiếp cận của khóa luận.

¢ Chuong/4| chung tôi trình bày môi trường thực nghiệm, bộ dữ liệu, phương pháp

đánh giá và kết quả thực nghiệm

e Chương B|là phần kết luận và hướng phát triển của khóa luận.

Trang 25

Chương 2

NGHIÊN CỨU LIÊN QUAN

Tóm tắt

Ở chương này chúng tôi trình bày tổng quan về các hướng giải quyết bài toán phân

đoạn ngữ nghĩa cho ảnh nông nghiệp chụp từ trên cao Trước tiên, chúng tôi sẽ giới thiệu

về hướng tiếp cận để giải quyết bài toán phân đoạn ngữ nghĩa Sau đó chúng tôi sẽ giớithiệu một hướng tiếp cận cải tiến của nó giải quyết bài toán đối với các hình ảnh đượcchụp từ trên cao Với mỗi hướng tiếp cận, chúng tôi giới thiệu về các mô hình và phươngpháp nổi trội được sử dụng để giải quyết những van dé cốt lõi của hướng tiếp cận đó

2.1 Phân đoạn ngữ nghĩa

Hướng tiếp cận này bao gồm những phương pháp được sử dụng để giải quyết cácbài toán phân đoạn ngữ nghĩa đang phổ biến trong lĩnh vực thị giác máy tính, bắt đầu từ

phương pháp cơ bản nhất là Fully Convolutional Network (FCN) [24] Sau đó chung tôi sé

giới thiệu về một trong số những mô hình phổ biến là High Resolution Network (HRNet)

[28] Và cuối cùng, chúng tôi sẽ nói về một mô hình mới mẻ được giới thiệu trong thời

gian gần đây là SegFormer [35].

2.1.1 Fully Convoluntional Network

Mục tiêu cơ bản của tác vụ phân đoạn ngữ nghĩa là gán nhãn cho mỗi pixel của bức

ảnh đầu vào với từng lớp cụ thể Tuy nhiên, néu sử dụng mạng CNN và thực hiện bài toánphân loại bình thường thì sẽ cần một số lượng lớn các tham số khiến cho việc tính toán trởnên phức tạp và tiêu tốn tài nguyên Vì thế, mô hình Fully Convolutional Network được

Trang 26

Chương 2 NGHIÊN CUU LIÊN QUAN 11

giới thiệu Mô hình sẽ học cách ánh xa từ hình anh đầu vào sang ban dé phân đoạn tương

ứng của nó thông qua quá trình chuyển đổi liên tiếp các ánh xạ đặc trưng bằng phép tíchchập.

Trong quá trình huấn luyện, để có thể chat lọc được những thông tin có giá trị caonhằm thu được một Feature Map mang giá trị thông tin về vị trí và cường độ của các pix-

els, mô hình FCN được áp dụng phương pháp Downsampling (ví dụ bằng việc sử dụng

Pooling) Feature Map này sau đó được áp dụng Upsampling bằng cách sử dụng các lớp

transposed convolution để giải nén và kết quả cuối cùng thu được là một segmentation

map có độ phân giải cao của bức ảnh đầu vào, với mỗi pixel đã được gắn nhãn vào lớp có

tỉ lệ cao nhất

htc (FI)

HINH 2.1: M6 hinh FCN[24] với Downsampling và Upsampling

Phương pháp Downsampling Upsampling có nhược điểm là nó sẽ làm giảm nghiêmtrong độ phân giải của ảnh đầu vào khiến cho thông tin bị mat mát, khiến cho quá trìnhtái tạo lại những chỉ tiết trong bức ảnh là rất khó khăn, và kết quả sẽ không có độ chính

xác cao Để giải quyết van dé này, người ta đã áp dụng phương pháp Skip Connection Y

tưởng chính là chúng ta thực hiện predict output tại một lớp trong giai đoạn

Downsam-pling để kết hợp với output Kết quả đó sẽ được kết hợp cùng với output thô có được khi

đi qua hết mô hình Kết quả cuối cùng thu được là ranh giới phân đoạn của các lớp sẽ trở

nên chính xác hơn.

2.1.2 UNet

Kiến trúc mang UNet [23], lần đầu tiên được áp dụng cho phân đoạn ảnh y tế, có

cốt lõi là kĩ thuật Fully Convoluntional Network Đúng như tên gọi, kiến trúc tổng quát

Trang 27

Chương 2 NGHIÊN CUU LIÊN QUAN 12

32x upsampled 2x upsampled 16x upsampled 2x upsampled 8x upsampled prediction (FCN-32s) prediction _ prediction (FCN-16s) _ prediction prediction (FCN-8s)

HINH 2.2: Minh họa cach hoạt động của Skip Connection[24] FCN-32s không

thực hiện Skip Connection và Upsample ở stride 32; FCN-16s thực hiện Skip

Connectionn ở lớp pool4, stride 16; FCN-8s thực hiện Skip Connectionn ở lớp

pool3, stride 8; kết quả là mức độ chỉ tiết được tăng lên và ranh giới được xác

của mô hình này giống như chữ "U" để có thể vừa thực hiện cùng lúc 2 chức năng:

Downsampling-Upsampling và Skip Connection.

Mang Unet bao gồm một nửa phía bên trái và một nửa phía bên phải Nửa bên trái

là một kiến trúc mạng tích chập thực hiện quá trình Downsampling Nó bao gồm 2 lớp

tích chập 3x3 cùng với hàm kích hoạt ReLU và một toán tử max pooling kích thước 2x2

cho mỗi tầng để giảm chiều của ảnh đầu vào Với mỗi bước Downsampling như vậy, số

kênh đặc trưng được nhân đôi Nửa bên phải của Unet thực hiện quá trình Upsampling

bằng cách đảo ngược trình tự so với nửa bên trái Mỗi bước sẽ bao gồm một lớp tích chập

2x2 để tăng chiều và chia đôi số lượng kênh đặc trưng Ban dé đặc trưng đó sẽ được kết

hợp cùng với feature map tương ứng của nua bên trái và 2 lớp tích chập 3x3 cùng với

hàm kích hoạt ReLU Việc kết hợp này là cần thiết vì trong quá trình xử lý, các pixel biênthường biến mat Lớp cuối cùng là một lớp tích chập 1x1 để ánh xạ các vector đặc trưngtới số lượng lớp mong muốn

So với những mô hình thị giác máy tính tiền nhiệm như Mask RCNN, Unet có nhữngđặc điểm nổi bật như:

® toàn bộ kiến trúc không hề sử dụng một lớp fully connected nào Đối với các mô

hình end-to-end thông thường, lớp kế cuối của mạng sẽ là các lớp fully connected

để kết nồi các đặc trưng đã phân tích được nhằm đưa ra kết quả dự đoán Tuy nhiên,

ở kiến trúc U-net, việc kết nối các đặc trưng sẽ do nửa sau của mạng đóng vai trò là

decoder đảm nhận, điều này giúp mạng không cần mạng fully connected, do đó cóthể chấp nhận input với kích thước bắt kì

Trang 28

Chương 2 NGHIÊN CUU LIÊN QUAN 13

Jefe! | [+ + => conv 3x3, ReLU

oo "sân h copy and cro Ÿ se 512 1024 512 t py p

© SÁT 45 5 4 up-conv 2x2

(> 5 =

Đó ca s => conv 1x1

mo N

HINH 2.3: Minh họa mô hình của Unet{23] Unet có hình chữ U với 2 nửa Nửa

bên trái đảm nhận nhiệm vụ encoder với các phép nhân tích chập và padding

để cô đặc đặc điểm của hình ảnh Nửa bên phải đảm nhận nhiệm vụ decoder nhằm tái tạo lại ảnh phân đoạn, được kết hợp với các feature map ở encoder

nhằm nâng cao hiệu suất của mô hình.

* U-net sử dụng Phương pháp đệm (Padding method), điều này giúp kiến trúc có

thể phân đoạn hình ảnh được hoàn toàn Phương pháp này đặc biệt quan trọng khi

phân đoạn cho các hình ảnh, nếu không, độ phân giải có thể bị hạn chế bởi dung

lượng của bộ nhớ GPU.

Là một mô hình cơ bản để giải quyết bài toán phân đoạn ngữ nghĩa ảnh, Unet cũng

có những mặt hạn chế nhất định Mô hình Unet không phù hợp để xử lý những hình ảnh

có độ phân giải cao và kích thước lớn khiến nó có thể gặp vấn đề về tính toán và bộ nhớ

Thêm vào đó, việc có một cấu trúc phức tạp với nhiều lớp tích chập khiến cho việc tính

toán càng mắt thời gian hơn và việc huấn luyện có thể bị chậm lại khi tiến đến những lớp

ở giữa.

Trang 29

Chương 2 NGHIÊN CUU LIÊN QUAN 14

2.1.3 High-Resolution Network

Mô hình Unet là một mô hình co ban để thực hiện Semantic Segmentation nên nó cómột số nhược điểm nhất định Một trong số đó là độ phân giải của bức ảnh đầu vào sẽgiảm xuống rõ rệt, khiến cho chất lượng, độ chính xác và cả vị trí đối tượng của Segmen-

tation Map được dự đoán là không được cao cho dù đã áp dụng Upsampling va Skip

Connection Trong khi đó, phân đoạn ngữ nghĩa hình ảnh là một tác vụ rất nhạy cảm với

vị trí của vật thể và trong suốt quá trình học, cả độ phân giải cao lẫn chiều sâu cần phảiđược duy trì Để giải quyết van dé nay, High-Resolution Network (HRNet) đã được giới

thiéu [28] So với Unet, thiết kế của HRNet mang lại hiệu quả tính toán, đặc biệt là với

các ảnh có độ phân giải cao Ngoài ra, mạng cũng hiệu quả đối với các đối tượng có kích

thước nhỏ.

Ý tưởng chính của HRNet đó chính là mô hình sẽ chia thành kiến trúc nhiều tầng với

tầng phía sau sẽ vừa giữ lại lớp đặc trưng có độ phân giải cao ở tầng phía trước, vừa tạothêm lớp đặc trưng mới có độ phân giải thấp nhưng sâu hơn và có đặc trưng rõ ràng hơn.Các lớp song song này sẽ bổ nghĩa cho nhau, và cuối cùng chúng ta sẽ thu được đặc trưng

có độ phân giải cao đồng thời vừa có chiều sâu

Mẫu chốt của mô hình này là sự kết hợp giữa các lớp đặc trưng với nhau được lặp đilặp lại tại cuối mỗi block Mục đích là để trao đổi các thông tin ngữ nghĩa, nhờ đó mà khảnăng học của mô hình được tăng cường và đảm bảo rằng mô hình có thể học được các

đặc trưng ở các độ phân giải khác nhau Nhờ đó mà độ chính xác của mô hình trong việc

phân đoạn ảnh được cải thiện hơn nhiều Xem hình minh họa 2.4 để hiểu cách kết hợp

đặc trưng của HRNet.

HRNet vẫn có trong mình những nhược điểm khá rõ ràng Một trong số đó là do cóquá nhiều tham số và có kiến trúc phức tạp khiến khả năng học của mô hình quá mạnh

nên dé xảy ra van dé overfit khi thực hiện huấn luyện cho mô hình Ngoài ra việc phải

duy trì liên tục các layer với nhiều mức độ phân giải khác nhau khiến cho mô hình trởnên phức tạp và việc tính toán và lưu trữ cũng trở nên khó khăn hơn rất nhiều vì có rất

nhiều tham số cần được học Mô hình SegFormer có thể giải quyết được van dé này

2.1.4 SegFormer

Một phương thức tiếp cận khác đang nổi lên những năm gan day cho tác vu phân

đoạn ngữ nghĩa hình ảnh là sử dụng kiến trúc Transformer Kết hợp với việc sử dụng một

Trang 30

Chương 2 NGHIÊN CUU LIÊN QUAN 15

HINH 2.4: Minh hoa mô hình của HRNet(28] Qua nhiều block, luồng thứ 1

màu vàng vẫn luôn được duy trì từ đầu cho đến cuối Từ cuối block 1, đặc trưng có độ phân giải thấp nhưng có chiều sâu cao hơn (màu cam) bắt đầu

xuất hiện và tiếp tục duy trì cho đến cuối Tương tự với block 2, 3 và 4

backbone mạnh làm encoder, việc chia input thành các patch và phần decoder có nhiệm

vụ kết hợp các feature map ở các mức độ khác nhau nhằm tổng hợp được nhiều loại đặctrưng cục bộ và toàn cục khác nhau, từ đó nâng cao hiệu suất của mô hình Sự thành công

của SegFormer đã được chứng minh thực nghiệm khi so sánh cùng với những mô hình

khác như FCN-r50, HRNet, DeepLab

SegFormer có 2 điểm đáng chú ý:

s® Sử dụng MixTransformer cho Backbone nhằm tạo ra các feature map ở mức độ khác

nhau, là một điều cần thiết để nâng cao hiệu suất của bài toán semantic

segmenta-tion.

* Một lightweight All-MLP decoder có hiệu suất cao nhưng không phức tạp hay đòi

hỏi tính toán phức tạp.

Trang 31

Chương 2 NGHIÊN CUU LIÊN QUAN 16

HINH 2.5: Minh hoa HRNetFusion[28| Minh họa cách kết hợp thông tin ngữ

nghĩa giữa các đặc trưng độ phân giải cao, trung bình và thấp của HRNet.

Kiến trúc của SegFormer bao gồm 2 thành phần chính: (1) là encoder với kiến trúc

Trans-formation phân tang để chon lọc các đặc trưng ở các mức độ khác nhau, (2) là decoder vớicốt lõi là lightweight All-MLP decoder có nhiệm vụ tổng hợp các đặc trưng từ encoder dé

đưa ra segmentation map.

Ảnh đầu vào có kích thước HxWx3 được chia thành các patch có kích thước 4x4 Các

patch này sẽ được sử dụng làm input để đưa vào encoder với 4 block Transformation, mỗi

block sẽ cho ra một feature map có kích thước bằng 1/4; 1/8; 1/16; 1/32 so với mức phan

giải của bức ảnh đầu vào Tất cả các feature map sau đó sẽ được đưa vào một layer MLPvới nhiệm vụ kết hợp tat cả lại để đưa ra một segmentation map có độ phân giải là

với Ng, là số class

Kiến trúc Transformer được sử dụng trong SegFormer được gọi là Mix Transformer

(MiT) gồm các phiên ban tử MiT BO đến MiT B5 Càng về sau các phiên bản sẽ có tốc độchạy chậm hơn nhưng cho hiệu năng tốt hơn Mỗi block MiT sẽ có:

e Efficient Self-Attention: Attention là một phan quan trọng trong mô hình

Trans-former trong việc học cách lấy thông tin quan trọng từ các vị trí khác nhau của

input bằng cách tính toán các trọng số Trong self-attention, input sẽ được sử dụng

để tính toán một trọng số cho mỗi phần tử trong đó, dựa trên sự tương đồng của

phần tử đó với các phần tử khác trong input Trong các mô hình Transformer sửdụng cho thị giác máy tính, việc tính toán self-attention ban đầu như đã biết sẽ có

Trang 32

Chương 2 NGHIÊN CUU LIÊN QUAN 17

i

deli2AO

Figure 2: The proposed SegFormer framework consists of two main modules: A hierarchical Transformer

encoder to extract coarse and fine features; and a lightweight All-MLP decoder to directly fuse these multi-level

features and predict the semantic segmentation mask “FFN” indicates feed-forward network.

HINH 2.6: Minh họa cấu trúc va flow của mô hình SegFormer[35].

nhiều head, mỗi head có 3 ma trận Q (Query), K (Key), V (Value) cùng kích thước

NxC, với N = WxH là độ dài của sequence khi đưa vào Transformer, công thức tinh

attention như sau:

VDhenad

Cơ chế này rất tiêu tốn tài nguyên tính toán và lưu trữ vì nó cần phải tính toán độ

Attension(Q,K,v) = Softmax( )V

tương đồng của các cặp vị trí khác nhau Độ phức tạp của thuật toán là O(NxN) là

hoàn toàn không phù hợp với những ảnh có độ phân giải cao Do đó ta thực hiện

quá trình giảm chiều dài sequence, nhằm tạo ra Efficient Self-Attention[35] có độ

phức tạp thuật toán và độ phức tạp lưu trữ thấp hơn:

N

K= Reshape(5,C -R,K)

K = Linear(C - R,C)(R)

Trang 33

Chương 2 NGHIÊN CUU LIÊN QUAN 18

Efficient Self-Attention được sử dụng vì có độ phức tạp lưu trữ và độ phức tạp thuậttoán là tuyến tính Nhờ đó mà độ phức tạp của thuật toán giảm xuống còn O(N?/R)với hệ số R có thể được cài đặt là 64, 16, 4, 1

® Mix-FNN: Mô hình Vision Transformer sử dung positional encoding để lưu lại vị

trí của từng pixel trong ảnh Tuy nhiên độ phân giải của nó là cố định Vì vậy khi độ

phân giải của dữ liệu trong tập test khác với dữ liệu trong tập train có sự khác biệt

thì cần phải tính toán nội suy Việc này có nhiều bất cập khiến cho ảnh đầu vào bịnhiễu và từ đó hiệu suất bị giảm đi Để thay thế, SegFormer đã sử dụng Mix-FNN

Ưu điểm của nó là có khả năng cảm biến không gian phức tạp, có hiệu suất cao

nhưng kết câu đơn giản, dé dàng triển khai và tính toán nhanh Ngoài ra nó có khảnăng sử liệu các dạng ảnh lớn hơn so với positional encoder Công thức:

Xout = MLP(GELU(Conv3x3MLP(xin))) + Xin

Với Xin là đầu ra của layer Efficient Self Attention, va GELU là một phiên bản chạy

mượt hơn so với ReLU

* Overlap Patch Merging: trong kiến trúc Mix Transformer encoder, ảnh được chia

thành các patch có kích thước 4x4 chồng lan lên nhau nhằm đảm bảo thông tin vị tri

cục bộ và thêm thông tin vị trí giữa các patch Đó là vì mô hình SegFormer không

sử dụng positional encoder như các mô hình Transformer thông thường khác.

Lightweight All-MLP decoder chỉ cần mang MLP (là một layer Convolution với kernel

size = 1) ma không cần sử dụng các module phức tap dé tổng hợp các feature vì ban than

encoder của SegFormer đã có hiệu suất cao hon nhiều so với các encoder truyền thốngkhác Decoder này bao gồm 4 bước: Đầu tiên, 4 feature map F; từ 4 block MiT sẽ được đưa

qua mạng MLP để có đồng bộ hóa chiều của channel Sau đó, chúng sẽ được upsampling

về kích thước (H/4, W/4) và được concatenate lại với nhau Kế đến là một mạng MLPđược tạo ra để có thé tổng hợp các đặc trưng này Cuối cùng là một mạng MLP khác được

sử dụng nhằm tạo ra một segmentation mask từ những đặc trưng đã được tổng hợp Độ

phân giải của mask là H/4 x W/4 x Nas Mask sẽ được upsampling 4 lần để có được kíchthước của ảnh gốc

SegFormer nhiều ưu điểm cho phép nó có thể xử lý những ảnh đầu vào có độ phân

giải cao dé dàng như khả năng tính toán hiệu quả do mô hình chia ảnh ra thành các gói

Trang 34

Chương 2 NGHIÊN CUU LIÊN QUAN 19

giúp giảm lượng tính toán nhưng vẫn đảm bảo về hiệu năng và thời gian huấn luyện.Ngoài ra, nhờ cơ chế Efficient Self-Attention, SegFormer có khả năng tổng hợp thông tin

cục bộ và toàn cục, nhằm phân đoạn ảnh chính xác hơn và chất lượng ảnh đầu ra cũngcao hơn Thực tế cho thấy SegFormer có hiệu suất tốt hơn trên nhiều bài toán và nhiều bộ

đữ liệu khác nhau.

2.2 Phân đoạn ngư nghĩa cho ảnh chụp từ trên không

Trong lĩnh vực quan sát trên không, môi trường mục tiêu của bài toán phân đoạn ngữnghĩa có sự đa dạng rất đáng kể Mỗi môi trường như vậy sẽ gắn với những ứng dụngkhác nhau trong thực tế, cũng như là những yêu cầu và thách thức khác nhau Đối với

tác vụ land cover, thách thức chính là sự khác biệt lớn về mặt kích thước của mỗi lớp ngữnghĩa (ví dụ một cái hồ nước có thể rất lớn nhưng một con kênh sẽ có điện tích nhỏ hơnrất nhiều) và sự khác biệt rõ ràng về mặt hình ảnh giữa các miền khác nhau Vấn dé đầu

tiên có thể được giải quyết bằng việc áp dụng các mô hình khai thác nhiều mức đặc trưng

khác nhau như HRNet hay SegFormer, và van đề thứ 2 có thể được giải quyết với DomainAdaptation Đối với lĩnh vực nông nghiệp, một vài phương pháp có thể kể đến như Auto-

mated Fusion of Multi-spectral Data được áp dụng trong bài toán "Tổng hợp dữ liệu hiệu

quả với chỉ số thực vật tổng quát: kiểm nghiệm từ bài toán phân đoạn đất che phủ trong

nông nghiệp" (Effective Data Fusion with Generalized Vegetation Index: Evidence from

Land Cover Segmentation in Agriculture) [25] hay phuong phap Precise Crop

Segmenta-tion thực hiện trong bài toán "Phân loại cây trồng và cỏ dai cho nông nghiệp chính xác

bằng cách sử dụng phân đoạn Pixel-Wise độc lập về ngữ cảnh" (Crop and Weeds

Clas-sification for Precision Agriculture using Context-Independent Pixel-Wise Segmentation)

vì các bức ảnh nông nghiệp chụp từ trên cao hiểm khi bị giới han trong phổ khả kiến

và thường bao gồm các phổ khác như cận hồng ngoại (Near-Infrared)

2.2.1 Tổng hợp tự động dữ liệu đa quang phổ [rs14215600](Automated

Fusion of Multi-spectral Data)

Quá trình tu động kết hợp dữ liệu đa phổ là quá trình kết hợp các tam ảnh chụp từ

các bộ cảm biến đa phổ khác nhau nhằm tạo ra một hình ảnh kết hợp có chứa thông tin

từ tat cả các bộ cảm biến Các bộ cảm biến này có thể bao gồm các tia X, ánh sáng hồng

Trang 35

Chương 2 NGHIÊN CUU LIÊN QUAN 20

ngoại, ánh sáng rõ và các bước sóng khác Khi kết hợp các tắm ảnh đa phổ, quá trình tựđộng hóa sẽ giúp tạo ra một hình ảnh cực kỳ chỉ tiết và chính xác, giúp cho việc phân tích

và xử lý dữ liệu trở nên dé dàng và hiệu quả hon.

Đầu vào của quá trình tổng hợp tự động dữ liệu đa phổ là một tập hợp các hình ảnh

đa phổ được chụp bởi các thiết bị viễn thám, thường có các dải phổ khác nhau Đầu ra làmột hình ảnh hợp nhất duy nhất kết hợp thông tin từ tất cả các hình ảnh đầu vào thànhmột biểu diễn duy nhất với các đặc điểm quang phổ và không gian được cải thiện Hìnhảnh hợp nhất này có thể được sử dụng cho các ứng dụng khác nhau như phân loại lớp

phủ đất, phát hiện đối tượng và phát hiện thay đổi

Các bước để tổng hợp ảnh bao gồm:

1. Thu thập dữ liệu đa phổ: Điều này liên quan đến việc thu thập dữ liệu từ nhiều cảm

biến, chang hạn như vệ tinh hoặc cảm biến trên không, thu thập các dải phổ khác

nhau.

Tiên xử lý: Bước này liên quan đến hiệu chỉnh hình hoc và phóng xa của dữ liệu thu

được Hiệu chỉnh bức xạ điều chỉnh độ sáng và độ tương phản của hình ảnh, trongkhi hiệu chỉnh hình học hiệu chỉnh biến dạng do vị trí và hướng của cảm biến gây

ra.

Hiệu chỉnh: Hình ảnh thu được có thể không được căn chỉnh hoàn hảo do sự khác

biệt về vị trí cảm biến, hướng và các yếu tố khác Hiệu chỉnh liên quan đến việc sắpxếp các hình ảnh để chúng có thể được so sánh và kết hợp

Hợp nhất dữ liệu: Được minh họa trong hình 2.7 Bước này liên quan đến việc kếthợp các hình ảnh đã được hiệu chỉnh để tạo một hình ảnh mới kết hợp thông tin

quang phổ từ tất cả các hình ảnh đầu vào Có nhiều phương pháp khác nhau đểhợp nhất dữ liệu, chẳng hạn như hợp nhất dựa trên pixel, dựa trên tính năng và

dựa trên quyết định

Xử lý hậu kỳ: Bước cuối cùng liên quan đến việc nâng cao chất lượng của hình ảnh

hợp nhất bằng cách loại bỏ nhiễu, cải thiện độ phân giải không gian và sửa mọi biến

dạng còn lại.

Ngày đăng: 23/10/2024, 01:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w