Nghiên cứu hệ thống phát hiện, phân loại và định vị đối tượng dựa trên kỹ thuật học sâu ứng dụng trong nông nghiệp chính xác

Kết quả nghiên cứu: - Đã đề xuất một mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại; - Đã xây dựng hệ thống có chức năng phát hiện cây trồng

Trang 1

ĐẠI HỌC ĐÀ NẴNG QUỸ PHÁT TRIỂN KH&CN

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG

NGHIÊN CỨU HỆ THỐNG PHÁT HIỆN, PHÂN LOẠI VÀ ĐỊNH VỊ ĐỐI TƯỢNG DỰA TRÊN KỸ THUẬT HỌC SÂU ỨNG DỤNG TRONG NÔNG

NGHIỆP CHÍNH XÁC

Mã số: B2020-ĐN02-79

Chủ nhiệm đề tài: TS Phan Trần Đăng Khoa

Đà Nẵng, 12/2023

Trang 2

ĐẠI HỌC ĐÀ NẴNG QUỸ PHÁT TRIỂN KH&CN

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG

NGHIÊN CỨU HỆ THỐNG PHÁT HIỆN, PHÂN LOẠI VÀ ĐỊNH VỊ ĐỐI TƯỢNG DỰA TRÊN KỸ THUẬT HỌC SÂU ỨNG DỤNG TRONG NÔNG

Trang 3

3

DANH SÁCH CÁC THÀNH VIÊN THAM GIA NGHIÊN CỨU

VÀ ĐƠN VỊ PHỐI HỢP CHÍNH

1 Danh sách các thành viên tham gia nghiên cứu

nghiên cứu

Họ và tên người đại diện đơn vị

Khoa Điện tử - Viễn thông,

Trường Đại học Bách khoa – Đại

học Đà Nẵng

Phối hợp nghiên cứu

Trang 4

4

MỤC LỤC

MỞ ĐẦU 13

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 18

1.1 Phép tích chập trống 18

1.2 Đặc trưng đa phân giải 19

1.3 Kết nối dày 22

1.4 YOLO 22

1.5 Kết luận chương 23

CHƯƠNG 2 MÔ HÌNH NƠ-RON TÍCH CHẬP ĐA PHÂN GIẢI VỚI KẾT NỐI DÀY CHO PHÂN VÙNG ẢNH CÂY TRỒNG VÀ CỎ DẠI 24

2.1 Cơ sở dữ liệu và tiền xử lý 24

2.2 Mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại 26

2.2.1 Mô hình tổng quan 26

2.2.2 Encoder 27

2.2.3 Decoder 29

2.2.4 Hàm mất mát 29

CHƯƠNG 3 HỆ THỐNG PHÁT HIỆN ĐỐI TƯỢNG ỨNG DỤNG TRONG CHĂM SÓC CÂY TRỒNG VÀ DIỆT CỎ DẠI 32

3.1 Hệ thống đề xuất 32

3.2 Thiết kế phần cứng và phần mềm của hệ thống 33

3.2.1 Khối trạm cảm biến 33

3.2.2 Khối phát hiện cây, cỏ 35

3.2.3 Khối robot canh tác 35

3.2.4 Thiết kế khối giám sát và điều khiển từ xa 37

Trang 5

5

CHƯƠNG 4 KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ 39

4.1 Mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại 39

4.1.1 Chi tiết về thực thi 39

4.1.2 Nghiên cứu cắt bỏ trên mô hình đề xuất 40

4.1.3 Nghiên cứu so sánh 45

4.2 Hệ thống phát hiện đối tượng ứng dụng trong chăm sóc cây trồng và diệt cỏ dại 48

4.2.1 Khối trạm cảm biến 48

4.2.2 Khối robot canh tác 49

4.2.3 Khối phát hiện cây cỏ 50

4.2.4 Khối giám sát và điều khiển từ xa 53

KẾT LUẬN 56

TÀI LIỆU THAM KHẢO 57

PHỤ LỤC 64

Trang 6

6

DANH MỤC BẢNG BIỂU

1 Bảng 2.1 Phân bố của các lớp trong các cơ sở dữ liệu

2 Bảng 4.1 Độ phức tạp, Accuracy và IoU của các mô hình trên tập kiểm tra của

cơ sở dữ liệu Peanut DL-R và DL-X lần lượt ký hiệu cho mô hình DeepLabv3+ sử dụng ResNet-101 và Xception DL-R-D và DL-X-D tương ứng là mô hình DL-R và DL-X với khối ASPP được thay thế bằng khối DMSAP DMSCN-A được dùng để ký hiệu cho mô hình DMSCN với khối DMSAP được thay thế bởi khối ASPP

3 Bảng 4.2 Kết quả mIoU của các mô hình trên các tập kiểm tra của các cơ sở dữ

liệu BoniRob, Rice, và Carrot

4 Bảng 4.3 Kết quả AP đối với tập kiểm tra

Trang 7

7

DANH MỤC TỪ VIẾT TẮT

Pooling

Khối gộp dạng kim tự tháp sử dụng phép tích chập trống

Trang 8

8

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

THÔNG TIN KẾT QUẢ NGHIÊN CỨU

1 Thông tin chung:

- Tên đề tài: NGHIÊN CỨU HỆ THỐNG PHÁT HIỆN, PHÂN LOẠI VÀ

ĐỊNH VỊ ĐỐI TƯỢNG DỰA TRÊN KỸ THUẬT HỌC SÂU ỨNG DỤNG TRONG NÔNG NGHIỆP CHÍNH XÁC

- Mã số: B2020-ĐN02-79

- Chủ nhiệm: TS Phan Trần Đăng Khoa

- Tổ chức chủ trì: Trường Đại học Bách khoa – Đại học Đà Nẵng

- Thời gian thực hiện: 36 tháng (Từ 12/2020 – 11/2023)

2 Mục tiêu:

- Nghiên cứu mô hình mạng học sâu nhằm nâng cao độ chính xác trong phát hiện, phân loại và định vị đối tượng cây trồng;

- Nghiên cứu xây dựng hệ thống bao gồm phần cứng và phần mềm, có khả năng

hoạt động thời gian thực nhằm phát hiện, phân loại và định vị đối tượng cây trồng

Trang 9

9

4 Kết quả nghiên cứu:

- Đã đề xuất một mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại;

- Đã xây dựng hệ thống có chức năng phát hiện cây trồng và cỏ dại để thực hiện các tác vụ tương ứng

5 Tên sản phẩm:

- 01 bài báo SCIE Q1: Tran, Thi Hoang Yen, and Tran Dang Khoa Phan* "Dense

Multi-Scale Convolutional Network for Plant Segmentation." IEEE Access 11 (2023):

- 03 sinh viên tham gia nghiên cứu khoa học về hướng nghiên cứu của đề tài

- 01 thiết bị bao gồm cơ cấu robot chấp hành tích hợp mô-đun thực hiện chức năng phát hiện, phân loại và định vị đối tượng cây trồng

- 01 chương trình máy tính thực thi mô hình phát hiện, phân loại và định vị đối

tượng cây trồng, kèm theo các ứng dụng di động, website giám sát

6 Phương thức chuyển giao, địa chỉ ứng dụng, tác động và lợi ích mang lại của kết quả nghiên cứu:

- Kinh tế - xã hội: Kết quả nghiên cứu góp phần nâng cao hiệu quả canh tác trong lĩnh vực nông nghiệp chính xác

- Hiệu quả khoa học: Kết quả đề tài là nguồn tài liệu tham khảo nghiên cứu và giảng dạy của giảng viên, NCS, học viên cao học và sinh viên ngành Điện tử - Viễn thông

Trang 11

- Coordinator: Phan Tran Dang Khoa, PhD

- Implementing institution: University of Science and Technology – The University

of Danang

- Duration: from 12/2020 to 11/2023

2 Objective(s):

- Propose deep learning model to improve the accuracy in object detection;

- Develop a hardware and software system for object detection, which is capable of real-time operation to detect

3 Creativeness and innovativeness:

- Proposed a Dense Multi-scale Convolutional Network for plant segmentation;

- Proposed harware and software solutions for the crop monitoring and culture system

4 Research results:

- Proposed a Dense Multi-scale Convolutional Network for plant segmentation;

- Proposed harware and software solutions for the crop monitoring and culture system

5 Products:

Trang 12

12

- 01 article published in the SCIE Q1 journal: Tran, Thi Hoang Yen, and Tran Dang

Khoa Phan* "Dense Multi-Scale Convolutional Network for Plant Segmentation." IEEE

- 03 students participated in the student scientific research contest

- 01 robot with the object detection module

- 01 program of object detection and mobile and web applications

6 Effects, transfer alternatives of research results and applicability:

- Socio-economic: The research results improve the farming efficiency for precision argriculture

- Scientific effectiveness: The results of the research are the reference for research and teaching references of lecturers, postgraduate students, graduate students and students of the Electronics and Telecommunication Engineering major

Trang 13

13

MỞ ĐẦU

Cỏ dại chiếm nguồn dinh dưỡng, ánh sáng và độ ẩm của cây trồng, làm giảm năng suất canh tác Hiện nay, nông nghiệp truyền thống sử dụng thuốc diệt cỏ để hạn chế cỏ dại và tăng năng suất cây trồng Tuy nhiên, các hóa chất lại làm ô nhiễm môi trường và

có ảnh hưởng xấu đến sức khỏe của con người Việc diệt cỏ mà không sử dụng hóa chất

lại đòi hỏi sức lao động chân tay lớn Trong nông nghiệp chính xác (precision

argriculture), các hệ thống robot có thể được sử dụng để phun xịt hóa chất có chọn lọc

lên cỏ dại mà không tác động lên cây trồng Những robot này làm giảm lượng thuốc diệt

cỏ, từ đó giảm thiểu nguy cơ gây ô nhiễm môi trường và tăng lợi nhuận Thách thức chính cho các robot canh tác này là việc phát hiện hoặc phân vùng cây trồng và cỏ dại một cách tự động và chính xác [1]

Mục tiêu của vấn đề phát hiện đối tượng (object detection) là định vị và phân loại

cho các đối tượng trong ảnh Đối với các phương pháp phát hiện đối tượng, vị trí của đối

tượng được xác định thông qua hộp giới hạn (bounding box) bao xung quanh đối tượng (Hình 1b) Với mục tiêu tương tự, vấn đề phân vùng ảnh ngữ nghĩa (semantic

segmentation) cho kết quả định vị chi tiết hơn, trong đó phân loại đối lượng được gán cho

từng điểm ảnh (pixel) (Hình 1c) Cả hai vấn đề này đều được nghiên cứu và ứng dụng

rộng rãi trong nông nghiệp chính xác Tùy theo ứng dụng mà một trong hai vấn đề được

ưu tiên nghiên cứu hơn Phân vùng ảnh ngữ nghĩa thường được sử dụng trong các ứng dụng đòi hỏi độ chính xác cao Trong khi đó, phát hiện đối tượng có ưu thế về tốc độ xử

lý và sự đơn giản trong xây dựng cơ sở dữ liệu Để đơn giản, trong các phần còn lại của

báo cáo này, chúng tôi sử dụng thuật ngữ “phân vùng ảnh” để thay thế cho “phân vùng

ảnh ngữ nghĩa”

Trong nghiên cứu này, chúng tôi tập trung vào hai vấn đề là phát triển:

1 Mô hình nơ-ron tích chập cho phân vùng ảnh cây trồng và cỏ dại;

2 Hệ thống phát hiện đối tượng ứng dụng trong chăm sóc cây trồng và diệt cỏ dại

Trang 14

14

Hình 1 (a) Phát hiện đối tượng; và (b) Phân vùng ảnh

Các vấn đề phát hiện và phân vùng ảnh cho cây, cỏ gặp một số thách thức như sau Thứ nhất là, các hướng tiếp cận truyền thống thường không cho kết quả tốt đối với các trường hợp các cây, cỏ chồng lấp lên nhau Đường viền của các cây, cỏ thường không được phân biệt rõ ràng và dễ bị phân loại nhầm Điều này cũng ảnh hưởng đến việc gán

nhãn (data annotation) vốn là một công đoạn quan trọng đối với các phương pháp học máy có giám sát (supervised learning) Thứ hai là, do cây, cỏ xuất hiện trong ảnh ở các

kích thước khác nhau nên phương pháp phân tích đa phân giải là phù hợp cho các vấn đề phát hiện và phân vùng ảnh cho cây, cỏ Tuy nhiên, nhược điểm của hướng tiếp cận này

là độ phức tạp cao do phải xử lý dữ liệu/tín hiệu ở các độ phân giải khác nhau

Trong thời gian gần đây, học sâu thu hút được sự quan tâm nghiên cứu trong các lĩnh vực phát hiện và phân vùng ảnh cho cây, cỏ So với các phương pháp truyền thống

dựa trên học máy (machine learning), học sâu có thể tự động học các đặc trưng bậc cao trong ảnh, tránh được việc trích xuất và chọn lọc đặc trưng thủ công Sa và các cộng sự

[2] đã áp dụng mô hình SegNet [3] để phân vùng cây và cỏ, trong đó dữ liệu đa phổ

(multi-spectral data) được sử dụng để làm đầu vào của mô hình Mạng dựa trên decoder đã được đề xuất bởi Lottes và các cộng sự [4] để đồng thời ước lượng vị trí của gốc cây và vùng bao phủ bởi cây Khan và các cộng sự [5] đã trình bày mạng sử dụng các

encoder-khối encoder-decoder mắc nối tiếp, trong đó nhiều mạng U-Net [6] được khai thác như là mạng con để học các đặc trưng của các lớp một cách riêng lẻ Để trích xuất được thông

tin ngữ cảnh (contextual information), DeepLabv3+ [7] đã sử dụng Atrous Pyramid

Trang 15

15

Pooling (ASPP) để kết nối song song các các lớp tích chập trống (atrous convolution) với các bước nhảy khác nhau Zenkl và các cộng sự [8] đã đề xuất một mô hình dựa trên

DeepLabv3+ để tự động phân vùng lá cây Trong nghiên cứu [9], nhiều biểu diễn đầu vào

và phương pháp cải thiện ảnh (image enhancement) đã được so sánh để tối ưu đầu vào

của mô hình DeepLabv3+

Mặc dù mạng nơ-ron tích chập (convulotional neural network, viết tắt là CNN) đã

thể hiện được hiệu quả trong các vấn đề phát hiện và phân vùng ảnh nhưng hướng tiếp cận này cũng có hai khó khăn chính, đặc biệt là cho phát hiện và phân vùng ảnh cho cây,

cỏ Thứ nhất là, việc kết hợp liên tiếp các phép gộp (pooling) và phép tích chập với bước nhảy giúp cho mô hình có thể giảm độ phân giải không gian (spatial resolution) của các

đặc trưng và tạo ra các biểu diễn trừu tượng hơn Tuy nhiên, sự suy hao của thông tin không gian lại ảnh hưởng đến việc dự đoán, tức phân loại cho từng điểm ảnh Cụ thể, các đối tượng nhỏ như cỏ sẽ khó được phát hiện và phân vùng do sự mất mát của thông tin không gian Thứ hai là, cây và cỏ thường xuất hiện dưới nhiều kích thước khác nhau cũng

là một thách thức

Để giải quyết vấn đề nêu trên, chúng tôi đề xuất một mạng nơ-ron tích chập đa phân

giải với kết nối dày (Dense Multi-scale Convolutional Network, viết tắt là DMSCN) để

phân vùng ảnh cho cây, cỏ Mô hình đề xuất có cấu trúc encoder-decoder Phần encoder

bao gồm Mạng nơ-ron tích chập với kết nối dày (Dense Convolutional Network, viết tắt

là DCN) và khối gộp đa phân giải với kết nối dày sử dụng tích chập trống (Dense

Multi-Scale Atrous Pooling, viết tắt là DMSAP) DCN được tạo thành từ các lớp tích chập

chuẩn và tích chập trống, kết hợp với liên kết dày Để biểu diễn được đặc trưng đa phân giải, chúng tôi đã đề xuất khối DMSAP dựa trên các lớp tích chập chuẩn và tích chập trống với các bước nhảy khác nhau và được kết nối nối tiếp-dày Các đặc trưng bậc thấp

và bậc cao của phần encoder được kết hợp bởi phần decoder có cấu trúc đơn giản nhưng hiệu quả để tạo ra kết quả phân vùng Cuối cùng, chúng tôi cho thấy tính hiệu quả của mô hình đề xuất trên bốn tập dữ liệu, trong đó có một tập dữ liệu được thu thập và gán nhãn

Trang 16

Tổng kết lại, đóng góp chính của chúng tôi trong nghiên cứu này bao gồm:

- Chúng tôi đề xuất một mô hình với cấu trúc encoder-decoder, trong đó phần encoder sử dụng DCN và DMSAP để biểu diễn đặc trưng ảnh ở các độ phân giải khác nhau;

- Chúng tôi thực hiện nhiều thí nghiệm trên bốn bộ dữ liệu để đánh giá phương

pháp đề xuất Các kết quả thí nghiệm của nghiên cứu cắt bỏ (ablation study) và nghiên cứu đối sánh (comparative study) cho thấy các ưu điểm của mô hình đề

xuất so với các mô hình trước đây theo các tiêu chí về độ chính xác và độ phức tạp của mô hình;

- Chúng tôi công bố mở cơ sở dữ liệu

- Chúng tôi đề xuất một hệ thống hoàn chỉnh nhằm giám sát và chăm sóc cây trồng dựa trên nền tảng Internet of Robotic Things (IoRT), trong đó các giải pháp kỹ thuật cho từng khối được đề xuất, thực thi và đánh giá đầy đủ

Trang 18

18

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT

Chương này trình bày các cơ sở lý thuyết liên quan đến phương pháp đề xuất, bao gồm: phép tích chập trống, phương pháp trích xuất đặc trưng đa phân giải, kết nối dày, và

mô hình YOLO

Nội dung của chương này được công bố trong bài báo: (i) Tran, Thi Hoang Yen, and Tran Dang Khoa Phan* "Dense Multi-Scale Convolutional Network for Plant

Segmentation." IEEE Access 11 (2023): 82640 – 82651; (ii) Tran Dang Khoa Phan, Van

Thanh Vu “An Automatic System for Crop Monitoring and Culture Based on

IoRT” Tạp Chí Khoa học Và Công nghệ - Đại học Đà Nẵng, vol 20, issue 12.2,

12/2022, tr 6-12.4.1

1.1 Phép tích chập trống

Đối với CNN, độ phân giải không gian của đặc trưng bị giảm đáng kể do việc sử

dụng lặp đi lặp lại các phép gộp (pooling) và phép tích chập với bước nhảy (stride) Việc này làm suy hao thông tin chi tiết theo không gian (spatial information) Phương pháp phổ biến để giải quyết vấn đề này là sử dụng phép tích chập trống (atrous convolution)

Ban đầu, phép tích chập trống được phát triển cho biến đổi wavelet [10] Gọi 𝒙[𝒊] và 𝒚[𝒊] tương ứng là tín hiệu đầu vào và đầu ra tại vị trí 𝒊; và gọi 𝒘[𝒌] là bộ lọc Phép tích chập trống được định nghĩa như sau:

𝒚[𝒊] = ∑ 𝒙[𝒊 + 𝑟 ⋅ 𝒌] 𝒘[𝒌]

𝒌

trong đó, 𝑟 là bước nhảy dùng để lấy mẫu tín hiệu đầu vào

Phép tích chập trống tương đương với tích chập tín hiệu đầu vào với bộ lọc được lấy

mẫu lên (upsample) bằng cách thêm (𝑟 − 1) số 0 vào giữa các trọng số của bộ lọc (Hình 1.2) Phép tích chập trống cho phép dễ dàng mở rộng vùng quan sát (receptive field) của

bộ lọc, trong khi số lượng trọng số của bộ lọc và số phép toán được giữ nguyên [11]-[13]

Trang 19

Hình 1.2 Minh họa phép tích chập trống trong 1D (a) Trích xuất đặc trưng thưa

(sparse feature) với phép tích chập truyền thống đối với bản đồ đặc trưng (feature map) đầu vào có độ phân giải thấp (b) Trích xuất đặc trưng dày (dense feature) với phép tích

chập trống với bước nhảy 𝑟 = 2 đối với bản đồ đặc trưng đầu vào có độ phân giải cao

[11]

1.2 Đặc trưng đa phân giải

Đặc trưng đa phân giải được đánh giá là hữu ích để biểu diễn các đối tượng có kích thước thay đổi trong ảnh Đối với vấn đề phân vùng ảnh, các đặc trưng có độ phân giải

cao thường được dùng để thực hiện phân loại dày (dense classification), tức phân loại cho

từng điểm ảnh Tuy nhiên, đặc trưng có độ phân giải cao đòi hỏi khối lượng tính toán và

bộ nhớ lớn Bên cạnh đó, việc trích xuất các mối tương quan ở khoảng cách xa

Trang 20

(long-20

range correlation) trong ảnh đòi hỏi vùng quan sát phải rộng, khiến cho độ sâu của mạng

tăng lên và khó để huấn luyện

Trong các nghiên cứu trước đây, đặc trưng đa phân giải được áp dụng để giải quyết vấn đề của việc trích xuất đặc trưng có độ phân giải cao Hướng tiếp cận này sử dụng các

ở các độ phân giải khác nhau để nắm bắt được các mối tương quan ở khoảng cách ngắn

và xa trong ảnh Trong phạm vi của báo cáo này, chúng tôi tóm lược bốn hướng tiếp cận

để giải quyết vấn đề trích xuất đặc trưng đa phân giải

Hình 1.3 Các phương pháp trích xuất đặc trưng đa phân giải

Hướng tiếp cận đầu tiên sử dụng các kết nối tắt (skip connection) để khai thác đặc

trưng ở các tầng khác nhau của mạng (Hình 1.3a) Kết nối tắt được sử dụng đầu tiên

trong mạng FCN (fully convolutional network) [15] Các nghiên cứu đã chỉ ra rằng, kết

nối tắt cho phép FCN có thể trích xuất các đặc trưng với nhiều độ phân giải, giúp chúng

có thể giải quyết được vấn đề phân vùng ảnh [16], [17] Bên cạnh đó, kết nối tắt còn hỗ

trợ cho luồng gradient (flow of gradient) trong cơ chế lan truyền ngược và làm tăng hiệu

quả của mạng [18]-[20] Gần đây, ngày càng nhiều nghiên cứu khai thác Transformer cho

các vấn đề của thị giác máy tính (computer vision) [21]-[24] Dosovitskiy và các cộng sự [25] đã đề xuất mô hình Vision Transformer (ViT) cho vấn đề phân loại ảnh Xie và các

Trang 21

21

cộng sự [26] đã phát triển mô hình SegFormer, trong đó các encoder sử dụng

Transformer được kết hợp để tạo ra đặc trưng đa phân giải cho vấn đề phân vùng ảnh Một phương pháp phổ biến khác là thay đổi kích thước ảnh ở các độ phân giải khác nhau và sau đó đưa chúng vào các mạng con [27]-[29] (Hình 1.3b) Đầu ra của các mạng

con này được ghép với nhau để tạo nên kết quả phân vùng ảnh Lớp tập trung (attention

layer) có thể được sử dụng để đánh trọng số cho các đặc trưng đa phân giải [30] Các ảnh

đa phân giải có thể được vào các tầng khác nhau của mạng [31] Hướng tiếp cận đa phân giải này có thể làm tăng hiệu quả nhưng khối lượng tính toán lại cao đo phải xử lý cho từng ảnh ở các độ phân giải khác nhau

Phương pháp thứ ba là khai thác các mạng đã được huấn luyện (như ResNet [18], EfficientNet [32]) để trích xuất đặc trưng và sau đó kết hợp lại theo chiều từ trên xuống

thông qua kiến trúc mạng kiểu kim tự tháp (pyramid network) [33] (Hình 1.3c) U-Net sử

dụng các kết nối tắt để kết hợp các đặc trưng từ encoder và các đầu ra kích hoạt

(activation) của decoder Do sự không tương thích giữa các đặc trưng của encoder và

decoder nên không phải tất các cả kết nối tắt đều hiệu quả và một số trong đó lại có ảnh hưởng xấu lên hiệu quả phân vùng ảnh SegNet [3] sử dụng các chỉ số gộp ở encoder để

thực hiện việc lấy mẫu lên phi tuyến ở decoder Cao và các cộng sự [34] đã đề xuất mô

hình Swin-Unet có kiến trúc encoder-decoder dựa trên mạng Unet và Transformer Gần đây, nhiều mô hình dạng encoder-decoder đã cho thấy tính hiệu quả đối với vấn đề phân vùng ảnh

Phương pháp cuối cùng tận dụng kỹ thuật gộp dạng kim tự tháp theo không gian

(spatial pyramid pooling) [38], [39] để trích xuất thông tin bối cảnh (contextual

information) ở các khoảng cách khác nhau trong ảnh (Hình 1.3d) ParseNet [40] khai thác

các đặc trưng ở cấp độ ảnh để lấy thông tin bối cảnh toàn cục DeepLab [11], DeepLabv3 [41], và DeepLabv3+ sử dụng khối Atrous Spatial Pyramid Pooling (ASPP) để liên kết

song song các lớp tích chập trống với các bước (rate) khác nhau Khối ASPP cho phép

DeepLabv3+ có thể nắm bắt được các mối tương quan ở khoảng cách xa, trong khi vẫn

Trang 22

22

giữ cho kích thước không gian (spatial dimension) của các bản đồ đặc trưng không đổi

Nhiều biến thể khác nhau của kỹ thuật gộp dạng kim tự tháp theo không gian đã được đề xuất để có thể kết hợp càng nhiều thông tin từ các bản đồ đặc trưng cấp cao [42], [43], [44]

1.3 Kết nối dày

Kết nối dày (dense connection) liên kết tất cả các lớp với từng lớp, giúp cho bất cứ

lớp nào đều có thể tiếp cận với các bản đồ đặc trưng của các lớp phía trước (Hình 1.4) DenseNets [20] sử dụng kết nối dày để tích lũy các bản đồ đặc trưng với các vùng quan sát khác nhau và để đảm bảo luồng thông tin trong mạng Nghiên cứu đã cho thấy rằng, DenseNets có thể cải thiện hiệu quả phân loại mà không có dấu hiệu của hiện tượng

overfitting hoặc suy hao (degradation) Ngoài ra, phương pháp này còn mang lại những lợi ích khác như: chúng làm giảm vấn đề gradient suy hao (vanishing gradient); củng cố

luồng thông tin trong mạng; tận dụng các đặc trưng ở các lớp trước; làm giảm số lượng tham số Các kết nối dày có thể được khai thác trong các vấn đề khác nhau như phân

vùng ảnh [45]-[47], nâng cao độ phân giải (super-resolution) [48], [49]

Hình 1.4 Kết nối dày

1.4 YOLO

Hệ thống phát hiện cây, cỏ có chức năng xác định vị trị và phân loại các đối tượng cây trong ảnh Đầu vào của khối là ảnh màu; còn đầu ra là tọa độ của khung giới hạn bao xung quanh đối tượng và phân loại của nó Do định hướng triển khai khối này trên phần cứng nên chúng tôi lựa chọn mô hình dựa trên sự cân bằng giữa hai tiêu chí là độ chính

Trang 23

23

xác và tốc độ xử lý Từ các kết quả so sánh của nghiên cứu [57], chúng tôi quyết định lựa chọn mô hình học sâu YOLOv3 Cấu trúc tổng quan của mô hình YOLOv3 được mô tả ở Hình 1.5

Hình 1.5 Sơ đồ khối của mô hình YOLOv3

Mô hình YOLOv3 dựa trên kiến trúc CNN Trước tiên ảnh đầu vào được đưa qua khối trích xuất đặc trưng Kiến trúc Darknet-53 được sử dụng với vai trò của khối trích xuất đặc trưng Sau đó, các đặc trưng được đưa vào khối dự đoán đa phân giải Mô hình YOLOv3 sử dụng 3 tầng dự đoán với các độ phân giải khác nhau Đầu ra của mỗi tầng dự đoán là vị trí của các khung giới hạn quanh các đối tượng và lớp của chúng Kỹ thuật này giúp cho mô hình có khả năng phát hiện các đối tượng xuất hiện trong ảnh ở nhiều độ phân giải khác nhau Các kết nối tắt được sử dụng để tích hợp các đặc trưng ở cấp độ thấp vào các tầng dự đoán nhằm tăng hiệu quả dự đoán Các kỹ thuật hậu xử lý như K-means, Non-maximum suppression được sử dụng để chọn lọc các kết quả dự đoán tốt nhất

Trang 24

24

CHƯƠNG 2 MÔ HÌNH NƠ-RON TÍCH CHẬP ĐA PHÂN GIẢI VỚI KẾT NỐI

DÀY CHO PHÂN VÙNG ẢNH CÂY TRỒNG VÀ CỎ DẠI

Chương này trình bày về mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại

Nội dung của chương này được công bố trong bài báo: Tran, Thi Hoang Yen, and Tran Dang Khoa Phan* "Dense Multi-Scale Convolutional Network for Plant

Segmentation." IEEE Access 11 (2023): 82640 – 82651

2.1 Cơ sở dữ liệu và tiền xử lý

Để đánh giá các phương pháp, chúng tôi sử dụng bốn cơ sở dữ liệu, bao gồm Peanut, BoniRob [50], Rice [51], và Carrot [52] Trong đó, cơ sở dữ liệu Peanut được thu thập và gán nhãn bởi chúng tôi Một số ảnh ví dụ của các cơ sở dữ liệu này được minh họa ở Hình 2.1 Tiếp theo, chúng tôi mô tả các đặc điểm chính của các cơ sở dữ liệu này

và các bước tiền xử lý cho dữ liệu

Hình 2.1 Hình ảnh minh họa của các cơ sở dữ liệu

Cơ sở dữ liệu Peanut được thu thập tại một cánh đồng trồng đậu ở Đà Nẵng Các cơ

sở dữ liệu gồm các hình ảnh chụp cây đậu và cỏ dại các loại Cây đậu được được nhóm

thành lớp (class) cây trồng (crop), còn các loại cỏ dại được nhóm thành lớp cỏ dại (weed) Cơ sở dữ liệu bao gồm 400 ảnh có kích thước 720 × 960 Cơ sở dữ liệu có nhiều

Trang 25

Bảng 2.1 mô tả các tổng số điểm ảnh của các lớp của các cơ sở dữ liệu Có thể thấy

rằng, tất cả các cơ sở dữ liệu đều gặp vấn đề mất cân bằng (imbalance problem), tức là

một số lớp có số lượng mẫu lớn hơn rất nhiều so với các lớp còn lại Đối với các cơ sở dữ liệu bị mất cân bằng, các lớp đa số tác động đáng kể lên quá trình huấn luyện, khiến cho

mô hình bị suy hao (degenerated)

Bảng 2.1 Phân bố của các lớp trong các cơ sở dữ liệu

Trang 26

Để giải quyết các vấn đề đã được trình bày ở mục Mở đầu, chúng tôi đề xuất Mô

hình nơ-ron tích chập cho phân vùng cây và cỏ (Dense Multi-scale Convolutional

Netwok, viết tắt là DMSCN) Kiến trúc tổng quan của DMSCN được mô tả ở Hình 2.2

Hình 2.2 Kiến trúc tổng quan của mô hình đề xuất DMSCN

Mô hình đề xuất có cấu trúc encoder-decoder Ý tưởng chính của mô hình đề xuất là trích xuất thông tin từ các đặc trưng ở nhiều vùng quan sát với kích thước khác nhau nhằm phát hiện được các đối tượng ở các độ phân giải khác nhau Chúng tôi khai thác kết nối dày và lớp tích chập trống trong suốt mô hình đề xuất Các kết nối dày được sử dụng

để trích xuất các đặc trưng với các vùng quan sát có kích thước khác nhau Trong khi đó,

Trang 27

27

các lớp tích chập trống cho phép mạng có thể trích đặc trưng với mật độ dày hơn mà không làm giảm độ phân giải theo không gian

Đối với phần encoder, chúng tôi đề xuất Mạng tích chập dày (Dense Convolutional

Network, viết tắt là DCN) được cấu tạo từ các khối dày (dense block) để trích xuất đặc

trưng từ ảnh đầu vào Để trích xuất được đặc trưng đa phân giải mà không làm mất mát thông tin chi tiết, chúng tôi đề xuất khối gộp đa phân giải với kết nối dày sử dụng tích

chập trống (Dense Multi-scale Atrous Pooling, viết tắt là DMSAP) Lưu ý rằng, khối

DMSAP và ASPP có chức năng giống nhau và có thể thay thế cho nhau So sánh giữa các khối này được thực hiện ở Chương 4 Cuối cùng, phần decoder được thiết kế đơn giản nhưng hiệu quả được dùng để kết hợp các đặc trưng bậc thấp và bậc cao để tạo nên kết quả phân vùng ảnh Chi tiết của mô hình đề xuất được trình bày ở phần tiếp theo

2.2.2 Encoder

a) DCN

Ảnh đầu vào được đưa qua lớp tích chập 7 × 7 với bước nhảy 2 × 2, và sau đó đi qua lớp max-pooling Các đặc trưng trừu tượng hơn được trích xuất bởi DCN được cấu tạo bởi các khối dày (Hình 2.2) Mỗi khối dày bao gồm các khối con sử dụng kết nối dày

để liên kết tất cả các lớp với mỗi lớp trong mạng Nhờ đó, một lớp bất kỳ có thể liên kết với các đặc trưng của tất cả các lớp phía trước Các đặc trưng được tạo bởi khối con và đầu vào của nó được kết hợp và đưa vào khối con tiếp theo Các đặc trưng được tạo bởi một khối dày được biểu diễn toán học như sau:

Trang 28

28

thước lớn do việc sử dụng liên tục các lớp ghép Điều này làm giảm hiệu quả tính toán

Do đó, một lớp cổ chai (bottleneck) dưới dạng lớp tích chập 1 × 1 được đưa vào để làm

giảm chiều sâu của bản đồ đặc trưng trước khi đưa chúng qua lớp tích chập 3 × 3 Ở cuối khối dày, một lớp cổ chai được sử dụng để làm giảm chiều sâu của bản đồ đặc trưng xuống một nửa Độ phân giải không gian của các bản đồ đặc trưng được giảm một nửa bằng cách sử dụng lớp max-pooling Lưu ý rằng, khối dày thứ ba không có lớp lấy mẫu xuống này để giữ được độ phân giải không gian Khối dày thứ tư sử dụng các lớp tích chập trống với bước 𝑟 = 2 để làm tăng gấp đôi mật độ của bản đồ đặc trưng Hướng tiếp cận này cho phép mô hình có thể tránh sự mất mát thông tin không gian và cải thiện việc

dự đoán dày Ngoài ra, một khối gộp đa phân giải được đề xuất để trích xuất các bản đồ đặc trưng được tạo ra bởi DCN ở các độ phân giải khác nhau Chi tiết của khối này được

mô tả ở phần tiếp theo

b) DMSAP

Để giải quyết vấn đề đa phân giải, chúng tôi đề xuất thêm khối DMSAP (Hình 2.2) Khối này dựa trên ý tưởng của kỹ thuật gộp dạng kim tự tháp theo không gian ảnh [53] rằng việc gộp các đặc trưng ở các độ phân giải khác nhau mang lại hiệu quả cho vấn đề phân vùng ảnh ở độ phân giải bất kỳ

DMSAP sử dụng lớp tích chập 1 × 1 và ba lớp tích chập trống 𝑟 = 4, 8, 12 để thu thập các đặc trưng đa phân giải Các lớp tích chập này được kèm theo các lớp Batch Normalization và ReLU Không giống như khối ASPP của DeepLabv3+ sử dụng các lớp tích trống được kết nối theo kiểu song song, các lớp của DMSAP được kết nối theo kiểu nối tiếp Lớp tích chập có bước nhảy càng lớn thì càng nằm ở vị trí xa trong DMSAP Các lớp của DMSAP được kết nối dày với nhau, tức là đầu ra của mỗi lớp tích chập được ghép với đầu vào của nó, và sau đó được đưa vào lớp tiếp theo

So với khối ASPP, khối DMSAP có hai ưu điểm chính là: lấy mẫu dày hơn và vùng quan sát lớn hơn Do sử dụng liên kết kiểu song song nên mỗi lớp tích chập trống của

Trang 29

29

khối ASPP chỉ khai thác các bản đồ đặc trưng tại một độ phân giải riêng lẻ và không có

sự chia sẻ thông tin với các lớp khác Do vậy, việc ghép các bản đồ đặc trưng từ các lớp tích chập trống được kết nối song song làm cho độ phân giải của chúng bị thưa Ngược lại, các bản đồ đặc trưng được tạo bởi các lớp tích chập trống của DMSAP được liên kết nối tiếp kết hợp với kết nối dày Mỗi lớp khai thác tất cả các bản đồ đặc trưng ở các độ phân giải nhỏ hơn Biết rằng, việc ghép hai lớp tích chập làm tăng vùng quan sát Do đó, liên kết nối tiếp kết hợp với kết nối dày giúp cho khối DMSAP có thể tạo ra các bản đồ đặc trưng với độ phân giải dày hơn và có vùng quan sát lớn hơn Các tính chất này làm tăng thông tin toàn cục để giải quyết tốt hơn vấn đề phân vùng ảnh cho các đối tượng có kích thước lớn

2.2.3 Decoder

Phần decoder của DMSCN được thiết kế tương tự như của DeepLabv3+ Biết rằng, thông tin bối cảnh đóng vai trò quan trọng để nâng cao hiệu quả phân vùng ảnh [53] Phần decoder của DMSAP lấy thông tin bối cảnh từ các bản đồ đặc trưng được trích xuất bởi khối dày đầu tiên Do khối dày đầu tiên tạo ra các bản đồ đặc trưng với chiều sâu lớn nên có thể lấn át các đặc trưng được tạo bởi toàn bộ encoder Do đó, một lớp chập 1 × 1 được sử dụng để làm giảm chiều sâu trước khi đưa vào phần decoder Các bản đồ đặc trưng của khối DMSAP được lấy mẫu lên và sau đó được ghép với các đặc trưng bối cảnh bậc thấp được tạo ra bởi khối dày đầu tiên Một số lớp tích chập 3 × 3 được sử dụng trước khi lấy mẫu lên đến kích thước của ảnh đầu vào Cuối cùng, một lớp softmax được

sử dụng để tính phân bố xác suất theo từng điểm ảnh

Trang 30

30

trong đó, 𝑝 ∈ [0,1] là xác suất được ước lượng bởi mô hình đối với lớp có nhãn 𝑦 = 1

Hàm mất mát cross-entropy được biểu diễn như sau:

Một đặc điểm đáng lưu ý của hàm mất mát cross-entropy là các mẫu dễ phân loại cũng đóng góp vào hàm này Khi được tích lũy trên một số lượng lớn các mẫu dễ, các đóng góp này trở thành quá lớn so với lớp thiểu số Do đó, hàm mất mát cross-entropy không hiệu quả đối với vấn đề dữ liệu không cân bằng Trong trường hợp này, bộ phân loại sử dụng hàm mất mát cross-entropy thường bị “quá tải” bởi các lớp đa số và bỏ qua các lớp thiểu số Các lớp đa số có thể “lấn át” quá trình huấn luyện, làm cho mô hình bị suy hao [54] Lưu ý rằng, các cơ sở dữ liệu được sử dụng trong thực nghiệm đều gặp phải vấn đề không cân bằng

Để giải quyết vấn đề dữ liệu không cân bằng, chúng tôi áp dụng hàm mất mát

cross-entropy cân bằng hóa (balanced cross-cross-entropy) [55] Mỗi lớp được gán trọng số Các lớp

có càng nhiều mẫu thì trọng số tương ứng càng thấp Hàm mất mát cross-entropy cân bằng hóa được biểu diễn bởi:

trong đó, 𝛼𝑡 là trọng số Trong báo cáo này, trọng số được thiết lập bằng tần số trung vị của lớp Gọi 𝑛𝑐𝑖 là số điểm ảnh trong lớp 𝑐𝑖 và 𝑁𝑐𝑖 là số lượng điểm ảnh trong các ảnh có mẫu của lớp 𝑐𝑖 Tần số của lớp được định nghĩa như sau:

𝑓𝑐𝑖 = 𝑛𝑐𝑖

Các trọng số được biểu diễn bởi:

Trang 31

Trong chương này, chúng tôi đã trình bày mô hình đề xuất để phân vùng cây trồng

và cỏ dại trong ảnh Mô hình đề xuất khai thác kết nối dày và các lớp tích chập trống để trích xuất đặc trưng đa phân giải Hàm mất mát entropy cân bằng hóa được sử dụng để giải quyết vấn đề mất cân bằng trong dữ liệu huấn luyện

Trang 32

32

CHƯƠNG 3 HỆ THỐNG PHÁT HIỆN ĐỐI TƯỢNG ỨNG DỤNG TRONG

CHĂM SÓC CÂY TRỒNG VÀ DIỆT CỎ DẠI

Trong chương này, chúng tôi trình bày giải pháp phần cứng và phần mềm cho hệ thống phát hiện đối tượng ứng dụng trong chăm sóc cây trồng và diệt cỏ dại

Nội dung của chương này được công bố trong bài báo: Tran Dang Khoa Phan, Van Thanh Vu “An Automatic System for Crop Monitoring and Culture Based on

12/2022, tr 6-12

3.1 Hệ thống đề xuất

Mục này, chúng tôi đề xuất cấu trúc của hệ thống canh tác chính xác dựa trên nền tảng IoRT, bao gồm 4 khối chính sau: khối trạm cảm biến, khối phát hiện cây, khối robot canh tác, và khối giám sát và điều khiển từ xa (Hình 3.1)

Hình 3.1 Hệ thống canh tác cây trồng dựa trên IoRT

Khối trạm cảm biến thu thập các tham số của môi trường sinh trưởng của cây trồng, bao gồm nhiệt độ và hàm lượng phân bón cho cây trồng, nhiệt độ, độ ẩm, áp suất không khí, cường độ sáng, mưa gió…; và cập nhật liên tục lên cơ sở dữ liệu sau một khoảng thời gian cố định

Khối phát hiện cây sử dụng camera để chụp hình ảnh của luống cây trồng Một mô hình dựa trên kỹ thuật học sâu được phát triển để phát hiện và định vị đối tượng (cây và

Trang 33

33

cỏ) trong ảnh Kết quả thu được là chuỗi dữ liệu bao gồm tọa độ và phân loại của đối tượng Chuỗi dữ liệu này được gửi lên server lưu trữ thông qua Internet

Khối robot canh tác nhận dữ liệu về các đối tượng cây, cỏ từ server Khối này điều

khiển cơ cấu chấp hành để thực thi các tác vụ canh tác tại từng vị trí của đối tượng đã được phát hiện Việc canh tác chính xác cho phép rút ngắn thời gian dịch chuyển của cơ cấu, tiết kiệm nước và thuốc diệt cỏ

Khối giám sát và điều khiển từ xa sử dụng dịch vụ điện toán đám mây để giúp lưu trữ dữ liệu của khối trạm cảm biến Ngoài ra, khối này còn cung cấp giao diện người dùng thông qua website và ứng dụng di động để người dùng thuận tiện trong giám sát các tham số của hệ thống canh tác, đồng thời có thể điều khiển vận hành hệ thống từ xa thông qua kết nối internet

3.2 Thiết kế phần cứng và phần mềm của hệ thống

Trong mục này, chúng tôi trình bày thiết kế phần cứng và phần mềm cho bốn khối của hệ thống đã được đề xuất ở mục 3.1

3.2.1 Khối trạm cảm biến

Phần cứng khối trạm cảm biến được mô tả trong sơ đồ khối ở Hình 3.2

Hình 3.2 Sơ đồ kết nối phần cứng khối trạm cảm biến

Chúng tôi chọn ESP8266 làm vi điều khiển trung tâm vì đây là mạch thu thập dữ liệu qua mạng wifi, phổ biến, giá thành hợp lý, kết nối nhanh và ổn định Nhiệm vụ đọc

dữ liệu từ các cảm biến sau đó định kỳ truyền dữ liệu lên cơ sở dữ liệu thông qua wifi

Trang 34

Hình 3.3 Lưu đồ thuật toán của

chương trình cho khối trạm cảm biến

Hình 3.4 Lưu đồ thuật toán của chương

trình cho Raspberry Pi 4

Trang 35

35

3.2.2 Khối phát hiện cây, cỏ

Khối phát hiện cây có chức năng xác định vị trị và phân loại các đối tượng cây trong ảnh Đầu vào của khối là ảnh màu; còn đầu ra là tọa độ của khung giới hạn bao xung quanh đối tượng và phân loại của nó Do định hướng triển khai khối này trên phần cứng là máy tính nhúng (cụ thể là Raspberry Pi 4) nên chúng tôi lựa chọn mô hình dựa trên sự cân bằng giữa hai tiêu chí là độ chính xác và tốc độ xử lý Từ các kết quả so sánh của nghiên cứu [57], chúng tôi quyết định lựa chọn mô hình học sâu YOLOv3 Cấu trúc tổng quan của mô hình YOLOv3 đã được mô tả ở Chương 1

Sau khi huấn luyện và kiểm tra, mô hình được triển khai trên máy tính nhúng Raspberry Pi 4 Lưu đồ thuật toán cho chương trình thực thi khối phát hiện cây được mô

tả ở Hình 3.4 Trước tiên, camera sẽ tiến hành chụp ảnh vùng làm việc Hình ảnh được chia thành 4 phần bằng nhau để đảm bảo về mặt tính toán Khi có lệnh được nhận từ Firebase, các hình ảnh lần lượt được đưa vào mô hình YOLOv3 để thực hiện phát hiện đối tượng Các kết quả về tọa độ và lớp của đối tượng được cập nhật lên Firebase

3.2.3 Khối robot canh tác

Thiết kế khối robot canh tác bao gồm: khung robot và mạch điều khiển robot Thiết

kế khung robot được mô tả ở Hình 3.5 Các thông số kỹ thuật cơ bản như sau: Kích thước trục 𝑋 = 0.7𝑚, 𝑌 = 1.6𝑚, 𝑍 = 0.81𝑚; khoảng cách mô hình so với mặt đất - 0.23 𝑚 Robot yêu cầu 3 động cơ bước cho 3 trục, tuy nhiên với trục Y dài, cần ổn định trong khi

di chuyển nên ở đây, chúng ta sử dụng 2 động cơ bước mắc song song để trục Y di chuyển ổn định và chính xác hơn Robot còn có thêm 3 công tắc hành trình cho mỗi trục

để xác định giới hạn của mỗi trục, tránh tình trạng động cơ vẫn quay khi đi hết hành trình Cơ cấu phun tưới có kích thước 0.6m được di chuyển theo trục X và trục Z

Theo yêu cầu tải cần điều khiển, chúng tôi lựa chọn động cơ bước 57𝐻𝑆56 với các thông số cơ bản sau: điện áp - 4.42 𝑉; dòng tải tối đa - 3 𝐴, 2 pha Theo đó, chúng tôi lựa chọn mạch điều khiển 𝑇𝐵6600 với các thông số sau: điện áp - 9 ÷ 42 𝑉; dòng tải tối đa -

4 𝐴; ngõ vào cách ly quang, tốc độ cao; có tích hợp bảo vệ quá dòng quá áp; các chế độ

Trang 36

36

vi bước − 1/2, 1/4, 1/8 và 1/16 Chúng tôi chọn vi điều khiển ATMega2560 để điều khiển các động cơ bước nhờ có nhiều chân GPI/O giao tiếp số và tương tự, hoạt động ổn định Về việc thu thập dữ liệu sẽ dùng ESP8266 như cho khối trạm cảm biến

Hình 3.5 Sơ đồ khung robot canh tác

chương trình điều khiển robot

chương trình gửi nhận với Firebase

Trang 37

37

Lưu đồ thuật toán của chương trình cho điều khiển robot được mô tả ở Hình 3.6 Vi điều khiển ATMega2560 khởi tạo giao tiếp kết nối với ESP8266 (UART) và thiết lập các giá trị ban đâu với mạch điều khiển động cơ bước, công tắc hành trình, cảm biến độ ẩm đất Sau đó, vi điều khiển sẽ thực hiện quay cơ cấu chấp hành về vị trí gốc và chờ lệnh từ ESP8266 Tùy vào lệnh nhận được, vi điều khiển tiến hành thực hiện các chế độ theo yêu cầu từ ESP8266; sau đó, cơ cấu chấp hành được quay về điểm gốc ban đầu và tiếp tục chờ lệnh từ ESP8266

Robot khi nhận lệnh yêu cầu hoạt động, sẽ tự cập nhật tọa độ từng vị trí trên luống cây trồng, mỗi vị trí hoạt động tương ứng với 1 khung hình nhận dạng với kích thước là

640 × 480 pixel, trên mỗi khung hình sẽ có các đối tượng được nhận dạng và trích xuất tọa độ tương ứng sau đó hệ thống sẽ tính toán ra tọa độ thực tế (theo số bước của động cơ bước) để tiến hành di chuyển đến từng vị trí của đối tượng trên luống cây trồng đã được chụp Tại mỗi vị trí của cây trồng, robot sẽ cho tiến hành đo độ ẩm của đất tại đó, nếu độ

ẩm thấp hơn giá trị cài đặt sẽ tiến hành tưới, nếu đối tượng là cỏ, robot sẽ tiến hành phun thuốc

Phần mềm gửi và nhận dữ liệu từ Firebase được mô tả ở Hình 3.7 ESP8266 sẽ kết nối wifi và khởi tạo các thiết lập kết nối đến Firebase Sau đó, ESP8266 sẽ lần lượt đọc các biến kích hoạt làm việc của từng chế độ Đồng thời ESP8266 sẽ gửi chuỗi yêu cầu thực hiện chế độ đó đến cho ATMega2560

3.2.4 Thiết kế khối giám sát và điều khiển từ xa

Nhằm giám sát từ xa với hệ thống, chúng tôi thiết kế giao diện người dùng thông qua website và ứng dụng cho điện thoại thông minh (trên nền tảng Android) Website và ứng dụng di động sẽ có thiết kế khá tương đồng, bao gồm 3 trang (tab) và có các chức năng được mô tả như sơ đồ dưới đây (Hình 3.8)

Trang 39

39

CHƯƠNG 4 KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ

Trong chương này, chúng tôi trình bày các kết thí nghiệm và đánh giá liên quan đến: (i) mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại; và (ii) hệ thống phát hiện đối tượng ứng dụng trong chăm sóc cây trồng

và diệt cỏ dại

Nội dung của chương này được công bố trong bài báo: (i) Tran, Thi Hoang Yen, and Tran Dang Khoa Phan* "Dense Multi-Scale Convolutional Network for Plant

Segmentation." IEEE Access 11 (2023): 82640 – 82651; (ii) Tran Dang Khoa Phan, Van

Thanh Vu “An Automatic System for Crop Monitoring and Culture Based on

4.1.1 Chi tiết về thực thi

Mô hình DMSCN được huấn luyện và kiểm tra trên máy tính với cấu hình như sau: Window 10 OS, Intel Core i5 CPU, 16GB RAM, và Nvidia GeForce GTX 1070 Ti GPU Thuật toán tối ưu Stochastic Gradient Descent with Momentum (SGDM) được sử dụng

để huấn luyện mô hình Các thông số huấn luyện được thiết lập như sau: hệ số học khởi tạo - 10−3 và giảm với hệ số 0.3 sau mỗi 10 epoch; các giá trị momentum và weight decay lần lượt bằng 0.9 và 0.005 Quá trình huấn luyện được thực hiện trong 50 epoch Sau đó, kết quả huấn luyện thay đổi không đáng kể

Trang 40

40

Các cơ sở dữ liệu được chia thành các tập huấn luyện và kiểm tra theo tỉ lệ 0.8 −

0.2 Các kỹ thuật tăng cường dữ liệu (data augmentation) bao gồm đối xứng ảnh và dịch

chuyển ảnh trong khoảng ±10 điểm ảnh được áp dụng để tăng số lượng mẫu của các tập

huấn luyện Kỹ thuật này có thể được xem là yếu tố ổn định hóa (regularizer) nhằm giảm

thiểu hiện tượng overfitting

Chúng tôi sử dụng các tiêu chí Accuracy, Intersection over Union (IoU) và đánh giá trực quan để đánh giá hiệu quả của các mô hình phân vùng ảnh Accuracy được định nghĩa bởi tỉ lệ các điểm ảnh được phân loại đúng đối với mỗi lớp Tiêu chí IoU đo lường

sự tương đồng giữa hai tập hữu hạn Tiêu chí Accuracy đơn giản nhưng không tổng quát Tiêu chí này thường được sử dụng cùng với IoU để đánh giá đầy đủ các kết quả phân vùng ảnh

Accuracy và IoU được biểu diễn như sau:

4.1.2 Nghiên cứu cắt bỏ trên mô hình đề xuất

Trước tiên, chúng tôi chứng tỏ hiệu quả của DMSCN bằng cách xem xét các ưu điểm của các khối đề xuất DMSAP và DCN so với ASPP và các mạng trích xuất đặc

trưng (backbone) của DeepLabv3+ Để đạt được mục tiêu này, chúng tôi thực hiện

nghiên cứu cắt bỏ trên DeepLabv3+ và DMSCN Cụ thể, chúng tôi thực hiện các thí nghiệm đối với DeepLabv3+, trong đó khối ASPP được thay thế bởi khối DMSAP Tương tự đối với DMSCN, khối DMSAP được thay thế bởi ASPP Để thuận tiện, chúng tôi sử dụng các ký hiệu sau:

Tiêu đề	Nghiên Cứu Hệ Thống Phát Hiện, Phân Loại Và Định Vị Đối Tượng Dựa Trên Kỹ Thuật Học Sâu Ứng Dụng Trong Nông Nghiệp Chính Xác
Tác giả	TS. Phan Trần Đăng Khoa, ThS. Vũ Vân Thanh, TS. Trần Thị Minh Hạnh, ThS. Trần Văn Líc, ThS. Thái Văn Tiến, KS. Lê Hồng Nam, CN. Nguyễn Thị Trang Đài
Người hướng dẫn	TS. Ngô Minh Trí
Trường học	Đại học Đà Nẵng
Chuyên ngành	Khoa Điện tử - Viễn thông
Thể loại	báo cáo tổng kết
Năm xuất bản	2023
Thành phố	Đà Nẵng

Định dạng
Số trang	124
Dung lượng	19,74 MB

Tài liệu tham khảo	Loại	Chi tiết
[42] M. Yang, K. Yu, C. Zhang, Z. Li, and K. Yang, ‘‘DenseASPP for semantic segmentation in street scenes,’’ in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 3684–3692	Khác
[43] C. Peng and J. Ma, ‘‘Semantic segmentation using stride spatial pyramid pooling and dual attention decoder,’’ Pattern Recognit., vol. 107, Nov. 2020, Art. no.107498	Khác
[44] X. Lian, Y. Pang, J. Han, and J. Pan, ‘‘Cascaded hierarchical atrous spatial pyramid pooling module for semantic segmentation,’’ Pattern Recognit., vol. 110, Feb.2021, Art. no. 107622	Khác
[45] R. Dong, X. Pan, and F. Li, ‘‘DenseU-Net-based semantic segmentation of small objects in urban remote sensing images,’’ IEEE Access, vol. 7, pp. 65347–65356, 2019	Khác
[46] J. Krapac and I. K. S. Šegvic, ‘‘Ladder-style DenseNets for semantic segmentation of large natural images,’’ in Proc. IEEE Int. Conf. Comput. Vis. Workshops (ICCVW), Oct. 2017, pp. 238–245	Khác
[47] I. Krešo, J. Krapac, and S. Šegvic, ‘‘Effcient ladder-style DenseNets for semantic segmentation of large images,’’ IEEE Trans. Intell. Transp. Syst., vol. 22, no. 8, pp. 4951–4961, Aug. 2021	Khác
[48] T. Tong, G. Li, X. Liu, and Q. Gao, ‘‘Image super-resolution using dense skip connections,’’ in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Oct. 2017, pp. 4809–4817	Khác
[49] R. Lan, L. Sun, Z. Liu, H. Lu, C. Pang, and X. Luo, ‘‘MADNet: A fast and lightweight network for single-image super resolution,’’ IEEE Trans. Cybern., vol. 51, no. 3, pp. 1443–1453, Mar. 2021	Khác
[50] N. Chebrolu, P. Lottes, A. Schaefer, W. Winterhalter, W. Burgard, and C. Stachniss, ‘‘Agricultural robot dataset for plant classifcation, localization and mapping on sugar beet felds,’’ Int. J. Robot. Res., vol. 36, no. 10, pp. 1045–1052, Sep. 2017	Khác
[51] X. Ma, X. Deng, L. Qi, Y. Jiang, H. Li, Y. Wang, and X. Xing, ‘‘Fully convolutional network for Rice seedling and weed image segmentation at the seedling stage in paddy felds,’’ PLoS ONE, vol. 14, no. 4, Apr. 2019, Art. no. e0215676	Khác
[52] S. Haug and J. Ostermann, ‘‘A crop/weed feld image dataset for the evaluation of computer vision based precision agriculture tasks,’’ in Proc. ECCV Workshops, 2014, pp. 105–116	Khác
[53] K. He, X. Zhang, S. Ren, and J. Sun, ‘‘Spatial pyramid pooling in deep convolutional networks for visual recognition,’’ IEEE Trans. Pattern Anal. Mach. Intell., vol. 37, no. 9, pp. 1904–1916, Sep. 2015	Khác
[54] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár, ‘‘Focal loss for dense object detection,’’ in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Oct. 2017, pp. 2999–3007	Khác
[55] S. Xie and Z. Tu, ‘‘Holistically-nested edge detection,’’ in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Dec. 2015, pp. 1395–1403	Khác
[56] F. Chollet, ‘‘Xception: Deep learning with depthwise separable convolutions,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 1800–1807	Khác