Kết quả nghiên cứu: - Đã đề xuất một mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại; - Đã xây dựng hệ thống có chức năng phát hiện cây trồng
Trang 1ĐẠI HỌC ĐÀ NẴNG QUỸ PHÁT TRIỂN KH&CN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG
NGHIÊN CỨU HỆ THỐNG PHÁT HIỆN, PHÂN LOẠI VÀ ĐỊNH VỊ ĐỐI TƯỢNG DỰA TRÊN KỸ THUẬT HỌC SÂU ỨNG DỤNG TRONG NÔNG
NGHIỆP CHÍNH XÁC
Mã số: B2020-ĐN02-79
Chủ nhiệm đề tài: TS Phan Trần Đăng Khoa
Đà Nẵng, 12/2023
Trang 2ĐẠI HỌC ĐÀ NẴNG QUỸ PHÁT TRIỂN KH&CN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP ĐẠI HỌC ĐÀ NẴNG
NGHIÊN CỨU HỆ THỐNG PHÁT HIỆN, PHÂN LOẠI VÀ ĐỊNH VỊ ĐỐI TƯỢNG DỰA TRÊN KỸ THUẬT HỌC SÂU ỨNG DỤNG TRONG NÔNG
Trang 33
DANH SÁCH CÁC THÀNH VIÊN THAM GIA NGHIÊN CỨU
VÀ ĐƠN VỊ PHỐI HỢP CHÍNH
1 Danh sách các thành viên tham gia nghiên cứu
nghiên cứu
Họ và tên người đại diện đơn vị
Khoa Điện tử - Viễn thông,
Trường Đại học Bách khoa – Đại
học Đà Nẵng
Phối hợp nghiên cứu
Trang 44
MỤC LỤC
MỞ ĐẦU 13
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 18
1.1 Phép tích chập trống 18
1.2 Đặc trưng đa phân giải 19
1.3 Kết nối dày 22
1.4 YOLO 22
1.5 Kết luận chương 23
CHƯƠNG 2 MÔ HÌNH NƠ-RON TÍCH CHẬP ĐA PHÂN GIẢI VỚI KẾT NỐI DÀY CHO PHÂN VÙNG ẢNH CÂY TRỒNG VÀ CỎ DẠI 24
2.1 Cơ sở dữ liệu và tiền xử lý 24
2.2 Mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại 26
2.2.1 Mô hình tổng quan 26
2.2.2 Encoder 27
2.2.3 Decoder 29
2.2.4 Hàm mất mát 29
2.3 Kết luận chương 31
CHƯƠNG 3 HỆ THỐNG PHÁT HIỆN ĐỐI TƯỢNG ỨNG DỤNG TRONG CHĂM SÓC CÂY TRỒNG VÀ DIỆT CỎ DẠI 32
3.1 Hệ thống đề xuất 32
3.2 Thiết kế phần cứng và phần mềm của hệ thống 33
3.2.1 Khối trạm cảm biến 33
3.2.2 Khối phát hiện cây, cỏ 35
3.2.3 Khối robot canh tác 35
3.2.4 Thiết kế khối giám sát và điều khiển từ xa 37
3.3 Kết luận chương 38
Trang 55
CHƯƠNG 4 KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ 39
4.1 Mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại 39
4.1.1 Chi tiết về thực thi 39
4.1.2 Nghiên cứu cắt bỏ trên mô hình đề xuất 40
4.1.3 Nghiên cứu so sánh 45
4.2 Hệ thống phát hiện đối tượng ứng dụng trong chăm sóc cây trồng và diệt cỏ dại 48
4.2.1 Khối trạm cảm biến 48
4.2.2 Khối robot canh tác 49
4.2.3 Khối phát hiện cây cỏ 50
4.2.4 Khối giám sát và điều khiển từ xa 53
4.3 Kết luận chương 55
KẾT LUẬN 56
TÀI LIỆU THAM KHẢO 57
PHỤ LỤC 64
Trang 66
DANH MỤC BẢNG BIỂU
1 Bảng 2.1 Phân bố của các lớp trong các cơ sở dữ liệu
2 Bảng 4.1 Độ phức tạp, Accuracy và IoU của các mô hình trên tập kiểm tra của
cơ sở dữ liệu Peanut DL-R và DL-X lần lượt ký hiệu cho mô hình DeepLabv3+ sử dụng ResNet-101 và Xception DL-R-D và DL-X-D tương ứng là mô hình DL-R và DL-X với khối ASPP được thay thế bằng khối DMSAP DMSCN-A được dùng để ký hiệu cho mô hình DMSCN với khối DMSAP được thay thế bởi khối ASPP
3 Bảng 4.2 Kết quả mIoU của các mô hình trên các tập kiểm tra của các cơ sở dữ
liệu BoniRob, Rice, và Carrot
4 Bảng 4.3 Kết quả AP đối với tập kiểm tra
Trang 77
DANH MỤC TỪ VIẾT TẮT
Pooling
Khối gộp dạng kim tự tháp sử dụng phép tích chập trống
Trang 88
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1 Thông tin chung:
- Tên đề tài: NGHIÊN CỨU HỆ THỐNG PHÁT HIỆN, PHÂN LOẠI VÀ
ĐỊNH VỊ ĐỐI TƯỢNG DỰA TRÊN KỸ THUẬT HỌC SÂU ỨNG DỤNG TRONG NÔNG NGHIỆP CHÍNH XÁC
- Mã số: B2020-ĐN02-79
- Chủ nhiệm: TS Phan Trần Đăng Khoa
- Tổ chức chủ trì: Trường Đại học Bách khoa – Đại học Đà Nẵng
- Thời gian thực hiện: 36 tháng (Từ 12/2020 – 11/2023)
2 Mục tiêu:
- Nghiên cứu mô hình mạng học sâu nhằm nâng cao độ chính xác trong phát hiện, phân loại và định vị đối tượng cây trồng;
- Nghiên cứu xây dựng hệ thống bao gồm phần cứng và phần mềm, có khả năng
hoạt động thời gian thực nhằm phát hiện, phân loại và định vị đối tượng cây trồng
Trang 99
4 Kết quả nghiên cứu:
- Đã đề xuất một mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại;
- Đã xây dựng hệ thống có chức năng phát hiện cây trồng và cỏ dại để thực hiện các tác vụ tương ứng
5 Tên sản phẩm:
- 01 bài báo SCIE Q1: Tran, Thi Hoang Yen, and Tran Dang Khoa Phan* "Dense
Multi-Scale Convolutional Network for Plant Segmentation." IEEE Access 11 (2023):
- 03 sinh viên tham gia nghiên cứu khoa học về hướng nghiên cứu của đề tài
- 01 thiết bị bao gồm cơ cấu robot chấp hành tích hợp mô-đun thực hiện chức năng phát hiện, phân loại và định vị đối tượng cây trồng
- 01 chương trình máy tính thực thi mô hình phát hiện, phân loại và định vị đối
tượng cây trồng, kèm theo các ứng dụng di động, website giám sát
6 Phương thức chuyển giao, địa chỉ ứng dụng, tác động và lợi ích mang lại của kết quả nghiên cứu:
- Kinh tế - xã hội: Kết quả nghiên cứu góp phần nâng cao hiệu quả canh tác trong lĩnh vực nông nghiệp chính xác
- Hiệu quả khoa học: Kết quả đề tài là nguồn tài liệu tham khảo nghiên cứu và giảng dạy của giảng viên, NCS, học viên cao học và sinh viên ngành Điện tử - Viễn thông
Trang 11- Coordinator: Phan Tran Dang Khoa, PhD
- Implementing institution: University of Science and Technology – The University
of Danang
- Duration: from 12/2020 to 11/2023
2 Objective(s):
- Propose deep learning model to improve the accuracy in object detection;
- Develop a hardware and software system for object detection, which is capable of real-time operation to detect
3 Creativeness and innovativeness:
- Proposed a Dense Multi-scale Convolutional Network for plant segmentation;
- Proposed harware and software solutions for the crop monitoring and culture system
4 Research results:
- Proposed a Dense Multi-scale Convolutional Network for plant segmentation;
- Proposed harware and software solutions for the crop monitoring and culture system
5 Products:
Trang 1212
- 01 article published in the SCIE Q1 journal: Tran, Thi Hoang Yen, and Tran Dang
Khoa Phan* "Dense Multi-Scale Convolutional Network for Plant Segmentation." IEEE
- 03 students participated in the student scientific research contest
- 01 robot with the object detection module
- 01 program of object detection and mobile and web applications
6 Effects, transfer alternatives of research results and applicability:
- Socio-economic: The research results improve the farming efficiency for precision argriculture
- Scientific effectiveness: The results of the research are the reference for research and teaching references of lecturers, postgraduate students, graduate students and students of the Electronics and Telecommunication Engineering major
Trang 1313
MỞ ĐẦU
Cỏ dại chiếm nguồn dinh dưỡng, ánh sáng và độ ẩm của cây trồng, làm giảm năng suất canh tác Hiện nay, nông nghiệp truyền thống sử dụng thuốc diệt cỏ để hạn chế cỏ dại và tăng năng suất cây trồng Tuy nhiên, các hóa chất lại làm ô nhiễm môi trường và
có ảnh hưởng xấu đến sức khỏe của con người Việc diệt cỏ mà không sử dụng hóa chất
lại đòi hỏi sức lao động chân tay lớn Trong nông nghiệp chính xác (precision
argriculture), các hệ thống robot có thể được sử dụng để phun xịt hóa chất có chọn lọc
lên cỏ dại mà không tác động lên cây trồng Những robot này làm giảm lượng thuốc diệt
cỏ, từ đó giảm thiểu nguy cơ gây ô nhiễm môi trường và tăng lợi nhuận Thách thức chính cho các robot canh tác này là việc phát hiện hoặc phân vùng cây trồng và cỏ dại một cách tự động và chính xác [1]
Mục tiêu của vấn đề phát hiện đối tượng (object detection) là định vị và phân loại
cho các đối tượng trong ảnh Đối với các phương pháp phát hiện đối tượng, vị trí của đối
tượng được xác định thông qua hộp giới hạn (bounding box) bao xung quanh đối tượng (Hình 1b) Với mục tiêu tương tự, vấn đề phân vùng ảnh ngữ nghĩa (semantic
segmentation) cho kết quả định vị chi tiết hơn, trong đó phân loại đối lượng được gán cho
từng điểm ảnh (pixel) (Hình 1c) Cả hai vấn đề này đều được nghiên cứu và ứng dụng
rộng rãi trong nông nghiệp chính xác Tùy theo ứng dụng mà một trong hai vấn đề được
ưu tiên nghiên cứu hơn Phân vùng ảnh ngữ nghĩa thường được sử dụng trong các ứng dụng đòi hỏi độ chính xác cao Trong khi đó, phát hiện đối tượng có ưu thế về tốc độ xử
lý và sự đơn giản trong xây dựng cơ sở dữ liệu Để đơn giản, trong các phần còn lại của
báo cáo này, chúng tôi sử dụng thuật ngữ “phân vùng ảnh” để thay thế cho “phân vùng
ảnh ngữ nghĩa”
Trong nghiên cứu này, chúng tôi tập trung vào hai vấn đề là phát triển:
1 Mô hình nơ-ron tích chập cho phân vùng ảnh cây trồng và cỏ dại;
2 Hệ thống phát hiện đối tượng ứng dụng trong chăm sóc cây trồng và diệt cỏ dại
Trang 1414
Hình 1 (a) Phát hiện đối tượng; và (b) Phân vùng ảnh
Các vấn đề phát hiện và phân vùng ảnh cho cây, cỏ gặp một số thách thức như sau Thứ nhất là, các hướng tiếp cận truyền thống thường không cho kết quả tốt đối với các trường hợp các cây, cỏ chồng lấp lên nhau Đường viền của các cây, cỏ thường không được phân biệt rõ ràng và dễ bị phân loại nhầm Điều này cũng ảnh hưởng đến việc gán
nhãn (data annotation) vốn là một công đoạn quan trọng đối với các phương pháp học máy có giám sát (supervised learning) Thứ hai là, do cây, cỏ xuất hiện trong ảnh ở các
kích thước khác nhau nên phương pháp phân tích đa phân giải là phù hợp cho các vấn đề phát hiện và phân vùng ảnh cho cây, cỏ Tuy nhiên, nhược điểm của hướng tiếp cận này
là độ phức tạp cao do phải xử lý dữ liệu/tín hiệu ở các độ phân giải khác nhau
Trong thời gian gần đây, học sâu thu hút được sự quan tâm nghiên cứu trong các lĩnh vực phát hiện và phân vùng ảnh cho cây, cỏ So với các phương pháp truyền thống
dựa trên học máy (machine learning), học sâu có thể tự động học các đặc trưng bậc cao trong ảnh, tránh được việc trích xuất và chọn lọc đặc trưng thủ công Sa và các cộng sự
[2] đã áp dụng mô hình SegNet [3] để phân vùng cây và cỏ, trong đó dữ liệu đa phổ
(multi-spectral data) được sử dụng để làm đầu vào của mô hình Mạng dựa trên decoder đã được đề xuất bởi Lottes và các cộng sự [4] để đồng thời ước lượng vị trí của gốc cây và vùng bao phủ bởi cây Khan và các cộng sự [5] đã trình bày mạng sử dụng các
encoder-khối encoder-decoder mắc nối tiếp, trong đó nhiều mạng U-Net [6] được khai thác như là mạng con để học các đặc trưng của các lớp một cách riêng lẻ Để trích xuất được thông
tin ngữ cảnh (contextual information), DeepLabv3+ [7] đã sử dụng Atrous Pyramid
Trang 1515
Pooling (ASPP) để kết nối song song các các lớp tích chập trống (atrous convolution) với các bước nhảy khác nhau Zenkl và các cộng sự [8] đã đề xuất một mô hình dựa trên
DeepLabv3+ để tự động phân vùng lá cây Trong nghiên cứu [9], nhiều biểu diễn đầu vào
và phương pháp cải thiện ảnh (image enhancement) đã được so sánh để tối ưu đầu vào
của mô hình DeepLabv3+
Mặc dù mạng nơ-ron tích chập (convulotional neural network, viết tắt là CNN) đã
thể hiện được hiệu quả trong các vấn đề phát hiện và phân vùng ảnh nhưng hướng tiếp cận này cũng có hai khó khăn chính, đặc biệt là cho phát hiện và phân vùng ảnh cho cây,
cỏ Thứ nhất là, việc kết hợp liên tiếp các phép gộp (pooling) và phép tích chập với bước nhảy giúp cho mô hình có thể giảm độ phân giải không gian (spatial resolution) của các
đặc trưng và tạo ra các biểu diễn trừu tượng hơn Tuy nhiên, sự suy hao của thông tin không gian lại ảnh hưởng đến việc dự đoán, tức phân loại cho từng điểm ảnh Cụ thể, các đối tượng nhỏ như cỏ sẽ khó được phát hiện và phân vùng do sự mất mát của thông tin không gian Thứ hai là, cây và cỏ thường xuất hiện dưới nhiều kích thước khác nhau cũng
là một thách thức
Để giải quyết vấn đề nêu trên, chúng tôi đề xuất một mạng nơ-ron tích chập đa phân
giải với kết nối dày (Dense Multi-scale Convolutional Network, viết tắt là DMSCN) để
phân vùng ảnh cho cây, cỏ Mô hình đề xuất có cấu trúc encoder-decoder Phần encoder
bao gồm Mạng nơ-ron tích chập với kết nối dày (Dense Convolutional Network, viết tắt
là DCN) và khối gộp đa phân giải với kết nối dày sử dụng tích chập trống (Dense
Multi-Scale Atrous Pooling, viết tắt là DMSAP) DCN được tạo thành từ các lớp tích chập
chuẩn và tích chập trống, kết hợp với liên kết dày Để biểu diễn được đặc trưng đa phân giải, chúng tôi đã đề xuất khối DMSAP dựa trên các lớp tích chập chuẩn và tích chập trống với các bước nhảy khác nhau và được kết nối nối tiếp-dày Các đặc trưng bậc thấp
và bậc cao của phần encoder được kết hợp bởi phần decoder có cấu trúc đơn giản nhưng hiệu quả để tạo ra kết quả phân vùng Cuối cùng, chúng tôi cho thấy tính hiệu quả của mô hình đề xuất trên bốn tập dữ liệu, trong đó có một tập dữ liệu được thu thập và gán nhãn
Trang 16Tổng kết lại, đóng góp chính của chúng tôi trong nghiên cứu này bao gồm:
- Chúng tôi đề xuất một mô hình với cấu trúc encoder-decoder, trong đó phần encoder sử dụng DCN và DMSAP để biểu diễn đặc trưng ảnh ở các độ phân giải khác nhau;
- Chúng tôi thực hiện nhiều thí nghiệm trên bốn bộ dữ liệu để đánh giá phương
pháp đề xuất Các kết quả thí nghiệm của nghiên cứu cắt bỏ (ablation study) và nghiên cứu đối sánh (comparative study) cho thấy các ưu điểm của mô hình đề
xuất so với các mô hình trước đây theo các tiêu chí về độ chính xác và độ phức tạp của mô hình;
- Chúng tôi công bố mở cơ sở dữ liệu
- Chúng tôi đề xuất một hệ thống hoàn chỉnh nhằm giám sát và chăm sóc cây trồng dựa trên nền tảng Internet of Robotic Things (IoRT), trong đó các giải pháp kỹ thuật cho từng khối được đề xuất, thực thi và đánh giá đầy đủ
Trang 1818
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
Chương này trình bày các cơ sở lý thuyết liên quan đến phương pháp đề xuất, bao gồm: phép tích chập trống, phương pháp trích xuất đặc trưng đa phân giải, kết nối dày, và
mô hình YOLO
Nội dung của chương này được công bố trong bài báo: (i) Tran, Thi Hoang Yen, and Tran Dang Khoa Phan* "Dense Multi-Scale Convolutional Network for Plant
Segmentation." IEEE Access 11 (2023): 82640 – 82651; (ii) Tran Dang Khoa Phan, Van
Thanh Vu “An Automatic System for Crop Monitoring and Culture Based on
IoRT” Tạp Chí Khoa học Và Công nghệ - Đại học Đà Nẵng, vol 20, issue 12.2,
12/2022, tr 6-12.4.1
1.1 Phép tích chập trống
Đối với CNN, độ phân giải không gian của đặc trưng bị giảm đáng kể do việc sử
dụng lặp đi lặp lại các phép gộp (pooling) và phép tích chập với bước nhảy (stride) Việc này làm suy hao thông tin chi tiết theo không gian (spatial information) Phương pháp phổ biến để giải quyết vấn đề này là sử dụng phép tích chập trống (atrous convolution)
Ban đầu, phép tích chập trống được phát triển cho biến đổi wavelet [10] Gọi 𝒙[𝒊] và 𝒚[𝒊] tương ứng là tín hiệu đầu vào và đầu ra tại vị trí 𝒊; và gọi 𝒘[𝒌] là bộ lọc Phép tích chập trống được định nghĩa như sau:
𝒚[𝒊] = ∑ 𝒙[𝒊 + 𝑟 ⋅ 𝒌] 𝒘[𝒌]
𝒌
trong đó, 𝑟 là bước nhảy dùng để lấy mẫu tín hiệu đầu vào
Phép tích chập trống tương đương với tích chập tín hiệu đầu vào với bộ lọc được lấy
mẫu lên (upsample) bằng cách thêm (𝑟 − 1) số 0 vào giữa các trọng số của bộ lọc (Hình 1.2) Phép tích chập trống cho phép dễ dàng mở rộng vùng quan sát (receptive field) của
bộ lọc, trong khi số lượng trọng số của bộ lọc và số phép toán được giữ nguyên [11]-[13]
Trang 19Hình 1.2 Minh họa phép tích chập trống trong 1D (a) Trích xuất đặc trưng thưa
(sparse feature) với phép tích chập truyền thống đối với bản đồ đặc trưng (feature map) đầu vào có độ phân giải thấp (b) Trích xuất đặc trưng dày (dense feature) với phép tích
chập trống với bước nhảy 𝑟 = 2 đối với bản đồ đặc trưng đầu vào có độ phân giải cao
[11]
1.2 Đặc trưng đa phân giải
Đặc trưng đa phân giải được đánh giá là hữu ích để biểu diễn các đối tượng có kích thước thay đổi trong ảnh Đối với vấn đề phân vùng ảnh, các đặc trưng có độ phân giải
cao thường được dùng để thực hiện phân loại dày (dense classification), tức phân loại cho
từng điểm ảnh Tuy nhiên, đặc trưng có độ phân giải cao đòi hỏi khối lượng tính toán và
bộ nhớ lớn Bên cạnh đó, việc trích xuất các mối tương quan ở khoảng cách xa
Trang 20(long-20
range correlation) trong ảnh đòi hỏi vùng quan sát phải rộng, khiến cho độ sâu của mạng
tăng lên và khó để huấn luyện
Trong các nghiên cứu trước đây, đặc trưng đa phân giải được áp dụng để giải quyết vấn đề của việc trích xuất đặc trưng có độ phân giải cao Hướng tiếp cận này sử dụng các
ở các độ phân giải khác nhau để nắm bắt được các mối tương quan ở khoảng cách ngắn
và xa trong ảnh Trong phạm vi của báo cáo này, chúng tôi tóm lược bốn hướng tiếp cận
để giải quyết vấn đề trích xuất đặc trưng đa phân giải
Hình 1.3 Các phương pháp trích xuất đặc trưng đa phân giải
Hướng tiếp cận đầu tiên sử dụng các kết nối tắt (skip connection) để khai thác đặc
trưng ở các tầng khác nhau của mạng (Hình 1.3a) Kết nối tắt được sử dụng đầu tiên
trong mạng FCN (fully convolutional network) [15] Các nghiên cứu đã chỉ ra rằng, kết
nối tắt cho phép FCN có thể trích xuất các đặc trưng với nhiều độ phân giải, giúp chúng
có thể giải quyết được vấn đề phân vùng ảnh [16], [17] Bên cạnh đó, kết nối tắt còn hỗ
trợ cho luồng gradient (flow of gradient) trong cơ chế lan truyền ngược và làm tăng hiệu
quả của mạng [18]-[20] Gần đây, ngày càng nhiều nghiên cứu khai thác Transformer cho
các vấn đề của thị giác máy tính (computer vision) [21]-[24] Dosovitskiy và các cộng sự [25] đã đề xuất mô hình Vision Transformer (ViT) cho vấn đề phân loại ảnh Xie và các
Trang 2121
cộng sự [26] đã phát triển mô hình SegFormer, trong đó các encoder sử dụng
Transformer được kết hợp để tạo ra đặc trưng đa phân giải cho vấn đề phân vùng ảnh Một phương pháp phổ biến khác là thay đổi kích thước ảnh ở các độ phân giải khác nhau và sau đó đưa chúng vào các mạng con [27]-[29] (Hình 1.3b) Đầu ra của các mạng
con này được ghép với nhau để tạo nên kết quả phân vùng ảnh Lớp tập trung (attention
layer) có thể được sử dụng để đánh trọng số cho các đặc trưng đa phân giải [30] Các ảnh
đa phân giải có thể được vào các tầng khác nhau của mạng [31] Hướng tiếp cận đa phân giải này có thể làm tăng hiệu quả nhưng khối lượng tính toán lại cao đo phải xử lý cho từng ảnh ở các độ phân giải khác nhau
Phương pháp thứ ba là khai thác các mạng đã được huấn luyện (như ResNet [18], EfficientNet [32]) để trích xuất đặc trưng và sau đó kết hợp lại theo chiều từ trên xuống
thông qua kiến trúc mạng kiểu kim tự tháp (pyramid network) [33] (Hình 1.3c) U-Net sử
dụng các kết nối tắt để kết hợp các đặc trưng từ encoder và các đầu ra kích hoạt
(activation) của decoder Do sự không tương thích giữa các đặc trưng của encoder và
decoder nên không phải tất các cả kết nối tắt đều hiệu quả và một số trong đó lại có ảnh hưởng xấu lên hiệu quả phân vùng ảnh SegNet [3] sử dụng các chỉ số gộp ở encoder để
thực hiện việc lấy mẫu lên phi tuyến ở decoder Cao và các cộng sự [34] đã đề xuất mô
hình Swin-Unet có kiến trúc encoder-decoder dựa trên mạng Unet và Transformer Gần đây, nhiều mô hình dạng encoder-decoder đã cho thấy tính hiệu quả đối với vấn đề phân vùng ảnh
Phương pháp cuối cùng tận dụng kỹ thuật gộp dạng kim tự tháp theo không gian
(spatial pyramid pooling) [38], [39] để trích xuất thông tin bối cảnh (contextual
information) ở các khoảng cách khác nhau trong ảnh (Hình 1.3d) ParseNet [40] khai thác
các đặc trưng ở cấp độ ảnh để lấy thông tin bối cảnh toàn cục DeepLab [11], DeepLabv3 [41], và DeepLabv3+ sử dụng khối Atrous Spatial Pyramid Pooling (ASPP) để liên kết
song song các lớp tích chập trống với các bước (rate) khác nhau Khối ASPP cho phép
DeepLabv3+ có thể nắm bắt được các mối tương quan ở khoảng cách xa, trong khi vẫn
Trang 2222
giữ cho kích thước không gian (spatial dimension) của các bản đồ đặc trưng không đổi
Nhiều biến thể khác nhau của kỹ thuật gộp dạng kim tự tháp theo không gian đã được đề xuất để có thể kết hợp càng nhiều thông tin từ các bản đồ đặc trưng cấp cao [42], [43], [44]
1.3 Kết nối dày
Kết nối dày (dense connection) liên kết tất cả các lớp với từng lớp, giúp cho bất cứ
lớp nào đều có thể tiếp cận với các bản đồ đặc trưng của các lớp phía trước (Hình 1.4) DenseNets [20] sử dụng kết nối dày để tích lũy các bản đồ đặc trưng với các vùng quan sát khác nhau và để đảm bảo luồng thông tin trong mạng Nghiên cứu đã cho thấy rằng, DenseNets có thể cải thiện hiệu quả phân loại mà không có dấu hiệu của hiện tượng
overfitting hoặc suy hao (degradation) Ngoài ra, phương pháp này còn mang lại những lợi ích khác như: chúng làm giảm vấn đề gradient suy hao (vanishing gradient); củng cố
luồng thông tin trong mạng; tận dụng các đặc trưng ở các lớp trước; làm giảm số lượng tham số Các kết nối dày có thể được khai thác trong các vấn đề khác nhau như phân
vùng ảnh [45]-[47], nâng cao độ phân giải (super-resolution) [48], [49]
Hình 1.4 Kết nối dày
1.4 YOLO
Hệ thống phát hiện cây, cỏ có chức năng xác định vị trị và phân loại các đối tượng cây trong ảnh Đầu vào của khối là ảnh màu; còn đầu ra là tọa độ của khung giới hạn bao xung quanh đối tượng và phân loại của nó Do định hướng triển khai khối này trên phần cứng nên chúng tôi lựa chọn mô hình dựa trên sự cân bằng giữa hai tiêu chí là độ chính
Trang 2323
xác và tốc độ xử lý Từ các kết quả so sánh của nghiên cứu [57], chúng tôi quyết định lựa chọn mô hình học sâu YOLOv3 Cấu trúc tổng quan của mô hình YOLOv3 được mô tả ở Hình 1.5
Hình 1.5 Sơ đồ khối của mô hình YOLOv3
Mô hình YOLOv3 dựa trên kiến trúc CNN Trước tiên ảnh đầu vào được đưa qua khối trích xuất đặc trưng Kiến trúc Darknet-53 được sử dụng với vai trò của khối trích xuất đặc trưng Sau đó, các đặc trưng được đưa vào khối dự đoán đa phân giải Mô hình YOLOv3 sử dụng 3 tầng dự đoán với các độ phân giải khác nhau Đầu ra của mỗi tầng dự đoán là vị trí của các khung giới hạn quanh các đối tượng và lớp của chúng Kỹ thuật này giúp cho mô hình có khả năng phát hiện các đối tượng xuất hiện trong ảnh ở nhiều độ phân giải khác nhau Các kết nối tắt được sử dụng để tích hợp các đặc trưng ở cấp độ thấp vào các tầng dự đoán nhằm tăng hiệu quả dự đoán Các kỹ thuật hậu xử lý như K-means, Non-maximum suppression được sử dụng để chọn lọc các kết quả dự đoán tốt nhất
Trang 2424
CHƯƠNG 2 MÔ HÌNH NƠ-RON TÍCH CHẬP ĐA PHÂN GIẢI VỚI KẾT NỐI
DÀY CHO PHÂN VÙNG ẢNH CÂY TRỒNG VÀ CỎ DẠI
Chương này trình bày về mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại
Nội dung của chương này được công bố trong bài báo: Tran, Thi Hoang Yen, and Tran Dang Khoa Phan* "Dense Multi-Scale Convolutional Network for Plant
Segmentation." IEEE Access 11 (2023): 82640 – 82651
2.1 Cơ sở dữ liệu và tiền xử lý
Để đánh giá các phương pháp, chúng tôi sử dụng bốn cơ sở dữ liệu, bao gồm Peanut, BoniRob [50], Rice [51], và Carrot [52] Trong đó, cơ sở dữ liệu Peanut được thu thập và gán nhãn bởi chúng tôi Một số ảnh ví dụ của các cơ sở dữ liệu này được minh họa ở Hình 2.1 Tiếp theo, chúng tôi mô tả các đặc điểm chính của các cơ sở dữ liệu này
và các bước tiền xử lý cho dữ liệu
Hình 2.1 Hình ảnh minh họa của các cơ sở dữ liệu
Cơ sở dữ liệu Peanut được thu thập tại một cánh đồng trồng đậu ở Đà Nẵng Các cơ
sở dữ liệu gồm các hình ảnh chụp cây đậu và cỏ dại các loại Cây đậu được được nhóm
thành lớp (class) cây trồng (crop), còn các loại cỏ dại được nhóm thành lớp cỏ dại (weed) Cơ sở dữ liệu bao gồm 400 ảnh có kích thước 720 × 960 Cơ sở dữ liệu có nhiều
Trang 25Bảng 2.1 mô tả các tổng số điểm ảnh của các lớp của các cơ sở dữ liệu Có thể thấy
rằng, tất cả các cơ sở dữ liệu đều gặp vấn đề mất cân bằng (imbalance problem), tức là
một số lớp có số lượng mẫu lớn hơn rất nhiều so với các lớp còn lại Đối với các cơ sở dữ liệu bị mất cân bằng, các lớp đa số tác động đáng kể lên quá trình huấn luyện, khiến cho
mô hình bị suy hao (degenerated)
Bảng 2.1 Phân bố của các lớp trong các cơ sở dữ liệu
Trang 26Để giải quyết các vấn đề đã được trình bày ở mục Mở đầu, chúng tôi đề xuất Mô
hình nơ-ron tích chập cho phân vùng cây và cỏ (Dense Multi-scale Convolutional
Netwok, viết tắt là DMSCN) Kiến trúc tổng quan của DMSCN được mô tả ở Hình 2.2
Hình 2.2 Kiến trúc tổng quan của mô hình đề xuất DMSCN
Mô hình đề xuất có cấu trúc encoder-decoder Ý tưởng chính của mô hình đề xuất là trích xuất thông tin từ các đặc trưng ở nhiều vùng quan sát với kích thước khác nhau nhằm phát hiện được các đối tượng ở các độ phân giải khác nhau Chúng tôi khai thác kết nối dày và lớp tích chập trống trong suốt mô hình đề xuất Các kết nối dày được sử dụng
để trích xuất các đặc trưng với các vùng quan sát có kích thước khác nhau Trong khi đó,
Trang 2727
các lớp tích chập trống cho phép mạng có thể trích đặc trưng với mật độ dày hơn mà không làm giảm độ phân giải theo không gian
Đối với phần encoder, chúng tôi đề xuất Mạng tích chập dày (Dense Convolutional
Network, viết tắt là DCN) được cấu tạo từ các khối dày (dense block) để trích xuất đặc
trưng từ ảnh đầu vào Để trích xuất được đặc trưng đa phân giải mà không làm mất mát thông tin chi tiết, chúng tôi đề xuất khối gộp đa phân giải với kết nối dày sử dụng tích
chập trống (Dense Multi-scale Atrous Pooling, viết tắt là DMSAP) Lưu ý rằng, khối
DMSAP và ASPP có chức năng giống nhau và có thể thay thế cho nhau So sánh giữa các khối này được thực hiện ở Chương 4 Cuối cùng, phần decoder được thiết kế đơn giản nhưng hiệu quả được dùng để kết hợp các đặc trưng bậc thấp và bậc cao để tạo nên kết quả phân vùng ảnh Chi tiết của mô hình đề xuất được trình bày ở phần tiếp theo
2.2.2 Encoder
a) DCN
Ảnh đầu vào được đưa qua lớp tích chập 7 × 7 với bước nhảy 2 × 2, và sau đó đi qua lớp max-pooling Các đặc trưng trừu tượng hơn được trích xuất bởi DCN được cấu tạo bởi các khối dày (Hình 2.2) Mỗi khối dày bao gồm các khối con sử dụng kết nối dày
để liên kết tất cả các lớp với mỗi lớp trong mạng Nhờ đó, một lớp bất kỳ có thể liên kết với các đặc trưng của tất cả các lớp phía trước Các đặc trưng được tạo bởi khối con và đầu vào của nó được kết hợp và đưa vào khối con tiếp theo Các đặc trưng được tạo bởi một khối dày được biểu diễn toán học như sau:
Trang 2828
thước lớn do việc sử dụng liên tục các lớp ghép Điều này làm giảm hiệu quả tính toán
Do đó, một lớp cổ chai (bottleneck) dưới dạng lớp tích chập 1 × 1 được đưa vào để làm
giảm chiều sâu của bản đồ đặc trưng trước khi đưa chúng qua lớp tích chập 3 × 3 Ở cuối khối dày, một lớp cổ chai được sử dụng để làm giảm chiều sâu của bản đồ đặc trưng xuống một nửa Độ phân giải không gian của các bản đồ đặc trưng được giảm một nửa bằng cách sử dụng lớp max-pooling Lưu ý rằng, khối dày thứ ba không có lớp lấy mẫu xuống này để giữ được độ phân giải không gian Khối dày thứ tư sử dụng các lớp tích chập trống với bước 𝑟 = 2 để làm tăng gấp đôi mật độ của bản đồ đặc trưng Hướng tiếp cận này cho phép mô hình có thể tránh sự mất mát thông tin không gian và cải thiện việc
dự đoán dày Ngoài ra, một khối gộp đa phân giải được đề xuất để trích xuất các bản đồ đặc trưng được tạo ra bởi DCN ở các độ phân giải khác nhau Chi tiết của khối này được
mô tả ở phần tiếp theo
b) DMSAP
Để giải quyết vấn đề đa phân giải, chúng tôi đề xuất thêm khối DMSAP (Hình 2.2) Khối này dựa trên ý tưởng của kỹ thuật gộp dạng kim tự tháp theo không gian ảnh [53] rằng việc gộp các đặc trưng ở các độ phân giải khác nhau mang lại hiệu quả cho vấn đề phân vùng ảnh ở độ phân giải bất kỳ
DMSAP sử dụng lớp tích chập 1 × 1 và ba lớp tích chập trống 𝑟 = 4, 8, 12 để thu thập các đặc trưng đa phân giải Các lớp tích chập này được kèm theo các lớp Batch Normalization và ReLU Không giống như khối ASPP của DeepLabv3+ sử dụng các lớp tích trống được kết nối theo kiểu song song, các lớp của DMSAP được kết nối theo kiểu nối tiếp Lớp tích chập có bước nhảy càng lớn thì càng nằm ở vị trí xa trong DMSAP Các lớp của DMSAP được kết nối dày với nhau, tức là đầu ra của mỗi lớp tích chập được ghép với đầu vào của nó, và sau đó được đưa vào lớp tiếp theo
So với khối ASPP, khối DMSAP có hai ưu điểm chính là: lấy mẫu dày hơn và vùng quan sát lớn hơn Do sử dụng liên kết kiểu song song nên mỗi lớp tích chập trống của
Trang 2929
khối ASPP chỉ khai thác các bản đồ đặc trưng tại một độ phân giải riêng lẻ và không có
sự chia sẻ thông tin với các lớp khác Do vậy, việc ghép các bản đồ đặc trưng từ các lớp tích chập trống được kết nối song song làm cho độ phân giải của chúng bị thưa Ngược lại, các bản đồ đặc trưng được tạo bởi các lớp tích chập trống của DMSAP được liên kết nối tiếp kết hợp với kết nối dày Mỗi lớp khai thác tất cả các bản đồ đặc trưng ở các độ phân giải nhỏ hơn Biết rằng, việc ghép hai lớp tích chập làm tăng vùng quan sát Do đó, liên kết nối tiếp kết hợp với kết nối dày giúp cho khối DMSAP có thể tạo ra các bản đồ đặc trưng với độ phân giải dày hơn và có vùng quan sát lớn hơn Các tính chất này làm tăng thông tin toàn cục để giải quyết tốt hơn vấn đề phân vùng ảnh cho các đối tượng có kích thước lớn
2.2.3 Decoder
Phần decoder của DMSCN được thiết kế tương tự như của DeepLabv3+ Biết rằng, thông tin bối cảnh đóng vai trò quan trọng để nâng cao hiệu quả phân vùng ảnh [53] Phần decoder của DMSAP lấy thông tin bối cảnh từ các bản đồ đặc trưng được trích xuất bởi khối dày đầu tiên Do khối dày đầu tiên tạo ra các bản đồ đặc trưng với chiều sâu lớn nên có thể lấn át các đặc trưng được tạo bởi toàn bộ encoder Do đó, một lớp chập 1 × 1 được sử dụng để làm giảm chiều sâu trước khi đưa vào phần decoder Các bản đồ đặc trưng của khối DMSAP được lấy mẫu lên và sau đó được ghép với các đặc trưng bối cảnh bậc thấp được tạo ra bởi khối dày đầu tiên Một số lớp tích chập 3 × 3 được sử dụng trước khi lấy mẫu lên đến kích thước của ảnh đầu vào Cuối cùng, một lớp softmax được
sử dụng để tính phân bố xác suất theo từng điểm ảnh
Trang 3030
trong đó, 𝑝 ∈ [0,1] là xác suất được ước lượng bởi mô hình đối với lớp có nhãn 𝑦 = 1
Hàm mất mát cross-entropy được biểu diễn như sau:
Một đặc điểm đáng lưu ý của hàm mất mát cross-entropy là các mẫu dễ phân loại cũng đóng góp vào hàm này Khi được tích lũy trên một số lượng lớn các mẫu dễ, các đóng góp này trở thành quá lớn so với lớp thiểu số Do đó, hàm mất mát cross-entropy không hiệu quả đối với vấn đề dữ liệu không cân bằng Trong trường hợp này, bộ phân loại sử dụng hàm mất mát cross-entropy thường bị “quá tải” bởi các lớp đa số và bỏ qua các lớp thiểu số Các lớp đa số có thể “lấn át” quá trình huấn luyện, làm cho mô hình bị suy hao [54] Lưu ý rằng, các cơ sở dữ liệu được sử dụng trong thực nghiệm đều gặp phải vấn đề không cân bằng
Để giải quyết vấn đề dữ liệu không cân bằng, chúng tôi áp dụng hàm mất mát
cross-entropy cân bằng hóa (balanced cross-cross-entropy) [55] Mỗi lớp được gán trọng số Các lớp
có càng nhiều mẫu thì trọng số tương ứng càng thấp Hàm mất mát cross-entropy cân bằng hóa được biểu diễn bởi:
trong đó, 𝛼𝑡 là trọng số Trong báo cáo này, trọng số được thiết lập bằng tần số trung vị của lớp Gọi 𝑛𝑐𝑖 là số điểm ảnh trong lớp 𝑐𝑖 và 𝑁𝑐𝑖 là số lượng điểm ảnh trong các ảnh có mẫu của lớp 𝑐𝑖 Tần số của lớp được định nghĩa như sau:
𝑓𝑐𝑖 = 𝑛𝑐𝑖
Các trọng số được biểu diễn bởi:
Trang 31Trong chương này, chúng tôi đã trình bày mô hình đề xuất để phân vùng cây trồng
và cỏ dại trong ảnh Mô hình đề xuất khai thác kết nối dày và các lớp tích chập trống để trích xuất đặc trưng đa phân giải Hàm mất mát entropy cân bằng hóa được sử dụng để giải quyết vấn đề mất cân bằng trong dữ liệu huấn luyện
Trang 3232
CHƯƠNG 3 HỆ THỐNG PHÁT HIỆN ĐỐI TƯỢNG ỨNG DỤNG TRONG
CHĂM SÓC CÂY TRỒNG VÀ DIỆT CỎ DẠI
Trong chương này, chúng tôi trình bày giải pháp phần cứng và phần mềm cho hệ thống phát hiện đối tượng ứng dụng trong chăm sóc cây trồng và diệt cỏ dại
Nội dung của chương này được công bố trong bài báo: Tran Dang Khoa Phan, Van Thanh Vu “An Automatic System for Crop Monitoring and Culture Based on
IoRT” Tạp Chí Khoa học Và Công nghệ - Đại học Đà Nẵng, vol 20, issue 12.2,
12/2022, tr 6-12
3.1 Hệ thống đề xuất
Mục này, chúng tôi đề xuất cấu trúc của hệ thống canh tác chính xác dựa trên nền tảng IoRT, bao gồm 4 khối chính sau: khối trạm cảm biến, khối phát hiện cây, khối robot canh tác, và khối giám sát và điều khiển từ xa (Hình 3.1)
Hình 3.1 Hệ thống canh tác cây trồng dựa trên IoRT
Khối trạm cảm biến thu thập các tham số của môi trường sinh trưởng của cây trồng, bao gồm nhiệt độ và hàm lượng phân bón cho cây trồng, nhiệt độ, độ ẩm, áp suất không khí, cường độ sáng, mưa gió…; và cập nhật liên tục lên cơ sở dữ liệu sau một khoảng thời gian cố định
Khối phát hiện cây sử dụng camera để chụp hình ảnh của luống cây trồng Một mô hình dựa trên kỹ thuật học sâu được phát triển để phát hiện và định vị đối tượng (cây và
Trang 3333
cỏ) trong ảnh Kết quả thu được là chuỗi dữ liệu bao gồm tọa độ và phân loại của đối tượng Chuỗi dữ liệu này được gửi lên server lưu trữ thông qua Internet
Khối robot canh tác nhận dữ liệu về các đối tượng cây, cỏ từ server Khối này điều
khiển cơ cấu chấp hành để thực thi các tác vụ canh tác tại từng vị trí của đối tượng đã được phát hiện Việc canh tác chính xác cho phép rút ngắn thời gian dịch chuyển của cơ cấu, tiết kiệm nước và thuốc diệt cỏ
Khối giám sát và điều khiển từ xa sử dụng dịch vụ điện toán đám mây để giúp lưu trữ dữ liệu của khối trạm cảm biến Ngoài ra, khối này còn cung cấp giao diện người dùng thông qua website và ứng dụng di động để người dùng thuận tiện trong giám sát các tham số của hệ thống canh tác, đồng thời có thể điều khiển vận hành hệ thống từ xa thông qua kết nối internet
3.2 Thiết kế phần cứng và phần mềm của hệ thống
Trong mục này, chúng tôi trình bày thiết kế phần cứng và phần mềm cho bốn khối của hệ thống đã được đề xuất ở mục 3.1
3.2.1 Khối trạm cảm biến
Phần cứng khối trạm cảm biến được mô tả trong sơ đồ khối ở Hình 3.2
Hình 3.2 Sơ đồ kết nối phần cứng khối trạm cảm biến
Chúng tôi chọn ESP8266 làm vi điều khiển trung tâm vì đây là mạch thu thập dữ liệu qua mạng wifi, phổ biến, giá thành hợp lý, kết nối nhanh và ổn định Nhiệm vụ đọc
dữ liệu từ các cảm biến sau đó định kỳ truyền dữ liệu lên cơ sở dữ liệu thông qua wifi
Trang 34Hình 3.3 Lưu đồ thuật toán của
chương trình cho khối trạm cảm biến
Hình 3.4 Lưu đồ thuật toán của chương
trình cho Raspberry Pi 4
Trang 3535
3.2.2 Khối phát hiện cây, cỏ
Khối phát hiện cây có chức năng xác định vị trị và phân loại các đối tượng cây trong ảnh Đầu vào của khối là ảnh màu; còn đầu ra là tọa độ của khung giới hạn bao xung quanh đối tượng và phân loại của nó Do định hướng triển khai khối này trên phần cứng là máy tính nhúng (cụ thể là Raspberry Pi 4) nên chúng tôi lựa chọn mô hình dựa trên sự cân bằng giữa hai tiêu chí là độ chính xác và tốc độ xử lý Từ các kết quả so sánh của nghiên cứu [57], chúng tôi quyết định lựa chọn mô hình học sâu YOLOv3 Cấu trúc tổng quan của mô hình YOLOv3 đã được mô tả ở Chương 1
Sau khi huấn luyện và kiểm tra, mô hình được triển khai trên máy tính nhúng Raspberry Pi 4 Lưu đồ thuật toán cho chương trình thực thi khối phát hiện cây được mô
tả ở Hình 3.4 Trước tiên, camera sẽ tiến hành chụp ảnh vùng làm việc Hình ảnh được chia thành 4 phần bằng nhau để đảm bảo về mặt tính toán Khi có lệnh được nhận từ Firebase, các hình ảnh lần lượt được đưa vào mô hình YOLOv3 để thực hiện phát hiện đối tượng Các kết quả về tọa độ và lớp của đối tượng được cập nhật lên Firebase
3.2.3 Khối robot canh tác
Thiết kế khối robot canh tác bao gồm: khung robot và mạch điều khiển robot Thiết
kế khung robot được mô tả ở Hình 3.5 Các thông số kỹ thuật cơ bản như sau: Kích thước trục 𝑋 = 0.7𝑚, 𝑌 = 1.6𝑚, 𝑍 = 0.81𝑚; khoảng cách mô hình so với mặt đất - 0.23 𝑚 Robot yêu cầu 3 động cơ bước cho 3 trục, tuy nhiên với trục Y dài, cần ổn định trong khi
di chuyển nên ở đây, chúng ta sử dụng 2 động cơ bước mắc song song để trục Y di chuyển ổn định và chính xác hơn Robot còn có thêm 3 công tắc hành trình cho mỗi trục
để xác định giới hạn của mỗi trục, tránh tình trạng động cơ vẫn quay khi đi hết hành trình Cơ cấu phun tưới có kích thước 0.6m được di chuyển theo trục X và trục Z
Theo yêu cầu tải cần điều khiển, chúng tôi lựa chọn động cơ bước 57𝐻𝑆56 với các thông số cơ bản sau: điện áp - 4.42 𝑉; dòng tải tối đa - 3 𝐴, 2 pha Theo đó, chúng tôi lựa chọn mạch điều khiển 𝑇𝐵6600 với các thông số sau: điện áp - 9 ÷ 42 𝑉; dòng tải tối đa -
4 𝐴; ngõ vào cách ly quang, tốc độ cao; có tích hợp bảo vệ quá dòng quá áp; các chế độ
Trang 3636
vi bước − 1/2, 1/4, 1/8 và 1/16 Chúng tôi chọn vi điều khiển ATMega2560 để điều khiển các động cơ bước nhờ có nhiều chân GPI/O giao tiếp số và tương tự, hoạt động ổn định Về việc thu thập dữ liệu sẽ dùng ESP8266 như cho khối trạm cảm biến
Hình 3.5 Sơ đồ khung robot canh tác
Hình 3.6 Lưu đồ thuật toán của
chương trình điều khiển robot
Hình 3.7 Lưu đồ thuật toán của
chương trình gửi nhận với Firebase
Trang 3737
Lưu đồ thuật toán của chương trình cho điều khiển robot được mô tả ở Hình 3.6 Vi điều khiển ATMega2560 khởi tạo giao tiếp kết nối với ESP8266 (UART) và thiết lập các giá trị ban đâu với mạch điều khiển động cơ bước, công tắc hành trình, cảm biến độ ẩm đất Sau đó, vi điều khiển sẽ thực hiện quay cơ cấu chấp hành về vị trí gốc và chờ lệnh từ ESP8266 Tùy vào lệnh nhận được, vi điều khiển tiến hành thực hiện các chế độ theo yêu cầu từ ESP8266; sau đó, cơ cấu chấp hành được quay về điểm gốc ban đầu và tiếp tục chờ lệnh từ ESP8266
Robot khi nhận lệnh yêu cầu hoạt động, sẽ tự cập nhật tọa độ từng vị trí trên luống cây trồng, mỗi vị trí hoạt động tương ứng với 1 khung hình nhận dạng với kích thước là
640 × 480 pixel, trên mỗi khung hình sẽ có các đối tượng được nhận dạng và trích xuất tọa độ tương ứng sau đó hệ thống sẽ tính toán ra tọa độ thực tế (theo số bước của động cơ bước) để tiến hành di chuyển đến từng vị trí của đối tượng trên luống cây trồng đã được chụp Tại mỗi vị trí của cây trồng, robot sẽ cho tiến hành đo độ ẩm của đất tại đó, nếu độ
ẩm thấp hơn giá trị cài đặt sẽ tiến hành tưới, nếu đối tượng là cỏ, robot sẽ tiến hành phun thuốc
Phần mềm gửi và nhận dữ liệu từ Firebase được mô tả ở Hình 3.7 ESP8266 sẽ kết nối wifi và khởi tạo các thiết lập kết nối đến Firebase Sau đó, ESP8266 sẽ lần lượt đọc các biến kích hoạt làm việc của từng chế độ Đồng thời ESP8266 sẽ gửi chuỗi yêu cầu thực hiện chế độ đó đến cho ATMega2560
3.2.4 Thiết kế khối giám sát và điều khiển từ xa
Nhằm giám sát từ xa với hệ thống, chúng tôi thiết kế giao diện người dùng thông qua website và ứng dụng cho điện thoại thông minh (trên nền tảng Android) Website và ứng dụng di động sẽ có thiết kế khá tương đồng, bao gồm 3 trang (tab) và có các chức năng được mô tả như sơ đồ dưới đây (Hình 3.8)
Trang 3939
CHƯƠNG 4 KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ
Trong chương này, chúng tôi trình bày các kết thí nghiệm và đánh giá liên quan đến: (i) mô hình nơ-ron tích chập đa phân giải với kết nối dày cho phân vùng ảnh cây trồng và cỏ dại; và (ii) hệ thống phát hiện đối tượng ứng dụng trong chăm sóc cây trồng
và diệt cỏ dại
Nội dung của chương này được công bố trong bài báo: (i) Tran, Thi Hoang Yen, and Tran Dang Khoa Phan* "Dense Multi-Scale Convolutional Network for Plant
Segmentation." IEEE Access 11 (2023): 82640 – 82651; (ii) Tran Dang Khoa Phan, Van
Thanh Vu “An Automatic System for Crop Monitoring and Culture Based on
IoRT” Tạp Chí Khoa học Và Công nghệ - Đại học Đà Nẵng, vol 20, issue 12.2,
4.1.1 Chi tiết về thực thi
Mô hình DMSCN được huấn luyện và kiểm tra trên máy tính với cấu hình như sau: Window 10 OS, Intel Core i5 CPU, 16GB RAM, và Nvidia GeForce GTX 1070 Ti GPU Thuật toán tối ưu Stochastic Gradient Descent with Momentum (SGDM) được sử dụng
để huấn luyện mô hình Các thông số huấn luyện được thiết lập như sau: hệ số học khởi tạo - 10−3 và giảm với hệ số 0.3 sau mỗi 10 epoch; các giá trị momentum và weight decay lần lượt bằng 0.9 và 0.005 Quá trình huấn luyện được thực hiện trong 50 epoch Sau đó, kết quả huấn luyện thay đổi không đáng kể
Trang 4040
Các cơ sở dữ liệu được chia thành các tập huấn luyện và kiểm tra theo tỉ lệ 0.8 −
0.2 Các kỹ thuật tăng cường dữ liệu (data augmentation) bao gồm đối xứng ảnh và dịch
chuyển ảnh trong khoảng ±10 điểm ảnh được áp dụng để tăng số lượng mẫu của các tập
huấn luyện Kỹ thuật này có thể được xem là yếu tố ổn định hóa (regularizer) nhằm giảm
thiểu hiện tượng overfitting
Chúng tôi sử dụng các tiêu chí Accuracy, Intersection over Union (IoU) và đánh giá trực quan để đánh giá hiệu quả của các mô hình phân vùng ảnh Accuracy được định nghĩa bởi tỉ lệ các điểm ảnh được phân loại đúng đối với mỗi lớp Tiêu chí IoU đo lường
sự tương đồng giữa hai tập hữu hạn Tiêu chí Accuracy đơn giản nhưng không tổng quát Tiêu chí này thường được sử dụng cùng với IoU để đánh giá đầy đủ các kết quả phân vùng ảnh
Accuracy và IoU được biểu diễn như sau:
4.1.2 Nghiên cứu cắt bỏ trên mô hình đề xuất
Trước tiên, chúng tôi chứng tỏ hiệu quả của DMSCN bằng cách xem xét các ưu điểm của các khối đề xuất DMSAP và DCN so với ASPP và các mạng trích xuất đặc
trưng (backbone) của DeepLabv3+ Để đạt được mục tiêu này, chúng tôi thực hiện
nghiên cứu cắt bỏ trên DeepLabv3+ và DMSCN Cụ thể, chúng tôi thực hiện các thí nghiệm đối với DeepLabv3+, trong đó khối ASPP được thay thế bởi khối DMSAP Tương tự đối với DMSCN, khối DMSAP được thay thế bởi ASPP Để thuận tiện, chúng tôi sử dụng các ký hiệu sau: