Vì vậy, luận văn này đã đề xuất xây dựng một hệ thống có thé phát hiện và phân loại bệnh dựa trên các dấuhiệu xuất hiện trên lá, đồng thời áp dụng các kỹ thuật xử lý ảnh... Tiếp theo là
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THÓNG THÔNG TIN
CHAU PHAM ĐĂNG KHOA
LE TRUONG DANH
KHOA LUAN TOT NGHIEP
XAY DUNG HE THONG PHAT HIEN VA PHAN LOAI BENH TREN LA CAY BANG KY THUAT XU LY ANH
Building a plant leaf diseases detection and classification system
using image processing technology
KY SU NGANH HE THONG THONG TIN
TP HO CHi MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THÓNG THÔNG TIN
CHÂU PHẠM ĐĂNG KHOA - 16520594
LÊ TRƯỜNG DANH - 16520177
KHÓA LUẬN TÓT NGHIỆP
XÂY DỰNG HỆ THÓNG PHÁT HIỆN VÀ PHẦN LOẠI
BỆNH TREN LA CÂY BANG KỸ THUAT XỬ LÝ ANH
Building a plant leaf diseases detection and classification system
using image processing technology
KY SU NGANH HE THONG THONG TIN
GIANG VIEN HUONG DAN
TS DOAN HUAN
THS DO THI MINH PHUNG
TP HO CHÍ MINH, 2021
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
¬Ừ ngày của Hiệu trưởng Trường Đại hoc Công nghệ Thông tin.
1 PGS.TS Nguyễn Dinh Thuân — Chủ tịch.
2 ThS Nguyễn Dinh Loan Phương — Thư ký.
3 Ths Vũ Minh Sang ‹‹+s++>5 — Ủy viên
Trang 4LỜI CẢM ƠN
Lời đầu tiên chúng em xin chân thành cảm ơn tất cả các giảng viên trường Đạihọc Công Nghệ Thông Tin đã trực tiếp giảng dạy và cung cấp kiến thức nền tảng quýgiá trong suốt khoảng thời gian chúng em theo học tại trường
Chúng em xin gửi lời cảm ơn sâu sắc đến ThS Đỗ Thị Minh Phụng và TS Đoàn Huấn
đã trực tiếp hướng dẫn, tận tình giúp đỡ trong suốt quá trình thực hiện khóa luận
Đông thời chúng em xin cảm ơn các cá nhân, đoàn thê đã cung câp những tài liệu, giải
đáp những thắc mắc chúng em gặp phải trong khi thực hiện đề tài
Cuối cùng, chúng em xin bày tỏ lòng biết ơn đến bạn bè, gia đình đã hỗ trợ, tin tưởng
động viên chúng em trong quá trình học tập và thực hiện khóa luận.
Sinh viên thực hiện đề tài:
Châu Phạm Đăng Khoa - 16520594
Lê Trường Danh - 16520177
Trang 51.5 Y nghĩa của đỀ tài -5- c2 2E 212121 1111112111211 1121111111 rre 7
1.6 Bố cục báo cáo cccscctc tt 2 121112 t2 tre 7
Chương 2 CƠ SỞ LÝ THUYYÊTT 52 52+E9SE+E£EE£EEEEEEEEEEEEEEEEEEEEEEEEErErrrrkrree 9
QA Tổng quan về xử lý ảnh +: + <2SE+E2E2E9 2121911212115 21111 2111 xe 9
2.1.1 Một số bộ lọc được sử äIuix mm s— 92.1.2 Tổng quan về phân đoạn ảnh - - 2s + ££+E+E£Ee£E+EeEerxzxezcez 12
2.2 Toán tử ETOSIOT Gà rh 13 2.3 Các không gian màu thông dụng - «+ s1 1v ngư 16
2.3.2 7¬ "nã 17 2.3.3 :`“ Ầ A 18
2.4 Thuật toán phân đoạn ảnh của Barbedo - s-c + xsvirsesrreererres 19
2.4.1 Dữ liệu đầu vào ccccctttrhthn ghe 202.4.2 Xóa viền lá ccctt nhieu 202.4.3 Chuyên đổi ảnh sang các không gian màu HSV và LAB 20
2.4.4 Tăng độ tương phản của ảnh eececeseceseeceeesseeseaeenseessaeensees 21
Trang 62.4.5 Xác định ngưỡng phân định và phân đoạn ảnh - ‹‹+++- 23
2.5 Tổng quan về Gray Level Co-occurrence MatriX - ¿5s zcs+s+cecs2 24
2.6 Các thuật toán phân lOại - - - s11 19v SH TH HH ket 25
2.6.1 Tổng quan về thuật toán SVM - 2-52 +22+2E2xczxerxerxerrsrrred 252.6.2 Tổng quan thuật toán KNN + ++2+2E++E£xerxerxereerezrered 252.6.3 Tổng quan thuật toán Random fOrest -¿- ¿5 + ++s++s++x+>s2 25
2.7 Thư viện và phần MEM hỗ tTỢ - - - St St SE SESE+E+ESEEEEEEEEEEEEEErErkrkrrsree 26
2.7.1 OpenCV HH TH HH nh 26 2.7.2 Scikit - Ï€ATR Ăn HH kh 27 2.7.3 Jupyf€r-lab c1 ng kh 27
2.7.4 — Hlask OO Œcc -X Ê - LH He, 28
Chương 3 PHƯƠNG PHAP THUC HIỆN ¿2-5255 2+E+££2E££zEezxzxcrxcsee 29
3.1 Tiền xứ lý ẤP ¬.s.mm Í, ⁄ cc.ccc.e 29
3.1.1 Tao ảnh ground trutH << 11v vn ky 29
3.1.2 _ Trích xuất các đặc trưng trong ảnh - 2 +s+£+z++£erx+xezxsrxes 30
3.1.3 Tiến hành huấn luyện và đánh giá mô hình phân tách ảnh 313.1.4 Cải thiện kết quả của mô hình phân tách ảnh - - 25552 32
3.2 Phân đoạn ảnh - << << << << 2222919111111 v 33
3.3 Trích xuất đặc trưng trong ảnh ¿- ¿5+ +++2x+2++EE2EE2E2Eerkerxerxerrrrrree 343.4 Huấn luyện mô hình phân loại - 2 ¿+ + >++2++S++E++x+zxezxez+zz+zxezed 35Chương 4 ĐÁNH GIA KET QUA PHAN LOẠI - 25 2+s+2s+£+£s+zezxzsez 36
4.1 Đánh giá mô hình bang ma trận nhằm lẫn (Confusion matrix) 364.2 Đánh giá kết quả phân loại dựa trên kênh màu phân đoạn - 394.3 Đánh giá kết quả phân loại giữa các thuật toán - - 2 2s+c+cecezxsez 40
Trang 74.3.1 Đánh giá kết quả phân loại của thuật toán KNN - s5: 404.3.2 Đánh giá kết quả phân loại của thuật toán SVM 5- -5¿ 414.3.3 Đánh giá kết quả phân loại của thuật toán Random Eorest 424.3.4 Đánh giá kết qua phân loại giữa các thuật toán -:- 43Chương 5 TRIÊN KHAI UNG DỤNG -¿ 2: ++2+22++E£2E+£EtExerxerxsrxzreree 44
5.1 YOu 0c nh s3117€4 44
5.2 Mô tả Ứng dụng - . Gv 44
5.3 Mô tả giao diện người Ùng - + 1112211 9v 1n ng re 45
Chương 6 KẾT LUẬN VÀ PHƯƠNG HUONG PHAT TRIÉN - 48
6.1 Kết quả đạt ƯỢC 0011111111111 1 KH He rrt 486.2 Hạn chế cc tt St Sn TS 1111111 1111111111171E 1111111111111 1E EEEE 11x rkri 486.3 Hướng phat triỀn -i- 5t StSEEE2EEE121212152111121212171 21111111 cxe 48TÀI LIEU THAM KHẢO 1 1 12153511311 E5E5511E111515151111111EE1E1111115111 11111 Ee 50
Trang 8DANH MỤC HÌNH
Hình 1.1 Các bước thực hiện - 020111111 111111 111 9995311111111 khen, 5
Hình 2.1 Cách áp dụng bộ ÏỌC - - - E1 111900 1n ng ng ve 10
Hình 2.2 Mô hình chuyên đôi thuật toán của bộ lọc TUN VỊ -ccsS+S<x 11
Hình 2.3 Phan tử cấu trtic seecsescsseessseesseeeesseessseeesneeesneeesneessnsessneesnneesnnecsneeesneeees 13
Hình 2.4 Ảnh nhị phân - 2-2 ¿5£ 2S +E+SE+EE2EE2EE£E£EEEEEEEEEEEEEEEerkerkerrerrrei 14
Hình 2.5 Áp dụng erosion tại điểm in 15
Hình 2.6 Áp dụng erosion tại điểm I((2,2) - - - 5c tt EEEEEEEEEEEEEEESEEEEEEerrrrrrrree 15
Hình 2.7 Kết quả sau khi sử dụng erOSiOH -¿- 5: 2+2 +E££E+E+E£E+E+Eererxzrerree 15
Hình 2.8 Ảnh nhị phân sau khi áp dụng erosion - 2 2+s++szx+z++zzxzzs+ 15
Hình 2.9: Các kênh trong không gian màu RGB được thê hiện riêng biệt ở dạng ảnh
XẤM, Ms AMMO « «Mitton c++ Kline ssssccesccssscMesssecccsoefressonsscessssesseescesceseesses 18
Hình 2.11 Các bước thực hiện của thuật toán Barbedo - + +++++<<<< 19
Hình 2.12 Dữ liệu đầu vào của thuật toán Barbedo -¿-s s s+s+x+x+x+eze£s£zcxz 20
Hình 2.13 (a) là ảnh của kênh màu H trước khi tăng độ tương phản, (b) là ảnh sau khi
tăng độ tương phản - + s11 HH TH TH TH Hiệp 22
Hình 2.14 (a) là ảnh của kênh màu A trước tăng độ tương phản, (b) là ảnh sau khi tăng
độ tương phan và đảo ngược giá trị các điểm ảnh ¿5 c2 z+x+E+£zzxzxezcez 22
Hình 2.15 Histogram của kênh màu lH - + + 1+3 EEE+SEseeereessseeerrs 23
Hình 2.16 (a) là ảnh phân đoạn tại kênh màu H, (b) là ảnh phân đoạn tại kênh màu A
—— äää 24
Hình 2.17 Các phương trong ma trận mức xám đồng hiện - 25¿ 25
Igi1i82E800 9 90ui/.86) 601 ồÖÖỐỐo-.'Ầ 26
Hình 2.19 Logo của sCIKIf-Ï@2TTA - G5 - 5 1111111 11kg tư 27
Hình 2.20 Logo của Jupyter-la - . - << k1 HH Hư 27
Hình 3.1 Mô hình khái quát các bước thực hiện 55 332 +++skxsseerress 29
Trang 9Hình 3.2 Lớp lá được đánh dấu bằng phần mềm LabelMe - - 25¿ 30Hình 3.3 Ground truth được tạo từ phần mềm LabelMe 2-2 2 2s £+z+zzzss2 30Hình 3.4 Ảnh ground truth được tao bởi mô hình phân tách ảnh 32Hình 3.5 Anh sau khi phân tách phan lá và nền - ¿5 + 2 z+x+£+£zzszx+£zz+z 32Hình 3.6 Ảnh lá đã xóa phần nền sau khi sử dụng bộ lọc trung VỊ 33
Hình 3.7 Kết quả phân đoạn bằng thuật toán của Barbedo (a) là ảnh gốc của lá, (b) là
kết quả phân đoạn trên kênh màu H của không gian màu HSV, (c) là kết qua phân
đoạn trên kênh màu a của kênh màu LAP c2 SS* 2< <3 34
Hình 4.1 Ma trận nhằm lẫn cho mô hình phân loại 4 lớp - - 25 =ss2 38
Hình 4.2 Ma trận nhằm lẫn của mô hình với thuật toán KNN - 40Hình 4.3 Ma trận nhằm lẫn của mô hình với thuật toán SVM csc+=+ 41Hình 4.4 Ma trận nhầm lẫn của mô hình với thuật toán Random Forest 42
Hình 4.5 Bang các chỉ số phân loại của thuật toán Random Forest - 43
Hình 5.1 Cấu tạo của ứng dụng :- ¿©s+S+2k9EE2ESEE2E2EE21212112111212121 E11 cxre, 44
Hình 5.2 Giao diện của Ứng dỤng - - s 1111k ngư 45
Hình 5.3 Giao diện ứng dụng khi hoàn tat phân loại - - 2 + s+=z+s+s+ 46
Trang 10DANH MỤC BANG
Bảng 3.1 Phân bố dữ liệu huấn luyện và kiểm thử -2- 2-5255 5s>+zc+zz+>sz 35Bang 4.1 Ma trận nhằm lẫn cho phân loại nhị phân - - 2-5 2+s5s+szszsz 36Bảng 4.2 Ma trận nhằm lẫn cho phân loại nhị phân - - + 2-5 2 2+s+sz£z>+2 37
Bang 4.3 Độ chính xác phân loại khi phân đoạn trên kênh màu H 39
Bang 4.4 Độ chính xác phân loại khi phân đoạn trên kênh màu A 39
Bảng 4.5 Bang các chỉ số phân loại của thuật toán KNN 5c cs+s+ 40Bảng 4.6 Bảng các chỉ số phân loại của thuật toán SVM - 2 2©5+s+cz55¿ 42Bang 5.1 Các thành phần có trong giao điện - ¿2 + 2 s+s+££+E+Ee£zzxzEzrcez 47
Trang 11DANH MỤC TU VIET TAT
Trang 12DANH MỤC THUẬT NGỮGray Level Co-occurrence Matrix | Ma trận mức xám đồng hiện
Machine Learning | Máy học
Data Mining | Khai thác dữ liệu
Ground Truth | Ảnh xám thể hiện các lớp trong ảnh
Threshold | Ngưỡng phân định
Trang 13TÓM TÁT KHÓA LUẬN
Việt Nam là một quốc gia nông nghiệp xuất khẩu lúa gạo đứng thứ 2 thế giới
(7/2020), sản lượng lúa thu hoạch trong tháng 10 năm 2019 ước tính đạt 37,9 triệu
tấn, tăng 0.2 triệu tấn so với cùng kỳ, năng suất bình quân ước đạt 59.9 tạ/ha
(ncif.gov.vn) Nông nghiệp là một trong những ngành mang lại nguồn thu nhập chính,
vì vậy hơn một nửa dân số nước ta phụ thuộc vào nông nghiệp dé kiếm sống Tuy
nhiên do các yếu tố như dịch bệnh, sâu bệnh tấn công và sự thay đổi thời tiết đột ngộtdẫn đến giảm năng suất cây trồng Việc phát hiện bệnh trên cây trồng một cách tựđộng là hết sức cần thiết để nhanh chóng phát hiện các triệu chứng của bệnh ngaytrong giai đoạn phát triển
Dé giải quyết van đề đó, việc áp dụng các kỹ thuật cần thiết dé xây dựng một hệ thống
có khả năng hỗ trợ việc chan đoán bệnh trên cây trồng một cách tự động, đang đượcnhiều nơi nghiên cứu và phát triển Thông qua kỹ thuật xử lý hình ảnh, ngày cảng cónhiều đề tài nghiên cứu khoa học về việc áp dụng xử lý ảnh trong việc giải quyết cácvan đề liên quan trong cuộc sông Khóa luận này đề xuất các bước dé phân loại bệnhcủa lá cây bằng kỹ thuật xử lý ảnh Đề tài “Xây dựng hệ thống phát hiện và phân loạibệnh trên lá cây băng kỹ thuật xử lý ảnh” đã thực hiện được:
e Tim hiểu và áp dụng các phương pháp xử lý anh dé giải quyết van đề phát hiện
và phân loại bệnh trên lá cây trồng
e Ap dụng thuật toán phân loại random forest dé phân tách phan lá và nền trong
ảnh lá.
e So sánh và đánh giá độ chính xác, độ hiệu quả của các thuật toán phân loại
e Xây dựng một ứng dụng có thé ứng dụng phương pháp phân loại vào thực tiễn
Trang 14Chương 1 TONG QUAN DE TÀI
Nội dung chương này trình bay về lý do chọn đề tai, khảo sát các công trình liênquan dé đưa ra mục tiêu, đối tượng, phạm vi, phương pháp thực hiện, ý nghĩa khoa
học và tính thực tiễn của dé tài khóa luận.
1.1 Đặt vấn đề
Nông nghiệp là ngành đóng vai trò quan trọng không chi trong nền kinh tế màcòn giúp đảm bảo nền an ninh lương thực đất nước Tuy nhiên, sản pham của nôngnghiệp Việt Nam vẫn chưa được đánh giá cao vì trong quá trình trồng sử dụng nhiều
chất hóa học Theo ông Herb Cochran — cô vấn chương trình thuận lợi hóa thươngmại của Mỹ tại Việt Nam cho biệt một trong 4 van dé [1] mà nông sản Việt Nam
thường gặp khi xuất khẩu nông sản là mối nguy về hóa học (phóng xạ, thuốc trừ sâu
và dư lượng thuốc, phụ gia và các chất gây di ứng thực phẩm) Dé nâng cao chấtlượng sản phẩm nông nghiệp, ta cần có những biện pháp dé phát hiện bệnh sớm nhằm
xử lý và tránh việc sử dụng những thuốc hóa học ảnh hưởng đến cây trồng Ngoài ra,việc phát hiện bệnh sớm cũng là cách dé giam kha nang mat mùa vu do dịch bệnh
Hiện nay, da số trường hợp khi cây đã phát bệnh và gây thiệt hại thì mới được pháthiện Khi đó, năng suất của cây đã bị ảnh hưởng và người bị thiệt hại nhiều nhất lànông dân Việc phát hiện bệnh bằng mắt thường không cho độ chính xác cao và tốc
độ phát hiện bệnh cũng không nhanh Nhưng dé có sự tư vấn của chuyên gia thường
mat thời gian, tốn kém và các chuyên gia nông nghiệp cũng không thể luôn đến mỗi
vườn cây định kỳ để kiểm tra cây trồng Vì vậy, việc có một hệ thống tự động pháthiện bệnh của cây trồng là một nhu cầu cần thiết và thiết thực
Là bộ phận dễ phát hiện và quan sát nhất của cây, lá cây có thê phản ánh nhanh nhất
tình trạng của cây trồng khi bị thiếu dinh dưỡng hoặc bị bệnh Vì vậy, luận văn này
đã đề xuất xây dựng một hệ thống có thé phát hiện và phân loại bệnh dựa trên các dấuhiệu xuất hiện trên lá, đồng thời áp dụng các kỹ thuật xử lý ảnh
Trang 151.2 Khảo sát các công trình liên quan
Nông nghiệp là một ngành quan trọng với nhiêu quôc gia, nhiêu chủ đê về việc
xác định và phân loại bệnh trên lá cây đã được đưa vào nghiên cứu và phát triển
Nghiên cứu [2] của tác giả Yin Min Oo và Nay Chi Htun sử dụng kỹ thuật xử lý ảnh
để phân loại các loại bệnh trên lá cây bao gồm bệnh gi lá, bệnh đốm lá do nắm
Cercospora, bệnh phấn trăng, bệnh cháy lá Dữ liệu ảnh của hai tác giả được thu thập
từ máy ảnh kỹ thuật số và lấy từ internet bao gồm tổng cộng 560 lá bị nhiễm các loạibệnh trên Ở bước tiền xử lý, các ảnh được thay đôi kích thước thành kích thước tiêuchuẩn và chuyền không gian màu từ RGB sang HSV Bộ lọc trung vị (Median Filter)
được sử dụng để khử nhiễu Sau đó, ảnh được tăng độ tương phản bằng phương pháp
cân bằng sáng (histogram equalization) Tiếp theo là phân đoạn ảnh được thực hiệnbang phương pháp K-means dé gom cụm các ảnh dựa trên kênh màu H của ảnh thành
3 cụm và chọn cụm có chứa phần nhiễm bệnh của lá dé tiến hành trích xuất đặc điểm.Các đặc điểm được trích xuất bao gồm màu sắc, các chỉ số được tính từ ma trận mứcxám đồng hiện (Gray level co-occurrence matrix) của ảnh và trích xuất đặc trưng
Local Binary Pattern Bước phân loại được thực hiện bằng cách sử dụng thuật toán
Support Vector Machine (SVM), K-nearest Neighbors và Ensemble classifier Trong
3 thuật toán trên thì thuật toán SVM cho kết quả tốt nhất, độ chính xác trung bình là
98.2% cao hơn độ chính xác của hai thuật toán KNN là 80.2% và thuật toán Ensemble classifier là 84.6%.
Hai tác giả Bhong va Pawar trong nghiên cứu [3] sử dụng thuật toán K-means déphân loại bệnh của lá và mạng thần kinh nơ-ron để xác định vị trí phần bị bệnh trên
lá cotton Anh của lá cotton được chụp từ máy ảnh kỹ thuật số Ở bước tiền xử lý,ảnh được tăng độ tương phản bằng cách sử dụng phương pháp cân bằng sáng Phần
bị bệnh của lá và phần khỏe mạnh được phân đoạn bang cách su dụng một ngưỡngphân định (threshold) để phân tách điểm ảnh từ đó tạo được ảnh nhị phân (ảnh chỉ có
hai màu là đen và trắng) với màu trắng lá điểm ảnh có giá trị cường độ lớn hơn giá
tri giới han Phan bi bệnh của lá được phân loại bằng cách sử dụng thuật toán means Các bệnh được phân loại gồm đóm đỏ, đốm trắng, dém vang, bénh do hai loai
Trang 16K-nam Alternaria và K-nam Cercospora gây ra trên lá cây cotton Dé thử nghiệm, hai tác
giả sử dụng công cụ MATLAB và cho độ chính xác là 89.59% và thời gian thực hiện
là 436.95 giây.
Nghiên cứu cua Gaurav Kshirsagar và Prof A N Thakre [4] nhằm xác định bệnh từ
lá và quả của cây trồng Các tác giả giải quyết bài toán theo 6 bước: thu thập dữ liệu,
tiền xử lý ảnh, phân đoạn ảnh, trích xuất đặc trưng ảnh, phân loại và cuối cùng lànhận dạng Với bước thu thập hình ảnh, các ảnh được chụp từ máy ảnh kỹ thuật SỐ.Các ảnh được chụp bao gồm ảnh của lá và quả trong tình trạng khỏe mạnh và bị bệnh.Với bước tiền xử lý ảnh nhằm tăng cường các đặc trưng của ảnh Các kỹ thuật đãđược sử dụng bao gồm thay đôi kích thước và hình dạng của ảnh, lọc nhiễu Ở bướcphân đoạn hình ảnh, ảnh được chuyên sang không gian mau LAB sau đó sử dụngthuật toán K-means dé phân vùng hình ảnh thành các cụm trong đó có ít nhất mộtcụm chứa phần bị bệnh Trong bước trích xuất đặc trưng ảnh, các đặc trưng đượcnhóm tác giả sử dụng là màu sắc, kết cấu, hình thái và cau trúc Các kết cau đượcthống kê bằng bằng ma trận mức xám đồng hiện (GLCM) Với bước cuối cùng làphân loại bệnh được thực hiện bằng thuật toán SVM và thuật toán K-means
Các nghiên cứu đa SỐ sit dụng thuật toán K-means để gom cụm kênh màu của ảnh vàsau đó chọn ra cụm chứa phần nhiễm bệnh của lá đề thực hiện trích xuất đặc điểm
Phương pháp này có một điểm yếu là ta không thé biết được cụm nào chứa phan bị
bệnh đề chọn khi thực hiện tự động cho nhiều dữ liệu Thuật toán do Barbedo [5] đềxuất sử dụng một ngưỡng phân định lấy từ phân tích biéu đồ tần suất dựa trên kênh
màu H của không gian mau HSV và kênh mau A của không gian mau LAB Với giá
trị ngưỡng phân định đã tìm được, ta có thể tạo được ảnh chỉ có vùng bệnh trên lá.Việc còn lại cho người dùng là chọn ảnh được phân đoạn tốt hơn Tuy bước cuối vẫnyêu cầu người dùng tham gia nhưng kết quả trên hai phân đoạn đều cho kết quả khátốt Vì vậy, ta có thể dùng cả hai cho bước trích xuất đặc điểm Ngoài ra, thuật toán
Barbedo sẽ hoạt động tốt khi ảnh chỉ chứa ảnh lá còn nền được chuyền về màu đen
Trang 17Sau khi tham khảo các bài nghiên cứu, nhóm quyết định xây dựng phương pháp phân
loại bệnh trên lá qua 5 bước là thu thập dữ liệu, tiền xử lý ảnh, phân đoạn ảnh, trích
xuất đặc trưng trong anh và cuối cùng là phân loại ảnh Cụ thé:
Tải ảnh của lá cây bị Tách phần lá và
nhiềm bệnh phần nên trong ảnh Phân đoạn ảnh
Hiền thị tên bệnh
và phân trăm
chính xác
Hình 1.1 Các bước thực hiện
e Tiền xử lý: chuẩn bị ảnh cho thuật toán phân đoạn ảnh Barbedo Thực hiện
xóa đi phần nền trong anh bang cách tạo một mô hình dé phân biệt một điểmảnh thuộc về lá hay là phần nên Các đặc trưng được dùng để huấn luyện baogồm: màu sắc và kết quả biến đổi ảnh bằng cách sử dụng các bộ lọc: bộ lọc
trung vi, bộ lọc Gaussian và bộ loc Variance.
e Phan đoạn anh: tìm những vùng bị bệnh trong lá được thực hiện bằng thuật
toán phân đoạn ảnh Barbedo Do thuật toán cho kết quả phân đoạn ảnh trên
hai kênh màu, nên kênh màu phân đoạn được chọn dựa trên kết quả phân loại.Kênh màu nào cho kết quả phân loại tốt hơn sẽ được chọn để sử dụng trong
ứng dụng.
e_ Trích xuất đặc trưng ảnh: các đặc trưng được sử dụng cho phân loại là màu
sắc và các chỉ số được tính từ ma trận mức xám đồng hiện
e Phân loại anh: các thuật toán Random Forest, SVM, KNN được sử dụng dé
phân loại sau đó sẽ tiến hành so sánh kết quả giữa ba thuật toán dé chon đượcthuật toán cho kết quả phân loại tốt nhất và kênh màu phân đoạn
Trang 181.3 Mục tiêu và phạm vi khóa luận
Xây dựng ứng dụng xác định và phân loại bệnh trên cây trồng bằng cách áp
dụng các kỹ thuật và nghiên cứu liên quan.
1.4 Phương pháp thực hiện
Bước 1: Thu thập dữ liệu.
Bước 2: Tim hiéu các phương pháp kỹ thuật xử lý ảnh và thuật toán phân loại
dữ liệu phù hợp với bài toán.
Bước 3: Thực hiện tiền xử lý ảnh
Bước 4: Thực hiện phân đoạn ảnh.
Bước 5: Thực hiện trích xuất các đặc trưng ảnh
Bước 6: Thực hiện phân loại bệnh.
Bước 7: So sánh, đánh giá, kết luận độ chính xác và tối ưu của các mô hình đã
được huấn luyện để đưa ra lựa chọn phù hợp cho bài toán đặt ra
Bước 8: Xây dựng ứng dụng sử dụng các mô hình đã được lựa chọn dé đáp
ứng yêu câu của đê tài.
! Nguồn: https://www.kaggle.com/vipoooool/new-plant-diseases-dataset
Trang 191.5 Ý nghĩa của đề tài
Việc xây dựng được hệ thống xác định và phân loại bệnh trên lá cây giúp nôngdân có thé xác định bệnh của cây sớm dé giảm được thiệt hai Ngoài ra, khi bệnh của
cây trồng được phát hiện sớm còn giúp giảm lượng thuốc hóa hoc cần sử dụng déchữa bệnh giúp tăng chất lượng sản phẩm nông nghiệp, nâng cao sức khỏe người dân
vì có nguồn lương thực tốt và tăng nguồn lợi kinh tế
1.6 Bô cục báo cáo
Báo cáo được chia thành 6 chương Các chương được tô chức như sau:
Chương I — Tổng quan dé tài
Trinh bày về ly do chon dé tài, khảo sát các công trình liên quan dé đưa ra mục
tiêu, đối tượng, phạm vi và phương pháp thực hiện
Chương 2 — Cơ sở lý thuyết
Chương này sẽ mô tả khái quát về các kỹ thuật xử lý ảnh, thuật toán phân đoạn
ảnh Barbedo, thuật toán phân loại ảnh, các không gian mau và các thư viện hỗ trợ
được sử dụng trong quá trình thực hiện đề tài
Chương 3 — Phương pháp thực hiện
Trình bày tổng quát phương pháp thực hiện dé xác định bệnh trên lá cây trồng.Chương 4 — Đánh giá kết quả phân loại
Trong chương này, báo cáo sẽ đưa ra phương pháp đánh giá kết quả phân loại
và kết quả thực nghiệm dựa trên bộ dữ liệu có được Từ đó đưa ra đánh giá dựa kết
quả của các thuật toán.
Chương 5 — Triển khai ứng dụng
Chương này sẽ trình bày ứng dụng được triển khai bao gồm các yêu cầu, mô tả
giao diện của ứng dung.
Chương 6 — Kết luận và hướng phát triển
Trang 20Trinh bày tổng quan những nội dung được thực hiện trong khóa luận, các kết
quả đạt được và những hạn chế mà khóa luận gặp phải Bên cạnh đó, báo cáo cũng sẽ
đề xuất phương hướng phát triển của dé tai trong tương lai
Trang 21Chương 2 CƠ SỞ LÝ THUYET
Chương này sẽ mô tả khái quát về các kỹ thuật xử lý ảnh, thuật toán phân đoạn
ảnh Barbedo, thuật toán phân loại ảnh, các không gian mau và các thư viện hỗ trợ
được sử dụng trong quá trình thực hiện đề tài
2.1 Tổng quan về xử lý ảnh
Xử lý ảnh là đối tượng nghiên cứu của lĩnh vực thị giác máy, là quá trình biếnđôi từ một ảnh ban đầu sang một ảnh mới với các đặc tính và tuân theo ý muốn củangười sử dụng Xử lý ảnh có thể gồm quá trình phân tích, phân lớp các đối tượng,làm tăng chất lượng, phân đoạn và tách cạnh, gán nhãn cho vùng
Trong các phép biến đổi ảnh, sử dụng bộ lọc (filter) cho ảnh là một kỹ thuật được sử
dụng rộng rãi.
2.1.1 Một số bộ loc được sử dụng
Nguyên lý hoạt động của bộ lọc ảnh là nhân ma trận của bộ lọc (filter) với ma
trận ảnh Ví dụ như Hình 2.1, với ảnh gốc là O, hình kết quả sau khi áp dụng bộ lọc
là P và bộ lọc được áp dụng có kích thước 3x3 Khi áp dụng bộ lọc với điểm O(4.4),
ta nhân các điểm anh trong vùng O(3,3) tới O(5,5) với bộ lọc dé được kết quả là điểmảnh P(4,4) Tương tự, điểm ảnh P(4,5) sẽ là kết quả của việc nhân các điểm ảnh trong
vùng từ O(3,5) tới O(5,6) Cứ như vay tất cả ảnh sẽ được áp dụng bộ lọc
Trang 22Anh sau khi đã xử lý
Lọc Trung vị là một kĩ thuật lọc phi tuyến, khá hiệu quả đối với hai loại nhiễu:
nhiễu dém và nhiễu muối tiêu Ban đầu số trung vị được sử dụng rộng rãi trong thống
kê Được giới thiệu bởi Tukey trong phân tích chuỗi thời gian vào năm 1970 [6].
Y tưởng chính của thuật toán lọc trung vi như sau: sử dung một cửa số lọc quét qua
lân lượt từng diém ảnh của anh đâu vào Giá trị mới của điêm anh đang xét sẽ là giá
10
Trang 23trị trung vị của vùng xung quanh điểm ảnh đó có kích thước bằng với kích thước của
bộ lọc Cụ thể như sau khi ảnh được áp dụng bộ lọc trung vị với kích thước là 3x3
6| 2| 5 | *
1| 9 | 4 Trong dãy số: 0, 2, 2, 4, 5, 7, 9, * | 4
7 2 0 sô 4 là giá trị median x x
Hình 2.2 Mô hình chuyên đổi thuật toán của bộ lọc trung vi
Cách thức thực hiện:
1 Quét cửa số lọc lên các thành phần của ảnh sốc; điền các giá tri vào cửa số lọc
2 Xử lý các thành phan trong cửa số lọc
nhiễu và mức độ chỉ tiết (không mong muốn) của ảnh Trong hình ảnh, tần số liên
quan đến sự chuyên đổi đột ngột hơn về độ sáng hoặc mau sắc Hơn nữa nhiễu thườngđược nhúng trong đải cao của phổ (một cách biéu hiện tín hiệu trong miền tần số) [7].Xét trên miền tần số, Gaussian sẽ giảm thành phan tan số cao (thường là nhiễu) trongảnh và chỉ giữ lại thành phần tần số thấp Nó tương tự như bộ lọc trung vị, nhưng nó
sử dụng một ma trận khác thé hién hinh dang cua ham Gauss
2.1.1.1.3 Bộ loc Variance
Bang cách phân chia các điểm ảnh thành các ma trận sau đó tính phương sai va
so sánh với ngưỡng giá trị, nếu giá trị điểm ảnh lớn hơn giá trị ngưỡng ta xác định
điểm ảnh thuộc vùng ảnh Ngược lại nếu giá trị điểm ảnh nhỏ hơn giá trị ngưỡng ta
xác định điêm ảnh thuộc vùng
11
Trang 242.1.1.2 Bộ lọc xác định kết cấu Gabor
Bộ loc Gabor được đặt tên theo Dennis Gabor là bộ lọc nhạy cảm định hướng,
được sử dụng dé phân tích kết cấu Bộ lọc gabor có khả năng phân tích hình ảnh
tương tự hệ thống thị giác con người Các bước chính của phương pháp này bao gồmchuẩn hóa ảnh, ước lượng hướng vân cục bộ, ước lượng tần số vân cục bộ, tạo các
vùng mặt nạ và lọc gabor.
Trong xử lý hình ảnh, quá trình trích xuất đặc điểm của bộ lọc gabor bắt đầu bangviệc áp dụng bộ lọc gabor hai chiều cho từng hình riêng lẻ Quá trình này tuân theonguyên lý bất định của bộ lọc gabor, trong đó tích của độ phân giải và thời gian phảilớn hơn một hằng số
Kết quả của bộ lọc là một hình ảnh Từ hình ảnh này hai đặc điểm được trích xuấtbao gồm entropy và energy [8]
2.1.2 Téng quan về phân đoạn ảnh
Phân đoạn anh là phương pháp dé chia bức ảnh thành các vùng khác nhau Mỗi
vùng thể hiện cho một đối tượng mà ta quan tâm tới ví như phần bị bệnh của lá Mỗi
vùng của ảnh sẽ được gán nhãn, các vùng có chung nhãn sẽ có đặc tính giống nhaunhư: màu sắc, kết câu hay là ý nghĩa thể hiện Nó là một công cụ có giá trị trong nhiềulĩnh vực Các kỹ thuật thường dùng để phân đoạn hình ảnh là: giá trị ngưỡng, phân
cụm, mạng nơ-ron nhân tạo.
2.1.2.1 Phân đoạn dựa trên khu vực
Phân đoạn dựa trên khu vực được thực hiện bang cách chon ngưỡng phân định
để phân biệt các vùng riêng biệt trong ảnh Một ví dụ của các phân đoạn này là thuậttoán Barbedo dùng dé phân đoạn anh lá bị bệnh sẽ được giới thiệu chi tiết ở phần 2.4
Bằng cách phân tích biểu đồ tần suất của ảnh thuật toán sẽ xác định ngưỡng phân
định Nếu giá trị điểm ảnh lớn hơn ngưỡng phân định có nghĩa là điểm ảnh đó thuộc
về vùng lá khỏe mạnh và ngược lại điêm ảnh thuộc vùng lá bi bệnh.
12
Trang 252.1.2.2 Phan đoạn phát hiện cạnh
Phân đoạn phát hiện cạnh xác định tập điểm ảnh mà tại điểm ảnh đó xảy ra sựthay đôi đột ngột về cường độ sáng không liên tục của hình ảnh, dé phát hiện các cạnh
và từ đó xác định ranh giới của đối tượng
2.1.2.3 Phân đoạn dựa trên phân cụm
Phân đoạn dựa trên phân cụm sẽ phân đoạn ảnh thành các vùng bằng cách chiađiểm ảnh thành các cụm Một trong những cách thường được sử dụng nhất dé phânloại lá bị bệnh là gom cụm theo màu sắc với thuật toán K-means Được trình bày
trong phan 1.2 “Khảo sát các công trình liên quan”
2.2 Toán tử Erosion
La một trong hai toán tử hình thái học căn bản Toán tử này sử dụng một phan
tử câu trúc đê làm giảm kích thước của các đôi tượng trong ảnh.
Phần tử cấu trúc là một hình khối được định nghĩa sẵn dé kiểm tra ảnh có thỏa mãnmột tính chất nào đó Phần tử cấu trúc là một ma trận chỉ chứa giá trị 0 và 1 Mộtđiểm ở trong ma trận sẽ được chọn làm điểm sốc để có thực hiện các phép tính Ví
dụ với một phan tử câu trúc S như sau:
Trang 26e z: là vector.
e E: là mặt phăng Euclid chứa A
e Bz: là sự dịch chuyền của B theo véc-tơ z
Giả sử có một ảnh nhị phân I được biéu diễn ở dạng ma trận như sau:
Khi áp dung erosion, với ảnh gốc là I và sử dụng cau trúc phân tử S, ta đặt điểm gốc
của cau trúc phân tử lên từng điểm ảnh trên I Nếu một điểm ảnh của I và các điểm
ảnh lân cận ứng với chứa S, điểm ảnh đó sẽ là 1 ở ảnh kết quả Ngược lại, điểm anh
đó sẽ được chuyên thành 0 ở ảnh kết quả Tiếp theo, lặp lại quá trình với từng điểmảnh cua I Ví dụ: áp dụng toán tử erosion tại điểm I(1,1) như sau, do điểm vùng lâncận I(1,1) chỉ có 2 phần tử nên điểm ảnh sẽ chuyền thành 0 ở ảnh kết quả Áp dụngtại điểm I(2,2), do vùng từ I(1,2) tới I(3,2) có giá trị giống S nên tại ảnh kết quả có
giá trị là 1.
14
Trang 27Hình 2.6 Ap dung erosion tại điểm
12,2)
Hình 2.5 Áp dụng erosion tại điểm 11,1)
Hình 2.7 Kết quả sau khi sử dụng erosion
=>
I T
Hình 2.8 Ảnh nhị phân sau khi áp dụng erosion
Ngoài áp dụng cho ảnh nhị phân, erosion có thé áp dụng cho ảnh xám dé giảm kíchthước của đối tượng trong ảnh
15
Trang 282.3 Các không gian màu thông dụng
2.3.1 RGB
Với ảnh ở không gian màu RGB, mỗi điểm ảnh bao gồm 3 chỉ số:
e R- Red là hệ số màu đỏ.
e G- Green là hệ số màu xanh lá
e B- Blue là hệ số màu xanh dương
Mau sắc của mỗi điểm ảnh sẽ được tinh dựa trên 3 kênh màu Ngoài ra, độ sáng tốicủa ảnh cũng ảnh hưởng đến 3 kênh màu Khi quan sát ảnh của cùng một vật thê ở
điều kiện ánh sáng khác nhau ta sẽ thấy điều này Ví dụ như hình sau:
Hình 2.9: Các kênh trong không gian mau RGB được thé hiện riêng biệt ở dang ảnh
Trang 29sáng của môi trường chụp ảnh Chính vì sự không thống nhất này khiến cho việc thựchiện phân loại màu ở không gian RGB cho kết quả không tốt.
2.3.2 LAB
Với anh thuộc không gian mau LAB, mỗi điểm anh bao gồm 3 chỉ số:
e L- Lightness là độ sáng của điểm ảnh có giá trị từ 0 đến 100
e A là hệ số màu có giá trị từ màu xanh lá đến màu đỏ Với giá trị âm, màu được
thé hiện sẽ nghiêng về màu xanh Ngược lại, khi có giá trị dương màu thé hiện
sẽ nghiêng về màu đỏ
e B là hệ số màu từ màu xanh da trời đến màu vàng
Hệ màu LAB khác biệt với hệ màu RGB Với hệ màu RGB, thông tin về màu sắc sẽđược chia thành ba kênh khác biệt nhưng đồng thời cả ba kênh màu cũng mang thôngtin độ sáng hay tối của điểm ảnh Còn hệ màu LAB, thông tin về độ sáng được lưu ởkênh L tách biệt với hai kênh màu còn lại Điều này mang lại các đặc điểm khônggian màu LAB là gần giống với mắt của con người nên nó không bị phụ thuộc vàothiết bị chụp ảnh hay thiết bị hiển thị Vi dụ như sau:
17
Trang 30Hình 2.10: Các kênh trong không gian màu LAB được thê hiện riêng biệt ở dạng
ảnh xám 3
So sánh Hình 2.9 và Hình 2.10 Với ảnh ở không gian màu RGB, màu sắc trên ở cáckênh màu bị ảnh hưởng ở điều kiện sang khác nhau do đó sẽ khó đề thực hiện tínhtoán với các ảnh do màu sắc bị ảnh hưởng nhiều Còn với ảnh ở không gian màuLAB, trong điều kiện sáng khác nhau thì màu sắc không bi thay đổi nhiều ở hai kênhmàu A và B Do đó, khi thực hiện phân đoạn ảnh dựa trên màu sắc trên không gian
màu này sẽ cho kêt quả chính xác hơn.
2.3.3 HSV
Mỗi điểm ảnh trong không gian màu HSV bao gồm ba chỉ số:
e H-—Hue: hệ số màu Có giá trị từ 0 — 360 Màu sắc trong hệ màu được thể
hiện bằng 1 vòng tròn với mỗi giá trị là 1 màu.
e S— Saturation: hệ số là độ đậm của màu Khi S = 0 thì màu sẽ có màu trắng
vì lúc này màu nhạt đến mức ta ko thấy được, khi S = 100 thì màu sẽ có màu
tương ứng ở độ sáng cao nhất Khi S giảm từ 100 đến 0 thì màu sẽ nhạt dần
3 https://learnopencv.com/color-spaces-in-opencv-cpp-python/
18
Trang 31e V-—Value: hệ số chỉ độ sáng của màu Có giá trị từ 0 — 100 Khi V bang 0 thì
màu chuyên thành màu đen ( kế cả khi S = 0), khi V bằng 100, màu sắc sẽ có
mau vốn có của nó
So với không gian màu LAB va RGB, HSV chỉ lưu thông tin màu trên một kênh mau
cho nên giống như không gian màu LAB, kênh màu H của không gian màu HSV
cũng ít bị ảnh hưởng bởi độ sáng của môi trường xung quanh.
Vì vay, không gian màu LAB va HSV thường được dùng dé phân đoạn anh
2.4 Thuật toán phan đoạn ảnh của Barbedo
Thuật toán Barbedo [5] phân đoạn anh thông qua việc xây dựng và xử lý biểu
đồ tần suất trên kênh màu H của không gian mau HSV và kênh màu A của khônggian màu LAB đề tìm ngưỡng phân định đề xác định vùng lá bị bệnh và vùng lá khỏe
mạnh trên ảnh.
Đa số các bước trong thuật toán đều được thực hiện tự động ngoại trừ bước cuối cùng
là người dùng sẽ chọn anh có kết quả phân đoạn tốt hon dé làm kết quả Thuật toánbao gồm các bước sau:
Chuyén ảnh sang màu A
không gian màu LAB
Phân tích Histogram đề tìm
giá tri threshold
Xây dựng
Histogram Phan doan anh
Người dùng chon
Hình 2.11 Các bước thực hiện của thuật toán Barbedo
19