phương pháp, mô hình học sâu phổ biến trong bài toán phân đoạn ảnh như FCN,Unet, DeepLab, YOLOv8, PSPNet dé phân tích hình anh của tằm nhăm phát hiện các con bị bệnh, đồng thời các kỹ th
Trang 1ĐẠI HOC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA KHOA HOC VA KY THUAT THONG TIN
HO ANH KHÔI - 20521477
KHOA LUAN TOT NGHIEP
PHAT HIEN TAM BENH SU DUNG HOC SAU VA CONG
NGHE THI GIAC MAY TINH
SILKWORM DISEASES DETECTION USING DEEPLEARNING
AND COMPUTER VISION TECHNOLOGY
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TS DO TRONG HOP
TS TRAN VAN THANH
TP HO CHÍ MINH, 2024
Trang 2trường đã trở thành hành trang vô giá giúp chúng em hoàn thành khóa luận tốt nghiệp
này cũng như chinh phục những thử thách trong tương lai.
Cuối cùng, nhóm cũng xin gửi lời cảm ơn đến những người thân, gia đình, bạn bè
đã luôn đồng hành, động viên, ủng hộ, và giúp đỡ trong suốt chặng đường trình học tập
và quá trình thực hiện khóa luận.
Một lân nữa chúng em xin chân thành cảm on!
Tác giả
Hồ Anh Khôi
Trang 3MỤC LỤC
Chương 1 TONG QUANN - - 2-56 St2EEEE9 E9 19E1511511211211211211211111211 1.1.1.1, 23
1.1 _ Giới thiệu bal toán -.- G5 ST TH HT rệt 23
1.2 Tính ứng dụng thực tiễn ¿5+ 2 +s+E£E++E+E£EE£EeEEEErEerkrkrrrrxrrrreree 26
Chương 2 CAC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN - 27
2.1 Cac công trình nghiên cứu trong NUGC - - 55+ +< + ++£+svsseeseeeree 27
2.2 Cac công trình nghiên cứu ngoal HƯỚC - - 55 55+ x*+++ssvsseereeeree 29
2.3 Những vấn đề còn tỒn tại :- 6: StSt2EE‡EEE E2 1221221211211 xe 302.4 Hướng giải quyết của đề tài -¿2-s¿- 5¿©c+2ck2EkeEEEEEEEEEErkrrkrrrkerrkee 31
Chương 3 DU LIEU ceceeececccccccsccscssesssscssssessetussscsessesucscsussvcsesucseescsucsesscsessesseaeescees 32
iP DY COM 20 006 LU b (ols nce 32 3.2 Quy trình xây dựng bộ dữ liệu -.- cece cee Sư, 33
3.2.1 _ Thu thập dữ liệu - 22c St S2 Si 34
3.2.2 Xây dựng hướng dẫn gán nhãn - 2 2 ++s+s++x+zx+xzxezxzss 34
3.2.3 Gán nhãn và đánh gIá - G119 231831 119311311181 1111 ke rree 383.3 Phân tích, thống kê bộ dit liệu - ¿2 +++£+£++£x+£x++x+erxerxesrxerxee 40
Chương 4 PHƯƠNG PHÁP 2-©22Ss+EE2EEEEEEEEE2EEEEEEEEEEEEEErrrerkee 43
4.1 Tổng quan về phương pháp đề xuất - 2-2 2 2 2+£++£+£zEzxezxeee 43
4.1.1 Giới thiệu bài toán phân đoạn ảnh 5-5 s5 + +seeeseeess 434.1.2 Hướng giải quyẾt :-5cS<SEE SE 2122121111211 xe,454.2 _ Tiền xử lý dữ liệu :-©++2k+EE E2 E2E1211211211211211211 1.1.1 514.3 Mô hình để xuất -+2tttthHnHHH HH 55
AB PCN — 55
Trang 44.3.2 net( nọ HT ng ng ke 56
4.3.3 YOLOV§ Ă 2S 2H HE E2 1 122121101 1e 58
4.3.4 DeepLab -.-2+ 2t 222 122122112212211211211 1112111111 cEcre 60 4.3.5 PSPNG Q2 S2 TH HH1 121 re 63
5.1 _ Kết quả thực nghiệm ¿ 2¿-+¿22++2E++EEEtEEEtEEEeEEsrksrkrrrrerrree 70
5.2 Phan tích lỗi và đánh giá về kết quả -¿+ +++++x++zx+zx+zzxerxe+ 72
Chương 6 KẾT LUẬN VÀ HƯỚNG PHAT TRIÊỀN :-¿+¿ 79
6.1 Kt luận -2-©2c22E 2k2 2E1E212112112121121111 11.111 796.2 Hạn chế :-©2¿+2++Ek 2 2 EEEEE21127171211271 1112111121 806.3 Hướng phát triển -¿-¿+¿2E++2EE+EEEtEEEEEEEEEESEkrrrkrrrrrrrree 80
Trang 5DANH MỤC HÌNH
Hình 1.1 Ảnh sợi tơ tăm 2:+-+22+ 2211, TH ah l6Hình 1.2 Vải, lụa làm từ tơ tằm 22ccttt HH He 16Hình 1.3 Các loại mỹ phẩm làm từ tơ tằm 2:22 5+++++2x++£x+zzxrzrxrrxee 17Hình 1.4 Mô hình tái tạo tế bào cơ xương từ tơ tằm -¿- 2-2 2+cz+cz+£z+zzzzxez 17Hình 1.5 Tam dùng dé làm thức ăn - 2-2 2 2 £+EE+EE+EE+EE+E2EE+EzEerrerrerreee 17Hình 1.6 Vòng đời của một con tằm từ trứng cho đến lúc hóa thành sâu bướm 18
Hình 1.7 Ảnh con tằm đang ăn lá dâu - 2-2 £+5£+E£+E£+E++E£EEzEzrerrerrerreee 19
Hình 1.8 Ảnh các con bò lên nhau cho thé hiện sự chồng chéo . 23Hình 1.9 So sánh object detcion và image seømenfafiOI «+ x se c+cscee24Hình 1.10 Minh họa đầu ra của bài toán segmentation với ảnh đầu là ảnh gốc, ảnh
giữa là mặt nạ nhãn, ảnh cuối là đầu ra của bài toán Seømentafion - 24Hình 1.11 Minh họa đầu ra của bai toán segmentation dành cho phân đoạn nhiều đốitượng cùng thuộc về một lớp tương tự như bài toán của chúng tôi 24Hình 1.12 Đầu vào của mô hình -+¿-©++222+++tttExxrrtrkrtrrttrtrrrrrrkrrrrrrkee 26Hình 1.13 Đầu ra của mô hình - 2 +52 ++£E£EE£EEtEEESEEeEEerxeerxerrerrxerkee 26Hình 2.1 Output của nghiên cứu [ ÍÍ7] - -. - + + + + E++kEEeeeEeeeseeereeeeseeereeees 30 Hình 3.1 Hình ảnh dữ liệu được thu thập - 6 + St EsEEsiEsersersersree 33Hình 3.2 Sơ đồ quy trình xây đựng bộ dữ liệu - 2-2 2 2+£+£++£++xzxzzxzez 33Hình 3.3 Tam bị bệnh do nhiễm virus -¿- - ¿+ +StSx+E£EEEE+E£EE+E+EeExzEerrxsxers 35Hình 3.4 Tam bị bệnh hại huyết do nhiễm vi khuẩn 2-2 2 22522 2252252 36Hình 3.5 Bệnh do nắm -2¿- 22222 + E11 E1 ri 36Hình 3.6 Bệnh do ruồi kí sinh - 2 2 E2£EE+EE££EE£EEEEEEEEEEEEEEEEEEkerkrrrrrrkeee 37Hình 3.7 Ảnh gốc + + S121 EE9EEEE192122121122122111112111121111111 2111111111 cy 38Hình 3.8 Ảnh mặt nạ nhãn (mask) của ảnh gốc -2- + 5¿+c++2zx+zxz+zse2 39Hình 3.9 Minh họa công cu gán nhãn Labelme - 5 5+ +£+s£+v£+eeeseesse 40Hình 3.10 Biểu đồ thé hiện số lượng tam bệnh và tằm khỏe mạnh trong tập dữ liệu
Trang 6Hình 3.12 Biéu đồ thể hiện tỉ lệ tằm khỏe mạnh trong các tập dit liệu 42
Hình 4.1 Các loại bài tốn trong tac vu image segmentation -«<+ 45
Hình 4.2 Minh hoa output của bài fOán 5 1x 9v nh ng ngư46
Hình 4.3 Minh họa kiến trúc mơ hình được xây dựng theo cách tiếp cận đơn giản 47 Hình 4.4 Minh họa kiến trúc mơ hình theo cách tiếp cận hiện đạt - 49
Hình 4.5 Minh họa phép tính transpose conVỌUfiOT - s« «+ xx+sv+sseesses 50
Hình 4.6 Quy trình giải pháp đề xuất của chúng tơi cho bài tốn nhận diện, phân
đoạn hình ảnh con tăm bệnh - 2 - 2+ E+EEEE+E£EEEE+EEEE+EEEEEESEEEEEEEEvEErErErrkrkrreree 50Hình 4.7 Ảnh g66 -. +- + s2 E1 19E1011111211211111111111111 1111.11.1111 g1 cv 52Hình 4.8 Ảnh sau khi được KOAY 0000715120177 52
Hình 4.9 Ảnh sau khi được lật (flip) ¿- 2 2 2 ++E++E+E+EEeEerrrrrerrrrerrres 53
Hình 4.10 Ảnh sau khi được cắt một phần (ors›2)- 0 54Hình 4.11 Ảnh sau khi được điều chỉnh độ sáng và tương phan (brightness and
00150022777 ˆ 4 55Hình 4.12 Kiến trúc FCN -2252t2 HH 1E g1 reeieg56Hình 4.13 Kiến trúc tong quát của mơ hình Unet 2-2 2 2+z+sz+sz+sz+s++‡ 58Hình 4.14 Kiến trúc YOLLOV -2¿£552ctc2+vtEEEvtttEktrrtttrrrrtrtrrrrrrtrrerrrieg 59Hình 4.15 So sánh các phiên bản của YOLOVS c5 + ++skssseeeereeees 60Hình 4.16 Kiến trúc Deeplab -¿- + 2 2S2+EE+EE9EE2EEEEE2EE2E12E12E12112222222Ee xe, 62Hình 4.17 Các module của DeepLab - - < + 1911 911 19 111911 9 1v kg 62Hình 4.18 Hiệu suất của khá tốt của DeeplabV3 trên bộ dữ liệu MS COCO 63Hình 4.19 Minh họa kiến trúc PSPNet -:¿555tt22xvvttEktrtrrrtrrrrrtrrrrrrier 64Hình 4.20 Minh họa cách tích chỉ số Dice Coefficient - - - s+s+sszszx+xezxzsezs 67Hình 4.21 Minh hoa cách tích chỉ số IoU -¿s- + s+E+E+Et+E+EEE+EeEtzE+Eezezxzzezxz 68Bang 5.1 Két qua thực nghiệm các mơ hình trên tập dữ liệu kiểm định (validation)
¬— 70
Bảng 5.2 Kết quả thực nghiệm các mơ hình trên tập dữ liệu thử nghiệm (test) 71Hình 5.1 Kết qua phân đoạn tằm bệnh từ mơ hình 2-2 2 2 z2 22522 ++‡ 71Hình 5.2 Kết quả phân đoạn tằm bệnh từ mơ hình - 2-2 2 22 22522 +£‡ 72
Trang 7Hình 5.3 Kết quả phân đoạn tăm bệnh từ mô hình - ¿2 +zs+2s+=s+2 72 Hình 5.4 Giá tri precision và recall với từng ngưỡng quyết định . - 74
Hình 5.5 Biéu đồ thể hiện ngưỡng quyết định, tại đó giá tri precision va recall đạt
kết quả đều cao và tối WU nhất -:- + s5 SE+SE+EE+EE+EEEEEEEEEEEEEEEEE211211222222 2c 74
Hình 5.6 Biểu đồ thé hiện sự đánh đổi giữa precision và recall - 75
Bảng 5.4 Hiệu suất (ty lệ chính xác) của mô hình dựa trên mật độ tăm 76
Hình 5.7 Mô hình nhằm lẫn con tằm khỏe thành con tằm bệnh - T1Hình 5.9 Tam bị dâu che phủ - 2 2 x2+£+EE+EE£+EE£EEtEEEEEEEEErEeerkerkrrrerrkree 78Hình 5.10 Tằm bệnh ở góc trên trùng màu với lá dâu khiến mô hình khó phân biệt
Trang 8DANH MỤC BANG
Bang 5.1 Két quả thực nghiệm các mô hình trên tập dữ liệu thử nghiệm (val) 70Bảng 5.2 Kết quả thực nghiệm các mô hình trên tập dữ liệu thử nghiệm (test) Error!Bookmark not defined.
Bảng 5 3 Hiệu suất (tỷ lệ chính xác) của mô hình dựa trên mật độ tằm 76
Trang 9DANH MỤC TU VIET TAT
STT Từ viết tắt Mô tả
1 PSPNet Pyramid Scene Parsing Network
Mask R-CNN Mask Region-Based Convolutional Neural
: Network
3 loU Intersection over Union
6 IOT Internet of thing
7 ADN Axit Deoxyribonucleic
8 CNN Convolutional Neural Network
9 mAP near Average Precision
10 CA-YOLOv5 ConvNeXt-Attention- YOLOv5
12 json JavaScript Object Notation
13 DNN Deep neural network
14 GANs Generative Adversarial Networks
15 RPN Region Proposal Network
16 ASPP Atrous Spatial Pyramid Pooling
17 CRF Conditional Random Field
18 YOLO You only look once
Trang 10TÓM TẮT KHÓA LUẬN
Ngành trồng dâu nuôi tam, là một trong những ngành nghề truyền thống lâu
đời của nhiều quốc gia châu Á, đặc biệt là Việt Nam, đã góp phần không nhỏ vào
nền kinh tế và văn hoá của đất nước Ngành trồng dâu nuôi tăm ở nước ta đang rấtphát triển Theo thống kê của Hiệp hội Tơ lụa thế giới, Việt Nam đứng thứ ba châu
Á (sau Trung Quốc và An D6) và thứ sáu trên thé giới về SỐ lượng xuất khẩu lụa tơtăm, giá tri xuất khẩu năm 2022 dat 70 triệu USD/năm [1] To tam không chỉ là
nguyên liệu quý giá cho ngành dệt may, mà còn là biểu tượng của sự tinh tế, công
phu và nghệ thuật thủ công của người nông dân Ngày nay, mặc dù phải đối mặt vớinhiều thách thức từ sự phát trién của công nghệ, ngành trồng dâu nuôi tằm vẫn giữvững vị thế của mình nhờ vào những lợi ích, sản phẩm có giá trị cao mà ngành này
mang lại.
Trong giai đoạn phát triển và thu hoạch kén từ con tăm, sẽ có những con bịbệnh không thé tạo thành kén và lây bệnh cho những con tam bình thường khác
Bệnh tằm có thể gây thiệt hại lớn về kinh tế cho người nuôi tăm nếu không được
nhận diện kip thời và chính xác Vì thé nên trong giai đoạn tăm chuẩn bị thành kén,người nuôi tằm bắt buộc phải tìm và bắt, loại bỏ những con đó Đây là một vấn đề
khá quan trọng trong ngành nuôi tằm lấy kén
Với mong muốn góp phan giúp đỡ phát triển ngành trồng dâu nuôi tằm lay
kén ở Việt Nam chúng tôi quyết định thực hiện dự án “Phát hiện tằm bệnh sử dụng
học sâu và công nghệ thị giác máy tính” Nghiên cứu này tập trung vào việc phát
triển một hệ thống mạnh mẽ và hiệu quả dé phat hién bénh tam bang cach su dung
công nghệ hoc sâu và thị giác máy tính Mục đích chính là tự động hóa việc xác
định các con tằm bệnh, từ đó tạo điều kiện can thiệp kip thời và giảm sự phụ thuộcvào việc kiêm tra thủ công
Cụ thé, giải pháp chúng tôi đề xuất gồm hai đóng góp chính: Một bộ dit liệuhoàn chỉnh bao gồm 4000 hình ảnh các con tằm khỏe mạnh và bị bệnh đã được
chúng tôi thu thập và gán nhãn Bên cạnh đó chúng tôi tiến hành thực nghiệm các
12
Trang 11phương pháp, mô hình học sâu phổ biến trong bài toán phân đoạn ảnh như FCN,
Unet, DeepLab, YOLOv8, PSPNet dé phân tích hình anh của tằm nhăm phát hiện
các con bị bệnh, đồng thời các kỹ thuật xử lý ảnh và tăng cường dữ liệu như tăng
cường dir liệu (data augmentation) cũng được sử dụng.
Kết quả nghiên cứu cho thay mô hình học sâu được đề xuất là
Unet+ResNet34 đạt độ chính xác cao trong việc phát hiện bệnh tăm bệnh với độ đo
đánh giá Accuracy, IoU, Dice, Recall, Precision lần lượt là 0.9559, 0.7746, 0.8730,0.8401, 0.9292 vượt trội hơn so với các mô hình khác trên tập dữ liệu của chúng tôi
đề xuất Mô hình này đã thể hiện khả năng khái quát hóa mạnh mẽ đối với các điềukiện hình ảnh khác nhau Nghiên cứu này chứng minh rằng tiềm năng của công
nghệ học sâu và thị giác máy tính trong việc cách mạng hóa áp dụng công nghệ vàocác lĩnh vực nông nghiệp giúp phát triển ngành nghé Hệ thống được phát triển cóthé hỗ trợ đáng ké cho nông dân hành nghề trồng dâu nuôi tằm bang cách cung cấpgiải pháp tự động, đáng tin cậy đề xác định bệnh sớm, từ đó có thê can thiệp và loại
bỏ tằm bệnh nhanh chóng giúp giảm thiểu số lượng kén thất thoát lúc thu hoạch
13
Trang 12MỞ ĐẦUGiới thiêu:
Ngành trồng dâu và nuôi tăm, gọi chung là nghề trồng dâu tằm, đã trở thànhmột ngành không thé thiếu đối với lĩnh vực dệt may trong nhiều thế kỷ Tam
(Bombyx mori), ăn lá dâu, tạo ra sợi tơ thông qua kén của chúng là vật liệu giá trị,
khiến nghề trồng dâu nuôi tằm trở thành một hoạt động nông nghiệp quan trọng ở
nhiều quốc gia Ngành tơ tằm trải rộng trên 60 quốc gia trên thế giới, trong đó các
nước sản xuất chính nằm ở châu Trồng dâu nuôi tằm là nghề cô truyền của đất
nước Việt Nam ta, đã có từ lâu đời Nghề trồng dâu nuôi tằm ở nước ta đã đạt đến
trình độ khá cao, và hình thành nhiều vùng ươm tơ, dét lụa nỗi tiếng Việt Nam
được xem là cường quốc về sản xuất tơ tằm, với sản lượng dao động luôn tăng Vớicác nước đang phát triển, như Việt Nam, dâu tằm là một nghé rất phổ biến ở các
vùng nông thôn Theo Bộ NN&PTNT, cả nước hiện có 32 tỉnh có nghề trồng dâu
nuôi tằm, với 38.076 hộ nông dân làm nghé trồng dâu nuôi tăm, tính theo lao độngchiếm 0,24% tổng lao động nông nghiệp [2] Tập trung nhiều nhất vùng Tây
Nguyên với 77% diện tích của cả nướcNghề trồng dâu nuôi tằm tại Việt Nam đã dat
đến một trình độ phát triển cao và đã hình thành nhiều vùng lõi sản xuất tơ lụa nổi
tiếng Việt Nam được xem là cường quốc trong sản xuất tơ tam, với sản lượng liêntục tăng Hiện có 32 tỉnh thành trong cả nước tham gia nghề này, với hơn 38,000 hộnông dân, chiếm 0.24% tông lao động nông nghiệp Đặc biệt, vùng Tây Nguyên
chiếm hơn 77% diện tích sản xuất tơ tằm [3] Ngoài ra, các vùng như Đồng bằng
Sông Hồng, Miền núi và Trung du, Bắc Trung bộ và Duyên hải Nam Trung bộ cũngđóng góp từ 3 đến 11% Nghé trồng dâu nuôi tam đóng góp khoảng 2% tổng giá trịxuất khâu, và diện tích trồng tăng mạnh trong những năm qua Sản lượng kén tằm
cũng có xu hướng tăng, với tăng trưởng bình quân giai đoạn 2018-2022 đạt 19.33%
[4] Các nước có truyền thống sản xuất dâu tằm tơ như Nhật Bản, Hàn Quốc hiện
nay sản xuất rất ít, ngay cả Trung Quốc - nước đứng đầu thế giới về sản xuất dâu
tăm tơ cũng đang giảm sản lượng Trong khi đó, Việt Nam vẫn tăng đều về sản
lượng tơ tằm trong những năm gần đây Với những tiền đề này, ngành sản xuất tơ
14
Trang 13tăm tại Việt Nam có triển vọng rất lớn dé trở thành ngành kinh tế quan trọng, với lợithé về nguồn nguyên liệu dồi dào và chất lượng cao Ngoài ra trồng dâu nuôi tằm
đem lại hiệu quả thu nhập cao hơn so với các ngành nghề nông nghiệp khác Thu
nhập từ trồng dâu nuôi tằm cao hơn so với cây mì, bắp hay đậu tương từ 30 - 50%
[5] Trồng dâu nuôi tăm là nghề có chi phí sản xuất thấp, vốn đầu tư không cao, câydâu sinh trưởng tốt trên nhiều loại đất, sản phẩm dâu tăm có giá trị cao, vòng quay
lứa tằm ngắn chỉ có mười ngày nhanh có lợi Nghề trồng dâu nuôi tằm có nguồn
nhân lực đổi dào thu hút nhiều lao động nông dân, mọi người dân từ người trẻ đến
già đều có thê thực hiện được Tại thị trường, hiện giá kén tằm đang ở mức cao,
đem lại lợi nhuận hấp dẫn cho bà con Nếu như năm 2021, giá kén bình quân đạt từ90.000 - 100.000 đồng/kg; năm 2022 từ 90.000 - 140.000 đồng/kg thì 6 tháng đầu
năm 2023, giá kén tằm đạt bình quân từ 140.000 - 180.000 đồng/kg, có thời điểm
giá kén lên đến 210.000 đồng/kg đối với kén loại A [6]
To tam không chỉ có vai trò quan trọng trong ngành dệt may mà còn được vi
như "Nữ hoàng” của lụa, nhờ vào đặc tính bèn, đẹp và mềm mại của nó Tơ tằm là
nguyên liệu chủ yếu dé sản xuất các sản phâm lụa tinh túy như quan áo, vay đầm,
áo dài, khăn choàng, rèm cửa, chăn ra gối ném, Ngoài lợi ích kinh tế, tơ tằm còn
có ứng dụng trong công nghệ sinh học, từ việc sản xuất protein tái tổ hợp và vật liệusinh học đến các mô hình động vật dé nghiên cứu các chất kháng khuẩn mới To
tằm cũng được sử dụng trong ngành làm đẹp như thành phần chính trong kem trị
mụn, sữa rửa mat, Ngoài ra, nhộng tăm cũng là một nguồn thực phẩm giàu dinh
dưỡng Điều đặc biệt là tại Đại học bang Utah, tơ tăm đã được áp dụng để nuôi tế
bào cơ xương cho bệnh nhân bị teo cơ xương Tóm lại, nghề trồng dâu, nuôi tằm vàươm tơ không chỉ mang lại lợi ích kinh tế mà còn có vai trò quan trọng trong phát
triển kinh tế đất nước và giảm nghèo cho người nông dân, đồng thời là một phần
không thể thiếu của ngành công nghiệp lụa Việt Nam
15
Trang 1416
Trang 1517
Trang 16Đặt van de:
Qua những số liệu và loi ích trên cho thay ngành trồng dâu nuôi tam là một
ngành nghề rất quan trọng đối với đất nước đang phát triển như Việt Nam Vòng
đời của một con tằm được mô tả như sau: Giai đoạn 1: Trứng (Sâu bướm cái đẻ ra
trứng) Giai đoạn 2: Sâu tằm (Trứng nở ra sâu tằm, sâu tằm sẽ ăn dâu liên tục va cầnkhoảng 7 -8 ngày dé lớn lên) Giai đoạn 3: Kén nhộng (Sau khi đã ăn đủ ngày, tằm
sẽ chín và nhả tơ, kéo kén, chuyền hóa thành nhộng) Giai đoạn 4: Hình thành sâu
bướm (Nhộng nở ra sâu bướm).
Life cycle of silkworms (Bombyx mori)
Hatching
3-4 Days
SNgHế 1 Moult
21⁄2-3 Days
Silkworm feeding 2 Moult
on mulberry leaves 3-4 Days
Trang 17Mặc dù đã có những tiễn bộ trong kỹ thuật nuôi tăm, nhưng con tằm vẫn rất
dễ mac các bệnh quá trình nuôi như bệnh vi khuẩn, bệnh virus, bệnh ký sinh trùng,
bệnh tăm gai, bệnh do nhiệt độ môi trường, Những bệnh này khiến cho chúng
không có khả năng tạo thành kén Khi nuôi tằm để lấy kén có một giai đoạn quan
trọng là giai đoạn tăm ăn rỗi chuẩn bị tạo thành kén, đó là lúc người nuôi sẽ phải
nhặt bỏ những con tam bị bệnh, nếu không nhặt bỏ hết những con tăm bị bệnh đó,
nó sẽ lây cho những con tằm đang khỏe mạnh khác làm cho những con đó cũng
không thể lên kén, khiến cho sản lượng kén giảm sút mạnh mặc dù quá trình nuôi
dưỡng và cho ăn rất kỹ lưỡng, gây thiệt hại đáng ké trong sản xuất tơ lụa, góp phầnảnh hưởng đến kinh tế nước ta Hiện tại, việc phát hiện những căn bệnh này phụ
thuộc vào việc kiểm tra thủ công của những người nông dân, việc này tốn nhiều thờigian, công sức và đôi khi là sẽ bỏ sót Điều cần thiết là phải có một giải pháp hiệu
quả, chính xác và tự động hóa dé phát hiện tằm bệnh, từ đó có thé can thiệp và loại
bỏ nhanh chóng giúp giảm thiểu số lượng kén thất thoát lúc thu hoạch
Lí do, đông lực thực hiện:
Song song với các làng nghề dệt lụa phía Bắc, vùng dat Tây Nguyên LâmĐồng, nơi mà tôi sinh ra đã trở thành thủ phủ mới của nghé tơ tằm Việt Nam, là
19
Trang 18vùng trồng dâu nuôi tằm lớn nhất chiếm 75,53% so với cả nước [8] Lí do là vì tằm
là loài động vật khó nuôi, nhạy cảm với môi trường và nhiệt độ nên dé cho quá trìnhsinh trưởng, phát triển tốt cần có nhiệt độ thích hợp Thành phố Bảo Lộc ở độ cao
900m, quanh năm mát mẻ với nhiệt độ thấp từ 21 - 25 độ C là điều kiện lý tưởng
cho việc trồng dâu, nuôi tăm đạt sản lượng cao Ngoài ra còn có thê phát triển, tạo
ra những giống tằm, cây dâu có chất lượng tốt Trong số các địa phương phát triển
tơ tằm của Lâm Dong, TP Bảo Lộc là nơi quy tụ những “cánh chim đầu đàn” về
đầu tư công nghiệp tơ lụa Tại đây, hiện có khoảng 30 doanh nghiệp đầu tư, kinh
doanh về tơ tằm Trong đó 11 doanh nghiệp ươm to, 10 doanh nghiệp chuyên về
công nghiệp dét và 5 doanh nghiệp kinh doanh tơ lụa Theo thống kê, sản lượng tơcủa riêng thành phố Bảo Lộc vào khoảng 1.000 tắn/năm, khoảng 5 triệu mét vải lụa
các loại [9] Sản phâm vừa mang lại giá trị kinh tế cao đóng góp rất nhiều vào sự
phát triển kinh tế cả nước vừa giải quyết lao động cho địa phương Mặc dù là loài
côn trùng có giá trị kinh tế cao nhưng lại thường xuyên mắc bệnh trong quá trình
nuôi, dẫn đến thiệt hại một lượng lớn kén mỗi năm Là một trong những hộ gia đìnhđang theo nghề nuôi tam lay kén tại thành phố Bảo Lộc Nhận thay răng có thé áp
dụng công nghệ dé thay thé một số công đoạn thủ công trong việc phát hiện và loại
bỏ tăm bệnh Nên dự án này đã được ra đời, nghiên cứu này đưa ra một giải pháp tựđộng hóa, chính xác, hiểu quả nhằm giúp đỡ phần nào đó công sức cho những ngườinông dân làm nghề trồng dâu nuôi tăm nói chung và hộ gia đình tôi nói riêng có thégiảm bớt được phần nào đó công sức, chỉ phí, thời gian
Mục tiêu khoá luận:
Nghiên cứu này nhằm mục dich phát triển một phương pháp hiệu quả dé phát
hiện bệnh tam bằng cách sử dụng công nghệ học sâu và thị giác máy tính Bang
cách tận dụng sức mạnh công nghệ tiên tiến, hệ thống được đề xuất tự động phân
đoạn và phát hiện các con tăm bệnh nhanh chóng và chính xác Mục đích là dé hỗ
trợ người nông dân nuôi tằm trong việc duy trì quần thể tăm khỏe mạnh và nâng caohiệu quả thu hoạch kén, sản xuất tơ lụa Đề làm được điều đó chúng tôi thu thập dữ
liệu, gán nhãn, tập trung nghiên các thuật toán máy học, học sâu, áp dụng các kỹ
20
Trang 19thuật xử lý dữ liệu anh, tăng cường dữ liệu, phương pháp dé phân đoạn con tam.
Chúng tôi đã đặt ra các mục tiêu cụ thé như sau:
- _ Thực hiện thu thập và gan nhãn tạo ra một bộ dữ liệu hoàn chỉnh gồm 4000
tầm ảnh về tằm bệnh, tằm không bị bệnh Dé có thé huấn luyện mô hình nhậndiện đồng thời đóng góp cho cộng đồng, những người nghiên cứu muốn tìm
hiểu về lĩnh vực này.
- Một phương pháp hiệu quả để phân đoạn và phát hiện con tăm bệnh Đề đạt
được mục tiêu này, các thử nghiệm khác nhau đã được tiễn hành với các môhình học sâu hiện đại như FCN, Unet, DeepLab, YOLOv8, PSPNet Cùng với
các độ đo như IoU, Dice, Recall, Precision, pixel Acuuracy dé đánh giá và so
sánh các mô hình với nhau.
Đối tượng và phạm vi nghiên cứu:
- _ Đối tượng nghiên cứu chính trong dự án này là loài tam, môi trường sống, lá
dâu (thức ăn cho tăm) chỗ nuôi tằm, chủ yếu vẫn là các con tằm khỏe mạnh vàcon tằm bị bệnh
- Pham vi nghiên cứu là giai đoạn tằm ăn rỗi chuẩn bị tạo thành kén, các khu
vực, hộ gia đình hành nghề nuôi tam quanh thành phố Bảo Lộc, tỉnh Lâm
Đồng.
Kết quả nghiên cứu:
- _ Dự án của chúng tôi thực hiện đóng góp một bộ dit liệu về tằm bệnh và tam
khỏe mạnh hoàn chỉnh, bên cạnh đó một phương pháp hiệu quả thay thế sức
người thủ công trong các việc phát hiện tằm bệnh cũng được thực hiện Quaquá trình nghiên cứu, chúng tôi đề xuất mô hình học sâu UnettResnet34 đượcchúng tôi tinh chỉnh (mô hình có đạt hiệu suất tốt nhất) cho bài toán phân đoạn,phát hiện tằm bệnh Được thực hiện với mục đích ban đầu là ứng dụng thực
tế, dự án này hứa hẹn mang lại lợi ích đáng kề cho các hộ gia đình, nhà máy,
và xưởng sản xuất đang làm nghề trồng dâu nuôi tăm tại Việt Nam
Câu trúc khóa luân:
21
Trang 20Khoá luận gôm 6 chương với các nội dung chính như sau:
> Chương 1: Tong quan về đề tài nghiên cứu
Trình bày khát quát bài toán phân đoạn hình ảnh, phát hiện tằm bệnh và tầm
quan trọng của các kết quả nghiên cứu trong bối cảnh hiện nay, đặc biệt là tínhứng dụng thực tế của khoá luận cho những người làm ngành trồng dâu nuôi
tằm
Chương 2: Các công trình nghiên cứu liên quan.
Giới thiệu một số công trình nghiên cứu trong và ngoài nước liên quan đến bàitoán thực hiện.
Chương 5: Thực nghiệm và đánh giá
Chương này giới thiệu một số độ đo đánh giá để so sánh các phương pháp,trình bày kết quả thực nghiệm mà chúng tôi thu được, thêm vào đó là các phântích lỗi về kết quả cũng như nhận xét
Chương 6: Kết luận và hướng phát triển
Trong chương cuối của khóa luận, chúng tôi trình bày kết luận cuối cùng saukhi thực hiện nghiên cứu, tổng kết kết quả đạt được, điều còn hạn chế và một
số hướng phát triển trong tương lai
22
Trang 21Chương 1 TỎNG QUAN
1.1 Giới thiệu bài toán
Đối với bài toán nhận diện và phân đoạn các con tăm bệnh trong ảnh ta có thé
giải quyết theo hướng phát hiện đối tượng (object detection) Object detection là tác
vụ phổ biến trong lĩnh vực thị giác máy tính và trí tuệ nhân tạo, nhằm phân lớp và
định vị các đối tượng cụ thê trong hình ảnh Không chỉ phân lớp các đối tượng nó
còn xác định vị trí của chúng thông qua việc cung cấp các hộp giới hạn (bouding
box) quanh đối tượng đó Hạn chế của tác vụ object detection là không thé phân biệtranh giới hoặc hình dạng chính xác của các đối tượng và có sự chồng chéo giữa cácbouding box Với tinh chat của bài toán này thì ta không thé sử dung object
detection dé nhận diện tằm bệnh vì hình ảnh của tăm có rất nhiều con bò lên nhau,
nên khi xuất ra output là các bouding box ta sẽ gặp phải một số sự chồng chéo
(overlap) nhất định giữa các con tăm
Dé giải quyết những thách thức này, những tiến bộ trong thị giác máy tinh vàhọc sâu đưa ra các giải pháp tốt hơn, đặc biệt là thông qua kỹ thuật phân đoạn hình
23
Trang 22ảnh (image segmentation) Một phương pháp khác dé có thé nhận dạng đến từng
pixel của con tằm bệnh trong ảnh thông qua đó ta có thé biết được xác hình dạng, vịtrí của con tam bệnh Thế nên đây là bài toán thuộc dang image segmentation
Hình 1.10 Minh họa đầu ra của bài toán segmentation với ảnh đầu là ảnh gốc, ảnh
giữa là mặt nạ nhãn, ảnh cuôi là đâu ra của bài toán segmentation
Hình 1.11 Minh họa đầu ra của bài toán segmentation dành cho phân đoạn nhiều đối
tượng cùng thuộc về một lớp tương tự như bài toán của chúng tôi
24
Trang 23Phân đoạn hình ảnh là một nhiệm vụ quan trọng trong lĩnh vực thị giác máytính, liên quan đến việc phân đoạn hình ảnh thành nhiều vùng có đặc điểm giống
nhau Mục tiêu của phân đoạn là xác định và phân đoạn các đối tượng trong hình
ảnh, giúp phân tích và diễn giải dé dàng hon Với một số mô hình mạnh mẽ và phốbiến đã được chỉnh sửa và thiết kế riêng đề giải quyết bài toán này như FCN, Unet,DeepLab, YOLOv8, PSPNet Phân đoạn hình ảnh được ứng dụng rộng rãi trong
nhiều lĩnh vực khác nhau, chắng hạn như hình ảnh y tế, lái xe tự động và kiểm tra
công nghiệp Trong bối cảnh bài toán nhận dạng tằm bệnh, phân đoạn ảnh đóng vaitrò quan trọng Băng cách phân đoạn các hình ảnh của các con tăm, chúng ta có thê
cô lập các vùng cụ thê có tăm bệnh Việc cô lập này giúp phân tích và chân đoán
chính xác hơn, ngoài ra các vùng được phân đoạn có thể được kiểm tra kỹ lưỡng
hơn dé xác định các đặc điêm cụ thé của con tăm bệnh.
Về cấu trúc bài toán, việc áp dụng phân đoạn ảnh vào nhiệm vụ phát hiệntăm bệnh bao gồm một số bước quan trọng Đầu tiên, các hình ảnh chất lượng cao
của tằm được chụp trong nhiều điều kiện khác nhau, bao gom các trang thái bệnh
khác nhau Những hình anh này là cơ sở dé tạo thành bộ dữ liệu có tinh đại diện vàkhái quát hóa Bước tiếp theo là tiền xử lý các hình ảnh này, nâng cao chất lượng vàđảm bảo tính nhất quán trên toàn bộ tập dữ liệu Các kỹ thuật tiền xử lý ảnh bao
gồm chuẩn hóa, điều chỉnh kích thước ảnh, giảm nhiễu và điều chỉnh độ tương
phản, tất cả đều nhằm cải thiện hiệu suất của mô hình phân đoạn Sau khi các hìnhảnh đã được chuẩn bị, một mô số hình phân đoạn học sâu được huấn luyện để nhậndạng và phân đoạn các con tăm bị bệnh trong hình ảnh Các vùng được phân đoạn
sau đó được phân tích dé xác định các con tằm bệnh với hình dạng, kích thước, và
màu sắc dé có thê hiêu rõ hơn và các con tăm bệnh.
- Input: Ảnh chứa các con tăm bệnh và con tăm bình thường trong chỗ nuôi
25
Trang 24Hình 1.12 Đầu vào của mô hình
- Output: Ảnh đã được phân đoạn (segmentation) bao gồm ảnh các pixel mau
đỏ thê hiện con tam bị bệnh Làm nỗi bật hình dang của nó
1.2 Tính ứng dụng thực tiễn
Như đã đề cập, đề tài được thực hiện dựa trên mục đích ứng dụng thực tế Sau
đây là một số van đề mà sản phâm nghiên cứu có thể giải quyết:
- Tu động hóa quy trình loại bỏ tằm bệnh: giúp người nuôi đỡ được công sức và
thời gian giúp giảm bớt phần nào đó mệt nhọc cho người nuôi (hầu như những
26
Trang 25người nuôi thường là những người độ tuôi trung niên nên van đề sức khỏe rất
quan trọng).
- Độ bao phủ: người nuôi có thé nhặt sót, không loại bỏ được hết những con tằm
bệnh, nhưng áp dụng công nghệ có độ chính xác cao có thé loại bỏ gần như tat
cả các con tằm bị bệnh
- Mat độ: Các nhà máy tơ lụa, xưởng nuôi tăm hoặc là hộ gia đình có diện tích
nuôi tằm lớn khi đến giai đoạn bắt và loại bỏ tăm bệnh, việc thuê hàng chục,hang trăm người dé nhặt bỏ tằm bệnh là rat tốn kém về mặt tiền bạc cũng nhưsức người Khi có công nghệ nhận dạng tăm bệnh tự động này tích hợp vàomáy móc thiết bị IOT, các xưởng nuôi tằm lớn sẽ không phải tra chi phí thuêlớn dé thuê một số lượng nhiều người cho giai đoạn loại bỏ tăm bệnh nữa
Tóm lại, việc áp dụng bài toán phân đoạn ảnh trong nhiệm vụ phát hiện tăm
bệnh đại diện cho một bước tiến quan trọng trong việc tự động hóa các giai đoạn
trong việc nuôi tằm lay kén Thông qua việc sử dụng các kỹ thuật thị giác máy tính
và học sâu tiên tiến, chúng ta có thể nâng cao độ chính xác và hiệu quả của việc
chân đoán và phát hiện tăm bệnh giúp cải thiện và hỗ trợ công đoạn nuôi tăm, cải
thiện sản lượng kén thu hoạch mang lại hiệu quả cao về mặt kinh tế và góp phần
thúc đây ngành công nghiệp tơ lụa nói chung
Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
2.1 Các công trình nghiên cứu trong nước
Ở Việt Nam, hiện nay đã có một số nghiên cứu khám phá, ứng dụng công
nghệ và trí tuệ nhân tạo vào nông nghiệp, đặc biệt là trong việc phát hiện bệnh trên
cây trồng và vật nuôi Tuy nhiên, số lượng nghiên cứu cụ thê áp dụng các phương
pháp hiện đại như học máy, học sâu dé nhận dạng, phát hiện và phân đoạn tằm bệnhvẫn còn hạn chế Các nghiên cứu liên quan thường chủ yếu tập trung vào áp dụng
kỹ thuật, công nghệ để cải thiện quy trình chăn nuôi, thức ăn, chỗ ở cho tằm, lai tạogiống tằm mới, lai tại giống dâu mới, chất lượng kén, sản phẩm tạo ra từ kén và các
kỹ thuật phòng chữa bệnh cho tằm Chắng hạn như đề tài “Xác định Densovirus
27
Trang 26trên tằm (Bombyx mori) Tai Bảo Lộc (Lâm Đồng)” viết bởi Hà Viết Cường và các
cộng sự [10] nghiên cứu về bệnh của tằm, giúp xác định được các triệu chứng, biểuhiện của bệnh thông qua các nội tạng của con tam Ngoài ra “Nghiên cứu chon tao
và phát triển giống tằm sắn tại một số tỉnh miền núi phía Bắc” với Chủ nhiệm đề tàiThS Nguyễn Thi Len [11] thực hiện với mục tiêu thu thập, đánh giá một số giống
tam san làm nguyên liệu lai tạo, tạo ra giống tằm mới Cũng với mục tiêu là cải
thiện ngành nuôi tăm lấy kén ở nước ta, đề tài “Xác định khả năng truyền nhiễm
bệnh hoại huyết qua môi trường phòng nuôi và da tằm” của Nguyễn Thuý Hạnh vàcộng sự [12] giúp xác định các đặc điểm sinh học về bệnh bại huyết của con tăm,
góp phần giúp ích cho ngành trồng dâu nuôi tằm lấy kén ở Việt Nam ta [12] Ngoài
ra, luận án tiến sĩ nông nghiệp “Nghiên cứu chọn tạo giống dâu lai F1 tam bội thể
trồng hạt thích hợp cho vùng Đồng bằng sông Hồng” của tác giả Nguyễn Thị Len
[13] đã cho ra được một loại dâu mới làm thức ăn cho con tằm tăng hiệu quả chăn
nuôi sản lượng kén cho vùng Đồng bằng sông Hồng Bài báo nghiên cứu “Bào chế
và đánh giá tính chất mặt nạ từ fibroin tơ tằm chứa hoạt chất kháng khuẩn allicin”
của tác giả Nguyễn Thị Ngọc Phương thuộc Trường Đại học Công nghệ Đồng Nai
[14] đã nghiên cứu bào chế cho ra mặt nạ từ fibroin tơ tằm chứa hoạt chất kháng
khuẩn allicin Qua các đề tài, dự án nghiên cứu của các nghiên cứu sinh trong nước
ta đều cho thấy họ đã có sự áp dụng đáng ké ky thuat tién tién, cong nghé vao linh
vuc trong dâu nuôi tam Tuy nhiên, các nghiên cứu hiện tại trên vẫn chưa thực sự sửdụng các phương pháp, kỹ thuật về thị giác máy tính áp dụng vào lĩnh vực trồng dâunuôi tằm lấy kén Chính vì thế trong khóa luận này chúng tôi kế thừa những phát
hiện, ưu điểm từ các nghiên cứu trước (như sử dụng các hình dạng, màu sắc, đặc
điểm sinh học của con tăm bệnh đã được nghiên cứu và phát hiện) đề triển khai mộtphương pháp áp dụng kỹ thuật hiện đại tiên tiến như học sâu dé nhận dang và theo
vết tằm bệnh trong ảnh dé xử lý một số thách thức khó khăn trong việc loại bỏ tambệnh ở giai đoạn nuôi Về phần dữ liệu về tăm thì hiện tại chúng tôi chưa tìm thấy
bộ đữ liệu nào liên quan đến đề tài về ảnh chụp các con tằm khỏe mạnh và tăm bệnh
ở trong nước.
28
Trang 272.2 Các công trình nghiên cứu ngoài nước
Bài toán phát hiện và nhận diện bệnh trên cây trồng và vật nuôi là một bài toánphô biến trong lĩnh vực thị giác máy tính Hiện nay trên thế giới, các nghiên cứu vềphát hiện và nhận tằm bệnh đã đạt được nhiều tiễn bộ đáng kể Các nhà nghiên cứu
đã áp dụng nhiều phương pháp học sâu dựa trên CNN và các mô hình mạng noron
khác dé phân đoạn và nhận diện các triệu chứng bệnh trên tăm, được hỗ trợ bởi hệ
thống phần cứng mạnh mẽ, cho phép họ đạt được độ chính xác cao trong việc pháthiện bệnh Một nghiên cứu thực nghiệm về phân loại bệnh tăm dựa trên học sâu, cótựa đề "Attention-Concatenation Dense Convolutional Neural Network for
Silkworm Disease Recognition," được thực hiện bởi Yu Zhen và cộng sự [15].
Trong nghiên cứu này, các tác giả đã sử dụng bộ dữ liệu hình ảnh các con tằm bệnhđơn lẻ, mỗi bức ảnh chỉ chứa một đối tượng tăm, được cung cấp bởi Trạm Xúc TiếnCông Nghệ Nuôi Tam khu vực tự trị Quảng Tây, Trung Quốc [15] Nghiên cứu nàytập trung vào bài toán phân loại hình ảnh bệnh tằm Các tác giả đã sử dụng mô hình
DenseNet và tiến hành tinh chỉnh, sửa đổi kiến trúc các lớp của nó, đồng thời tích
hợp thêm cơ chế attention, tạo ra một mô hình mới gọi là AC-DenseNet Kết quả
thực nghiệm cho thấy mô hình AC-DenseNet đạt độ đo Mean Average PrecIsion
(mAP) là 0.839, cho thấy các nghiên cứu đã có hiệu quả vượt trội trong việc phân
loại ảnh con tăm bệnh Bên cạnh đó nghiên cứu “Image Classification for Silkworm
using Deep Neural Network-Keras” của Nishali M Suvarna và các cộng sự [16]
cũng thực hiện bài toán tương tự, phân loại hình ảnh con tằm bệnh sử dụng bộ dữ
liệu gồm 1000 tắm ảnh chụp con tằm đơn lẻ và áp dụng mô hình CNN cơ bản đã đạtđược độ chính xác 75% Ngoài ra nghiên cứu “CA-YOLOvS: Detection model for
healthy and diseased silkworms in mixed conditions based on improved YOLOv”
của Hongkang Shi và các cộng sự [17] thực hiện bai toán object detection trên anh
các con tằm, sử dụng mô hình YOLOv5 kết hợp mô hình ConvNeXt và cơ chế
attention gọi tắt là CA-YOLOv5 (ConvNeXt-Attention-YOLOvS) đã đạt được độ
chính xác trung bình (mAP) là 96,46% Ngoài ra về phan dit liệu con tam còn có cơ
sở đỡ liệu SilkwormBase [18] là một co sở dữ liệu dành cho riêng những người
29
Trang 28nghiên cứu về con tam (Bombyx mori) Cơ sở dữ liệu SilkwormBase cung cap một nên tang dữ liệu các thông tin phong phú về gen, biêu hiện gen, di truyén hoc và các
tài nguyên sinh học như các giống tăm, các mẫu ADN liên quan đến con tăm, bên
cạnh đó nó cũng bao gồm 618 tam ảnh về con tằm nhưng không được gán nhãn
2.3 Những vấn đề còn tồn tại
Mặc dù đã có rất nhiều thành công nhưng vẫn còn tồn tại một số vấn đề tồn
đọng cần giải quyết:
- _ Thiếu cơ sở dữ liệu chất lượng cao: Một trong những thách thức lớn nhất là
thiếu cơ sở đữ liệu hình ảnh tằm bị bệnh được chú thích chỉ tiết Điều này hạnchế khả năng tiếp cận của cộng đồng nghiên cứu Ngoài ra thì những bộ dữ
liệu về tằm hiện nay thì thường là những bộ dữ liệu ảnh chỉ có một đối tượng
đơn lẻ gán nhãn theo dạng bouding box và các lớp cho bài toán classfication
và object detection, các bộ dữ liệu bao gồm nhiều đối tượng là tằm bệnh và
tằm bình thường trong một ảnh thì rất hiếm
- Da dang hóa điều kiện hình ảnh: Các nghiên cứu hiện tại thì ảnh thường giới
hạn trong một số điều kiện cụ thé, như anh sáng, góc chụp va môi trường Điều
này làm giảm khả năng áp dụng và khái quát hóa của các mô hình trong thựctế,
- Tinh chất bài toán: Da số các nghiên cứu tập trung giải quyết theo hướng image
classfication và object detection Với bài toán phân loại hình ảnh chỉ xuất ra
nhãn là bệnh hoặc không bệnh cho một đối tượng trong ảnh thì sẽ khó ứng
30
Trang 29dụng thực tế, còn với bài toán phát hiện đối tượng khi xuất ra các bouding box
sẽ có sự chông chéo giữa các con tắm với nhau.
2.4 Hướng giải quyét của dé tai
Từ các nguyên cứu đi trước ở Việt Nam và trên thế giới Dé khắc phục phan nào
đó các vấn đề còn tồn đọng và nâng cao hiệu quả của nghiên cứu này, dự án tập
trung và giải quyết các vấn đề theo hướng sau: Xây dựng một bộ dữ liệu hình ảnh
Tạo ra một bộ dữ liệu hình ảnh được gán nhãn chi tiết bao gồm nhiều đối tượng
trong một hình ảnh là tăm bệnh và tằm không bệnh, với số lượng lớn và đa dạng vềđiều kiện chụp ảnh làm cho dit liệu phong phú và đa dang, giúp khắc phục van đề
về dữ liệu, nâng cao chất lượng mô hình Giải quyết bài toán phát hiện tằm bệnh
theo dang image segmentation sử dụng các kỹ thuật học sâu tiên tiến và các biến thé
của chúng dé cải thiện độ chính xác va khả năng phân loại chi tiết các loại bệnh trên
tằm Kết hợp các phương pháp xử lý ảnh như tăng cường đữ liệu, chuẩn hóa và loại
bỏ nhiễu để nâng cao chất lượng hình ảnh đầu vào và cải thiện hiệu suất của mô
hình Đánh giá tính khả thi và hiệu quả của việc áp dụng các hệ thống phát hiện
bệnh tự động trong sản xuất tơ lụa Điều này giúp xác định lợi ích thực tế và tiềm
năng ứng dụng rộng rãi của đề tài Những hướng nghiên cứu trên sẽ giúp đề tài
không chỉ giải quyết các vấn đề tồn đọng mà còn mở ra nhiều cơ hội mới cho việc
ứng dụng công nghệ học sâu và thị giác máy tính trong nông nghiệp, đặc biệt là
trong ngành nuôi tắm và sản xuât tơ lụa.
31
Trang 30Chương 3 DỮ LIỆU
3.1 Mô ta bộ dữ liệu
Bộ dữ liệu sử dụng trong nghiên cứu này bao gồm các hình ảnh của con tăm ởcác giai đoạn tình trạng sức khỏe khác nhau gồm 4000 tắm ảnh được chúng tôi đặt
tên là silkBLC Mỗi hình ảnh được gán nhãn chi tiết (mức độ pIxel) cho các con tăm
bệnh, tằm bệnh thường được thé hiện rõ qua các đặc điểm sin học như thân đen,
nâu, vết loét, chảy mũ và màu sắc bat thường trên cơ thê tăm Bộ dữ liệu này không
chỉ chứa các hình ảnh của tăm bị bệnh mà còn bao gồm các hình ảnh của tằm khỏe
mạnh đề làm cơ sở so sánh Trong nghiên cứu này tất cả các hình ảnh con tăm đều
được chúng tôi thu thập trong môi trường thực tế Việc này được thực hiện trong bađợt nuôi tằm từ tháng 3 năm 2024 đến tháng 7 năm 2024 tại nhà kho nuôi tằm riêngcủa gia đình chúng tôi thuộc phường Lộc Tiến, thành Phố Bảo Lộc, Tỉnh Lâm
Đồng Ngoài ra dữ liệu còn được thu thập ở các chỗ nuôi tằm của những người quentrong nghề cũng đang nuôi tăm, các trang trại xung quanh thành Phố Bảo Lộc Mỗihình ảnh đều có độ phân giải cao và được chụp trong nhiều điều kiện ánh sáng và
góc chụp khác nhau, chỗ nuôi khác nhau (ở cả nong và sàn) nhằm tăng tính đa dạng
và tính đại diện của bộ dữ liệu Các tắm ảnh này thể hiện tình huống thực tế khi tằmbệnh, cần được định vị và loại bỏ kịp thời Tổng cộng có 4000 tắm ảnh gốc đã đượcthu thập với kích thước hình ảnh thu được là 1920 x 2560 pixel Một số ví dụ về dữliệu xình ảnh thu thập được hiển thị trong hình 3.1
32
Trang 313.2 Quy trình xây dựng bộ dữ liệu
Chúng tôi xây dựng dt liệu với một quy trình rõ ràng, chia ra theo từng giai đoạn
dé đảm bảo bộ dữ liệu được hoàn chỉnh và có thé sử dụng thực tế Hình 3.2 mô ta
tổng quan quy trình xây dựng bộ dữ liệu
Gan nhãn dữ liệu
Thu thập dữ liệu ay dung ver
a2 gan nines Thực hiện | | song song
Hình 3.2 Sơ đồ quy trình xây dựng bộ dữ liệu
Đầu tiên, chúng tôi sẽ tiến hành thu thập dữ liệu ảnh chụp các con tằm, chỉ tiết sẽđược trình bày cụ thé trong phan 3.2.1 Tiếp theo, chúng tôi sẽ xây dựng hướng dẫngán nhãn và thực hiện gán nhãn đông thời với việc cập nhật hướng dân gán nhãn ởphần 3.2.2 Sau đó dữ liệu từ điện thoại được tải lên kho lưu trữ đám mây (google
drive) được xử lý và thay đôi định dang phù hợp Cuối cùng, lưu trữ vào máy tính
cá nhân dé sử dụng Mỗi giai đoạn trong quy trình này đều tuân theo một lịch trình
rõ ràng Sau khi hoàn thành mỗi giai đoạn, chúng tôi sẽ tiên hành kiêm tra lại các
công đoạn đã thực hiện dé đảm bảo rằng đáp ứng theo yêu cau đã đặt ra
33
Trang 323.2.1 Thu thập dữ liệu
Đầu tiên chúng tôi chọn lựa nguồn dé thu thập dữ liệu Dữ liệu được thu thập từ
nhà kho nuôi tằm riêng của chúng tôi, nơi nuôi tằm của những người quen cùng
nghề và các trang trại nuôi tằm xung quanh khu vực thành phố Bảo Lộc, Tỉnh LâmĐồng Sau đó chúng tôi sử dụng điện thoại thông minh (iPhone 10) có độ phân giải
1125x2436 pixel và mật độ điểm ảnh 458ppi chụp ảnh các con tăm bao gồm cả con
tăm bệnh và con tam bình thường đang sinh hoạt tự nhiên trong chỗ ở của nó như
nong, sàn (những công cụ dé nuôi tằm) Khi tiến hành chụp ảnh, thiết bị thu nhận
(camera) được hướng thăng đứng xuống dưới, đối tượng chính dé chụp là các con
tằm bệnh và con tằm bình thường, lá dâu và các vật thể xung quanh được xem là
nền của hình ảnh Mỗi hình ảnh đều có độ phân giải cao và được chụp trong nhiều
điều kiện ánh sáng và góc chụp khác nhau, chỗ nuôi khác nhau (ở cả nong và sàn)
nhằm tăng tính đa dạng và tính khái quát hóa của bộ dit liệu
3.2.2 Xây dựng hướng dẫn gan nhãn
Trước khi gán nhãn, chúng tôi xây dựng một hướng dẫn chỉ tiết về cách nhận diệncon tằm bệnh Ngoài ra còn hướng dẫn về cách sử dụng công cụ gán nhãn Cung
cấp các hình anh minh họa dé làm rõ các tiêu chí gán nhãn Bảng 3.1 đưới đây trìnhbày danh sách các bệnh phô biến của tăm, mô tả chỉ tiết triệu chứng va dấu hiệu
nhận biết của các loại bệnh Tam bệnh ta có thé nhận thấy thông qua đặc điểm sinhhọc như màu sắc, kích thước, hình dang,
STT Bénh Dấu hiệu nhận biết
Kích thước cơ thê teo nhỏ có màu vàng
1 Bệnh nhiễm virus nghệ, da bóng, rỉ mủ hay bò lên thành của
nong.
34
Trang 33Kích thước cơ thé nhỏ hơn bình thường,
2 Bệnh vi khuân mau sắc cơ thé biến dạng trở nên nâu đen
toàn thân
Khi bị nhiễm bệnh kích thước cơ thé tam
3 Bệnh nắm nhỏ, phần đầu và thân thường bị bao phủ
bởi màu đen, xanh lá
` ¬ Tam chậm phát triên kích thước còi cọc,
4 Bệnh do ruối kí sinh co ¬ :
xuât hiện nhiêu đôm đen trên thân tăm.
Bang 3.1 Danh sách các bệnh, mô tả, dau hiệu nhận biết của bệnh đó
35
Trang 3436
Trang 35Tiêu chí gan nhãn:
- _ Thứ nhất: đây là bài toán phát hiện và nhận dang tăm bệnh, ta chỉ quan tâm
đến những con tằm bệnh không quan tâm đến những con bình thường và vậtthé xung quanh nên nhãn chỉ có một lớp là “tăm bệnh” (foreground — 1) cònlại là nền (background - 0) Cũng vì là ảnh chụp trong môi trường thực tế sinhhoạt tự nhiên của con tăm nên trong một ảnh số lượng con tăm quá nhiều takhông thê gán 2 lớp dành cho tằm bệnh và tằm bình thường được
- Tht hai: không phân biệt loại bệnh, cho dù con tăm có bị bệnh gì, chỉ cần bị
bệnh là nó sẽ không thê tạo thành kén, nên chúng tôi sẽ gán chung các con tằm
bị bệnh (bat ké loại bệnh) vào chung một lớp “tam bệnh” không phân biệt chitiết từng loại bệnh
- Tht ba: vì đây thuộc dạng bài toán phân đoạn (segmentation) nên ta phải gan
nhãn cho từng pixel trong anh.
Trong quá trình gan nhãn, dé có sự đồng đều và thống nhất giữa những người gán
nhãn Chúng tôi xây dựng hướng dẫn gán nhãn song song với quá trình gán nhãn.
Nếu một trường hợp gán nhãn chưa có trong hướng dẫn gán nhãn, hoặc trường hợp
đó gây ra sự nhập nhằng, bất đồng ý kiến giữa những người gán nhãn chắng hạn
37
Trang 36như con tằm trong một hình ảnh người gán thứ nhất cho là tằm bệnh, người gán thứhai cho là tăm bình thường, thì chúng tôi tiến hành thảo luận ý kiến và đưa ra kết
luận, sau đó bé sung trường hợp vừa nêu vào hướng dẫn gan nhãn dé thuận tiện choviệc gan đối với những trường hợp gây nhập nhang tương tự
3.2.3 Gan nhãn và đánh gia
Sau khi thu thập xong đữ liệu và đã có hướng dẫn gán nhãn Sử dụng công cụ
Labelme [20] chúng tôi tiến hành gán nhãn, chỉ những con tằm bệnh trong ảnh mớiđược đánh nhãn, gan đúng từng pixel cho hình dạng của nó, nhãn của ảnh là một
anh mặt na (mask) bao gom các pixel nhị phan (binary pixel) được lưu trữ dưới
dang file json Pixel có giá trị 1 biểu thi pixel đó thuộc về tằm bệnh va pixel có giátrị 0 thể hiện nền (background)
38
Trang 37Hình 3.8 Ảnh mặt nạ nhãn (mask) của ảnh sốc
Người gán nhãn gồm 2 người đều là những người có kinh nghiệm trong ngành
nuôi tằm lấy kén Chúng tôi sử dung độ đo Cohen’s Kappa [21] để đánh giá mức độđồng thuận giữa các người gán nhãn với nhau Cohen’s Kappa là một trong những
độ đo được sử dụng phô biến nhất cho dé đo lường mức độ nhất quán giữa những
người gán nhãn Một số trường hợp gán nhãn khó như: tăm đè lên tằm, dâu che
khuất tam, đã được chúng tôi thảo luận và thống nhất cách gan chung và sau đó
ghi rõ cách gán trong guildline gán nhãn Hệ số đồng thuận đạt được là 0.81 Sau
cùng chúng tôi thống nhất các trường hợp không đồng đều giữa những người gán
nhãn với nhau và tạo ra bộ dữ liệu hoàn chỉnh cuối cùng Hình 3.9 bên dưới minh
họa giao diện công cụ gán nhãn Labelme mà chúng tôi sử dụng dé gán nhãn
39
Trang 38[By labelme - C/Userv/hokhoi/Desktop/đata4)pg* - ø x
File Edit View Help
ove sat xe1I58451545464065 /.4012121212121213
Hình 3.9 Minh họa công cụ gán nhãn Labelme
3.3 Phân tích, thống kê bộ dữ liệu
Tổng cộng 4000 tắm ảnh được thu thập, trong đó bao gồm xấp xỉ 12000 contăm bệnh và khoảng 80000 con khỏe mạnh, điều này là dễ hiểu vì trong một đợt
nuôi số lượng tăm khỏe mạnh sẽ chiếm da số dé tạo ra kén, tằm bệnh sẽ ít hơn va rải
rác nhiêu nơi.
40
Trang 39Số lượng con tam bệnh va tam khỏe mạnh trong bộ dữ liệu
Hình 3.10 Biểu đồ thê hiện số lượng tăm bệnh và tăm khỏe mạnh trong tập dữ liệu
Tập dữ liệu sau đó được xáo trộn và phân chia thành các tập huấn luyện, kiểm
định và thử nghiệm dé dam bảo tính khách quan và chính xác trong quá trình pháttriển và kiểm tra mô hình học sâu Với tập huấn luyện gồm 3800 tam anh, tập kiêmđịnh 100 tắm ảnh và tập thử nghiệm 100 tắm ảnh Số lượng tằm bệnh và tằm khỏe
mạnh trong các tập dữ liệu được thé hiện trong hình 3.11 va hình 3.12
41