1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Phát hiện tằm bệnh sử dụng học sâu và công nghệ thị giác máy tính

84 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát Hiện Tằm Bệnh Sử Dụng Học Sâu Và Công Nghệ Thị Giác Máy Tính
Tác giả Hồ Anh Khởi
Người hướng dẫn TS. Đỗ Trọng Hợp, TS. Trần Văn Thành
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 84
Dung lượng 27,67 MB

Nội dung

phương pháp, mô hình học sâu phổ biến trong bài toán phân đoạn ảnh như FCN,Unet, DeepLab, YOLOv8, PSPNet dé phân tích hình anh của tằm nhăm phát hiện các con bị bệnh, đồng thời các kỹ th

Trang 1

ĐẠI HOC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA KHOA HOC VA KY THUAT THONG TIN

HO ANH KHÔI - 20521477

KHOA LUAN TOT NGHIEP

PHAT HIEN TAM BENH SU DUNG HOC SAU VA CONG

NGHE THI GIAC MAY TINH

SILKWORM DISEASES DETECTION USING DEEPLEARNING

AND COMPUTER VISION TECHNOLOGY

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS DO TRONG HOP

TS TRAN VAN THANH

TP HO CHÍ MINH, 2024

Trang 2

trường đã trở thành hành trang vô giá giúp chúng em hoàn thành khóa luận tốt nghiệp

này cũng như chinh phục những thử thách trong tương lai.

Cuối cùng, nhóm cũng xin gửi lời cảm ơn đến những người thân, gia đình, bạn bè

đã luôn đồng hành, động viên, ủng hộ, và giúp đỡ trong suốt chặng đường trình học tập

và quá trình thực hiện khóa luận.

Một lân nữa chúng em xin chân thành cảm on!

Tác giả

Hồ Anh Khôi

Trang 3

MỤC LỤC

Chương 1 TONG QUANN - - 2-56 St2EEEE9 E9 19E1511511211211211211211111211 1.1.1.1, 23

1.1 _ Giới thiệu bal toán -.- G5 ST TH HT rệt 23

1.2 Tính ứng dụng thực tiễn ¿5+ 2 +s+E£E++E+E£EE£EeEEEErEerkrkrrrrxrrrreree 26

Chương 2 CAC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN - 27

2.1 Cac công trình nghiên cứu trong NUGC - - 55+ +< + ++£+svsseeseeeree 27

2.2 Cac công trình nghiên cứu ngoal HƯỚC - - 55 55+ x*+++ssvsseereeeree 29

2.3 Những vấn đề còn tỒn tại :- 6: StSt2EE‡EEE E2 1221221211211 xe 302.4 Hướng giải quyết của đề tài -¿2-s¿- 5¿©c+2ck2EkeEEEEEEEEEErkrrkrrrkerrkee 31

Chương 3 DU LIEU ceceeececccccccsccscssesssscssssessetussscsessesucscsussvcsesucseescsucsesscsessesseaeescees 32

iP DY COM 20 006 LU b (ols nce 32 3.2 Quy trình xây dựng bộ dữ liệu -.- cece cee Sư, 33

3.2.1 _ Thu thập dữ liệu - 22c St S2 Si 34

3.2.2 Xây dựng hướng dẫn gán nhãn - 2 2 ++s+s++x+zx+xzxezxzss 34

3.2.3 Gán nhãn và đánh gIá - G119 231831 119311311181 1111 ke rree 383.3 Phân tích, thống kê bộ dit liệu - ¿2 +++£+£++£x+£x++x+erxerxesrxerxee 40

Chương 4 PHƯƠNG PHÁP 2-©22Ss+EE2EEEEEEEEE2EEEEEEEEEEEEEErrrerkee 43

4.1 Tổng quan về phương pháp đề xuất - 2-2 2 2 2+£++£+£zEzxezxeee 43

4.1.1 Giới thiệu bài toán phân đoạn ảnh 5-5 s5 + +seeeseeess 434.1.2 Hướng giải quyẾt :-5cS<SEE SE 2122121111211 xe,454.2 _ Tiền xử lý dữ liệu :-©++2k+EE E2 E2E1211211211211211211 1.1.1 514.3 Mô hình để xuất -+2tttthHnHHH HH 55

AB PCN — 55

Trang 4

4.3.2 net( nọ HT ng ng ke 56

4.3.3 YOLOV§ Ă 2S 2H HE E2 1 122121101 1e 58

4.3.4 DeepLab -.-2+ 2t 222 122122112212211211211 1112111111 cEcre 60 4.3.5 PSPNG Q2 S2 TH HH1 121 re 63

5.1 _ Kết quả thực nghiệm ¿ 2¿-+¿22++2E++EEEtEEEtEEEeEEsrksrkrrrrerrree 70

5.2 Phan tích lỗi và đánh giá về kết quả -¿+ +++++x++zx+zx+zzxerxe+ 72

Chương 6 KẾT LUẬN VÀ HƯỚNG PHAT TRIÊỀN :-¿+¿ 79

6.1 Kt luận -2-©2c22E 2k2 2E1E212112112121121111 11.111 796.2 Hạn chế :-©2¿+2++Ek 2 2 EEEEE21127171211271 1112111121 806.3 Hướng phát triển -¿-¿+¿2E++2EE+EEEtEEEEEEEEEESEkrrrkrrrrrrrree 80

Trang 5

DANH MỤC HÌNH

Hình 1.1 Ảnh sợi tơ tăm 2:+-+22+ 2211, TH ah l6Hình 1.2 Vải, lụa làm từ tơ tằm 22ccttt HH He 16Hình 1.3 Các loại mỹ phẩm làm từ tơ tằm 2:22 5+++++2x++£x+zzxrzrxrrxee 17Hình 1.4 Mô hình tái tạo tế bào cơ xương từ tơ tằm -¿- 2-2 2+cz+cz+£z+zzzzxez 17Hình 1.5 Tam dùng dé làm thức ăn - 2-2 2 2 £+EE+EE+EE+EE+E2EE+EzEerrerrerreee 17Hình 1.6 Vòng đời của một con tằm từ trứng cho đến lúc hóa thành sâu bướm 18

Hình 1.7 Ảnh con tằm đang ăn lá dâu - 2-2 £+5£+E£+E£+E++E£EEzEzrerrerrerreee 19

Hình 1.8 Ảnh các con bò lên nhau cho thé hiện sự chồng chéo . 23Hình 1.9 So sánh object detcion và image seømenfafiOI «+ x se c+cscee24Hình 1.10 Minh họa đầu ra của bài toán segmentation với ảnh đầu là ảnh gốc, ảnh

giữa là mặt nạ nhãn, ảnh cuối là đầu ra của bài toán Seømentafion - 24Hình 1.11 Minh họa đầu ra của bai toán segmentation dành cho phân đoạn nhiều đốitượng cùng thuộc về một lớp tương tự như bài toán của chúng tôi 24Hình 1.12 Đầu vào của mô hình -+¿-©++222+++tttExxrrtrkrtrrttrtrrrrrrkrrrrrrkee 26Hình 1.13 Đầu ra của mô hình - 2 +52 ++£E£EE£EEtEEESEEeEEerxeerxerrerrxerkee 26Hình 2.1 Output của nghiên cứu [ ÍÍ7] - -. - + + + + E++kEEeeeEeeeseeereeeeseeereeees 30 Hình 3.1 Hình ảnh dữ liệu được thu thập - 6 + St EsEEsiEsersersersree 33Hình 3.2 Sơ đồ quy trình xây đựng bộ dữ liệu - 2-2 2 2+£+£++£++xzxzzxzez 33Hình 3.3 Tam bị bệnh do nhiễm virus -¿- - ¿+ +StSx+E£EEEE+E£EE+E+EeExzEerrxsxers 35Hình 3.4 Tam bị bệnh hại huyết do nhiễm vi khuẩn 2-2 2 22522 2252252 36Hình 3.5 Bệnh do nắm -2¿- 22222 + E11 E1 ri 36Hình 3.6 Bệnh do ruồi kí sinh - 2 2 E2£EE+EE££EE£EEEEEEEEEEEEEEEEEEkerkrrrrrrkeee 37Hình 3.7 Ảnh gốc + + S121 EE9EEEE192122121122122111112111121111111 2111111111 cy 38Hình 3.8 Ảnh mặt nạ nhãn (mask) của ảnh gốc -2- + 5¿+c++2zx+zxz+zse2 39Hình 3.9 Minh họa công cu gán nhãn Labelme - 5 5+ +£+s£+v£+eeeseesse 40Hình 3.10 Biểu đồ thé hiện số lượng tam bệnh và tằm khỏe mạnh trong tập dữ liệu

Trang 6

Hình 3.12 Biéu đồ thể hiện tỉ lệ tằm khỏe mạnh trong các tập dit liệu 42

Hình 4.1 Các loại bài tốn trong tac vu image segmentation -«<+ 45

Hình 4.2 Minh hoa output của bài fOán 5 1x 9v nh ng ngư46

Hình 4.3 Minh họa kiến trúc mơ hình được xây dựng theo cách tiếp cận đơn giản 47 Hình 4.4 Minh họa kiến trúc mơ hình theo cách tiếp cận hiện đạt - 49

Hình 4.5 Minh họa phép tính transpose conVỌUfiOT - s« «+ xx+sv+sseesses 50

Hình 4.6 Quy trình giải pháp đề xuất của chúng tơi cho bài tốn nhận diện, phân

đoạn hình ảnh con tăm bệnh - 2 - 2+ E+EEEE+E£EEEE+EEEE+EEEEEESEEEEEEEEvEErErErrkrkrreree 50Hình 4.7 Ảnh g66 -. +- + s2 E1 19E1011111211211111111111111 1111.11.1111 g1 cv 52Hình 4.8 Ảnh sau khi được KOAY 0000715120177 52

Hình 4.9 Ảnh sau khi được lật (flip) ¿- 2 2 2 ++E++E+E+EEeEerrrrrerrrrerrres 53

Hình 4.10 Ảnh sau khi được cắt một phần (ors›2)- 0 54Hình 4.11 Ảnh sau khi được điều chỉnh độ sáng và tương phan (brightness and

00150022777 ˆ 4 55Hình 4.12 Kiến trúc FCN -2252t2 HH 1E g1 reeieg56Hình 4.13 Kiến trúc tong quát của mơ hình Unet 2-2 2 2+z+sz+sz+sz+s++‡ 58Hình 4.14 Kiến trúc YOLLOV -2¿£552ctc2+vtEEEvtttEktrrtttrrrrtrtrrrrrrtrrerrrieg 59Hình 4.15 So sánh các phiên bản của YOLOVS c5 + ++skssseeeereeees 60Hình 4.16 Kiến trúc Deeplab -¿- + 2 2S2+EE+EE9EE2EEEEE2EE2E12E12E12112222222Ee xe, 62Hình 4.17 Các module của DeepLab - - < + 1911 911 19 111911 9 1v kg 62Hình 4.18 Hiệu suất của khá tốt của DeeplabV3 trên bộ dữ liệu MS COCO 63Hình 4.19 Minh họa kiến trúc PSPNet -:¿555tt22xvvttEktrtrrrtrrrrrtrrrrrrier 64Hình 4.20 Minh họa cách tích chỉ số Dice Coefficient - - - s+s+sszszx+xezxzsezs 67Hình 4.21 Minh hoa cách tích chỉ số IoU -¿s- + s+E+E+Et+E+EEE+EeEtzE+Eezezxzzezxz 68Bang 5.1 Két qua thực nghiệm các mơ hình trên tập dữ liệu kiểm định (validation)

¬— 70

Bảng 5.2 Kết quả thực nghiệm các mơ hình trên tập dữ liệu thử nghiệm (test) 71Hình 5.1 Kết qua phân đoạn tằm bệnh từ mơ hình 2-2 2 2 z2 22522 ++‡ 71Hình 5.2 Kết quả phân đoạn tằm bệnh từ mơ hình - 2-2 2 22 22522 +£‡ 72

Trang 7

Hình 5.3 Kết quả phân đoạn tăm bệnh từ mô hình - ¿2 +zs+2s+=s+2 72 Hình 5.4 Giá tri precision và recall với từng ngưỡng quyết định . - 74

Hình 5.5 Biéu đồ thể hiện ngưỡng quyết định, tại đó giá tri precision va recall đạt

kết quả đều cao và tối WU nhất -:- + s5 SE+SE+EE+EE+EEEEEEEEEEEEEEEEE211211222222 2c 74

Hình 5.6 Biểu đồ thé hiện sự đánh đổi giữa precision và recall - 75

Bảng 5.4 Hiệu suất (ty lệ chính xác) của mô hình dựa trên mật độ tăm 76

Hình 5.7 Mô hình nhằm lẫn con tằm khỏe thành con tằm bệnh - T1Hình 5.9 Tam bị dâu che phủ - 2 2 x2+£+EE+EE£+EE£EEtEEEEEEEEErEeerkerkrrrerrkree 78Hình 5.10 Tằm bệnh ở góc trên trùng màu với lá dâu khiến mô hình khó phân biệt

Trang 8

DANH MỤC BANG

Bang 5.1 Két quả thực nghiệm các mô hình trên tập dữ liệu thử nghiệm (val) 70Bảng 5.2 Kết quả thực nghiệm các mô hình trên tập dữ liệu thử nghiệm (test) Error!Bookmark not defined.

Bảng 5 3 Hiệu suất (tỷ lệ chính xác) của mô hình dựa trên mật độ tằm 76

Trang 9

DANH MỤC TU VIET TAT

STT Từ viết tắt Mô tả

1 PSPNet Pyramid Scene Parsing Network

Mask R-CNN Mask Region-Based Convolutional Neural

: Network

3 loU Intersection over Union

6 IOT Internet of thing

7 ADN Axit Deoxyribonucleic

8 CNN Convolutional Neural Network

9 mAP near Average Precision

10 CA-YOLOv5 ConvNeXt-Attention- YOLOv5

12 json JavaScript Object Notation

13 DNN Deep neural network

14 GANs Generative Adversarial Networks

15 RPN Region Proposal Network

16 ASPP Atrous Spatial Pyramid Pooling

17 CRF Conditional Random Field

18 YOLO You only look once

Trang 10

TÓM TẮT KHÓA LUẬN

Ngành trồng dâu nuôi tam, là một trong những ngành nghề truyền thống lâu

đời của nhiều quốc gia châu Á, đặc biệt là Việt Nam, đã góp phần không nhỏ vào

nền kinh tế và văn hoá của đất nước Ngành trồng dâu nuôi tăm ở nước ta đang rấtphát triển Theo thống kê của Hiệp hội Tơ lụa thế giới, Việt Nam đứng thứ ba châu

Á (sau Trung Quốc và An D6) và thứ sáu trên thé giới về SỐ lượng xuất khẩu lụa tơtăm, giá tri xuất khẩu năm 2022 dat 70 triệu USD/năm [1] To tam không chỉ là

nguyên liệu quý giá cho ngành dệt may, mà còn là biểu tượng của sự tinh tế, công

phu và nghệ thuật thủ công của người nông dân Ngày nay, mặc dù phải đối mặt vớinhiều thách thức từ sự phát trién của công nghệ, ngành trồng dâu nuôi tằm vẫn giữvững vị thế của mình nhờ vào những lợi ích, sản phẩm có giá trị cao mà ngành này

mang lại.

Trong giai đoạn phát triển và thu hoạch kén từ con tăm, sẽ có những con bịbệnh không thé tạo thành kén và lây bệnh cho những con tam bình thường khác

Bệnh tằm có thể gây thiệt hại lớn về kinh tế cho người nuôi tăm nếu không được

nhận diện kip thời và chính xác Vì thé nên trong giai đoạn tăm chuẩn bị thành kén,người nuôi tằm bắt buộc phải tìm và bắt, loại bỏ những con đó Đây là một vấn đề

khá quan trọng trong ngành nuôi tằm lấy kén

Với mong muốn góp phan giúp đỡ phát triển ngành trồng dâu nuôi tằm lay

kén ở Việt Nam chúng tôi quyết định thực hiện dự án “Phát hiện tằm bệnh sử dụng

học sâu và công nghệ thị giác máy tính” Nghiên cứu này tập trung vào việc phát

triển một hệ thống mạnh mẽ và hiệu quả dé phat hién bénh tam bang cach su dung

công nghệ hoc sâu và thị giác máy tính Mục đích chính là tự động hóa việc xác

định các con tằm bệnh, từ đó tạo điều kiện can thiệp kip thời và giảm sự phụ thuộcvào việc kiêm tra thủ công

Cụ thé, giải pháp chúng tôi đề xuất gồm hai đóng góp chính: Một bộ dit liệuhoàn chỉnh bao gồm 4000 hình ảnh các con tằm khỏe mạnh và bị bệnh đã được

chúng tôi thu thập và gán nhãn Bên cạnh đó chúng tôi tiến hành thực nghiệm các

12

Trang 11

phương pháp, mô hình học sâu phổ biến trong bài toán phân đoạn ảnh như FCN,

Unet, DeepLab, YOLOv8, PSPNet dé phân tích hình anh của tằm nhăm phát hiện

các con bị bệnh, đồng thời các kỹ thuật xử lý ảnh và tăng cường dữ liệu như tăng

cường dir liệu (data augmentation) cũng được sử dụng.

Kết quả nghiên cứu cho thay mô hình học sâu được đề xuất là

Unet+ResNet34 đạt độ chính xác cao trong việc phát hiện bệnh tăm bệnh với độ đo

đánh giá Accuracy, IoU, Dice, Recall, Precision lần lượt là 0.9559, 0.7746, 0.8730,0.8401, 0.9292 vượt trội hơn so với các mô hình khác trên tập dữ liệu của chúng tôi

đề xuất Mô hình này đã thể hiện khả năng khái quát hóa mạnh mẽ đối với các điềukiện hình ảnh khác nhau Nghiên cứu này chứng minh rằng tiềm năng của công

nghệ học sâu và thị giác máy tính trong việc cách mạng hóa áp dụng công nghệ vàocác lĩnh vực nông nghiệp giúp phát triển ngành nghé Hệ thống được phát triển cóthé hỗ trợ đáng ké cho nông dân hành nghề trồng dâu nuôi tằm bang cách cung cấpgiải pháp tự động, đáng tin cậy đề xác định bệnh sớm, từ đó có thê can thiệp và loại

bỏ tằm bệnh nhanh chóng giúp giảm thiểu số lượng kén thất thoát lúc thu hoạch

13

Trang 12

MỞ ĐẦUGiới thiêu:

Ngành trồng dâu và nuôi tăm, gọi chung là nghề trồng dâu tằm, đã trở thànhmột ngành không thé thiếu đối với lĩnh vực dệt may trong nhiều thế kỷ Tam

(Bombyx mori), ăn lá dâu, tạo ra sợi tơ thông qua kén của chúng là vật liệu giá trị,

khiến nghề trồng dâu nuôi tằm trở thành một hoạt động nông nghiệp quan trọng ở

nhiều quốc gia Ngành tơ tằm trải rộng trên 60 quốc gia trên thế giới, trong đó các

nước sản xuất chính nằm ở châu Trồng dâu nuôi tằm là nghề cô truyền của đất

nước Việt Nam ta, đã có từ lâu đời Nghề trồng dâu nuôi tằm ở nước ta đã đạt đến

trình độ khá cao, và hình thành nhiều vùng ươm tơ, dét lụa nỗi tiếng Việt Nam

được xem là cường quốc về sản xuất tơ tằm, với sản lượng dao động luôn tăng Vớicác nước đang phát triển, như Việt Nam, dâu tằm là một nghé rất phổ biến ở các

vùng nông thôn Theo Bộ NN&PTNT, cả nước hiện có 32 tỉnh có nghề trồng dâu

nuôi tằm, với 38.076 hộ nông dân làm nghé trồng dâu nuôi tăm, tính theo lao độngchiếm 0,24% tổng lao động nông nghiệp [2] Tập trung nhiều nhất vùng Tây

Nguyên với 77% diện tích của cả nướcNghề trồng dâu nuôi tằm tại Việt Nam đã dat

đến một trình độ phát triển cao và đã hình thành nhiều vùng lõi sản xuất tơ lụa nổi

tiếng Việt Nam được xem là cường quốc trong sản xuất tơ tam, với sản lượng liêntục tăng Hiện có 32 tỉnh thành trong cả nước tham gia nghề này, với hơn 38,000 hộnông dân, chiếm 0.24% tông lao động nông nghiệp Đặc biệt, vùng Tây Nguyên

chiếm hơn 77% diện tích sản xuất tơ tằm [3] Ngoài ra, các vùng như Đồng bằng

Sông Hồng, Miền núi và Trung du, Bắc Trung bộ và Duyên hải Nam Trung bộ cũngđóng góp từ 3 đến 11% Nghé trồng dâu nuôi tam đóng góp khoảng 2% tổng giá trịxuất khâu, và diện tích trồng tăng mạnh trong những năm qua Sản lượng kén tằm

cũng có xu hướng tăng, với tăng trưởng bình quân giai đoạn 2018-2022 đạt 19.33%

[4] Các nước có truyền thống sản xuất dâu tằm tơ như Nhật Bản, Hàn Quốc hiện

nay sản xuất rất ít, ngay cả Trung Quốc - nước đứng đầu thế giới về sản xuất dâu

tăm tơ cũng đang giảm sản lượng Trong khi đó, Việt Nam vẫn tăng đều về sản

lượng tơ tằm trong những năm gần đây Với những tiền đề này, ngành sản xuất tơ

14

Trang 13

tăm tại Việt Nam có triển vọng rất lớn dé trở thành ngành kinh tế quan trọng, với lợithé về nguồn nguyên liệu dồi dào và chất lượng cao Ngoài ra trồng dâu nuôi tằm

đem lại hiệu quả thu nhập cao hơn so với các ngành nghề nông nghiệp khác Thu

nhập từ trồng dâu nuôi tằm cao hơn so với cây mì, bắp hay đậu tương từ 30 - 50%

[5] Trồng dâu nuôi tăm là nghề có chi phí sản xuất thấp, vốn đầu tư không cao, câydâu sinh trưởng tốt trên nhiều loại đất, sản phẩm dâu tăm có giá trị cao, vòng quay

lứa tằm ngắn chỉ có mười ngày nhanh có lợi Nghề trồng dâu nuôi tằm có nguồn

nhân lực đổi dào thu hút nhiều lao động nông dân, mọi người dân từ người trẻ đến

già đều có thê thực hiện được Tại thị trường, hiện giá kén tằm đang ở mức cao,

đem lại lợi nhuận hấp dẫn cho bà con Nếu như năm 2021, giá kén bình quân đạt từ90.000 - 100.000 đồng/kg; năm 2022 từ 90.000 - 140.000 đồng/kg thì 6 tháng đầu

năm 2023, giá kén tằm đạt bình quân từ 140.000 - 180.000 đồng/kg, có thời điểm

giá kén lên đến 210.000 đồng/kg đối với kén loại A [6]

To tam không chỉ có vai trò quan trọng trong ngành dệt may mà còn được vi

như "Nữ hoàng” của lụa, nhờ vào đặc tính bèn, đẹp và mềm mại của nó Tơ tằm là

nguyên liệu chủ yếu dé sản xuất các sản phâm lụa tinh túy như quan áo, vay đầm,

áo dài, khăn choàng, rèm cửa, chăn ra gối ném, Ngoài lợi ích kinh tế, tơ tằm còn

có ứng dụng trong công nghệ sinh học, từ việc sản xuất protein tái tổ hợp và vật liệusinh học đến các mô hình động vật dé nghiên cứu các chất kháng khuẩn mới To

tằm cũng được sử dụng trong ngành làm đẹp như thành phần chính trong kem trị

mụn, sữa rửa mat, Ngoài ra, nhộng tăm cũng là một nguồn thực phẩm giàu dinh

dưỡng Điều đặc biệt là tại Đại học bang Utah, tơ tăm đã được áp dụng để nuôi tế

bào cơ xương cho bệnh nhân bị teo cơ xương Tóm lại, nghề trồng dâu, nuôi tằm vàươm tơ không chỉ mang lại lợi ích kinh tế mà còn có vai trò quan trọng trong phát

triển kinh tế đất nước và giảm nghèo cho người nông dân, đồng thời là một phần

không thể thiếu của ngành công nghiệp lụa Việt Nam

15

Trang 14

16

Trang 15

17

Trang 16

Đặt van de:

Qua những số liệu và loi ích trên cho thay ngành trồng dâu nuôi tam là một

ngành nghề rất quan trọng đối với đất nước đang phát triển như Việt Nam Vòng

đời của một con tằm được mô tả như sau: Giai đoạn 1: Trứng (Sâu bướm cái đẻ ra

trứng) Giai đoạn 2: Sâu tằm (Trứng nở ra sâu tằm, sâu tằm sẽ ăn dâu liên tục va cầnkhoảng 7 -8 ngày dé lớn lên) Giai đoạn 3: Kén nhộng (Sau khi đã ăn đủ ngày, tằm

sẽ chín và nhả tơ, kéo kén, chuyền hóa thành nhộng) Giai đoạn 4: Hình thành sâu

bướm (Nhộng nở ra sâu bướm).

Life cycle of silkworms (Bombyx mori)

Hatching

3-4 Days

SNgHế 1 Moult

21⁄2-3 Days

Silkworm feeding 2 Moult

on mulberry leaves 3-4 Days

Trang 17

Mặc dù đã có những tiễn bộ trong kỹ thuật nuôi tăm, nhưng con tằm vẫn rất

dễ mac các bệnh quá trình nuôi như bệnh vi khuẩn, bệnh virus, bệnh ký sinh trùng,

bệnh tăm gai, bệnh do nhiệt độ môi trường, Những bệnh này khiến cho chúng

không có khả năng tạo thành kén Khi nuôi tằm để lấy kén có một giai đoạn quan

trọng là giai đoạn tăm ăn rỗi chuẩn bị tạo thành kén, đó là lúc người nuôi sẽ phải

nhặt bỏ những con tam bị bệnh, nếu không nhặt bỏ hết những con tăm bị bệnh đó,

nó sẽ lây cho những con tằm đang khỏe mạnh khác làm cho những con đó cũng

không thể lên kén, khiến cho sản lượng kén giảm sút mạnh mặc dù quá trình nuôi

dưỡng và cho ăn rất kỹ lưỡng, gây thiệt hại đáng ké trong sản xuất tơ lụa, góp phầnảnh hưởng đến kinh tế nước ta Hiện tại, việc phát hiện những căn bệnh này phụ

thuộc vào việc kiểm tra thủ công của những người nông dân, việc này tốn nhiều thờigian, công sức và đôi khi là sẽ bỏ sót Điều cần thiết là phải có một giải pháp hiệu

quả, chính xác và tự động hóa dé phát hiện tằm bệnh, từ đó có thé can thiệp và loại

bỏ nhanh chóng giúp giảm thiểu số lượng kén thất thoát lúc thu hoạch

Lí do, đông lực thực hiện:

Song song với các làng nghề dệt lụa phía Bắc, vùng dat Tây Nguyên LâmĐồng, nơi mà tôi sinh ra đã trở thành thủ phủ mới của nghé tơ tằm Việt Nam, là

19

Trang 18

vùng trồng dâu nuôi tằm lớn nhất chiếm 75,53% so với cả nước [8] Lí do là vì tằm

là loài động vật khó nuôi, nhạy cảm với môi trường và nhiệt độ nên dé cho quá trìnhsinh trưởng, phát triển tốt cần có nhiệt độ thích hợp Thành phố Bảo Lộc ở độ cao

900m, quanh năm mát mẻ với nhiệt độ thấp từ 21 - 25 độ C là điều kiện lý tưởng

cho việc trồng dâu, nuôi tăm đạt sản lượng cao Ngoài ra còn có thê phát triển, tạo

ra những giống tằm, cây dâu có chất lượng tốt Trong số các địa phương phát triển

tơ tằm của Lâm Dong, TP Bảo Lộc là nơi quy tụ những “cánh chim đầu đàn” về

đầu tư công nghiệp tơ lụa Tại đây, hiện có khoảng 30 doanh nghiệp đầu tư, kinh

doanh về tơ tằm Trong đó 11 doanh nghiệp ươm to, 10 doanh nghiệp chuyên về

công nghiệp dét và 5 doanh nghiệp kinh doanh tơ lụa Theo thống kê, sản lượng tơcủa riêng thành phố Bảo Lộc vào khoảng 1.000 tắn/năm, khoảng 5 triệu mét vải lụa

các loại [9] Sản phâm vừa mang lại giá trị kinh tế cao đóng góp rất nhiều vào sự

phát triển kinh tế cả nước vừa giải quyết lao động cho địa phương Mặc dù là loài

côn trùng có giá trị kinh tế cao nhưng lại thường xuyên mắc bệnh trong quá trình

nuôi, dẫn đến thiệt hại một lượng lớn kén mỗi năm Là một trong những hộ gia đìnhđang theo nghề nuôi tam lay kén tại thành phố Bảo Lộc Nhận thay răng có thé áp

dụng công nghệ dé thay thé một số công đoạn thủ công trong việc phát hiện và loại

bỏ tăm bệnh Nên dự án này đã được ra đời, nghiên cứu này đưa ra một giải pháp tựđộng hóa, chính xác, hiểu quả nhằm giúp đỡ phần nào đó công sức cho những ngườinông dân làm nghề trồng dâu nuôi tăm nói chung và hộ gia đình tôi nói riêng có thégiảm bớt được phần nào đó công sức, chỉ phí, thời gian

Mục tiêu khoá luận:

Nghiên cứu này nhằm mục dich phát triển một phương pháp hiệu quả dé phát

hiện bệnh tam bằng cách sử dụng công nghệ học sâu và thị giác máy tính Bang

cách tận dụng sức mạnh công nghệ tiên tiến, hệ thống được đề xuất tự động phân

đoạn và phát hiện các con tăm bệnh nhanh chóng và chính xác Mục đích là dé hỗ

trợ người nông dân nuôi tằm trong việc duy trì quần thể tăm khỏe mạnh và nâng caohiệu quả thu hoạch kén, sản xuất tơ lụa Đề làm được điều đó chúng tôi thu thập dữ

liệu, gán nhãn, tập trung nghiên các thuật toán máy học, học sâu, áp dụng các kỹ

20

Trang 19

thuật xử lý dữ liệu anh, tăng cường dữ liệu, phương pháp dé phân đoạn con tam.

Chúng tôi đã đặt ra các mục tiêu cụ thé như sau:

- _ Thực hiện thu thập và gan nhãn tạo ra một bộ dữ liệu hoàn chỉnh gồm 4000

tầm ảnh về tằm bệnh, tằm không bị bệnh Dé có thé huấn luyện mô hình nhậndiện đồng thời đóng góp cho cộng đồng, những người nghiên cứu muốn tìm

hiểu về lĩnh vực này.

- Một phương pháp hiệu quả để phân đoạn và phát hiện con tăm bệnh Đề đạt

được mục tiêu này, các thử nghiệm khác nhau đã được tiễn hành với các môhình học sâu hiện đại như FCN, Unet, DeepLab, YOLOv8, PSPNet Cùng với

các độ đo như IoU, Dice, Recall, Precision, pixel Acuuracy dé đánh giá và so

sánh các mô hình với nhau.

Đối tượng và phạm vi nghiên cứu:

- _ Đối tượng nghiên cứu chính trong dự án này là loài tam, môi trường sống, lá

dâu (thức ăn cho tăm) chỗ nuôi tằm, chủ yếu vẫn là các con tằm khỏe mạnh vàcon tằm bị bệnh

- Pham vi nghiên cứu là giai đoạn tằm ăn rỗi chuẩn bị tạo thành kén, các khu

vực, hộ gia đình hành nghề nuôi tam quanh thành phố Bảo Lộc, tỉnh Lâm

Đồng.

Kết quả nghiên cứu:

- _ Dự án của chúng tôi thực hiện đóng góp một bộ dit liệu về tằm bệnh và tam

khỏe mạnh hoàn chỉnh, bên cạnh đó một phương pháp hiệu quả thay thế sức

người thủ công trong các việc phát hiện tằm bệnh cũng được thực hiện Quaquá trình nghiên cứu, chúng tôi đề xuất mô hình học sâu UnettResnet34 đượcchúng tôi tinh chỉnh (mô hình có đạt hiệu suất tốt nhất) cho bài toán phân đoạn,phát hiện tằm bệnh Được thực hiện với mục đích ban đầu là ứng dụng thực

tế, dự án này hứa hẹn mang lại lợi ích đáng kề cho các hộ gia đình, nhà máy,

và xưởng sản xuất đang làm nghề trồng dâu nuôi tăm tại Việt Nam

Câu trúc khóa luân:

21

Trang 20

Khoá luận gôm 6 chương với các nội dung chính như sau:

> Chương 1: Tong quan về đề tài nghiên cứu

Trình bày khát quát bài toán phân đoạn hình ảnh, phát hiện tằm bệnh và tầm

quan trọng của các kết quả nghiên cứu trong bối cảnh hiện nay, đặc biệt là tínhứng dụng thực tế của khoá luận cho những người làm ngành trồng dâu nuôi

tằm

Chương 2: Các công trình nghiên cứu liên quan.

Giới thiệu một số công trình nghiên cứu trong và ngoài nước liên quan đến bàitoán thực hiện.

Chương 5: Thực nghiệm và đánh giá

Chương này giới thiệu một số độ đo đánh giá để so sánh các phương pháp,trình bày kết quả thực nghiệm mà chúng tôi thu được, thêm vào đó là các phântích lỗi về kết quả cũng như nhận xét

Chương 6: Kết luận và hướng phát triển

Trong chương cuối của khóa luận, chúng tôi trình bày kết luận cuối cùng saukhi thực hiện nghiên cứu, tổng kết kết quả đạt được, điều còn hạn chế và một

số hướng phát triển trong tương lai

22

Trang 21

Chương 1 TỎNG QUAN

1.1 Giới thiệu bài toán

Đối với bài toán nhận diện và phân đoạn các con tăm bệnh trong ảnh ta có thé

giải quyết theo hướng phát hiện đối tượng (object detection) Object detection là tác

vụ phổ biến trong lĩnh vực thị giác máy tính và trí tuệ nhân tạo, nhằm phân lớp và

định vị các đối tượng cụ thê trong hình ảnh Không chỉ phân lớp các đối tượng nó

còn xác định vị trí của chúng thông qua việc cung cấp các hộp giới hạn (bouding

box) quanh đối tượng đó Hạn chế của tác vụ object detection là không thé phân biệtranh giới hoặc hình dạng chính xác của các đối tượng và có sự chồng chéo giữa cácbouding box Với tinh chat của bài toán này thì ta không thé sử dung object

detection dé nhận diện tằm bệnh vì hình ảnh của tăm có rất nhiều con bò lên nhau,

nên khi xuất ra output là các bouding box ta sẽ gặp phải một số sự chồng chéo

(overlap) nhất định giữa các con tăm

Dé giải quyết những thách thức này, những tiến bộ trong thị giác máy tinh vàhọc sâu đưa ra các giải pháp tốt hơn, đặc biệt là thông qua kỹ thuật phân đoạn hình

23

Trang 22

ảnh (image segmentation) Một phương pháp khác dé có thé nhận dạng đến từng

pixel của con tằm bệnh trong ảnh thông qua đó ta có thé biết được xác hình dạng, vịtrí của con tam bệnh Thế nên đây là bài toán thuộc dang image segmentation

Hình 1.10 Minh họa đầu ra của bài toán segmentation với ảnh đầu là ảnh gốc, ảnh

giữa là mặt nạ nhãn, ảnh cuôi là đâu ra của bài toán segmentation

Hình 1.11 Minh họa đầu ra của bài toán segmentation dành cho phân đoạn nhiều đối

tượng cùng thuộc về một lớp tương tự như bài toán của chúng tôi

24

Trang 23

Phân đoạn hình ảnh là một nhiệm vụ quan trọng trong lĩnh vực thị giác máytính, liên quan đến việc phân đoạn hình ảnh thành nhiều vùng có đặc điểm giống

nhau Mục tiêu của phân đoạn là xác định và phân đoạn các đối tượng trong hình

ảnh, giúp phân tích và diễn giải dé dàng hon Với một số mô hình mạnh mẽ và phốbiến đã được chỉnh sửa và thiết kế riêng đề giải quyết bài toán này như FCN, Unet,DeepLab, YOLOv8, PSPNet Phân đoạn hình ảnh được ứng dụng rộng rãi trong

nhiều lĩnh vực khác nhau, chắng hạn như hình ảnh y tế, lái xe tự động và kiểm tra

công nghiệp Trong bối cảnh bài toán nhận dạng tằm bệnh, phân đoạn ảnh đóng vaitrò quan trọng Băng cách phân đoạn các hình ảnh của các con tăm, chúng ta có thê

cô lập các vùng cụ thê có tăm bệnh Việc cô lập này giúp phân tích và chân đoán

chính xác hơn, ngoài ra các vùng được phân đoạn có thể được kiểm tra kỹ lưỡng

hơn dé xác định các đặc điêm cụ thé của con tăm bệnh.

Về cấu trúc bài toán, việc áp dụng phân đoạn ảnh vào nhiệm vụ phát hiệntăm bệnh bao gồm một số bước quan trọng Đầu tiên, các hình ảnh chất lượng cao

của tằm được chụp trong nhiều điều kiện khác nhau, bao gom các trang thái bệnh

khác nhau Những hình anh này là cơ sở dé tạo thành bộ dữ liệu có tinh đại diện vàkhái quát hóa Bước tiếp theo là tiền xử lý các hình ảnh này, nâng cao chất lượng vàđảm bảo tính nhất quán trên toàn bộ tập dữ liệu Các kỹ thuật tiền xử lý ảnh bao

gồm chuẩn hóa, điều chỉnh kích thước ảnh, giảm nhiễu và điều chỉnh độ tương

phản, tất cả đều nhằm cải thiện hiệu suất của mô hình phân đoạn Sau khi các hìnhảnh đã được chuẩn bị, một mô số hình phân đoạn học sâu được huấn luyện để nhậndạng và phân đoạn các con tăm bị bệnh trong hình ảnh Các vùng được phân đoạn

sau đó được phân tích dé xác định các con tằm bệnh với hình dạng, kích thước, và

màu sắc dé có thê hiêu rõ hơn và các con tăm bệnh.

- Input: Ảnh chứa các con tăm bệnh và con tăm bình thường trong chỗ nuôi

25

Trang 24

Hình 1.12 Đầu vào của mô hình

- Output: Ảnh đã được phân đoạn (segmentation) bao gồm ảnh các pixel mau

đỏ thê hiện con tam bị bệnh Làm nỗi bật hình dang của nó

1.2 Tính ứng dụng thực tiễn

Như đã đề cập, đề tài được thực hiện dựa trên mục đích ứng dụng thực tế Sau

đây là một số van đề mà sản phâm nghiên cứu có thể giải quyết:

- Tu động hóa quy trình loại bỏ tằm bệnh: giúp người nuôi đỡ được công sức và

thời gian giúp giảm bớt phần nào đó mệt nhọc cho người nuôi (hầu như những

26

Trang 25

người nuôi thường là những người độ tuôi trung niên nên van đề sức khỏe rất

quan trọng).

- Độ bao phủ: người nuôi có thé nhặt sót, không loại bỏ được hết những con tằm

bệnh, nhưng áp dụng công nghệ có độ chính xác cao có thé loại bỏ gần như tat

cả các con tằm bị bệnh

- Mat độ: Các nhà máy tơ lụa, xưởng nuôi tăm hoặc là hộ gia đình có diện tích

nuôi tằm lớn khi đến giai đoạn bắt và loại bỏ tăm bệnh, việc thuê hàng chục,hang trăm người dé nhặt bỏ tằm bệnh là rat tốn kém về mặt tiền bạc cũng nhưsức người Khi có công nghệ nhận dạng tăm bệnh tự động này tích hợp vàomáy móc thiết bị IOT, các xưởng nuôi tằm lớn sẽ không phải tra chi phí thuêlớn dé thuê một số lượng nhiều người cho giai đoạn loại bỏ tăm bệnh nữa

Tóm lại, việc áp dụng bài toán phân đoạn ảnh trong nhiệm vụ phát hiện tăm

bệnh đại diện cho một bước tiến quan trọng trong việc tự động hóa các giai đoạn

trong việc nuôi tằm lay kén Thông qua việc sử dụng các kỹ thuật thị giác máy tính

và học sâu tiên tiến, chúng ta có thể nâng cao độ chính xác và hiệu quả của việc

chân đoán và phát hiện tăm bệnh giúp cải thiện và hỗ trợ công đoạn nuôi tăm, cải

thiện sản lượng kén thu hoạch mang lại hiệu quả cao về mặt kinh tế và góp phần

thúc đây ngành công nghiệp tơ lụa nói chung

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1 Các công trình nghiên cứu trong nước

Ở Việt Nam, hiện nay đã có một số nghiên cứu khám phá, ứng dụng công

nghệ và trí tuệ nhân tạo vào nông nghiệp, đặc biệt là trong việc phát hiện bệnh trên

cây trồng và vật nuôi Tuy nhiên, số lượng nghiên cứu cụ thê áp dụng các phương

pháp hiện đại như học máy, học sâu dé nhận dạng, phát hiện và phân đoạn tằm bệnhvẫn còn hạn chế Các nghiên cứu liên quan thường chủ yếu tập trung vào áp dụng

kỹ thuật, công nghệ để cải thiện quy trình chăn nuôi, thức ăn, chỗ ở cho tằm, lai tạogiống tằm mới, lai tại giống dâu mới, chất lượng kén, sản phẩm tạo ra từ kén và các

kỹ thuật phòng chữa bệnh cho tằm Chắng hạn như đề tài “Xác định Densovirus

27

Trang 26

trên tằm (Bombyx mori) Tai Bảo Lộc (Lâm Đồng)” viết bởi Hà Viết Cường và các

cộng sự [10] nghiên cứu về bệnh của tằm, giúp xác định được các triệu chứng, biểuhiện của bệnh thông qua các nội tạng của con tam Ngoài ra “Nghiên cứu chon tao

và phát triển giống tằm sắn tại một số tỉnh miền núi phía Bắc” với Chủ nhiệm đề tàiThS Nguyễn Thi Len [11] thực hiện với mục tiêu thu thập, đánh giá một số giống

tam san làm nguyên liệu lai tạo, tạo ra giống tằm mới Cũng với mục tiêu là cải

thiện ngành nuôi tăm lấy kén ở nước ta, đề tài “Xác định khả năng truyền nhiễm

bệnh hoại huyết qua môi trường phòng nuôi và da tằm” của Nguyễn Thuý Hạnh vàcộng sự [12] giúp xác định các đặc điểm sinh học về bệnh bại huyết của con tăm,

góp phần giúp ích cho ngành trồng dâu nuôi tằm lấy kén ở Việt Nam ta [12] Ngoài

ra, luận án tiến sĩ nông nghiệp “Nghiên cứu chọn tạo giống dâu lai F1 tam bội thể

trồng hạt thích hợp cho vùng Đồng bằng sông Hồng” của tác giả Nguyễn Thị Len

[13] đã cho ra được một loại dâu mới làm thức ăn cho con tằm tăng hiệu quả chăn

nuôi sản lượng kén cho vùng Đồng bằng sông Hồng Bài báo nghiên cứu “Bào chế

và đánh giá tính chất mặt nạ từ fibroin tơ tằm chứa hoạt chất kháng khuẩn allicin”

của tác giả Nguyễn Thị Ngọc Phương thuộc Trường Đại học Công nghệ Đồng Nai

[14] đã nghiên cứu bào chế cho ra mặt nạ từ fibroin tơ tằm chứa hoạt chất kháng

khuẩn allicin Qua các đề tài, dự án nghiên cứu của các nghiên cứu sinh trong nước

ta đều cho thấy họ đã có sự áp dụng đáng ké ky thuat tién tién, cong nghé vao linh

vuc trong dâu nuôi tam Tuy nhiên, các nghiên cứu hiện tại trên vẫn chưa thực sự sửdụng các phương pháp, kỹ thuật về thị giác máy tính áp dụng vào lĩnh vực trồng dâunuôi tằm lấy kén Chính vì thế trong khóa luận này chúng tôi kế thừa những phát

hiện, ưu điểm từ các nghiên cứu trước (như sử dụng các hình dạng, màu sắc, đặc

điểm sinh học của con tăm bệnh đã được nghiên cứu và phát hiện) đề triển khai mộtphương pháp áp dụng kỹ thuật hiện đại tiên tiến như học sâu dé nhận dang và theo

vết tằm bệnh trong ảnh dé xử lý một số thách thức khó khăn trong việc loại bỏ tambệnh ở giai đoạn nuôi Về phần dữ liệu về tăm thì hiện tại chúng tôi chưa tìm thấy

bộ đữ liệu nào liên quan đến đề tài về ảnh chụp các con tằm khỏe mạnh và tăm bệnh

ở trong nước.

28

Trang 27

2.2 Các công trình nghiên cứu ngoài nước

Bài toán phát hiện và nhận diện bệnh trên cây trồng và vật nuôi là một bài toánphô biến trong lĩnh vực thị giác máy tính Hiện nay trên thế giới, các nghiên cứu vềphát hiện và nhận tằm bệnh đã đạt được nhiều tiễn bộ đáng kể Các nhà nghiên cứu

đã áp dụng nhiều phương pháp học sâu dựa trên CNN và các mô hình mạng noron

khác dé phân đoạn và nhận diện các triệu chứng bệnh trên tăm, được hỗ trợ bởi hệ

thống phần cứng mạnh mẽ, cho phép họ đạt được độ chính xác cao trong việc pháthiện bệnh Một nghiên cứu thực nghiệm về phân loại bệnh tăm dựa trên học sâu, cótựa đề "Attention-Concatenation Dense Convolutional Neural Network for

Silkworm Disease Recognition," được thực hiện bởi Yu Zhen và cộng sự [15].

Trong nghiên cứu này, các tác giả đã sử dụng bộ dữ liệu hình ảnh các con tằm bệnhđơn lẻ, mỗi bức ảnh chỉ chứa một đối tượng tăm, được cung cấp bởi Trạm Xúc TiếnCông Nghệ Nuôi Tam khu vực tự trị Quảng Tây, Trung Quốc [15] Nghiên cứu nàytập trung vào bài toán phân loại hình ảnh bệnh tằm Các tác giả đã sử dụng mô hình

DenseNet và tiến hành tinh chỉnh, sửa đổi kiến trúc các lớp của nó, đồng thời tích

hợp thêm cơ chế attention, tạo ra một mô hình mới gọi là AC-DenseNet Kết quả

thực nghiệm cho thấy mô hình AC-DenseNet đạt độ đo Mean Average PrecIsion

(mAP) là 0.839, cho thấy các nghiên cứu đã có hiệu quả vượt trội trong việc phân

loại ảnh con tăm bệnh Bên cạnh đó nghiên cứu “Image Classification for Silkworm

using Deep Neural Network-Keras” của Nishali M Suvarna và các cộng sự [16]

cũng thực hiện bài toán tương tự, phân loại hình ảnh con tằm bệnh sử dụng bộ dữ

liệu gồm 1000 tắm ảnh chụp con tằm đơn lẻ và áp dụng mô hình CNN cơ bản đã đạtđược độ chính xác 75% Ngoài ra nghiên cứu “CA-YOLOvS: Detection model for

healthy and diseased silkworms in mixed conditions based on improved YOLOv”

của Hongkang Shi và các cộng sự [17] thực hiện bai toán object detection trên anh

các con tằm, sử dụng mô hình YOLOv5 kết hợp mô hình ConvNeXt và cơ chế

attention gọi tắt là CA-YOLOv5 (ConvNeXt-Attention-YOLOvS) đã đạt được độ

chính xác trung bình (mAP) là 96,46% Ngoài ra về phan dit liệu con tam còn có cơ

sở đỡ liệu SilkwormBase [18] là một co sở dữ liệu dành cho riêng những người

29

Trang 28

nghiên cứu về con tam (Bombyx mori) Cơ sở dữ liệu SilkwormBase cung cap một nên tang dữ liệu các thông tin phong phú về gen, biêu hiện gen, di truyén hoc và các

tài nguyên sinh học như các giống tăm, các mẫu ADN liên quan đến con tăm, bên

cạnh đó nó cũng bao gồm 618 tam ảnh về con tằm nhưng không được gán nhãn

2.3 Những vấn đề còn tồn tại

Mặc dù đã có rất nhiều thành công nhưng vẫn còn tồn tại một số vấn đề tồn

đọng cần giải quyết:

- _ Thiếu cơ sở dữ liệu chất lượng cao: Một trong những thách thức lớn nhất là

thiếu cơ sở đữ liệu hình ảnh tằm bị bệnh được chú thích chỉ tiết Điều này hạnchế khả năng tiếp cận của cộng đồng nghiên cứu Ngoài ra thì những bộ dữ

liệu về tằm hiện nay thì thường là những bộ dữ liệu ảnh chỉ có một đối tượng

đơn lẻ gán nhãn theo dạng bouding box và các lớp cho bài toán classfication

và object detection, các bộ dữ liệu bao gồm nhiều đối tượng là tằm bệnh và

tằm bình thường trong một ảnh thì rất hiếm

- Da dang hóa điều kiện hình ảnh: Các nghiên cứu hiện tại thì ảnh thường giới

hạn trong một số điều kiện cụ thé, như anh sáng, góc chụp va môi trường Điều

này làm giảm khả năng áp dụng và khái quát hóa của các mô hình trong thựctế,

- Tinh chất bài toán: Da số các nghiên cứu tập trung giải quyết theo hướng image

classfication và object detection Với bài toán phân loại hình ảnh chỉ xuất ra

nhãn là bệnh hoặc không bệnh cho một đối tượng trong ảnh thì sẽ khó ứng

30

Trang 29

dụng thực tế, còn với bài toán phát hiện đối tượng khi xuất ra các bouding box

sẽ có sự chông chéo giữa các con tắm với nhau.

2.4 Hướng giải quyét của dé tai

Từ các nguyên cứu đi trước ở Việt Nam và trên thế giới Dé khắc phục phan nào

đó các vấn đề còn tồn đọng và nâng cao hiệu quả của nghiên cứu này, dự án tập

trung và giải quyết các vấn đề theo hướng sau: Xây dựng một bộ dữ liệu hình ảnh

Tạo ra một bộ dữ liệu hình ảnh được gán nhãn chi tiết bao gồm nhiều đối tượng

trong một hình ảnh là tăm bệnh và tằm không bệnh, với số lượng lớn và đa dạng vềđiều kiện chụp ảnh làm cho dit liệu phong phú và đa dang, giúp khắc phục van đề

về dữ liệu, nâng cao chất lượng mô hình Giải quyết bài toán phát hiện tằm bệnh

theo dang image segmentation sử dụng các kỹ thuật học sâu tiên tiến và các biến thé

của chúng dé cải thiện độ chính xác va khả năng phân loại chi tiết các loại bệnh trên

tằm Kết hợp các phương pháp xử lý ảnh như tăng cường đữ liệu, chuẩn hóa và loại

bỏ nhiễu để nâng cao chất lượng hình ảnh đầu vào và cải thiện hiệu suất của mô

hình Đánh giá tính khả thi và hiệu quả của việc áp dụng các hệ thống phát hiện

bệnh tự động trong sản xuất tơ lụa Điều này giúp xác định lợi ích thực tế và tiềm

năng ứng dụng rộng rãi của đề tài Những hướng nghiên cứu trên sẽ giúp đề tài

không chỉ giải quyết các vấn đề tồn đọng mà còn mở ra nhiều cơ hội mới cho việc

ứng dụng công nghệ học sâu và thị giác máy tính trong nông nghiệp, đặc biệt là

trong ngành nuôi tắm và sản xuât tơ lụa.

31

Trang 30

Chương 3 DỮ LIỆU

3.1 Mô ta bộ dữ liệu

Bộ dữ liệu sử dụng trong nghiên cứu này bao gồm các hình ảnh của con tăm ởcác giai đoạn tình trạng sức khỏe khác nhau gồm 4000 tắm ảnh được chúng tôi đặt

tên là silkBLC Mỗi hình ảnh được gán nhãn chi tiết (mức độ pIxel) cho các con tăm

bệnh, tằm bệnh thường được thé hiện rõ qua các đặc điểm sin học như thân đen,

nâu, vết loét, chảy mũ và màu sắc bat thường trên cơ thê tăm Bộ dữ liệu này không

chỉ chứa các hình ảnh của tăm bị bệnh mà còn bao gồm các hình ảnh của tằm khỏe

mạnh đề làm cơ sở so sánh Trong nghiên cứu này tất cả các hình ảnh con tăm đều

được chúng tôi thu thập trong môi trường thực tế Việc này được thực hiện trong bađợt nuôi tằm từ tháng 3 năm 2024 đến tháng 7 năm 2024 tại nhà kho nuôi tằm riêngcủa gia đình chúng tôi thuộc phường Lộc Tiến, thành Phố Bảo Lộc, Tỉnh Lâm

Đồng Ngoài ra dữ liệu còn được thu thập ở các chỗ nuôi tằm của những người quentrong nghề cũng đang nuôi tăm, các trang trại xung quanh thành Phố Bảo Lộc Mỗihình ảnh đều có độ phân giải cao và được chụp trong nhiều điều kiện ánh sáng và

góc chụp khác nhau, chỗ nuôi khác nhau (ở cả nong và sàn) nhằm tăng tính đa dạng

và tính đại diện của bộ dữ liệu Các tắm ảnh này thể hiện tình huống thực tế khi tằmbệnh, cần được định vị và loại bỏ kịp thời Tổng cộng có 4000 tắm ảnh gốc đã đượcthu thập với kích thước hình ảnh thu được là 1920 x 2560 pixel Một số ví dụ về dữliệu xình ảnh thu thập được hiển thị trong hình 3.1

32

Trang 31

3.2 Quy trình xây dựng bộ dữ liệu

Chúng tôi xây dựng dt liệu với một quy trình rõ ràng, chia ra theo từng giai đoạn

dé đảm bảo bộ dữ liệu được hoàn chỉnh và có thé sử dụng thực tế Hình 3.2 mô ta

tổng quan quy trình xây dựng bộ dữ liệu

Gan nhãn dữ liệu

Thu thập dữ liệu ay dung ver

a2 gan nines Thực hiện | | song song

Hình 3.2 Sơ đồ quy trình xây dựng bộ dữ liệu

Đầu tiên, chúng tôi sẽ tiến hành thu thập dữ liệu ảnh chụp các con tằm, chỉ tiết sẽđược trình bày cụ thé trong phan 3.2.1 Tiếp theo, chúng tôi sẽ xây dựng hướng dẫngán nhãn và thực hiện gán nhãn đông thời với việc cập nhật hướng dân gán nhãn ởphần 3.2.2 Sau đó dữ liệu từ điện thoại được tải lên kho lưu trữ đám mây (google

drive) được xử lý và thay đôi định dang phù hợp Cuối cùng, lưu trữ vào máy tính

cá nhân dé sử dụng Mỗi giai đoạn trong quy trình này đều tuân theo một lịch trình

rõ ràng Sau khi hoàn thành mỗi giai đoạn, chúng tôi sẽ tiên hành kiêm tra lại các

công đoạn đã thực hiện dé đảm bảo rằng đáp ứng theo yêu cau đã đặt ra

33

Trang 32

3.2.1 Thu thập dữ liệu

Đầu tiên chúng tôi chọn lựa nguồn dé thu thập dữ liệu Dữ liệu được thu thập từ

nhà kho nuôi tằm riêng của chúng tôi, nơi nuôi tằm của những người quen cùng

nghề và các trang trại nuôi tằm xung quanh khu vực thành phố Bảo Lộc, Tỉnh LâmĐồng Sau đó chúng tôi sử dụng điện thoại thông minh (iPhone 10) có độ phân giải

1125x2436 pixel và mật độ điểm ảnh 458ppi chụp ảnh các con tăm bao gồm cả con

tăm bệnh và con tam bình thường đang sinh hoạt tự nhiên trong chỗ ở của nó như

nong, sàn (những công cụ dé nuôi tằm) Khi tiến hành chụp ảnh, thiết bị thu nhận

(camera) được hướng thăng đứng xuống dưới, đối tượng chính dé chụp là các con

tằm bệnh và con tằm bình thường, lá dâu và các vật thể xung quanh được xem là

nền của hình ảnh Mỗi hình ảnh đều có độ phân giải cao và được chụp trong nhiều

điều kiện ánh sáng và góc chụp khác nhau, chỗ nuôi khác nhau (ở cả nong và sàn)

nhằm tăng tính đa dạng và tính khái quát hóa của bộ dit liệu

3.2.2 Xây dựng hướng dẫn gan nhãn

Trước khi gán nhãn, chúng tôi xây dựng một hướng dẫn chỉ tiết về cách nhận diệncon tằm bệnh Ngoài ra còn hướng dẫn về cách sử dụng công cụ gán nhãn Cung

cấp các hình anh minh họa dé làm rõ các tiêu chí gán nhãn Bảng 3.1 đưới đây trìnhbày danh sách các bệnh phô biến của tăm, mô tả chỉ tiết triệu chứng va dấu hiệu

nhận biết của các loại bệnh Tam bệnh ta có thé nhận thấy thông qua đặc điểm sinhhọc như màu sắc, kích thước, hình dang,

STT Bénh Dấu hiệu nhận biết

Kích thước cơ thê teo nhỏ có màu vàng

1 Bệnh nhiễm virus nghệ, da bóng, rỉ mủ hay bò lên thành của

nong.

34

Trang 33

Kích thước cơ thé nhỏ hơn bình thường,

2 Bệnh vi khuân mau sắc cơ thé biến dạng trở nên nâu đen

toàn thân

Khi bị nhiễm bệnh kích thước cơ thé tam

3 Bệnh nắm nhỏ, phần đầu và thân thường bị bao phủ

bởi màu đen, xanh lá

` ¬ Tam chậm phát triên kích thước còi cọc,

4 Bệnh do ruối kí sinh co ¬ :

xuât hiện nhiêu đôm đen trên thân tăm.

Bang 3.1 Danh sách các bệnh, mô tả, dau hiệu nhận biết của bệnh đó

35

Trang 34

36

Trang 35

Tiêu chí gan nhãn:

- _ Thứ nhất: đây là bài toán phát hiện và nhận dang tăm bệnh, ta chỉ quan tâm

đến những con tằm bệnh không quan tâm đến những con bình thường và vậtthé xung quanh nên nhãn chỉ có một lớp là “tăm bệnh” (foreground — 1) cònlại là nền (background - 0) Cũng vì là ảnh chụp trong môi trường thực tế sinhhoạt tự nhiên của con tăm nên trong một ảnh số lượng con tăm quá nhiều takhông thê gán 2 lớp dành cho tằm bệnh và tằm bình thường được

- Tht hai: không phân biệt loại bệnh, cho dù con tăm có bị bệnh gì, chỉ cần bị

bệnh là nó sẽ không thê tạo thành kén, nên chúng tôi sẽ gán chung các con tằm

bị bệnh (bat ké loại bệnh) vào chung một lớp “tam bệnh” không phân biệt chitiết từng loại bệnh

- Tht ba: vì đây thuộc dạng bài toán phân đoạn (segmentation) nên ta phải gan

nhãn cho từng pixel trong anh.

Trong quá trình gan nhãn, dé có sự đồng đều và thống nhất giữa những người gán

nhãn Chúng tôi xây dựng hướng dẫn gán nhãn song song với quá trình gán nhãn.

Nếu một trường hợp gán nhãn chưa có trong hướng dẫn gán nhãn, hoặc trường hợp

đó gây ra sự nhập nhằng, bất đồng ý kiến giữa những người gán nhãn chắng hạn

37

Trang 36

như con tằm trong một hình ảnh người gán thứ nhất cho là tằm bệnh, người gán thứhai cho là tăm bình thường, thì chúng tôi tiến hành thảo luận ý kiến và đưa ra kết

luận, sau đó bé sung trường hợp vừa nêu vào hướng dẫn gan nhãn dé thuận tiện choviệc gan đối với những trường hợp gây nhập nhang tương tự

3.2.3 Gan nhãn và đánh gia

Sau khi thu thập xong đữ liệu và đã có hướng dẫn gán nhãn Sử dụng công cụ

Labelme [20] chúng tôi tiến hành gán nhãn, chỉ những con tằm bệnh trong ảnh mớiđược đánh nhãn, gan đúng từng pixel cho hình dạng của nó, nhãn của ảnh là một

anh mặt na (mask) bao gom các pixel nhị phan (binary pixel) được lưu trữ dưới

dang file json Pixel có giá trị 1 biểu thi pixel đó thuộc về tằm bệnh va pixel có giátrị 0 thể hiện nền (background)

38

Trang 37

Hình 3.8 Ảnh mặt nạ nhãn (mask) của ảnh sốc

Người gán nhãn gồm 2 người đều là những người có kinh nghiệm trong ngành

nuôi tằm lấy kén Chúng tôi sử dung độ đo Cohen’s Kappa [21] để đánh giá mức độđồng thuận giữa các người gán nhãn với nhau Cohen’s Kappa là một trong những

độ đo được sử dụng phô biến nhất cho dé đo lường mức độ nhất quán giữa những

người gán nhãn Một số trường hợp gán nhãn khó như: tăm đè lên tằm, dâu che

khuất tam, đã được chúng tôi thảo luận và thống nhất cách gan chung và sau đó

ghi rõ cách gán trong guildline gán nhãn Hệ số đồng thuận đạt được là 0.81 Sau

cùng chúng tôi thống nhất các trường hợp không đồng đều giữa những người gán

nhãn với nhau và tạo ra bộ dữ liệu hoàn chỉnh cuối cùng Hình 3.9 bên dưới minh

họa giao diện công cụ gán nhãn Labelme mà chúng tôi sử dụng dé gán nhãn

39

Trang 38

[By labelme - C/Userv/hokhoi/Desktop/đata4)pg* - ø x

File Edit View Help

ove sat xe1I58451545464065 /.4012121212121213

Hình 3.9 Minh họa công cụ gán nhãn Labelme

3.3 Phân tích, thống kê bộ dữ liệu

Tổng cộng 4000 tắm ảnh được thu thập, trong đó bao gồm xấp xỉ 12000 contăm bệnh và khoảng 80000 con khỏe mạnh, điều này là dễ hiểu vì trong một đợt

nuôi số lượng tăm khỏe mạnh sẽ chiếm da số dé tạo ra kén, tằm bệnh sẽ ít hơn va rải

rác nhiêu nơi.

40

Trang 39

Số lượng con tam bệnh va tam khỏe mạnh trong bộ dữ liệu

Hình 3.10 Biểu đồ thê hiện số lượng tăm bệnh và tăm khỏe mạnh trong tập dữ liệu

Tập dữ liệu sau đó được xáo trộn và phân chia thành các tập huấn luyện, kiểm

định và thử nghiệm dé dam bảo tính khách quan và chính xác trong quá trình pháttriển và kiểm tra mô hình học sâu Với tập huấn luyện gồm 3800 tam anh, tập kiêmđịnh 100 tắm ảnh và tập thử nghiệm 100 tắm ảnh Số lượng tằm bệnh và tằm khỏe

mạnh trong các tập dữ liệu được thé hiện trong hình 3.11 va hình 3.12

41

Ngày đăng: 08/12/2024, 15:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w