Các mô hình được huấn luyện trên tập dữ liệu chứa hình ảnh lá lúa bị nhiễm bệnh và lá lúa bình thường.. Các mô hình sẽ được đào tạo trên cơ sở dữ liệu lớn về hình ảnh cây lúa bị nhiễm bệ
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỒ CHÍ MINH
KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN GIỮA KÌ THỊ GIÁC MÁY TÍNH
Người thực hiện: BÙI HOÀNG SƠN– 20053181
CAO PHAN KHÁNH DUY – 21121841 CHÂU MỸ UYÊN - 20087481 DƯƠNG QUANG HUY - 20018991
Lớp : KHDL16A
Người hướng dẫn: GV LƯU GIANG NAM
GV.TRẦN TẤN THÀNH
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2024
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỒ CHÍ MINH
KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN GIỮA KÌ THỊ GIÁC MÁY TÍNH
Người thực hiện: BÙI HOÀNG SƠN– 20053181
CAO PHAN KHÁNH DUY – 21121841 CHÂU MỸ UYÊN - 20087481 DƯƠNG QUANG HUY - 20018991
Lớp : KHDL16A
Người hướng dẫn: GV LƯU GIANG NAM
GV.TRẦN TẤN THÀNH
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2024
Trang 3LỜI CẢM ƠN
Để hoàn thành bài báo cáo này, chúng em vô cùng biết ơn và muốn gửi lời cảm
ơn chân thành và sâu sắc đến các thầy– các thầy đã góp phần trang bị cho chúng em những kiến thức bổ ích và những hành trang vô cùng quan trọng trong quá trình làm báo cáo, đồng thời cũng tạo điều kiện để chúng em có thể hoàn thành được bài báo cáo này Trong quá trình thực hiện bài báo cáo, chắc hẳn nhóm chúng em sẽ có nhiều thiếu sót do kiến thức còn nhiều hạn chế Vì thế, em mong nhận được sự quan tâm và góp ý của thầy cô để bài báo cáo của nhóm em có thể hoàn chỉnh hơn nữa
Chúng em xin chân thành cảm ơn
Trang 4ii
ĐỒ ÁN ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỒ CHÍ MINH
Tôi xin cam đoan đây là sản phẩm đồ án của riêng chúng tôi và được sự hướng dẫn của thầy Lưu Giang Nam và thầy Trần Tấn Thành Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm
về nội dung đồ án của mình Trường đại học Công nghiệp TP Hồ Chí Minh không liên
quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có)
TP Hồ Chí Minh, ngày tháng năm
Tác giả
(ký tên và ghi rõ họ tên)
Bùi Hoàng Sơn Cao Phan Khánh Duy Châu Mỹ Uyên Dương Quang Huy
read later on your computer
Save to a Studylist
Trang 5PHẦN ĐÁNH GIÁ CỦA GIẢNG VIÊN
_ _ _ _ _ _ _
Tp Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)
Trang 6TÓM TẮT
Bài toán Nhận diện bệnh lá lúa là một trong những bài toán quan trọng trong lĩnh vực nông nghiệp thông minh và xử lí ảnh Đây là một bài toán có thể giúp nhận biết các bệnh, sâu bệnh trên lá lúa một cách nhanh chóng và chính xác, từ đó giúp nông dân có thể áp dụng biện pháp phòng trừ hoặc điều trị kịp thời Ba mô hình ResNet, Vision Transformer (ViT), và AlexNet được lựa chọn và áp dụng để giải quyết bài toán này ResNet là một mô hình mạng nơ ron sâu tiên tiến với cấu trúc dễ huấn luyện ViT là một -phương pháp mới sử dụng Transformer cho việc xử lý hình ảnh, giúp mô hình tự học được cấu trúc không gian của hình ảnh mà không cần áp dụng các phép biến đổi truyền thống như CNN AlexNet là một trong những mô hình đầu tiên đạt được thành công lớn trong việc nhận dạng hình ảnh Các mô hình được huấn luyện trên tập dữ liệu chứa hình ảnh lá lúa bị nhiễm bệnh và lá lúa bình thường Quá trình huấn luyện được tiến hành trên các thiết bị có sức mạnh tính toán cao như GPU để tối ưu hóa hiệu suất Các mô hình đã đạt được kết quả khả quan trong việc nhận dạng bệnh lá lúa Mặc dù mỗi mô hình có điểm mạnh và yếu riêng, nhưng tất cả đều cho thấy khả năng nhận dạng đáng kể so với các phương pháp truyền thống
Trang 7MỤC LỤC
LỜI CẢM ƠN i
PHẦN ĐÁNH GIÁ CỦA GIẢNG VIÊN iii
TÓM TẮT iv
MỤC LỤC 1
2
DANH MỤC CÁC HÌNH VẼ 1.1 Giới thiệu về bài toán 3
1.2 Phân tích yêu cầu của bài toán 4
1.2.1 Yêu cầu của bài toán 4
1.2.2 Các phương pháp giải quyết bài toán 4
1.3 Phân tích các mô hình 6
1.3.1 Dataset 6
1.3.2 AlexNet 9
1.3.3 Resnet 11
12
1.3.4 Vision Transformer 12
1.4 Thực nghiệm 14
1.4.1 Dữ liệu 14
1.4.2 Xử lý dữ liệu 14
1.4.3 Công nghệ sử dụng 15
1.4.4 Cách đánh giá 15
1.5 Kết quả đạt được 16
1.6 Kết luận 17
TÀI LIỆU THAM KHẢO 18
PHỤ LỤC 19
Trang 8DANH MỤC CÁC HÌNH VẼ
Hình 1: AlexNet 10
Hình 2: ResNet có và không có khối tích chập 1X1 12
Hình 3:Vision Transformer 13
Hình 4 Kết quả so sánh 16
Trang 9NHẬN DIỆN BỆNH LÁ LÚA – RICE LEAF DISEASE
DETECTION
1.1 Giới thiệu về bài toán
Bài toán nghiên cứu xoay quanh việc phát hiện bệnh cây lá lúa thông qua việc sử dụng ba mô hình ResNet, Vision Transformer (ViT), và AlexNet Cây lúa là một trong những loại cây quan trọng nhất trên thế giới, tạo ra nguồn lợi tức thì và là nguồn cung cấp thức ăn cho hàng tỷ người dân Tuy nhiên, cây lúa thường bị tấn công bởi nhiều loại bệnh và sâu bệnh gây hại, gây ra thiệt hại lớn cho năng suất và chất lượng sản phẩm Mục tiêu của nghiên cứu là phát triển ba mô hình ResNet, Vision Transformer (ViT),
và AlexNet để tự động phát hiện các triệu chứng của bệnh cây lá lúa từ hình ảnh, giúp người nông dân và nhà nghiên cứu nông nghiệp nhận biết sớm và đưa ra biện pháp phòng trừ và điều trị hiệu quả
Các mô hình sẽ được đào tạo trên cơ sở dữ liệu lớn về hình ảnh cây lúa bị nhiễm bệnh và không bị bệnh, từ đó học được các đặc trưng và mẫu của các loại bệnh khác nhau Công nghệ thị giác máy tính sẽ giúp phát hiện và phân loại các triệu chứng của bệnh từ hình ảnh cây lá lúa, từ đó đưa ra kết luận và khuyến nghị về các biện pháp can thiệp
Việc thành công trong việc giải quyết bài toán này có thể mang lại nhiều lợi ích cho ngành nông nghiệp, bao gồm giảm thiểu thiệt hại về năng suất, tăng cường hiệu suất và chất lượng của sản phẩm, và giúp bảo vệ môi trường bằng cách giảm sử dụng thuốc trừ
sâu và phân bón hóa học
Trang 101.2 Phân tích yêu cầu của bài toán
1.2.1 Yêu cầu của bài toán
Bài toán đặt ra các yêu cầu cụ thể như sau:
1 Dữ liệu đầu vào: Dữ liệu đầu vào là bộ sưu tập hình ảnh bệnh lá lúa "Mẫu hình ảnh bệnh lá lúa", bao gồm tổng cộng 5932 hình ảnh được tổng hợp và xuất bản bởi Prabira Kumar Sethy Bộ dữ liệu này chứa các hình ảnh rõ ràng của bốn loại bệnh lá lúa khác nhau: bệnh bạc lá do vi khuẩn, bệnh đạo ôn, bệnh đốm nâu và bệnh Tungro
2 Nhiệm vụ: Xây dựng ba mô hình ResNet, Vision Transformer (ViT), và AlexNet để nhận diện và phân loại các loại bệnh lá lúa từ hình ảnh Sau đó, huấn luyện mô hình trên dữ liệu huấn luyện và kiểm định hiệu suất trên dữ liệu kiểm định Cuối cùng là đánh giá hiệu suất của mô hình dựa độ chính các accuracy và hàm mất mát loss
3 Kết quả đầu ra: Đưa ra dự đoán về loại bệnh mà lá lúa được biểu diễn trong hình ảnh, gồm các loại bệnh như bệnh bạc lá do vi khuẩn, bệnh đạo ôn, bệnh đốm nâu và bệnh Tungro
4 Đánh giá hiệu suất: ử dụng phương pháp đánh giá thông qua các chỉ số như Saccuracy (độ chính xác) và loss (hàm mất mát)
1.2.2 Các phương pháp giải quyết bài toán
1 ResNet (Residual Neural Network):
Bài báo: "Deep Residual Learning for Image Recognition" - Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun - 2015
Phương pháp giải quyết: ResNet giải quyết vấn đề vanishing gradient và degradation bằng cách sử dụng các residual block, cho phép mô hình học được các residual mapping thay vì học toàn bộ mapping Các residual block giúp lan truyền ngược hiệu quả hơn và giảm thiểu sự mất mát thông tin
Trang 11Dữ liệu thực nghiệm: Sử dụng tập dữ liệu ảnh bệnh lá lúa để huấn luyện và đánh giá mô hình
Kết quả đạt được: ResNet thường đạt được hiệu suất tốt trong việc nhận diện hình ảnh, đặc biệt là trong các bài toán về phân loại ảnh
Hạn chế: Một số hạn chế của ResNet có thể bao gồm độ phức tạp tính toán và yêu cầu tài nguyên tính toán lớn, đặc biệt khi sử dụng các phiên bản lớn của mạng
2 Vision Transformer (ViT):
Bài báo: "An Image is Worth 16x16 Words: Transformers for Image
Recognition at Scale" - Alexey Dosovitskiy, Lucas Beyer, Alexander
Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby - 2020
Phương pháp giải quyết: ViT sử dụng kiến trúc Transformer trong việc xử lý hình ảnh bằng cách chia nhỏ hình ảnh thành các patch và sau đó áp dụng
transformer encoder để học biểu diễn của từng patch ViT loại bỏ hoàn toàn việc
sử dụng các lớp convolution truyền thống trong các mô hình CNN và thay vào
3 AlexNet:
Trang 12Bài báo: "ImageNet Classification with Deep Convolutional Neural Networks" - Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton - 2012
Phương pháp giải quyết: AlexNet là một trong những mô hình sâu đầu tiên được
áp dụng rộng rãi trong lĩnh vực nhận diện hình ảnh Nó sử dụng kiến trúc CNN với các lớp convolution, max pooling và fully connected layers Mô hình này có thể học được các đặc trưng phức tạp từ dữ liệu hình ảnh thông qua việc kết hợp nhiều lớp convolution và non-linear activation functions
Dữ liệu thực nghiệm: Sử dụng tập dữ liệu ảnh bệnh lá lúa để huấn luyện và đánh giá mô hình
Kết quả đạt được: AlexNet đã đạt được kết quả ấn tượng trong việc phân loại hình ảnh trên tập dữ liệu ImageNet, mở ra kỷ nguyên mới trong lĩnh vực nhận diện hình ảnh
Hạn chế: Một số hạn chế của AlexNet bao gồm độ phức tạp tính toán và cần có lượng dữ liệu huấn luyện lớn
1.3 Phân tích các mô hình
1.3.1 Dataset
Để huấn luyện mô hình, chúng tôi sử dụng tập dữ liệu gồm các hình ảnh chất lượng cao
về lá lúa bị nhiễm các loại bệnh khác nhau Cụ thể, tập dữ liệu này bao gồm 5932 hình ảnh, mỗi hình ảnh thể hiện một trường hợp bệnh lá lúa, cụ thể gồm 4 loại bệnh: Bacterialblight (Đạo ôn):
− Tác nhân: Do vi khuẩn Xanthomonas oryzae pv oryzae gây ra
− Triệu chứng:
• Lá: Xuất hiện các đốm nâu nhỏ, dài, hẹp, có viền vàng, sau chuyển sang màu nâu đỏ và khô héo
• Bẹ lá: Có các sọc nâu, đen, hẹp, dài
• Cổ lá: Bị thối, gãy, làm cho lá rụng
Trang 13• Bón phân cân đối, hợp lý
• Tháo nước, sục bùn khi lúa bị bệnh
• Sử dụng thuốc bảo vệ thực vật theo hướng dẫn
• Bón phân cân đối, hợp lý
• Tháo nước, sục bùn khi lúa bị bệnh
• Sử dụng thuốc bảo vệ thực vật theo hướng dẫn
Trang 14Brownspot (Nám nâu):
− Tác nhân: Do nấm Cochliobolus miyabeanus gây ra
− Triệu chứng:
• Lá: Xuất hiện các đốm nâu hình tròn hoặc bầu dục, có tâm màu nâu đen
• Vết bệnh thường xuất hiện ở phần lá già, sau lan dần lên phần lá non
− Điều kiện phát sinh:
• Bón phân cân đối, hợp lý
• Tháo nước, sục bùn khi lúa bị bệnh
• Sử dụng thuốc bảo vệ thực vật theo hướng dẫn
• Chồi lúa bị teo lại, không phát triển
− Điều kiện phát sinh:
• Bệnh do virut nên lây lan qua rầy nâu
• Rầy nâu phát triển mạnh trong điều kiện:
• Nhiệt độ thích hợp: 25-30°C
• Độ ẩm cao
− Biện pháp phòng trừ:
Trang 15• Sử dụng giống lúa kháng bệnh
• Bón phân cân đối, hợp lý
• Diệt rầy nâu bằng thuốc bảo vệ thực vật theo hướng dẫn
1.3.2 AlexNet
AlexNet là mô hình mạng nơ-ron tích chập (CNN) được giới thiệu bởi Alex
Krizhevsky và cộng sự vào năm 2012 Nó đã giành chiến thắng trong cuộc thi ImageNet Large Scale Visual Recognition Challenge (ILSVRC) năm 2012 với tỷ lệ lỗi top-5 là 15,3%, giảm đáng kể so với 25,8% của mô hình tốt nhất năm 2011 Thành công của AlexNet đã thúc đẩy sự phát triển mạnh mẽ của các mô hình CNN cho các bài toán thị giác máy tính
AlexNet sử dụng một số cải tiến để đạt được hiệu suất cao, bao gồm:
− Hàm kích hoạt ReLU: thay thế cho hàm tanh truyền thống, giúp tăng tốc độ huấn luyện và cải thiện hiệu suất
− Normalization phản hồi cục bộ (Local Response Normalization - LRN): giúp tăng tính ổn định và khả năng khái quát của mô hình
− Overlapping pooling: giúp tăng độ chính xác của mô hình
− Data augmentation: giúp tăng kích thước tập dữ liệu và giảm nguy cơ overfitting
− Dropout: giúp tăng tính mạnh mẽ của mô hình
mô hình CNN hiện đại hơn với hiệu suất cao hơn, AlexNet vẫn là một mô hình quan trọng và có giá trị tham khảo cho các nghiên cứu và ứng dụng về thị giác máy tính
Trang 16Hình 1: AlexNet
Kiến trúc:
AlexNet bao gồm 5 lớp tích chập và 3 lớp kết nối đầy đủ
Lớp tích chập sử dụng bộ lọc kích thước 11x11 và 5x5 với bước nhảy 4 và 2 lần lượt
Sau mỗi lớp tích chập là một lớp pooling tối đa 2x2
Lớp kết nối đầy đủ sử dụng 4096, 4096 và 1000 nơ ron cho các lớp ẩn và lớp đầu ra
Trang 17ResNet sử dụng một số cải tiến để đạt được hiệu suất cao, bao gồm:
− Khối cơ bản (basic block) và khối bottleneck (bottleneck block): giúp giảm số lượng tham số và tăng tốc độ huấn luyện
− Pre-activation: giúp tăng tốc độ huấn luyện và cải thiện hiệu suất
− Dilated convolution: giúp tăng độ rộng của receptive field mà không cần tăng kích thước bộ lọc
ResNet cũng có một số hạn chế, bao gồm:
− Khó khăn trong việc thiết kế kiến trúc tối ưu cho từng bài toán cụ thể
− Yêu cầu nhiều dữ liệu để huấn luyện hiệu quả
ResNet là một mô hình CNN mang tính đột phá, đã thúc đẩy sự phát triển mạnh mẽ của các mô hình CNN sâu cho các bài toán thị giác máy tính
ResNet vẫn là một mô hình CNN hiệu quả và được sử dụng rộng rãi trong nhiều ứng dụng thực tế
Trang 18Hình 2: ResNet có và không có khối tích chập 1X1
Cấu trúc cơ bản:
ResNet bao gồm các khối (block) được xếp chồng lên nhau
Mỗi khối có hai lớp tích chập (convolutional layer) với cùng số lượng kênh đầu
Ưu điểm:
Khả năng học tập toàn cục: ViT có thể học các mối quan hệ giữa các phần khác nhau của ảnh, không chỉ tập trung vào các khu vực lân cận như CNN
Trang 19Hiệu quả: ViT có thể được tính toán song song trên GPU, giúp tăng tốc độ xử lý.Khả năng mở rộng: ViT có thể được áp dụng cho nhiều tác vụ thị giác máy tính khác nhau, không chỉ phân loại ảnh
Nhược điểm:
Yêu cầu dữ liệu lớn: ViT cần một lượng lớn dữ liệu để huấn luyện hiệu quả
Khả năng giải thích: ViT khó giải thích hơn CNN, do cơ chế attention hoạt động theo cách phức tạp
Trang 20Cách thức hoạt động:
− Chia ảnh thành các mảng (patch): ViT chia ảnh đầu vào thành các mảng nhỏ có kích thước cố định, tương tự như cách chia chuỗi từ trong xử lý ngôn ngữ tự nhiên
− Làm phẳng các mảng hình ảnh: Mỗi mảng sau đó được biến thành một vector có chiều dài cố định, thể hiện các đặc điểm của phần hình ảnh tương ứng
− Tạo embedding: Các vector này được đưa vào một lớp embedding để tạo ra các biểu diễn có chiều thấp hơn, nhưng vẫn giữ được các thông tin quan trọng
− Transformer: Các biểu diễn embedding được đưa vào mô hình Transformer, vốn
sử dụng cơ chế attention để học các mối quan hệ giữa các mảng hình ảnh
− Phân loại: Sau khi qua Transformer, một lớp fully connected được sử dụng để phân loại ảnh đầu vào vào các lớp khác nhau
-1.4 Thực nghiệm
1.4.1 Dữ liệu
Dữ liệu lấy từ cuộc thi trên Kaggle có tên là “Rice Leaf Disease Images”
Dữ liệu đầu vào gồm: một bộ sưu tập các hình ảnh chất lượng cao về lá lúa bị nhiễm các loại bệnh khác nhau Cụ thể, tập dữ liệu này bao gồm 5932 hình ảnh, mỗi hình ảnh thể hiện một trường hợp bệnh lá lúa Cụ thể: bệnh bạc lá do vi khuẩn, bệnh đạo ôn, bệnh đốm nâu và bệnh Tungro
1.4.2 Xử lý dữ liệu
Trước khi huấn luyện mô hình phân loại bệnh lá lúa, việc xử lý và tiền xử lý dữ liệu đóng vai trò quan trọng để đảm bảo rằng mô hình có thể học từ dữ liệu một cách hiệu quả Trong mã của chúng tôi, chúng tôi đã thực hiện một loạt các bước tiền xử lý để chuẩn bị dữ liệu hình ảnh và nhãn cho quá trình huấn luyện Dưới đây là một số hoạt động mà chúng tôi đã thực hiện: