Đang tải... (xem toàn văn)
Các mô hình được huấn luyện trên tập dữ liệu chứa hình ảnh lá lúa bị nhiễm bệnh và lá lúa bình thường.. Các mô hình sẽ được đào tạo trên cơ sở dữ liệu lớn về hình ảnh cây lúa bị nhiễm bệ
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN GIỮA KÌ THỊ GIÁC MÁY TÍNH
Người thực hiện: BÙI HOÀNG SƠN– 20053181
CAO PHAN KHÁNH DUY – 21121841 CHÂU MỸ UYÊN - 20087481 DƯƠNG QUANG HUY - 20018991
Lớp : KHDL16A
Người hướng dẫn: GV LƯU GIANG NAM
GV.TRẦN TẤN THÀNH
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2024
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN GIỮA KÌ THỊ GIÁC MÁY TÍNH
Người thực hiện: BÙI HOÀNG SƠN– 20053181
CAO PHAN KHÁNH DUY – 21121841 CHÂU MỸ UYÊN - 20087481 DƯƠNG QUANG HUY - 20018991
Lớp : KHDL16A
Người hướng dẫn: GV LƯU GIANG NAM
GV.TRẦN TẤN THÀNH
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2024
Trang 3LỜI CẢM ƠN
Để hoàn thành bài báo cáo này, chúng em vô cùng biết ơn và muốn gửi lời cảm ơn chân thành và sâu sắc đến các thầy– các thầy đã góp phần trang bị cho chúng em những kiến thức bổ ích và những hành trang vô cùng quan trọng trong quá trình làm báo cáo, đồng thời cũng tạo điều kiện để chúng em có thể hoàn thành được bài báo cáo này
Trong quá trình thực hiện bài báo cáo, chắc hẳn nhóm chúng em sẽ có nhiều thiếu sót do kiến thức còn nhiều hạn chế Vì thế, em mong nhận được sự quan tâm và góp ý của thầy cô để bài báo cáo của nhóm em có thể hoàn chỉnh hơn nữa
Chúng em xin chân thành cảm ơn
Trang 4ii
ĐỒ ÁN ĐƯỢC HOÀN THÀNH
TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỒ CHÍ MINH
Tôi xin cam đoan đây là sản phẩm đồ án của riêng chúng tôi và được sự hướng dẫn của thầy Lưu Giang Nam và thầy Trần Tấn Thành Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo
Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung đồ án của mình Trường đại học Công nghiệp TP Hồ Chí Minh không liên
quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có)
TP Hồ Chí Minh, ngày tháng năm Tác giả
(ký tên và ghi rõ họ tên)
Bùi Hoàng Sơn Cao Phan Khánh Duy Châu Mỹ Uyên Dương Quang Huy
read later on yourcomputer
Save to a Studylist
Trang 5PHẦN ĐÁNH GIÁ CỦA GIẢNG VIÊN
_
Tp Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)
Trang 6TÓM TẮT
Bài toán Nhận diện bệnh lá lúa là một trong những bài toán quan trọng trong lĩnh vực nông nghiệp thông minh và xử lí ảnh Đây là một bài toán có thể giúp nhận biết các bệnh, sâu bệnh trên lá lúa một cách nhanh chóng và chính xác, từ đó giúp nông dân có thể áp dụng biện pháp phòng trừ hoặc điều trị kịp thời Ba mô hình ResNet, Vision Transformer (ViT), và AlexNet được lựa chọn và áp dụng để giải quyết bài toán này ResNet là một mô hình mạng nơ ron sâu tiên tiến với cấu trúc dễ huấn luyện ViT là một -phương pháp mới sử dụng Transformer cho việc xử lý hình ảnh, giúp mô hình tự học được cấu trúc không gian của hình ảnh mà không cần áp dụng các phép biến đổi truyền thống như CNN AlexNet là một trong những mô hình đầu tiên đạt được thành công lớn trong việc nhận dạng hình ảnh Các mô hình được huấn luyện trên tập dữ liệu chứa hình ảnh lá lúa bị nhiễm bệnh và lá lúa bình thường Quá trình huấn luyện được tiến hành trên các thiết bị có sức mạnh tính toán cao như GPU để tối ưu hóa hiệu suất Các mô hình đã đạt được kết quả khả quan trong việc nhận dạng bệnh lá lúa Mặc dù mỗi mô hình có điểm mạnh và yếu riêng, nhưng tất cả đều cho thấy khả năng nhận dạng đáng kể so với các phương pháp truyền thống
Trang 71.2 Phân tích yêu cầu của bài toán 4
1.2.1 Yêu cầu của bài toán 4
1.2.2 Các phương pháp giải quyết bài toán 4
Trang 9NHẬN DIỆN BỆNH LÁ LÚA – RICE LEAF DISEASE
DETECTION
1.1 Giới thiệu về bài toán
Bài toán nghiên cứu xoay quanh việc phát hiện bệnh cây lá lúa thông qua việc sử dụng ba mô hình ResNet, Vision Transformer (ViT), và AlexNet Cây lúa là một trong những loại cây quan trọng nhất trên thế giới, tạo ra nguồn lợi tức thì và là nguồn cung cấp thức ăn cho hàng tỷ người dân Tuy nhiên, cây lúa thường bị tấn công bởi nhiều loại bệnh và sâu bệnh gây hại, gây ra thiệt hại lớn cho năng suất và chất lượng sản phẩm
Mục tiêu của nghiên cứu là phát triển ba mô hình ResNet, Vision Transformer (ViT), và AlexNet để tự động phát hiện các triệu chứng của bệnh cây lá lúa từ hình ảnh, giúp người nông dân và nhà nghiên cứu nông nghiệp nhận biết sớm và đưa ra biện pháp phòng trừ và điều trị hiệu quả
Các mô hình sẽ được đào tạo trên cơ sở dữ liệu lớn về hình ảnh cây lúa bị nhiễm bệnh và không bị bệnh, từ đó học được các đặc trưng và mẫu của các loại bệnh khác nhau Công nghệ thị giác máy tính sẽ giúp phát hiện và phân loại các triệu chứng của bệnh từ hình ảnh cây lá lúa, từ đó đưa ra kết luận và khuyến nghị về các biện pháp can thiệp
Việc thành công trong việc giải quyết bài toán này có thể mang lại nhiều lợi ích cho ngành nông nghiệp, bao gồm giảm thiểu thiệt hại về năng suất, tăng cường hiệu suất và chất lượng của sản phẩm, và giúp bảo vệ môi trường bằng cách giảm sử dụng thuốc trừ sâu và phân bón hóa học
Trang 101.2 Phân tích yêu cầu của bài toán1.2.1 Yêu cầu của bài toán
Bài toán đặt ra các yêu cầu cụ thể như sau:
1 Dữ liệu đầu vào: Dữ liệu đầu vào là bộ sưu tập hình ảnh bệnh lá lúa "Mẫu hình ảnh bệnh lá lúa", bao gồm tổng cộng 5932 hình ảnh được tổng hợp và xuất bản bởi Prabira Kumar Sethy Bộ dữ liệu này chứa các hình ảnh rõ ràng của bốn loại bệnh lá lúa khác nhau: bệnh bạc lá do vi khuẩn, bệnh đạo ôn, bệnh đốm nâu và bệnh Tungro
2 Nhiệm vụ: Xây dựng ba mô hình ResNet, Vision Transformer (ViT), và AlexNet để nhận diện và phân loại các loại bệnh lá lúa từ hình ảnh Sau đó, huấn luyện mô hình trên dữ liệu huấn luyện và kiểm định hiệu suất trên dữ liệu kiểm định Cuối cùng là đánh giá hiệu suất của mô hình dựa độ chính các accuracy và hàm mất mát loss
3 Kết quả đầu ra: Đưa ra dự đoán về loại bệnh mà lá lúa được biểu diễn trong hình ảnh, gồm các loại bệnh như bệnh bạc lá do vi khuẩn, bệnh đạo ôn, bệnh đốm nâu và bệnh Tungro
4 Đánh giá hiệu suất: ử dụng phương pháp đánh giá thông qua các chỉ số như Saccuracy (độ chính xác) và loss (hàm mất mát)
1.2.2 Các phương pháp giải quyết bài toán
1 ResNet (Residual Neural Network):
Bài báo: "Deep Residual Learning for Image Recognition" - Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun - 2015
Phương pháp giải quyết: ResNet giải quyết vấn đề vanishing gradient và degradation bằng cách sử dụng các residual block, cho phép mô hình học được các residual mapping thay vì học toàn bộ mapping Các residual block giúp lan truyền ngược hiệu quả hơn và giảm thiểu sự mất mát thông tin
Trang 11Dữ liệu thực nghiệm: Sử dụng tập dữ liệu ảnh bệnh lá lúa để huấn luyện và đánh giá mô hình
Kết quả đạt được: ResNet thường đạt được hiệu suất tốt trong việc nhận diện hình ảnh, đặc biệt là trong các bài toán về phân loại ảnh
Hạn chế: Một số hạn chế của ResNet có thể bao gồm độ phức tạp tính toán và yêu cầu tài nguyên tính toán lớn, đặc biệt khi sử dụng các phiên bản lớn của mạng
2 Vision Transformer (ViT):
Bài báo: "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" - Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby - 2020
Phương pháp giải quyết: ViT sử dụng kiến trúc Transformer trong việc xử lý hình ảnh bằng cách chia nhỏ hình ảnh thành các patch và sau đó áp dụng transformer encoder để học biểu diễn của từng patch ViT loại bỏ hoàn toàn việc sử dụng các lớp convolution truyền thống trong các mô hình CNN và thay vào đó, sử dụng self-attention mechanism
Dữ liệu thực nghiệm: Sử dụng tập dữ liệu ảnh bệnh lá lúa để huấn luyện và đánh giá mô hình
Kết quả đạt được: ViT đã đạt được kết quả ấn tượng trong việc nhận diện hình ảnh và phân loại ảnh trên các tập dữ liệu lớn như ImageNet
Hạn chế: Một số hạn chế của ViT có thể bao gồm yêu cầu tài nguyên tính toán cao trong quá trình huấn luyện và khả năng áp dụng hiệu quả cho các tập dữ liệu nhỏ hơn
3 AlexNet:
Trang 12Bài báo: "ImageNet Classification with Deep Convolutional Neural Networks" - Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton - 2012
Phương pháp giải quyết: AlexNet là một trong những mô hình sâu đầu tiên được áp dụng rộng rãi trong lĩnh vực nhận diện hình ảnh Nó sử dụng kiến trúc CNN với các lớp convolution, max pooling và fully connected layers Mô hình này có thể học được các đặc trưng phức tạp từ dữ liệu hình ảnh thông qua việc kết hợp nhiều lớp convolution và non-linear activation functions
Dữ liệu thực nghiệm: Sử dụng tập dữ liệu ảnh bệnh lá lúa để huấn luyện và đánh giá mô hình
Kết quả đạt được: AlexNet đã đạt được kết quả ấn tượng trong việc phân loại hình ảnh trên tập dữ liệu ImageNet, mở ra kỷ nguyên mới trong lĩnh vực nhận diện hình ảnh
Hạn chế: Một số hạn chế của AlexNet bao gồm độ phức tạp tính toán và cần có lượng dữ liệu huấn luyện lớn
1.3 Phân tích các mô hình
1.3.1 Dataset
Để huấn luyện mô hình, chúng tôi sử dụng tập dữ liệu gồm các hình ảnh chất lượng cao về lá lúa bị nhiễm các loại bệnh khác nhau Cụ thể, tập dữ liệu này bao gồm 5932 hình ảnh, mỗi hình ảnh thể hiện một trường hợp bệnh lá lúa, cụ thể gồm 4 loại bệnh: Bacterialblight (Đạo ôn):
− Tác nhân: Do vi khuẩn Xanthomonas oryzae pv oryzae gây ra − Triệu chứng:
• Lá: Xuất hiện các đốm nâu nhỏ, dài, hẹp, có viền vàng, sau chuyển sang màu nâu đỏ và khô héo
• Bẹ lá: Có các sọc nâu, đen, hẹp, dài • Cổ lá: Bị thối, gãy, làm cho lá rụng
Trang 13• Hạt: Bị lép, lửng, có màu nâu − Điều kiện phát sinh:
• Nhiệt độ thích hợp: 25-30°C • Độ ẩm cao
• Lúa bị còi cọc, thiếu dinh dưỡng − Biện pháp phòng trừ:
• Sử dụng giống lúa kháng bệnh • Bón phân cân đối, hợp lý • Tháo nước, sục bùn khi lúa bị bệnh
• Sử dụng thuốc bảo vệ thực vật theo hướng dẫn Blast (Bạc lá):
− Tác nhân: Do nấm Pyricularia oryzae gây ra − Triệu chứng:
• Lá: Xuất hiện các đốm nâu hình bầu dục, có viền vàng, sau chuyển sang màu trắng xám
• Cổ lá: Bị thối, gãy, làm cho lá rụng • Hạt: Bị lép, lửng, có màu nâu − Điều kiện phát sinh:
• Nhiệt độ thích hợp: 20-28°C • Độ ẩm cao
• Lúa bị còi cọc, thiếu dinh dưỡng − Biện pháp phòng trừ:
• Sử dụng giống lúa kháng bệnh • Bón phân cân đối, hợp lý • Tháo nước, sục bùn khi lúa bị bệnh
• Sử dụng thuốc bảo vệ thực vật theo hướng dẫn
Trang 14• Nhiệt độ thích hợp: 25-30°C • Độ ẩm cao
• Lúa bị còi cọc, thiếu dinh dưỡng − Biện pháp phòng trừ:
• Sử dụng giống lúa kháng bệnh • Bón phân cân đối, hợp lý • Tháo nước, sục bùn khi lúa bị bệnh
• Sử dụng thuốc bảo vệ thực vật theo hướng dẫn Tungro:
− Tác nhân: Do virus Tungro gây ra − Triệu chứng:
• Lúa còi cọc, lùn, vàng lá, đốm nâu • Bẹ lá lúa có sọc nâu
• Chồi lúa bị teo lại, không phát triển − Điều kiện phát sinh:
• Bệnh do virut nên lây lan qua rầy nâu • Rầy nâu phát triển mạnh trong điều kiện: • Nhiệt độ thích hợp: 25-30°C
• Độ ẩm cao − Biện pháp phòng trừ:
Trang 15• Sử dụng giống lúa kháng bệnh • Bón phân cân đối, hợp lý
• Diệt rầy nâu bằng thuốc bảo vệ thực vật theo hướng dẫn 1.3.2 AlexNet
AlexNet là mô hình mạng nơ-ron tích chập (CNN) được giới thiệu bởi Alex Krizhevsky và cộng sự vào năm 2012 Nó đã giành chiến thắng trong cuộc thi ImageNet Large Scale Visual Recognition Challenge (ILSVRC) năm 2012 với tỷ lệ lỗi top-5 là 15,3%, giảm đáng kể so với 25,8% của mô hình tốt nhất năm 2011 Thành công của AlexNet đã thúc đẩy sự phát triển mạnh mẽ của các mô hình CNN cho các bài toán thị giác máy tính
AlexNet sử dụng một số cải tiến để đạt được hiệu suất cao, bao gồm:
− Hàm kích hoạt ReLU: thay thế cho hàm tanh truyền thống, giúp tăng tốc độ huấn luyện và cải thiện hiệu suất
− Normalization phản hồi cục bộ (Local Response Normalization - LRN): giúp tăng tính ổn định và khả năng khái quát của mô hình
− Overlapping pooling: giúp tăng độ chính xác của mô hình
− Data augmentation: giúp tăng kích thước tập dữ liệu và giảm nguy cơ overfitting − Dropout: giúp tăng tính mạnh mẽ của mô hình
Trang 16Hình 1: AlexNet
Kiến trúc:
AlexNet bao gồm 5 lớp tích chập và 3 lớp kết nối đầy đủ
Lớp tích chập sử dụng bộ lọc kích thước 11x11 và 5x5 với bước nhảy 4 và 2 lần lượt
Sau mỗi lớp tích chập là một lớp pooling tối đa 2x2
Lớp kết nối đầy đủ sử dụng 4096, 4096 và 1000 nơ ron cho các lớp ẩn và lớp đầu ra
Trang 17-1.3.3 Resnet
ResNet (viết tắt của Residual Network) là mạng nơ ron tích chập (CNN) được giới thiệu bởi He Kaiming và cộng sự vào năm 2015 ResNet đã giải quyết được vấn đề "vạnishing gradient" trong các mô hình CNN sâu, giúp huấn luyện hiệu quả các mô hình CNN với hàng trăm, thậm chí hàng nghìn lớp ResNet đã đạt được kết quả ấn tượng trong nhiều bài toán thị giác máy tính, bao gồm phân loại ảnh, nhận diện đối tượng, và phân đoạn ảnh
-ResNet sử dụng một số cải tiến để đạt được hiệu suất cao, bao gồm:
− Khối cơ bản (basic block) và khối bottleneck (bottleneck block): giúp giảm số lượng tham số và tăng tốc độ huấn luyện
− Pre-activation: giúp tăng tốc độ huấn luyện và cải thiện hiệu suất.
− Dilated convolution: giúp tăng độ rộng của receptive field mà không cần tăng kích thước bộ lọc
Trang 18Hình 2: ResNet có và không có khối tích chập 1X1 Cấu trúc cơ bản:
ResNet bao gồm các khối (block) được xếp chồng lên nhau
Mỗi khối có hai lớp tích chập (convolutional layer) với cùng số lượng kênh đầu ra
Sau mỗi lớp tích chập là một lớp chuẩn hóa theo batch (batch normalization layer) và một hàm kích hoạt ReLU
1.3.4 Vision Transformer
Mô hình học sâu sử dụng kiến trúc Transformer để xử lý các tác vụ thị giác máy tính, đặc biệt là phân loại ảnh ViT được xem là một giải pháp thay thế tiềm năng cho các mạng nơ-ron tích chập (CNN) vốn thống trị lĩnh vực này trong nhiều năm Ưu điểm:
Khả năng học tập toàn cục: ViT có thể học các mối quan hệ giữa các phần khác nhau của ảnh, không chỉ tập trung vào các khu vực lân cận như CNN
Trang 19Hiệu quả: ViT có thể được tính toán song song trên GPU, giúp tăng tốc độ xử lý.Khả năng mở rộng: ViT có thể được áp dụng cho nhiều tác vụ thị giác máy tính khác nhau, không chỉ phân loại ảnh
Nhược điểm:
Yêu cầu dữ liệu lớn: ViT cần một lượng lớn dữ liệu để huấn luyện hiệu quả Khả năng giải thích: ViT khó giải thích hơn CNN, do cơ chế attention hoạt động theo cách phức tạp
Trang 20Cách thức hoạt động:
− Chia ảnh thành các mảng (patch): ViT chia ảnh đầu vào thành các mảng nhỏ có kích thước cố định, tương tự như cách chia chuỗi từ trong xử lý ngôn ngữ tự nhiên
− Làm phẳng các mảng hình ảnh: Mỗi mảng sau đó được biến thành một vector có chiều dài cố định, thể hiện các đặc điểm của phần hình ảnh tương ứng − Tạo embedding: Các vector này được đưa vào một lớp embedding để tạo ra các
biểu diễn có chiều thấp hơn, nhưng vẫn giữ được các thông tin quan trọng − Transformer: Các biểu diễn embedding được đưa vào mô hình Transformer, vốn
sử dụng cơ chế attention để học các mối quan hệ giữa các mảng hình ảnh − Phân loại: Sau khi qua Transformer, một lớp fully connected được sử dụng để -
phân loại ảnh đầu vào vào các lớp khác nhau
1.4 Thực nghiệm 1.4.1 Dữ liệu
Dữ liệu lấy từ cuộc thi trên Kaggle có tên là “Rice Leaf Disease Images”
Dữ liệu đầu vào gồm: một bộ sưu tập các hình ảnh chất lượng cao về lá lúa bị nhiễm các loại bệnh khác nhau Cụ thể, tập dữ liệu này bao gồm 5932 hình ảnh, mỗi hình ảnh thể hiện một trường hợp bệnh lá lúa Cụ thể: bệnh bạc lá do vi khuẩn, bệnh đạo ôn, bệnh đốm nâu và bệnh Tungro
1.4.2 Xử lý dữ liệu
Trước khi huấn luyện mô hình phân loại bệnh lá lúa, việc xử lý và tiền xử lý dữ liệu đóng vai trò quan trọng để đảm bảo rằng mô hình có thể học từ dữ liệu một cách hiệu quả Trong mã của chúng tôi, chúng tôi đã thực hiện một loạt các bước tiền xử lý để chuẩn bị dữ liệu hình ảnh và nhãn cho quá trình huấn luyện Dưới đây là một số hoạt động mà chúng tôi đã thực hiện: