tiểu luận đồ án giữa kì thị giác máy tính

Các mô hình được huấn luyện trên tập dữ liệu chứa hình ảnh lá lúa bị nhiễm bệnh và lá lúa bình thường.. Các mô hình sẽ được đào tạo trên cơ sở dữ liệu lớn về hình ảnh cây lúa bị nhiễm bệ

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỒ CHÍ MINH

KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN GIỮA KÌ THỊ GIÁC MÁY TÍNH

Người thực hiện: BÙI HOÀNG SƠN– 20053181

CAO PHAN KHÁNH DUY – 21121841 CHÂU MỸ UYÊN - 20087481 DƯƠNG QUANG HUY - 20018991

Lớp : KHDL16A

Người hướng dẫn: GV LƯU GIANG NAM

GV.TRẦN TẤN THÀNH

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2024

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỒ CHÍ MINH

KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN GIỮA KÌ THỊ GIÁC MÁY TÍNH

Người thực hiện: BÙI HOÀNG SƠN– 20053181

CAO PHAN KHÁNH DUY – 21121841 CHÂU MỸ UYÊN - 20087481 DƯƠNG QUANG HUY - 20018991

Lớp : KHDL16A

Người hướng dẫn: GV LƯU GIANG NAM

GV.TRẦN TẤN THÀNH

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2024

Trang 3

LỜI CẢM ƠN

Để hoàn thành bài báo cáo này, chúng em vô cùng biết ơn và muốn gửi lời cảm

ơn chân thành và sâu sắc đến các thầy– các thầy đã góp phần trang bị cho chúng em những kiến thức bổ ích và những hành trang vô cùng quan trọng trong quá trình làm báo cáo, đồng thời cũng tạo điều kiện để chúng em có thể hoàn thành được bài báo cáo này Trong quá trình thực hiện bài báo cáo, chắc hẳn nhóm chúng em sẽ có nhiều thiếu sót do kiến thức còn nhiều hạn chế Vì thế, em mong nhận được sự quan tâm và góp ý của thầy cô để bài báo cáo của nhóm em có thể hoàn chỉnh hơn nữa

Chúng em xin chân thành cảm ơn

Trang 4

ii

ĐỒ ÁN ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỒ CHÍ MINH

Tôi xin cam đoan đây là sản phẩm đồ án của riêng chúng tôi và được sự hướng dẫn của thầy Lưu Giang Nam và thầy Trần Tấn Thành Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm

về nội dung đồ án của mình Trường đại học Công nghiệp TP Hồ Chí Minh không liên

quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có)

TP Hồ Chí Minh, ngày tháng năm

Tác giả

(ký tên và ghi rõ họ tên)

Bùi Hoàng Sơn Cao Phan Khánh Duy Châu Mỹ Uyên Dương Quang Huy

read later on your computer

Save to a Studylist

Trang 5

PHẦN ĐÁNH GIÁ CỦA GIẢNG VIÊN

_ _ _ _ _ _ _

Tp Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)

Trang 6

TÓM TẮT

Bài toán Nhận diện bệnh lá lúa là một trong những bài toán quan trọng trong lĩnh vực nông nghiệp thông minh và xử lí ảnh Đây là một bài toán có thể giúp nhận biết các bệnh, sâu bệnh trên lá lúa một cách nhanh chóng và chính xác, từ đó giúp nông dân có thể áp dụng biện pháp phòng trừ hoặc điều trị kịp thời Ba mô hình ResNet, Vision Transformer (ViT), và AlexNet được lựa chọn và áp dụng để giải quyết bài toán này ResNet là một mô hình mạng nơ ron sâu tiên tiến với cấu trúc dễ huấn luyện ViT là một -phương pháp mới sử dụng Transformer cho việc xử lý hình ảnh, giúp mô hình tự học được cấu trúc không gian của hình ảnh mà không cần áp dụng các phép biến đổi truyền thống như CNN AlexNet là một trong những mô hình đầu tiên đạt được thành công lớn trong việc nhận dạng hình ảnh Các mô hình được huấn luyện trên tập dữ liệu chứa hình ảnh lá lúa bị nhiễm bệnh và lá lúa bình thường Quá trình huấn luyện được tiến hành trên các thiết bị có sức mạnh tính toán cao như GPU để tối ưu hóa hiệu suất Các mô hình đã đạt được kết quả khả quan trong việc nhận dạng bệnh lá lúa Mặc dù mỗi mô hình có điểm mạnh và yếu riêng, nhưng tất cả đều cho thấy khả năng nhận dạng đáng kể so với các phương pháp truyền thống

Trang 7

MỤC LỤC

LỜI CẢM ƠN i

PHẦN ĐÁNH GIÁ CỦA GIẢNG VIÊN iii

TÓM TẮT iv

MỤC LỤC 1

2

DANH MỤC CÁC HÌNH VẼ 1.1 Giới thiệu về bài toán 3

1.2 Phân tích yêu cầu của bài toán 4

1.2.1 Yêu cầu của bài toán 4

1.2.2 Các phương pháp giải quyết bài toán 4

1.3 Phân tích các mô hình 6

1.3.1 Dataset 6

1.3.2 AlexNet 9

1.3.3 Resnet 11

12

1.3.4 Vision Transformer 12

1.4 Thực nghiệm 14

1.4.1 Dữ liệu 14

1.4.2 Xử lý dữ liệu 14

1.4.3 Công nghệ sử dụng 15

1.4.4 Cách đánh giá 15

1.5 Kết quả đạt được 16

1.6 Kết luận 17

TÀI LIỆU THAM KHẢO 18

PHỤ LỤC 19

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1: AlexNet 10

Hình 2: ResNet có và không có khối tích chập 1X1 12

Hình 3:Vision Transformer 13

Hình 4 Kết quả so sánh 16

Trang 9

NHẬN DIỆN BỆNH LÁ LÚA – RICE LEAF DISEASE

DETECTION

1.1 Giới thiệu về bài toán

Bài toán nghiên cứu xoay quanh việc phát hiện bệnh cây lá lúa thông qua việc sử dụng ba mô hình ResNet, Vision Transformer (ViT), và AlexNet Cây lúa là một trong những loại cây quan trọng nhất trên thế giới, tạo ra nguồn lợi tức thì và là nguồn cung cấp thức ăn cho hàng tỷ người dân Tuy nhiên, cây lúa thường bị tấn công bởi nhiều loại bệnh và sâu bệnh gây hại, gây ra thiệt hại lớn cho năng suất và chất lượng sản phẩm Mục tiêu của nghiên cứu là phát triển ba mô hình ResNet, Vision Transformer (ViT),

và AlexNet để tự động phát hiện các triệu chứng của bệnh cây lá lúa từ hình ảnh, giúp người nông dân và nhà nghiên cứu nông nghiệp nhận biết sớm và đưa ra biện pháp phòng trừ và điều trị hiệu quả

Các mô hình sẽ được đào tạo trên cơ sở dữ liệu lớn về hình ảnh cây lúa bị nhiễm bệnh và không bị bệnh, từ đó học được các đặc trưng và mẫu của các loại bệnh khác nhau Công nghệ thị giác máy tính sẽ giúp phát hiện và phân loại các triệu chứng của bệnh từ hình ảnh cây lá lúa, từ đó đưa ra kết luận và khuyến nghị về các biện pháp can thiệp

Việc thành công trong việc giải quyết bài toán này có thể mang lại nhiều lợi ích cho ngành nông nghiệp, bao gồm giảm thiểu thiệt hại về năng suất, tăng cường hiệu suất và chất lượng của sản phẩm, và giúp bảo vệ môi trường bằng cách giảm sử dụng thuốc trừ

sâu và phân bón hóa học

Trang 10

1.2 Phân tích yêu cầu của bài toán

1.2.1 Yêu cầu của bài toán

Bài toán đặt ra các yêu cầu cụ thể như sau:

1 Dữ liệu đầu vào: Dữ liệu đầu vào là bộ sưu tập hình ảnh bệnh lá lúa "Mẫu hình ảnh bệnh lá lúa", bao gồm tổng cộng 5932 hình ảnh được tổng hợp và xuất bản bởi Prabira Kumar Sethy Bộ dữ liệu này chứa các hình ảnh rõ ràng của bốn loại bệnh lá lúa khác nhau: bệnh bạc lá do vi khuẩn, bệnh đạo ôn, bệnh đốm nâu và bệnh Tungro

2 Nhiệm vụ: Xây dựng ba mô hình ResNet, Vision Transformer (ViT), và AlexNet để nhận diện và phân loại các loại bệnh lá lúa từ hình ảnh Sau đó, huấn luyện mô hình trên dữ liệu huấn luyện và kiểm định hiệu suất trên dữ liệu kiểm định Cuối cùng là đánh giá hiệu suất của mô hình dựa độ chính các accuracy và hàm mất mát loss

3 Kết quả đầu ra: Đưa ra dự đoán về loại bệnh mà lá lúa được biểu diễn trong hình ảnh, gồm các loại bệnh như bệnh bạc lá do vi khuẩn, bệnh đạo ôn, bệnh đốm nâu và bệnh Tungro

4 Đánh giá hiệu suất: ử dụng phương pháp đánh giá thông qua các chỉ số như Saccuracy (độ chính xác) và loss (hàm mất mát)

1.2.2 Các phương pháp giải quyết bài toán

1 ResNet (Residual Neural Network):

Bài báo: "Deep Residual Learning for Image Recognition" - Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun - 2015

Phương pháp giải quyết: ResNet giải quyết vấn đề vanishing gradient và degradation bằng cách sử dụng các residual block, cho phép mô hình học được các residual mapping thay vì học toàn bộ mapping Các residual block giúp lan truyền ngược hiệu quả hơn và giảm thiểu sự mất mát thông tin

Trang 11

Dữ liệu thực nghiệm: Sử dụng tập dữ liệu ảnh bệnh lá lúa để huấn luyện và đánh giá mô hình

Kết quả đạt được: ResNet thường đạt được hiệu suất tốt trong việc nhận diện hình ảnh, đặc biệt là trong các bài toán về phân loại ảnh

Hạn chế: Một số hạn chế của ResNet có thể bao gồm độ phức tạp tính toán và yêu cầu tài nguyên tính toán lớn, đặc biệt khi sử dụng các phiên bản lớn của mạng

2 Vision Transformer (ViT):

Bài báo: "An Image is Worth 16x16 Words: Transformers for Image

Recognition at Scale" - Alexey Dosovitskiy, Lucas Beyer, Alexander

Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby - 2020

Phương pháp giải quyết: ViT sử dụng kiến trúc Transformer trong việc xử lý hình ảnh bằng cách chia nhỏ hình ảnh thành các patch và sau đó áp dụng

transformer encoder để học biểu diễn của từng patch ViT loại bỏ hoàn toàn việc

sử dụng các lớp convolution truyền thống trong các mô hình CNN và thay vào

3 AlexNet:

Trang 12

Bài báo: "ImageNet Classification with Deep Convolutional Neural Networks" - Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton - 2012

Phương pháp giải quyết: AlexNet là một trong những mô hình sâu đầu tiên được

áp dụng rộng rãi trong lĩnh vực nhận diện hình ảnh Nó sử dụng kiến trúc CNN với các lớp convolution, max pooling và fully connected layers Mô hình này có thể học được các đặc trưng phức tạp từ dữ liệu hình ảnh thông qua việc kết hợp nhiều lớp convolution và non-linear activation functions

Dữ liệu thực nghiệm: Sử dụng tập dữ liệu ảnh bệnh lá lúa để huấn luyện và đánh giá mô hình

Kết quả đạt được: AlexNet đã đạt được kết quả ấn tượng trong việc phân loại hình ảnh trên tập dữ liệu ImageNet, mở ra kỷ nguyên mới trong lĩnh vực nhận diện hình ảnh

Hạn chế: Một số hạn chế của AlexNet bao gồm độ phức tạp tính toán và cần có lượng dữ liệu huấn luyện lớn

1.3 Phân tích các mô hình

1.3.1 Dataset

Để huấn luyện mô hình, chúng tôi sử dụng tập dữ liệu gồm các hình ảnh chất lượng cao

về lá lúa bị nhiễm các loại bệnh khác nhau Cụ thể, tập dữ liệu này bao gồm 5932 hình ảnh, mỗi hình ảnh thể hiện một trường hợp bệnh lá lúa, cụ thể gồm 4 loại bệnh: Bacterialblight (Đạo ôn):

− Tác nhân: Do vi khuẩn Xanthomonas oryzae pv oryzae gây ra

− Triệu chứng:

• Lá: Xuất hiện các đốm nâu nhỏ, dài, hẹp, có viền vàng, sau chuyển sang màu nâu đỏ và khô héo

• Bẹ lá: Có các sọc nâu, đen, hẹp, dài

• Cổ lá: Bị thối, gãy, làm cho lá rụng

Trang 13

• Bón phân cân đối, hợp lý

• Tháo nước, sục bùn khi lúa bị bệnh

• Sử dụng thuốc bảo vệ thực vật theo hướng dẫn

Trang 14

Brownspot (Nám nâu):

− Tác nhân: Do nấm Cochliobolus miyabeanus gây ra

− Triệu chứng:

• Lá: Xuất hiện các đốm nâu hình tròn hoặc bầu dục, có tâm màu nâu đen

• Vết bệnh thường xuất hiện ở phần lá già, sau lan dần lên phần lá non

− Điều kiện phát sinh:

• Chồi lúa bị teo lại, không phát triển

− Điều kiện phát sinh:

• Bệnh do virut nên lây lan qua rầy nâu

• Rầy nâu phát triển mạnh trong điều kiện:

• Nhiệt độ thích hợp: 25-30°C

• Độ ẩm cao

− Biện pháp phòng trừ:

Trang 15

• Sử dụng giống lúa kháng bệnh

• Diệt rầy nâu bằng thuốc bảo vệ thực vật theo hướng dẫn

1.3.2 AlexNet

AlexNet là mô hình mạng nơ-ron tích chập (CNN) được giới thiệu bởi Alex

Krizhevsky và cộng sự vào năm 2012 Nó đã giành chiến thắng trong cuộc thi ImageNet Large Scale Visual Recognition Challenge (ILSVRC) năm 2012 với tỷ lệ lỗi top-5 là 15,3%, giảm đáng kể so với 25,8% của mô hình tốt nhất năm 2011 Thành công của AlexNet đã thúc đẩy sự phát triển mạnh mẽ của các mô hình CNN cho các bài toán thị giác máy tính

AlexNet sử dụng một số cải tiến để đạt được hiệu suất cao, bao gồm:

− Hàm kích hoạt ReLU: thay thế cho hàm tanh truyền thống, giúp tăng tốc độ huấn luyện và cải thiện hiệu suất

− Normalization phản hồi cục bộ (Local Response Normalization - LRN): giúp tăng tính ổn định và khả năng khái quát của mô hình

− Overlapping pooling: giúp tăng độ chính xác của mô hình

− Data augmentation: giúp tăng kích thước tập dữ liệu và giảm nguy cơ overfitting

− Dropout: giúp tăng tính mạnh mẽ của mô hình

mô hình CNN hiện đại hơn với hiệu suất cao hơn, AlexNet vẫn là một mô hình quan trọng và có giá trị tham khảo cho các nghiên cứu và ứng dụng về thị giác máy tính

Trang 16

Hình 1: AlexNet

Kiến trúc:

AlexNet bao gồm 5 lớp tích chập và 3 lớp kết nối đầy đủ

Lớp tích chập sử dụng bộ lọc kích thước 11x11 và 5x5 với bước nhảy 4 và 2 lần lượt

Sau mỗi lớp tích chập là một lớp pooling tối đa 2x2

Lớp kết nối đầy đủ sử dụng 4096, 4096 và 1000 nơ ron cho các lớp ẩn và lớp đầu ra

Trang 17

ResNet sử dụng một số cải tiến để đạt được hiệu suất cao, bao gồm:

− Khối cơ bản (basic block) và khối bottleneck (bottleneck block): giúp giảm số lượng tham số và tăng tốc độ huấn luyện

− Pre-activation: giúp tăng tốc độ huấn luyện và cải thiện hiệu suất

− Dilated convolution: giúp tăng độ rộng của receptive field mà không cần tăng kích thước bộ lọc

ResNet cũng có một số hạn chế, bao gồm:

− Khó khăn trong việc thiết kế kiến trúc tối ưu cho từng bài toán cụ thể

− Yêu cầu nhiều dữ liệu để huấn luyện hiệu quả

ResNet là một mô hình CNN mang tính đột phá, đã thúc đẩy sự phát triển mạnh mẽ của các mô hình CNN sâu cho các bài toán thị giác máy tính

ResNet vẫn là một mô hình CNN hiệu quả và được sử dụng rộng rãi trong nhiều ứng dụng thực tế

Trang 18

Hình 2: ResNet có và không có khối tích chập 1X1

Cấu trúc cơ bản:

ResNet bao gồm các khối (block) được xếp chồng lên nhau

Mỗi khối có hai lớp tích chập (convolutional layer) với cùng số lượng kênh đầu

Ưu điểm:

Khả năng học tập toàn cục: ViT có thể học các mối quan hệ giữa các phần khác nhau của ảnh, không chỉ tập trung vào các khu vực lân cận như CNN

Trang 19

Hiệu quả: ViT có thể được tính toán song song trên GPU, giúp tăng tốc độ xử lý.Khả năng mở rộng: ViT có thể được áp dụng cho nhiều tác vụ thị giác máy tính khác nhau, không chỉ phân loại ảnh

Nhược điểm:

Yêu cầu dữ liệu lớn: ViT cần một lượng lớn dữ liệu để huấn luyện hiệu quả

Khả năng giải thích: ViT khó giải thích hơn CNN, do cơ chế attention hoạt động theo cách phức tạp

Trang 20

Cách thức hoạt động:

− Chia ảnh thành các mảng (patch): ViT chia ảnh đầu vào thành các mảng nhỏ có kích thước cố định, tương tự như cách chia chuỗi từ trong xử lý ngôn ngữ tự nhiên

− Làm phẳng các mảng hình ảnh: Mỗi mảng sau đó được biến thành một vector có chiều dài cố định, thể hiện các đặc điểm của phần hình ảnh tương ứng

− Tạo embedding: Các vector này được đưa vào một lớp embedding để tạo ra các biểu diễn có chiều thấp hơn, nhưng vẫn giữ được các thông tin quan trọng

− Transformer: Các biểu diễn embedding được đưa vào mô hình Transformer, vốn

sử dụng cơ chế attention để học các mối quan hệ giữa các mảng hình ảnh

− Phân loại: Sau khi qua Transformer, một lớp fully connected được sử dụng để phân loại ảnh đầu vào vào các lớp khác nhau

-1.4 Thực nghiệm

1.4.1 Dữ liệu

Dữ liệu lấy từ cuộc thi trên Kaggle có tên là “Rice Leaf Disease Images”

Dữ liệu đầu vào gồm: một bộ sưu tập các hình ảnh chất lượng cao về lá lúa bị nhiễm các loại bệnh khác nhau Cụ thể, tập dữ liệu này bao gồm 5932 hình ảnh, mỗi hình ảnh thể hiện một trường hợp bệnh lá lúa Cụ thể: bệnh bạc lá do vi khuẩn, bệnh đạo ôn, bệnh đốm nâu và bệnh Tungro

1.4.2 Xử lý dữ liệu

Trước khi huấn luyện mô hình phân loại bệnh lá lúa, việc xử lý và tiền xử lý dữ liệu đóng vai trò quan trọng để đảm bảo rằng mô hình có thể học từ dữ liệu một cách hiệu quả Trong mã của chúng tôi, chúng tôi đã thực hiện một loạt các bước tiền xử lý để chuẩn bị dữ liệu hình ảnh và nhãn cho quá trình huấn luyện Dưới đây là một số hoạt động mà chúng tôi đã thực hiện:

Tiêu đề	Đồ Án Giữa Kì Thị Giác Máy Tính
Tác giả	Bùi Hoàng Sơn, Cao Phan Khánh Duy, Châu Mỹ Uyên, Dương Quang Huy
Người hướng dẫn	GV. Lưu Giang Nam, GV. Trần Tấn Thành
Trường học	Trường Đại Học Công Nghiệp TP Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	đồ án
Năm xuất bản	2024
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	26
Dung lượng	1,43 MB