Trong nghiên cứu sử dụng mô hình Yolov5 You Only Look Once version 5 [1] trong nhận diện đối tượng, công nghệ xử lý ảnh và mã nguồn mở OpenCV [2], thuật toán CNNConvolutional Neural Netw
Trang 1PHẠM MINH KHAN
PHAT TRIEN UNG DUNG PHAN TÍCH CHAT LUQNG
VA UOC TINH GIA CA PHE NHAN SU DUNG TRi TUE
NHAN TAO
LUAN VAN THAC Si, KHOA LUAN CAO HOC
NGANH HE THONG THONG TIN
Mã số: 8480104
TP HO CHÍ MINH - NĂM 2023
Trang 2lồ
PHẠM MINH KHAN
PHÁT TRIEN UNG DUNG PHAN TÍCH CHAT LƯỢNG
VÀ UOC TINH GIA CÀ PHÊ NHÂN SỬ DỤNG TRÍ TUE
NHÂN TẠO
LUẬN VĂN THẠC SĨ, KHÓA LUẬN CAO HỌC
NGANH HỆ THONG THONG TIN
Mã số: 8480104
NGƯỜI HƯỚNG DAN KHOA HỌC:
TS LÊ HOÀNH SỬ
Trang 3tin - Đại học Quốc gia Thành Phố Hồ Chí Minh đã tận tâm truyền đạt cho em nhiều kiến
thức bồ ích trong suốt quá trình em học tập tại trường Xin kính chúc thầy cô sức khỏe
và thành công trong công việc.
Em xin tỏ lòng biết ơn chân thành, sâu sắc nhất đến Thầy TS Lê Hoành Sử, thầy
đã tận tâm và nhiệt tình hướng dẫn và chỉ dạy cho em trong suốt quá trình em thực hiện
đề tài này
Em cũng xin cảm ơn các anh chị, các bạn trong lớp Cao học Hệ thống thông tin Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành Phó Hồ Chí Minh, đãnhững chia sẻ kiến thức, kinh nghiệm thực hiện và động viên em rất nhiều trong quátrình em làm đề tài
-Luận văn này đã hoàn thành và cũng đạt được một số kết quả nhất định trongnghiên cứu, tuy nhiên luận văn vẫn không tránh khỏi thiếu sót Và kính mong sự cảmthông cũng như đóng góp ý kiến từ quý thầy cô và các anh chị
Tp HCM, ngày 27 tháng 06 năm 2023
Học viên
Phạm Minh Khan
Trang 4Tôi xin cam đoan dưới đây là công trình nghiên cứu của riêng tôi, trong đó các số liệu
và kết quả nghiên cứu đã nêu trong luận văn là hoản toàn trung thực Vì thế tôi sẽ xin
chịu trách nhiệm hoàn toàn vê công trình nghiên cứu của minh trong luận văn này.
Tp Hồ Chí Minh, ngày 27 tháng 06 năm 2023
Phạm Minh Khan
Trang 5CHƯƠNG 1 GIỚI THIỆU
1.1 Giới thiệu
1.2 Mục tiêu nghiên CỨU - ¿+ tt EEEEEEEkEEEEEEEkEEEEEEEEErrrrkrkrkrrrrrrrrke 10 1.3 Phương pháp nghiên cứu ¿-+- +52 5+St2t$x‡xtexerxexerxrrrrrrrrrrrrrrrerrree 10 1.4 Phạm vi nghiên COU + tt tk EEEk SE HH 11111111 1g tren 11
1.5 BO cuc ốc 11CHƯƠNG 2 BAI TOÁN VA CÁC NGHIÊN CUU LIEN QUAN 132.1 Tổng quan
2.2 Các bài toán trong nghiên cứu
CHƯƠNG 3 GIẢI PHÁP DE XUAT
3.2 Dữ liệu và qua trình CHUAN Di GV đ“ 19
3.2.1 Thu thập dữ liệu -©+2©22©29292221222221221221221221221221221212 ce 19
3.2.2 Tiền xử lý đữ liệu -22222222222221121222711122222111222210222 re 223.3 Chi ion 23
3.3.1 Nhan dién na 23 3.3.2 Phân loại hat ca phê
3.3.3 Ước lượng khối lượng hạt cà phi
3.4 Các kỹ thuật xử lý hiện tượng mô hình bị
3.4.1 Kỹ thuật đừng Sớm - + chén 1g gà 3.4.2 Kỹ thuật nhớ mô hình - - - - St tk ‡kEEEEEEkEkEEEEvrkrkrkrkerkrkrkskerrrkrkrkrree 36
CHƯƠNG 4 THỰC NGHIEM VÀ KET QUÚA ààcececiiirrrrrie 38
4.1 Môi trường nghiÊn CỨU 5+ St vềvEEEEErkekErerkrkrkerrrrrkrrrrrrrrrrrree 38 4.2 M6 ta Ga 38
4.3 Nhận diện đối tượng
4.4 Phân loại.
Trang 64.7 Đề xuất quản lý thông tin phân tích các mẫu từng chụp
4.8 Phân tích và đánh giá
4.9 Ứng dụng thử nghiệm 534.9.1 Phương pháp lấy mẫu -:-©222222222221222222221122222211112.22211 21211 xe 534.9.2 Triển khai ứng dụng -22¿-2222222222221112122221112222221122 2222111221111 e 54CHƯƠNG 5 KET LUẬN VA HƯỚNG PHÁT TRIỂN 2-©2z225sz2ccse2 595.1 KẾT luận - s2 1221 2E 21 ng nh nàng 595.2 Hạn chế
5.3 Hướng phat tri
DANH MỤC CÔNG BO KHOA HỌC CUA TÁC GL
TÀI LIỆU THAM KHẢO
Trang 7Hình 3.1 Quy trình xử lý chung c5: t3 EEekEkErrErtkrkerrrrrkrrrrrrrrrrrree 19
Hình 3.2 Các mẫu hạt đã được phân loại bởi các chuyên gia - -. - 20
Hình 3.3 Các dụng cụ thiết bị cho quá trình chụp ảnh lấy mẫu 2ÖHình 3.4 Sử dụng phần mềm Labellmg dé dán nhãn cho từng hạt trên ảnh 2
Hình 3.5 Các phiên bản của Yolovs [1Š] + ccccrtrkexerererrksrererrerree 25
Hình 3.6 Kiến trúc mạng của Yolov5 [30] ¿22222222222 22zcztErxvrrrrrrrrercee 25
Hình 3.7 Kiến trúc chung mô hình Faster R-CNN [13] -. -+ -++ 26
Hình 3.8 Kiến trúc chỉ tiết mô hình Faster R-CNN nhận diện hạt cà phê 27
Hình 3.9 Kiến trúc mang ResNet-50 cc 222 tri 28Hình 3.10 Kiến trúc của EfficientNet-BO [14] - -:-552222ccc522cvvccrsccrxerrrrrrrxee 30Hình 3.11 Model Scaling [38] - 5 2 c2 tre 30
Hình 3.12 Kích thước mô hình và độ chính xác trên tập ImageNet [14] 31
Hình 3.13 Kiến trúc mang EfficientNet-B3 [39] cccccccsssssssesssssssseesssssssesesssseeeeesssseess 32Hình 3.14 Kiến trúc truyền thống của một mạng CNN [20] - : -:-¿ 33Hình 4.1 Kết quả biểu đồ khi huấn luyện nhận diện bằng Yolov5 42Hình 4.2 Kết qua biểu dé loss khi huấn luyện nhận diện bang Faster R-CNN 4Hình 4.3 Kết quả nhận diện bằng Yolov5 trên mẫu thử :zsc2 43Hình 4.4 Kết qua nhận diện bằng Faster R-CNN trên mẫu thử - 43Hình 4.5 Ảnh gốc của hạt cà phê trước khi dùng kỹ thuật ngưỡng [20] 45
Hình 4.6 Ảnh trắng den của hạt cà phê sau khi áp dụng kỹ thuật ngưỡng [20] 45
Hình 4.7 Mô hình ước lượng khối lượng được tạo ra bằng cách sử dụng mô hình
CNN và các giá trị đầu vào dé huấn luyện mô hình [20] - +-5 46Hình 4.8 Sơ đồ đề xuất lưu trữ thông tin ảnh đã phân tích -:-cc:+¿ 52Hình 4.9 Giải pháp cho hệ thống ứng dụng thử nghi@m ccccccccsccccsssssseteeseseeeees 55Hình 4.10 So đồ các thành phan module trong ứng dụng thử nghiệm 56Hình 4.11 Sơ đồ triển khai ứng dụng thực tế khi đi thu mua hạt cà phê 57Hình 4.12 Các bước thực hiện dé phân tích ảnh trên ứng dụng 8Hình 4.13 Kết quả khối lượng và tỷ lệ % khối lượng hạt lỗi của từng loại hạt trên ảnhcần phân tích -+¿522V2++++22221111222211111222211111221211111222211111.211111121011111 2.1111 e 58
Trang 8Viết tắt Chỉ tiét/y nghĩa
ICO International Coffee Organization
Al Artificial Intelligence
CNN Convolutional Neural Network
Yolo You Only Look Once
GLCM Gray-level cooccurrence matrix
K-NN K-nearest neighbor
Faster R-CNN Faster region-based convolutional neural network
MAE Mean Absolute Error
MSE Mean Squared Error
RMSE Root Mean Squared Error
MAPE Mean Absolute Percentage Error
R? Coefficient of determination
RGB Red-Green-Blue
RPN Region Proposal Network
mAP Mean Average Precision
MHULKL Mô hình ước lượng khối lượng
RPA Robotic Process Automation
TP True Positive
FP False Positive
Trang 9Fl Độ do
Precision Độ chính xác
Recall Độ bao phủ
TCVN Tiêu chuẩn Việt Nam
API Application Programming Interface
TP.HCM Thành phố Hồ Chí Minh
Trang 10Bảng 4.1 Mô tả chỉ tiết phần cứng máy chủ dùng để huấn luyện mô hình [20] 38Bảng 4.2 Mô tả số lượng từng loại hạt [20]
Bảng 4.3 Thống kê số lượng hạt cà phê được sử dụng cho bài toán nhận diện 39Bang 4.4 Thống kê số lượng 2.000 hạt cà phê mỗi loại ở các tập đữ liệu [20] 39Bang 4.5 Thống kê số lượng hạt cà phê mỗi loại [20] - ¿+22 41Bang 4.6 Tham số dé huấn luyện mô hình [20] .¿¿¿2222¿++222222zz+ttzzscce2 41Bang 4.7 Kết quả nhận diện hạt cà phê bằng Yolov5 va Faster R-CNN 42Bang 4.8 Tham số dé huấn luyện mô hình [20] .-:¿222z+2222222zzzztzzscc+2 44Bang 4.9 Kết quả huấn luyện mô hình phân loại hạt cà phê của Yolov5, Faster R-
CNN, EfficientNet [20]
Bang 4.10 Kết qua của 12 loại hat cho phan ước lượng khối lượng [20] 47Bảng 4.11 Kết quả thực nghiệm trên 5 mẫu ước lượng khối lượng hạt cà phê [20] 47
Bảng 4.13 Định giá thu mua cho trường hợp trừ giá dựa trên chất lượng của Công ty
thu mua cà phê ở TP.HCM
Bảng 4.14 Trường hợp vi dụ trừ giá dựa trên chất lượng - -:-+2-sccce2 50Bang 4.15 Dinh giá thu mua cho trường hợp cộng giá dựa trên chất lượng của Công
ty thu mua ca phê ở TP.HCM 6-5-5 St xkEEEEE#kEEEEEEEkEEEErrrkrkrrerrrkrkrkerrree 51
Bang 4.16 Trường hợp vi dụ cộng giá dựa trên chất lượng - - 9 Ï
Bang 4.17 Lay mẫu theo lô hàng đóng bao dựa vào TCVN 5702: 1993 53
Trang 11Trên thế giới, bên cạnh xuất khẩu gạo, Việt Nam còn được biết đến là một trongnhững cường quốc xuất khẩu ca phê Để đạt được thành tựu này, việc chọn lựa hạt
cà phê chất lượng ngay từ khâu thu mua đóng vai trò tiên quyết đối với các doanhnghiệp sản xuất và xuất khẩu cà phê Trong mỗi thương vụ, bên mua sẽ phân loại
cà phê thông qua việc xác định khối lượng từng loại hạt, đánh giá chất lượng vàtính đồng nhất của mỗi lô cà phê Từ đó xác định giá thu mua giữa doanh nghiệp
và người nông dan Tuy đóng vai trò quan trọng nhưng các tác vụ này hiện van
được thực hiện thủ công qua nhiều bước vừa tốn thời gian, công sức, chỉ phí chodoanh nghiệp lại vừa ảnh hưởng đến chất lượng hạt cà phê khi thời gian lưu kho bị
kéo dải.
Thấy được những khó khăn đó, nghiên cứu này muốn tạo nên một công cụ cóứng dụng công nghệ thông tin để có thể giải quyết vấn đề phân loại hạt cà phê cũng
như các loại nông sản khác một cách tự động và nhanh chóng Mục tiêu của nghiên
cứu là ứng dụng trí tuệ nhân tạo vào phân tích chất lượng và ước lượng khối lượnghạt cà phê nhân, rút ngắn thời gian thu mua và lưu kho nhằm giảm chỉ phí cho ngườinông dân và doanh nghiệp nhưng vẫn đảm bảo đánh giá đúng chất lượng hạt cà phê.Đồng thời nâng cao chất lượng cà phê thành phẩm Nghiên cứu được thực hiện trên
mẫu tập dữ liệu được thu thập và phân loại theo 12 loại hạt cà phê Trong nghiên
cứu sử dụng mô hình Yolov5 (You Only Look Once version 5) [1] trong nhận diện
đối tượng, công nghệ xử lý ảnh và mã nguồn mở OpenCV [2], thuật toán CNN(Convolutional Neural Network - CNN) [3] trong xử lý ảnh đề phân loại, và từ đó
ước lượng khối lượng từng loại hạt hạt cà phê Các thử nghiệm bước đầu cho thấy
các mô hình thuật toán ứng dụng cho kết quả tin cậy cao, có thé ứng dụng vào thực
tiễn
Trang 12CHUONG 1 GIỚI THIỆU1.1 Giới thiệu
Theo Tổ chức Cà phê Thế giới (ICO), năm 2020 tổng sản lượng cà phê toàn cầu
là 169,6 triệu bao (60kg/bao) Trong đó, 75% tổng sản lượng cà phê toàn cầu đến
từ 5 quốc gia bao gồm: Brazil, Việt Nam, Colombia, Indonesia và Ethiopia ViệtNam xếp thứ hai thế với sản lượng 29 triệu bao trong năm 2020, đồng thời cũng làquốc gia có năng suất cà phê cao nhất thế giới đạt 2,4 tan trên mỗi hecta, gần gấpđôi quốc gia đứng thứ 2 là Brazil (1,4 tắn/hecta) và vượt xa các nước khác trongtop 10 như Colombia (0,9 tấn/hecta), Honduras (0,9 tắn/hecta), Ethiopia (0,7tan/hecta) hay Indonesia (0,5 tắn/hecta) [4]
Để giữ vững được vị thế đó, các doanh nghiệp xuất khâu cà phê Việt Nam khôngchỉ cần đảm bảo về số lượng mà còn phải đáp ứng về mặt chất lượng hạt cà phêthông qua các tiêu chuẩn, quy định về chất lượng hạt cà phê Tuy nhiên, không phảiđơn vị thu mua nào cũng có đầy đủ điều kiện và năng lực đánh giá chất lượng cũngnhư tính đồng nhất của hạt cà phê trong từng lô hàng Hiện nay, các tác vụ này đaphần đều được thực hiện thủ công gây tốn thời gian, nhân lực, tăng chỉ phí chodoanh nghiệp và ảnh hưởng chất lượng hạt cà phê khi thời gian lưu kho kéo dài.Không những thế, việc phân loại, đánh giá chất lượng, khối lượng hạt cà phê khôngchuẩn xác dẫn đến khó khăn trong việc xác định giá thu mua giữa doanh nghiệp vàngười nông dân Rõ ràng, nhu cầu thực tế về một công cụ tự động hóa giúp hỗ trợđánh giá chất lượng hạt cà phê nói chung và các loại nông sản khác nói riêng tạiViệt Nam hiện nay là rất lớn
Xuất phát từ nhu cầu đó, công nghệ trí tuệ nhân tạo (Artificial Intelligence - AI)
với nhiều tiềm năng có thể được áp dụng đề giải quyết các vấn đề về phân loại vàước tính khối lượng của nông sản Việc ứng dụng các giải pháp AI với đặc điểm cóthể học từ việc huấn luyện một tập dữ liệu đã dán nhãn và cũng có thể tự học đểtiếp tục hoàn thiện, giải pháp AI có thể dùng để dự đoán, dự báo các đại lượng trênmột tập đữ liệu mới có những đặc trưng tương tự tập đã huấn luyện Giải pháp AIvới độ tin cậy cao, có thê tương tác với con người và các hệ thống khác giúp lưutrữ dữ liệu và lịch sử hoạt động nhằm có thé đánh giá va phân tích cải tiễn hệ thống
Trang 13và hành vi người dùng Do đó, từ nhu cầu thực tiễn về việc cần cải thiện việc kiểm
tra chất lượng hạt cà phê, ước tính khối lượng và tỉ lệ các loại lỗi bằng mắt người
va thủ công hàng ngày, việc xây dựng thuật toán dé phát triển ứng dụng giúp kiểmtra chất lượng và ước tính khối lượng, tỉ lệ lỗi tự động của cà phê là rất cần thiết,đặc biệt với vai trò nước sản xuất cà phê lớn thứ 2 thế giới như Việt Nam Theo tiêu
chuẩn của Việt Nam, hạt cà phê hiện nay được phân thành 12 loại hạt bao gồm:
good, bigbroken, black, broken, brown, cherry, mold, partlyblack heavyfm,
immature, insect và lightfm AI có thé được áp dung đề nhận biết va phân loại hat
ca phê thành 12 loại hạt, đồng thời ước lượng khối lượng từng loại hạt cà phê một
cách tự động thông qua xử lý hình ảnh Nghiên cứu nảy sẽ giải quyết 3 mục tiêu
tương ứng với 3 bài toán là nhận diện, phân loại và ước lượng khối lượng hạt cà
phê thông qua hình ảnh bằng cách sử dụng những mô hình thuật toán như CNN [3],
Yolo [5].
Dùng trí tuệ nhân tạo đề nhận diện và phân loại một đối tượng trên một bức anh
là một việc không dễ, đặc biệt là hạt cà phê lại là một đối tượng rất nhỏ Trên thế
giới có nhiều công trình nghiên cứu về nhận diện những đối tượng nhỏ như nghiêncứu của tác gia Muhammed Can Keles và cộng sự [6] đã sử dụng Yolov5 [1] để
phát hiện các đối tượng nhỏ, mặc dù nghiên cứu này không nhận diện và phân loạihạt cà phê nhưng tập dữ liệu của họ là những bức ảnh đê nhận diện các đối tượngrất nhỏ (Người đi bộ, xe hơi, con người, xe tải, xe buýt, xe mô tô, xe đạp, ba bánh)
trên bức ảnh được chụp từ trên cao và nghiên cứu của họ hướng tới ứng dụng vào
thiết bị bay không người lái Điều này cho thấy rằng việc ứng dụng Yolo [5], cụ thể
là Yolov5 [1] trong nhận diện và phân loại đối tượng nhỏ như hạt cà phê là rất tiềmnăng Thêm một nghiên cứu về ứng dụng Yolov5 [1] trong xử lý phân loại hat càphê là của tác giả Vince Amiel M Luis va cộng sự [7] với nghiên cứu về phân loại
lỗi trên hạt ca phê nhân Robusta bằng cách sử dung Yolo [5] Nghiên cứu này ứng
dụng Yolov5 [1] để xác định các loại hạt cà phê bị hỏng (broken), đen (black) và
bình thường (normal) Ngoài ra, còn rất nhiều bài báo khác cũng đã ứng dụng máy
học, học sâu như bài báo của tác giả Mila Jumarlis và cộng sự [8] thì sử dụng GLCM
và K-NN dé phát hiện các hạt cà phê bị lỗi, Carlito Pinto và cộng sự [9] cũng sử
dung CNN [3] để phân loại các hạt cà phê bị lỗi Trong bài toán dự báo ước lượng
Trang 14khối lượng thì Yong Piao và cộng sự đã sử dụng CNN [3] để dự báo giá nhà [10],còn Baohua Zhang và Jun Zhou [11] thì đã ước lượng khối lượng và trọng lượng
của quả táo.
Không chỉ dừng lại ở việc nhận diện và phân loại vài loại hạt cà phê, nghiên cứunày còn có thể nhận diện và phân loại tới 12 loại hat đúng theo tiêu chuân phân loạihạt cà phê của Việt Nam Nghiên cứu này được thực hiện trên mẫu tập dữ liệu được
thu thập và phân loại theo 12 loại hạt cà phê, sử dung mô hình Yolov5 [1] trong
nhận diện đối tượng, công nghệ xử lý ảnh và mã nguồn mở OpenCV [2], thuật toánCNN [3] trong xử lý ảnh dé phân loại và ước lượng khối lượng hạt cà phê
1.2 Mục tiêu nghiên cứu
- Mục tiêu chung: Mục tiêu của nghiên cứu này là ứng dụng trí tuệ nhân tao trong
việc phân tích chất lượng hạt cà phê nhân, nhằm hỗ trợ người thu mua dễ dàngxem xét hàng hóa và kiểm tra chất lượng rồi từ đó định giá thu mua hạt cà phê
= Đề xuất việc quản lý thông tin phân tích của các mẫu từng chụp đã phân tích
1.3 Phương pháp nghiên cứu
Việc thực hiện nghiên cứu này dựa trên những cơ sở kế thừa các kiến thức nềntảng khoa học và kỹ thuật của thế giới để định hướng nghiên cứu liên quan đến bàitoán nhận điện, phân loại và ước lượng khối lượng Các phương pháp nghiên cứu
sẽ giúp nhận biết các vấn đề và những thách thức cần được giải quyết
- Phuong pháp tiếp cận dựa trên học sâu: sử dụng vào việc nghiên cứu, phân tích
các mô hình học sâu Phương pháp này cung cấp nền tảng cơ bản để xây dựng
Trang 15mô hình học sâu như mô hình học có giám sát, mang thần kinh nhân tạo, mô hìnhhồi quy, mang thần kinh tích chập và mô hình học không giám sát.
- Phương pháp thống kê dữ liệu: được sử dụng trong quá trình xây dựng tập dữ
liệu huấn luyện và các tập đữ liệu kiểm tra đánh giá mô hình Việc thống kê trên
tập dữ liệu nhằm đảm bảo các tập dữ liệu luôn có được sự cân bằng về số lượng
mẫu cũng như các đặc tính liên quan của từng đối tượng Kỹ thuật xử lý ảnh sửdụng trong quá trình xây dựng tập đữ liệu nhằm đảm bảo các tập đữ liệu đượcchuẩn hoá về cùng kích thước, các kỹ thuật dùng dé biến đồi ảnh, kỹ thuật ngưỡng
để chuyền ảnh về trắng đen, tăng cường ảnh cũng được áp dụng
- Phương pháp so sánh: cũng được sử dụng để xây dung các tiêu chuẩn, các mục
tiêu cần so sánh giữa các phương pháp thực nghiệm khác nhau Kết quả so sánhnày được dùng làm cơ sở dé đánh mô hình
- Phương pháp thực nghiệm: được dùng trong quá trình thu thập dữ liệu, xử lý dữ
liệu, đán nhãn, huấn luyện mô hình và đánh giá mô hình
1.4 Phạm vi nghiên cứu
Đề tài thực hiện nghiên cứu nhận dạng, phân loại và ước lượng khối lượng của
12 loại cà phê Robusta tại Việt Nam Từ việc nhận diện, phân loại và ước lượngkhối lượng của 12 loại hạt cà phê sau đó sẽ được định giá chất lượng hạt cà phê để
thu mua Các mẫu này được lấy ngẫu nhiên trong quá trình thu mua hạt cà phê ở hộ
nông dân.
1.5 Bố cục của luận văn
- Chương 1: Giới thiệu
Giới thiệu mục tiêu, phương pháp và phạm vi của nghiên cứu
- Chương 2: Bài toán và các nghiên cứu liên quan
Tổng quan các công trình nghiên cứu liên quan va các bài toán trong nghiên cứu
này.
- Chương 3: Giải pháp dé xuất
Xây dựng quy trình xử lý chung, dữ liệu và quá trình chuẩn bị, đề xuất các mô
hình, các tiêu chí đánh giá mô hình trong từng bài toán của nghiên cứu, đưa ra các
Trang 16kỹ thuật giúp mô hình tránh bị hiện tượng quá khớp.
- Chương 4: Thực nghiệm và kết quả
Trình bày cách xử lý thu thập tập dữ liệu, huấn luyện mô hình, môi trườngnghiên cứu Tiến hành các thực nghiệm đề đánh giá hiệu quả của mô hình
-_ Chương 5: Kết luận và hướng phát triển
Trình bày những kết luận, hạn ché và hướng phát triển tiếp theo của nghiên cứu
Trang 17CHƯƠNG 2 BÀI TOÁN VÀ CÁC NGHIÊN CỨU LIÊN QUAN
21 Tổng quan
Để giúp giảm thời gian, công sức va chi phí cho doanh nghiệp, trí tuệ nhân taođược ứng dụng để nhận biết các loại hạt cà phê cũng như phân loại hạt đúng theoyêu cầu Từ việc phân loại hạt, ta có thê ước tính được khối lượng của chúng dựatrên các nghiên cứu và ứng dụng đã được thực hiện trên thế giới Việc phát hiện rachính xác các đối tượng trong một bức ảnh là điều không đơn giản Đặc biệt là mộtđối tượng nhỏ như hạt cà phê thì việc chọn lựa phương pháp, kỹ thuật, mô hình giúpcho hệ thống có thể phát hiện ra mang lại nhiều thách thức cho các nhà nghiên cứu
Muhammed Can Keles và cộng sự [6] trong nghiên cứu phát hiện đối tượng nhỏ
so với kích thước hình ảnh.
Với phân loại hạt cà phê, nghiên cứu của Luis và cộng sự [7] đã thực hiện phân
loại hạt lỗi trên hạt cà phê nhân Robusta bằng cách sử dụng Yolo [5] Cũng trong
một nghiên cứu khác tác giả Mila Jumarlis và cộng sự [8] thì phân loại các hạt cà
phê lỗi sử dụng GLCM và K-NN Trong nghiên cứu [9] tác giả phân loại hình ảnh
hạt cà phê xanh dựa trên các loại hạt lỗi sử dụng mạng thần kinh tích chập
Ước tính khối lượng của các vật thể đã được thực hiện trong một số nghiên cứutương tự trước đây Trong dự báo ước lượng bằng CNN [3] để dự báo giá nhà, ướclượng được khối lượng của một vật thông qua hình ảnh thì có các nghiên cứu như
Yong Piao, Ansheng Chen và Zhendong Shanh [10] sử dụng mô hình CNN [3]
trong dự báo giá nha Ngoài ra Baohua Zhang va Jun Zhou [11] ước tính bằng thịgiác máy tính về khối lượng và trọng lượng của táo bằng cách sử dụng phương pháp
đo lường không tiếp xúc và tái tạo 3D
Chỉ với một thuật toán, một mô hình dé có thé giải quyết tất cả những bài toán(nhận diện, phân loại và ước lượng khối lượng) trong nghiên cứu này là không khảthi, do kết quả sẽ không tối ưu trên tập đữ liệu dẫn đến tính chuẩn xác ở kết quảcuối cùng không cao Do đó, nghiên cứu nay sẽ ứng dụng nhiều thuật toán, mô hình
khác nhau để giải quyết từng mục tiêu bài toán riêng
Dựa vào kết quả liên quan từ các công trình nghiên cứu đã thực hiện trên thế
Trang 18giới, nghiên cứu này ứng dụng các mô hình thuật toán vào từng bài toán cụ thể nhưbài toán nhận diện hạt cà phê được ứng dụng để có thể bóc tách hạt cà phê từ mộtảnh chụp và các hạt đó được đặt trên tờ giấy A4, bài toán phân loại được thực hiệnsau khi hạt cà phê đã bóc tách ở phần nhận điện dé thực hiện phân loại hạt vừa bóctách đó thuộc 1 trong 12 loại loại hạt nào như mô tả trong bảng 3.1, cuối cùng bài
toán ước lượng khối lượng sẽ ước lượng xem khối lượng của hạt đó là bao nhiêu.Việc chọn lựa mô hình thuật toán được tham khảo từ [12] một khảo sát các mô hìnhphát hiện đối tượng dựa trên học sâu hiện đại, đồng thời mô hình thuật toán đó còn
phải đảm bảo được các tiêu chí và giả định trong nghiên cứu này như mô hình hiện
đại, độ chính xác cao, tốc độ xử lý, ít tốn tài nguyên, dé cài đặt, dé sử dụng, cộng
đồng hỗ trợ mạnh và đặc biệt là có thể xử lý được các đối tượng nhỏ như hạt cà phêthì Yolov5 [1], Faster R-CNN [13] và EfficientNet [14] đáp ứng đầy đủ các van đề
đó Trong phần lấy mẫu giả định rằng tat cả các hat cà phê phải được chọn ngẫunhiên theo từng loại hạt và sẽ được đặt trên mẫu giấy A4 đề chụp ảnh lấy mẫu và
dán nhãn, riêng tập dữ liệu cho bài toán phân loại sẽ phải thực hiện chọn lọc lại
từng hình ảnh của từng hạt, để đảm bảo chúng mang những đặc trưng riêng củatừng loại hạt đó và không có sự nhằm lẫn, số lượng anh trên mỗi lớp cũng phải đảmbảo theo kiến nghị của mô hình như Yolov5 [1] là 1500 ảnh trên mỗi lớp [15]
2.2 Các bài toán trong nghiên cứu
- Bài toán nhận diện đối tượng
Nhận điện là một lĩnh vực thuộc về trí tuệ nhân tạo Khi đó nhận diện mẫu là cókhả năng phát hiện ra sự sắp xếp các đặc tính Trong nhận diện mẫu được chia thành
nhiều lĩnh vực khác nhau bao gồm như phân tích dữ liệu lớn, trí tuệ nhân tạo, bảo
mật và nhận diện sinh trắc học Nhận diện đối tượng trong hình ảnh là một phần
của nhận diện mẫu Chúng được được sử dụng rộng rãi và đang hiện diện trong đời
sống của chúng ta hằng ngày, hằng giờ như nhận diện khuôn mặt, chữ viết, đếm sốngười đi bộ, hệ thông bảo mật, xe không người lái, thiết bị bay không người lái
thông qua việc sử dụng các thuật toán và khái niệm học máy Muhammed Can Keles
và cộng sự [6] trong nghiên cứu “Đánh giá các mô hình YOLO với Sliced Inference
dé phát hiện đối tượng nhỏ” đã tìm ra hiệu suất của các mô hình phát hiện đối tượng
Trang 19dua trên Yolo [5] hiện đại cho nhiệm vụ phát hiện đối tượng nhỏ Họ sử dụng bộ
đữ liệu VisDrone2019Det [6] để đào tạo, đánh giá các mô hình của mình và tập dữliệu này là một thách thức với họ ở chỗ hầu hết các đối tượng đều tương đối nhỏ sovới kích thước hình ảnh Ngoài ra cũng còn rất nhiều mô hình thuật toán khác dénhận diện đối tượng như Faster-RCNN [13], Trong nghiên cứu này cũng sẽ sử
dụng nhận diện đối tượng cụ thê là nhận diện hạt cà phê trong bức ảnh Trong
nghiên cứu này với bài toán nhận diện thì mô hình thuật toán sẽ được sử dụng bằng
là Yolov5 [1] va Faster R-CNN [13] dé nhận diện đối tượng là hạt cà phê và tờ giấy
A4 trong một bức ảnh Sau đó, những kết quả này sẽ được so sánh với nhau để chọn
ra mô hình tốt nhất trên tập dữ liệu được sử dụng trong nghiên cứu này Các phương
pháp đo để đánh giá mô hình cho bài toán nhận diện sẽ sử dụng mAP [16] dé đánh
giá và chọn lựa mô hình.
- Bài toán phân loại đối tượng
Phân loại trong học máy được sử dụng dé phân loại dữ liệu thành các lớp riêng
biệt Đây là một trong những nhiệm vụ phd biến và quan trọng nhất trong học máy,
vì chúng giúp ta dự đoán kết quả của một vấn đề nhất định dựa trên các đặc trưngđầu vào Phân loại là một phương pháp máy học có giám sát trong đó mô hình sẽ
dự đoán chính xác nhãn của đữ liệu đầu vào Theo [17] trong bài toán phân loại,
mô hình được huấn luyện đầy đủ bằng cách sử dụng dữ liệu huấn luyện, sau đó kếtquả mô hình huấn luyện đó sẽ được đánh giá trên tập dữ liệu thử nghiệm trước khichúng được sử dụng để thực hiện phân loại trên tập dữ liệu mới chưa được đánh
giá.
Phân loại trong học máy còn nhằm mục đích xác định loại quan sát thuộc về loại
nào và điều này được thực hiện bằng cách hiểu được mối quan hệ giữa các biến phụ
thuộc và biến độc lập Trong đó, biến phụ thuộc là biến phân loại, còn các biến độclập có thé là số hoặc phân loại (catelogy)
Trên thế giới có rất nhiều nghiên cứu về phân loại hạt nhân cà phê lỗi tiêu biểu
là nghiên cứu của Luis và công sự [7] họ sử dụng Yolov5 [1] để xác định các loại
hạt cà phê Robusta, nghiên cứu của họ đã xác định các loại hạt cà phê như hạt hỏng,
hạt đen và hạt bình thường Họ kết luận rằng kết quả độ chính xác tổng thé của hệ
Trang 20thống có thể được tính toán, mang lại hiệu quả 95,11% trên cả 3 loại hạt Còn tácgiả Mila Jumarlis và cộng sự [8] đã phân loại các lỗi của hạt cà phê bằng cách sửdụng GLCM và K-NN Họ đã triển khai phương pháp GLCM và K-NN để pháthiện lỗi ở hạt cà phê dựa trên hình ảnh Kết quả cho thấy phương pháp có độ chínhxác khi đánh giá hạt cà phê lỗi là 90% Phương pháp này có thé hỗ trợ nông dântrồng ca phê biết được mức độ khiếm khuyết của hạt cà phê từ quá trình trồng trọtcủa họ Và họ sử dụng phương pháp GLCM để trích xuất các đặc trưng của ảnh cà
phê và K-NN để phân loại mức độ lỗi của hạt cà phê Carlito Pinto và cộng sự [9]thì sử dụng mô hình CNN [3] dé phân loại các loại lỗi của hat cà phê Mẫu cà phênhân được dán nhãn thành 6 loại như đen (black), chua (sour), phai (fade), cà phê
Culi (peaberry), hạt hư hại (damage) và hạt bình thường (normal) Kết quả của môhình CNN [3] cho thấy kết quả một số lớp có độ chính xác phân loại tốt trên 90%
và một số lớp khác có độ chính xác phân loại thấp hơn là 72% đối với ảnh màu Môhình này có một số lợi thế để phát hiện đặc trưng trên các hình dạng của hình ảnh,chẳng hạn như các tham số của bộ lọc không gian Tuy nhiên trong phân loại ảnhhạt cà phê sử dụng mô hình CNN [3], đặc tính màu sắc có ảnh hưởng mạnh Còn
nghiên cứu của Ji-Yoon Lee và Young-Seob Jeong [18] trong dự đoán hat cà phê
bị lỗi cũng bằng CNN [3] cho két quả độ chính xác của hạt bình thường là 93% va
độ chính xác của hạt lỗi là 81%.
Vi vậy trong nghiên cứu phân loại hat cà phê nhân này cũng sẽ áp dụng các mô
hình máy học để phân loại hạt cà phê, tìm ra các loại hạt cà phê lỗi Bài toán phânloại sẽ sử dung Yolov5 [1], Faster R-CNN [13] và EfficientNet [14] dé phân loại
12 loại hạt cà phê, kết quả cũng sẽ được so sánh để chọn ra mô hình tốt nhất Cácphương pháp đo dé đánh giá mô hình cho bài toán phân loại sử dụng Precision,
Recall, F1 đê đánh giá và chọn lựa mô hình.
- Bài toán ước lượng khối lượng
Bài toán ước lượng khối lượng của một đối tượng trên một bức ảnh thì cũng có
nhiều nghiên cứu, tiêu biểu là nghiên cứu Yong Piao và cộng sự [10] thì thực hiện
dự báo giá nhà thông qua các hình ảnh và các số liệu liên quan đến ngôi nhà đó
Trong một nghiên cứu khác của tác giả Baohua Zhang và Jun Zhou thì sử dụng
Trang 21phương pháp đo lường không tiếp xúc và tái tạo 3D [11] dé tính ra khối lượng vàtrọng lượng của quả táo, Nghiên cứu của tác giả này, họ đã sử dụng một hệ thốngthị giác máy tính đề đo khối lượng và trọng lượng quả táo không tiếp xúc Ước tínhkhối lượng và trọng lượng của quả táo bằng cách sử dụng phương pháp tái tạo 3D,
xử lý hình ảnh và hồi quy cũng đã được nghiên cứu và phát triển [11] Còn Dmitry
A Konovalov và cộng sự [19] đã ứng dụng CNN [3] dé tính trọng lượng của con
cá bằng hình ảnh có thay độ sai số trung bình cũng rất thấp nhưng đây là ứng dụng
trí tuệ nhân tạo trong nuôi trồng thủy sản
Vi vậy việc sử dụng mô hình trí tuệ nhân tạo dé giải quyết bài toán ước lượngkhối lượng là hoàn toàn khả thi Và dé giải quyết bài toán về ước lượng khối lượngtrong nghiên cứu này sẽ sử dụng mô hình CNN [3] dựa trên các đặc trưng đầu vào
là hình anh của hạt cà phê và các đữ liệu số dé có thé ước lượng ra khối lượng củacác hạt đó Bài toán ước lượng khói lượng thì sử dụng CNN [3] để ước lượng khốilượng 12 loại hạt trên một bức ảnh Những kết quả tốt nhất của các bài toán trên sẽđược chọn và áp dụng vào xây dựng một công cụ có thê phân tích chất lượng vàđịnh giá thu mua cà phê Các phương pháp đo để đánh giá mô hình cho bài toán
ước lượng khối lượng là MAE, MSE, RMSE, MAPE, R? dé đánh giá và lựa chọn
mô hình.
Trang 22CHƯƠNG 3 GIẢI PHÁP ĐÈ XUẤT
3.1 Quy trình xử lý chung
Trong nghiên cứu [20] việc thu thập, dán nhãn, xử lý dữ liệu, tăng cường dữ
liệu, thay đổi kích thước hình ảnh dé phát hiện, phân loại và ước lượng hạt cà phê
được trải qua các bước và được minh họa trong hình 3.1 Quy trình xử lý chung
gồm 4 bước chính được mô tả chỉ tiết như sau:
Bước 1 - Chuẩn bị tập dữ liệu: Dữ liệu về hat cà phê sẽ được thu thập, xử lý,dán nhãn, tăng cường dữ liệu, điêu chỉnh kích cỡ ảnh trước khi đưa vào huấn luyện
cho các phần nhận diện, phân loại và ước lượng khối lượng hạt cà phê.
Bước 2 — Nhận diện hạt cà phê: Dữ liệu huấn luyện sẽ lấy từ tập dữ liệu sau đóđưa vào huấn luyện dé ra mô hình, từ mô hình sẽ đưa vào dự báo dé nhận diện hạt
cà phê và tờ giấy A4 trên bức ảnh
Bước 3 - Phân loại cà phê: Ở bước này bộ dữ liệu huấn luyện sẽ được lấy từ tập
dữ liệu đã được chuẩn bị ở bước 1 dé đưa vào huấn luyện nhằm tìm ra mô hìnhphân loại 12 loại hạt cà phê Dữ liệu đầu vào dé mô hình phân loại sẽ được lay từ
bước 2.
Bước 4 — Ước tính khối lượng hạt: Trong bước này dữ liệu dé huấn luyện cho
mô hình ước lượng sẽ được lấy từ bước 1 Khi ta đã có mô hình ước lượng của 12loại hạt thi dit liệu đầu vào dé dự báo khối lượng hat sẽ được lấy từ bước 3
Trang 23= — , ăn 2i hề : : h Điêu chỉnh
3 Thu thập dữ Dan nhãn dữ| Tiên xử lý L | Tang cường >| kích thước
a liệu liệu di liệu dir liệu R
Một số lượng lớn các hạt được quan sát và chọn lọc bằng mắt thường dựa theo
các tiêu chí của tài liệu đặc tả, từ đó thu được tập dữ liệu hạt chính xác.
Trong nghiên cứu [20] mẫu dữ liệu được chọn lựa 12 loại hạt dựa theo tài liệucủa các chuyên gia trong ngành biên soạn, sau đó các mẫu hạt đó sẽ được chụp trên
mẫu giấy A4 theo từng loại hạt riêng biệt ở định dạng mô hình màu RGB Để tạomột bộ đữ liệu có thé tiến hành huấn luyện được thì số lượng hạt cho từng loại hạtphải rất lớn Đề tiết kiệm thời gian và công sức, cũng như đỡ nhằm lẫn trong việc
chụp và cho bước dán nhãn thì các ảnh sẽ được thực hiện dựa trên từng loại hạt và
chụp nhiều hạt trên một tắm ảnh
Trang 24Hình 3.2 Các mẫu hạt đã được phân loại bởi các chuyên gia
Để chuẩn bị cho các bước chụp lấy mẫu cần có các thiết bị như sau điện thoại
di động (có độ phân giải trên 3 Megapixel), giấy A4, cân tiểu ly (sai số 0.05g) décân khối lượng cà phê
Hình 3.3 Các dụng cụ thiết bị cho quá trình chụp ảnh lấy mẫu
Trang 25Tổng số lượng ảnh chụp được là 1.528 ảnh thuộc 12 lớp (loại hat) lần lượt là
good, mold, partlyblack, bigbroken, black, broken, brown, cherry, heavyfm, immature, insect và lightfm.
Tập dữ liệu với chi tiết về từng loại hat được trình bày trong bảng dưới day,
bang này được mô tả bởi các chuyên gia của một công ty thu mua và xuất khâu caphê tại Thành phố Hồ Chí Minh:
Tên hạt Tên label Miêu tả Hình ảnh
Hạt tốt GOOD Hat đạt yêu cầu, có mau nâu chuẩn và
hình dạng đẹp
Tap nặng HEAVYFM Không phải hạt cà phê, các vật thé có
thể bị lẫn vào trong quá trình thu gom
và có khối lượng khá lớn, ví dụ: đất,cành cây, v.v.
Tạp nhẹ LIGHTEM Các vật thể không phải hat ca phê, có |
khôi lượng rât nhẹ như lá cây, vỏ hạt
cà phê, v.v.
Cherry CHERRY Hạt cà phê đã phơi khô nhưng chưa
được xay và còn trong vỏ.
Hạt mốc MOLD Những hạt cà phê bị mốc trắng bên
ngoài.
Hạt đen BLACK Những hạt cà phê bị đen toàn bộ hạt.
Hạt đen PARTLYBLACK | Những hạt cà phê bị đen một phần hạt.
Trang 26Hạt sâu INSECT Những hạt bị côn trùng hoặc sâu ăn,
có lỗ nhỏ.
Hạt non IMMATURE Những hạt non, teo lép, da nhăn nheo _
Bảng 3.1 Mô tả chỉ tiết về từng loại hạt cà phê [20]
Sau khi đã có đầy đủ các ảnh chụp của 12 loại hạt thì sẽ tiến hành bước dán nhãn cho
các hạt trên từng ảnh và phần mềm được sử dụng cho việc này là Labellmg, một phần
xihdDe-eeeicegrEveCme
rom anew box x 135;¥ 500
Hình 3.4 Sử dung phần mềm Labellmg dé dán nhãn cho từng hạt trên ảnh
3.2.2 Tiền xử lý dữ liệu
Trước khi đưa vào nhận diện và phân loại, tập dit liệu được tiền xử lý với cácphương pháp bao gồm: tăng cường dữ liệu (các phép thực biện các biến đổi hình
học như dịch hình ảnh một cách ngẫu nhiên, xoay, lật, cắt; chuyển đổi không gian
màu như giảm hoặc tăng bất kỳ màu nào, tăng độ sắc nét, thay đổi các kênh màu
RGB, tăng tính tương phản; thêm nhiễu ngẫu nhiên, nhiễu có mau, nhiễu do nénảnh; xóa ngẫu nhiên như xóa ngẫu nhiên một phần của hình ảnh gốc), điều chỉnhkích thước hình anh (resizing image), và chuẩn hóa dit liệu (data normalization)
Đầu tiên, tăng cường đữ liệu giúp mô hình không bị quá khớp (overfitting) và cải
Trang 27thiện hiệu suất của mô hình Tập dit liệu không cân bằng này sẽ được thực hiện một
số kỹ thuật nâng cao như đảo ngược hình ảnh sang trái và phải, xoay hình ảnh, thuphóng ảnh và cắt xén ảnh Tiếp theo, dữ liệu sẽ được thay đổi kích thước hình ảnh.Tất cả các ảnh khi đưa vào huấn luyện mô hình dé dự báo khối lượng đều được thayđổi kích thước theo kích thước A4 (1.240 x 1.754) trước khi cắt các hạt ra khỏi bức
ảnh Đồng thời kích thước mỗi hạt sẽ được đưa về 64x64 dé làm input đầu vào cho
mô hình huấn luyện Kích thước đầu vào của mô hình EfficientNet [14] (dùng trong
phân loại hạt) là 300 x 300 ở mỗi hạt.
Cuối cùng là chuẩn hóa dữ liệu Điều này có những ưu điểm như ta có thê giớihạn phạm vi dữ liệu trong phạm vi mong muốn, giúp việc học nhanh hơn và giảmkhả năng rơi vào tình trạng tối ưu hóa cục bộ [18]
3.3 Chỉ tiết xử lý đề xuất
3.3.1 Nhận diện hạt cà phê
3.3.1.1 Mô hình nghiên cứu
Trong [20] bài toán nhận diện hạt cà phê ta sử dụng là Faster R-CNN [13],
Yolov5 [1] và số lượng lớp output là 2 lớp (Cafe và A4) Dé thực nghiệm và lựachọn xem mô hình nào là mô hình tốt nhất đề có thể ứng dụng vào bài toán nhận
điện hạt cà phê trong nghiên cứu này, ngoài việc tham khảo các mô hình thuật toán
đã ứng dụng tương tự nhận diện và phân loại hạt cà phê trên thế giới như trong bài[7] của tác giả Luis, nghiên cứu của tác giả Luis này tương đồng trong nghiên cứu
này dé là nhận diện và phân loại hạt cà phê Robusta, ngoài ra để chọn lựa thêm các
mô hình hiện đại cho việc nhận diện đối tượng nghiên cứu còn tham khảo thêm [12]
của tác giá Zaidi, vì thế ta chọn 2 mô hình nhận diện đối tượng là YolovS [1] vàFaster R-CNN [13] để có thể thực hiện so sánh và chọn mô hình tốt nhất cho bài
toán này.
- Yolov5 [1]: Yolo [5] là một thuật toán dùng phát hiện và nhận dạng các đối
tượng khác nhau trong một bức ảnh theo thời gian thực Nó được ứng dụng và
sử dụng nhiều trong các ứng dụng lĩnh vực khác nhau, trong đó có nông nghiệpnhư phát hiện bông lúa mì [21], phát hiện hạt cà phê lỗi [7] Yolo [5] có nhiều
phiên bản khác nhau, khi thực hiện nghiên cứu này thi Yolo [5] đã có phiên ban
Trang 28thứ 5 là Yolov5 [1] Nó được phát hành bởi một công ty có tên là Ultralytics [1],
nó dựa vào Yolov1 — Yolov4 và có một số cải tiến đáng kể so với các phiên bảntrước đó [22] Thực tế mô hình này đã được sử dụng ở một số ứng dụng với kếtquả hiệu quả bước đầu mang lại độ tin cậy cho mô hình [23], [24] Ngoài ra nócũng đạt được hiệu suất cao nhất do những cải tiến trên hai tập dữ liệu là
PascalVOC [25] và Microsoft COCO [26] Kiến trúc mạng Yolov§ [1] đượctrình bảy như trong hình 3.5 Ngoài kế thừa những nghiên cứu đã thực hiện trướcđây [7] tương tự thì mô hình này còn đã đáp ứng tốt các yêu cầu trong nghiên
cứu nay như Yolov5 [1] đã thực hiện kết hợp mạng CSP(CSPNeÐ [27] vào
Darknet để tạo ra một khung xương chính (Backbone) của nó, giúp giảm số
lượng tham số và số phép toán dấu phây động trên giây (FLOPS) của mô hình,điều này không chỉ giúp đảm bảo được tốc độ suy luận, độ chính xác mà còngiảm kích thước của mô hình xuống Trong nghiên cứu này việc người thu mua
sử dụng một thiết bị di động để phân tích mẫu chụp được thì tốc độ phân tích vàtrả lời phản hồi từ máy chủ về thiết bị di động người thu mua phải nhanh chóng
và chính xác là điều rất quan trọng, kích thước mô hình nhỏ gọn cũng giúp tănghiệu quả suy luận trên những phần cứng hạn chế Mô hình này còn áp dụngmạng PANet (tổng hợp đường dẫn) [28] làm cổ (Neck) dé tăng cường luồng
thông tin, tăng độ chính xác vị trí của vật thé Phần cuối cùng của kiến trúc mang
này là phần đầu (Head) tức là Yolo layer sinh ra 3 kích thước khác nhau củafeature map đề đạt được dự báo nhiều tỷ lệ khác nhau [29] điều này đã giúp cho
mô hình có thể xử lý các vật thể nhỏ, vừa và lớn Một hạt cà phê trên một bứcảnh lớn và các hạt cà phê trong cùng một bức ảnh thì có nhiều loại kích thướchình dạng khác nhau điều này phải bảo đảm rằng mô hình có thé nhận diện phânloại nhiều tỷ lệ hạt cà phê lớn nhỏ khác nhau trong một bức anh Mô hình YolovS[1] hỗ trợ 5 phiên bản như YolovSn, Yolov5s, Yolov5m, Yolov5l, Yolov5x đểchọn lựa phiên bản phủ hợp còn phải tùy thuộc vào tài nguyên dé huấn luyện và
chạy mô hình, trong đó mô hình Yolov51 và Yolov5x dành cho tài nguyên cao hon, 3 mô hình còn lại là Yolov5n, YolovSs và YolovSm dành cho các máy có
tài nguyên ít hơn, trong nghiên cứu này do hạn chế về tài nguyên và thời giannên chúng tôi chọn mô hình Yolov5m để triển khải do cân bằng giữa 4 mô hình
Trang 29còn lại gồm thời gian huấn luyện, tài nguyên và độ chính xác Hình dưới đây là
các phiên bản trong Yolov5 [1] được chạy thử nghiệm trên bộ dữ liệu MS COCO
[26] được thể hiện qua 3 giá trị là kích thước mô hình, tốc độ xử lý và giá trị
mAP ở mỗi mô hình
TƯ NG
Small Nano
YOLOv5m YOLOväl YOLOv5x
41 MB _89MB, _168 MB
8.2 ms.„ TƠ.T ms, 65 12.T rñS
45.2 mAP, 48.8 mAP, 50.7 mAP,
coco
Hình 3.5 Các phiên bản của Yolov§ [15]
Backbone: CSPDarknet Neck: PANet
( cspa) Cross Stage Partial Network
(=2 Spatial Pyramid Pooling
Hình 3.6 Kiến trac mạng của Yolov5 [30]
Convolutional Layer
- Để có thể thực hiện so sánh độ chính xác và mức độ hiệu quả trong các bài toán
của nghiên cứu này vì vậy cần có thêm một mô hình khác ngoài Yolo [5] ra thì
nghiên cứu này chọn Faster R-CNN [13], tại sao lại chon Faster R-CNN [13]
Trang 30bởi vì mô hình này đã được thực nghiệm trên tập dữ liệu có nhiều đối tượng từnhỏ, trung bình và lớn cho kết quả rất tốt và nó hoạt động gần như là một môhình theo thời gian thực [12], điều này cho thấy rằng mô hình này có tốc độ xử
lý nhanh và có thể áp dụng vào nhận diện các đối tượng nhỏ như hạt cà phê Nócũng được sử dụng phổ biến nhiều trong các ứng dụng nông nghiệp [31], [32].Faster RCNN [13] được cải tiến dựa trên 2 mô hình trước đó là RCNN [33] và
Fast RCNN [34] Kiến trúc mạng Faster R-CNN [13] này gồm hai đun: đun đầu tiên là một mạng tích hợp sâu đầy đủ đề xuất các vùng (Region ProposalNetwork - RPN) và mô-đun thứ hai là mô hình Fast R-CNN [34] sử dụng các
mô-vùng được dé xuất ra Toàn bộ hệ thống là một mạng thống nhất, duy nhất để
phát hiện đối tượng Dưới đây là toàn bộ kiến trúc mạng Faster R-CNN [13] sẽ
được sử dụng trong nghiên cứu này.
Trang 31For Fach Spat
ïN
l Featuie Feature Maps;
k Extract Features “Vga, Projected Region Classification
P: Proposals
Hình 3.8 Kiến trúc chi tiết mô hình Faster R-CNN nhận diện hat cà phê
Trong Faster RCNN [13], tác giả có đề xuất sử dụng một mạng các vùng đề xuất gọi
tắt là RPN (Region Proposal Network) dé tạo ra các vùng dé xuất cho các đối tượng.Sau khi đã thực hiện trích xuất đặc trưng từ các lớp tích chập (convolutional) đầu tiên,mạng RPN sẽ sử dụng cửa số trượt trên bản đồ đặc trưng (còn gọi là feature map) đểrút trích đặc trưng cho mỗi vùng sẽ đề xuất RPN được là một mạng liên kết đầy đủ đểcùng lúc thực hiện 2 nhiệm vụ là dự báo được tọa độ cho các đối tượng và độ tin cậycho đối tượng đó (objectness score) Vì vậy so với các phương pháp trước đó là RCNN[33] và Fast RCNN [34] thì Faster RCNN [13] đạt kết qua cao hơn và có thời gian xử
lý nhanh hơn.
Trong phần backbone của mô hình Faster R-CNN [13] thì nghiên cứu này sử dụng mô
hình ResNet (Residual Neural Network) [35], tại sao nghiên cứu này lại chọn ResNet
bởi vì theo một nghiên cứu “Các backbone của mạng tích chập cho nhận diện đối
tượng” [36] trên tập dữ liệu ImageNet [37] thì ResNet [35] là mạng có độ chính xác
cao để trích xuất feature map ResNet [35] có 3 phiên bản là ResNet-50, 101, 152 layer,trong nghiên cứu này cần tốc độ xử lý nhanh, tài nguyên triển khai ít và đạt hiệu quảtốt nên ta sẽ chọn ResNet-50 để triển khai thực nghiệm với 3.8 tỷ FLOPS nhanh hơnnhiều so với 2 mô hình còn lại lần lượt là 7.6 tỷ FLOPS và 11.3 tỷ FLOPS Hình dướiđây là kiến trúc mạng ResNet-50 [35], dé tìm hiéu rõ hơn chỉ tiết về mạng ResNet [35]
có thể đọc thêm bài báo “Học sâu phần dư cho nhận diện hình ảnh” của tác giả Kaiming
He và cộng sự [35] Thông thường những kiến trúc mạng trước đây đề tăng độ chính
Trang 32xác người ta thường sẽ tăng chiều sâu của mạng CNN [3] và các thực nghiệm cho thấyrằng nếu tăng chiều sâu đến một ngưỡng nào đó thì độ chính xác sẽ dẫn đến bão hòahoặc cũng có thể làm giảm độ chính xác xuống thấp hơn vì khi đi qua rất nhiều lớp độsâu sẽ làm thông tin gốc ban đầu cũng sẽ giảm theo nhóm tác giả [35] họ đưa ra một kỹthuật kết nối tắt dé giải quyết van đề nay.
ImageNet [37] và cho kết qua rat kha quan
3.3.1.2 Tiêu chi đánh giá bài toán nhận diện
Theo Rafael Padilla và cộng sự [16] trong bài nghiên cứu khảo sát về các tiêuchí đánh giá hiệu suất của các thuật toán nhận diện đối tượng thì có rất nhiều tiêuchí, trong đó tiêu chí đơn giản nhất là mAP Và trong nghiên cứu này tiêu chí mAP
sẽ được để đánh giá cho bài toán nhận diện hạt cà phê, mAP được trình bày theo
công thức bên dưới:
Công thức tính độ chính xác trung bình (mAP):
Trang 33Còn P„erp(Œr) thì được tính bằng công thức:
PinterP(T) = maXrz >r PT)
Và p(f) là độ chính xác (precision) được do tại độ phủ (recall) F
3.3.2 Phân loại hạt cà phê
3.3.2.1 Mô hình nghiên cứu
Đối với bài toán phân loại thì [20] nghiên cứu sử dung Faster R-CNN [13],
Yolov5 [1] và EfficientNet [14] dé phân loại 12 lớp ca phê (chi tiết xem bảng 3.1)
Mô hình Yolov5 [1] và Faster R-CNN [13] không chỉ áp dụng trong bài toán nhận
diện mà còn có thể ứng dụng vào bài toán phân loại chỉ tiết về 2 mô hình này và tại
sao lại lựa chọn chúng dé áp dụng vào trong nghiên cứu này đã được trình bay trongphan 3.3.1 nhận diện hat ca phê
Tiếp theo trong nghiên cứu này của bài toán phân loại sẽ chọn thêm một mô
hình thuật toán khác nữa là EfficientNet [14] Nó được tạo bởi một nhóm nghiên
cứu của Google [14] họ xây dựng một mô hình mới từ gốc CNN [3], họ gọi mô
hình CNN [3] mới này là EfficientNet [14] Mô hình này không chỉ giúp làm tăng
độ chính xác mà còn cải thiện hiệu suất của mô hình bằng cách giảm số tham số và
FLOPS (số phép toán dấu phay động trên giây) Họ thiết kế kiến trúc cơ sở đơn giảntên là EfficientNet-B0 [14] và phương pháp mở rộng kết hợp (compound scaling)một cách đơn giản nhưng hiệu quả cao, điều này giúp tăng kích thước mô hình để
có thể đạt được độ chính xác cao nhất Chúng ta cũng có thể dễ đàng mở rộng mộtConvNet cơ sở để đáp ứng được các mục tiêu về giới hạn tài nguyên của hệ thôngmột cách có nguyên tắc hơn Và họ cũng đã chứng minh rằng EfficientNet [14] kíchthước di động có thể được mở rong rất hiệu quả ngay trên bộ đữ liệu lớn nhưImageNet [37] Với những ứng dụng để triển khai cho người thu mua thì thời gianphản hồi nhanh, độ chính xác cao thì mô hình EfficientNet [14] là một lựa chọn tốttiếp theo sau Yolov5 [1], Faster R-CNN [13] cho nghiên cứu này
Trang 34Stage Operator Resoluton | #Channels | #Layers
9 Conv1x1 & Pooling & FC 7x7 1280 1
Hình 3.10 Kiến trúc của EfficientNet-B0 [14]
|
ly resolution HxW '
'
{ h
(a) baseline (b) width scaling
a ĐNG -„-higher deeper cs 4 resolution
i (e) compound scaling
i i
i
' -f higher
tụ | š resolution
(©) depth scaling (d) resolution scaling
Hinh 3.11 Model Scaling [38]
Trong đó: (a) là mang cơ sở; (b)-(d) mở rộng chiều của mạng như chiều rộng,chiều sâu hoặc độ phân giải; (e) mở rộng kết hợp [14]
Trang 35Theo tác giả [14] có thể mở rộng theo 3 chiều: chiều sâu (depth), chiều rộng(width), độ phân giải ảnh (resolution) Việc mở rộng theo chiều sâu của mạng CNN[3] tương ứng với tăng giảm số layer trong mạng, nếu lạm dụng mở rộng theo chiều
sâu mạng cũng không cải thiện được hiệu quả mà có khi còn giảm hiệu quả của mô
hình Mở rộng theo chiều rộng liên quan đến số nơ-ron trong mỗi layer hoặc số
filters trong mỗi Conv layer, điều này giúp cho các layer hiểu được chỉ tiết các đặc
trưng Độ phân giải cao giúp các đặc trưng có chỉ tiết rõ ràng hơn giúp nâng cao
khả năng suy luận của mô hình về các đối tượng nhỏ và trích xuất được các mẫu
cũng tốt hơn EfficientNet [14] cũng có nhiều phiên bản mô hình khác nhau từ
EfficientNet-B0 đến EfficientNet-B7 đã được thực nghiệm trên bộ dit liệu ImagNet
[37] kết quả như sau:
4) NASNet-A EfficientNet-B7 844% 66M
$ Not 4 ‘Not plotted
lesNet-0 2lesNet-0 4lesNet-0 6lesNet-0 8lesNet-0 1lesNet-0lesNet-0 12lesNet-0 14lesNet-0 16lesNet-0 18lesNet-0
Number of Parameters (Millions)
Hình 3.12 Kích thước mô hình và độ chính xác trên tap ImageNet [14]
Việc chọn mô hình nào để triển khai mô hình EfficientNet [14] cũng đều candựa vào yếu tố hiệu suất và thời gian chạy của mô hình đối với nghiên cứu Khi
Trang 36nhìn vào bảng kết quả của hình 3.12 ta quyết định bước đầu sẽ chọn B3 [14] để triển khai thực nghiệm trong nghiên cứu này bởi mô hình này đáp ứngđầy đủ các yếu tố lựu chọn mô hình tại thời điểm thực hiện nghiên cứu này.
Image Ele lolz 6 6 8
SIZ |sls 1Bla |Ble |s|s |#s|5 |g| |s s
Š |ŠSlŠ [ele |ElšS |E|ŠS|šE|š |šEIR|E|8 |š
3.3.2.2 Tiêu chí đánh giá cho bài toán phân loại
Theo Vujovic và cộng sự [40] thì chỉ số đánh giá mô hình phân loại có rất nhiều
loại khác nhau áp dụng trong các bài toán phân loại khác nhau, trong đó có
precision, recall, F1 là các chi số đánh giá đơn giản nhưng hiệu qua
Trong bài toán phân loại thì lớp dir liệu quan trong là lớp dương (Positive), lớp
còn lại là lớp âm (Negative) Để thực hiện đánh giá cho bài toán phân loại các loại
hat cà phê trong nghiên cứu nay, ta sử dụng độ do 1a precision, recall, Fl với các công thức như sau:
TP là số phần tử dương đã được phân loại dương
FN là số phan tử đương đã được phân loại âm
TN là số phần tử âm đã được phân loại âm
FP là số phần tử âm đã được phân loại đương
Trang 37Precision là tỷ lệ số phần tử TP trong số những phần tử được được phân loại
là positive (TP + FP)
Recall là tỷ lệ số phần tử TP trong số những phần tử thực sự là positive (TP +
FN)
F1 là chỉ số cân bằng giữa độ chính xác và độ bao phủ Nếu mà trong đó độ
chính xác và độ bao phủ cao được cân bằng thì Fl lớn, còn khi độ chính xác
và độ bao phủ nhỏ mà không cân bằng thì F1 nhỏ Vì vậy khi F1 có giá trị
càng cao thì khi đó bộ phân lớp sẽ cảng tốt
3.3.3 Ước lượng khối lượng hat cà phê
3.3.3.1 Mô hình nghiên cứu
Phần ước lượng khối lượng hạt cà phê ta sử dụng CNN [3], kiến trúc truyềnthống của một mạng CNN [3] là một mạng nơ-ron tích chập, dạng mạng nơ-ronđược cấu thành bởi các tầng sau:
— Input image Convolutions Pooling Fully Connected
Hình 3.14 Kiến trúc truyền thống của một mang CNN [20]
Tầng tích chập và tang pooling có thé được hiệu chỉnh theo các siêu tham số
(hyperparameters) [41].
Mô hình này chủ yếu bao gồm ba loại cấu trúc phân cấp, đó là lớp tích chập, lớptong hợp và lớp kết nỗi day đủ Lớp tích chập là lớp quan trọng nhất trong cầu trúccủa mô hình Một CNN [3] cơ bản thường có một số lớp tích chập, đây là điểm khácbiệt quan trọng nhất so với mạng nơ-ron thần kinh bình thường Chức năng của lớptích chập là trích xuất các tính năng Nằm sau lớp tích chập là lớp tổng hợp Chứcnăng chính của nó là nén đữ liệu, tăng tốc quá trình huấn luyện các tham số và ngănchặn quá khớp Lớp kết nối đầy đủ (Full connection layer) thường nằm ở cuối toàn
bộ mạng, có chức năng chủ yếu là chuyền đổi các tính năng thành dạng mà bộ phân
Trang 38loại yêu câu.
Activation function cũng là một phần không thể thiếu của CNN [3], được sửdụng để kích hoạt các đặc tính của nơ-ron, sau đó giữ lại và lập bản đồ cho chúng
Một mô hình mạng thần kinh kết nối đầy đủ (a full connection neural networkmodel) với hai lớp tích chập được xây dung, với cấu trúc dropout được thêm vào
để ngăn chặn quá khớp Bằng cách định nghĩa lại hàm mắt mát (loss function), môhình CNN [3] dành cho các vấn dé đa phân loại được chuyền đổi thành mô hìnhmạng để dự đoán hồi quy giá trị liên tục [10]
Trong nghiên cứu này CNN [3] được chọn bởi vì đây là một mô hình học sâu
được sử dụng phổ biến dé xử lý các công việc liên quan đến hình ảnh và video
Mô hình được thiết kế đề tự động học và trích xuất các đặc trưng từ đữ liệu đầu
vào như hình ảnh bằng cách sử dụng lớp tích chập va pooling Tuy nhiên, dé các
mô hình CNN [3] hoạt động hiệu quả, một số giả định (assumption) nhất định về
dé liệu đầu vào cần được xem xét Giả định thứ nhất về kích thước dữ liệu yêu
cầu đầu vào có kích thước hoặc độ phân giải cố định Giả định này được sử dụngtrong kiến trúc và thiết kế của CNN [3], trong đó các kích thước của dữ liệu đầu
vào và các bộ lọc trong các lớp tích chập được xác định trước và bất kỳ dit liệu
đầu vào nào có các kích thước khác nhau cần được xử lý trước để phù hợp vớikích thước cô định này Đây là ly do trong nghiên cứu này, quy trình thu thập vàtiền xử lý dữ được thực hiện bao chuẩn hóa kích thước và độ phân giải của hìnhảnh hạt cà phê trên một tờ giấy A4 là kích thước đã biết trước, sau đó các ảnhmẫu được thay đổi kích thước về kích thước đã định trước Ngoài ra, các mô hìnhCNN [3] gia định về đữ liệu có tính đừng (stationary), tính bat biến theo không
gian (partial invariance), nghiên cứu này thu thập mẫu và xử lý hình ảnh mẫu hạt
cà phê với nhiều loại, nhiều thời điểm và điều kiện môi trường khác nhau nhằmtối đa hóa đáp ứng các giả định này nhiều nhất có thể
3.3.3.2 Tiêu chí đánh giá cho bài toán ước lượng khối lượng
Theo Steurer và cộng sự [42] để đánh giá cho hiệu suất của máy học thì có nhiềutiêu chí nhưng trong nghiên cứu này được sử dụng các chỉ số đánh giá mô hình như
sau:
Trang 39MAE: trung bình sai biệt tuyệt đối, với công thức như sau:
9 là giá trị dự báo của y
y là giá trị trung bình của y
3.4 Các kỹ thuật xử lý hiện tượng mô hình bị quá khớp
Dé ngăn ngừa hiện tượng mô hình trở nên quá khớp, ngoài việc thu thập dữ liệu
với kích thước mẫu phù hợp, thực hiện tăng cường dữ liệu như đã trình bày ở mục
ở Mục 3.2.2, nhiều kỹ thuật khác có thể được sử dụng như kỹ thuật quy chuẩn hóa(regularization) mô hình, kỹ thuật tắt ngẫu nhiên một số nút trong mô hình(dropout), kỹ thuật kiểm tra chéo (cross-validation), Cac kỹ thuật này sẽ thườngđòi hỏi phải có một nền tảng kiến thức chuyên sâu về việc lập và xây dựng các môhình học sâu Xét dưới góc độ đơn giản giúp cho người sử dụng có thé dé dàng hiểu
và nhanh chóng áp dụng được trong các công việc nghiên cứu của mình [43] Trong
phạm nghiên cứu này, hai thuật toán có tính hiệu quả cao, thường được sử dụng phổ
Trang 40biến và rat dé hiéu là kỹ thuật dừng sớm (gọi tắt ES) và kỹ thuật nhớ mô hình (gọitắt MC) được giới thiệu và ứng dụng trong nghiên cứu này.
3.4.1 Kỹ thuật dừng sớm
Trong nghiên cứu này, kỹ thuật đừng sớm được ứng dụng dé tránh xảy ra hiệntượng quá khớp khi số epoch quá lớn sẽ dẫn đến độ chính xác của mô hình trongtập kiểm tra bị giảm đi Vì vậy, có một cách đơn giản đề xử lý vấn đề này là ngườinghiên cứu cần phải tim ra được một thời điểm thích hợp đề có thể đừng việc huấnluyện lại đảm bảo mô hình thu được có sai số đối với tập kiểm tra là nhỏ nhất Kỹ
thuật này được gọi là kỹ thuật dừng sớm Dé triển khai kỹ thuật dừng sớm một cách
có hiệu qua và chính xác thì tap dit liệu nên được chia thành 2 tập là một tập huấnluyện và hai là tập kiểm định Khi thực hiện quá trình huấn luyện mô hình, độ chínhxác của mô hình thu được sẽ phải liên tục thực hiện đánh giá dựa trên tập kiểm địnhnhằm tìm ra thời điểm nào dừng là hợp lý nhất [43] Quá trình huấn luyện sẽ dừngkhi mà giá trị loss của mô hình hiện tại trên tập kiểm định lớn hơn giá tri loss tương
ứng ở vòng lặp đã thực hiện trước đó.
3.4.2 Kỹ thuật nhớ mô hình
Kỹ thuật nhớ mô hình được hiểu như sau: sau khi kết thúc một bước lặp mô hìnhtìm được trước đó sẽ được ghi nhớ lại, bước lặp tiếp theo nếu mô hình tìm được giátrị mới tốt hơn mô hình ở bước lặp trước thì mô hình mới sẽ được ghi nhận lại nhằmthay thế cho mô hình cũ trước đó Một mô hình mới được đánh giá tốt hơn mô hình
cũ nếu giá tri loss thực hiện trên tập kiểm định của mô hình mới nhỏ hơn mô hình
cũ Và với cách thức thực hiện này mô hình được ghi nhớ cuối cùng sẽ là mô hình
có giá tri loss đối với tập kiểm định là nhỏ nhất Nếu so với kỹ thuật dừng sớm thì
kỹ thuật nhớ mô hình sẽ đảm bảo mô hình tìm được là mô hình tốt nhất hiện tại
Tuy nhiên với kỹ thuật này thì có số lần lặp lớn hơn rất nhiều đều này sẽ dẫn đếnthời gian để huấn luyện mô hình sẽ dài hơn Đồng nghĩa điều này có thé là một van
đề nghiệm trọng khi ta thực hiện trên các mô hình lớn mà khi đó thời gian huấnluyện là rất dài Nhằm khắc phục van dé này, ta có thé thực hiện kết hợp hai kỹ
thuật dừng sớm và kỹ thuật nhớ mô hình, khi đó kỹ thuật dừng sớm đóng vai trò sẽ
dừng việc huấn luyện mô hình lại khi việc huấn luyện mô hình không có sự cải tiếnnao đáng kề, còn kỹ thuật nhớ mô hình sẽ đóng vai trò ghi nhớ lại mô hình nào là