Chính vì vậy, mục tiêu của nghiên cứu này nhằm nâng cao độ chính xác phân loại của 17 giống lúa có quan sát bên ngoài hạt lúa khá giống nhau về màu sắc được trồng ởViệt Nam.. Bên cạnh ph
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA.
TRAN THỊ KIM NGA
NGHIÊN CỨU NÂNG CAO ĐỘ CHÍNH XÁC PHAN LOẠI
GIONG LUA THONG QUA ANH HAT LUA
LUẬN AN TIEN SĨ
TP HO CHÍ MINH - NAM 2024
Trang 2ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA.
TRAN THỊ KIM NGA
NGHIÊN CỨU NÂNG CAO ĐỘ CHÍNH XÁC PHAN LOẠI
GIONG LUA THONG QUA ANH HAT LUA
Chuyên ngành: Kỹ thuật Điện tir
Trang 3LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả Các kết quảnghiên cứu và các kết luận trong luận án nảy là trung thực, và không sao chép từ bắt
kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc tham khảo các nguồn tài liệu(nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định
Tác giả luận án
Trần Thị Kim Ngà
Trang 4TÓM TẮT LUẬN
Mỗi giống lúa sẽ thích hợp với điều kiện gieo trồng như khí hậu, thé nhưỡng nhấtđịnh Nên việc chọn giống lúa phù hợp với điều kiện sinh trưởng là một trong nhữngbước quan trọng góp phần nâng cao năng suất và chất lượng của vụ mùa Tuy nhiên,nhiều giống lúa mới được tạo ra dé thích ứng với các thay đổi như khí hậu, sâu bọ vàdịch bệnh, v.v nên chúng trở nên ngày càng đa dạng Bên cạnh các giống lúa với quansát bên ngoài của hạt giống có sự khác nhau rõ ràng, thì có một số giống lúa khá giốngnhau về màu sắc, hình dạng, bể mặt, v v của hạt lúa nên dé gây nhằm lần với nhau.Điều này dẫn đến dễ chọn nhằm giống lúa và vi vậy năng suất và chất lượng của vụmùa không cao Do đó, việc nâng cao độ chính xác phân loại cho các loại giống lúa cóquan sát bên ngoài tương tự nhau trở nên vô cùng can thiết
Chính vì vậy, mục tiêu của nghiên cứu này nhằm nâng cao độ chính xác phân loại của
17 giống lúa có quan sát bên ngoài hạt lúa khá giống nhau về màu sắc được trồng ởViệt Nam Qua việc tìm hiêu các nghiên cứu đã có về phân loại lúa, kỹ thuật xử lý ảnhđược áp dụng dé trích xuất đặc trưng của hạt lúa và sau đó kết hợp với các phương
pháp máy học như mạng nơ ron nhân tạo (ANN), máy vector hỗ trợ (SVM), Random
Forest (RF), v v Bên cạnh phương pháp truyền thống này, việc áp các mô hình mạng,
nơ ron tích chập (CNN) với dữ liệu ảnh lúa trực tiếp mà không cần trích chọn đặc
trưng cũng đạt được độ chính xác phân loại khá cao.
Trong nghiên cứu này, ảnh hạt lúa của 17 giống lúa phần lớn được trồng ở đồng bằngsông Cửu Long được thu bằng máy quét có độ phân giải cao Sau đó, ba cơ sở dữ liệuđược xây dựng để phân loại 17 giống lúa Tập dữ liệu thứ nhất được gọi là tập đặctrưng tông cộng, bao gồm Š tập con có tên là màu cơ bản, màu phân cụm, hình tháihọc, bề mặt thống kê và ma trận đồng hiện mức xám (GLCM) Kết quả các thí nghiệmcho thay đặc trưng bề mặt khá hiệu quả so với đặc trưng màu sắc và hình thái học chophân loại lúa Vì vậy, nghiên cứu tập trung phân tích sâu hơn về đặc trưng bề mặt dựa
trên các phương pháp mẫu nhị phân cục bộ (LBP) và mẫu bộ ba cục bộ (LTP), và từ
đó đề xuất cơ sở dữ liệu thứ hai được gọi là tập đặc trưng mẫu bộ ba cục bộ cải tiến
mở rộng (extended improved local ternary pattern — extended ILTP) Trong phân loại
va nhận dang mẫu, mô hình mạng no ron tích chập (CNN) là mô hình cho độ chính
Trang 5xác khá cao Vì vậy cơ sở dữ liệu thứ ba, là cơ sở dữ liệu ảnh, được xây dựng dé kếthợp với CNN Cơ sở dữ liệu gồm 7 tập ảnh lúa với số lượng ảnh trong tập huấn luyện
khác nhau.
Với tập thứ nhất, tập đặc trưng tổng cộng gồm 248 đặc trưng, được kết hợp với bộ
phân loại SVM và cho độ chính xác bằng 88,29% Để giảm số đặc trưng sử dụng vàcải thiện độ chính xác phân loại, phương pháp đề xuất kết hợp kỹ thuật tối ưu bầy đànnhị phân (BPSO) và SVM, gọi là BPSO+SVM, được áp dụng với cơ sở dữ liệu này đểphân loại 17 giống lúa Kết quả độ chính xác phân loại của BPSO+SVM đạt 93,94%,với chỉ 96 đặc trưng được lựa chọn Kết quả nhận được cho thấy phương pháp đề xuất
BPSO+SVM đạt độ chính xác phân loại cao hơn so với khi sử dụng chỉ với SVM, và
số đặc trưng được sử dụng chỉ bằng 39% số lượng đặc trưng của tập tổng cộng Hơnnữa, phương pháp đề xuất BPSO+SVM cũng cĩ thể mở rộng cho những bộ phân loại
khác như Nạve Bayes và Random Forest Độ chính xác phân loại của Nạve Bayes và
Random Forest khi khơng kết hợp với BPSO lần lượt là 77,82% và 88,53% Khi kếthợp với BPSO, kết quả độ chính xác phân loại đạt được lần lượt là 90,65% và 92,35%với Naive Bayes và Random Forest Bên cạnh đĩ, số đặc trưng sử dụng cũng giảm cịn
81 và 112 đặc trưng đối với Naive Bayes và Random Forest
Tập cơ sở dữ liệu thứ hai là ILTP mở rộng được kết hợp với SVM và ANN để phânloại 17 giống lúa Để cải thiện độ chính xác phân loại, bán kính vùng cục bộ và giá trịngưỡng của vùng cục bộ cũng được xem xét trong mơ tả đề xuất Độ chính xác phânloại của SVM và ANN khi kết hợp với tập đặc trưng đề xuất lần lượt là 95,53% và92,82% Như vậy, độ chính xác phân loại 17 giống lúa được cải thiện khi kết hợp tập
đặc trưng ILTP mở rộng với SVM.
Tiếp theo, cơ sở dữ liệu thứ ba là tập dữ liệu ảnh được kết hợp với các mơ hình mang
nơ ron tích chập đề phân loại 17 giống lúa Hai mơ hình mạng nơ ron tích chập được
đề xuất được gọi là VGG16 hiệu chỉnh và ResNet50 hiệu chỉnh được xây dựng dựatrên các mơ hình VGG16 và ResNet50 Các thí nghiệm được tiến hành đề đánh giá và
so sánh hiệu suất khi thay đổi số lượng ảnh trong tập huấn luyện, cũng như so sánh độ
chính xác phân loại của hai mơ hình trước và sau hiệu chinh Độ chính xác phân loại
cao nhất trong các tập ảnh được xem xét của hai mơ hình này là 96,41% cho mơ hình
Trang 6VGG16 hiệu chỉnh và 97,88% cho mô hình ResNet50 hiệu chỉnh Kết quả nay cho
thấy các mô hình hiệu chinh đạt hiệu quả phân loại tốt hơn so với mô hình chưa hiệu
chỉnh, khi độ chính xác đạt 93,88% với VGG16 chưa hiệu chỉnh và 94,53% với ResNet50 chưa hiệu chỉnh Như vậy, hai mô hình hiệu chỉnh VGG16 và ResNet50 có
thé nâng cao đáng ké độ chính xác phân loại 17 giống lúa
Cuối cùng, nghiên cứu cũng được mở rộng dé đánh giá khả năng phân loại bền vữngcủa các mô hình đối với các trường hợp: (1) hạt giống lúa sau thời gian dài lưu trữ ởnhiệt độ thường, (2) trường hợp hạt giống lúa bị đổi màu do âm, mốc, (3) mở rộngphân loại đối với các giống lúa khác, (4) và cuối cùng mở rộng phân loại với nhiều
giống lúa hơn Kết quả phân loại khi kiểm tra các mẫu lúa được lưu trữ trong thời gian
dai sau năm năm đạt 92,94% với SVM kết hợp với ILTP mở rộng, 94,53% với VGG16hiệu chỉnh, và 97,12% với ResNet50 hiệu chỉnh Với trường hợp các mẫu giống lúa bị
ẩm, mốc do điều kiện bảo quản không tốt, độ chính xác phân loại đạt 95% với SVMkết hợp ILTP mở rộng, 95,47% với VGG16 hiệu chỉnh, và 96,88% với ResNet50 hiệuchỉnh Tiếp theo, với mở rộng phân loại 17 giống lúa khác, độ chính xác phân loại củaSVM kết hợp với ILTP mở rộng đạt 97,88%, trong khi đó độ chính xác phân loại củahai mô hình hiệu chỉnh VGG16 và ResNet50 đạt lần lượt là 98,88% và 99% Cuốicùng là áp dụng các mô hình VGG16 và ResNet50 hiệu chỉnh dé mở rộng phân loại 34giống lúa và đạt độ chính xác lần lượt là 95,13% và 95,77% Như vậy, các mô hìnhnày có thê mở rộng để phân loại cho các mẫu lúa sau thời gian đài lưu trữ, các mẫu lúa
bị thay đôi màu sắc do âm, mốc, có thể mở rộng phân loại hiệu quả với các giống lúakhác cũng như có thể mở rộng dé phân loại nhiều giống lúa hơn
Trang 7Each rice variety is usually suitable for its own cultivation conditions of climate, soil,
and water, etc So selecting of suitable variety for the growing conditions is an
important part to enhance crop yields and the quality of the harvested rice Moreover, many new rice varieties are generated nowadays, and they become more and more
diversified to deal with new challenges such as climate change, pests and diseases, etc Besides varieties with different external observations, many varieties are quite similar
so that it is easy to confuse one variety with others This leads to wrong selections of rice varieties, affecting crop yields and the quality of the harvested rice Therefore, enhancing the accuracy of classification for rice varieties with similar external appearance becomes more important.
For that reason, the aim of this study is to enhance the classification accuracy of 17 rice varieties that are popularly planted in Vietnam For classification of rice varieties,
image processing is applied to extract the features of each one and combined them
with machine learning methods such as the artificial neural network (ANN), the support vector machine (SVM), random forest (RF), etc Besides the traditional methods, applying convolutional neural network (CNN) models to rice images without extracting features still achieves high accuracy.
In our study, the rice grain images of 17 varieties almost planted in Mekong Delta were scanned at high resolution There were three datasets built for classification of the 17 rice varieties The first dataset, namely total datatset, includes five feature subsets: basic color, clustering color, morphological, statistical, and texture features computed from gray level co-occurrence matrix (GLCM) The experiment results
show that texture features are quite effective when compared to color and
morphological features for rice variety classification Therefore, we focused on texture analysis based on local binary pattern (LBP) and local ternary pattern (LTP) methods
to propose the second dataset, namely extended improved local ternary pattern (extended ILTP) For classification and pattern recognition, the convolutional neural network (CNN) was achieved at high accuracy And the third image dataset was
Trang 8generated to combine with CNN This dataset contains 7 image sets with different
number of training images.
With the total dataset, includes 248 features, was combined with the SVM gives an overall accuracy of 88.29% To decrease the number of used features and to improve the classification accuracy, the proposed method combining binary particle swarm optimization (BPSO) and the SVM, called BPSO+SVM, was applied to this dataset In the results, classification accuracy from BPSO+SVM reaches 93.94% using only 96 selected features The obtained result shows the proposed method achieves higher classification accuracy than the SVM alone, and the required number of features was
only 39% of the total dataset In addition, the proposed BPSO+SVM can be extended
to other classifiers such as Naive Bayes and Random Forest The classification accuracy of Naive Bayes and Random Forest without combined with BPSO are 77.82% and 88.53%, respectively When combined with BPSO, they are reached to 90.65% and 92.35%, respectively Besides, the number of selected features was also decreased to 81 and 112 features for Naive Bayes and Random Forest, respectively.
The second dataset, extended ILTP, was combined with SVM and ANN, respectively, for classification the 17 rive varieties To improve classification accuracy, the radius of neighborhood and threshold value of local pattern were considered in the pattern coding procedure of the proposed method The classification accuracy from the SVM
and ANN when using the proposed descriptor was 95.53% and 92.82%, respectively The experiment results show that the proposed method can enhance classification
accuracy of rice varieties when combined with SVM.
Next, the third dataset was combined with convolutional neural networks for classification the 17 rice varieties The two CNN models, namely modified VGG16 and modified ResNet50, were based on VGG16 and ResNet50 models Experiments were conducted to evaluate and compare the performances when changing dimensions
of image sets; and compare the accuracy of these models before and after modified For the image dataset, the modified VGG16 obtained the highest accuracy at 96.41%, and the modified ResNet50 achieved its highest accuracy at 97.88% While the accuracies were achieved at 93.88% and 94.53% for VGGI6 and ResNet50,
Trang 9respectively From the results, it shows that the modified VGG16 and modified ResNet50 models can significantly improve the classification accuracy of the 17 rice varieties.
Finally, to evaluate the robustness of the proposed classification methods, several experiments was carried out (1) for long-term stored rice varieties, (2) for rice varieties with changed color due to storage conditions, (3) for other 17 rice varieties, and (4) for more rice varieties The accuracies of SVM combined with extended ILTP, with modified VGG16, and with modified ResNet50 were achieved at 92.94%, 94.53%, and 97.12%, respectively, for five years stored rice varieties In case of rice varieties with changed color, the classification accuracies was 95% with SVM, 95.47% with modified VGG16, and 96,88% with modified ResNet50 Moreover, for 17 other rice varieties, the classification accuracies were obtained quite high, at 97.88% with SVM, 98.88% with modified VGGIó6, and 99% with modified ResNet50 Finally, the modified VGG16 and ResNet50 were applied for classification of 34 varieties with the accuracy was achieved at 95,13% and 95,77%, respectively The results show that the SVM combined extended ILTP, modified VGG16 and modified ResNet50 models can
be applied effectively for classification of other rice varieties as well as more rice
varieties.
Trang 10LỜI CÁM ƠN
Quá trình làm nghiên cứu sinh là một quãng thời gian mà với tôi luôn phải nỗ lực và
cố gắng không ngừng Tuy nhiên, bên cạnh những khó khăn và vắt vả trong suốt hànhtrình này, tôi đã rất biết ơn và trân quý sự hướng dẫn, sự quan tâm và ân cần giúp đỡcủa những người thay, đồng nghiệp, và người thân trong gia đình của tôi Điều đó đãtiếp thêm cho tôi động lực thật to lớn, giúp tôi vượt qua khó khăn, thử thách đề có thé
hoàn thành nghiên cứu này.
Trước tiên, tôi xin bay tỏ lòng biết ơn sâu sắc đến những người thay tôi vô cùng kính
trọng, PGS TS Đỗ Hồng Tuấn và TS Vladimir Y Mariano Quý thay đã hướng dẫnrất tận tình, chỉ dạy cho tôi làm nghiên cứu, cũng như động viên tôi vượt qua nhữngkhó khăn trong suốt quá trình học tập và nghiên cứu
Tôi xin phép được gửi lời cám ơn chân thành đến GS TS Lê Tiến Thường, PGS TS
Hà Hoàng Kha, và PGS TS Trương Quang Vinh, những người thầy đáng kính, đãdành nhiều thời gian cho nghiên cứu của tôi để cho tôi nhiều ý kiến quý báu, cũng nhưhướng dẫn và chỉnh sửa cho tôi tận tình từ khi bắt đầu đến khi hoàn thiện các nghiên
cứu.
Bên cạnh đó, tôi cũng xin gửi lời cám ơn đến Ban chủ nhiệm khoa Điện- Điện tử, quý
thầy cô Khoa Điện — Điện tử và phòng Đào tạo Sau Đại học, Trường Đại học Bách
Khoa, Đại học Quốc Gia TP HCM đã giúp đỡ và hướng dẫn tôi trong quá trình học
tập và nghiên cứu.
Tôi cũng xin cám ơn chân thành đến người bạn của tôi, TS Phạm Việt Tuần ở Đại học
Sư phạm Huế, đã hướng dẫn, chỉ bảo cho tôi rất tận tình trong quá trình nghiên cứu.Tôi cũng xin gửi lời cám ơn đến GS Insoo Koo ở Đại học Ulsan, Hàn Quốc đã giúp
đỡ cho tôi rất nhiều trong trong quá trình nghiên cứu
Tôi cũng xin chân thành cám ơn TS g Minh Tâm, ở Viện Lúa Đồng Bằng sôngCửu Long, đã cung cấp cho tôi các mẫu lúa giống, đồng thời cũng hướng dẫn, hỗ trợcho tôi những thông tin quý báu về các giống lúa trong nghiên cứu này
Va đặc biệt, tôi muốn gửi lời cám ơn đến những người thân yêu trong gia đình đã luôn
động viên, hỗ trợ dé tôi có thé hoàn thành nghiên cứu này
Trang 11DANH MỤC CÁC HÌNH ẢNH
DANH MỤC BANG BIEU
DANH MỤC CÁC TU VIET TẢ
DANH MỤC CAC KÝ HIEU
CHƯƠNGI GIỚI THIỆU
1.1 Giới thiệu về giống lúa
1.2 Dat vấn đề
1.3 Tổng quan các nghiên cứu về phân loại giống lúa
1.3.1 Phân loại giống lúa sử dụng trích xuất đặc trưng của hạt lúa
1.3.2 Phương pháp áp dụng mạng nơ ron tích chập
1.3.3 Nhận xét về các nghiên cứu phân loại giống lúa
1.4 Lý do chọn hướng nghiên cứu
1.5 Mục tiêu và nội dung nghiên cứu của đề tà
1.5.1 Mục tiêu
1.5.2 Nội dung nghiên cứu
1.6 Phương pháp nghiên cứu
1.7 _ Phạm vi nghiên cin
18 Ý nghĩa khoa học và thực tiễn của nghiên cứu
1.9 Những đóng góp chính của nghiên cứu.
2.5 Khảo sát một sô tập dữ liệu anh hạt lúa giông đã có.
2.6 Xây dựng tập dữ liệu 17 giông lúa ở Việt Nam
Trang 12CHUONG3 KÉT HỢP KỸ THUAT TOI UU HOA BAY ĐÀN NHI PHAN VAMAY VECTOR HO TRO
3.1
3.1.1 Đặc trưng hình thái học
3.1.2 Đặc trưng màu cơ bản
3.1.3 Đặc trưng màu phân cụm
3.7.2 Phân loại với SVM
3.7.3 Phân loại với phương pháp dé xuất BPSO+SVM
3.7.4 So sánh kết quả phân loại giữa SVM và BPSO+SVM
3.7.5 Mở rộng thuật toán đề xuất với những bộ phân loại khác
4.5.1 Phân loại với SVM
4.5.2 Phân loại với ANN
4.6
Trích xuất đặc trưng
Đánh giá khả năng phân loại của mỗi tập đặc trưng con
Đánh giá khả năng phân loại của tập đặc trưng kết hợp
Lựa chọn đặc trưng
BPSO
Thuật toán dé xuat BPSO+SVM
Phân loại với tập đặc trưng tổng cộng
Trang 135.4 Kết quả phân loại với mô hình hiệu chỉnh
5.5 So sánh độ chính xác phân loại với mô hình chưa hiệ
5.6 So sánh độ chính xác phân loại lúa của các mô hình
5.7 Thời gian xử lý của các bộ phân loại
5.8 Kết luận chương
CHƯƠNG 6
6.1.1 Áp dụng các mô hình cho phân loại 17 giống lúa trong nghiên cứu sau
thời gian 5 năm
6.1.2 Ap dụng các mô hình cho phân loại 17 giống lúa trong nghiên cứu khi bị
âm, mốc 1006.1.3 Áp dụng các mô hình cho phân loại 17 giống lúa khác
6.2 Mở rộng phân loại 34 giống lúa bằng các mạng no ron tích chập
63 Kếtluận chương
CHUONG7 KÉTLUẬN
7.1 Những kết quả đạt được trong nghiên cứu
7.2 _ Những hạn chế của nghiên cứu
7.3 Hướng phát triển của nghiên cin
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BÓ
TÀI LIỆU THAM KHẢO
PHÙ LỤC //2 :2 /////92///019//097/10077197/099//7 502390
Trang 14DANH MỤC CÁC HÌNH ẢNH
Hình 1.1 Một số giống lúa lưu trữ tại IRRI wd
Hình 1.2 Các nội dung thực hiện nghiên cứu we lT7
Hình 2.1 Don vị xử lý - 28
Hình 2.2 Một số hàm kích hoạt „30
Hình 2.3 Một số hạt lúa bị loại bỏ trước khi thu ảnh 40Hình 2.4 Các mẫu lúa của 17 giống được sử dung trong nghiên cứu 40Hình 2.5 Hệ thống thu ảnh AlHình 2.6 Ảnh lúa DTS -Ö-43Hình 2.7 Ảnh hạt lúa được tìm đường biên và đóng khung 43Hình 2.8 Anh hạt lúa được dựng thang, loai bé nén xanh va tach từng hat 43Hình 3.1 Một số đặc trưng hình thái ho 46
Hình 3.2 Phân cụm màu k-means của giỗng DT8 -.48
Hình 3.3 Lưu đồ giải thuật của phương pháp dé xuất BPSO+SVM 57Hình 3.4 Confusion matrix của SVM khi phân loại 17 giống lúa 25D
Hình 3.5 Confusion matrix của BPSO+SVM khi phân loại 17 giông lúa 61 Hình 3.6 So sánh độ chính xác phân loại giữa SVM va BPSO+SVM 62
Hình 4.1 Mẫu cục bộ với giá trị P, R khác nhau +69
Hình 4.2 Vi dụ tính toán mẫu ILTP với Uu; = U;y=2 wT
Hình 4.3 Tinh toán đặc trưng ILTP mở réng 72
Hình 4.4 Lưu đồ thuật toán của mô tả đặc trưng ILTP mở rộng + 74Hình 4.5 Confusion matrix của SVM khi phân loại 17 giống lúa "KưiHình 4.6 Cấu trúc mạng ANN 78Hình 4.7 Quá trình huấn luyện và kiểm tra của mô hình ANN 78Hình 4.8 Confusion matrix của ANN khi phân loại 17 giống lúa 279
Hình 5.1 Tăng cường dữ liệu ảnh 8I
Hình 5.2 Kiến trúc mô hình CNN, (a) Mô hình VGGI6 hiệu chỉnh, (b) Mô hình
ResNet50 hiệu chỉnh 184 Hình 5.3 Độ chính xác va hàm mất mát trong quá trình huấn luyện và kiểm tra của
VGG16 hiệu chỉnh Ñ7
Trang 15Hình 5.4 Độ chính xác và hàm mắt mát trong quá trình huấn luyện và kiểm tra của
ResNet50 hiệu chỉnh „87
88
Hình 5.6 Confusion matrix của ResNet50 hiệu chỉnh khi phân loại 17 giống lia .89
Hình 5.5 Confusion matrix của VGG16 hiệu chỉnh khi phân loại 17 giông lúa .
Hình 5.7 So sánh độ chính xác và hàm mat mát trong quá trình kiểm tra của VGG16
hiệu chỉnh và chưa hiệu chỉnh 00 Hình 5.8 So sánh độ chính xác và ham mat mát trong quá trình kiêm tra của ResNetS0 hiệu chỉnh và chưa hiệu chỉnh 00 Hình 5.9 So sánh độ chính xác phân loại giữa các lớp của các mô hình SVM, ANN, VGGI16 hiệu chỉnh, ResNet50 hiệu chỉnh 93 Hình 6.1 Confusion matrix của SVM+ILTP với dữ liệu kiêm tra mới khi phân loại 17
giống lúa .97
Hình 6.2 Confusion matrix của VGG16 hiệu chỉnh với dữ liệu kiểm tra mới khi phân
.97 Hình 6.3 Confusion matrix của ResNet50 hiệu chỉnh với dữ liệu kiêm tra mới khi phân
loại 17 giống lúa
loại 17 giống lúa 98
Hình 6.4 So sánh độ chính xác phân loại của 8 giông lúa với mô hình SVM+ILTP 98
Hình 6.5 So sánh độ chính xác phân loại của 8 giống lúa với mô hình VGG16 hiệuchỉnh 99
Hình 6.6 So sánh độ chính xác phân loại của 8 giông lúa với mô hình ResNet50 hiệu
chinh 299
Hình 6.7 Confusion matrix của SVM+ILTP khi phân loại 17 giông lúa bj âm 104
Hình 6.8 Confusion matrix của VGG16 hiệu chỉnh khi phân loại 17 giống lúa bị âm
104
Hình 6.9 Confusion matrix của ResNet50 hiệu chỉnh khi phân loại 17 giống lúa bị âm
Hình 6.10 Hình ảnh 17 giông lúa khác
Trang 16Hình 6.13 Confusion matrix của ResNet50 hiệu chỉnh khi phân loại 17 giống lúa khác.
Trang 17Bảng 2.1 Confusion matrix.
Bang 2.2 Thông tin các giống lúa sử dụng trong nghiên cứu
Bảng 2.3 Quy cách ảnh lúa
Bang 2.4 Số lượng hạt lúa giống
Bảng 2.5 Thông số kỹ thuật của phần cứng và phần mềm sử dụng trong nghiên cứu 44Bảng 3.1 Độ chính xác phân loại của SVM khi kết hợp với các tập đặc trưng con 52Bang 3.2 Độ chính xác của SVM với các tập đặc trưng kết hop 252Bang 3.3 Một ví du về vector vị trí của một cá thé trong không gian 248 chiêu 55
Bang 3.4 Tập đặc trưng con 58 Bang 3.5 Độ chính xác phân loại của SVM 60 Bang 3.6 Độ chính xác phân loại trung bình của BPSO+SVM .6l
Bảng 3.7 Kết quả giảm số đặc trưng sử dụng và cải thiện độ chính xác của
BPSO+SVM -62
Bảng 3.8 Kết quả giảm sô đặc trưng sử dụng và cải thiện độ chính xác phân loại củacác bộ phân loại khác khi kết hợp với BPSO 64Bang 4.1 Độ chính xác phân loại 17 giống lúa khi thay đôi P, Â 76Bang 4.2 Độ chính xác phân loại 17 giống lúa khi thay đổi giá trị ngưỡng @ 76
Bảng 5.1 Cơ sở dữ liệu anh 81 Bang 5.2 Độ chính xác phân loại 17 giông lúa của các tap dữ liệu anh -.86
Bang 5.3 Kết qua phân loại của VGG16 và ResNet50 trước và sau hiệu chỉnh 90Bảng 5.4 So sánh độ chính xác phân loại 17 giống lúa của các mô hình 91
Bang 5.5 Thời gian xử ly của các bộ phân loại
Bảng 6.1 So sánh độ chính xác phân loại giữa dữ liệu kiêm tra cũ và mới.
Bảng 6.2 Hình ảnh 17 giống lúa không bị âm móc và bị âm mốc
Bang 6.3 So sánh độ chính xác phân loại của 17 giống lúa bị am
Bảng 6.4 : Quy cách ảnh lúa của 17 giống lúa khác
Bảng 6.5 Độ chính xác của các mô hình khi phân loại 17 giông lúa khác.
Bảng 6.6 Độ chính xác của các mô hình khi phân loại 34 giống lúa
Trang 18DANH MUC CAC TU VIET TAT
Ant colony optimization Artificial Neural Network Binary particle swarm optimization Binary particle swarm optimization combined with support vector
sparse
Convolutional neural network
Electromyography
Feature based LBP Genetic algorithm Gray level co-occurrence matrix
Improved local ternary pattern International Rice Research Institute
K Nearest Neighbor Local binary pattern Linear Discriminant Analysis Local directional ternary pattern
Local ternary pattern LTP Open Source Vision Library
Computer
Tối ưu hóa đàn kiến
Mạng nơ ron nhân tạo
Tối ưu hóa bay đàn nhị phân
Kết hợp tối ưu hóa bay dan nhi
phan và máy vector hỗ trợ
Mẫu nhị phân bất biến với
xoay và chịu được nhiễuMẫu nhị phân cục bộ hoàn toàn
Mẫu bộ ba cục bộ hoàn toànĐồng hiện của mẫu bộ ba cục
Trang 19Sequential backward selection Sequential forward selection Support vector machine
Vietnam rice seed varieties
Phân tích thành phan chínhTối ưu hóa bay đàn
Rừng ngẫu nhiên
Phương pháp lựa chọn tiến lùi
Phương pháp lựa chọn tiến tới
Máy vector hỗ trợ
Giống lúa Việt Nam
Trang 20DANH MỤC CÁC KÝ HIỆU
I Sé node ngõ vào của mang no ron nhân tạo
O Số node ngõ vào của mạng nơ ron nhân tạo
Y Số mẫu trong tập huấn luyện
Đại Đường kính tương đương của hạt lúa.
A Diện tích hạt lúa.
Pe Chu vi hat lúa
L Độ dài trục lớn của hạt lúa.
1 Độ dài trục nhỏ của hạt lúa.
Le Chiều dai hạt lúa
Wi Chiều rộng hạt lúa
Ca Diện tích bao lồi của hat lúa
As Tỉ lệ giữa chiều dài và chiều rộng của hạt lúa
Ex Ti lệ của diện tích hình chữ nhật bao quanh hat lúa va
diện tích của hạt lúa.
So Ti lệ của diện tích hat lúa và diện tích bao lỗi
SF Nhân tổ hình dạng của hat lúa
R Độ tròn của hạt
Co Compactness của hạt lúa.
m Giá trị trung tâm
Trang 21Độ lệch (bias) của no ron j
Đầu ra của don vị xử lýVector trọng số trên các kết nói từ tín hiệu vào đến nơronj
Độ chính xác phân loại
Số ju được nhận dang đúng
Tổng số mẫu kiểm traGiá trị trung bình của các thành phần RGiá trị trung bình của các thành phần GGiá trị trung bình của các thành phần B
Giá trị R của pixel thứ i thuộc hạt lúa trong không gian màu RGB
Giá trị G của pixel thứ 7 thuộc hạt lúa trong không gian
màu RGB
Giá trị B của pixel thứ i thuộc hạt lúa trong không gian
màu RGB
Tổng số pixel thuộc hạt lúa
Phương sai của thành phần R
Phương sai của thành phần G
Phương sai của thành phần B
Trang 22Giá trị màu trung tâm của L.
Giá trị màu trung tâm của a.
Giá trị màu trung tâm của b.
Số màu chính trên hạt lúa
Ti lệ diện tích cum màu tương ứng C; và diện tích toàn
hạt lúa.
Tổng số điểm ảnh thuộc tâm C,Tổng số điểm ảnh thuộc hạt lúa
Số mức cường độ xám
Giá trị mean của z.
Toán tử đặc trưng cho vị trí tương đối của hai pixel
Xác xuất mỗi cặp pixel thỏa mãn Q với giá trị (Z/,Z,)
Trang 23Vmax Giá tri van tốc nhỏ nhất
P Số điểm lân cận của mẫu
% Cường độ xám của pixel trung tâm
#p Giá trị của các lân cận
R Bán kính của các lân cận.
U Uniformity
Ur Giá trị ngưỡng của uniformity
f Giá trị ngưỡng được chọn bởi người dùng
lò Ảnh thành phan thứ &
Lbp,n(h) Mã dưới (lower code) của mau
Ubpn() Mã trên (upper code) của mẫu
U(ULTPp.p) Uniformity U được tinh cho các mau upper
U(LLTPpR) Uniformity U được tính cho các mẫu lower
U_Th alii) Điểm ảnh trung tâm các mau upper.
L_1Tz(.j) Điểm ảnh trung tâm các mẫu lower.
Fn, =Ở@sfnsesf aa) — XÁC suất xuất hiện của các nhãn được gán cho các mẫu
lower.
Fyn, =(2as/fase¬/„2))_ Xác suất xuất hiện của các nhãn được gán cho các mẫu
upper.
Ne, Số mẫu lower.
Ne, Số mẫu upper.
nh Nhãn gán cho mỗi mẫu
‘etal Tổng số pixel của anh.
Ủy Giá trị ngưỡng U của mẫu upper.
Ủy Giá trị ngưỡng U của mau lower.
Trang 24CHƯƠNG 1 GIỚI THIỆU
Chương này giới thiệu tổng quan về giống lúa, khảo sát các nghiên cứu về phân loạigiống lúa thông qua trích xuất các đặc trưng về màu sắc, hình thái học và bề mặt củahạt lúa và từ đó kết hợp với các phương pháp phân loại như mạng nơ ron nhân tạo,máy vector hỗ trợ, v.v Bên cạnh đó, các nghiên cứu về áp dụng mạng nơ ron tích chậpcho bài toán phân loại giống lúa cũng được trình bày Mục tiêu và nội dung nghiêncứu, phương pháp nghiên cứu, những đóng góp chính của nghiên cứu và bố cục của
luận án cũng được trình bày trong chương này.
1.1 Giới thiệu về giống lúa
Lúa là một loại cây lương thực được trồng ở nhiều nước và là một nguồn thực phâm
ồn định của phần lớn dân số toàn cầu Cây lúa thuộc loài Oryza Theo Vaughan [1],
Oryza có khoảng 22 loài, trong đó chỉ có loài Oryza sativa và loài Oryza glaberrima
được trồng canh tác Tác giả Morishima và Oka trong [2] đã phân chia các loài lúacanh tác thành hai nhóm là Indica và Japonica dựa vào phân tích thành phần chính của
11 tính trạng trên giống lúa Liên quan đến đa dạng di truyền trên cây lúa, Glaszmann
trong [3] đã phân tích 1688 giống lúa truyền thống của Châu Á và đã xác định sáunhóm phân biệt về mặt di truyền (ký hiệu I-VI) Trong đó nhóm I thuộc vùng nhiệt
đới, được xem như loại “Indica”, nhóm IV thích ứng vùng khí hậu ôn đới như
“Japonica” Các nhóm còn lại hầu hết là thuộc giống lúa rẫy vùng cao
Mỗi giống lúa thường thích hợp với điều kiện canh tác của nó như khí hậu, đất, vànước Với những thách thức như biến đổi khí hậu, côn trùng và dịch bệnh nên nhiều
giống lúa mới được tạo ra ngày càng nhiều và ngày càng đa dạng Tại ngân hàng giống
lúa quốc tế thuộc viện nghiên cứu lúa gạo ở Philippines (IRRI) có hon 130.000 giống
lúa khác nhau trên thé giới được lưu trữ và bảo tồn tại đây Ngân hang gen lúa quốc tế
hiện lưu trữ, bảo quản các giống lúa của các nước trên thế giới, đồng thời cũng nghiêncứu các giống lúa mới dé thích ứng với những thách thức như biến đổi khí hậu, sâu bọ,dịch bệnh Do khả năng nảy mam của hat lúa giống có thể bị giảm nhanh phụ thuộcvào điều kiện môi trường như nhiệt độ, độ ẩm, v.v Vì vậy, tại Ngân hàng gen lúa quốc
tế sẽ lưu trữ các giống lúa theo cả hai chế độ: chế độ cơ bản ở nhiệt độ -20°C và chế độ
Trang 25kích hoạt trong khoảng nhiệt độ từ 2°C đến 4C Các giống lúa sẽ được kiểm tra khả năng nảy mầm với chu kỳ năm năm đối với hạt giống lưu trữ ở chế độ kích hoạt và
mười năm đối với chế độ cơ bản Hình 1.1 là hình ảnh một số giống lúa lưu trữ tạiIRRI Như vậy, mặc dù số lượng giống lúa hiện lưu trữ tại các trung tâm rất lớn,
nhưng các giống lúa rất đa dạng về hình dạng và màu sắc Vì vậy, luận án này chọn
các giống lúa có quan sát bên ngoài khá giống nhau để phân loại nhằm mục đích dễdang phát triển mô hình cho phân loại nhiều giống lúa hơn
IRGC 52542 IRGC 52612 IRGC 52716 IRGC 52720 IRGC 52739
IRGC 52754 IRGC 52797 IRGC 52800 IRGC 52816 IRGC 52928
TRGC52940— “—TRGCS2847—~ TRGCS305D — “TRGCS3052 —TRGCS53U5Z—”
IRGC 53066 IRGC 53068 IRGC 53069 IRGC 53071 IRGC 53074
Hình 1.1 Một số giống lúa lưu trữ tại IRRI
Tại Việt Nam, các giống lúa được lưu giữ trong ngân hàng gen của các viện, trườngđại học, v.v Ở Viện nghiên cứu nông nghiệp công nghệ cao đồng bằng sông Cửu
Long hiện lưu trữ hơn 1.800 mẫu giống lúa cổ truyền và 160 quần thể lúa hoang dại
Trang 26còn bảo quản 30 quần thể lúa hoang của 5 loài khác Ngoài ra Viện còn bảo tồn 2000giống lúa ngoại nhập do ngân hàng gen của IRRI cung cấp Ở ngân hàng gen củaTrường Đại học Cần Thơ, hiện có khoảng 1988 giống lúa các loại bao gồm: lúa mùasớm, lúa mùa lỡ, lúa mùa muộn; 647 giống nhóm lúa ray; và 276 giống nhóm lúa nếp.
Tại các ngân hàng gen, hầu hết các giống lúa đều được lưu giữ trong kho lạnh ở nhiệt
độ có thể - 20°C (lưu giữ mẫu lâu) hoặc 2 — 40C (cho các vụ mùa sau) Lúa được thu
hoạch, làm sạch, phân loại, làm khô và bảo quản Trong vòng 48 giờ sau khi thu hoạch
phải làm khô lúa để độ âm chỉ còn khoảng 12-14% (tuỳ theo nhu cầu làm khô lúa đểxay xát ngay hoặc dé tồn trữ lâu đài hoặc để làm giống mà yêu cầu làm khô và côngnghệ sấy khác nhau) Độ dm an toàn của lúa cho bảo quản phụ thuộc vao tinh trạnglúa, khí hậu cũng như điều kiện bảo quản Khi lúa có độ âm 13 - 14% có thể bảo quảnđược từ 2 - 3 tháng, nếu muốn bảo quản dai hơn 3 tháng thì độ ẩm của lúa tốt nhất từ
12 - 12,5% Độ âm lúa, công nghệ say cũng ảnh hưởng tới hiệu suất thu hồi gạo và tỷ
lệ gạo gãy trong quá trình xay xát, độ 4m thích hợp cho quá trình xay xát từ 13 - 14%
12 Dit vấn đề
Với một số lượng lớn các giống lúa trên thế giới thì việc đặc tính hóa từng loại giốngtrở nên can thiết Tai các trung tâm lưu trữ giống lúa, đặc tính hóa từng giống lúa trởthành công việc thường ngày Tại IRRI, mô tả đặc tính từng giống lúa bao gồm việc đochiều dài và chiều rộng hạt lúa Việc đo kích thước này được thực hiện bằng cách đặtmột mẫu nhỏ các hạt lúa và sắp xếp chúng trên một tắm kính lúp, ánh sáng ở phía trênchiếu xuống sẽ tạo ra bóng của hat lúa trên tờ giầy đã được kẻ ô có kích thước ở phía
dưới Kết quả là hình chiếu được đo dé xác định chiều dài và chiều rộng của hạt lúa.
Tuy nhiên, việc đo các kích thước như vậy thường mat nhiều thời gian và không chính
xác.
Mặc dù số giống lúa trong thực tế hiện lưu trữ tại các trung tâm giống lúa là rất lớn.Tuy nhiên, trong thực tế có nhiều giống lúa đã không còn phù hợp với điều kiện canhtác Hơn nữa, mỗi vùng miền sẽ thích hợp cho gieo trồng với một số giống lúa khácnhau Do vậy, số lượng giống lúa đang được trồng trong thực tiễn ở mỗi vùng miền sẽkhông lớn như số giống lúa đang lưu trữ Hơn nữa, việc chọn giống lúa phù hợp với
Trang 27điều kiện đất đai, khí hậu để gieo trồng cũng là một khâu quan trọng quyết định năngsuất của vụ mùa Bên cạnh những giống lúa có sự khác biệt nhau về màu sắc và hìnhdạng, thì có những giống lúa có quan sát bên ngoài khá giống nhau Chính vì vậy rất
dễ nhằm lẫn các giống lúa này với nhau khi quan sát bằng mắt thường Điều đó dẫnđến chọn giống lúa không thích hợp và dẫn đến năng suất thu hoạch không cao Chính
vì vậy, cần thiết phải nâng cao độ chính xác cho mô hình phân loại tự động các giốnglúa có quan sát bên ngoài gần giống nhau Do đó, nghiên cứu sinh lựa chọn 17 giốnglúa có quan sát bên ngoài khá giống nhau để xây dựng các mô hình phân loại Từ đó,việc phân loại với những nhiều giống lúa khác nhau sẽ dé dang hơn, và các mô hình cóthé được phát triển lên dé phân loại với nhiều giống lúa hơn
Vi vậy, nghiên cứu này thực hiện các phương pháp nhằm nâng cao độ chính xác phânloại cho 17 giống lúa khá giống nhau nhau về màu sắc, kết cấu bề mặt và phần lớnđược trồng ở đồng bằng sông Cửu Long Việc nâng cao độ chính xác phân loại cho 17giống lúa này nhằm giảm thiểu sự nhằm lẫn giữa các giống lúa khi gieo trồng và từ đónâng cao năng suất và chất lượng của vụ mùa Hơn nữa có thể giúp người nông dânsàng lọc được nguồn giống tinh khiết, không nhằm lẫn với giống khác khi gieo trong
để vụ mùa được tốt hơn, các nhà nghiên cứu lúa gạo có thể dễ đàng phân loại cácgiống lúa một cách nhanh chóng hơn, và các trung tâm lưu trữ giống lúa có thể quản
lý, bảo tồn các giống lúa một cách hiệu quả hơn
1.3 Tổng quan các nghiên cứu về phân loại giống lúa
Dé phân loại giống lúa thông qua ảnh hat lúa thì phương pháp truyền thống được báocáo trong nhiều nghiên cứu là trích chọn đặc trưng của hạt lúa, sau đó kết hợp với mô
hình hay thuật toán phân loại như mạng nơ ron nhân tạo, máy vector hỗ trợ SVM,
Random Forest (RF), v.v dé huấn luyện và kiểm tra mô hình Trong đó, xử lý ảnh làcông cụ hiệu quả để trích chọn các đặc trưng một cách chính xác và tiết kiệm thờigian Đặc trưng được trích xuất bao gồm màu sắc, hình thái học, bề mặt, phổ, V.V củamỗi giống lúa Các nghiên cứu sử dụng một loại tập đặc trưng hoặc kết hợp nhiều tậpđặc trưng với nhau để đưa vào các bộ phân loại Đặc trưng màu sắc bao gồm giá trị
trung bình, phương sai, độ lệch chuân, dải giá trị màu của các kênh màu Đặc trưng
hình thái học được trích xuất có thé bao gồm độ dài hạt lúa, chiều rộng hạt lúa, chu vi,
Trang 28điện tích của hạt lúa, độ dài trục lớn và độ dài trục nhỏ của elip bao quanh hạt lúa, v v.
Đặc trưng bề mặt của mỗi giống lúa có thé bao gồm các đặc trưng bề mặt thống kêhoặc các đặc trưng được tính từ ma trận đồng hiện mức xám được tìm thấy trong nhiềunghiên cứu Bên cạnh các phương pháp phân loại truyền thống này, việc áp dung dữliệu ảnh lúa trực tiếp vào các mô hình mạng nơ ron tích chập (CNN) cũng cho kết quảphân loại khá cao Các nghiên cứu này được trình bày trong phần dưới đây
1.3.1 Phân loại giống lúa sử dụng trích xuất đặc trưng của hạt lúa
© Nghiên cứu sử dụng đặc trưng mau sắc cho phân loại giống lúa.
Dé phân loại các giống lúa, các nghiên cứu đã trích xuất đặc trưng của hạt lúa và kếthợp với các mô hình máy học Các tác giả trong [4] sử dụng các đặc trưng màu kết hợpvới mạng nơ ron nhân tạo để phân loại 15 loại giống lúa Đặc trưng màu được tríchxuất trên giống lúa bao gồm giá trị trung bình, phương sai, và dai giá tri màu được tinhđối với 7 kênh màu R, G, B, H, S, I, và Y Các kênh màu H, S, I và Y được tính từ cácgiá trị màu R, G, B Như vậy, có 21 đặc trưng được trích xuất trên mỗi giống lúa Sau
khi áp dụng thuật toán lựa chọn đặc trưng thì độ chính xác phân loại cao nhất đạt được
bằng 94,33% với 7 đặc trưng màu được lựa chọn Bay đặc trưng màu được lựa chon
bao gồm giá trị trung bình của R, G, B, H, S, I, và Y Với mang ANN sử dụng trongnghiên cứu này, số node lớp an được tinh theo theo nghiên cứu [5]
N=S=“+W (1)
trong đó / số node ngõ vào, O là số node ngõ ra, và Y là số mẫu trong tập huấn luyện
Tương tự, các tác giả trong nghiên cứu [6] cũng trích xuất đặc trưng màu sắc và sau đó
kết hợp với mạng no ron lan truyền ngược dé phân loại 5 giống lúa được lấy mẫu theo
ba hình thức khác nhau là gạo nâu, gạo trắng, và lúa Bốn giá trị gồm trung bình,
phương sai, độ lệch chuẩn, và dai giá trị màu được tính trên các kênh màu trong khônggian màu RGB, HSI, và HSV Như vậy, có tong cộng 36 đặc trưng màu được tríchxuất cho mỗi giống lúa Kết qua cao nhất với phân loại giống lúa dat 98% với câu trúcmạng nơ ron có 36 nơ ron ở lớp ngõ vào, hai lớp ẩn với số no ron lần lượt là 6 va 5, và
cuôi cùng là lớp ngõ ra với 5 nơ ron.
Trang 29© Nghiên cứu sử dụng đặc trưng hình thái học cho phân loại giống lúa.
Việc sử dụng ảnh siêu phô cũng cho thấy hiệu quả trong phân loại lúa Các tác giảtrong nghiên cứu [7] thực hiện phân loại 90 giống lúa thông qua ảnh siêu phổ
(Hyperspectral Imaging- HSI) và ảnh RGB thu từ camera Đặc trưng được trích xuất
gồm đặc trưng hình thái học từ ảnh RGB và đặc trưng phô từ ảnh siêu phô Đặc trưnghình thái học của mỗi hạt lúa gạo gồm điện tích hạt lúa, độ dài trục lớn và độ dài trục
nhỏ của đường elip bao quanh hạt lúa, tỉ lệ độ dài trục nhỏ và độ dài trục lớn, tỉ lệ chu
vi và diện tích hạt lúa, độ lệch tâm được tính từ khoảng cách hai tiêu điểm và độ dàitrục lớn của elip bao quanh hạt lúa Những đặc trưng này kết hợp với bộ phân loại RF.Trong nghiên cứu này, các tác giả đã thực hiện phân loại với số lượng giống lúa thayđổi, bao gồm 6, 20, 40, 60, 80 và 90 giống lúa Kết quả độ chính xác phân loại giảmdần từ gần 97,5% với 6 giống lúa, dưới 90% với 20 giống lúa, dưới 87,5% với 40giống lúa, dưới 82,5% với 60 giống lúa, dưới 80% với 80 giống lúa và 90 giống lúa.Tương tự, W Kong và cộng sự [8] cũng sử dụng ảnh siêu phô gần hồng ngoại và phântích dữ liệu đa chiều để phân loại 4 giống lúa Dữ liệu phổ được trích từ ảnh siêu phổ
và đải phổ sử dụng từ 1,039nm đến 1,612nm được sử dụng để xây dựng mô hình phânloại Cùng với dữ liệu phỏ, hệ thống thực hiện phân loại với các phương pháp K-
Nearest Neighbor Algorithm (KNN), SVM, và Random Forest (RF) Kết quả cho thay
ảnh siêu phổ va RF có thé sử dung dé nhận dang hat lúa giống hiệu qua
«_ Nghiên cứu kết hợp đặc trưng màu sắc và hình thái học cho phân loại giống lúa
Các nghiên cứu trên chỉ áp dụng các tập đặc trưng riêng lẻ như màu sắc hay hình thái
học mà chưa kết hợp chúng lại với nhau Vì vậy, một số nghiên cứu thực hiện phânloại giống lúa bằng cách kết hợp tập đặc trưng hình thái học và màu sắc của hạt lúa
Archana A Chaugule và cộng sự [9] thực hiện phân loại bốn loại hạt lúa giống có tên
là viz.Karjat-6, Ratnagiri-2, Ratnagiri-4 và Ratnagiri-24 bằng trích chọn đặc trưng kếthợp với mạng neural để phân loại Đặc trưng hình dạng bao gồm mô tả cơ bản là cácđặc trưng về hình thái học và mô tả thống kê được định nghĩa bằng các moment Đặctrưng màu sắc gồm giá trị trung tâm, độ lệch chuẩn và phương sai của các kênh màu R,
G và B Kết quả phân loại đạt 88%, 74,02% và 89% đối với lần lượt tập đặc trưng hìnhdạng, màu sắc và kết hợp hình dạng và màu sắc Với nghiên cứu này, đặc trưng màusắc cho thấy ít hiệu quả hơn, trong khi đó đặc trưng hình dạng cho thấy kết quả phân
Trang 30loại khá cao và cũng xấp xi kết quả phân loại khi kết hợp cả hình dang và mau sắc.
Trong nghiên cứu này chỉ phân loại bến loại lúa khác nhau cũng còn quá ít so với
nguồn đa dạng các giống lúa hiện nay
Nghiên cứu của L Zhao-yan và cộng sự [10] trích xuất đặc trưng trên từng hạt lúariêng lẻ để phân loại sáu loại lúa ey7954, syz3, xs11, xy5968, xy9308, z903 Các đặctrưng được xem xét gồm 7 đặc trưng màu sắc và 14 đặc trưng hình thái học Đặc trưngmàu sắc gồm giá trị trung tâm của các kênh màu R, G, B, H, S, I và độ lệch chuẩn của
H Các đặc trưng hình thái học của hạt lúa được liệt kê chỉ tiết như sau:
Diện tích của hạt.
Chiều dài của hạt bằng chiều dài hình chữ nhật bao quanh hạt lúa
Chiều rộng của hạt bằng chiều rộng hình chữ nhật bao quanh hạt lúa.
Độ dài trục lớn bằng khoảng cách của hai điểm thuộc đường nối dài nhất
trên hạt lúa.
Độ dài trục nhỏ bằng khoảng cách giữa hai điểm xa nhất thuộc hạt lúa và
được vẽ vuông góc với trục lớn.
Đường kính tương đương (D„): được tính bằng đường kính của đường tròn
có diện tích bằng điện tích vùng hạt lúa, được tính theo công thức (1.2)
q2)
với 4 là diện tích hạt lúa.
® Độ tròn của hạt lúa.
Ti số chiều dai hạt lúa và chiều rộng hạt lúa
Tỉ số độ dài trục lớn và độ dài trục nhỏ của hạt lúa
Diện tích lắp đầy bằng số điểm ảnh thuộc hạt lúa trong ảnh nhị phân trong
đó các lỗ hồng được lấp đầy và sau đó nhân với hệ số hiệu chỉnh
Trang 31¢ Dién tích bao lồi bằng diện tích đa giác nhỏ nhất bao quanh hạt lúa.
© _ Solidity: được tinh bằng ti lệ của diện tích hạt lúa và diện tích bao lồi
¢ Extent: được tính bằng tỉ lệ diện tích hạt và diện tích hình chữ nhật bao
quanh hạt lúa.
Sau khi áp dụng kỹ thuật phân tích thành phần chính (PCA), 17 đặc trưng được lựachọn để đưa vào mạng nơ ron phân loại Mô hình cho kết quả với độ chính xác
90,00%, 88,00%, 95,00%, 82,00%, 74,00%, 80,00% tương ứng với các loại lúa
ey7954, syz3, xsll, xy5968, xy9308, z903 Độ chính xác của xs11 cao nhất (95%) vì
nó khá khác biệt so với những loại lúa khác, trong khi đó độ chính xác phân loại
xy5968, xy9308, z903 thấp hơn do chúng có sự tương tự nhau về màu sắc và hình
dạng Trong nghiên cứu này, tác giả đã mô tả được giá trị màu trung tâm và độ lệch
chuẩn màu trên mỗi hạt lúa, tuy nhiên đặc trưng nay chưa mô tả được các vùng mau
chính trên hạt lúa, diện tích mỗi vùng màu.
A R Pazoki và cộng sự [11] thực hiện phân loại 5 loại hạt lúa được trồng ở các môitrường khác nhau ở Iran Mô hình mạng nhiều tang truyền thăng và mang neuro-fuzzyđược sử dụng dé phân loại 5 giống lúa ở Iran Cấu trúc của mạng truyền thẳng nhiềulớp gồm 39 nơ ron ở lớp vào, 5 nơ ron tương ứng với 5 loại lúa giống Khazar, Gharib,Ghasrdashti, Gerdeh and Mohammadi ở lớp ra và 2 lớp dn Các đặc trưng được sửdụng trong nghiên cứu này gồm 24 đặc điểm màu sắc, 11 đặc điểm hình thái và 4 yếu
tố về hình dạng Đặc trưng màu sắc gồm giá trị trung tâm và độ lệch chuẩn màu trongkhông gian màu RGB, HSV, YCbCr and I1I213 Đặc trưng hình thái học bao gồm:
© _ Diện tích của hạt lúa.
© Chu vi của hạt lúa.
© D6 dài trục lớn của hạt lúa.
e D6 dài trục nhỏ của hạt lúa.
e Tỉ lệ tương quan: K “# (1.3)
Trang 32trong đó L là độ dài trục lớn và / là độ dài trục nhỏ của hạt lúa.
© Đường kính tương đương được tính theo công thức (1.2).
« _ Diện tích bao lồi của hạt lúa
© Tinh chắc của hat bằng tỉ lệ diện tích hạt lúa và diện tích bao lồi
« _ Tỉ lệ diện tích hạt và diện tích hình chữ nhật bao quanh hat lúa.
trong đó L và A lần lượt là độ dài trục lớn và diện tích của hạt lúa
Độ chính xác của mô hình mạng nhiều tầng truyền thẳng và mạng neuro-fuzzy sau khi
áp dụng lựa chọn đặc trưng đạt lần lượt là 98,4% và 99,73% Với tập đặc trưng này,kết quả phân loại năm loại lúa khác nhau đạt độ chính xác trung bình khá cao Tuy
Trang 33nhiên, số lượng giống lúa được phân loại chỉ có năm loại là một hạn chế của nghiên
và mô hình Random Forest Bộ mô tả đặc trưng cơ bản gồm đặc trưng về màu sắc,hình thái học và kết cầu bề mặt của hạt lúa giống Đặc trưng hình thái học được chọngồm diện tích của hạt lúa, chiều dài của hạt lúa, chiều rộng của hạt lúa, tỉ lệ giữa chiềudai và chiều rong, chiều dai trục lớn của hat lúa, chiều dài trục nhỏ của hat lúa, diệntích bao lồi của hạt lúa, chu vi bao lỗi của hạt lúa Đặc trưng về màu sắc được tínhbằng giá trị màu trung tâm và căn bậc hai của ba kênh màu R, G, B Đặc trưng kết cấu
bề mặt bao gồm giá trị trung tâm, độ lệch chuẩn, độ đồng nhất, momen thứ ba Tuynhiên, hạn chế của nghiên cứu này là số lượng giống lúa phân loại ít Với các đặctrưng màu sắc gồm giá trị màu trung tâm chưa thê hiện sự phân bố màu trên hạt lúa.Hơn nữa, ảnh với độ phân giải 640 x 480 thì chất lượng chưa tốt đẻ phân tích các đặctrưng về kết cầu bề mặt hiệu quả hơn
Với đặc trưng bề mặt, đặc trưng được tính từ ma trận đồng hiện mức xám GLCM chothấy sự hiệu quả khi chúng được sử dụng trong các nghiên cứu sau đây Nghiên cứucủa Silva và Sonnadara [13] phân loại 9 giống lúa khác nhau được lấy từ Sri Lanka.Các đặc trưng về hình thái học, màu sắc và kết cấu bề mặt được tính trên từng hạtriêng lẻ Đặc trưng hình thái học gồm: chiều dài, chiều rộng, tỉ lệ giữa chiều dài vàchiều rộng của hạt lúa, diện tích bao lồi, độ lệch tâm, tỉ lệ diện tích hạt và diện tích chữnhật bao quanh hạt, vùng diện tích lắp đầy, độ dài trục chính, độ dài trục đối xứng và tỉ
lệ điện tích hạt và diện tích bao lồi Đặc trưng màu gồm giá trị trung bình của các kênhmàu R, G, B, H, S và I Và đặc trưng kết cấu bề mặt được tính từ ma trận đồng hiện
Trang 34mức xám Trong nghiên cứu này, ma trận đồng hiện mức xám được tính với khoảng
cách đ =4 và giá trị góc lần lượt là 0°, 45°, 90°, 135° Các đặc trưng bề mặt gồm năng
lượng, độ tương phản, entropy, độ tương quan, tính đồng nhất Cấu trúc mạng nơ ronđược sử dụng dé phân loại có bốn lớp gồm lớp ngõ vào, hai lớp ẩn và lớp ngõ ra.Trong đó, số node của lớp an (N) được tính theo nghiên cứu [5] Các thí nghiệm đượcthực hiện với từng tập đặc trưng riêng lẻ gồm hình thái học, màu sắc và kết cấu bềmặt Với đặc trưng kết cấu bề mặt, ba mô hình mạng nơ ron được áp dụng cho lần lượttừng tập đặc trưng trích xuất từ R, G và B Kết quả phân loại từ tập đặc trưng bề mặttrích xuất từ kênh màu R cho kết quả tốt nhất đạt 63% Thí nghiệm tiếp theo được thựchiện khi kết hợp cả ba tập đặc trưng gồm hình thái học, màu sắc và kết cấu bề mặt(kênh R), kết quả phân loại khá cao với độ chính xác đạt 92% Với kết quả từ các thí
nghiệm này, đặc trưng bề mặt nhận được từ kênh màu R cho khả năng phân loại tốt
hơn Tuy nhiên, hạn chế của nghiên cứu là đặc trưng màu sắc chỉ gồm giá trị màutrung bình của ba kênh R, G và B mà không xét đến các thông số khác như độ lệchchuẩn, giá trị màu cao nhất và thấp nhất, v.v Chỉ với giá trị màu trung bình thì chưathể hiện được sự phân biệt về màu sắc của các loại lúa vì có thể các giống lúa nào đó
có màu sắc khác nhau nhưng giá trị trung bình lại gần bằng nhau
Trong [14], đặc trưng hình dạng và GLCM được kết hợp với SVM nhiều lớp để phânloại 6 giống lúa Đặc trưng hình dạng bao gồm 15 đặc trưng hình học và 4 hệ số hìnhdạng GLCM được xem xét theo bốn hướng (0°, 45°, 90°, 135°) và bốn offset khácnhau để tạo ra 21 đặc trưng bề mặt Kết quả cho thấy 6 giống lúa ở tây Odisha (bang
miền đông An Ðộ) có thé được phân loại với độ chính xác 92%
Với nhiều giống lúa hơn được xem xét, tuy nhiên độ chính xác phân loại không cao ở
những nghiên cứu sau đây Trong [15], các tác giả sử dụng ảnh đường biên của các
mẫu lúa dé trích xuất đặc trưng bề mặt từ GLCM Mang nơ ron lan truyền ngược đượckết hợp dé nhận dang 15 giống lúa, và nhận được độ chính xác trung bình là 87,8%.Trong [16], các tác giả sử dụng đặc trưng hình thái học, màu sắc, và bề mặt để phân
loại 30 giống lúa cho độ chính xác bằng 89,1%.
Trang 351.3.2 Phương pháp áp dụng mang nơ ron tích chập
Với phân loại và nhận dạng mẫu, CNN là một mô hình cho độ chính xác khá cao [17]
[18] [19] [20] Khác với các phương pháp phân loại truyền thống, cơ sở dữ liệu ảnhđược đưa trực tiếp vào mô hình CNN mà không cần phải trích xuất đặc trưng [21]
Trong phân loại lúa hoặc gạo, việc lựa chọn mô hình CNN phù hợp giúp cải thiện độ
chính xác phân loại đáng kể [22] [23] [24] [25] Tác giả trong [23] tiến hành phân loại
14 giống lúa ở Thái Lan bằng năm mô hình CNN, bao gồm VGG16, VGG19,Xception, InceptionV3, va Inception ResNetV2 Dé so sánh hiệu suất phân loại với cácphương pháp truyền thống, các bộ phân loại gồm LR, LDA, k-NN, và SVM được kếthợp với đặc trưng được trích xuất của hạt lúa Các bước thực hiện nghiên cứu bao gồmtiền xử lý, trích xuất đặc trưng và phân loại Ở bước tiền xử lý, các hạt lúa được giữthắng hang và được quay cùng chiều với nhau Trong phương pháp kết hợp máy học,các giống lúa được trích xuất đặc trưng hình dạng, màu sắc với các đặc trưng trênkhông gian màu RGB, và bề mặt được áp dụng mẫu nhị phân cục bộ LBP cho ảnh xám
và các đặc trưng được tính từ GLCM Kết quả đạt được với mô hình InceptionResNetV2 cho độ chính xác cao nhất là 95,15%, trong khi độ chính xác cao nhất củacác phương pháp máy học thuộc về SVM với 90,61%
Một nghiên cứu khác [24] thực hiện phân loại 6 giống lúa ở Việt Nam với cơ sở ảnhlúa VNRICE Cơ sở dữ liệu ảnh này bao gồm ảnh của 1834 hạt giống BC-15, 2096 hạt
giống Hương thơm 1, 1399 hạt giống Nép-87, 1924 hạt giống Q-5, 1026 hạt giống
Thiên Ưu-8, và 2229 hạt giống Xi-23 Nghiên cứu này nhằm so sánh độ chính xácphân loại giữa các phương pháp trích xuất đặc trưng kết hợp với SVM và các phươngpháp áp dụng mạng nơ ron tích chập Các phương pháp trích xuất đặc trưng bao gồm
các phương pháp dựa trên mẫu nhị phân cục bộ LBP, mẫu bộ ba cục bộ LTP, đặc
trưng HOG, đặc trưng GIST, SIFT Các mô hình CNN bao gồm VGG16, VGG19,MobileNet, Xception, DenseNet121, v.v Kết quả cho thấy độ chính xác phân loại của
mô hình SVM khi kết hợp với các tập đặc trưng được trích xuất đạt được trong khoảng
từ 49,59% và 84,10% Trong khi đó, các mô hình CNN cải thiện đáng kể độ chính xác
phân loại Độ chính xác phân loại đạt được 96,94% với VGG16, 98,10% với Inception
V3, và cao nhất đạt được là 99,04% với mô hình DenseNet121
Trang 36Bên cạnh các nghiên cứu sử dụng ảnh RGB, một số nghiên cứu áp dung mô hình CNNvới ảnh siêu phổ dé phân loại lúa Nghiên cứu [22] sử dung ảnh siêu phỏ với hai daiphổ (380-1030 nm và 874-1734 nm) dé phân loại 4 giống lúa Dữ liệu phổ ở dải phổ 1(441-948nm) và dải phổ 2 (975-1646nm) được trích xuất Các mô hình phân loại gồmKNN, SVM và CNN được xây dựng với số mẫu huấn luyện khác nhau, thay đổi từ
100, 200, đến 3000 mẫu Mô hình CNN được xây dựng từ kiến trúc của VGGNet Kếtquả cho thấy các mô hình KNN, SVM và CNN với dữ liệu ở dải phô 2 đạt hiệu suất tốthơn với đải phổ 1 Bên cạnh đó, kết quả cũng được cải thiện khi tăng số mẫu huấnluyện, tuy nhiên sự cải thiện này không đáng kể khi số mẫu huấn luyện quá lớn Độchính xác của CNN tốt hơn KNN và SVM trong hầu hết các trường hợp Độ chính xáccao nhất đạt được với dải phô 2 của mô hình CNN bằng 87%, cao hơn so với sử dung
bộ phân loại SVM với 84% Một nghiên cứu khác sử dụng ảnh siêu phô với mạng
CNN để phân loại lúa cũng được báo cáo trong [25] Ảnh siêu phô với dai phổ 1734nm được thu của 7 giống lúa bao gồm 11038 mẫu Các mô hình SVM, LR vàmạng no ron tích chập rất sâu DCNN (Deep CNN) được áp dụng dé phân loại cácgiống lúa dựa vào các toàn dai bước sóng và bước sóng tối ưu Kiến trúc của DCNNbao gồm 4 module tích chập và hai lớp kết nói đầy đủ Mỗi module tích chập bao gồmhai lớp tích chập và được theo sau bởi một lớp max pooling Kết quả cho thấy tất cảcác mô hình dựa trên toàn dải bước sóng đạt kết quả tốt hơn so với khi dùng các bướcsóng tối ưu DCNN khi kết hợp với toàn dai bước sóng nhận kết quả tốt nhất với độchính xác gần đạt 100% cho cả tập huấn luyện và tập kiểm tra
874-1.3.3 Nhận xét về các nghiên cứu phân loại giống lúa
Với các nghiên cứu đã công bố về phân loại các giống lúa, kỹ thuật xử lý ảnh được sửdụng dé trích xuất các đặc trưng về mau sắc, hình dạng, kết cấu bề mặt của hat lúa.Đặc trưng màu sắc bao gồm giá trị màu trung bình và độ lệch chuẩn màu Về hìnhdang, các thông số mô tả kích thước, hình thái học của hạt lúa được tính như chiều dài,chiều rộng, độ dài trục lớn, độ dài trục nhỏ, tỉ lệ giữa các cạnh, diện tích, chu vi, đườngkính, diện tích đa giác lồi, tỉ lệ bao lồi, tính tròn, tính rắn chắc, v.v Đặc trưng kết cấu
bề mặt được tính trực tiếp từ giá trị các điểm ảnh hoặc từ ma trận đồng hiện mức xám.Các mô hình phân loại như ANN, SVM, RF, v.v được sử dụng trong nhiều nghiên cứu
Trang 37Tuy nhiên, trong các nghiên cứu đã công bố vẫn còn một số hạn chế trong trích xuất
đặc trưng Đặc trưng giá trị màu trung bình và độ lệch chuẩn màu chưa mô tả đầy đủ
thông tin về màu trên hạt lúa Các vùng màu khác nhau trên hạt lúa cũng như diện tích
từng vùng màu chưa được xem xét trong các nghiên cứu.
Trong những nghiên cứu phân loại lúa đã trình bày ở trên, đặc trưng kết cấu bề mặtbao gồm các mô tả cơ bản và đặc trưng tính từ GLCM được áp dụng trong nhiềunghiên cứu Các mô tả cơ bản được tính cho ảnh xám bao gồm giá trị trung tâm, độlệch chuẩn, độ đồng nhất, momen thứ ba, v.v Các đặc trưng được tinh từ GLCM gồmnăng lượng, độ tương phan, entropy, độ tương quan, tính đồng nhất Kết quả đạt được
của các nghiên cứu này lần lượt là 90,54% với phân loại 6 giống lúa ở Việt Nam [12],
92% với phân loại 9 giống lúa từ Sri Lanka [13], 92% với 6 giống lúa ở tây Odisha(bang miền đông Án Ðộ) [14] Tuy nhiên, khi thực hiện phân loại với nhiều giống lúa
hơn, độ chính xác phân loại không cao Kết quả đạt được 87,8% khi phân loại 15
giống lúa [15] và 89,1% khi phân loại 30 giống lúa [16] Trong nghiên cứu [7], các tácgiả đã thực hiện phân loại với số lượng giống lúa thay đổi, bao gồm 6, 20, 40, 60, 80
và 90 giống lúa bằng ảnh RGB và ảnh siêu phổ Kết quả độ chính xác phân loại giảmdần từ gần 97,5% với 6 giống lúa, dưới 90% với 20 giống lúa, dưới 87,5% với 40giống lúa, đưới 82,5% với 60 giống lúa, dưới 80% với 80 giống lúa và 90 giống lúa
Với mạng nơ ron tích chập, kết quả độ chính xác phân loại được cải thiện đáng kể sovới các phương pháp phân loại truyền thống Một số mô hình CNN như VGG16,
ResNet, DenseNet121 cho kết quả phân loại khá cao trong phân loại lúa Trong nghiêncứu [23], 14 giống lúa ở Thái Lan được phân loại bằng năm mô hình CNN, bao gồmVGG16, VGG19, Xception, InceptionV3, va Inception ResNetV2 Kết quả độ chínhxác cao nhất đạt được là 95,15% với mô hình Inception ResNetV2 Trong khi độ chínhxác cao nhất đạt được với phương pháp máy học như SVM bằng 90,61%, cao hơn các
bộ phân loại khác như LR, LDA, k-NN Một nghiên cứu khác cũng cho kết quả khá
cao, đạt 99,04% với mô hình DenseNet121 khi phân loại 6 giống lúa ở Việt Nam [24].
Tuy nhiên, số lớp (số giống lúa) được thực hiện phân loại trong những nghiên cứu này
vẫn chưa nhiều
Trang 381.4 Ly do chọn hướng nghiên cứu
Như vậy, qua các nghiên cứu đã công bố về phân loại giống lúa được phân loại vẫncòn hạn chế Với những nghiên cứu có số giống lúa lớn hơn thì kết quả phân loạikhông cao Với các phương pháp phân loại truyền thống bao gồm máy học kết hợp vớiđặc trưng hạt lúa, các tác giả chưa trích xuất nhiều về màu sắc và kết cấu bề mặt của
hạt lúa Với màu sắc, giá trị màu trung bình và độ lệch chuẩn màu chưa mô tả đầy đủ
về màu sắc của hạt lúa Với kết cầu bề mặt, các nghiên cứu chỉ tính các mô tả cơ bản
và đặc trưng tính từ GLCM mà chưa áp dụng các phương pháp phân tích bề mặt khác
Vì vậy, luận án này hướng đến xem xét nhiều giống lúa hơn để phân loại, đồng thờinghiên cứu nhằm nâng cao hơn nữa độ chính xác phân loại với nhiều giống lúa cóquan sát bên ngoài khá giống nhau, dé gây nhằm lẫn với nhau Ở đồng bằng sông CửuLong là nơi có chủng loại đất phong phú, hàm lượng dinh dưỡng cao Các giống lúađược trồng chủ yếu ở đây gồm vụ mùa, vụ đông xuân và vụ hè thu Tuy nhiên, đâycũng là địa hình bị ảnh hưởng bởi tình trạng xâm nhập mặn nên có nhiều giống lúamới được tạo ra nhằm thích ứng với những biến đổi này Vì vậy, nghiên cứu này phầnlớn chọn các giống lúa đang được trồng ở đồng bằng sông Cửu Long dé phân loại
Với phương pháp phân loại bằng máy học truyền thống kết hợp trích xuất đặc trưnghạt lúa, luận án này sẽ hướng đến trích xuất nhiều hơn, chỉ tiết hơn về các đặc trưngbên ngoài của hạt lúa nhằm tránh bỏ sót những đặc trưng hiệu quả cho phân loại Saukhi xây dựng tập đặc trưng chỉ tiết về màu sắc, hình thái học, kết cấu bề mặt, phươngpháp chọn lựa đặc trưng sẽ được áp dung nhằm chọn lọc những đặc trưng hiệu quả và
từ đó nâng cao độ chính xác phân loại Với đặc trưng bề mặt, ngoài phương pháp dùng
ma trận đồng hiện mức xám, luận án này cũng hướng đến phương pháp phân tích bềmặt khác nhằm nâng cao độ chính xác phân loại giống lúa
Bên cạnh đó, luận án này cũng sẽ hướng đến áp dụng các mạng nơ ron tích chập nhằm.nâng cao hơn nữa độ chính xác phân loại Qua các nghiên cứu đã công bố, các mạngVGG16 và ResNet cho kết quả phân loại khá cao Vì vậy, nghiên cứu này đề xuất các
mô hình hiệu chỉnh từ VGG16 và ResNet50 cho phân loại giống lúa
Trang 391.5 Mục tiêu và nội dung nghiên cứu của đề tài
1.5.1 Mục tiêu
Nghiên cứu này nhằm nâng cao độ chính xác của các phương pháp phân loại 17 giốnglúa có quan sát bên ngoài khá giống nhau và phần lớn đang được trồng ở đồng bằngsông Cửu Long, Việt Nam Phương pháp trích xuất đặc trưng của ảnh lúa kết hợp vớiphương pháp máy học được thực hiện bằng bộ phân loại BPSO+SVM, SVM và ANN.Tập mô tả gồm nhiều đặc trưng về màu sắc, hình thái học và màu sắc kết hợp vớiBPSO+SVM để đánh giá và lựa chọn tập đặc trưng hiệu quả nhằm nâng cao độ chính
xác phân loại Bên cạnh phương pháp phân tích bề mặt dựa trên ma trận đồng hiệnmức xám, phương pháp phân tích bề mặt dựa trên mẫu bộ ba cục bộ (LTP) cũng được
đề xuất để kết hợp với SVM và ANN Để nâng cao độ chính xác phân loại, hai môhình mạng no ron tích chập được hiệu chỉnh từ VGG16 và ResNet50 được kết hợpcùng với cơ sở dữ liệu ảnh để phân loại 17 giống lúa trên
1.5.2 Nội dung nghiên cứu
Trong nghiên cứu nay, 17 giống lúa ở Việt Nam được sử dụng đê phân loại với các môhình BPSO+SVM, SVM, ANN, và các mô hình mạng nơ ron tích chập gồm VGGI6hiệu chỉnh và ResNet50 hiệu chỉnh Các ảnh lúa được trích xuất đặc trưng về màu sắc,hình thái học và bề mặt để tạo ra tập đặc trưng tông cộng Tập đặc trưng này được đưa
vào SVM và phương pháp đề xuất BPSO+SVM Đồng thời, ảnh lúa cũng được trích
đặc trưng bề mặt đề xuất gọi là đặc trưng ILTP mở rộng Tập đặc trưng này được đưavào mô hình SVM và ANN Bên cạnh đó, tập dữ liệu ảnh được đưa trực tiếp vào mạng
nơ ron tích chập gồm VGG16 hiệu chỉnh và ResNet50 hiệu chỉnh Sau khi các tập dữliệu được đưa vào các mô hình để huấn luyện và kiểm tra, độ chính xác và confusion
matrix được tính toán nhằm đánh giá và so sánh hiệu suất phân loại của các mô hình.
Nội dung nghiên cứu được thể hiện trong Hình 1.2
1.6 Phương pháp nghiên cứu
Trong tổng quan các nghiên cứu về phân loại giống lúa thông qua ảnh hạt lúa, phương.pháp được báo cáo trong nhiều nghiên cứu là áp dụng kỹ thuật xử lý ảnh đề trích xuất
Trang 40đặc trưng của ảnh lúa và sau đó kết hợp với các phương pháp máy học đẻ phân loạigiống lúa Kết hợp tham khảo từ những nghiên cứu đã có cùng với những đề xuất chonhững đặc trưng mới, nghiên cứu này xây dựng tập đặc trưng tổng cộng bao gồm nămtập con, được gọi là màu cơ bản, màu phân cụm, hình thái học, bề mặt thống kê vàGLCM Tập đặc trưng tông cộng này được đưa vào BPSO+SVM để lựa chọn tập đặctrưng nhằm nâng cao độ chính xác cho phân loại 17 giống lúa.
Khi đánh giá hiệu quả phân loại 17 giống lúa của các tập đặc trưng con trong tập đặc
trưng tổng cộng, đặc trưng bề mặt cho kết quả cao hơn so với đặc trưng màu sắc và
hình thái học khi kết hợp với SVM Vì vậy, nghiên cứu này đã tập trung vào đặc trưng
bề mặt của hạt lúa Trong các phương pháp trích xuất đặc trưng bề mặt cho bài toánphân loại, phương pháp mẫu bộ ba cục bộ (LTP) và một số phương pháp cải tiễn của
nó mang lại nhiều lợi ích như bất biến với phép quay, giảm nhạy với nhiễu, giảm sốđặc trưng, và tăng độ phân biệt cho các đặc trưng Từ đó, nghiên cứu này đề xuất tậpđặc trưng bề mặt cho 17 giống lúa, được gọi là ILTP mở rộng Để đánh giá hiệu quảphân loại của tập đặc trưng đề xuất này, nghiên cứu đã áp dụng lần lượt SVM và ANN
Hình 1.2 Các nội dung thực hiện nghiên cứu.