Giống thóc Số mẫu Giống thóc Số mẫu
Bắc thơm -7 3227 TBR-45 869 BC-15 1789 TCH 263 Hương thơm -1 1039 TH3-3 1122 J-02 1116 TH3-4 1398 Kháng dân - 18 1597 TH3-5 1014 N-97 563 Thiên ưu -8 1026 Nếp-87 1399 Thơm-RVT 1146 Q-5 398 Việt lai – 20 244 TBR-1 409 VS-1 161 TBR-36 1136 Xi-23 2229
Do tính chất của bài toán nhận dạng thóc giống là nhận dạng xem hạt thóc kiểm tra trong lô thóc đã được xác định từ trước có đúng là thóc giống của loại đó hay không vì vậy đối với mỗi loại thóc giống sẽ xây dựng hai tập mẫu là tập chứa các ảnh là chính hạt thóc giống đó (postive) và một tập chứa các loại thóc khác có thể bị lẫn vào lô thóc kiểm tra (negative). Theo quy định của việc kiểm tra thóc giống, tập negative có tối đa 5 loại thóc lẫn, vì vậy, để phù hợp với thực tế, tôi lựa chọn ngẫu nhiên 5 loại thóc giống khác loại với tập postive. Tiếp theo là gán nhãn cho những tập này, với mô hình học từ điển thưa LC-KSVD, đầu vào của mô hình là dữ liệu kiểu số nên lớp chứa các hạt thóc đúng giống thóc cần kiểm tra sẽ được gán nhãn 1 và lớp chứa các hạt thóc có thể bị lẫn vào lô thóc kiểm tra (thóc khác thóc cần kiểm tra) sẽ được gán nhãn 0. Thực nghiệm lấy nhãn của tất cả các mẫu và chia thành hai phần: với khoảng 2/3 số lượng mẫu cho phần học và phần còn lại sử dụng cho quá trình kiểm tra mô hình học sau đó.
Kích thước ảnh của từng hạt thóc giống qua quá trình phân tách nền, tiền xử lý không đạt được sự đống nhất gây khó khăn đáng kể trong quá trình chuẩn hóa dữ liệu để đưa vào mô hình học từ điển. Để giảm bớt khó khăn này, tôi đã sử dụng thêm phần trích chọn đặc trưng sử dụng 18 đặc trưng cơ bản của từng hạt thóc bao gồm: 8 đặc trưng hình thái, 6 đặc trưng về màu sắc và 4 đặc trưng về cấu trúc được Phan Thị Thu Hồng và các cộng sự đề xuất [3].
3.1.2. Cài đặt
Với việc sử dụng mô hình từ điển có đảm bảo tính thưa LC-KSVD, các tham số để cài đặt mô hình bao gồm: dictsize – kích thước từ điển, sparsitythres – tham số đảm bảo tính thưa của mô hình từ điển, sqrt_alpha – trọng số cho thành phần nhãn phù hợp, sqrt_beta – trọng số cho thành phần lỗi phân lớp, iterations – số vòng lặp, iterations4ini – số vòng lặp cho việc khởi tạo.
Hai tham số quan trọng ảnh hưởng lớn tới kết quả nhận dạng của mô hình được đề cập đến trong luận văn này là dictsize và sparsitythres. Ban đầu tôi giữ nguyên dictsize là 100 và thay đổi sparsitythres từ 60 đến 90 thì nhận thấy hiệu suất phân lớp của mô hình không thay đổi. Bảng 3.2 đưa ra kết quả ví dụ minh chứng về việc thay đổi tham số sparsitythres của giống thóc Bắc thơm 7, các giống thóc còn lại đều cho kết quả tương tự.