Áp dụng LDA phân biệt địa lý vùng trồng gạo ST25 b- 123docz.net

4. Đối tượng và phạm vi nghiên cứu

3.3.1 Áp dụng LDA phân biệt địa lý vùng trồng gạo ST25 bằng dữ liệu FTIR

được 3 loại gạo từ 3 vùng khác nhau: Sóc Trăng, Bạc Liêu và Kiên Giang. Ta thấy mẫu gạo ST25 trồng tại Sóc Trăng phân biệt được so với 2 loại trồng ở Bạc Liêu và Kiên Giang.

3.3. PHƯƠNG PHÁP PHÂN TÍCH PHÂN BIỆT TUYẾN TÍNH ĐỐI VỚI MẪU GẠO ST25 GẠO ST25

3.3.1 Áp dụng LDA phân biệt địa lý vùng trồng gạo ST25 bằng dữ liệu FTIR FTIR

Cũng giống như đối với thuật toán PCA, thuật toán LDA cũng được sử dụng để phân biệt giống gạo. Dữ liệu gốc dạng số của phổ FTIR sau khi áp

3286.107 2927.412 1643.053 1546.63 1419.351 1338.356 1149.366 1076.084 995.0887 933.3778 852.3822763.6728705.8188524.5429 574.683 447.4042 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 F2 (6. 29 %) F1 (92.87 %) Active variables

dụng phương pháp Phân tích phân biệt tuyến tính (LDA) thông qua phần mềm XLSTAT được cài đặt tích hợp trên nền tảng Excel thì cho kết quả như sau:

Hình 3.8 Biểu đồ LDA của 3 giống gạo ST25

Hình 3.9 Biểu đồ sự phân bố độ hấp thụ quang phổ của 3 giống gạo ST25 Bảng 3. 7 Ma trận đánh giá nhầm lẫn cho các kết quả xác nhận chéo

Mẫu SSóc Trăng Kiên Giang Bạc Liêu Tổng % Sóc Trăng 24 0 0 12 100% Kiên Giang 0 12 0 12 100% Bạc Liêu 0 0 12 12 100% Tổng 24 12 12 48 100% 3286.107 2927.412 1643.053 1546.63 1419.351933.37781338.3561149.3661076.084995.0887 852.3822763.672705.8188 574.683 524.5429 447.4042 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 -1 -0.75 -0.5 -0.25 0 0.2 5 0.5 0.75 1 F1 (91.42 %)

Đối với việc áp dụng kỹ thuật LDA, các mẫu gạo được phân loại dựa vào mô hình dự đoán các nhóm dựa trên độ hấp thụ quang phổ hồng ngoại. Các mẫu được phân nhóm thành 1 trong 3 nhóm dựa trên phương pháp này với độ chính xác 100%. Hình trên mô tả biểu đồ phân tán hai chiều của F1 và F2, thể hiện trực quan sự phân tách nhóm trong không gian đa chiều. Các điểm cùng màu trong hình elip và những điểm nằm trên hình elip đều thuộc cùng 1 nhóm (1 giống gạo ST25) điều này có thể nhìn thấy dễ dàng.

Bảng 3. 8 Tương quan hợp quy và hệ số hàm phân biệt hợp quy

Bước sóng F1 F2 Bước sóng F1 F2 3286,107 0.908 -0.087 995,08 0.886 0.024 2927,412 0.895 -0.042 933,37 0.385 0.068 1643,053 0.736 -0.033 852,38 -0.455 0.126 1546,63 -0.062 0.07 763,67 -0.398 0.116 1419,251 0.381 0.061 705,81 -0.358 0.114 1338,356 0.513 0.039 574,68 -0.213 0.238 1149,366 0.735 0.050 524,54 -0.339 0.271 1076,084 0.814 0.051 447,40 -0.715 0.088 Từ các giá trị nhận được của các bảng và hình đã được trình bày ở trên, cho thấy rằng LDA dễ dàng tách ba nhóm và phân loại chính xác các trường hợp. Trên 90% các trường hợp được kiểm tra chéo và cho kết quả một cách chính xác.

Tiếp tục thử nghiệm phương pháp này đối với mẫu gạo ST25 giả. Kết quả được thể hiện ở hình sau:

Hình 3.10 Biểu đồ LDA của 3 giống gạo ST25 và mẫu lạ

Hình 3.11 Biểu đồ phân bố hấp thụ quang phổ của 3 giống gạo và mẫu lạ

Bảng 3.9 Ma trận đánh giá nhầm lẫn cho các kết quả xác nhận chéo

Mẫu Sóc Trăng Kiên Giang Bạc Liêu Tổng % Sóc Trăng 24 0 0 12 100% Kiên Giang 0 12 0 12 100% Bạc Liêu 0 0 12 12 100% Mẫu lạ 0 0 0 6 100% Tổng 24 12 12 54 100%

Do có sự hiệc diễn của mẫu lạ nên các yếu tố ảnh hưởng đến sự phân biệt 3 loại gạo ST25 và mẫu lạ bị thay đổi. Tuy nhiên, các mẫu được phân thành 1

3286.107 2927.412 1643.053 1546.63 1419.3511338.3561149.3661076.084995.0887 933.3778 852.3822763.6728705.8188 574.683 524.5429 447.4042 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 -1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 F2 (23. 84 %) F1 (72.30 %)

việc áp dụng phương pháp phân tích tuyến tính đối với các mẫu gạo ST25 trên thiết bị FTIR, phân biệt được 3 loại gạo ST25 được trồng tại 3 vùng khác nhau tại Đồng bằng sông Cửu Long. Hơn nữa phương pháp này cũng cho phép phát hiện được mẫu lạ.

Nhận xét chung:

Trong nghiên cứu này sử dụng dữ liệu đo mẫu bằng phổ FTIR để tiến hành phân biệt bằng 3 dạng thuật toán là HCA, PCA và LDA, đây là 3 dạng thuật toán chính thường sử dụng để phân biệt nguồn gốc và phân loại các đối tượng. Dữ liệu FTIR được lựa chọn lấy 16 bước sóng để áp dụng vào các thuật toán phân biệt. Từ các kết quả phân biệt bằng các thuật toán HCA, PCA và LDA, có một số nhận xét chung như sau:

Thuật toán HCA không phân biệt được chính xác các nhóm đối tượng mẫu. Ngay cả để phân biệt giống thì cũng có thể bị nhầm lẫn. Tuy nhiên thuật toán HCA lại phù hợp để lập hồ sơ cho các đối tượng mẫu. Do đó các nghiên cứu tiếp theo chỉ nên sử dụng HCA để lấy các thông tin về hồ sơ đối tượng mẫu. Sử dụng thuật toán PCA và LDA thì có thể phân biệt được nguồn gốc gạo ST25 có thể chính xác đến cấp tỉnh, còn các cấp thấp hơn thì không thể sử dụng dữ liệu FTIR vì dữ liệu không ổn định.

- Phương pháp phân biệt bằng PCA và LDA khá giống nhau. Một số chỗ LDA có khả năng tách biệt tốt hơn PCA, thể hiện qua khoảng cách giữa các điểm với nhau. Ta thấy một số chỗ LDA tách tốt hơn nhưng một số chỗ PCA lại tách tốt hơn. Do đó khi đưa vào áp dụng thực tế để truy xuất nguồn gốc và phân biệt các nhóm mẫu cần phải sử dụng cả 2 phương pháp để đánh giá rồi mới lựa chọn ra phương pháp tối ưu. Phương pháp phân tích bằng FTIR khá đơn giản, cho kết quả phân tích khá nhanh, nên nếu chỉ phân biệt vùng địa lý và đến đơn vị hành chính cấp tỉnh hoặc phân biệt các giống gạo ST25 thì có thể sử dụng phép đo này sau đó áp dụng các phương pháp thống kê để phân biệt thì có thể truy xuất được nguồn gốc của gạo ST25. Phương pháp này có ưu điểm nhanh và rẻ tiền mà vẫn cho độ chính xác cần thiết. Bộ số liệu thống kê không quá phức tạp.

3.4 XÂY DỰNG PHƯƠNG PHÁP TRUY XUẤT NGUỒN GỐC THỰC PHẨM

Từ kết quả nghiên cứu tối ưu hóa điều kiện lập hồ sơ của gạo ST25 trong các phần trước đó, tiến hành xây dựng phương pháp lập hồ sơ và truy xuất nguồn gốc thực phẩm.

Phương pháp truy xuất nguồn gốc thực phẩm là mục tiêu được đặt ra của nghiên cứu này. Việc lập hồ sơ thực phẩm một phần để quản lý và đảm bảo chất lượng thực phẩm và một phần là để có thể truy xuất nguồn gốc thực phẩm. Nghiên cứu này đã tiến thành thử nghiệm với việc áp dụng thuật toán PCA và LDA để phân biệt được nguồn gốc thực phẩm với các dữ liệu đo đạc được trên FTIR. Do đó việc tiến hành xây dựng phương pháp truy xuất nguồn gốc dựa trên hai phương pháp này.

Quy trình thực hiện

Hình 3.12 Sơ đồ quy trình phương pháp truy xuất nguồn gốc thực phẩm bằng FTIR

Mô tả các bước thực hiện quy trình truy xuất nguồn gốc bằng phương pháp hóa học trên thiết bị FTIR như sau:

Bước 1 – Thu nhận mẫu: Các mẫu được thu nhận cần đảm bảo có đầy đủ các thông tin: loại giống, nguồn gốc xuất xứ, thương hiệu....

Bước 2 - Xử lý mẫu: Tùy thuộc vào loại mẫu ta chọn quy trình xử lý khác nhau, ví dụ xử lý mẫu rắn ( gạo, mì tôm, hạt tiêu...). Tiến hành nghiền hoặc xay mẫu trước khi sàng qua rây Mesh 60 (250µm) và Mesh 100 (149µm). Giữ lại mẫu trên rây Mesh 100 (149 - 250µm). Tiếp theo, sấy mẫu trong thời gian và nhiệt độ phù hợp ( ví dụ sấy gạo ở nhiệt độ 55ºC trong 6-8 tiếng), để nguội mẫu trong bình hút ẩm trong thời gian 30 – 45 phút ngay sau khi lấy ra từ máy sấy. Lấy khoảng 10g mẫu đựng trong túi zip có mã hóa để đo FTIR, phần còn lại được lưu và bảo quản. Hoặc khi xử lý mẫu lỏng (bia, rượu...) chỉ cần mã hóa mẫu và cho mẫu vào bình chứa mẫu phù hợp để chuyển bị đo FTIR.

Bước 3 – Đo quang phổ hồng ngoại mẫu mẫu: Bật và chờ khoảng 30 phút để máy hoạt động ổn định; sau đó cài đặt chế độ quét trong khoảng từ 400 - 4000 cm-1 với 32 lần quét. Tiến hành đo cho 1g mẫu lên khu vực đo, mỗi mẫu đo ít nhất 5 lần, đo thêm nếu xuất hiện sai lệch lớn. Lấy số liệu trung bình của 5 lần đo hoặc lấy số liệu đại diện của các lần đo và lưu file dữ liệu trên máy tính.

Bước 4 - Xử lý số liệu bằng Unscrambler X 10.4: để đưa dữ liệu của phổ về dạng spreadsheet (dạng số), từ dữ liệu phổ dạng hình ảnh lựa chọn lấy các giá trị đỉnh cực đại. Sau đó, chọn ra 15 – 20 bước sóng.

Bước 5 – Test PCA và LDA: Các dữ liệu được áp dụng phương pháp thống kê đa biến (PCA và LDA) thông qua phần mềm XLSTAT được cài đặt tích hợp trên nền tảng Excel. Thiết lập các thông số của phần mềm XLSTAT để đạt độ tin cậy >95%. Sau đó xác định độ chính xác, nếu dưới 90% thì thực hiện lại bước xử lý và đo lại mẫu, nếu trên 90% thì tiếp tục các bước tiếp theo.

Bước 6 - Đưa dữ liệu lên Orichain ( nền tảng xác định nguồn gốc thực phẩm dựa trên thành phần hóa học): Dữ liệu được định dạng theo file CSV. Đưa số liệu cần truy xuất lên hệ thống theo danh mục đã thiết lập.

Bước 7 – Nhận kết quả: Kết quả được hiển thị trên phần mềm Orichain với các thông số về nhận diện mẫu cần truy xuất là giống gì, sản phẩm của công ty nào, trồng ở khu vực địa lý nào và chính xác bao nhiêu phần trăm.

Phương pháp truy xuất nguồn gốc thực phẩm thực hiện trên FTIR có thể đạt được độ chính xác lên đến hơn 98%.

Áp dụng LDA phân biệt địa lý vùng trồng gạo ST25 bằng dữ liệu FTIR

CÁC PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU

Phân tích phổ hồng ngoại gạo ST25