4. Đối tượng và phạm vi nghiên cứu
2.4. CÁC PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU
Phổ dữ liệu được chỉnh sửa lại đường cơ sở (baseline) và chuyển đổi thành số dữ liệu định dạng trên Excel qua công cụ The Unscrambler X 10.4. Các chính thông tin trên dải phổ được sàng lọc và rút gọn dựa trên các đỉnh khác nhau, tạo nên một tệp dữ liệu mới. Dựa trên nền tảng hệ thống XLSTAT 2016.02.28451, PCA – phân tích thành phần chính and LDA – phân tích tuyến tính: PCA là một công cụ phát triển nhằm xuất các điểm chính từ tệp dữ liệu đa chiều và chuyển chúng thành một tệp dữ liệu mới ít chiều hơn, được sắp xếp theo biến thiên biến thiên thứ tự hoặc sai phương pháp. Qua đó, từ một gốc tập tin dữ liệu ban đầu, thông qua sự kết hợp tính toán, tập tin dữ liệu mới được tạo ra, có kích thước nhỏ gọn hơn mà vẫn đảm bảo các chính thông tin và yêu cầu. Trong khi PCA là công cụ trích xuất, chuyển đổi và nén dữ liệu, LDA có thể trích xuất các dữ liệu khác biệt thông tin và kết hợp các tính năng thông tin đó, cung cấp khác biệt giá trị lớn nhất trong tệp dữ liệu [13]. HAC Trong nghiên cứu này, 3 phương pháp nêu trên sẽ được khảo sát và so sánh để tìm ra sự tối ưu của phương pháp cho các loại mẫu gạo.
2.4.1. Phương pháp phân tích thành phần chính (PCA)
Principal Component Analysis (PCA): Phân tích thành phần chính.
- Là phương pháp giảm chiều dữ liệu sao cho lượng thông tin về dữ liệu thể hiện được giữ lại nhiều nhất
- Phương pháp dựa trên quan sát dữ liệu không phân bố ngẫu nhiên trong không gian mà thường phân bố gần các đường/mặt đặc biệt nào đó
- PCA thuộc loại Unsupervised learning (học không giám sát): chỉ sử dụng các vector mô tả dữ liệu mà không dùng tới labels. Tức là học dữ liệu mà không biết trước các thông tin đặc điểm của class, thay vào đó là nhận biết nhiều nhất các thông tin của class để phân biệt chúng với nhau. [14]
- PCA là phương pháp đi tìm một hệ cơ sở mới sao cho lượng thông tin của dữ liệu chủ yếu tập trung ở một vài đặc điểm quan trọng (thành phần chính), phần còn lại chỉ mang một lượng nhỏ thông tin (thành phần phụ). Số lượng thông tin trong không gian mới có thể là bất kì số nào không lớn hơn số chiều và số điểm của dữ liệu ban đầu.
- Vì lượng thông tin mà PCA tìm được là nhiều nhất nên trong các bài toán Classification (bài toán phân loại) nhiều khi các thông tin sẽ bị chồng lên nhau vì có thể các điểm thành phần của các dữ liệu là giống nhau. Tuy nhiên nếu phân biệt được các thông tin này giữa các dữ liệu khác nhau thì phương pháp này thực sự hiệu quả cho các bài toán phân loại. Trong trường hợp các thông tin dữ liệu bị chồng lên nhau tại các điểm đại diện sẽ gây khó khăn cho việc phân loại dữ liệu, do đó trong một vài trường hợp không phải việc giữ lại thông tin nhiều nhất sẽ luôn mang lại kết quả tốt nhất từ đó PCA đôi khi không phù hợp với các bài toán phân loại. Chú ý rằng điều này không có nghĩa là việc sử dụng thành phần phụ mang lại hiệu quả tốt hơn thành phần chính, nó chỉ là một trường hợp đặc biệt.Từ đó Linear Discriminant Analysis (LDA) được ra đời để giải quyết vấn đề này.
2.4.2. Phương pháp phân tích phân biệt tuyến tính (LDA)
- LDA là phương pháp giảm chiều dữ liệu cho các bài toán phân loại - LDA được coi là phương pháp giảm chiều dữ liệu và cũng được coi là một phương pháp phân lớp, và cũng có thể được áp dụng đồng thời cho cả hai
- LDA thuộc loại Supervised learning (học giám sát): giảm chiều dữ liệu có sử dụng thông tin về nhãn của dữ liệu. Là phương pháp lọc dữ liệu khi đã có đủ những thông tin đặc điểm của dữ liệu sau đó tìm ra những thông tin đặc trưng của mỗi class mà không giống với các classes khác để phân biệt các dữ liệu với nhau. [15]
- “Discriminant” được hiểu là nhưng thông tin đặc trưng cho mỗi class, khiến nó không lẫn với các class khác.
- “Linear” được dùng vì cách giảm dữ liệu được thực hiện bằng phép biến đổi tuyến tính.
2.4.3. Phương pháp phân tích chia nhóm dựa trên dấu hiệu đặc trưng (AHC): (AHC):
- Là một kỹ thuật phổ biến trong thống kê được sử dụng để nhóm các đối tượng có chung đặc điểm
CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN
Như đã trình bày ở các phần trước, việc lập hồ sơ thực phẩm để có thể
xác định được nguồn gốc thực phẩm, nhất là nguồn gốc về mặt địa lý hoặc nguồn gốc về sản phẩm theo cách thức canh tác trồng trọt khác nhau. Phương pháp lập hồ sơ thực phẩm không những chỉ phân tích thành phần, hàm lượng các chất có trong thực phẩm mà còn phải sử dụng các kỹ thuật hóa học hoặc sinh học để xác định các đặc trưng khác nhau của thực phẩm mới có giá trị trong truy xuất nguồn gốc thực phẩm. Phụ thuộc vào điều kiện của phòng thí nghiệm mà người ta sử dụng các công cụ phân tích phù hợp để xác định đặc trưng riêng của từng loại thực phẩm. Trong nghiên cứu này, sử dụng tổng hợp nhiều thiết bị phân tích hóa học khác nhau để xây dựng phương pháp lập hồ sơ đối với gạo ST25.
Theo phần lấy mẫu trong chương 2 đã trình bày, các mẫu gạo ST25 được lấy thuộc 3 địa phương. Các kết quả phân tích thu thập được sẽ được đưa vào phần mềm thống kê xử lý số liệu và phân loại thành các vùng riêng biệt và đánh giá khả năng truy xuất nguồn gốc của từng phương pháp.
3.1. KHẢO SÁT HỒ SƠ HÓA HỌC GẠO ST25 TRÊN THIẾT BỊ QUANG PHỔ HỒNG NGOẠI FTIR HỒNG NGOẠI FTIR
3.1.1. Phân tích phổ hồng ngoại gạo ST25
Phương pháp đo phổ nói chung dựa vào độ hấp thụ hoặc độ truyền qua
của ánh sáng để từ đó đưa ra cường độ tín hiệu tùy thuộc vào từng bước sóng. Đường đi của ánh sáng phụ thuộc vào nhiều yếu tố gây ảnh hưởng đến phương pháp đo phổ như nhiệt độ, độ ẩm, thời gian sử dụng của thiết bị… Trong nghiên cứu này không tiến hành khảo sát nhằm đánh giá các yếu tố ảnh hưởng đến phương pháp đo mà chỉ khảo sát độ ổn định của phương pháp qua nhiều lần đo trên cùng một đối tượng mẫu gồm: khảo sát độ ổn định theo thời gian đo, khảo sát độ lặp lại với các mẫu được trải đều lên miếng kim loại đưa vào buồng đo. Các kết quả được trình bày trong các hình dưới đây cho các mẫu gạo ST25 nghiên cứu.
Hình 3.1 Phổ hồng ngoại gạo ST25
Hình 3.2 Phổ hồng ngoại của 17 mẫu gạo ST25
Các kết quả cho thấy phổ hồng ngoại FTIR có độ lệch giữa các lần đo. Khoảng dao động của độ hấp phụ tại các điểm của 17 mẫu gạo ST25 hơi có chút khác biệt.
Phổ FTIR của 17 mẫu gạo ST25 được chồng lên cùng một biểu đồ như
trong hình dưới đây cho thấy chỉ có sự khác biệt nhỏ mà nếu nhìn vào mắt thường thì khó có thể phân biệt được.
Đối với thiết bị quang phổ hồng ngoại khó có thể xác định được hàm lượng từng chất mà chỉ định xác định được các nhóm chức qua các đỉnh cực đại.
Theo kết quả chồng lấp các phổ hồng ngoại của các mẫu gạo ST25 nhận
thấy rằng nếu nhìn bằng mắt thường rất khó có thể phân biệt được các loại gạo ST25 với nhau qua phổ hồng ngoại. Do đó, thu gọn lại chỉ lấy các đỉnh cực đại. Phổ hồng ngoại rút gọn được trình bày trong hình dưới đây.
Hình 3. 3 Phổ hồng ngoại của mẫu gạo ST25
Tuy nhiên, theo kết quả phân tích phổ này cũng không thể nhận thấy có sự
khác biệt giữa các loại mẫu gạo ST25 nếu nhìn bằng mắt thường. Nhìn chung, thành phần hợp chất của gạo xay là rất phức tạp; bên cạnh một số thành phần cấu tạo chính được xác định, có rất nhiều các hợp chất nhỏ lẻ khác chưa được làm rõ, nhưng chúng chắc chắn sẽ đóng góp vào dải phổ hồng ngoại. Các nhóm chức xác định được gồm: từ bước sóng 3500 nm đến 3050 nm (dao động của nhóm –OH và –NH); từ bước sóng 3050 nm đến 3000 nm (dao động của nhóm NH+); từ bước sóng 3000 nm đến 2800 nm (dao động của nhóm C-H); từ bước sóng 1750 nm đến 1650 nm (dao động của nhóm C=O); từ bước sóng 1650 nm đến 1600 nm (dao động của nhóm C=C); từ bước sóng 1450 nm đến 1000 nm (dao động của nhóm C-O); từ bước sóng 1000 nm đến 500 nm (dao động biến dạng).[16] [17]
Bảng 3. 1 Dải phổ FTIR của gạo ST25 [18] [19]
Bước sóng (cm-1) Nhóm chức Dự đoán
3255-3278 Dao động kéo dài của O-H và nhóm N-H
Polysaccharides, protein
2926 C-H không đối xứng hoặc đối xứng kéo dài
Chủ yếu là chất béo không bão hòa ngoài ra: protein, cacbohydrat, axit
nucleic
1637 C=O kéo dài Protein
1533 C-N kéo dài, N-H bẻ cong Protein
1423 Rung động liên kết C-H Anken
1338 CH3 dao động uốn Lipids, protein 1149 Dao động kéo dài liên kết C-
O
Lipids, protein
1076 C-O kéo dài -
400-1000 “ vùng vân tay” -
3.1.2 Nghiên cứu lập hồ sơ phổ hồng ngoại của các mẫu gạo ST25
3.1.2.1 Đánh giá hồ sơ phổ hồng ngoại của các mẫu gạo ST25
Hồ sơ phổ hồng ngoại của từng mẫu gạo ST25 được đo 6 lần bằng FTIR được ghi lại theo tín hiệu bước sóng và lưu dưới dạng sơ đồ hóa của cường độ tín hiệu trên file excel. Các thông tin về pổ và thông tin về mẫu được lưu trữ trên máy tính. Thông tin của các mẫu gần nhau về vị trí địa lý được lưu trữ cùng nhau để tiện cho việc xử lý số liệu.
Giá trị cường độ tín hiệu trung bình của 16 bước sóng đặc trưng của phổ FTIR của 3 mẫu gạo ST25 được trồng tại 3 vùng (GST01: Sóc Trăng, GST02: Kiên Giang, GST03: Bạc Liêu) được thể hiện ở bảng dưới đây:
Bảng 3. 2 Độ hấp thụ quang phổ hồng ngoại của các mẫu gạo ST25 Bước sóng Độ hấp phụ hồng ngoại trung bình GST01 GST02 GST03 3286,421 0.1711±0.006 0.1827±0.0042 0.1654±0.0047 2927,412 0.1097±0.0065 0.1203±0.005 0.1098±0.007 1643,053 0.0712±0.00065 0.0492±0.0005 0.0713±0.0007 1546,63 0.0502±0.00048 0.0562±0.0006 0.0513±0.0004 1419,251 0.0580±0.0008 0.0589±0.0004 0.0556±0.0005 1338,356 0.0761±0.0007 0.0831±0.0003 0.0597±0.0004 1149,251 0.0905±0.0007 0.1022±0.0045 0.0769±0.0007 1076,084 0.1457±0.005 0.1766±0.0037 0.0952±0.00017 995,08 0.0675±0.0005 0.066±0.0006 0.1522±0.0071 933,37 0.0488±0.0006 0.0473±0.0003 0.0692±0.00049 852,38 0.0509±0.0005 0.0528±0.00011 0.0504±0.00011 763,67 0.0539±0.00051 0.496±0.00021 0.0513±0.0005 705,81 0.0621±0.0008 0.0675±0.00012 0.0536±0.0006 574,68 0.0539±0.00051 0.0657±0.00011 0.0630±0.0006 524,54 0.0539±0.0004 0.0561±0.0004 0.0589±0.00013 447,40 0.04879±0.00011 0.0396±0.0008 0.0520±0.00011
Từ số liệu độ hấp thụ quang phổ cho thấy không có sự khác biệt đáng kể
giữa các đặc điểm phổ của chúng ngoài những thay đổi nhỏ về độ hấp thụ của một số dải cũng như một số thay đổi về vị trí chính xác của các dải. Điều này cho thấy thành phần gạo ST25 ảnh hưởng đến vị trí chính xác của dải và cũng ảnh hưởng đến sự thay đổi trong phổ hồng ngoại. 16 dải phổ chính cho thấy các dải hấp thụ ở các số sóng khác nhau, như sau: Bước sóng 3286 cm–1 đặc trưng cho dao động hóa trị của nhóm N-H; bước; bước sóng 1643 cm–1 đặc trưng cho dao động hóa trị nhóm C=O của chất béo; bước sóng 1546 cm–1 đặc trưng cho dao động hóa trị nhóm C-N và N-H (đây là dải amin bậc I; và cũng là dải amin chính); bước sóng 1419 cm–1 đặc trưng cho nhóm CH2 của chất béo; bước sóng 1338 cm–1 đặc trưng cho nhóm CH3 của protein và dao động hóa trị đối xứng nhóm COO- của chất béo và amino axit; bước sóng 1149 cm–
ester và dao động hóa trị nhóm C-O của oligosaccharides và triacylglycerols; bước sóng 1076 cm–1 đặc trưng dao động hóa trị nhóm C-O của tinh bột. Ngoài các dải quang phổ phát sinh từ các thành phần gạo, ba dải phát sinh từ môi trường cũng được phát hiện. Dải nhỏ từ 4000 đến 3500 cm – 1 được được đặc trưng cho nhóm O-H của hơi nước, và hai dải còn lại tương ứng với carbon dioxide là O-C-O ở 2442–2208 cm -1 và O-C-O ở 914–400 cm-1. [20] [21].
3.1.3.2. Kết quả nghiên cứu lập hồ sơ phổ hồng ngoại của gạo ST25
Do số lượng mẫu khá lớn và nhiều dữ liệu thu được từ phổ hông ngoại gây khó khăn trong viêc phân tích số liệu. Sử dụng phương pháp phân tích cụm phân cấp, hay phân tích nhóm thứ bậc (Hierarchical Clustering Analysis- HCA) vì đây là phương pháp phổ biến nhất trong khoa học dữ liệu - một kỹ thuật máy học không được giám sát cho phép tìm thấy các cấu trúc trong dữ liệu mà không cần thiết đưa ra thông tin chi tiết cụ thể. Trong phân tích cụm, dữ liệu được phân vùng thành tập dữ liệu, các nhóm có thuộc tính tương tự được hiển thị qua các điểm dữ liệu được sắp xếp thành các cụm sao cho có “mức độ tương tự trong cụm cao” và “mức độ tương tự giữa các cụm thấp”. Trong nghiên cứu này, phương pháp phân tích CA được lựa chọn là phương pháp phân tích cụm tích tụ dựa vào phương sai là “thủ tục Ward” trong loại thủ tục phân cụm thứ bậc (Hierarchical clustering). Theo thủ tục Ward thì ta sẽ tính giá trị trung bình tất cả các biến cho từng cụm một; sau đó, tính khoảng cách Euclid bình phương (Squared Euclidean distance) giữa các phần tử trong cụm với giá trị trung bình của cụm, rồi lấy tổng tất cả các khoảng cách bình phương này. Ở mỗi giai đoạn tích tụ, hai cụm có phần tăng trong tổng các khoảng cách bình phương trong nội bộ cụm nếu kết hợp với nhau là nhỏ nhất sẽ được kết hợp. Kết quả của việc lập hồ sơ phổ hồng ngoại cho từng nhóm đối tượng gạo ST25 bằng phương pháp phân tích cụm (HCA) được trình bày dưới đây gồm:
- Hồ sơ phổ hồng ngoại đặc trưng của các giống gạo ST25
Với các kết quả phân tích phổ hồng ngoại của các giống gạo ST25, bảng kết quả về điểm giữa (khá giống với giá trị trung bình nhưng đã được xử lý qua phân tích cụm) và điểm mẫu trung vị (mẫu có giá trị ở khoảng giữa)
Bảng 3. 3 Giữ liệu hồ sơ điểm giữa và điểm mẫu trung vị mẫu gạo đo bằng FTIR
Bước sóng (cm-1)
Điểm giữa Điểm mẫu trung vị
GST01 GST02 GST03 GST01 GST02 GST03 3286,107 0.397 0.176 0.146 0.388 0.192 0.123 2927,412 0.207 0.119 0.091 0.203 0.126 0.077 1643,053 0.105 0.078 0.052 0.100 0.087 0.048 1546,63 0.049 0.057 0.032 0.047 0.063 0.031 1419,251 0.065 0.063 0.037 0.065 0.068 0.035 1338,356 0.073 0.066 0.039 0.073 0.072 0.037 1149,366 0.112 0.087 0.058 0.110 0.093 0.052 1076,084 0.143 0.103 0.073 0.140 0.108 0.063 995,08 0.279 0.165 0.130 0.270 0.167 0.107 933,37 0.077 0.076 0.048 0.079 0.083 0.045 852,38 0.037 0.057 0.029 0.040 0.062 0.030 763,67 0.041 0.059 0.031 0.044 0.066 0.033 705,81 0.045 0.062 0.033 0.046 0.068 0.036 574,68 0.058 0.073 0.043 0.057 0.077 0.045 520,54 0.050 0.069 0.37 0.045 0.072 0.038 447,40 0.021 0.056 0.028 0.019 0.066 0.025
Điểm mẫu trung vị của giống GST01 là mẫu được thu thập tại tỉnh Sóc
Trăng. Theo đó, mẫu GST02 được thu thập tại tỉnh Bạc Kiêu, và GST03 được thu thập tại tỉnh Kiên Giang.
Các kết quả cho thấy điểm giữa và điểm mẫu trung vị khá khác nhau. Mặt khác các giống mẫu gạo ST25 sau khi qua phân tích cụm để lập hồ sơ cũng có điểm khá khác biệt. Khoảng cách giữa các giá trị điểm giống của dữ liệu giá trị điểm giữa được trình bày trong bảng dưới đây.
Bảng 3. 4 Khoảng cách giữa giống với dữ liệu FTIR về các giá trị điểm giữa
Mẫu gạo
Điểm giữa Điểm mẫu trung vị
GST01 GST02 GST03 GST01 GST02 GST03
GST01 0 0.274 0.336 0 0.247 0.358
GST02 0.274 0 0.115 0.247 0 0.167
GST03 0.336 0.115 0 0.358 0.167 0
Ngoài ra, một hệ thống các cụm thường được biểu diễn bằng một biểu đồ phân tích cụm-dendrogram, hình dưới đây. Công dụng chính của phân tích cụm là tìm ra cách tốt nhất để phân bổ các đối tượng vào các cụm. Biều đồ này mô tả chi tiết vị trí của từng mẫu gạo ST25, cho biết cả sự giống nhau trong các cụm và trình tự mà chúng được hình thành. Độ dài của các nhánh phác thảo bản chất phân cấp và lặp lại của thuận toán. Biểu đồ đã thể hiện