─ ii ─ TÓM TẮT Cà phê là một trong những thức uống phổ biến nhất trên thế giới và theo sự phát triển của xã hội, nhu cầu thưởng thức cà phê đặc sản ngày càng tăng, điều này góp phần làm
Phương pháp nghiên cứu
Nội dung nghiên cứu
Với mục tiêu chung là xây dựng một “bản đồ” phân hoá cà phê Việt Nam, nghiên cứu gồm 2 mục tiêu chính là:
- Xây dựng bộ dữ liệu cà phê gồm thông tin về tính chất vật lý và các thành phần hoá học chính, kết hợp với các phương pháp phân tích dữ liệu để xác định đặc trưng cà phê Robusta vùng có chỉ dẫn địa lý Buôn Ma Thuột với các vùng địa lý khác
- Sử dụng phổ UV–VIS và NIR của cà phê nhân kết hợp với các phương pháp phân tích dữ liệu để xây dựng mô hình phù hợp nhằm nhận diện cà phê Robusta có chỉ dẫn địa lý Buôn Ma Thuột để phát triển phương pháp xác thực nhanh nguồn gốc của cà phê nhân
Phương pháp phân tích chính xác
Xử lý mẫu Đánh giá mô hình
Thu nhận & đánh giá bộ dữ liệu
Hình 3 1 Sơ đồ tiến trình nghiên cứu
Nguyên liệu
124 mẫu cà phê nhân được thu nhận từ Tây Nguyên, đại diện cho các khu vực địa lý khác nhau (Hình 3 2) Trong tổng số 124 mẫu thu nhận, có 24 mẫu được thu nhận từ vùng thuộc chỉ dẫn địa lý BMT và 100 mẫu cho các vùng còn lại (Bảng phụ lục 1) Trong đó, 30 mẫu Đắk Lắk, 25 mẫu Đắk Nông, 39 mẫu Gia Lai, 16 mẫu Lâm Đồng và
5 mẫu Kon Tum) Nguyên tắc lấy mẫu là chọn các huyện có diện tích canh tác cà phê lớn Các nông hộ cà phê được chọn để lấy mẫu không nằm trong cùng một ấp và không liền kề Nhằm tăng tính đại diện của mẫu, lập phiếu (thăm) cho các nông hộ được chọn tại địa phương, tiến hành bốc thăm ngẫu nhiên để chọn ra nông hộ cần đến lấy mẫu trực tiếp với số lượng mẫu phù hợp với độ ẩm mẫu thấp hơn 12,5% (w/w) theo TCVN 4193–
2012 và bảo quản mẫu trong túi zip nhôm hai mặt ở 4°C, độ ẩm 60 - 65%
Hình 3 2 Bản đồ thu nhận mẫu tại Tây Nguyên
Hóa chất nghiên cứu
Hầu hết các thí nghiệm sử dụng nước cất như dung môi trích ly Các loại hoá chất phân tích sử dụng trong nghiên cứu này được trình bày được trong Bảng 3.1
Bảng 3 1 Hoá chất phân tích dùng trong nghiên cứu
Tên hoá chất (Công thức phân tử) Nguồn gốc Thí nghiệm và mục đích sử dụng
Dichloromethane (CH2Cl2) Trung Quốc Định lượng caffeine
Gallic acid (C6H2(OH)3COOH) Đức Định lượng phenolic tổng Sodium carbonate (Na2CO3) Trung Quốc
Trolox (6–hydroxy–2,5,7,8– tetramethylchroman–2–carboxylic acid) Đức Xác định hoạt tính kháng oxy hoá theo DPPH
Methanol (CH3OH) Trung Quốc
Diethyl ether (CH3OCH3) Trung Quốc Định lượng lipid tổng DNS (3,5–dinitrosallicylic acid) Đức Định lượng đường khử
Phương pháp nghiên cứu
Tại các nông hộ của địa phương, các mẫu được chứa trong các bao tải 60kg Để đảm bảo tính ngẫu nhiên và đại diện, sử dụng que xiên lấy mẫu chuyên dụng lấy mẫu cà
55 phê nhân ở ba vị trí có độ cao khác nhau (đỉnh, thân và đáy bao) sao cho thu được khoảng 1kg mẫu Dụng cụ chứa mẫu là túi zip nhôm 2 mặt, đã được kí hiệu mã mẫu cho trước
Trước khi tiến hành thí nghiệm, các mẫu cà phê nhân được loại bỏ tạp chất (vỏ, lá, cành cây, đất, đá) và thu thập mẫu trung bình từ các mẫu trên Trải cà phê ra một mặt phẳng, xáo trộn một cách ngẫu nhiên rồi lấy mẫu ở 8 vị trí như Hình 3.3 sao cho thu được khoảng 100g mẫu Dụng cụ chứa mẫu là túi zip nhôm 2 mặt, đã được kí hiệu tương ứng
Tất cả túi zip chứa mẫu đều được bảo quản ở 4℃, độ ẩm khoảng 60 – 65% Cần lưu ý các mẫu phải được đưa về nhiệt độ phòng trước khi làm thí nghiệm
Hình 3 3 Vị trí lấy mẫu
3.3.2 Phân tích các đặc trưng vật lý, hoá học của các mẫu cà phê
Mục tiêu nội dung: Xác định tính chất vật lý và thành phần hoá học của các mẫu cà phê nhân để xây dựng cơ sở dữ liệu nhằm phục vụ việc xây dựng mô hình hồi quy từ kết quả của phương pháp quang phổ
Phương pháp tiến hành o Chuẩn bị mẫu: Lấy mẫu hạt hoặc bột phù hợp với mục đích thí nghiệm như mô tả trong Mục 3.3.1 o Các chỉ tiêu phân tích
▪ Phân hạng cà phê theo kích thước sàng
▪ Hàm lượng chất khô hoà tan
▪ Hoạt tính kháng oxy hoá
Phương pháp tiến hành phân tích được trình bày chi tiết trong Phụ lục B
3.3.3 Quét phổ NIR bằng thiết bị quang phổ NIR cầm tay
Mục tiêu nội dung: Thu nhận phổ NIR trong vùng bước sóng 900 – 1700nm của các mẫu cà phê nhân làm dữ liệu để xây dựng mô hình phân nhóm và hồi quy
Phương pháp tiến hành: Các mẫu cà phê nhân nguyên (mô tả Mục 3.3.1) đã được thu nhận phổ hấp thụ cận hồng ngoại bằng thiết bị quang phổ cận hồng ngoại cầm tay DLP ® NIRscan™ Nano EVM của Texas Instruments trong khoảng bước sóng từ 900 – 1700nm
3.3.4 Thu nhận phổ UV–VIS bằng máy đo quang phổ UV–VIS
Mục tiêu nội dung: Thu nhận phổ UV–VIS trong vùng bước sóng 200 – 700nm của dịch trích các mẫu cà phê nhân để xây dựng mô hình phân nhóm và hồi quy
Phương pháp tiến hành: Trích ly bột cà phê nhân (lấy mẫu như Mục 3.3.1) với nước cất theo tỉ lệ 1,00g: 25mL ở 90°C trong 30 phút bằng bể điều nhiệt Lọc huyền phù
57 để thu nhận pha lỏng và pha loãng dịch trích thu được theo tỉ lệ 1:200 Tiến hành quét phổ UV–VIS trong vùng bước sóng 200 – 700nm bằng máy quang phổ Shimadzu UV– 2600i
Dữ liệu từ các tính chất vật lý và thành phần hoá học của cà phê nhân sẽ được phân tích phương sai – Analysis of Variance (ANOVA) Số liệu xử lý sẽ là trung bình của 3 lần đo
Dữ liệu từ phổ NIR và phổ UV–VIS đều thu nhận dưới dạng file excel Các phép phân tích xử lý đa chiều bao gồm các phép tiền xử lý, mô hình phân nhóm được xử lý thông qua phần mềm Stand Alone Chemometrics Software – Solo version 8.9 (Eigenvector Research Inc.) Xử lý đa chiều còn được sử dụng để đánh giá cấu trúc dữ liệu và phân nhóm (sử dụng PCA) cà phê nhân theo tính chất vật lý và hoá học thu được Đối với kết quả quét phổ NIR, dữ liệu là dãy sóng đa biến ứng với từng biến là giá trị log1
R (với R là hệ số phản xạ) Đối với phổ UV–VIS, giá trị thu nhận được là độ hấp thu A Đối với các mô hình phân nhóm dựa trên dữ liệu phổ, sẽ phân nhóm theo đặc điểm tính chất địa lý Các biến định tính là cà phê nhân Robusta có chỉ dẫn địa lý BMT và không có chỉ dẫn địa lý
BIẾN Y Biến phụ thuộc (Response)
Sử dụng mô hình phân loại
BIẾN X Biến không phụ thuộc (Predictors)
Dữ liệu theo chỉ dẫn địa lý
Lập mô hình với dữ liệu (X và Y khai báo trước, với mỗi phép tiền xử lí, mỗi cách xử lý mẫu từng đôi một)
Lựa chọn thông số tốt nhất cho từng mô hình đối với mỗi loại phép tiền xử lí và cách xử lí mẫu đi kèm
Lựa chọn phép tiền xử lí và cách xử lí mẫu đi kèm tốt nhất cho từng mô hình
Lựa chọn mô hình thể hiện tốt nhất
Diễn tả sự ảnh hưởng của biến X lên Y
Biểu diễn thông số mô hình và độ tin cậy mô hình được chọn
Hình 3 4 Sơ đồ tóm tắt phương pháp xử lý dữ liệu
Dữ liệu phổ đưa vào xử lý là số liệu đã qua trung bình các lần đo Các phương pháp tiền xử lý sử dụng gồm: D & S bậc I và II; MSC; SNV; MC Đầu tiên, sử dụng phương pháp PCA cho dữ liệu phổ để đánh giá sơ bộ cấu trúc dữ liệu và cân nhắc loại bỏ outlier (nếu có) Tiếp theo, ứng với mỗi mô hình, các phép tiền xử lý sẽ lần lượt được sử dụng và đánh giá dựa trên các tiêu chí đánh giá mô hình Phương pháp tiền xử lý cho mô hình tốt nhất sẽ được tiếp tục sử dụng kết hợp với các phương pháp khác và đánh giá, cuối cùng chọn được mô hình với phương pháp tiền xử lý phù hợp nhất Lúc này, mô hình với kết quả tốt nhất cho phương pháp phân tích trên sẽ tiếp tục được biểu diễn, mô tả và phân tích một cách chi tiết hơn Lặp lại quy trình trên với các phương pháp phân tích khác
Mô hình sẽ được đánh giá dựa trên các thông số chung (các phép phân tích sở hữu) và các thông số riêng (đặc trưng của phép phân tích) Các thông số dùng để đánh giá thông qua các tập dữ liệu kiểm chứng chéo dùng để đánh giá khả năng dự đoán của mô hình cho các mẫu mới không dùng để xây dựng mô hình Kiểm chứng chéo sử dụng với số lần phân tách dữ liệu là k Các thông số chung sẽ bao gồm sai số phân loại hiệu chỉnh chéo (Root mean square of error calibration-RMSEC), sai số phân loại kiểm chứng chéo (Root mean square of error cross–validation - RMSECV), sai số phân loại dự đoán (Root mean square of error prediction - RMSEP), kiểm chứng chéo (cross– validation, Độ đặc hiệu (Specificity) và độ nhạy (Sensivity) Các thông số riêng của từng mô hình sẽ được bàn luận cụ thể ở Chương 4
Kết quả và bàn luận
Tính chất vật lý và thành phần hóa học của cà phê
4.1.1.1 Kích thước hạt cà phê và các tính chất liên quan
Y: (Cà phê thuộc chỉ dẫn địa lý Buôn Ma Thuột)
N: (Cà phê không thuộc chỉ dẫn địa lý Buôn Ma Thuột)
Hinh 4 1 Boxplot kích thước ba chiều hạt cà phê nhân theo chỉ dẫn địa lý
Kích thước cà phê nhân là một tiêu chí quan trọng trong việc phân hạng cà phê dựa trên số sàng cũng như đánh giá chất lượng của nguyên liệu Phân tích ANOVA cho thấy kích thước vật lý cũng như các tính chất liên quan của hạt cà phê nhân Robusta có chỉ dẫn địa lý BMT và nhóm không có chỉ dẫn địa lý BMT không có sự khác biệt Cụ thể, chiều dài, chiều rộng và bề dày trung bình của hạt Robusta có chỉ dẫn địa lý BMT lần lượt là 9,50 ± 0,61 a mm; 7,06± 0,51 a mm và 4,44 ± 0,37 a mm với khoảng dao động tương ứng là 7,93 – 11,04mm; 5,82 – 8,19mm và 4,05 – 5,85mm Kích thước chiều dài,
62 chiều rộng và bề dày trung bình của hạt Robusta nhóm không có chỉ dẫn địa lý BMT là 9,59±0,57 a mm; 7,11± 0,47 a mm; 4,43± 0,35 a mm với khoảng dao động tương ứng là 8,38 – 11,24mm; 6,05 – 8,28mm và 3,67 – 5,62mm
Kết quả này có sự chênh lệch đối với nghiên cứu của Viện Nghiên cứu và Phát triển Nông nghiệp Malaysia (MARDI) (1986) chỉ ra rằng kích thước chiều dài trung bình của hạt Robusta lại nhỏ hơn nghiên cứu của chúng tôi (8mm) [35] Độ cầu và tỉ lệ tương quan giữa chiều dài và chiều rộng được dùng để tính toán trong quá trình truyền khối và truyền nhiệt [36] Nghiên cứu cho thấy giá trị trung bình độ cầu của hạt Robusta Y và N lần lượt là 0,71 ± 0,03 a % và 0,70 ± 0,03 a % (trong khoảng 0,63 – 0,83%) Kết quả này hoàn toàn phù hợp với nghiên cứu của Ismail (2014) với giá trị trung bình độ cầu của hạt Robusta là 0,72% [37] Tỉ lệ tương quan của hạt Robusta Y, N trong nghiên cứu này không thể hiện sự khác biệt có ý nghĩa (α
= 5%) và có giá trị trung bình lần lượt là 0,76 ± 0,06 a % và 0,75 ± 0,04 a % (trong khoảng 0,64 – 1,00% đối với Robusta)
Tương tự, diện tích bề mặt cũng không thể hiện sự khác biệt, với giá trị trung bình của Robusta vùng Y là 441,72 ± 60,59 a mm 2 và của hạt Robusta vùng N là 445,23 ± 52,11 a mm 2
Như vậy, kích thước vật lý và các tính chất liên quan các hạt Robusta với chỉ dẫn địa lý BMT và không có chỉ dẫn địa lý về cơ bản là không có sự khác biệt
4.1.1.2 Phân hạng cà phê nhân theo số sàng
So sánh kích thước hạt cà phê Robusta có chỉ dẫn địa lý và không có chỉ dẫn địa lý, ta thấy phân bố trên các sàng tương đối gần giống nhau, cụ thể kích thước của nhóm thuộc chỉ dẫn địa lý BMT có kích thước trên sàng 18: 35.93%, trên sàng 16: 36,91%; trên sàng 13: 28.30%; và phần dưới sàng 13: 1.30% so với nhóm không thuộc chỉ dẫn địa lý lần lượt là: 34,18%; 37,67%; 35,12%; 2,16% Do Robusta không có chỉ dẫn địa lý có tỉnh Đắk Nông với phân hạng sàng chủ yếu ở sàng 18 (phụ lục C.7) nên làm cho số liệu tổng hợp chung cho kết quả như Hình 4.2
Hinh 4 2 Phân hạng theo số sàng của cà phê Robusta có chỉ dẫn địa lý và không có chỉ dẫn địa lý 4.1.1.3 Khối lượng 100 hạt, mật độ khối
Khối lượng cà phê là một dấu hiệu quan trọng để tính toán khối lượng riêng cà phê và đánh giá chất lượng [29] Giá trị trung bình của 100 hạt của cà phê Robusta có chỉ dẫn địa lý BMT là 16,17 ± 3,54 a g (trong khoảng 10,18 – 24,47g) và thấp hơn không đáng kể khối lượng riêng của hạt Robusta thuộc nhóm không có chỉ dẫn địa lý là 17,16 ± 3,16 a g (trong khoảng 12,05 – 26,77g)
Mật độ khối trung bình của cà phê Robusta có chỉ dẫn địa lý BMT là 0,718 ± 0,04 a g/cm 3 (trong khoảng 0,560 – 0,774g/cm 3 ) và của hạt Robusta thuộc nhóm không có chỉ dẫn địa lý là 0,717 ± 0,03 a g/cm 3 (trong khoảng 0,620 – 0,776g/cm 3 ) Các giá trị này có cao hơn một chút so với nghiên cứu tương tự của Bicho (2013) cho rằng giá trị trung bình của cà phê nhân dao động trong khoảng 0,6 – 0,7 g/cm 3 [30] Giá trị mật độ khối cho thấy số lượng hạt Robusta không có sự khác biệt của hai nhóm có chỉ dẫn địa lý BMT cũng như nhóm không có chỉ dẫn địa lý BMT
Kết quả phân tích phương sai ANOVA cho thấy không có sự khác biệt đáng kể (α = 5%) của khối lượng hạt cà phê cũng như mật độ khối trung bình ở cả hai nhóm theo chỉ dẫn địa lý
Hinh 4 3 Boxplot các tính chất về khối lượng 100 hạt, mật độ khối hạt cà phê nhân theo chỉ dẫn địa lý
4.1.1.4 Màu sắc của cà phê nhân
Khi so sánh giữa hai nhóm theo chỉ dẫn địa lý BMT và nhóm không có chỉ dẫn địa lý, kết quả cho thấy độ sáng (L*), tính chất xanh lá/ đỏ (a*) và xanh dương/ vàng (b*) của cà phê Robusta vùng có chỉ dẫn địa lý BMT lần lượt là 50,19 ± 3,60 a (trong khoảng 43,69 – 57,31); 2,80 ± 0,94 a (trong khoảng 01,69 – 5,36); 11,45 ± 1,06 a (trong khoảng 8,37 – 13,21) đều thấp hơn trung bình của nhóm không có chỉ dẫn địa lý BMT lần lượt là độ sáng L*: 50,26 ± 4,45 a (trong khoảng 37.23 – 59.64) ; tính chất xanh lá/ đỏ a*: 2,83 ± 1,11 a (trong khoảng 0,27 – 6,14) và xanh dương/ vàng (b*) 11,63 ± 1,26 a [31]
Hinh 4 4 Boxplot các tính chất về màu sắc của hạt cà phê nhân theo chỉ dẫn địa lý
Trong 2 nhóm Robusta Y và N, theo phân tích ANOVA không có sự khác biệt đáng kể ở α = 5%
Thành phần hóa học của cà phê bao gồm hàm ẩm cà phê nhân, tổng hàm lượng chất khô hòa tan, độ pH của dịch trích, hàm lượng caffein, hàm lượng các chất phenolic tổng và hoạt tính kháng oxy hoá, hàm lượng lipid tổng và hàm lượng đường khử được
4.1.2.1 Hàm ẩm bột cà phê nhân
Hàm ẩm của các mẫu bột cà phê nhân Robusta dao động từ 5,83 – 9,79%, trong đó nhóm thuộc chỉ dẫn địa lý BMT có hàm ẩm 7,81± 0,70 a (%wb) và nhóm không có chỉ dẫn địa lý BMT là 7,62 ± 0,72 a (%wb) Ramalakshmi và cộng sự đã báo cáo giá trị hàm ẩm thấp hơn từ 5,32 – 7,04% [32], sự khác biệt nhỏ trên có thể được giải thích bởi sự khác nhau trong công nghệ sau thu hoạch, điều kiện bảo quản và cả điều kiện nghiền Tuy vậy kết quả độ ẩm theo chỉ dẫn địa lý không có sự khác biệt đáng kể
Hinh 4 5 Boxplot độ ẩm cà phê nhân theo chỉ dẫn địa lý 4.1.2.2 Tổng hàm lượng chất khô hoà tan
Bicho và cộng sự đã báo cáo hàm lượng chất khô hòa tan của cà phê Robusta (Ấn Độ) trong khoảng từ 33,44 – 34,48 g/100g, thấp hơn so với tổng hàm lượng chất khô hoà tan của các mẫu cà phê Việt Nam có hàm lượng chất khô trung bình của 2 nhóm thuộc chỉ dẫn địa lý BMT và nhóm không thuộc chỉ dẫn địa lý lần lượt là là 31,23 ±
2,01 a % (trong khoảng 28.00 – 34,71 %) và 31,70 ± 2,01 a % (trong khoảng 26,30 – 35,64 %), so với kết quả của Bicho và cộng sự [33], ta thấy rằng do lượng mẫu thu thập lớn và chất lượng cà phê nhân không ổn định giữa các vùng trồng cà phê với nhau nên khoảng dao động lớn hơn và xuất hiện sự khác biệt ý nghĩa nhờ vào lượng mẫu lớn và đa dạng hơn Hàm lượng chất khô hòa tan cao hơn có thể liên quan đến các thành phần hóa học khác (như hàm lượng carbohydrate tổng, hàm lượng protein, khoáng, và một số các alkaloids có mặt trong hạt cà phê) ngoài các thành phần hóa học (như hàm lượng caffeine, hàm lượng polyphenol tổng) đã ảnh hưởng đáng kể đến tính chất hóa học này
Hinh 4 6 Boxplot hàm lượng chất khô hoà tan cà phê nhân theo chỉ dẫn địa lý 4.1.2.3 Độ pH của dịch trích Độ pH của dịch trích bột cà phê nhân Robusta theo chỉ dẫn địa lý không có sự khác biệt đáng kể ở α = 5%, với độ pH trung bình của nhóm thuộc chỉ dẫn địa lý BMT là 6,21± 0,11 a và nhóm còn lại là 6,23± 0,11 a Điều này có thể được giải thích do số lượng mẫu không thuộc chỉ dẫn địa lý BMT lớn và trải rộng hơn so với số lượng mẫu thuộc chỉ dẫn địa lý BMT nên làm cho giá trị trung bình ở 2 phân loại xấp xỉ nhau
Hinh 4 7 Boxplot độ pH dịch trích cà phê nhân theo chỉ dẫn địa lý
Phổ NIR của cà phê nhân
Dữ liệu phổ NIR của 124 mẫu định danh được quét dưới dạng nguyên hạt và được biểu diễn với trục hoành là bước sóng (nm) và trục tung là 1 logR (AU) 124 phổ NIR thu được từ thư viện mẫu cho thấy hình dạng phổ có 2 peak nhỏ tại bước sóng 1175 và 1430 nm, đồng thời có xu hướng giảm dần đều giá trị 1 logR (AU) từ bước sóng trở đi Hình dạng phổ tương tự khi quét NIR từ hạt cà phê nhân cũng được ghi nhận đối với nghiên cứu của Marquetti [15] và Díez [5] Đồng thời, ta cũng nhận thấy hai đầu phổ tín hiệu bị nhiễu và tạo nên các peak nhọn nhiều
4.2.2 Phân tích số liệu phổ NIR để truy xuất nguồn gốc địa lý của cà phê nhân
Mô hình xây dựng từ dữ liệu dạng hạt với phép tiền xử lý SNV kết hợp với đạo hàm và làm mượt (Derivative and Smoothing Sal–Gov) cải thiện khả năng dự đoán cũng
Hinh 4 14 Phổ NIR của hạt cà phê nhân theo chỉ dẫn địa lý (phổ chưa qua xử lý)
74 như giảm lỗi của mô hình Mô hình PLS DA trong tất cả các mô hình cho kết quả tốt nhất với sai số phân loại kiểm chứng chéo chỉ có 0,11290
Bảng 4 1 Kết quả áp dụng các phép phân tích tiền xử lý cho mô hình PLS–DA để truy xuất chỉ dẫn địa lý cà phê từ phổ NIR
Phương pháp tiền xử lý
Sai số căn bậc hai kiểm chứng chéo
Sai số phân loại ( Hiệu chỉnh)
Sai số phân loại (Kiểm chứng chéo)
Nhóm có chỉ dẫn địa lý (Y) và không có chỉ dẫn địa lý BMT (N)
Trong 100 mẫu thuộc nhóm không có chỉ dẫn địa lý, có 10 mẫu bị gán nhầm qua nhóm có chỉ dẫn địa lý và trong 24 mẫu thuộc nhóm có chỉ dẫn địa lý thì có 4 mẫu bị gán nhầm sang nhóm không có chỉ dẫn địa lý Lý do gán nhầm có thể do một số tính chất hóa học tương đồng giữa 2 nhóm Để tối ưu hóa mô hình phân nhóm thì cần mở rộng thêm một số tính chất hóa học đặc trưng của cà phê
Khi nhìn vào chỉ số độ chính xác của mô hình, ta thấy đối với biến định tính Y có độ chính xác là 0,66667 và biến định tính N có độ chính xác là 0,95745
Mô hình từ hạt này sử dụng 7 biến ẩn có phần trăm variance tích luỹ của x– block và y–block lần lượt là 99,92% và 53,79% Ba biến ẩn giải thích cho variance nhiều nhất là LV1 (97,65%), LV2 (1,65%) và LV3 (0,17%) được biểu diễn ở Hình
Biểu đồ ở Hình 4.15 cho thấy điểm trên LV1 của cà phê Robusta không thuộc chỉ dẫn địa lý BMT trải từ khoảng -17 đến -14 Trong khi cà phê Robusta nhóm thuộc chỉ dẫn địa lý BMT trải dài từ khoảng -16 đến -13 trong đó tập trung chủ yếu trong
75 khoảng từ -15 đến -13 Trong khi LV2 thì nhóm không có chỉ dẫn địa lý trải dài từ khoảng âm đến dương, trong khi đó nhóm thuộc chỉ dẫn địa lý chủ yếu ở khoảng dương
Phân tích biểu đồ Loadings của 3 LV sẽ cho thấy cái nhìn rõ nét ở các bước sóng tạo nên sự khác biệt lớn giữa hai nhóm Y và N Nhìn vào biểu đồ loading cho thấy peak cực đại ở LV2 và LV3 cùng nhau và ngược LV1 ở 1340nm, chứng tỏ các mẫu có chỉ dẫn địa lý sẽ đặc trưng bởi một số tính chất hoá học cao vượt trội cũng như một số tính chất hoá học thấp đáng kể So sánh với kết quả hàm lượng các tính chất
Hinh 4 15 Loadings của 3 LVs đầu (a) và Loading sử dụng tất cả LV (b) của mô hình
PLS–DA để truy xuất chỉ dẫn địa lý của hạt cà phê từ phổ NIR
76 hoá học thu nhận được, với cà phê có chỉ dẫn địa lý thì hàm lượng caffein cao hơn so với cà phê không có chỉ dẫn địa lý, ngoài ra hàm lượng hoạt tính kháng oxi hóa thấp hơn so với cà phê không có chỉ dẫn địa lý (măc dù không có khác biệt ý nghĩa thống kê), điều này phần nào giải thích cho ba peak âm và dương ngược nhau ở bước sóng trên
Hinh 4 16 Loadings tất cả 3 LVs
Tiếp theo, mô hình này sẽ được biểu diễn khả năng dự đoán của mình thông qua đường ROC và giá trị AUC (area under curve – diện tích dưới đường ROC) (Hình 4.17) Mối liên hệ giữa độ nhạy và độ đặc hiệu là biểu đồ ROC của biến định tính có chỉ dẫn địa lý với các giá trị diện tích dưới đường cong, độ nhạy và độ đặc hiệu theo (Bảng 4.2) lần lượt nhận được là 0,9067; 0,8333; 0,9000 và Đường ROC của biến định tính không có chỉ dẫn địa lý với các giá trị AUC cross– validation, sensitivity, specificity lần lượt nhận được là 0,9067; 0,9000; 0,8333, cho thấy khả năng dự đoán khá tốt theo phân nhóm chỉ dẫn địa lý
Bảng 4 2 Giá trị độ nhạy, độ đặc hiệu và độ chính xác và diện tích dưới đường cong của các biến định tính
Nhóm Độ đặc hiệu Độ nhạy Độ chính xác Diện tích dưới đường cong
Hinh 4 17 Đường ROC và giá trị AUC có chỉ dẫn địa lý (a) và không có chỉ dẫn địa lý (b) của mô hình PLS–DA từ phổ NIR
Như vậy, kết quả này hợp lý với thực tế khi cho thấy đối với phổ NIR đã có khả năng phân loại cà phê có và cà phê không có có chỉ dẫn địa lý BMT mở đường cho ứng dụng thực tiễn ngăn ngừa hiện tượng giả mạo cà phê có chỉ dẫn địa lý BMT
4.2.3.2 Mô hình KNN (K–Nearest Neighbor)
Mô hình xây dựng từ dữ liệu hạt với phép tiền xử lý là SNV và MSC cho kết quả tốt nhất trong toàn bộ mô hình với giá trị kiểm chứng chéo là 0,1532 (Bảng 4.3) Tuy vậy, kết quả này vẫn không tối ưu bằng mô hình PLS-DA với phép tiền xử lý là đạo hàm bậc 1 kết hợp với SNV Tuy vậy, mô hình KNN sử dụng chỉ 5 biến ẩn ít hơn mô hình PLS-DA sử dụng 7 biến ẩn, mô hình sử dụng ít biến ẩn hơn sẽ mạnh hơn và thời gian xử lý sẽ ngắn hơn
Bảng 4 3 Kết quả áp dụng các phép phân tích tiền xử lý cho mô hình KNN để truy xuất chỉ dẫn địa lý cà phê từ phổ NIR
Phương pháp tiền xử lý
Không 5 Nhóm có chỉ dẫn địa lý (Y) và không có chỉ dẫn địa lý BMT (N)
Phổ UV–VIS của cà phê nhân
4.3.1 Thư viện phổ thu được
Dữ liệu phổ UV–VIS của 124 mẫu định danh được quét dưới dạng dịch trích và được biểu diễn với trục hoành là chiều dài sóng (nm) và trục tung là độ hấp thu – Absorbance (AU)
Hinh 4 18 Dữ liệu phổ UV–VIS của cà phê nhân theo chỉ dẫn địa lý
Hình dạng phổ thu được tương tự như kết quả quét phổ của các nghiên cứu trước đây [7, 44, 45, 46] Hầu hết các phổ có 3 peak, các peak trong vùng 220 – 230nm và 280 – 290nm lần lượt đặc trưng cho hợp chất nhóm diterpene là cafestol và kahweol [14, 15], các peak thuộc vùng 250 – 280nm liên quan đến caffeine và các peak thuộc vùng
300 – 350nm đặc trưng cho các hợp chất thuộc nhóm CGA [13]
4.3.2 Phân tích số liệu phổ UV–VIS truy xuất chỉ dẫn địa lý của cà phê nhân- Mô hình PLS–DA
Mô hình PLS–DA xây dựng từ phổ UV kết hợp với phép tiền xử lý SNV và đạo hàm bậc 1 cho kết quả khả năng dự đoán các biến định tính với độ tin cậy cao và chỉ số error thấp Mô hình này chỉ sử dụng 7 latent variable với biến x, LV1 chiếm 45,58%, LV2 chiếm 54,40% và LV3 chiếm 0,01% variance
Bảng 4 4 Kết quả áp dụng các phép phân tích tiền xử lý cho mô hình PLS–DA để truy xuất chỉ dẫn địa lý cà phê từ phổ UV–VIS
Phương pháp tiền xử lý
Hinh 4 19 Biểu đồ score của LV1 với LV2 (a) và LV1 với LV3 (b) của mô hình PLS–DA để truy xuất chỉ dẫn địa lý cà phê từ phổ UV–VIS
Biểu đồ cho thấy ở LV1, điểm của mẫu mang biến định tính là Y có điểm từ 10 đến 20, trong đó khi DN có điểm từ 0 đến 15, toàn bộ mẫu đều có điểm dương Đến LV3, trong khi các mẫu định danh Y hầu hết ở giá trị dương, thì N ở giá trị âm chiếm phần nhiều hơn
Hinh 4 20 Biểu đồ loadings của 7 biến LV của mô hình PLS–DA để truy xuất chỉ dẫn địa lý cà phê từ phổ UV–VIS
Các peak cực đại ở 220 – 230nm đặc trưng cho cafestol, 260 – 280nm đặc trưng cho caffein Đối với các peak liên quan đến hàm lượng caffeine, ở LV1, peak này là peak dương cho thấy so với cà phê có chỉ dẫn địa lý BMT, thì nhóm không có chỉ dẫn địa lý có hàm lượng caffeine thấp hơn Ở peak 340 – 350nm của LV1, cũng là peak Dương và mang tính chất hoá học đặc trưng của nhóm CGA Ngoài ra đối với biểu đồ loading sử dụng cả 7 LV, khu vực peak ở khoảng dưới 250nm, mang đặc trưng peak nhọn, chân peak không rõ ràng nên có thể kết luận đây là nhiễu do nhiễu xạ ánh sáng gây nên Nhiễu này cũng có thể thấy ở phần bước sóng từ 380nm trở đi khi phần không có thông tin này lại có đường nền không mượt
Tiếp theo, mô hình này sẽ được biểu diễn khả năng dự đoán thông qua đường ROC và giá trị AUC (area under curve – diện tích dưới đường ROC)
Hinh 4 21 Đường ROC của biến định tính mô hình PLS–DA từ phổ UV–VIS Bảng 4 5 Giá trị độ nhạy, độ đặc hiệu và độ chính xác của các biến định tính
Giá trị Độ nhạy Độ đặc hiệu Độ chính xác
Khi nhìn vào chỉ số độ chính xác của mô hình trong kiểm chứng chéo nói trên, ta thấy đối với biến định tính Y có độ chính xác là 0,9782 và biến định tính N có độ chính xác là 0,6875 Trong 24 mẫu thuộc nhóm có chỉ dẫn địa lý thì có 2 mẫu bị gán nhầm sang nhóm không có chỉ dẫn địa lý và trong100 mẫu thuộc nhóm không có chỉ dẫn địa lý, có 10 mẫu bị gán nhầm qua nhóm có chỉ dẫn địa lý Lý do gán nhầm có thể do một
84 số tính chất hóa học tương đồng giữa 2 nhóm Để tối ưu hóa mô hình phân nhóm thì cần mở rộng thêm một số tính chất hóa học đặc trưng của cà phê
Như vậy, kết quả này hợp lý với thực tế khi cho thấy đối với phổ UV-VIS đã có khả năng phân loại cà phê có và cà phê không có có chỉ dẫn địa lý mở đường cho ứng dụng thực tiễn ngăn ngừa hiện tượng giả mạo cà phê có chỉ dẫn địa lý.
Đánh giá mô hình phân tích số liệu phổ
Sau khi phân vùng bằng cách sử dụng các mô hình phân nhóm và đánh giá bằng các thông số kiểm chứng chéo từ dữ liệu phổ NIR, phổ UV–VIS, bước cuối cùng là chọn ra mô hình tốt nhất để ứng dụng vào công nghệ phân tích nhanh tại hiện trường dựa trên các tiêu chí như: (1) mức độ tin cậy của mô hình; (2) thời gian phân tích của mô hình; (3) quy trình chuẩn bị mẫu và độ tiện lợi khi ứng dụng tại hiện trường (từ phức tạp nhất như phổ UV–VIS đo trên dịch trích đến đo NIR từ hạt) Dưới đây là tổng kết các loại mô hình phân tích (đã qua lựa chọn ở trên) Đối với dự đoán nguồn gốc cà phê nhân theo chỉ dẫn địa lý, ta thấy được khả năng dự đoán khá tốt của mô hình PLS-DA từ phổ NIR cho hạt (DS1 + SNV) với độ chính xác gần 90%
Mô hình PLS–DA xây dựng từ phổ UV–VIS (SNV + D&S bậc 1) cho khả năng dự đoán tốt với độ tin cậy lớn hơn 90% cho cà phê thuộc chỉ dẫn địa lý Tuy nhiên, phép phân tích này cần thực hiện quy trình trích ly cà phê nhân, chính vì vậy nếu muốn xác định câu hỏi rằng: Đây có phải cà phê thuộc chỉ dẫn địa lý BMT hay không, cần ưu tiên mô hình PLS–DA từ phổ NIR cho hạt nói trên