1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án môn học Công nghệ thực phẩm Ứng dụng SensoMineR vào đánh giá cảm quan

38 1,9K 16

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 1,2 MB

Nội dung

Hai tác giả Francois Husson và Sebastien Lê đã tổng hợp các phương pháp phân tích cổ điển trong đánh giá số liệu cảm quan và các phương pháp phân tích hiện đại đã được công nhận trên vào

Trang 1

KHOA KỸ THUẬT HÓA HỌC

Tp HCM, Tháng 5/2008

Trang 2

Lời cảm ơn

Để hoàn thành đồ án này, em xin chân thành cảm ơn thầy Nguyễn Hoàng Dũng, cô Nguyễn Thanh Khương đã hướng dẫn tận tình trong quá trình em thực hiện đồ án Đặc biệt, xin chân thành cảm ơn thầy Hoàng Dũng đã tạo cơ hội cho em được tiếp cận với các phương pháp phân tích thống kê và thực hiện xử

lý các số liệu trên phần mềm hiện đại

Em cũng xin tỏ lòng biết ơn sâu sắc đến các thầy cô, đặc biệt là các thầy cô trong bộ môn Công Nghệ Thực Phẩm Các thầy cô đã truyền dạy cho em những kiến thức vô cùng quý báu, giúp em có nền tảng kiến thức để thực hiện đồ án này

Tuy nhiên, do phải tiếp cận, tìm hiểu một vấn đề hoàn toàn mới lạ và thời gian thực hiện có hạn nên không tránh khỏi những thiếu sót Rất mong được các thầy cô xem xét, và góp ý

để đồ án này được hoàn hiện hơn

Sinh viên thực hiện

Trang 3

Lời mở đầu

Đánh giá cảm quan là một lĩnh vực nghiên cứu rất sôi động hiện nay, bằng chứng là các hội thảo Pangborn và Sensometric thường xuyên được tổ chức với sự tham gia của rất nhiều nhà nghiên cứu trong lĩnh vực này Rất nhiều phương pháp xử lý kết quả đánh giá cảm quan đã được đề xuất và công nhận

Hai tác giả Francois Husson và Sebastien Lê đã tổng hợp các phương pháp phân tích cổ điển trong đánh giá số liệu cảm quan và các phương pháp phân tích hiện đại đã được công nhận trên vào một phần mềm nhỏ có tên SensoMineR, được ứng dụng riêng trong lĩnh vực đánh giá cảm quan

Đồ án “ứng dụng SensoMineR vào đánh giá cảm quan” sẽ tìm hiểu chức năng của một module trong SensoMineR, bao gồm các thuật toán, ý nghĩa của các kết quả mà module này xuất ra cũng như ứng dụng của module trong một ví dụ cụ thể

Trang 4

MỤC LỤC

Phần 1: Tổng Quan 1

I Giới thiệu R 1

II Giới thiệu SensoMineR 1

III Panels comparison 3

III.1 Cú pháp của hàm panelmatch() 3

III.2 Các thuật toán 4

III.2.1 Phân tích thành phần chính (Principal Components Analysis – PCA) 5

III.2.2 Phân tích đa yếu tố (Multiple Factor Analysis – MFA) 13

III.2.3 Xây dựng ellipse tin cậy 15

III.3 Kết quả 16

Phần 2: Ứng Dụng 17

I Tổng quan 17

II Ví dụ 19

II.1 Các bước xử lý số liệu với SensoMineR 19

II.1.1 Cấu trúc bảng số liệu để xử lý bằng SensoMineR 19

II.1.2 Nhập số liệu 20

II.1.3 Xử lý số liệu 20

II.2 Nhận xét kết quả 23

Phần 3: Kết luận 28

Tài liệu tham khảo 29

Phụ lục I 31

Phụ lục II .31

Phụ lục III .32

Trang 5

DANH MỤC HÌNH

Hình 1.1: Biểu diễn tác dụng của scaling 8

Hình 1.2: Hình mô tả dữ liệu trước và sau quy tâm 9

Hình 1.3: Hai thành phần chính được chọn 11

Hình 1.4: Chiếu các sản phẩm lên mặt phẳng tạo nên bởi hai thành phần chính 12

Hình 1.5: Tóm tắt nguyên tắc và kết quả của PCA 13

Hình 1.6: Nguyên tắc của MFA 14

Hình 2.1: Một phần bảng số liệu thu được từ hội đồng người Pakistani .19

Hình 2.2: Cửa sổ Comparison of panels 22

Hình 2.3: Vòng tròn tương quan 23

Hình 2.4: Đồ thị trình bày điểm mô tả sản phẩm theo từng người thử ở cả hai hội đồng 25

Hình 2.5: Đồ thị trình bày điểm trung bình sản phẩm với ellipse tin cậy của hai hội đồng 26

Hình 2.6: Đồ thị biểu diễn ellipse tin cậy bao quanh điểm sản phẩm theo từng hội đồng 27

Trang 6

Phần 1: Tổng Quan

I Giới thiệu R

R là một phần mềm sử dụng cho phân tích thống kê và vẽ đồ thị, được hai nhà thống kê học Ross Ihaka và Robert Gentleman sáng tạo ra Kể từ ngày ra đời, R được rất nhiều nhà nghiên cứu thống kê và toán học trên thế giới ủng hộ và tham gia phát triển [4, 29]

Thực chất R là một ngôn ngữ máy tính, có thể được sử dụng nhằm nhiều mục tiêu khác nhau, từ tính toán đơn giản, tính toán ma trận đến các tính toán thống kê phức tạp Vì R là một ngôn ngữ, nên người ta có thể dùng R để phát triển thành các phần mềm chuyên môn, để giải quyết một vấn đề cụ thể Các phần mềm nhỏ được phát triển từ ngôn ngữ R, chạy trong hệ thống

R được gọi là các packages

Trong R, cũng tích hợp sẵn khoảng 25 packages phục vụ cho các tính toán căn bản Các packages này được gọi là các packages cơ sở Ngoài ra, còn rất nhiều các packages khác với nhiều chức năng và ứng dụng cụ thể vào nhiều lĩnh vực khác nhau, người sử dụng có thể tải về, cài đặt và sử dụng tùy theo nhu cầu

Người sử dụng có thể truy cập vào website chính thức của R có tên “Comprhensive R Archive Network” (http://cran.r-project.org/bin/windows/base/R-2.6.1-win32.exe) để tải chương trình và các packages R là một phần mềm hoàn toàn miễn phí Nhưng trái với suy nghĩ thông thường, R miễn phí nhưng không có nghĩa là chất lượng kém Vì thực tế cho thấy, cho đến nay, chỉ khoảng 5 năm phát triển nhưng các nhà thống kê học, toán học, nghiên cứu trong mọi lĩnh vực đã chuyển sang dùng R để phân tích dữ liệu khoa học Dựa vào con số người sử dụng R đang tăng theo cấp số nhân như hiện nay, người ta dự đoán, trong vòng 10 năm nữa, R có thể thay thế hoàn toàn các phần mềm thống kê đắt tiền khác [4]

II Giới thiệu package SensoMineR

SensoMineR là một gói (package) phần mềm nhỏ, bao gồm các hàm thực thi, được ứng dụng trong xử lý số liệu của đánh giá cảm quan

Trang 7

SensoMineR được viết chương trình bằng ngôn ngữ R, bởi hai tác giả Francois Husson, Sébastien Lê, thuộc khoa toán học ứng dụng của trường đại học Agrocampus Rennes Đây là một

ưu thế của SensoMineR vì R là một phần mềm hoàn toàn miễn phí, chúng ta có thể tải về từ bất

cứ đâu trên thế giới và sau vài phút cài đặt là có thể sử dụng ngay Tùy theo lựa chọn của người

sử dụng, SensoMineR sẽ thực hiện các xử lý thống kê bằng rất nhiều phương pháp khác nhau, từ các phương pháp cổ điển đến hiện đại như kiểm định Student (t-test), phân tích phương sai (Anova), phân tích thành phần chính (PCA), phân tích đa yếu tố (MFA)… trên số liệu đánh giá cảm quan và xuất ra các kết quả dạng biểu đồ hay các bảng số liệu đã xử lý thống kê Các kết quả dạng hình ảnh này giúp người thực hiện đánh giá cảm quan dễ dàng nhận xét, phân tích kết quả thực nghiệm [24, 15]

Ngoài địa chỉ website của R, chúng ta có thể tải package SensoMineR tại địa chỉ http://sensominer.free.fr/Install.html [26]

Như đã nhắc đến ở trên, SensoMineR là một package bao gồm nhiều hàm Trong mỗi hàm có các thông số mặc định và các thông số thay đổi Khi thực thi các hàm, chúng ta bắt buộc phải nhập các thông số thay đổi, trong khi các thông số mặc định có thể bỏ qua Trong trường hợp các thông số mặc định được bỏ qua thì chương trình sẽ hiểu chúng ta lựa chọn các thông số này giống như mặc định Các thông số mặc định được các tác giả khuyến cáo là các thông số thường dùng hay hữu ích trong các trường hợp Các thông số mặc định cũng được xem là một sự hướng dẫn cho những người mới sử dụng Tuy nhiên, chúng ta cũng có thể thay đổi các thông số này để phù hợp với từng trường hợp cụ thể [15]

SensoMineR có thể giải quyết các vấn đề liên quan tới:

Thiết kế tối ưu (Optimal design)

Mô tả sản phẩm (Characterization products) Đánh giá năng lực hội đồng (Panel performance) Liên kết sự ưu tiên và số liệu cảm quan (Relating perfrence and sensory data) Phép thử tam giác (Triangle test)

So sánh các hội đồng đánh giá cảm quan (Panels comparison)

Số liệu của phép thử napping (Napping data) Các chức năng công cụ (Tool functions) Đây cũng chính là các module trong package SensoMineR [24, 15]

Trang 8

Một module trong package SensoMineR có thể có một hoặc nhiều chức năng Ví dụ, trong module Triangle test, có hai chức năng là thiết kế một phép thử tam giác (Design for triangle test) và phân tích số liệu của phép thử tam giác (Analysis triangle test); còn trong module Panels comparison chỉ có một chức năng là so sánh các hội đồng đánh giá cảm quan

Mỗi chức năng trong một module lại tương ứng với một hàm trong package SensoMineR Trở lại ví dụ trên, khi chúng ta lựa chọn thực hiện chức năng Design for triangle test thì tương ứng chương trình sẽ thực hiện hàm triangle.design() Tuy nhiên, cũng có một số hàm trong package SensoMineR không tương ứng với chức năng nào trong các module như hàm

các bảng số liệu có sẵn trong package Các bảng số liệu này được dùng làm ví dụ để những người mới sử dụng biết cách thực hiện các hàm trong package SensoMineR

Trong khuôn khổ đồ án này, em chỉ xin đề cập đến một module trong SensoMineR là module Panels comparison và ứng dụng cụ thể của module này vào xử lý một ví dụ trong thực tế

để hiểu rõ hơn chức năng của nó

III Panels comparison

Module Panels comparison có ứng dụng chủ yếu là so sánh các hội đồng đánh giá cảm quan Khi lựa chọn thực hiện chức năng so sánh hội đồng của module Panels comparison thì tương ứng chương trình sẽ thực thi hàm panelmatch()[12, 17]

III.1 Cú pháp của hàm panelmatch() [23, 25]

panelmatch(donnee, col.p, col.j, firstvar, alpha = 0.05, coord = c(1,2), scale.unit = TRUE, nbsimul = 500, nbchoix = NULL, centerbypanelist = TRUE, scalebypanelist = FALSE, name.panelist = FALSE, cex = 1, color = NULL, hierar = NULL)

Trong đó:

Các thông số thay đổi là donnee, col.p, col.j, firstvar.

donnee: bảng số liệu cần xử lý, được tạo thành từ ít nhất hai biến định lượng (sản phẩm

và hội đồng) và một tập biến (là các thuộc tính mô tả cảm quan) Cấu trúc của bảng số liệu sẽ được mô tả cụ thể trong phần ví dụ áp dụng

col.p: vị trí của biến sản phẩm, hay vị trí của cột sản phẩm trong bảng số liệu

col.j: vị trí của biến người thử, hay vị trí của cột người thử trong bảng số liệu

Trang 9

firstvar: vị trí của thuộc tính mô tả cảm quan đầu tiên, hay vị trí của cột trình bày thuộc tính mô tả đầu tiên

Các thông số mặc định là:

alpha: mức ý nghĩa lựa chọn khi vẽ ellipse tin cậy Mặc định là alpha = 0.05

coord: cặp vector vuông góc dùng xác định các thành phần khi vẽ đồ thị Mặc định chọn thành thứ nhất và thành phần thứ hai, ứng với trị riêng thứ nhất và thứ hai, vì thường thì hai thành phần này biểu diễn được nhiều thông tin nhất

scale.unit: mặc định là TRUE, các thuộc tính mô tả được lấy tỷ lệ với phương sai đơn vị

nbsimul: số lượng các giả định được sử dụng để xây dựng các ellipses tin cậy Nguyên tắc xây dựng ellipses tin cậy sẽ trình bày cụ thể trong phần các thuật toán Mặc định là 500

nbchoix: số lượng người thử ảo tạo thành một hội đồng ảo Mặc định là số lượng người thử trong hội đồng nguyên thủy

centerbypanelist: mặc định là TRUE, các số liệu của từng người thử được quy tâm trước khi xây dựng các trục

scalebypanelist: mặc định là FALSE, là TRUE thì các số liệu của từng người thử

sẽ được lấy tỷ lệ trước khi xây dựng các trục

name.panelist: mặc định là FALSE, là TRUE thì tên của từng người thử sẽ được biểu diễn ngay trên đồ thị

cex: là hàm par() trong package graphics Graphics là package hỗ trợ vẽ đồ thị trong

R Trong hàm par()có rất nhiều thông số, chọn cex = 1 tương ứng thực thi hàm

par(no.readonly=TRUE), có nghĩa là ta chọn tất cả các thông số mà không cần nêu cụ thể tên của thông số đó ra

color: các màu được sử dụng để vẽ đồ thị Mặc định có 35 màu

hierar: trật tự của các biến Mặc định là NULL

III.2 Các thuật toán

Phần này sẽ trình bày các thuật toán được sử dụng để xây dựng các đồ thị trong kết quả xuất ra của hàm panelmatch()

Thực thi hàm panelmatch() thực ra là thực hiện một phân tích đa yếu tố (Multiple Factors Analysis – MFA) Tuy nhiên, trước khi tìm hiểu MFA là gì và thực hiện như thế nào, thì

Trang 10

chúng ta tìm hiểu khái niệm và cách thực hiện phân tích thành phần chính (Principal Components Analysis – PCA), vì thực chất thực hiện MFA được thực hiện qua hai bước: thực hiện PCA trên từng bảng số liệu sau đó hợp nhất các bảng số liệu và thực hiện một PCA tổng thể

III.2.1 Phân tích thành phần chính (Principal Components Analysis – PCA)

Nếu chỉ có một sản phẩm và hai hoặc ba tính chất đặc trưng, thì sản phẩm sẽ được biểu diễn thành một điểm trong không gian hai hay ba chiều Nhưng trong trường hợp nhiều sản phẩm được mô tả bởi nhiều thuộc tính thì vấn đề trở nên phức tạp, tập hợp dữ liệu thu được gồm nhiều điểm sẽ được biểu diễn thành một “đám mây” trong không gian đa chiều Vì vậy, để đánh giá mối tương quan giữa các sản phẩm và các thuộc tính trở nên khó khăn là phức tạp

Do đó, PCA là một công cụ hữu hiệu để phân tích tập hợp dữ liệu trong trường hợp này,

vì PCA làm giảm chiều của tập hợp dữ liệu để dễ dàng đánh giá mối tương quan giữa các sản phẩm và thuộc tính, trong khi thông tin của tập dữ liệu bị mất mát ít nhất

III.2.1.2 Nguyên tắc PCA

Nguyên tắc của PCA là tìm ra các hướng phân tán chính của tập dữ liệu sau đó chiếu toàn

bộ tập dữ liệu lên các hướng phân tán chính này [20]

Mục đích của PCA là làm giảm số chiều của tập hợp dữ liệu Nhưng khi giảm số chiều cũng đồng nghĩa là làm mất mát một lượng thông tin về sản phẩm Vì vậy, yêu cầu đặt ra là cần giảm tối đa lượng thông tin bị mất mát PCA làm giảm số chiều của tập dữ liệu và hạn chế lượng thông tin mất mát bằng cách chỉ bỏ những chiều ít thể hiện thông tin về sự phân tán của sản phẩm nhất

Trang 11

Để xác định chiều nào thể hiện ít thông tin về sản phẩm nhất, thay vì xác định sự phân tán

của các sản phẩm theo từng chiều hay từng mặt phẳng, một công việc rất khó khăn vì thực tế có

rất nhiều chiều, chúng ta xác định hướng phân tán chính và mức độ phân tán của các sản phẩm

theo các hướng phân tán chính đó

Hướng phân tán chính và mức độ phân tán của các sản phẩm được xác định dựa vào

vector riêng và trị riêng của tập dữ liệu Vector riêng đặc trưng cho hướng của phân tán, còn trị

riêng ứng với mức độ phân tán của tập dữ liệu Như vậy, vector riêng tương ứng với trị riêng

càng lớn thì theo hướng của vector riêng đó, càng thể hiện được nhiều thông tin của tập dữ liệu

[20, 19] Hay nói cách khác, các hướng được chọn để biểu diễn trong PCA (các thành phần chính

– pricipal components PC) là hướng của các vector riêng tương ứng với các trị riêng có giá trị lớn

nhất [6]

III.2.1.3 Các bước thực hiện

a Thu thập dữ liệu

PCA áp dụng cho các tập hợp dữ liệu trong đó các sản phẩm phân tích phải có sự đồng

nhất về các thuộc tính cảm quan được đánh giá [17]

Sau khi thu thập dữ liệu, ta lập bảng sau: hàng là các sản phẩm khác nhau, cột biểu diễn

n

p p

x x

x

x x

x

X

X

X X

2 1

2 22

21

1 12

11 2

1

(1)

Ma trận X là ma trận p x n, với p là tính chất của sản phẩm, n là số sản phẩm

Trang 12

b Tiền xử lý dữ liệu

Bước tiền xử lý liên quan tới một số khái niệm thống kê như giá trị trung bình, phương

sai, độ lệch chuẩn Chúng ta sẽ nhắc lại một số khái niệm về các đại lượng này

Giá trị trung bình (Mean)

Giá trị trung bình của một tập hợp các quan sát được tính bằng cách lấy tổng giá trị của tất

cả các quan sát chia cho số quan sát

Trung bình của tổng thể:

N

x

N i

n i

n: số quan sát của mẫu

Phương sai (Variance)

Là bình phương độ lệch so với giá trị trung bình

Độ lệch chuẩn (Standard Deviation)

Là căn bậc hai của phương sai

Công thức tính:

1

)(1

2 2

s

n i i

Tiền xử lý dữ liệu gồm hai bước: (5)

b.1 Lấy tỷ lệ (scaling)

Lấy tỷ lệ là làm cho các biến có phương sai bằng nhau

Có nhiều cách để lấy tỷ lệ dữ liệu, nhưng kỹ thuật thường áp dụng nhất là lấy tỷ lệ theo

phương sai đơn vị (unit variance scaling – UV- scaling) Phương sai đơn vị là phương sai được

hiệu chỉnh bằng cách chia mỗi biến cho độ lệch chuẩn của nó (s k)

Trang 13

Khi thực hiện UV-scaling thì đối với mỗi biến (mỗi cột), chúng ta tính toán độ lệch chuẩn

(s k ) sau đó nhân mỗi cột của dữ liệu với nghịch đảo độ lệch chuẩn 1/ s k Kết quả là tất cả các biến đều có phương sai bằng nhau và bằng phương sai đơn vị

Một ví dụ về tác dụng của UV- scaling trong hình 1.1 Giả sử ta có các biến biểu diễn thành một “hình chữ nhật” có “chiều dài” khác nhau, đường gạch ngang của mỗi hình chữ nhật biểu diễn giá trị trung bình của biến đó Giá trị của phương sai ở đây tương ứng với “chiều dài” của biến Một biến “dài” tức là có mức độ phân tán lớn, tức là giá trị phương sai lớn Như vậy, UV-scaling có ý nghĩa là làm co các biến “dài” và kéo giãn các biến “ngắn” Kết quả là làm cho tất cả các biến có phương sai bằng nhau và bằng phương sai đơn vị

Hình 1.1: Biểu diễn tác dụng của scaling

Tại sao phải scaling dữ liệu?

Bởi vì các biến thường có khoảng dao động khác nhau Khoảng dao động có thể lớn hoặc nhỏ PCA là phương pháp tìm hướng các phân tán lớn nhất của các biến và chiếu toàn bộ dữ liệu lên các hướng đó Vì thế nếu không lấy tỷ lệ các biến thì có vẻ như các biến có khoảng dao động lớn được “ưu tiên” hơn trong phương pháp phân tích này [6]

b.2 Quy tâm dữ liệu (centering)

Quy tâm dữ liệu được thực hiện bằng cách biến đổi đưa giá trị trung bình X về 0 Hay i

nói cách khác là chúng ta tịnh tiến gốc tọa độ về tâm của tập dữ liệu Giá trị xij ban đầu được thay bằng giá trị aij mới

Trang 14

aij = xij –X (6) i

Lúc này, thay vì các giá trị xoay quanh điểm trung bình, nó sẽ xoay quanh gốc tọa độ O

Hình 1.2: Hình mô tả dữ liệu trước và sau quy tâm

n

p p

a a

a

a a

a

a a

a A

2 1

2 22

21

1 12

11

(7)

c Lập ma trận hiệp phương sai

Khi biểu diễn ma trận X trong không gian, p là số chiều và n là số điểm trong không gian

này Những điểm này tạo trong không gian p chiều một đám mây và đám mây phân tán theo tất

cả các chiều trong không gian Để biểu diễn sự phân tán của tập hợp này bằng một phương trình

toán học là không thể, do đó người ta thực hiện phép chiếu sự phân tán này lên các mặt phẳng và

các trục tọa độ Khi chiếu lên mặt phẳng, sự phân tán này chính là giá trị hiệp phương sai của hai

trục tạo thành mặt phẳng đó Cov (xj, xk) Còn khi chiếu lên một trục thì sự phân tán này là giá trị

phương sai của trục đó Cov (xj, xj) = Var (xj) Từ các giá trị Cov này, chúng ta thiết lập được ma

trận hiệp phương sai:

p

p p

C C

C

C C

C

C C

C C

2 1

2 22

21

1 12

11

(8)

Trang 15

Với

1

.1

))(

()

y y x x x

x Cov C

n í

ik ij n

i

k ik j ij k

j

xij, xik: là giá trị tại tính chất thứ j, k của sản phẩm thứ i (i ∈ [1, n])

j

x , x k: là các giá trị trung bình của các tính chất j, k

Ma trận hiệp phương sai là một ma trận vuông p x p, với p là số tính chất mô tả sản phẩm,

có các phần tử trên đường chéo là hiệp phương sai của một biến với chính nó

d.Tính trị riêng và vector riêng của ma trận hiệp phương sai

Vector riêng (eigenvector) đặc trưng cho hướng phân tán và trị riêng (eigenvalue) đặc

trưng cho mức độ phân tán của tập dữ liệu [20]

Trị riêng và vector riêng được tìm trên ma trận hiệp phương sai (ma trận C) vì ma trận C

chính là hình chiếu sự phân tán của dữ liệu lên các mặt phẳng và các trục nên ma trận C mô tả

được sự phân tán của ma trận X Do đó, ma trận tương quan C được dùng để tính toán thay thế

cho ma trận X

Phương pháp tìm trị riêng và vector riêng:

Giải phương trình đặc trưng C − Iλ =0 Trị riêng chính là nghiệm của phương trình trên (I là ma trận đơn vị)

Tìm vector riêng tương ứng với các trị riêng λ bằng cách giải hệ phương trình đại

số tuyến tính thuần nhất (C – λI).x = 0 Nghiệm không tầm thường của nó chính là vector riêng cần tìm

Các tính chất của vector riêng:

Mỗi vector ứng với duy nhất một trị riêng, ngược lại ứng với một trị riêng có vô số vector riêng tương ứng

Tất cả các vector riêng của một ma trận thì trực giao với nhau và không phu thuộc vào số chiều của ma trận

e Xác định các thành phần chính

Tiêu chuẩn khi lựa chọn thành phần chính là dựa vào giá trị của trị riêng Dựa vào độ lớn

của giá trị riêng, chúng ta đánh giá được phương sai hay mức độ khác nhau của tập dữ liệu ban

đầu được thành phần đó giữ lại Trị riêng càng lớn thì mức độ thể hiện của thành phần chính càng

tốt Phương sai hay mức độ khác nhau của đám mây dữ liệu nói lên mức độ phân tán của đám

Trang 16

mây trong không gian p chiều Nếu các thành phần chính giữ lại được tỷ lệ lớn phương sai cũng

có nghĩa là nó phản ánh tốt sự phân tán của đám mây dữ liệu đó khi giảm số chiều của nó Nói cách khác, mục đích chính của PCA là giảm số chiều của tập dữ liệu nhưng vẫn giữ lại sự khác nhau vốn có của các biến gốc một cách đầy đủ nhất, hay lượng thông tin được giữ lại từ tập dữ liệu ban đầu là chính xác nhất

Tương ứng với trị riêng càng lớn thì phần trăm phương sai giải thích càng lớn Phần trăm phương sai giải thích của một thành phần là phần trăm thông tin mà thành phần đó giữ lại được

so với lượng thông tin ban đầu Phần trăm phương sai giải thích được xác định bởi công thức:

p k

p

λλ

λ

λ+++

=

2 1

Trong đó λp là giá trị của trị riêng thứ p

Thành phần chính thứ nhất được chọn là đường thẳng cùng phương với vector riêng ứng với trị riêng lớn nhất Tương tự thành phần chính thứ hai được chọn

Sau khi chuyển dữ liệu về các trục là các thành phần chính, ta thu được đồ thị sản phẩm

Đồ thị sản phẩm là mặt phẳng có hai trục vuông góc là hai thành phần chính, trên đó tập sản

Trang 17

phẩm ban đầu được biểu diễn thành các “điểm trình bày sản phẩm” Tọa độ của các điểm trình bày sản phẩm được xác định bằng cách chiếu sản phẩm trong không gian p chiều lên mặt phẳng tạo bởi hai thành phần chính

Hình 1.4: Chiếu các sản phẩm lên mặt phẳng tạo nên bởi hai thành phần chính

g Tính toán các hệ số tương quan

Hệ số tương quan r được tính như sau:

),()

,(

),()

,(

y y Cov x x Cov

y x Cov y

x

Lần lượt tính toán hệ số tương quan giữa các giá trị của các thuộc tính mô tả các sản phẩm trong không gian ban đầu với giá trị của thuộc tính đó trong hai trục mới được tạo thành từ hai thành phần chính Hệ số tương quan này cho biết mối tương quan của các thuộc tính với từng thành phần chính Mỗi thuộc tính sẽ có hai hệ số tương quan với hai thành phần chính Hai hệ số tương quan này sẽ xác định vị trí của vector thuộc tính trong vòng tròn tương quan

Vòng tròn tương quan là vòng tròn có bán kính là 1, trên mặt phẳng tạo nên bởi hai thành phần chính, tâm trùng với giao điểm của hai trục tạo nên bởi hai thành phần chính Trên vòng tròn tương quan các vector thuộc tính xuất phát từ tâm, đỉnh vector được xác định dựa vào các hệ

số tương quan được tính toán ở trên Do hệ số tương quan luôn có giá trị ≤ 1 nên các vector thuộc tính luôn có độ dài ≤ 1

Trang 18

III.2.1.4 Kết quả

Khi thực hiện một PCA, chúng ta thu được vòng tròn tương quan và đồ thị sản phẩm [19] (hình 1.5) Cách đánh giá các đồ thị này sẽ được trình bày cụ thể trong phần ứng dụng

Hình 1.5: Tóm tắt nguyên tắc và kết quả của PCA

III.2.2 Phân tích đa yếu tố (Multiple Factor Analysis – MFA)

Nhược điểm của PCA là chỉ phân tích được các sản phẩm khi các thuộc tính được đánh giá là giống nhau Khi các sản phẩm được đánh giá bởi các thuộc tính khác nhau (các quan sát được mô tả bởi vài tập biến) thì PCA không thể biểu diễn đồng thời các quan sát trong cùng một không gian Do đó, ta phải sử dụng một phương pháp phân tích khác, đó là phân tích đa yếu tố [17]

III.2.2.1 Định nghĩa

MFA là phương pháp phân tích đồng thời các quan sát được mô tả bởi vài tập biến

(Escofier and Pagès, 1990, 1994) [13]

III.2.2.2 Các ký hiệu

Chúng ta có i (i = I 1 ) quan sát (sản phẩm) được mô tả bởi j (j = J, 1, ) tập biến Mỗi tập biến có Kj biến, các biến là các thuộc tính mô tả Kj có thể khác nhau giữa các tập biến, hay nói cách khác là số lượng và thành phần các biến có thể khác nhau giữa các tập biến

Trang 19

Các quan sát được mô tả bởi một tập biến gọi là một dữ liệu Vài tập biến mô tả các quan sát tập thành tập dữ liệu [13]

III.2.2.3 Nguyên tắc

Đối với mỗi dữ liệu, ta thực hiện các PCA riêng biệt Tức là đối với dữ liệu thứ nhất (tập biến có chứa K1 biến), quan sát i được biểu diễn thành một điểm trong không gian RK1 RK1 là không gian có K1 chiều, mỗi chiều được xây dựng tương ứng với một biến trong tập biến Như vậy, các quan sát được mô tả bởi tập biến thứ nhất được biểu diễn trong không gian RK1, tạo thành đám mây Tương tự, các quan sát được mô tả bởi tập biến thứ j (tập biến chứa Kj biến) được biểu diễn thành đám mây trong không gian R

1

I

N

j I

N KJ Sau đó, tất cả sự phân tán của các quan sát được tập hợp trong một không gian RK, tạo thành đám mây N I Không gian RK là tổng của J không gian con từ RK1 đến RKJ Bây giờ, tất cả các quan sát đều thuộc về không gian tổng cộng

RK (hình 1.6)

Hình 1.6: Nguyên tắc của MFA

Ngày đăng: 25/03/2015, 08:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đỗ Công Khanh, Ngô Thu Lương, Nguyễn Minh Hằng (2002). Toán cao cấp đại số tuyến tính – Tập 2. Nhà xuất bản đại học quốc gia thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Toán cao cấp đại số tuyến tính – Tập 2
Tác giả: Đỗ Công Khanh, Ngô Thu Lương, Nguyễn Minh Hằng
Nhà XB: Nhà xuất bản đại học quốc gia thành phố Hồ Chí Minh
Năm: 2002
[2] Ngô Thu Lương, Nguyễn Minh Hằng (2000). Bài tập toán cao cấp 2 – Đại số tuyến tính. Nhà xuất bản đại học quốc gia thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Bài tập toán cao cấp 2 – Đại số tuyến tính
Tác giả: Ngô Thu Lương, Nguyễn Minh Hằng
Nhà XB: Nhà xuất bản đại học quốc gia thành phố Hồ Chí Minh
Năm: 2000
[3] Nguyễn Đình Huy, Đậu Thế Cấp (2005). Xác suất và thống kê. Nhà xuất bản đại học quốc gia thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Xác suất và thống kê
Tác giả: Nguyễn Đình Huy, Đậu Thế Cấp
Nhà XB: Nhà xuất bản đại học quốc gia thành phố Hồ Chí Minh
Năm: 2005
[5] Nguyễn Hoàng Dzũng (2008). Đánh giá cảm quan – nguyên tắc và thực hành. Nhà xuất bản đại học quốc gia thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Đánh giá cảm quan – nguyên tắc và thực hành
Tác giả: Nguyễn Hoàng Dzũng
Nhà XB: Nhà xuất bản đại học quốc gia thành phố Hồ Chí Minh
Năm: 2008
[6] L. Eriksoon, E. Jhanssom, N. Kettaneh – Wold, S.Wold (2003). Multi – and megavariate data analysis princeples and applications. Umetrics academy.Báo Sách, tạp chí
Tiêu đề: Multi – and megavariate data analysis princeples and applications
Tác giả: L. Eriksoon, E. Jhanssom, N. Kettaneh – Wold, S.Wold
Năm: 2003
[7] Francis Sune, Pascale Lacroix, Francoise Huon de Kermadec (2002). A comparison of sensory attribute use by children and experts to evaluate chocolate. Food Quality and Preference, 13, 545–553 Sách, tạp chí
Tiêu đề: Food Quality and Preference
Tác giả: Francis Sune, Pascale Lacroix, Francoise Huon de Kermadec
Năm: 2002
[8] Francois Husson, Jerome Pages (2003). Comparison of sensory profiles done by trained and untrained juries: methodology and results. Journal of Sensory Studies, 18, 453–464 Sách, tạp chí
Tiêu đề: Journal of Sensory Studies
Tác giả: Francois Husson, Jerome Pages
Năm: 2003
[9] Francois Husson, Valery Bocquet, Jerome Pages (2004). Use of confidence ellipses in a PCA applied to sensory analysis application to the comparison of monovarietal ciders. Journal of Sensory Studies, 19, 510–518 Sách, tạp chí
Tiêu đề: Journal of Sensory Studies
Tác giả: Francois Husson, Valery Bocquet, Jerome Pages
Năm: 2004
[10] G. Blancher, S. Le, J.-M. Sieffermann , S. Chollet (2008). Comparison of visual appearance and texture profiles of jellies in France and Vietnam and validation of attribute transfer between the two countries. Food Quality and Preference, 19, 185–196 Sách, tạp chí
Tiêu đề: Food Quality and Preference
Tác giả: G. Blancher, S. Le, J.-M. Sieffermann , S. Chollet
Năm: 2008
[11] Jerome Pages (2004). Multiple factor analysis: main features and application to sensory data. Revista Colombiana de Estadistica, 27, 1–26 Sách, tạp chí
Tiêu đề: Revista Colombiana de Estadistica
Tác giả: Jerome Pages
Năm: 2004
[12] Jerome Pages, Cecile Bertrand, Rashida Ali, Francois Husson and Sebastien Le (2007). Sensory analysis comparison of eight biscuits by French and Pakistani panels. Journal of Sensory Studies, 22, 665–686 Sách, tạp chí
Tiêu đề: Journal of Sensory Studies
Tác giả: Jerome Pages, Cecile Bertrand, Rashida Ali, Francois Husson and Sebastien Le
Năm: 2007
[13] Jerome Pages, Francois Husson (2001). Inter-laboratory comparison of sensory profiles: methodology and results. Food Quality and Preference, 12, 297–309 Sách, tạp chí
Tiêu đề: Food Quality and Preference
Tác giả: Jerome Pages, Francois Husson
Năm: 2001
[14] Nathalie Martin, Pascal Molimard, Henry Eric Spinnler, Pascal Schlich (2000). Comparison of odour sensory profiles performed by two independent trained panels following the same descriptive analysis procedures. Food Quality and Preference, 11, 487–495 Sách, tạp chí
Tiêu đề: Food Quality and Preference
Tác giả: Nathalie Martin, Pascal Molimard, Henry Eric Spinnler, Pascal Schlich
Năm: 2000
[15] Sebastien Le and Francois Husson (2008). Sensominer: a package for sensory data analysis. Journal of Sensory Studies, 23, 14–25 Sách, tạp chí
Tiêu đề: Journal of Sensory Studies
Tác giả: Sebastien Le and Francois Husson
Năm: 2008
[16] Sebastien Le, Francois Husson, Jerome Pages (2006). Confidence ellipses applied to the comparison of sensory profiles. Journal of Sensory Studies, 21, 241–248 Sách, tạp chí
Tiêu đề: Journal of Sensory Studies
Tác giả: Sebastien Le, Francois Husson, Jerome Pages
Năm: 2006
[17] Sebastien Le, Jerome Pages, Francois Husson (2008). Methodology for the comparison of sensory profiles provided by several panels: application to a cross-cultural study.Food Quality and Preference, 19, 179–184.Hội thảo Sách, tạp chí
Tiêu đề: Food Quality and Preference
Tác giả: Sebastien Le, Jerome Pages, Francois Husson
Năm: 2008
[18] Caroline Follet, Jean McEwan (2005). Comparison of the Relative Effect of Panel- to-Panel Variation and Country-to-Country Variation in Sensory Descriptive Analysis of Rums.6 th Pangborn Sách, tạp chí
Tiêu đề: 6"th
Tác giả: Caroline Follet, Jean McEwan
Năm: 2005
[19] Dominque Valentin, Herve Abdi (2007). How to characterize the products from a multidimensional point of view. Spise 2007.Website Sách, tạp chí
Tiêu đề: Spise 2007
Tác giả: Dominque Valentin, Herve Abdi
Năm: 2007

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w