Hai tác giả Francois Husson và Sebastien Lê đã tổng hợp các phương pháp phân tích cổ điển trong đánh giá số liệu cảm quan và các phương pháp phân tích hiện đại đã được công nhận trên vào
Trang 1KHOA KỸ THUẬT HÓA HỌC
Tp HCM, Tháng 5/2008
Trang 2Lời cảm ơn
Để hoàn thành đồ án này, em xin chân thành cảm ơn thầy Nguyễn Hoàng Dũng, cô Nguyễn Thanh Khương đã hướng dẫn tận tình trong quá trình em thực hiện đồ án Đặc biệt, xin chân thành cảm ơn thầy Hoàng Dũng đã tạo cơ hội cho em được tiếp cận với các phương pháp phân tích thống kê và thực hiện xử
lý các số liệu trên phần mềm hiện đại
Em cũng xin tỏ lòng biết ơn sâu sắc đến các thầy cô, đặc biệt là các thầy cô trong bộ môn Công Nghệ Thực Phẩm Các thầy cô đã truyền dạy cho em những kiến thức vô cùng quý báu, giúp em có nền tảng kiến thức để thực hiện đồ án này
Tuy nhiên, do phải tiếp cận, tìm hiểu một vấn đề hoàn toàn mới lạ và thời gian thực hiện có hạn nên không tránh khỏi những thiếu sót Rất mong được các thầy cô xem xét, và góp ý
để đồ án này được hoàn hiện hơn
Sinh viên thực hiện
Trang 3Lời mở đầu
Đánh giá cảm quan là một lĩnh vực nghiên cứu rất sôi động hiện nay, bằng chứng là các hội thảo Pangborn và Sensometric thường xuyên được tổ chức với sự tham gia của rất nhiều nhà nghiên cứu trong lĩnh vực này Rất nhiều phương pháp xử lý kết quả đánh giá cảm quan đã được đề xuất và công nhận
Hai tác giả Francois Husson và Sebastien Lê đã tổng hợp các phương pháp phân tích cổ điển trong đánh giá số liệu cảm quan và các phương pháp phân tích hiện đại đã được công nhận trên vào một phần mềm nhỏ có tên SensoMineR, được ứng dụng riêng trong lĩnh vực đánh giá cảm quan
Đồ án “ứng dụng SensoMineR vào đánh giá cảm quan” sẽ tìm hiểu chức năng của một module trong SensoMineR, bao gồm các thuật toán, ý nghĩa của các kết quả mà module này xuất ra cũng như ứng dụng của module trong một ví dụ cụ thể
Trang 4MỤC LỤC
Phần 1: Tổng Quan 1
I Giới thiệu R 1
II Giới thiệu SensoMineR 1
III Panels comparison 3
III.1 Cú pháp của hàm panelmatch() 3
III.2 Các thuật toán 4
III.2.1 Phân tích thành phần chính (Principal Components Analysis – PCA) 5
III.2.2 Phân tích đa yếu tố (Multiple Factor Analysis – MFA) 13
III.2.3 Xây dựng ellipse tin cậy 15
III.3 Kết quả 16
Phần 2: Ứng Dụng 17
I Tổng quan 17
II Ví dụ 19
II.1 Các bước xử lý số liệu với SensoMineR 19
II.1.1 Cấu trúc bảng số liệu để xử lý bằng SensoMineR 19
II.1.2 Nhập số liệu 20
II.1.3 Xử lý số liệu 20
II.2 Nhận xét kết quả 23
Phần 3: Kết luận 28
Tài liệu tham khảo 29
Phụ lục I 31
Phụ lục II .31
Phụ lục III .32
Trang 5DANH MỤC HÌNH
Hình 1.1: Biểu diễn tác dụng của scaling 8
Hình 1.2: Hình mô tả dữ liệu trước và sau quy tâm 9
Hình 1.3: Hai thành phần chính được chọn 11
Hình 1.4: Chiếu các sản phẩm lên mặt phẳng tạo nên bởi hai thành phần chính 12
Hình 1.5: Tóm tắt nguyên tắc và kết quả của PCA 13
Hình 1.6: Nguyên tắc của MFA 14
Hình 2.1: Một phần bảng số liệu thu được từ hội đồng người Pakistani .19
Hình 2.2: Cửa sổ Comparison of panels 22
Hình 2.3: Vòng tròn tương quan 23
Hình 2.4: Đồ thị trình bày điểm mô tả sản phẩm theo từng người thử ở cả hai hội đồng 25
Hình 2.5: Đồ thị trình bày điểm trung bình sản phẩm với ellipse tin cậy của hai hội đồng 26
Hình 2.6: Đồ thị biểu diễn ellipse tin cậy bao quanh điểm sản phẩm theo từng hội đồng 27
Trang 6Phần 1: Tổng Quan
I Giới thiệu R
R là một phần mềm sử dụng cho phân tích thống kê và vẽ đồ thị, được hai nhà thống kê học Ross Ihaka và Robert Gentleman sáng tạo ra Kể từ ngày ra đời, R được rất nhiều nhà nghiên cứu thống kê và toán học trên thế giới ủng hộ và tham gia phát triển [4, 29]
Thực chất R là một ngôn ngữ máy tính, có thể được sử dụng nhằm nhiều mục tiêu khác nhau, từ tính toán đơn giản, tính toán ma trận đến các tính toán thống kê phức tạp Vì R là một ngôn ngữ, nên người ta có thể dùng R để phát triển thành các phần mềm chuyên môn, để giải quyết một vấn đề cụ thể Các phần mềm nhỏ được phát triển từ ngôn ngữ R, chạy trong hệ thống
R được gọi là các packages
Trong R, cũng tích hợp sẵn khoảng 25 packages phục vụ cho các tính toán căn bản Các packages này được gọi là các packages cơ sở Ngoài ra, còn rất nhiều các packages khác với nhiều chức năng và ứng dụng cụ thể vào nhiều lĩnh vực khác nhau, người sử dụng có thể tải về, cài đặt và sử dụng tùy theo nhu cầu
Người sử dụng có thể truy cập vào website chính thức của R có tên “Comprhensive R Archive Network” (http://cran.r-project.org/bin/windows/base/R-2.6.1-win32.exe) để tải chương trình và các packages R là một phần mềm hoàn toàn miễn phí Nhưng trái với suy nghĩ thông thường, R miễn phí nhưng không có nghĩa là chất lượng kém Vì thực tế cho thấy, cho đến nay, chỉ khoảng 5 năm phát triển nhưng các nhà thống kê học, toán học, nghiên cứu trong mọi lĩnh vực đã chuyển sang dùng R để phân tích dữ liệu khoa học Dựa vào con số người sử dụng R đang tăng theo cấp số nhân như hiện nay, người ta dự đoán, trong vòng 10 năm nữa, R có thể thay thế hoàn toàn các phần mềm thống kê đắt tiền khác [4]
II Giới thiệu package SensoMineR
SensoMineR là một gói (package) phần mềm nhỏ, bao gồm các hàm thực thi, được ứng dụng trong xử lý số liệu của đánh giá cảm quan
Trang 7SensoMineR được viết chương trình bằng ngôn ngữ R, bởi hai tác giả Francois Husson, Sébastien Lê, thuộc khoa toán học ứng dụng của trường đại học Agrocampus Rennes Đây là một
ưu thế của SensoMineR vì R là một phần mềm hoàn toàn miễn phí, chúng ta có thể tải về từ bất
cứ đâu trên thế giới và sau vài phút cài đặt là có thể sử dụng ngay Tùy theo lựa chọn của người
sử dụng, SensoMineR sẽ thực hiện các xử lý thống kê bằng rất nhiều phương pháp khác nhau, từ các phương pháp cổ điển đến hiện đại như kiểm định Student (t-test), phân tích phương sai (Anova), phân tích thành phần chính (PCA), phân tích đa yếu tố (MFA)… trên số liệu đánh giá cảm quan và xuất ra các kết quả dạng biểu đồ hay các bảng số liệu đã xử lý thống kê Các kết quả dạng hình ảnh này giúp người thực hiện đánh giá cảm quan dễ dàng nhận xét, phân tích kết quả thực nghiệm [24, 15]
Ngoài địa chỉ website của R, chúng ta có thể tải package SensoMineR tại địa chỉ http://sensominer.free.fr/Install.html [26]
Như đã nhắc đến ở trên, SensoMineR là một package bao gồm nhiều hàm Trong mỗi hàm có các thông số mặc định và các thông số thay đổi Khi thực thi các hàm, chúng ta bắt buộc phải nhập các thông số thay đổi, trong khi các thông số mặc định có thể bỏ qua Trong trường hợp các thông số mặc định được bỏ qua thì chương trình sẽ hiểu chúng ta lựa chọn các thông số này giống như mặc định Các thông số mặc định được các tác giả khuyến cáo là các thông số thường dùng hay hữu ích trong các trường hợp Các thông số mặc định cũng được xem là một sự hướng dẫn cho những người mới sử dụng Tuy nhiên, chúng ta cũng có thể thay đổi các thông số này để phù hợp với từng trường hợp cụ thể [15]
SensoMineR có thể giải quyết các vấn đề liên quan tới:
Thiết kế tối ưu (Optimal design)
Mô tả sản phẩm (Characterization products) Đánh giá năng lực hội đồng (Panel performance) Liên kết sự ưu tiên và số liệu cảm quan (Relating perfrence and sensory data) Phép thử tam giác (Triangle test)
So sánh các hội đồng đánh giá cảm quan (Panels comparison)
Số liệu của phép thử napping (Napping data) Các chức năng công cụ (Tool functions) Đây cũng chính là các module trong package SensoMineR [24, 15]
Trang 8Một module trong package SensoMineR có thể có một hoặc nhiều chức năng Ví dụ, trong module Triangle test, có hai chức năng là thiết kế một phép thử tam giác (Design for triangle test) và phân tích số liệu của phép thử tam giác (Analysis triangle test); còn trong module Panels comparison chỉ có một chức năng là so sánh các hội đồng đánh giá cảm quan
Mỗi chức năng trong một module lại tương ứng với một hàm trong package SensoMineR Trở lại ví dụ trên, khi chúng ta lựa chọn thực hiện chức năng Design for triangle test thì tương ứng chương trình sẽ thực hiện hàm triangle.design() Tuy nhiên, cũng có một số hàm trong package SensoMineR không tương ứng với chức năng nào trong các module như hàm
các bảng số liệu có sẵn trong package Các bảng số liệu này được dùng làm ví dụ để những người mới sử dụng biết cách thực hiện các hàm trong package SensoMineR
Trong khuôn khổ đồ án này, em chỉ xin đề cập đến một module trong SensoMineR là module Panels comparison và ứng dụng cụ thể của module này vào xử lý một ví dụ trong thực tế
để hiểu rõ hơn chức năng của nó
III Panels comparison
Module Panels comparison có ứng dụng chủ yếu là so sánh các hội đồng đánh giá cảm quan Khi lựa chọn thực hiện chức năng so sánh hội đồng của module Panels comparison thì tương ứng chương trình sẽ thực thi hàm panelmatch()[12, 17]
III.1 Cú pháp của hàm panelmatch() [23, 25]
panelmatch(donnee, col.p, col.j, firstvar, alpha = 0.05, coord = c(1,2), scale.unit = TRUE, nbsimul = 500, nbchoix = NULL, centerbypanelist = TRUE, scalebypanelist = FALSE, name.panelist = FALSE, cex = 1, color = NULL, hierar = NULL)
Trong đó:
Các thông số thay đổi là donnee, col.p, col.j, firstvar.
donnee: bảng số liệu cần xử lý, được tạo thành từ ít nhất hai biến định lượng (sản phẩm
và hội đồng) và một tập biến (là các thuộc tính mô tả cảm quan) Cấu trúc của bảng số liệu sẽ được mô tả cụ thể trong phần ví dụ áp dụng
col.p: vị trí của biến sản phẩm, hay vị trí của cột sản phẩm trong bảng số liệu
col.j: vị trí của biến người thử, hay vị trí của cột người thử trong bảng số liệu
Trang 9firstvar: vị trí của thuộc tính mô tả cảm quan đầu tiên, hay vị trí của cột trình bày thuộc tính mô tả đầu tiên
Các thông số mặc định là:
alpha: mức ý nghĩa lựa chọn khi vẽ ellipse tin cậy Mặc định là alpha = 0.05
coord: cặp vector vuông góc dùng xác định các thành phần khi vẽ đồ thị Mặc định chọn thành thứ nhất và thành phần thứ hai, ứng với trị riêng thứ nhất và thứ hai, vì thường thì hai thành phần này biểu diễn được nhiều thông tin nhất
scale.unit: mặc định là TRUE, các thuộc tính mô tả được lấy tỷ lệ với phương sai đơn vị
nbsimul: số lượng các giả định được sử dụng để xây dựng các ellipses tin cậy Nguyên tắc xây dựng ellipses tin cậy sẽ trình bày cụ thể trong phần các thuật toán Mặc định là 500
nbchoix: số lượng người thử ảo tạo thành một hội đồng ảo Mặc định là số lượng người thử trong hội đồng nguyên thủy
centerbypanelist: mặc định là TRUE, các số liệu của từng người thử được quy tâm trước khi xây dựng các trục
scalebypanelist: mặc định là FALSE, là TRUE thì các số liệu của từng người thử
sẽ được lấy tỷ lệ trước khi xây dựng các trục
name.panelist: mặc định là FALSE, là TRUE thì tên của từng người thử sẽ được biểu diễn ngay trên đồ thị
cex: là hàm par() trong package graphics Graphics là package hỗ trợ vẽ đồ thị trong
R Trong hàm par()có rất nhiều thông số, chọn cex = 1 tương ứng thực thi hàm
par(no.readonly=TRUE), có nghĩa là ta chọn tất cả các thông số mà không cần nêu cụ thể tên của thông số đó ra
color: các màu được sử dụng để vẽ đồ thị Mặc định có 35 màu
hierar: trật tự của các biến Mặc định là NULL
III.2 Các thuật toán
Phần này sẽ trình bày các thuật toán được sử dụng để xây dựng các đồ thị trong kết quả xuất ra của hàm panelmatch()
Thực thi hàm panelmatch() thực ra là thực hiện một phân tích đa yếu tố (Multiple Factors Analysis – MFA) Tuy nhiên, trước khi tìm hiểu MFA là gì và thực hiện như thế nào, thì
Trang 10chúng ta tìm hiểu khái niệm và cách thực hiện phân tích thành phần chính (Principal Components Analysis – PCA), vì thực chất thực hiện MFA được thực hiện qua hai bước: thực hiện PCA trên từng bảng số liệu sau đó hợp nhất các bảng số liệu và thực hiện một PCA tổng thể
III.2.1 Phân tích thành phần chính (Principal Components Analysis – PCA)
Nếu chỉ có một sản phẩm và hai hoặc ba tính chất đặc trưng, thì sản phẩm sẽ được biểu diễn thành một điểm trong không gian hai hay ba chiều Nhưng trong trường hợp nhiều sản phẩm được mô tả bởi nhiều thuộc tính thì vấn đề trở nên phức tạp, tập hợp dữ liệu thu được gồm nhiều điểm sẽ được biểu diễn thành một “đám mây” trong không gian đa chiều Vì vậy, để đánh giá mối tương quan giữa các sản phẩm và các thuộc tính trở nên khó khăn là phức tạp
Do đó, PCA là một công cụ hữu hiệu để phân tích tập hợp dữ liệu trong trường hợp này,
vì PCA làm giảm chiều của tập hợp dữ liệu để dễ dàng đánh giá mối tương quan giữa các sản phẩm và thuộc tính, trong khi thông tin của tập dữ liệu bị mất mát ít nhất
III.2.1.2 Nguyên tắc PCA
Nguyên tắc của PCA là tìm ra các hướng phân tán chính của tập dữ liệu sau đó chiếu toàn
bộ tập dữ liệu lên các hướng phân tán chính này [20]
Mục đích của PCA là làm giảm số chiều của tập hợp dữ liệu Nhưng khi giảm số chiều cũng đồng nghĩa là làm mất mát một lượng thông tin về sản phẩm Vì vậy, yêu cầu đặt ra là cần giảm tối đa lượng thông tin bị mất mát PCA làm giảm số chiều của tập dữ liệu và hạn chế lượng thông tin mất mát bằng cách chỉ bỏ những chiều ít thể hiện thông tin về sự phân tán của sản phẩm nhất
Trang 11Để xác định chiều nào thể hiện ít thông tin về sản phẩm nhất, thay vì xác định sự phân tán
của các sản phẩm theo từng chiều hay từng mặt phẳng, một công việc rất khó khăn vì thực tế có
rất nhiều chiều, chúng ta xác định hướng phân tán chính và mức độ phân tán của các sản phẩm
theo các hướng phân tán chính đó
Hướng phân tán chính và mức độ phân tán của các sản phẩm được xác định dựa vào
vector riêng và trị riêng của tập dữ liệu Vector riêng đặc trưng cho hướng của phân tán, còn trị
riêng ứng với mức độ phân tán của tập dữ liệu Như vậy, vector riêng tương ứng với trị riêng
càng lớn thì theo hướng của vector riêng đó, càng thể hiện được nhiều thông tin của tập dữ liệu
[20, 19] Hay nói cách khác, các hướng được chọn để biểu diễn trong PCA (các thành phần chính
– pricipal components PC) là hướng của các vector riêng tương ứng với các trị riêng có giá trị lớn
nhất [6]
III.2.1.3 Các bước thực hiện
a Thu thập dữ liệu
PCA áp dụng cho các tập hợp dữ liệu trong đó các sản phẩm phân tích phải có sự đồng
nhất về các thuộc tính cảm quan được đánh giá [17]
Sau khi thu thập dữ liệu, ta lập bảng sau: hàng là các sản phẩm khác nhau, cột biểu diễn
n
p p
x x
x
x x
x
X
X
X X
2 1
2 22
21
1 12
11 2
1
(1)
Ma trận X là ma trận p x n, với p là tính chất của sản phẩm, n là số sản phẩm
Trang 12b Tiền xử lý dữ liệu
Bước tiền xử lý liên quan tới một số khái niệm thống kê như giá trị trung bình, phương
sai, độ lệch chuẩn Chúng ta sẽ nhắc lại một số khái niệm về các đại lượng này
Giá trị trung bình (Mean)
Giá trị trung bình của một tập hợp các quan sát được tính bằng cách lấy tổng giá trị của tất
cả các quan sát chia cho số quan sát
Trung bình của tổng thể:
N
x
N i
n i
n: số quan sát của mẫu
Phương sai (Variance)
Là bình phương độ lệch so với giá trị trung bình
Độ lệch chuẩn (Standard Deviation)
Là căn bậc hai của phương sai
Công thức tính:
1
)(1
2 2
s
n i i
Tiền xử lý dữ liệu gồm hai bước: (5)
b.1 Lấy tỷ lệ (scaling)
Lấy tỷ lệ là làm cho các biến có phương sai bằng nhau
Có nhiều cách để lấy tỷ lệ dữ liệu, nhưng kỹ thuật thường áp dụng nhất là lấy tỷ lệ theo
phương sai đơn vị (unit variance scaling – UV- scaling) Phương sai đơn vị là phương sai được
hiệu chỉnh bằng cách chia mỗi biến cho độ lệch chuẩn của nó (s k)
Trang 13Khi thực hiện UV-scaling thì đối với mỗi biến (mỗi cột), chúng ta tính toán độ lệch chuẩn
(s k ) sau đó nhân mỗi cột của dữ liệu với nghịch đảo độ lệch chuẩn 1/ s k Kết quả là tất cả các biến đều có phương sai bằng nhau và bằng phương sai đơn vị
Một ví dụ về tác dụng của UV- scaling trong hình 1.1 Giả sử ta có các biến biểu diễn thành một “hình chữ nhật” có “chiều dài” khác nhau, đường gạch ngang của mỗi hình chữ nhật biểu diễn giá trị trung bình của biến đó Giá trị của phương sai ở đây tương ứng với “chiều dài” của biến Một biến “dài” tức là có mức độ phân tán lớn, tức là giá trị phương sai lớn Như vậy, UV-scaling có ý nghĩa là làm co các biến “dài” và kéo giãn các biến “ngắn” Kết quả là làm cho tất cả các biến có phương sai bằng nhau và bằng phương sai đơn vị
Hình 1.1: Biểu diễn tác dụng của scaling
Tại sao phải scaling dữ liệu?
Bởi vì các biến thường có khoảng dao động khác nhau Khoảng dao động có thể lớn hoặc nhỏ PCA là phương pháp tìm hướng các phân tán lớn nhất của các biến và chiếu toàn bộ dữ liệu lên các hướng đó Vì thế nếu không lấy tỷ lệ các biến thì có vẻ như các biến có khoảng dao động lớn được “ưu tiên” hơn trong phương pháp phân tích này [6]
b.2 Quy tâm dữ liệu (centering)
Quy tâm dữ liệu được thực hiện bằng cách biến đổi đưa giá trị trung bình X về 0 Hay i
nói cách khác là chúng ta tịnh tiến gốc tọa độ về tâm của tập dữ liệu Giá trị xij ban đầu được thay bằng giá trị aij mới
Trang 14aij = xij –X (6) i
Lúc này, thay vì các giá trị xoay quanh điểm trung bình, nó sẽ xoay quanh gốc tọa độ O
Hình 1.2: Hình mô tả dữ liệu trước và sau quy tâm
n
p p
a a
a
a a
a
a a
a A
2 1
2 22
21
1 12
11
(7)
c Lập ma trận hiệp phương sai
Khi biểu diễn ma trận X trong không gian, p là số chiều và n là số điểm trong không gian
này Những điểm này tạo trong không gian p chiều một đám mây và đám mây phân tán theo tất
cả các chiều trong không gian Để biểu diễn sự phân tán của tập hợp này bằng một phương trình
toán học là không thể, do đó người ta thực hiện phép chiếu sự phân tán này lên các mặt phẳng và
các trục tọa độ Khi chiếu lên mặt phẳng, sự phân tán này chính là giá trị hiệp phương sai của hai
trục tạo thành mặt phẳng đó Cov (xj, xk) Còn khi chiếu lên một trục thì sự phân tán này là giá trị
phương sai của trục đó Cov (xj, xj) = Var (xj) Từ các giá trị Cov này, chúng ta thiết lập được ma
trận hiệp phương sai:
p
p p
C C
C
C C
C
C C
C C
2 1
2 22
21
1 12
11
(8)
Trang 15Với
1
.1
))(
()
y y x x x
x Cov C
n í
ik ij n
i
k ik j ij k
j
xij, xik: là giá trị tại tính chất thứ j, k của sản phẩm thứ i (i ∈ [1, n])
j
x , x k: là các giá trị trung bình của các tính chất j, k
Ma trận hiệp phương sai là một ma trận vuông p x p, với p là số tính chất mô tả sản phẩm,
có các phần tử trên đường chéo là hiệp phương sai của một biến với chính nó
d.Tính trị riêng và vector riêng của ma trận hiệp phương sai
Vector riêng (eigenvector) đặc trưng cho hướng phân tán và trị riêng (eigenvalue) đặc
trưng cho mức độ phân tán của tập dữ liệu [20]
Trị riêng và vector riêng được tìm trên ma trận hiệp phương sai (ma trận C) vì ma trận C
chính là hình chiếu sự phân tán của dữ liệu lên các mặt phẳng và các trục nên ma trận C mô tả
được sự phân tán của ma trận X Do đó, ma trận tương quan C được dùng để tính toán thay thế
cho ma trận X
Phương pháp tìm trị riêng và vector riêng:
Giải phương trình đặc trưng C − Iλ =0 Trị riêng chính là nghiệm của phương trình trên (I là ma trận đơn vị)
Tìm vector riêng tương ứng với các trị riêng λ bằng cách giải hệ phương trình đại
số tuyến tính thuần nhất (C – λI).x = 0 Nghiệm không tầm thường của nó chính là vector riêng cần tìm
Các tính chất của vector riêng:
Mỗi vector ứng với duy nhất một trị riêng, ngược lại ứng với một trị riêng có vô số vector riêng tương ứng
Tất cả các vector riêng của một ma trận thì trực giao với nhau và không phu thuộc vào số chiều của ma trận
e Xác định các thành phần chính
Tiêu chuẩn khi lựa chọn thành phần chính là dựa vào giá trị của trị riêng Dựa vào độ lớn
của giá trị riêng, chúng ta đánh giá được phương sai hay mức độ khác nhau của tập dữ liệu ban
đầu được thành phần đó giữ lại Trị riêng càng lớn thì mức độ thể hiện của thành phần chính càng
tốt Phương sai hay mức độ khác nhau của đám mây dữ liệu nói lên mức độ phân tán của đám
Trang 16mây trong không gian p chiều Nếu các thành phần chính giữ lại được tỷ lệ lớn phương sai cũng
có nghĩa là nó phản ánh tốt sự phân tán của đám mây dữ liệu đó khi giảm số chiều của nó Nói cách khác, mục đích chính của PCA là giảm số chiều của tập dữ liệu nhưng vẫn giữ lại sự khác nhau vốn có của các biến gốc một cách đầy đủ nhất, hay lượng thông tin được giữ lại từ tập dữ liệu ban đầu là chính xác nhất
Tương ứng với trị riêng càng lớn thì phần trăm phương sai giải thích càng lớn Phần trăm phương sai giải thích của một thành phần là phần trăm thông tin mà thành phần đó giữ lại được
so với lượng thông tin ban đầu Phần trăm phương sai giải thích được xác định bởi công thức:
p k
p
λλ
λ
λ+++
=
2 1
Trong đó λp là giá trị của trị riêng thứ p
Thành phần chính thứ nhất được chọn là đường thẳng cùng phương với vector riêng ứng với trị riêng lớn nhất Tương tự thành phần chính thứ hai được chọn
Sau khi chuyển dữ liệu về các trục là các thành phần chính, ta thu được đồ thị sản phẩm
Đồ thị sản phẩm là mặt phẳng có hai trục vuông góc là hai thành phần chính, trên đó tập sản
Trang 17phẩm ban đầu được biểu diễn thành các “điểm trình bày sản phẩm” Tọa độ của các điểm trình bày sản phẩm được xác định bằng cách chiếu sản phẩm trong không gian p chiều lên mặt phẳng tạo bởi hai thành phần chính
Hình 1.4: Chiếu các sản phẩm lên mặt phẳng tạo nên bởi hai thành phần chính
g Tính toán các hệ số tương quan
Hệ số tương quan r được tính như sau:
),()
,(
),()
,(
y y Cov x x Cov
y x Cov y
x
Lần lượt tính toán hệ số tương quan giữa các giá trị của các thuộc tính mô tả các sản phẩm trong không gian ban đầu với giá trị của thuộc tính đó trong hai trục mới được tạo thành từ hai thành phần chính Hệ số tương quan này cho biết mối tương quan của các thuộc tính với từng thành phần chính Mỗi thuộc tính sẽ có hai hệ số tương quan với hai thành phần chính Hai hệ số tương quan này sẽ xác định vị trí của vector thuộc tính trong vòng tròn tương quan
Vòng tròn tương quan là vòng tròn có bán kính là 1, trên mặt phẳng tạo nên bởi hai thành phần chính, tâm trùng với giao điểm của hai trục tạo nên bởi hai thành phần chính Trên vòng tròn tương quan các vector thuộc tính xuất phát từ tâm, đỉnh vector được xác định dựa vào các hệ
số tương quan được tính toán ở trên Do hệ số tương quan luôn có giá trị ≤ 1 nên các vector thuộc tính luôn có độ dài ≤ 1
Trang 18III.2.1.4 Kết quả
Khi thực hiện một PCA, chúng ta thu được vòng tròn tương quan và đồ thị sản phẩm [19] (hình 1.5) Cách đánh giá các đồ thị này sẽ được trình bày cụ thể trong phần ứng dụng
Hình 1.5: Tóm tắt nguyên tắc và kết quả của PCA
III.2.2 Phân tích đa yếu tố (Multiple Factor Analysis – MFA)
Nhược điểm của PCA là chỉ phân tích được các sản phẩm khi các thuộc tính được đánh giá là giống nhau Khi các sản phẩm được đánh giá bởi các thuộc tính khác nhau (các quan sát được mô tả bởi vài tập biến) thì PCA không thể biểu diễn đồng thời các quan sát trong cùng một không gian Do đó, ta phải sử dụng một phương pháp phân tích khác, đó là phân tích đa yếu tố [17]
III.2.2.1 Định nghĩa
MFA là phương pháp phân tích đồng thời các quan sát được mô tả bởi vài tập biến
(Escofier and Pagès, 1990, 1994) [13]
III.2.2.2 Các ký hiệu
Chúng ta có i (i = I 1 ) quan sát (sản phẩm) được mô tả bởi j (j = J, 1, ) tập biến Mỗi tập biến có Kj biến, các biến là các thuộc tính mô tả Kj có thể khác nhau giữa các tập biến, hay nói cách khác là số lượng và thành phần các biến có thể khác nhau giữa các tập biến
Trang 19Các quan sát được mô tả bởi một tập biến gọi là một dữ liệu Vài tập biến mô tả các quan sát tập thành tập dữ liệu [13]
III.2.2.3 Nguyên tắc
Đối với mỗi dữ liệu, ta thực hiện các PCA riêng biệt Tức là đối với dữ liệu thứ nhất (tập biến có chứa K1 biến), quan sát i được biểu diễn thành một điểm trong không gian RK1 RK1 là không gian có K1 chiều, mỗi chiều được xây dựng tương ứng với một biến trong tập biến Như vậy, các quan sát được mô tả bởi tập biến thứ nhất được biểu diễn trong không gian RK1, tạo thành đám mây Tương tự, các quan sát được mô tả bởi tập biến thứ j (tập biến chứa Kj biến) được biểu diễn thành đám mây trong không gian R
1
I
N
j I
N KJ Sau đó, tất cả sự phân tán của các quan sát được tập hợp trong một không gian RK, tạo thành đám mây N I Không gian RK là tổng của J không gian con từ RK1 đến RKJ Bây giờ, tất cả các quan sát đều thuộc về không gian tổng cộng
RK (hình 1.6)
Hình 1.6: Nguyên tắc của MFA