Tiểu luận phương pháp correspondence analysis (ca

Một trong số nhữngphương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứngCorrespondence Analysis- CA.Correspondence Analysis- CA là một phân tích thành

Trang 1

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM

KHOA CÔNG NGHỆ THỰC PHẨM MÔN XỬ LÍ SỐ LIỆU THỰC NGHIỆM

Buổi: Thứ 4 – tiết 9+10 – phòng B107

TP HCM, tháng 4 năm 2016

Tiểu luận môn học

Trang 2

Danh sách nhóm và bảng phân công nhiệm vụ.

Trang 3

MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU CHUNG 4

CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH 6

2.1 Một số khái niệm cơ bản 6

2.2 Đặc điểm dữ liệu đầu vào (input) 6

CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA 8

3.1 Cách bố trí dữ liệu đầu vào trong bảng dự phòng 8

3.2 Tiền xử lí dữ liệu đầu vào 9

3.2.1 χ2 Tính toán 9

3.2.2 χ2 Khoảng cách 10

CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ 12

4.1 Giới thiệu một số phần mền thông dụng 12

4.2 Phần mềm XLSTAT 12

4.2.1 Rows and Column Profile 14

4.2.2 Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency Table 15 4.2.3 Xác định số chiều của không gian dùng để biểu diễn các điểm 16

4.2.4 Giải thích các chiều (các trục - axis) 17

4.2.5 Biểu diễn trực quan bằng bản đồ kết quả CA 18

4.2.6 Đánh giá chất lượng của bản đồ 21

KẾT LUẬN 22

Trang 4

CHƯƠNG 1: GIỚI THIỆU CHUNG

Trong việc nghiên cứu các đặc tính khác nhau của cùng một sản phẩm hay của cácsản phẩm khác nhau để đưa ra kết luận, đánh giá về sự tương quan ảnh hưởng lẫn nhaugiữa các yếu tố trên hay sự ảnh hưởng của chúng đến một giá trị khác… Người phân tíchsản phẩm gặp khá nhiều khó khăn trong việc thu thập và xử lí số liệu ban đầu Bởi vớitừng sản phẩm khác nhau và từng người thử – phép thử khác nhau sẽ cho ra rất nhiều kếtquả đánh giá khác nhau

Ví dụ: Khảo sát về các đặt tính cảm quan của một loại nước giải khát mới được thựchiện đánh giá với 50 người thử,cho ra một số kết quả đánh giá như sau:

- Về màu sắc: vàng cam, cam, vàng

- Về mùi hương: hương cam, hương chanh, hương thơm

- Về vị ngọt: thấp, trung bình, cao

- ……

Mỗi tính chất có số người cùng đánh giá khác nhau

Với một loạt những kết quả đánh giá trên rất khó để đưa ra kết luận chính xác về đặctính của sản phẩm Do đó những dữ liệu ban đầu trên - “bộ dữ liệu thô” cần được xử lí,tóm tắt, mã hóa, phân tích…thành dạng đơn giản và khoa học hơn, giúp ta dễ dàng tiếpcận và có thể rút ra kết luận từ các kết quả đã được xử lí và phân tích Một trong số nhữngphương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứngCorrespondence Analysis- CA

Correspondence Analysis- CA là một phân tích thành phần chính tổng quát phù hợpcho việc phân tích dữ liệu định tính Ban đầu, CA được tạo ra để phân tích “bảng dựphòng”, nhưng về sau nó được sử dụng linh hoạt hơn cho nhiều bảng dữ liệu khác.có thểhiểu đơn giản Correspondence Analysis- CA là phương pháp trực quan để phân tích dữliệu được biểu diễn bằng các bảng dữ liệu 2 chiều (contingency table) hay đa chiều, giúpđơn giản hình thức phân tích trong nghiên cứu

Trang 5

Mục tiêu của phân tích tương ứng CA là chuyển đổi một bảng dữ liệu thành hai

bộ yếu tố điểm: Một cho các hàng và một cho các cột Điểm yếu tố phải là điểm đại diện

tốt nhất của cấu trúc tương tự của các hàng và các cột trong bảng Ngoài ra, yếu tố điểmcó thể được vẽ trên bản đồ, hiển thị các thông tin cần thiết của bảng dữ liệu gốc Trongcác bản đồ này, tọa độ của các điểm hiển thị các yếu tố tương tự như các hàng và các cộttrong bảng dữ liệu Điều đặc biệt là các điểm yếu tố của các hàng và các cột có cùngphương sai và, do đó, cả hàng và cột có thể được đại diện thuận tiện trên cùng một bản

đồ duy nhất

Như vậy kết quả của CA là bản đồ các điểm (Map of Points) Trong đó các điểmbiểu diễn cho các dòng (rows) và các cột (columns) của bảng Sự hiển thị các hàng và cộtcủa một bảng như là các điểm trong một bản đồ không gian, với một giải thích hình họccụ thể các vị trí của các điểm như một phương tiện để giải thích những điểm tương đồngvà khác biệt giữa các hàng , sự giống nhau và khác nhau giữa cột và sự liên kết giữa cáchàng và cột Các kết quả cung cấp thông tin tương tự như trong thực tiễn sản xuất, giúpchúng ta phát hiện được mối quan hệ tìm ẩn ảnh hưởng lẫn nhau của các yếu tố được phântích trong bảng

Trang 6

CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH2.1 Một số khái niệm cơ bản

Profile: Tần suất tương đối trong bảng dữ liệu thống kê (Row and column profiles).

Dùng để xác định tọa độ của các điểm trong bản đồ

Masses (marginal distribution): Đo lường độ quan trọng của các điểm.

Centroid (tâm): Trọng số trung bình của các vị trí

Projection: Phép chiếu lên không gian con.

Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid.

2.2 Đặc điểm dữ liệu đầu vào (input)

Như đã giới thiệu ở phần trên, các dữ liệu thu thập ban đầu là “tập các dữ liệu thô”,chủ yếu là các dữ liệu dạng văn bản (các nhận định và đánh giá ) Do đó, những dữ liệunày cần được xử lí và tóm tắt lại để thuận tiện và dễ dàng cho quá trình phân tích

Các dữ liệu dạng văn bản này cần được đồng nhất về mặt ngữ nghĩa Do các dữ liệudạng văn bản thường rất đa dạng và phong phú về mặt ngữ nghĩa (nghĩa của từ)

Như ở ví dụ trên, khi khảo sát đặc tính của một loại nước giải khát…do cách cảmnhận của những người khác nhau và cách kết luận tự do nên sẽ dẫn đến những đánh giá cósự khác nhau về mặt từ ngữ nhưng lại cùng diễn tả một tính chất chung như: “vàng”,

“vàng vàng”, “vàng nhạt”,…cùng mang một ý nghĩa khá giống nhau là “vàng”; hay “ngònngọt”, “ngọt dịu”, “hơi ngọt”… cùng diễn đạt tính chất trung bình của vị ngọt…hơn thếnữa, nhận xét và đánh giá của một người hoàn toàn có thể bị chi phối bởi yếu tố tâm lí,được xem là các dữ liệu ngẫu nhiên – tự phát Do đó, việc đồng nhất dữ liệu dạng văn bảnlà việc làm cần thiết giúp giảm mức độ phức tạp của dữ liệu đầu vào

Phân tích tương ứng là hiệu quả nhất nếu các điều kiện sau đây:

- Ma trận dữ liệu là đủ lớn, để kiểm tra trực quan hoặc phân tích thống kê đơn giảnkhông thể tiết lộ cấu trúc của nó

Trang 7

- Các biến là đồng nhất, do đó nó làm cho cảm giác để tính toán khoảng cách thống

kê giữa các hàng hoặc cột

- Ma trận dữ liệu là một ưu tiên "vô định hình", tức là cấu trúc của nó, hoặc là khôngbiết hoặc chưa được hiểu rõ

Trang 8

CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA3.1 Cách bố trí dữ liệu đầu vào trong bảng dự phòng

Trong phương pháp phân tích tương ứng này, “bộ dữ liệu thô” ban đầu cần đượctóm tắt và hệ thống hóa vào một bảng dữ liệu thống kê (bảng ngẫu nhiên) Ở bảng thống

kê này chúng ta quan tâm đến hai biến: một là biến tương ứng với lời đánh giá của nhữngngười được khảo sát (biến đặc tính), biến thứ hai tương ứng với sản phẩm được đánh giá.Các biến dữ liệu trên được bố trí trong bảng như sau:

- Các hàng i (rows): chứa dữ liệu tương ứng với các sản phẩm được đánh giá

- Các cột j (colums): chứa các dữ liệu tương ứng với từ ngữ dùng để mô tả đặc tínhcủa sản phẩm

- Các điểm giao nhau giữa hàng i và cột j: chứa dữ liệu ghi nhận tần số tương quangiữa i và j, tức số lần đánh giá được lập lại đối với một đặc tính của từng sản phẩm.Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của 4 nhãn hiệu kem đánh răng(Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3)được điều tra ngẫu nhiên từ 120 người như sau:

Trang 9

3.2 Tiền xử lí dữ liệu đầu vào

3.2.1 χ 2 Tính toán

Câu hỏi đặt ra là liệu bạn có chắc chắn các dữ liệu trong bảng dự phòng độc lập vớinhau? Để khắng định điều đó chúng ta cần kiểm tra χ2 , để xem các tab chéo có lệch nhauđáng kể giữa các hàng và các cột

Việc kiểm tra được mô tả chính thức bởi các ma trận (i x j), F =[fij] Chúng ta nhậnđược các ma trận tương ứng P từ F bằng cách chia các mục của nó:

µij = pi+ p+j (4)Nếu các hàng và cột thực sự là độc lập (tức là, "theo giả thuyếtnull"), X2 nên theo một χ2 phân phối với (I-1)x(J-1) bậc tự do Chúng ta có thể

so sánh giá trị thực tế tính toán cho các ví dụ tab chéo với phân phối của mình

Trang 10

theo giả thuyết.

(8)

Vẽ một tương tự với khái niệm vật lý của quán tính góc cạnh, phân tích tương ứng xác

định quán tính của một hàng như sản phẩm của tổng hàng (được gọi là khối lượng của

hàng) và bình phương khoảng cách của nó với trọng tâm pi+diz2 So sánh biểuthức diz2 trong (5) với định nghĩa của χ2 Thống kê trong (3), nó sau đó tổng quán tính

Trang 11

của tất cả các hàng trong một ma trận ngẫu nhiên bằng các χ2 Thống kê chia n , Một số

lượng được gọi là mean-square contingency Pearson, ký hiệu ɸ2 :

(9)

Tổng quán tính của một bảng được sử dụng để đánh giá chất lượng của đại diện đồhọa của nó trong phân tích tương ứng Để tham khảo trong tương lai, chúng ta có thể tínhtoán ɸ2 cho dữ liệu của chúng ta

Trang 12

CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ4.1 Giới thiệu một số phần mền thông dụng

Trong phương pháp phân tích tương ứng CA có khá nhiều phần mềm hỗ trợ nhằmgiảm bớt các công đoạn tính toán và giúp hiện thị kết quả thuận tiện hơn cho người phântích Sau đây là một số phần mềm hỗ trợ phân tích:

- Phần mềm SPSS (viết tắt của Statistical Package for the Social Sciences) là

một chương trình máy tính phục vụ công tác thống kê Phần mềm SPSS hỗ trợ xửlý và phân tích dữ liệu sơ cấp - là các thông tin được thu thập trực tiếp từ đối tượngnghiên cứu, thường được sử dụng rộng rãi trong các nghiên cứu điều tra xã hộihọc và kinh tế lượng

- Phần mền R: là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính

toán và đồ họa thống kê Đây là một bản hiện thực ngôn ngữ lập trình S với ngữnghĩa khối từ vựng lấy cảm hứng từ Scheme R do Ross Ihaka và RobertGentleman tạo ra tại Đại học Auckland, New Zealand

- Phần mềm XLSTAT: là phần mềm ứng dụng dùng trong Excel, giúp hỗ trợ tính

toán và đồ họa thống kê như CA, PCAvà MCA,…

4.2. Phần mềm XLSTAT

Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của 4 nhãn hiệu kem đánhrăng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 vàRegion 3) được điều tra ngẫu nhiên từ 120 người như sau:

Trang 13

Region 1 Region 2 Region 3

Total

Sau khi khởi động XLSTAT và chọn biểu tượng Correspondence Analysis

Chọn vùng dữ liệu để phân tích và bấm OK để thực hiện CA.

Vấn đề quan trọng là giải thích kết quả mà CA sinh ra để tìm ra các tri thức hữu ích

ẩn chứa trong dữ liệu.

Khai phá tri thức từ kết quả CA

Trang 14

Sau đây giải thích từng bước các kết quả sinh ra bởi CA nhằm giúp các bạn có thểphát hiện các tri thức ẩn chứa trong dữ liệu từ Contingency table ban đầu.

4.2.1 Rows and Column Profile

Kết quả cuối cùng của CA là bản đồ các điểm (Map of Points), trong đó mỗi hàng(row) và mỗi cột (column) được biểu diễn thành 1 điểm trong bản đồ Profile được tính làtần suất tương đối của các dòng (Rows profile) và các cột (Columnsprofile) trongContingency table Profile của các dòng và cột được dùng để xác định tọa độ của cácđiểm trong bản đồ Vì vậy các dòng hoặc các cột có profile gần giống nhau sẽ được đặtgần nhau trong bản đồ Sau đây là Profile của các dòng và các cột được CA sinh ra từbảng dự phòng (Contingency Table)

Trang 15

Test interpretation:

H0: The rows and the columns of the table are independent.

Ha: There is a link between the rows and the columns of the

table.

Trang 16

As the computed p-value is lower than the significance level α=0.05,

one should reject the null hypothesis H 0 ,

and accept the alternative hypothesis H 1

The risk to reject the null hypothesis H 0 while it is true is lower than

0.01%.

Giả thuyết H0 (Null hypothesis): Các dòng và các cột trong bảng dự phòng là độc lậpnhau (Nói cách khác là không có sự phụ thuộc giữa các dòng và cột trong bảng)

Giả thuyết H1 (giả thuyết đối): Có mối liên hệ giữa dòng và cột trong bản

Kết quả kiểm định cho thấy P-value <0.0001 nhỏ hơn mức ý nghĩa α= 0.05 nên ta bácbỏ H0 và chấp nhận H1 Sai lầm mắc phải khi bác bỏ H0 trong khi H0 đúng nhỏ hơn 0.1%.Như vậy qua kiểm định giả thuyết ta kết luận rằng giữa các dòng và các cột trongContingency Table có mối quan hệ với nhau

4.2.3 Xác định số chiều của không gian dùng để biểu diễn các điểm

Thực chất của phần này là thực hiện các phép chiếu (projection) lên các trục và phépquay (rotation) các trục để tìm ra không gian tốt nhất để biểu diễn các điểm dữ liệu

Với kết quả sinh ra từ CA, việc xác này được thực hiện bằng việc kiểm tra giátrị vecto riêng (eigenvalue) và phần trăm của quán tính (inertia)

Trong ví dụ này, các giá trị eigenvalue và phần trăm của inertia được sinh ra nhưbảng sau:

Eigenvalues and percentages of

Trang 17

các dòng và cột và việc xác định các chiều của không gian biểu diễn.

Đóng góp của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng) Kết quảsinh ra bởi CA như sau:

Contributions (rows):

0.62 6

0.015

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45

0 20 40 60 80 100

Trang 18

2 6

0.058

0.169

0.244

0.181

Trong ví dụ này có 4 nhãn hiệu kem đánh răng, vì vậy bất cứ nhãn hiệu nào đónggóp từ 25% (=100/4) được coi là đóng góp có ý nghĩa trong việc xác định các chiều đểbiểu diễn các điểm Ta thấy rằng Brand A đóng góp 62.6% trong việc xác định trục thứnhất (F1) và Brand B đóng góp 63.6% để xác định trục thứ 2 (F2) Vì vậy có thể nói rằngtrục F1 được xác định chủ yếu dựa vào Brand A và trục F2 được xác định chủ yếu doBrand B

Đóng góp của các cột (trong trường hợp này là 3 khu vực) Kết quả như sau

Trang 19

4.2.5 Biểu diễn trực quan bằng bản đồ kết quả CA

Ví trí của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng BrandA,B,C,D)

Tiêu đề	Phương Pháp Correspondence Analysis (CA)
Tác giả	Phạm Văn Đông, Phạm Văn Luân, Hà Trung Phương, Hoàng Anh Đức
Người hướng dẫn	GVHD: Trần Thị Hồng Cẩm
Trường học	Trường Đại Học Công Nghiệp Thực Phẩm TP. HCM
Chuyên ngành	Xử Lý Số Liệu Thực Nghiệm
Thể loại	tiểu luận
Năm xuất bản	2016
Thành phố	TP. HCM

Định dạng
Số trang	23
Dung lượng	418,05 KB