1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận phương pháp correspondence analysis (ca

23 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương Pháp Correspondence Analysis (CA)
Tác giả Phạm Văn Đông, Phạm Văn Luân, Hà Trung Phương, Hoàng Anh Đức
Người hướng dẫn GVHD: Trần Thị Hồng Cẩm
Trường học Trường Đại Học Công Nghiệp Thực Phẩm TP. HCM
Chuyên ngành Xử Lý Số Liệu Thực Nghiệm
Thể loại tiểu luận
Năm xuất bản 2016
Thành phố TP. HCM
Định dạng
Số trang 23
Dung lượng 418,05 KB

Nội dung

Một trong số nhữngphương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứngCorrespondence Analysis- CA.Correspondence Analysis- CA là một phân tích thành

Trang 1

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM

KHOA CÔNG NGHỆ THỰC PHẨM MÔN XỬ LÍ SỐ LIỆU THỰC NGHIỆM

Buổi: Thứ 4 – tiết 9+10 – phòng B107

TP HCM, tháng 4 năm 2016

Tiểu luận môn học

Trang 2

Danh sách nhóm và bảng phân công nhiệm vụ.

Trang 3

MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU CHUNG 4

CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH 6

2.1 Một số khái niệm cơ bản 6

2.2 Đặc điểm dữ liệu đầu vào (input) 6

CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA 8

3.1 Cách bố trí dữ liệu đầu vào trong bảng dự phòng 8

3.2 Tiền xử lí dữ liệu đầu vào 9

3.2.1 χ2 Tính toán 9

3.2.2 χ2 Khoảng cách 10

CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ 12

4.1 Giới thiệu một số phần mền thông dụng 12

4.2 Phần mềm XLSTAT 12

4.2.1 Rows and Column Profile 14

4.2.2 Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency Table 15 4.2.3 Xác định số chiều của không gian dùng để biểu diễn các điểm 16

4.2.4 Giải thích các chiều (các trục - axis) 17

4.2.5 Biểu diễn trực quan bằng bản đồ kết quả CA 18

4.2.6 Đánh giá chất lượng của bản đồ 21

KẾT LUẬN 22

Tiểu luận môn học

Trang 4

CHƯƠNG 1: GIỚI THIỆU CHUNG

Trong việc nghiên cứu các đặc tính khác nhau của cùng một sản phẩm hay của cácsản phẩm khác nhau để đưa ra kết luận, đánh giá về sự tương quan ảnh hưởng lẫn nhaugiữa các yếu tố trên hay sự ảnh hưởng của chúng đến một giá trị khác… Người phân tíchsản phẩm gặp khá nhiều khó khăn trong việc thu thập và xử lí số liệu ban đầu Bởi vớitừng sản phẩm khác nhau và từng người thử – phép thử khác nhau sẽ cho ra rất nhiều kếtquả đánh giá khác nhau

Ví dụ: Khảo sát về các đặt tính cảm quan của một loại nước giải khát mới được thựchiện đánh giá với 50 người thử,cho ra một số kết quả đánh giá như sau:

- Về màu sắc: vàng cam, cam, vàng

- Về mùi hương: hương cam, hương chanh, hương thơm

- Về vị ngọt: thấp, trung bình, cao

- ……

Mỗi tính chất có số người cùng đánh giá khác nhau

Với một loạt những kết quả đánh giá trên rất khó để đưa ra kết luận chính xác về đặctính của sản phẩm Do đó những dữ liệu ban đầu trên - “bộ dữ liệu thô” cần được xử lí,tóm tắt, mã hóa, phân tích…thành dạng đơn giản và khoa học hơn, giúp ta dễ dàng tiếpcận và có thể rút ra kết luận từ các kết quả đã được xử lí và phân tích Một trong số nhữngphương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứngCorrespondence Analysis- CA

Correspondence Analysis- CA là một phân tích thành phần chính tổng quát phù hợpcho việc phân tích dữ liệu định tính Ban đầu, CA được tạo ra để phân tích “bảng dựphòng”, nhưng về sau nó được sử dụng linh hoạt hơn cho nhiều bảng dữ liệu khác.có thểhiểu đơn giản Correspondence Analysis- CA là phương pháp trực quan để phân tích dữliệu được biểu diễn bằng các bảng dữ liệu 2 chiều (contingency table) hay đa chiều, giúpđơn giản hình thức phân tích trong nghiên cứu

Tiểu luận môn học

Trang 5

Mục tiêu của phân tích tương ứng CA là chuyển đổi một bảng dữ liệu thành hai

bộ yếu tố điểm: Một cho các hàng và một cho các cột Điểm yếu tố phải là điểm đại diện

tốt nhất của cấu trúc tương tự của các hàng và các cột trong bảng Ngoài ra, yếu tố điểmcó thể được vẽ trên bản đồ, hiển thị các thông tin cần thiết của bảng dữ liệu gốc Trongcác bản đồ này, tọa độ của các điểm hiển thị các yếu tố tương tự như các hàng và các cộttrong bảng dữ liệu Điều đặc biệt là các điểm yếu tố của các hàng và các cột có cùngphương sai và, do đó, cả hàng và cột có thể được đại diện thuận tiện trên cùng một bản

đồ duy nhất

Như vậy kết quả của CA là bản đồ các điểm (Map of Points) Trong đó các điểmbiểu diễn cho các dòng (rows) và các cột (columns) của bảng Sự hiển thị các hàng và cộtcủa một bảng như là các điểm trong một bản đồ không gian, với một giải thích hình họccụ thể các vị trí của các điểm như một phương tiện để giải thích những điểm tương đồngvà khác biệt giữa các hàng , sự giống nhau và khác nhau giữa cột và sự liên kết giữa cáchàng và cột Các kết quả cung cấp thông tin tương tự như trong thực tiễn sản xuất, giúpchúng ta phát hiện được mối quan hệ tìm ẩn ảnh hưởng lẫn nhau của các yếu tố được phântích trong bảng

Tiểu luận môn học

Trang 6

CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH2.1 Một số khái niệm cơ bản

Profile: Tần suất tương đối trong bảng dữ liệu thống kê (Row and column profiles).

Dùng để xác định tọa độ của các điểm trong bản đồ

Masses (marginal distribution): Đo lường độ quan trọng của các điểm.

Centroid (tâm): Trọng số trung bình của các vị trí

Projection: Phép chiếu lên không gian con.

Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid.

2.2 Đặc điểm dữ liệu đầu vào (input)

Như đã giới thiệu ở phần trên, các dữ liệu thu thập ban đầu là “tập các dữ liệu thô”,chủ yếu là các dữ liệu dạng văn bản (các nhận định và đánh giá ) Do đó, những dữ liệunày cần được xử lí và tóm tắt lại để thuận tiện và dễ dàng cho quá trình phân tích

Các dữ liệu dạng văn bản này cần được đồng nhất về mặt ngữ nghĩa Do các dữ liệudạng văn bản thường rất đa dạng và phong phú về mặt ngữ nghĩa (nghĩa của từ)

Như ở ví dụ trên, khi khảo sát đặc tính của một loại nước giải khát…do cách cảmnhận của những người khác nhau và cách kết luận tự do nên sẽ dẫn đến những đánh giá cósự khác nhau về mặt từ ngữ nhưng lại cùng diễn tả một tính chất chung như: “vàng”,

“vàng vàng”, “vàng nhạt”,…cùng mang một ý nghĩa khá giống nhau là “vàng”; hay “ngònngọt”, “ngọt dịu”, “hơi ngọt”… cùng diễn đạt tính chất trung bình của vị ngọt…hơn thếnữa, nhận xét và đánh giá của một người hoàn toàn có thể bị chi phối bởi yếu tố tâm lí,được xem là các dữ liệu ngẫu nhiên – tự phát Do đó, việc đồng nhất dữ liệu dạng văn bảnlà việc làm cần thiết giúp giảm mức độ phức tạp của dữ liệu đầu vào

Phân tích tương ứng là hiệu quả nhất nếu các điều kiện sau đây:

- Ma trận dữ liệu là đủ lớn, để kiểm tra trực quan hoặc phân tích thống kê đơn giảnkhông thể tiết lộ cấu trúc của nó

Tiểu luận môn học

Trang 7

- Các biến là đồng nhất, do đó nó làm cho cảm giác để tính toán khoảng cách thống

kê giữa các hàng hoặc cột

- Ma trận dữ liệu là một ưu tiên "vô định hình", tức là cấu trúc của nó, hoặc là khôngbiết hoặc chưa được hiểu rõ

Tiểu luận môn học

Trang 8

CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA3.1 Cách bố trí dữ liệu đầu vào trong bảng dự phòng

Trong phương pháp phân tích tương ứng này, “bộ dữ liệu thô” ban đầu cần đượctóm tắt và hệ thống hóa vào một bảng dữ liệu thống kê (bảng ngẫu nhiên) Ở bảng thống

kê này chúng ta quan tâm đến hai biến: một là biến tương ứng với lời đánh giá của nhữngngười được khảo sát (biến đặc tính), biến thứ hai tương ứng với sản phẩm được đánh giá.Các biến dữ liệu trên được bố trí trong bảng như sau:

- Các hàng i (rows): chứa dữ liệu tương ứng với các sản phẩm được đánh giá

- Các cột j (colums): chứa các dữ liệu tương ứng với từ ngữ dùng để mô tả đặc tínhcủa sản phẩm

- Các điểm giao nhau giữa hàng i và cột j: chứa dữ liệu ghi nhận tần số tương quangiữa i và j, tức số lần đánh giá được lập lại đối với một đặc tính của từng sản phẩm.Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của 4 nhãn hiệu kem đánh răng(Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3)được điều tra ngẫu nhiên từ 120 người như sau:

Trang 9

3.2 Tiền xử lí dữ liệu đầu vào

3.2.1 χ 2 Tính toán

Câu hỏi đặt ra là liệu bạn có chắc chắn các dữ liệu trong bảng dự phòng độc lập vớinhau? Để khắng định điều đó chúng ta cần kiểm tra χ2 , để xem các tab chéo có lệch nhauđáng kể giữa các hàng và các cột

Việc kiểm tra được mô tả chính thức bởi các ma trận (i x j), F =[fij] Chúng ta nhậnđược các ma trận tương ứng P từ F bằng cách chia các mục của nó:

µij = pi+ p+j (4)Nếu các hàng và cột thực sự là độc lập (tức là, "theo giả thuyếtnull"), X2 nên theo một χ2 phân phối với (I-1)x(J-1) bậc tự do Chúng ta có thể

so sánh giá trị thực tế tính toán cho các ví dụ tab chéo với phân phối của mình

Tiểu luận môn học

Trang 10

theo giả thuyết.

(8)

Vẽ một tương tự với khái niệm vật lý của quán tính góc cạnh, phân tích tương ứng xác

định quán tính của một hàng như sản phẩm của tổng hàng (được gọi là khối lượng của

hàng) và bình phương khoảng cách của nó với trọng tâm pi+diz2 So sánh biểuthức diz2 trong (5) với định nghĩa của χ2 Thống kê trong (3), nó sau đó tổng quán tính

Tiểu luận môn học

Trang 11

của tất cả các hàng trong một ma trận ngẫu nhiên bằng các χ2 Thống kê chia n , Một số

lượng được gọi là mean-square contingency Pearson, ký hiệu ɸ2 :

(9)

Tổng quán tính của một bảng được sử dụng để đánh giá chất lượng của đại diện đồhọa của nó trong phân tích tương ứng Để tham khảo trong tương lai, chúng ta có thể tínhtoán ɸ2 cho dữ liệu của chúng ta

Tiểu luận môn học

Trang 12

CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ4.1 Giới thiệu một số phần mền thông dụng

Trong phương pháp phân tích tương ứng CA có khá nhiều phần mềm hỗ trợ nhằmgiảm bớt các công đoạn tính toán và giúp hiện thị kết quả thuận tiện hơn cho người phântích Sau đây là một số phần mềm hỗ trợ phân tích:

- Phần mềm SPSS (viết tắt của Statistical Package for the Social Sciences) là

một chương trình máy tính phục vụ công tác thống kê Phần mềm SPSS hỗ trợ xửlý và phân tích dữ liệu sơ cấp - là các thông tin được thu thập trực tiếp từ đối tượngnghiên cứu, thường được sử dụng rộng rãi trong các nghiên cứu điều tra xã hộihọc và kinh tế lượng

- Phần mền R: là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính

toán và đồ họa thống kê Đây là một bản hiện thực ngôn ngữ lập trình S với ngữnghĩa khối từ vựng lấy cảm hứng từ Scheme R do Ross Ihaka và RobertGentleman tạo ra tại Đại học Auckland, New Zealand

- Phần mềm XLSTAT: là phần mềm ứng dụng dùng trong Excel, giúp hỗ trợ tính

toán và đồ họa thống kê như CA, PCAvà MCA,…

4.2. Phần mềm XLSTAT

Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của 4 nhãn hiệu kem đánhrăng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 vàRegion 3) được điều tra ngẫu nhiên từ 120 người như sau:

Tiểu luận môn học

Trang 13

Region 1 Region 2 Region 3

Total

Sau khi khởi động XLSTAT và chọn biểu tượng Correspondence Analysis

Chọn vùng dữ liệu để phân tích và bấm OK để thực hiện CA.

Vấn đề quan trọng là giải thích kết quả mà CA sinh ra để tìm ra các tri thức hữu ích

ẩn chứa trong dữ liệu.

Khai phá tri thức từ kết quả CA

Tiểu luận môn học

Trang 14

Sau đây giải thích từng bước các kết quả sinh ra bởi CA nhằm giúp các bạn có thểphát hiện các tri thức ẩn chứa trong dữ liệu từ Contingency table ban đầu.

4.2.1 Rows and Column Profile

Kết quả cuối cùng của CA là bản đồ các điểm (Map of Points), trong đó mỗi hàng(row) và mỗi cột (column) được biểu diễn thành 1 điểm trong bản đồ Profile được tính làtần suất tương đối của các dòng (Rows profile) và các cột (Columnsprofile) trongContingency table Profile của các dòng và cột được dùng để xác định tọa độ của cácđiểm trong bản đồ Vì vậy các dòng hoặc các cột có profile gần giống nhau sẽ được đặtgần nhau trong bản đồ Sau đây là Profile của các dòng và các cột được CA sinh ra từbảng dự phòng (Contingency Table)

Trang 15

Test interpretation:

H0: The rows and the columns of the table are independent.

Ha: There is a link between the rows and the columns of the

table.

Tiểu luận môn học

Trang 16

As the computed p-value is lower than the significance level α=0.05,

one should reject the null hypothesis H 0 ,

and accept the alternative hypothesis H 1

The risk to reject the null hypothesis H 0 while it is true is lower than

0.01%.

Giả thuyết H0 (Null hypothesis): Các dòng và các cột trong bảng dự phòng là độc lậpnhau (Nói cách khác là không có sự phụ thuộc giữa các dòng và cột trong bảng)

Giả thuyết H1 (giả thuyết đối): Có mối liên hệ giữa dòng và cột trong bản

Kết quả kiểm định cho thấy P-value <0.0001 nhỏ hơn mức ý nghĩa α= 0.05 nên ta bácbỏ H0 và chấp nhận H1 Sai lầm mắc phải khi bác bỏ H0 trong khi H0 đúng nhỏ hơn 0.1%.Như vậy qua kiểm định giả thuyết ta kết luận rằng giữa các dòng và các cột trongContingency Table có mối quan hệ với nhau

4.2.3 Xác định số chiều của không gian dùng để biểu diễn các điểm

Thực chất của phần này là thực hiện các phép chiếu (projection) lên các trục và phépquay (rotation) các trục để tìm ra không gian tốt nhất để biểu diễn các điểm dữ liệu

Với kết quả sinh ra từ CA, việc xác này được thực hiện bằng việc kiểm tra giátrị vecto riêng (eigenvalue) và phần trăm của quán tính (inertia)

Trong ví dụ này, các giá trị eigenvalue và phần trăm của inertia được sinh ra nhưbảng sau:

Eigenvalues and percentages of

Trang 17

các dòng và cột và việc xác định các chiều của không gian biểu diễn.

Đóng góp của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng) Kết quảsinh ra bởi CA như sau:

Contributions (rows):

0.62 6

0.015

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45

0 20 40 60 80 100

Trang 18

2 6

0.058

0.169

0.244

0.181

Trong ví dụ này có 4 nhãn hiệu kem đánh răng, vì vậy bất cứ nhãn hiệu nào đónggóp từ 25% (=100/4) được coi là đóng góp có ý nghĩa trong việc xác định các chiều đểbiểu diễn các điểm Ta thấy rằng Brand A đóng góp 62.6% trong việc xác định trục thứnhất (F1) và Brand B đóng góp 63.6% để xác định trục thứ 2 (F2) Vì vậy có thể nói rằngtrục F1 được xác định chủ yếu dựa vào Brand A và trục F2 được xác định chủ yếu doBrand B

Đóng góp của các cột (trong trường hợp này là 3 khu vực) Kết quả như sau

Tiểu luận môn học

Trang 19

4.2.5 Biểu diễn trực quan bằng bản đồ kết quả CA

Ví trí của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng BrandA,B,C,D)

Ngày đăng: 30/01/2024, 10:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w