1. Trang chủ
  2. » Luận Văn - Báo Cáo

PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG ỨNG CORRESPONDENCE ANALYSIS (CA)

20 1,9K 13

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 376,91 KB

Nội dung

Một trong số những phương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứng Correspondence Analysis- CA.. Correspondence Analysis- CA là một phân tích tha

Trang 1

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM

KHOA CÔNG NGHỆ THỰC PHẨM MÔN XỬ LÍ SỐ LIỆU THỰC NGHIỆM



TIỂU LUẬN

PHƯƠNG PHÁP CORRESPONDENCE ANALYSIS

(CA)

GVHD: Trần Thị Hồng Cẩm Nhóm: Nhóm 6 Lớp: 05DHDB2

Buổi: Thứ 4 – tiết 9+10 – phòng B107

TP HCM, tháng 4 năm 2016

Trang 2

Danh sách nhóm và bảng phân công nhiệm vụ.

Trang 3

-MỤC LỤC

Trang 4

CHƯƠNG 1: GIỚI THIỆU CHUNG

Trong việc nghiên cứu các đặc tính khác nhau của cùng một sản phẩm hay của các sản phẩm khác nhau để đưa ra kết luận, đánh giá về sự tương quan ảnh hưởng lẫn nhau giữa các yếu tố trên hay sự ảnh hưởng của chúng đến một giá trị khác… Người phân tích sản phẩm gặp khá nhiều khó khăn trong việc thu thập và xử lí số liệu ban đầu Bởi với từng sản phẩm khác nhau và từng người thử – phép thử khác nhau sẽ cho ra rất nhiều kết quả đánh giá khác nhau

Ví dụ: Khảo sát về các đặt tính cảm quan của một loại nước giải khát mới được thực hiện đánh giá với 50 người thử,cho ra một số kết quả đánh giá như sau:

- Về màu sắc: vàng cam, cam, vàng

- Về mùi hương: hương cam, hương chanh, hương thơm

- Về vị ngọt: thấp, trung bình, cao

Mỗi tính chất có số người cùng đánh giá khác nhau

Với một loạt những kết quả đánh giá trên rất khó để đưa ra kết luận chính xác về đặc tính của sản phẩm Do đó những dữ liệu ban đầu trên - “bộ dữ liệu thô” cần được xử lí, tóm tắt, mã hóa, phân tích…thành dạng đơn giản và khoa học hơn, giúp ta dễ dàng tiếp cận và có thể rút ra kết luận từ các kết quả đã được xử lí và phân tích Một trong số những phương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứng Correspondence Analysis- CA

Correspondence Analysis- CA là một phân tích thành phần chính tổng quát phù hợp cho việc phân tích dữ liệu định tính Ban đầu, CA được tạo ra để phân tích “bảng dự phòng”, nhưng về sau nó được sử dụng linh hoạt hơn cho nhiều bảng dữ liệu khác.có thể hiểu đơn giản Correspondence Analysis- CA là phương pháp trực quan để phân tích dữ liệu được biểu diễn bằng các bảng dữ liệu 2 chiều (contingency table) hay đa chiều, giúp đơn giản hình thức phân tích trong nghiên cứu

Trang 5

Mục tiêu của phân tích tương ứng CA là chuyển đổi một bảng dữ liệu thành hai

bộ yếu tố điểm: Một cho các hàng và một cho các cột Điểm yếu tố phải là điểm đại diện

tốt nhất của cấu trúc tương tự của các hàng và các cột trong bảng Ngoài ra, yếu tố điểm có thể được vẽ trên bản đồ, hiển thị các thông tin cần thiết của bảng dữ liệu gốc Trong các bản đồ này, tọa độ của các điểm hiển thị các yếu tố tương tự như các hàng và các cột trong bảng dữ liệu Điều đặc biệt là các điểm yếu tố của các hàng và các cột có cùng phương sai và, do đó, cả hàng và cột có thể được đại diện thuận tiện trên cùng một bản

đồ duy nhất

Như vậy kết quả của CA là bản đồ các điểm (Map of Points) Trong đó các điểm biểu diễn cho các dòng (rows) và các cột (columns) của bảng Sự hiển thị các hàng và cột của một bảng như là các điểm trong một bản đồ không gian, với một giải thích hình học cụ thể các vị trí của các điểm như một phương tiện để giải thích những điểm tương đồng và khác biệt giữa các hàng , sự giống nhau và khác nhau giữa cột và sự liên kết giữa các hàng và cột Các kết quả cung cấp thông tin tương tự như trong thực tiễn sản xuất, giúp chúng ta phát hiện được mối quan hệ tìm ẩn ảnh hưởng lẫn nhau của các yếu tố được phân tích trong bảng

Trang 6

CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH

2.1. Một số khái niệm cơ bản

Profile: Tần suất tương đối trong bảng dữ liệu thống kê (Row and column profiles).

Dùng để xác định tọa độ của các điểm trong bản đồ

Masses (marginal distribution): Đo lường độ quan trọng của các điểm.

Centroid (tâm): Trọng số trung bình của các vị trí

Projection: Phép chiếu lên không gian con.

Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid.

2.2. Đặc điểm dữ liệu đầu vào (input)

Như đã giới thiệu ở phần trên, các dữ liệu thu thập ban đầu là “tập các dữ liệu thô”, chủ yếu là các dữ liệu dạng văn bản (các nhận định và đánh giá ) Do đó, những dữ liệu này cần được xử lí và tóm tắt lại để thuận tiện và dễ dàng cho quá trình phân tích

Các dữ liệu dạng văn bản này cần được đồng nhất về mặt ngữ nghĩa Do các dữ liệu dạng văn bản thường rất đa dạng và phong phú về mặt ngữ nghĩa (nghĩa của từ)

Như ở ví dụ trên, khi khảo sát đặc tính của một loại nước giải khát…do cách cảm nhận của những người khác nhau và cách kết luận tự do nên sẽ dẫn đến những đánh giá có sự khác nhau về mặt từ ngữ nhưng lại cùng diễn tả một tính chất chung như: “vàng”,

“vàng vàng”, “vàng nhạt”,…cùng mang một ý nghĩa khá giống nhau là “vàng”; hay “ngòn ngọt”, “ngọt dịu”, “hơi ngọt”… cùng diễn đạt tính chất trung bình của vị ngọt…hơn thế nữa, nhận xét và đánh giá của một người hoàn toàn có thể bị chi phối bởi yếu tố tâm lí, được xem là các dữ liệu ngẫu nhiên – tự phát Do đó, việc đồng nhất dữ liệu dạng văn bản là việc làm cần thiết giúp giảm mức độ phức tạp của dữ liệu đầu vào

Phân tích tương ứng là hiệu quả nhất nếu các điều kiện sau đây:

- Ma trận dữ liệu là đủ lớn, để kiểm tra trực quan hoặc phân tích thống kê đơn giản không thể tiết lộ cấu trúc của nó

Trang 7

- Các biến là đồng nhất, do đó nó làm cho cảm giác để tính toán khoảng cách thống

kê giữa các hàng hoặc cột

- Ma trận dữ liệu là một ưu tiên "vô định hình", tức là cấu trúc của nó, hoặc là không biết hoặc chưa được hiểu rõ

Trang 8

CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA

3.1. Cách bố trí dữ liệu đầu vào trong bảng dự phòng

Trong phương pháp phân tích tương ứng này, “bộ dữ liệu thô” ban đầu cần được tóm tắt và hệ thống hóa vào một bảng dữ liệu thống kê (bảng ngẫu nhiên) Ở bảng thống

kê này chúng ta quan tâm đến hai biến: một là biến tương ứng với lời đánh giá của những người được khảo sát (biến đặc tính), biến thứ hai tương ứng với sản phẩm được đánh giá Các biến dữ liệu trên được bố trí trong bảng như sau:

- Các hàng i (rows): chứa dữ liệu tương ứng với các sản phẩm được đánh giá

- Các cột j (colums): chứa các dữ liệu tương ứng với từ ngữ dùng để mô tả đặc tính của sản phẩm

- Các điểm giao nhau giữa hàng i và cột j: chứa dữ liệu ghi nhận tần số tương quan giữa i và j, tức số lần đánh giá được lập lại đối với một đặc tính của từng sản phẩm Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của 4 nhãn hiệu kem đánh răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3) được điều tra ngẫu nhiên từ 120 người như sau:

Trang 9

3.2. Tiền xử lí dữ liệu đầu vào

3.2.1. χ 2 Tính toán

Câu hỏi đặt ra là liệu bạn có chắc chắn các dữ liệu trong bảng dự phòng độc lập với nhau? Để khắng định điều đó chúng ta cần kiểm tra χ2 , để xem các tab chéo có lệch nhau đáng kể giữa các hàng và các cột

Việc kiểm tra được mô tả chính thức bởi các ma trận (i x j), F =[fij] Chúng ta nhận được các ma trận tương ứng P từ F bằng cách chia các mục của nó:

Tiếp theo, xác định hàng và cột tổng:

(2)

Các χ2 Thống kê, X2 được tính:

(3) µij là ước tính giá trị giả định độc lập của đầu ra:

µij = pi+ p+j (4) Nếu các hàng và cột thực sự là độc lập (tức là, "theo giả thuyết null"), X2 nên theo một χ2 phân phối với (I-1)x(J-1) bậc tự do Chúng ta có thể

so sánh giá trị thực tế tính toán cho các ví dụ tab chéo với phân phối của mình theo giả thuyết

Trang 10

3.2.2. χ 2 Khoảng cách

Theo mục đích của phân tích tương ứng, sự khác biệt giữa các bản phân phối của các biến hàng ngang của bảng chéo (bảng dự phòng) được đo bằng χ2 khoảng cách, trong đó

có trọng lượng khoảng cách Euclide giữa các hàng bình, với trọng lượng tỉ lệ nghịch với căn bậc hai của tổng số cột Trong các biểu tượng, các χ2 khoảng cách giữa các hàng i và hàng k được cho bởi biểu thức:

(5)

χ2 khoảng cách giữa các mẫu văn bản sử dụng ma trận tương ứng và hiển thị chúng trong một bảng nhỏ gọn hợp lý (sau khi nhân rộng lên 100 và làm tròn số)

Từ phương trình (5) kể từ khi tổng hàng cho các trọng tâm là 1 (theo định nghĩa của P ), các χ2 khoảng cách hàng i với trọng tâm là:

(7 ) Bây giờ với µij như được định nghĩa trong (4):

(8)

Vẽ một tương tự với khái niệm vật lý của quán tính góc cạnh, phân tích tương ứng xác

định quán tính của một hàng như sản phẩm của tổng hàng (được gọi là khối lượng của

hàng) và bình phương khoảng cách của nó với trọng tâm pi+diz2 So sánh biểu thức diz2 trong (5) với định nghĩa của χ2 Thống kê trong (3), nó sau đó tổng quán tính của tất cả các hàng trong một ma trận ngẫu nhiên bằng các χ2 Thống kê chia n , Một số

lượng được gọi là mean-square contingency Pearson, ký hiệu ɸ2 :

Trang 11

(9 ) Tổng quán tính của một bảng được sử dụng để đánh giá chất lượng của đại diện đồ họa của nó trong phân tích tương ứng Để tham khảo trong tương lai, chúng ta có thể tính toán ɸ2 cho dữ liệu của chúng ta

Trang 12

CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUA

4.1. Giới thiệu một số phần mền thông dụng

Trong phương pháp phân tích tương ứng CA có khá nhiều phần mềm hỗ trợ nhằm giảm bớt các công đoạn tính toán và giúp hiện thị kết quả thuận tiện hơn cho người phân tích Sau đây là một số phần mềm hỗ trợ phân tích:

- Phần mềm SPSS (viết tắt của Statistical Package for the Social Sciences) là

một chương trình máy tính phục vụ công tác thống kê Phần mềm SPSS hỗ trợ xử lý và phân tích dữ liệu sơ cấp - là các thông tin được thu thập trực tiếp từ đối tượng nghiên cứu, thường được sử dụng rộng rãi trong các nghiên cứu điều tra xã hội học và kinh tế lượng

- Phần mền R: là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính

toán và đồ họa thống kê Đây là một bản hiện thực ngôn ngữ lập trình S với ngữ nghĩa khối từ vựng lấy cảm hứng từ Scheme R do Ross Ihaka và Robert Gentleman tạo ra tại Đại học Auckland, New Zealand

- Phần mềm XLSTAT: là phần mềm ứng dụng dùng trong Excel, giúp hỗ trợ tính

toán và đồ họa thống kê như CA, PCAvà MCA,…

4.2. Phần mềm XLSTAT

Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của 4 nhãn hiệu kem đánh răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3) được điều tra ngẫu nhiên từ 120 người như sau:

Trang 13

Region 1 Region 2 Region 3

Tota l

Sau khi khởi động XLSTAT và chọn biểu tượng Correspondence Analysis

Chọn vùng dữ liệu để phân tích và bấm OK để thực hiện CA.

Vấn đề quan trọng là giải thích kết quả mà CA sinh ra để tìm ra các tri thức hữu ích

ẩn chứa trong dữ liệu.

Khai phá tri thức từ kết quả CA

Sau đây giải thích từng bước các kết quả sinh ra bởi CA nhằm giúp các bạn có thể phát hiện các tri thức ẩn chứa trong dữ liệu từ Contingency table ban đầu

Trang 14

Kết quả cuối cùng của CA là bản đồ các điểm (Map of Points), trong đó mỗi hàng (row) và mỗi cột (column) được biểu diễn thành 1 điểm trong bản đồ Profile được tính là tần suất tương đối của các dòng (Rows profile) và các cột (Columnsprofile) trong Contingency table Profile của các dòng và cột được dùng để xác định tọa độ của các điểm trong bản đồ Vì vậy các dòng hoặc các cột có profile gần giống nhau sẽ được đặt gần nhau trong bản đồ Sau đây là Profile của các dòng và các cột được CA sinh ra từ bảng dự phòng (Contingency Table)

Row Profile

Region 1 Region 2 Region 3 Sum

Colum Profile

Region 1 Region 2 Region 3 Mean

4.2.2. Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong

Contingency Table

Bước đầu tiên trong phân tích CA là kiểm định giả thuyết về sự phụ thuộc giữa các dòng và các cột trong bảng dữ liệu ban đầu

Trang 15

CA tự động kiểm tra mối qua hệ này Với dữ liệu trong ví dụ trên, kết quả kiểm định giả thuyết được CA sinh ra như sau:

Test of independence between the rows and the

columns:

Test interpretation:

H0: The rows and the columns of the table are independent.

Ha: There is a link between the rows and the columns of the

table.

As the computed p-value is lower than the significance level α=0.05,

one should reject the null hypothesis H 0 ,

and accept the alternative hypothesis H 1

The risk to reject the null hypothesis H 0 while it is true is lower than

0.01%.

Giả thuyết H0 (Null hypothesis): Các dòng và các cột trong bảng dự phòng là độc lập nhau (Nói cách khác là không có sự phụ thuộc giữa các dòng và cột trong bảng) Giả thuyết H1 (giả thuyết đối): Có mối liên hệ giữa dòng và cột trong bản

Kết quả kiểm định cho thấy P-value <0.0001 nhỏ hơn mức ý nghĩa α= 0.05 nên ta bác bỏ H0 và chấp nhận H1 Sai lầm mắc phải khi bác bỏ H0 trong khi H0 đúng nhỏ hơn 0.1% Như vậy qua kiểm định giả thuyết ta kết luận rằng giữa các dòng và các cột trong Contingency Table có mối quan hệ với nhau

4.2.3. Xác định số chiều của không gian dùng để biểu diễn các điểm

Trang 16

Thực chất của phần này là thực hiện các phép chiếu (projection) lên các trục và phép quay (rotation) các trục để tìm ra không gian tốt nhất để biểu diễn các điểm dữ liệu

Với kết quả sinh ra từ CA, việc xác này được thực hiện bằng việc kiểm tra giá trị vecto riêng (eigenvalue) và phần trăm của quán tính (inertia)

Trong ví dụ này, các giá trị eigenvalue và phần trăm của inertia được sinh ra như bảng sau:

Eigenvalues and percentages of

inertia:

Trong ví dụ này, 2 chiều (F1 và F2) đã giải thích 100% của inertia Vì vậy sử dụng không gian 2 chiều đủ giải thích toàn bộ inertia

4.2.4. Giải thích các chiều (các trục - axis)

Phần này phân tích sự đóng góp của các dòng và cột và việc xác định các chiều của không gian biểu diễn

Đóng góp của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng) Kết quả sinh ra bởi CA như sau:

Contributions (rows):

Ngày đăng: 18/05/2016, 11:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w