Một trong số nhữngphương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứngCorrespondence Analysis- CA.Correspondence Analysis- CA là một phân tích thành
Correspondence Analysis- CA BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA CÔNG NGHỆ THỰC PHẨM MÔN XỬ LÍ SỐ LIỆU THỰC NGHIỆM TIỂU LUẬN Tiểu luận môn học PHƯƠNG PHÁP CORRESPONDENCE ANALYSIS (CA) GVHD: Trần Thị Hờng Cẩm Nhóm: Nhóm - Phạm Văn Đông Phạm Văn Luân Hà Trung Phương Hoàng Anh Đức Lớp: 05DHDB2 2022140345 2022140331 2022140357 2022140322 Buổi: Thứ – tiết 9+10 – phòng B107 TP HCM, tháng năm 2016 Nhóm Page Correspondence Analysis- CA Danh sách nhóm và bảng phân công nhiệm vụ - - Tiểu luận môn học Nhóm Page Correspondence Analysis- CA MỤC LỤC CHƯƠNG 1: GIỚI THIỆU CHUNG CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH 2.1 Một số khái niệm bản 2.2 Đặc điểm dữ liệu đầu vào (input) .6 CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA 3.1 Cách bố trí dữ liệu đầu vào bảng dự phòng 3.2 Tiền xử lí dữ liệu đầu vào 3.2.1 χ2 Tính tốn 3.2.2 χ2 Khoảng cách 10 CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ 12 4.1 Giới thiệu một số phần mền thông dụng 12 Tiểu luận môn học 4.2 Phần mềm XLSTAT 12 4.2.1 Rows and Column Profile .14 4.2.2 Kiểm định phụ thuộc dòng (rows) cột (columns) Contingency Table 15 4.2.3 Xác định số chiều không gian dùng để biểu diễn điểm .16 4.2.4 Giải thích chiều (các trục - axis) .17 4.2.5 Biểu diễn trực quan đồ kết CA 18 4.2.6 Đánh giá chất lượng đồ 21 KẾT LUẬN 22 Nhóm Page Correspondence Analysis- CA CHƯƠNG 1: GIỚI THIỆU CHUNG Trong việc nghiên cứu các đặc tính khác của cùng một sản phẩm hay của các sản phẩm khác để đưa kết luận, đánh giá về sự tương quan ảnh hưởng lẫn giữa các yếu tố hay sự ảnh hưởng của chúng đến một giá trị khác… Người phân tích sản phẩm gặp khá nhiều khó khăn việc thu thập và xử lí số liệu ban đầu Bởi với từng sản phẩm khác và từng người thử – phép thử khác sẽ cho rất nhiều kết quả đánh giá khác Ví dụ: Khảo sát về các đặt tính cảm quan của một loại nước giải khát mới được thực hiện đánh giá với 50 người thử,cho một số kết quả đánh giá sau: - Về màu sắc: vàng cam, cam, vàng - Về mùi hương: hương cam, hương chanh, hương thơm - Về vị ngọt: thấp, trung bình, cao - …… Tiểu luận môn học Mỗi tính chất có số người cùng đánh giá khác Với một loạt những kết quả đánh giá rất khó để đưa kết luận chính xác về đặc tính của sản phẩm Do đó những dữ liệu ban đầu - “bộ dữ liệu thô” cần được xử lí, tóm tắt, mã hóa, phân tích…thành dạng đơn giản và khoa học hơn, giúp ta dễ dàng tiếp cận và có thể rút kết luận từ các kết quả đã được xử lí và phân tích Một số những phương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứng Correspondence Analysis- CA Correspondence Analysis- CA là một phân tích thành phần chính tổng quát phù hợp cho việc phân tích dữ liệu định tính Ban đầu, CA được tạo để phân tích “bảng dự phòng”, về sau nó được sử dụng linh hoạt cho nhiều bảng dữ liệu khác.có thể hiểu đơn giản Correspondence Analysis- CA là phương pháp trực quan để phân tích liệu biểu diễn bảng liệu chiều (contingency table) hay đa chiều, giúp đơn giản hình thức phân tích nghiên cứu Nhóm Page Correspondence Analysis- CA Mục tiêu phân tích tương ứng CA chuyển đổi bảng liệu thành hai bộ yếu tố điểm: Một cho hàng cho cột. Điểm yếu tố phải là điểm đại diện tốt cấu trúc tương tự hàng cột bảng. Ngoài ra, yếu tố điểm vẽ đồ, hiển thị thông tin cần thiết bảng dữ liệu gốc. Trong đồ này, tọa độ của các điểm hiển thị các yếu tố tương tự các hàng và các cột bảng dữ liệu Điều đặc biệt là các điểm yếu tố hàng cột có phương sai và, đó, hàng cột đại diện thuận tiện cùng đồ nhất Như vậy kết CA đồ điểm (Map of Points) Trong điểm biểu diễn cho dịng (rows) cột (columns) bảng Sự hiển thị hàng cột bảng điểm đồ không gian, với giải thích hình học cụ thể vị trí điểm phương tiện để giải thích điểm tương đồng khác biệt hàng , giống khác cột liên kết Tiểu luận môn học hàng cột Các kết quả cung cấp thông tin tương tự thực tiễn sản xuất, giúp chúng ta phát hiện được mối quan hệ tìm ẩn ảnh hưởng lẫn của các yếu tố được phân tích bảng Nhóm Page Correspondence Analysis- CA CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH 2.1 Một số khái niệm bản Profile: Tần suất tương đối bảng dữ liệu thống kê (Row and column profiles) Dùng để xác định tọa độ điểm đồ Masses (marginal distribution): Đo lường độ quan trọng điểm Centroid (tâm): Trọng số trung bình vị trí Projection: Phép chiếu lên khơng gian Inertia: Tổng bình phương khoảng cách điểm đến centroid 2.2 Đặc điểm dữ liệu đầu vào (input) Như đã giới thiệu ở phần trên, các dữ liệu thu thập ban đầu là “tập các dữ liệu thô”, chủ yếu là các dữ liệu dạng văn bản (các nhận định và đánh giá ) Do đó, những dữ liệu Tiểu luận môn học này cần được xử lí và tóm tắt lại để thuận tiện và dễ dàng cho quá trình phân tích Các dữ liệu dạng văn bản này cần được đồng nhất về mặt ngữ nghĩa Do các dữ liệu dạng văn bản thường rất đa dạng và phong phú về mặt ngữ nghĩa (nghĩa của từ) Như ở ví dụ trên, khảo sát đặc tính của một loại nước giải khát…do cách cảm nhận của những người khác và cách kết luận tự nên sẽ dẫn đến những đánh giá có sự khác về mặt từ ngữ lại cùng diễn tả một tính chất chung như: “vàng”, “vàng vàng”, “vàng nhạt”,…cùng mang một ý nghĩa khá giống là “vàng”; hay “ngòn ngọt”, “ngọt dịu”, “hơi ngọt”… cùng diễn đạt tính chất trung bình của vị ngọt…hơn thế nữa, nhận xét và đánh giá của một người hoàn toàn có thể bị chi phối bởi yếu tố tâm lí, được xem là các dữ liệu ngẫu nhiên – tự phát Do đó, việc đồng nhất dữ liệu dạng văn bản là việc làm cần thiết giúp giảm mức độ phức tạp của dữ liệu đầu vào Phân tích tương ứng hiệu điều kiện sau đây: - Ma trận liệu đủ lớn, để kiểm tra trực quan phân tích thống kê đơn giản tiết lộ cấu trúc Nhóm Page Correspondence Analysis- CA - Các biến đồng nhất, làm cho cảm giác để tính tốn khoảng cách thống kê hàng cột - Ma trận liệu là một ưu tiên "vơ định hình", tức là cấu trúc nó, khơng biết chưa hiểu rõ Tiểu luận môn học Nhóm Page Correspondence Analysis- CA CHƯƠNG 3: CÁCH BỚ TRÍ DỮ LIỆU TRONG DATA 3.1 Cách bớ trí dữ liệu đầu vào bảng dự phòng Trong phương pháp phân tích tương ứng này, “bộ dữ liệu thô” ban đầu cần được tóm tắt và hệ thống hóa vào một bảng dữ liệu thống kê (bảng ngẫu nhiên) Ở bảng thống kê này chúng ta quan tâm đến hai biến: một là biến tương ứng với lời đánh giá của những người được khảo sát (biến đặc tính), biến thứ hai tương ứng với sản phẩm được đánh giá Các biến dữ liệu được bố trí bảng sau: - Các hàng i (rows): chứa dữ liệu tương ứng với các sản phẩm được đánh giá - Các cột j (colums): chứa các dữ liệu tương ứng với từ ngữ dùng để mô tả đặc tính của sản phẩm - Các điểm giao giữa hàng i và cột j: chứa dữ liệu ghi nhận tần số tương quan giữa i và j, tức số lần đánh giá được lập lại đối với một đặc tính của từng sản phẩm Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của nhãn hiệu kem đánh Tiểu luận môn học (Brand A, Brand B, Brand C Brand D) khu vực (Region 1, Region Region 3) điều tra ngẫu nhiên từ 120 người sau: Region Region Region Total Brand A 5 30 40 Brand B 25 35 Brand C 15 5 25 Brand D 15 20 Total 40 40 40 120 Nhóm Page Correspondence Analysis- CA 3.2 Tiền xử lí dữ liệu đầu vào 3.2.1 χ2 Tính tốn Câu hỏi đặt là liệu bạn có chắc chắn các dữ liệu bảng dự phòng độc lập với nhau? Để khắng định điều đó chúng ta cần kiểm tra χ2 , để xem các tab chéo có lệch đáng kể giữa các hàng và các cợt Việc kiểm tra mơ tả thức ma trận (i x j), F =[fij] . Chúng ta nhận các ma trận tương ứng P từ F bằng cách chia mục nó: I J f (ij) ¿, where n = ∑ ∑ f (ij) P = [ pij] =[ n i=1 J=1 (1) Tiếp theo, xác định hàng cột tổng: p¿ Tiểu luận môn học ∑ (2) I p(+ j)= pij i=1 Các χ2 Thống kê, X2 được tính: I J square ( X )=n ∑ ∑ i=1 J=1 square [ p (ij )−µ (ij ) ] (3) µ ( ij ) µij là ước tính giá trị giả định độc lập đầu ra: µij = pi+ p+j (4) Nếu hàng cột thực độc lập (tức là, "theo giả thuyết null"), X2 nên theo χ2 phân phối với (I-1)x(J-1) bậc tự do. Chúng ta so sánh giá trị thực tế tính tốn cho ví dụ tab chéo với phân phối Nhóm Page Correspondence Analysis- CA theo giả thuyết 3.2.2 χ2 Khoảng cách Theo mục đích phân tích tương ứng, khác biệt phân phối biến hàng ngang bảng chéo (bảng dự phòng) được đo bằng χ2 khoảng cách, trong có trọng lượng khoảng cách Euclide hàng bình, với trọng lượng tỉ lệ nghịch với bậc hai tổng số cột. Trong biểu tượng, các χ2 khoảng cách hàng i hàng k cho biểu thức: (5) χ2 khoảng cách mẫu văn sử dụng ma trận tương ứng hiển thị chúng bảng nhỏ gọn hợp lý (sau nhân rộng lên 100 làm trịn số) Tiểu luận mơn học Từ phương trình (5) kể từ tổng hàng cho trọng tâm (theo định nghĩa của P ), các χ2 khoảng cách hàng i với trọng tâm là: (7) Bây với µij như định nghĩa (4): (8) Vẽ tương tự với khái niệm vật lý quán tính góc cạnh, phân tích tương ứng xác định qn tính hàng sản phẩm tổng hàng (được gọi là khối lượng của hàng) bình phương khoảng cách với trọng tâm pi+diz2. So sánh biểu thức diz2 trong (5) với định nghĩa của χ2 . Thống kê (3), sau tổng quán tính Nhóm Page 10 Correspondence Analysis- CA tất hàng ma trận ngẫu nhiên các χ2 . Thống kê chia n , Một số lượng gọi là mean-square contingency Pearson, ký hiệu ɸ2 : (9) Tổng quán tính bảng sử dụng để đánh giá chất lượng đại diện đồ họa phân tích tương ứng. Để tham khảo tương lai, tính tốn ɸ2 cho liệu Tiểu luận môn học Nhóm Page 11 Correspondence Analysis- CA CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ 4.1 Giới thiệu một số phần mền thông dụng Trong phương pháp phân tích tương ứng CA có khá nhiều phần mềm hỗ trợ nhằm giảm bớt các công đoạn tính toán và giúp hiện thị kết quả thuận tiện cho người phân tích Sau là một số phần mềm hỗ trợ phân tích: - Phần mềm SPSS (viết tắt của Statistical Package for the Social Sciences) một chương trình máy tính phục vụ công tác thống kê Phần mềm SPSS hỗ trợ xử lý phân tích liệu sơ cấp - thông tin thu thập trực tiếp từ đối tượng nghiên cứu, thường sử dụng rộng rãi nghiên cứu điều tra xã hội học và kinh tế lượng - Phần mền R: là một ngơn ngữ lập trình và mơi trường phần mềm dành cho tính Tiểu luận mơn học nghĩa khối từ vựng lấy cảm hứng từ Scheme R do Ross toán đồ họa thống kê Đây thực ngôn ngữ lập trình S với ngữ Ihaka và Robert Gentleman tạo ra tại Đại học Auckland, New Zealand - Phần mềm XLSTAT: là phần mềm ứng dụng dùng Excel, giúp hỗ trợ tính toán và đồ họa thống kê CA, PCAvà MCA,… 4.2 Phần mềm XLSTAT Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của nhãn hiệu kem đánh (Brand A, Brand B, Brand C Brand D) khu vực (Region 1, Region Region 3) điều tra ngẫu nhiên từ 120 người sau: Nhóm Page 12 Correspondence Analysis- CA Tota Region Region Region l Brand A 5 30 40 Brand B 25 35 Brand C 15 5 25 Brand D 15 20 Total 40 40 40 120 Sau khởi động XLSTAT chọn biểu tượng Correspondence Analysis Chọn vùng liệu để phân tích bấm OK để thực CA Tiểu luận mơn học Vấn đề quan trọng giải thích kết mà CA sinh để tìm tri thức hữu ích ẩn chứa liệu Khai phá tri thức từ kết CA Nhóm Page 13 Correspondence Analysis- CA Sau giải thích bước kết sinh CA nhằm giúp bạn phát tri thức ẩn chứa liệu từ Contingency table ban đầu 4.2.1 Rows and Column Profile Kết cuối CA đồ điểm (Map of Points), hàng (row) cột (column) biểu diễn thành điểm đồ Profile tính tần suất tương đối dòng (Rows profile) cột (Columnsprofile) Contingency table Profile dòng cột dùng để xác định tọa độ điểm đồ Vì dịng cột có profile gần giống đặt gần đồ Sau Profile dòng cột CA sinh từ bảng dự phòng (Contingency Table) Row Profile Region Region Sum Tiểu Region luận môn học 100 Brand A 12.5% 12.5% 75.0% % 100 Brand B 14.3% 71.4% 14.3% % 100 Brand C 60.0% 20.0% 20.0% % 100 Brand D 75.0% 25.0% 0.0% % 100 Mean 40.4% 33.2% Nhóm Page 14 27.3% % Correspondence Analysis- CA Colum Profile Region Region Region Mean Brand A 12.5% 12.5% 75.0% 33.3% Brand B 12.5% 62.5% 12.5% 29.2% Brand C 37.5% 12.5% 12.5% 20.8% Brand D 37.5% 12.5% 0.0% 16.7% Sum 100% 100% 100% 100% 4.2.2 Kiểm định phụ thuộc dòng (rows) cột (columns) Contingency Table Bước phân tích CA kiểm định giả thuyết phụ thuộc dòng cột bảng liệu ban đầu Tiểu luận môn học CA tự động kiểm tra mối qua hệ Với liệu ví dụ trên, kết kiểm định giả thuyết CA sinh sau: Test of independence between the rows and the columns: Chi-square (Observed value) 79.607 Chi-square (Critical value) 12.592 DF p-value alpha < 0.0001 0.05 Test interpretation: H0: The rows and the columns of the table are independent Ha: There is a link between the rows and the columns of the table Nhóm Page 15 Correspondence Analysis- CA As the computed p-value is lower than the significance level α=0.05, one should reject the null hypothesis H0, and accept the alternative hypothesis H1 The risk to reject the null hypothesis H0 while it is true is lower than 0.01% Giả thuyết H0 (Null hypothesis): Các dòng cột bảng dự phòng độc lập (Nói cách khác khơng có phụ thuộc dịng cột bảng) Giả thuyết H1 (giả thuyết đối): Có mối liên hệ dòng cột Kết kiểm định cho thấy P-value 100/3 =33.3%) Chú ý rằng, Theo đóng góp các dịng (Brands) Brand A xác định F1 theo đóng góp cột (các Regions) thì F1 xác định Region 3, rõ ràng Brand A kết hợp mạnh mẽ với Region Hay nói cách khác nhãn hiệu kem đánh Brand A sử dụng nhiều Region (xem hiệu Contingency Table đồ phần sau) Nhóm Page 18 Correspondence Analysis- CA 4.2.5 Biểu diễn trực quan đồ kết CA Ví trí dịng (trong trường hợp nhãn hiệu kem đánh răng Brand A,B,C,D) Row Profile Region Region Region Sum Brand A 12.5% 12.5% 75.0% 100% Brand B 14.3% 71.4% 14.3% 100% Brand C 60.0% 20.0% 20.0% 100% Brand D 75.0% 25.0% 0.0% 100% Mean 40.4% 33.2% Tiểu luận môn27.3% học100% Những nhãn hiệu có profile giống đặt gần nhãn hiệu có profile khác đặt xa đồ thị Nhóm Page 19 Correspondence Analysis- CA Symmetric row plot (axes F1 and F2: 100.00 %) F2 (38.16 %) 0.5 -0.5 -1 -2 -1.5 -1 -0.5 0.5 1.5 F1 (61.84 %) Rows Trong ví dụ ta thấy Brand C D đặt gần profile chúng gần Tiểu luận mơn học giống (60%, 75%) Brand A đặt xa Brand C D vì Profile Brand A (12.5%) khác xa so với Profile Brand C Trục F1 xác định Brand A nên vị trí Brand A gần trục F1 đồ thị Thêm vào đó, profile brand khác biệt so với tâm (centroid – trung bình profile) sẻ nằm xa gốc tọa độ (origin) Tương tự, ví trí cột (trong trường hợp Regions) biểu diễn sau Nhóm Page 20