Tiểu luận: Phương pháp Correspondence Analysis (CA)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	23
Dung lượng	587,73 KB

Nội dung

Phân tích tương ứng được áp dụng rất rộng rãi trong rất nhiều lĩnh vực như phân tích dữ liệu kinh doanh, điều tra xã hội học, khai phá dữ liệu,…. CA cho phép phát hiện các tri thức tiềm ẩn trong khối lượng dữ liệu lớn một cách dễ dàng thông qua phương pháp trực quan hóa (sử dụng bản đồ các điểm).

Correspondence Analysis CA BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP. HCM KHOA CÔNG NGHỆ THỰC PHẨM MÔN XỬ LI SÔ LIÊU TH ́ ́ ̣ ỰC NGHIÊM ̣  TIÊU LUÂN ̉ ̣ PHƯƠNG PHAP CORRESPONDENCE ANALYSIS ́ (CA) GVHD: Trân Thi Hơng Câm ̀ ̣ ̀ ̉ Nhóm: Nhom 6 ́ Lớp: 05DHDB2 Pham Văn Đơng ̣ 2022140345 Pham Văn Luân ̣ 2022140331 Ha Trung Ph ̀ ương 2022140357 Hoang Anh Đ ̀ ức 2022140322 Buôi: Th ̉ ư 4 – tiêt 9+10 – phong B107 ́ ́ ̀ Nhom 9 ́ Page 1 Correspondence Analysis CA Nhom 9 ́ Page 2 Correspondence Analysis CA Danh sach nhom va bang phân công nhiêm vu ́ ́ ̀ ̉ ̣ ̣ Nhom 9 ́ Page 3 Correspondence Analysis CA MUC LUC ̣ ̣ Nhom 9 ́ Page 4 Correspondence Analysis CA CHƯƠNG 1: GIƠI THIÊU CHUNG ́ ̣ Trong viêc nghiên c ̣ ưu cac đăc tinh khac nhau cua cung môt san phâm hay cua cac ́ ́ ̣ ́ ́ ̉ ̀ ̣ ̉ ̉ ̉ ́ san phâm khac nhau đê đ ̉ ̉ ́ ̉ ưa ra kêt luân, đanh gia vê s ́ ̣ ́ ́ ̀ ự tương quan anh h ̉ ưởng lân nhau ̃ giưa cac yêu tô trên hay s ̃ ́ ́ ́ ự anh h ̉ ưởng cua chung đên môt gia tri khac… Ng ̉ ́ ́ ̣ ́ ̣ ́ ười phân tich ́ san phâm găp kha nhiêu kho khăn trong viêc thu thâp va x ̉ ̉ ̣ ́ ̀ ́ ̣ ̣ ̀ ử li sô liêu ban đâu. B ́ ́ ̣ ̀ ởi với tưng san phâm khac nhau va t ̀ ̉ ̉ ́ ̀ ưng ng ̀ ươi th ̀ ử – phep th ́ ử khac nhau se cho ra rât nhiêu kêt ́ ̃ ́ ̀ ́ qua đanh gia khac nhau ̉ ́ ́ ́ Vi du: Khao sat vê cac đăt tinh cam quan cua môt loai n ́ ̣ ̉ ́ ̀ ́ ̣ ́ ̉ ̉ ̣ ̣ ươc giai khat m ́ ̉ ́ ơi đ ́ ược thực hiên đanh gia v ̣ ́ ́ ơi 50 ng ́ ươi th ̀ ử,cho ra môt sô kêt qua đanh gia nh ̣ ́ ́ ̉ ́ ́ ư sau: Vê mau săc: vang cam, cam, vang ̀ ̀ ́ ̀ ̀ Vê mui h ̀ ̀ ương: hương cam, hương chanh, hương thơm Vê vi ngot: thâp, trung binh, cao ̀ ̣ ̣ ́ ̀ …… Môi tinh chât co sô ng ̃ ́ ́ ́ ́ ười cung đanh gia khac nhau ̀ ́ ́ ́ Vơi môt loat nh ́ ̣ ̣ ưng kêt qua đanh gia trên rât kho đê đ ̃ ́ ̉ ́ ́ ́ ́ ̉ ưa ra kêt luân chinh xac vê ́ ̣ ́ ́ ̀ đăc tinh cua san phâm. Do đo nh ̣ ́ ̉ ̉ ̉ ́ ững dư liêu ban đâu trên “bô d ̃ ̣ ̀ ̣ ữ liêu thô” cân đ ̣ ̀ ược xử li, tom tăt, ma hoa, phân tich…thanh dang đ ́ ́ ́ ̃ ́ ́ ̀ ̣ ơn gian va khoa hoc h ̉ ̀ ̣ ơn, giup ta dê dang tiêp ́ ̃ ̀ ́ cân va co thê rut ra kêt luân t ̣ ̀ ́ ̉ ́ ́ ̣ ừ cac kêt qua đa đ ́ ́ ̉ ̃ ược xử li va phân tich. Môt trong sô ́ ̀ ́ ̣ ́ nhưng ph ̃ ương phap phân tich sô liêu th ́ ́ ́ ̣ ương đ ̀ ược sử dung la Phân tích t ̣ ̀ ương ưng ́ Correspondence Analysis CA Correspondence Analysis CA la môt phân tich thanh phân chinh tông quat phu h ̀ ̣ ́ ̀ ̀ ́ ̉ ́ ̀ ợp cho viêc phân tich d ̣ ́ ữ liêu đinh tinh. Ban đâu, CA đ ̣ ̣ ́ ̀ ược tao ra đê phân tich “bang d ̣ ̉ ́ ̉ ự phong” ̀ , nhưng vê sau no đ ̀ ́ ược sử dung linh hoat h ̣ ̣ ơn cho nhiêu bang d ̀ ̉ ữ liêu khac.co thê ̣ ́ ́ ̉ hiêu đ ̉ ơn gian Correspondence Analysis CA la ph ̉ ̀ ương pháp trực quan để phân tích dữ Nhom 9 ́ Page 5 Correspondence Analysis CA liệu được biểu diễn bằng các bảng dữ liệu 2 chiều (contingency table) hay đa chiêu, ̀ giup đ ́ ơn gian hinh th ̉ ̀ ưc phân tich trong nghiên c ́ ́ ứu Mục tiêu của phân tích tương ứng CA là chuyển đổi một bảng dữ liệu thành hai bộ yếu tố điểm: Một cho các hàng và một cho các cột. Điểm yếu tố phai la điêm đai ̉ ̀ ̉ ̣ diên t ̣ ốt nhất của cấu trúc tương tự của các hàng và các cột trong bảng. Ngồi ra, yếu tố điểm có thể được vẽ trên bản đồ, hiển thị các thơng tin cần thiết của bang d ̉ ữ liêu ̣ gốc. Trong các bản đồ này, toa đơ cua cac điêm hiên thi cac u tơ t ̣ ̣ ̉ ́ ̉ ̉ ̣ ́ ́ ́ ương tự như cać hang va cac côt trong bang d ̀ ̀ ́ ̣ ̉ ữ liêu. Điêu đăc biêt la cac điêm y ̣ ̀ ̣ ̣ ̀ ́ ̉ ếu tố của các hàng và các cột có cùng phương sai và, do đó, cả hàng và cột có thể được đại diện thuận tiện trên cung m ̀ ột bản đồ duy nhât ́ Như vây k ̣ ết quả của CA là bản đồ các điểm (Map of Points). Trong đó các điểm biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Sự hiển thị các hàng và cột của một bảng như là các điểm trong một bản đồ khơng gian, với một giải thích hình học cụ thể các vị trí của các điểm như một phương tiện để giải thích những điểm tương đồng và khác biệt giữa các hàng , sự giống nhau và khác nhau giữa cột và sự liên kết giữa các hàng và cột. Cac kêt qua cung câp thơng tin t ́ ́ ̉ ́ ương tự như trong thực tiên ̃ san xuât, giup chung ta phat hiên đ ̉ ́ ́ ́ ́ ̣ ược môi quan hê tim ân anh h ́ ̣ ̀ ̉ ̉ ưởng lân nhau cua cac ̃ ̉ ́ yêu tô đ ́ ́ ược phân tich trong bang ́ ̉ Nhom 9 ́ Page 6 Correspondence Analysis CA CHƯƠNG 2: ĐĂC ĐIÊM DATA/ D ̣ ̉ Ư LIÊU CÂN PHÂN TICH ̃ ̣ ̀ ́ 2.1 Môt sô khai niêm c ̣ ́ ́ ̣ ơ ban ̉ Profile: Tần suất tương đối bang ̉ dữ liêu ̣ thông ́ kê (Row and column profiles). Dung đ ̀ ể xác định tọa độ của các điểm trong bản đồ Masses (marginal distribution): Đo lường độ quan trọng của các điểm Centroid (tâm): Trọng số trung bình của các vị trí Projection: Phép chiếu lên khơng gian con Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid Đăc điêm d ̣ ̉ ữ liêu đâu vao (input) ̣ ̀ ̀ 2.2 Như đa gi ̃ ơi thiêu ́ ̣ ở phân trên, cac d ̀ ́ ữ liêu thu thâp ban đâu la “tâp cac d ̣ ̣ ̀ ̀ ̣ ́ ữ liêu thô”, ̣ chu yêu la cac d ̉ ́ ̀ ́ ữ liêu dang văn ban (cac nhân đinh va đanh gia ). Do đo, nh ̣ ̣ ̉ ́ ̣ ̣ ̀ ́ ́ ́ ững dữ liêu ̣ nay cân đ ̀ ̀ ược xử li va tom tăt lai đê thuân tiên va dê dang cho qua trinh phân tich ́ ̀ ́ ́ ̣ ̉ ̣ ̣ ̀ ̃ ̀ ́ ̀ ́ Cać dữ liêu dang văn ban nay cân đ ̣ ̣ ̉ ̀ ̀ ược đông nhât vê măt ng ̀ ́ ̀ ̣ ữ nghia. Do cac d ̃ ́ ư ̃ liêu dang văn ban th ̣ ̣ ̉ ương rât đa dang va phong phu vê măt ng ̀ ́ ̣ ̀ ́ ̀ ̣ ữ nghia (nghia cua t ̃ ̃ ̉ ư) ̀ Như ở vi du trên, khi khao sat đăc tinh cua môt loai n ́ ̣ ̉ ́ ̣ ́ ̉ ̣ ̣ ươc giai khat…do cach cam ́ ̉ ́ ́ ̉ nhân cua nh ̣ ̉ ưng ng ̃ ươi khac nhau va cach kêt luân t ̀ ́ ̀ ́ ́ ̣ ự do nên se dân đên nh ̃ ̃ ́ ững đanh gia ́ ́ co s ́ ự khac nhau vê măt t ́ ̀ ̣ ừ ngữ nhưng lai cung diên ta môt tinh chât chung nh ̣ ̀ ̃ ̉ ̣ ́ ́ ư: “vang”, ̀ “vang vang”, “vang nhat”,…cung mang môt y nghia kha giông nhau la “vang”; hay “ngon ̀ ̀ ̀ ̣ ̀ ̣ ́ ̃ ́ ́ ̀ ̀ ̀ ngot”, “ngot diu”, “h ̣ ̣ ̣ ơi ngot”… cung diên đat tinh chât trung binh cua vi ngot…h ̣ ̀ ̃ ̣ ́ ́ ̀ ̉ ̣ ̣ ơn thế nưa, nhân xet va đanh gia cua môt ng ̃ ̣ ́ ̀ ́ ́ ̉ ̣ ười hoan toan co thê bi chi phôi b ̀ ̀ ́ ̉ ̣ ́ ởi yêu tô tâm li, ́ ́ ́ được xem la cac d ̀ ́ ữ liêu ngâu nhiên – t ̣ ̃ ự phat. Do đo, viêc đông nhât d ́ ́ ̣ ̀ ́ ữ liêu dang văn ̣ ̣ ban la viêc lam cân thiêt giup giam m ̉ ̀ ̣ ̀ ̀ ́ ́ ̉ ức đô ph ̣ ức tap cua d ̣ ̉ ữ liêu đâu vao ̣ ̀ ̀ Phân tích tương ứng là hiệu quả nhất nếu các điều kiện sau đây: Nhom 9 ́ Page 7 Correspondence Analysis CA Ma trận dữ liệu là đủ lớn, để kiểm tra trực quan hoặc phân tích thống kê đơn giản khơng thể tiết lộ cấu trúc của nó Các biến là đồng nhất, do đó nó làm cho cảm giác để tính tốn khoảng cách thống kê giữa các hàng hoặc cột Ma trận dữ liệu là một ưu tiên "vơ định hình", tức là cấu trúc của nó, hoặc là khơng biết hoặc chưa được hiểu rõ Nhom 9 ́ Page 8 Correspondence Analysis CA CHƯƠNG 3: CACH BƠ TRI D ́ ́ ́ Ư LIÊU TRONG DATA ̃ ̣ 3.1 Cach bô tri d ́ ́ ́ ữ liêu đâu vao trong bang d ̣ ̀ ̀ ̉ ự phong ̀ Trong phương phap phân tich t ́ ́ ương ưng nay, “bô d ́ ̀ ̣ ữ liêu thô” ban đâu cân đ ̣ ̀ ̀ ược tom tăt va hê thông hoa vao môt bang d ́ ́ ̀ ̣ ́ ́ ̀ ̣ ̉ ữ liêu thông kê (bang ngâu nhiên). ̣ ́ ̉ ̃ Ở bang thông ̉ ́ kê nay chung ta quan tâm đên hai biên: môt la biên t ̀ ́ ́ ́ ̣ ̀ ́ ương ứng với lơi đanh gia cua ̀ ́ ́ ̉ nhưng ng ̃ ươi đ ̀ ược khao sat (biên đăc tinh), biên th ̉ ́ ́ ̣ ́ ́ ứ hai tương ưng v ́ ơi san phâm đ ́ ̉ ̉ ược đanh gia ́ ́ Cac biên d ́ ́ ữ liêu trên đ ̣ ược bô tri trong bang nh ́ ́ ̉ ư sau: Cac hang i (rows): ch ́ ̀ ưa d ́ ư liêu t ̃ ̣ ương ứng với cac san phâm đ ́ ̉ ̉ ược đanh gia ́ ́ Cac côt j (colums): ch ́ ̣ ưa cac d ́ ́ ư liêu t ̃ ̣ ương ứng với tư ng ̀ ư dung đê mô ta đăc tinh ̃ ̀ ̉ ̉ ̣ ́ cua san phâm ̉ ̉ ̉ Cac điêm giao nhau gi ́ ̉ ưa hang i va côt j: ch ̃ ̀ ̀ ̣ ưa d ́ ữ liêu ghi nhân tân sô t ̣ ̣ ̀ ́ ương quan giưa i va j, t ̃ ̀ ưc sô lân đanh gia đ ́ ́ ̀ ́ ́ ược lâp lai đôi v ̣ ̣ ́ ới môt đăc tinh cua t ̣ ̣ ́ ̉ ừng san ̉ phâm ̉ Vi du: Bang d ́ ̣ ̉ ự phong sau khao sat vê tân suât s ̀ ̉ ́ ̀ ̀ ́ ử dung cua 4 nhan hiêu kem đanh ̣ ̉ ̃ ̣ ́ răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3) được điều tra ngẫu nhiên từ 120 người như sau: Brand A Brand B Brand C Brand D Total Region 1 5 15 15 40 Region 2 25 5 40 Region 3 30 5 40 Nhom 9 ́ Page 9 Total 40 35 25 20 120 Correspondence Analysis CA 3.2 Tiên x ̀ ử li d ́ ư liêu đâu vao ̃ ̣ ̀ ̀ 3.2.1 χ 2 Tính tốn Câu hoi đăt ra la liêu ban co chăc chăn cac d ̉ ̣ ̀ ̣ ̣ ́ ́ ́ ́ ữ liêu trong bang d ̣ ̉ ự phong đôc lâp v ̀ ̣ ̣ ới nhau? Đê khăng đinh điêu đo chung ta cân kiêm tra ̉ ́ ̣ ̀ ́ ́ ̀ ̉ χ2 , đê xem cac tab cheo co lêch nhau ̉ ́ ́ ́ ̣ ́ kê gi ̉ ưa cac hang va cac côt ̃ ́ ̀ ̀ ́ ̣ Viêc ki ̣ ểm tra được mơ tả chính thức bởi các ma trân ̣ (i x j), F =[fij] . Chúng ta nhâṇ được các ma trận tương ứng P từ F bằng cách chia các mục của nó: P = [ pij] =[, where n = (1) Tiếp theo, xác định hàng và cột tổng: (2) Các χ2 Thống kê, X2 được tính: (3) µij là ước tính giá trị giả định độc lập của đâu ra: ̀ µij = pi+ p+j (4) Nếu hàng cột thực độc lập (tức là, "theo giả thuyết null"), X2 nên theo một χ2 phân phối với (I1)x(J1) bậc tự do. Chúng ta có thể so sánh giá trị thực tế tính tốn cho các ví dụ tab chéo với phân phối của mình theo giả thuyết. Nhom 9 ́ Page 10 Correspondence Analysis CA 3.2.2 χ 2 Khoảng cách Theo mục đích của phân tích tương ứng, sự khác biệt giữa các bản phân phối của biêń hàng ngang bang ̉ cheó (bang ̉ dự phong) ̀ được đo băng ̀ χ2 khoảng cách, trong đó có trọng lượng khoảng cách Euclide giữa các hàng bình, với trọng lượng tỉ lệ nghịch với căn bậc hai của tổng số cột Trong các biểu tượng, các χ2 khoảng cách giữa các hàng i và hàng k được cho bởi biểu thức: (5) χ2 khoảng cách giữa các mẫu văn bản sử dụng ma trận tương ứng và hiển thị chúng trong một bảng nhỏ gọn hợp lý (sau khi nhân rộng lên 100 và làm tròn số) Từ phương trình (5) kể từ khi tổng hàng cho các trọng tâm là 1 (theo định nghĩa của P ), các χ2 khoảng cách hàng i với trọng tâm là: (7) Bây giờ với µij như được định nghĩa trong (4): (8) Vẽ một tương tự với khái niệm vật lý của qn tính góc cạnh, phân tích tương ứng xác định qn tính của một hàng sản phẩm tổng hàng (được gọi là khối Nhom 9 ́ Page 11 Correspondence Analysis CA lượng của hàng) và bình phương khoảng cách của nó với trọng tâm pi+diz2. So sánh biểu thức diz2 trong (5) với định nghĩa của χ2 . Thống kê trong (3), nó sau đó tổng qn tính của tất cả các hàng trong một ma trận ngẫu nhiên bằng các χ2 . Thống kê chia n , Một số lượng được gọi là meansquare contingency Pearson, ký hiệu ɸ2 : (9) Tổng qn tính của một bảng được sử dụng để đánh giá chất lượng của đại diện đồ họa của nó trong phân tích tương ứng. Để tham khảo trong tương lai, chúng ta có thể tính tốn ɸ2 cho dữ liệu của chúng ta Nhom 9 ́ Page 12 Correspondence Analysis CA CHƯƠNG 4: PHÂN MÊN HÔ TR ̀ ̀ ̃ Ợ VA CACH ĐOC KÊT QUA ̀ ́ ̣ ́ ̉ 4.1 Giơi thiêu môt sô phân mên thông dung ́ ̣ ̣ ́ ̀ ̀ ̣ Trong phương phap phân tich t ́ ́ ương ưng CA co kha nhiêu phân mêm hô tr ́ ́ ́ ̀ ̀ ̀ ̃ ợ nhăm ̀ giam b ̉ ơt cac công đoan tinh toan va giup hiên thi kêt qua thuân tiên h ́ ́ ̣ ́ ́ ̀ ́ ̣ ̣ ́ ̉ ̣ ̣ ơn cho người phân tich. Sau đây la môt sô phân mêm hô tr ́ ̀ ̣ ́ ̀ ̀ ̃ ợ phân tich: ́ Phâǹ mêm ̀ SPSS (viết tắt của Statistical Package for the Social Sciences) là một chương trình máy tính phục vụ cơng tác thống kê. Phần mềm SPSS hỗ trợ xử lý và phân tích dữ liệu sơ cấp là các thơng tin được thu thập trực tiếp từ đối tượng nghiên cứu, thường được sử dụng rộng rãi trong các nghiên cứu điều tra xã hội học và kinh tế lượng Phâǹ mên ̀ R: là một ngơn ngữ lập trình và mơi trường phần mềm dành cho tính tốn và đồ họa thống kê. Đây là một bản hiện thực ngơn ngữ lập trình S với ngữ nghĩa khối từ vựng lấy cảm hứng từ Scheme R do Ross Ihaka và Robert Gentleman tạo ra tại Đại học Auckland, New Zealand Phân mêm ̀ ̀ XLSTAT: la phân mêm ̀ ̀ ̀ ứng dung dung trong Excel, giup hô tr ̣ ̀ ́ ̃ ợ tinh ́ toan va đô hoa thông kê nh ́ ̀ ̀ ̣ ́ ư CA, PCAva MCA,… ̀ 4.2 Phân mêm ̀ ̀ XLSTAT Vi du: Bang d ́ ̣ ̉ ự phong sau khao sat vê tân suât s ̀ ̉ ́ ̀ ̀ ́ ử dung cua 4 nhan hiêu kem đanh ̣ ̉ ̃ ̣ ́ răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3) được điều tra ngẫu nhiên từ 120 người như sau: Nhom 9 ́ Page 13 Correspondence Analysis CA Tota Brand A Brand B Brand C Brand D Total Region 1 5 15 15 40 Region 2 25 5 40 Region 3 30 5 40 l 40 35 25 20 120 Sau khi khởi động XLSTAT và chọn biểu tượng Correspondence Analysis Chọn vùng dữ liệu để phân tích và bấm OK để thực hiện CA Vấn đề quan trọng là giải thích kết quả mà CA sinh ra để tìm ra các tri thức hữu ích ẩn chứa trong dữ liệu Khai phá tri thức từ kết quả CA Nhom 9 ́ Page 14 Correspondence Analysis CA Sau đây giải thích từng bước các kết quả sinh ra bởi CA nhằm giúp các bạn có thể phát hiện các tri thức ẩn chứa trong dữ liệu từ Contingency table ban đầu 4.2.1 Rows and Column Profile Kết quả cuối cùng của CA là bản đồ các điểm (Map of Points), trong đó mỗi hàng (row) và mỗi cột (column) được biểu diễn thành 1 điểm trong bản đồ. Profile được tính là tần suất tương đối của các dòng (Rows profile) và các cột (Columnsprofile) trong Contingency table. Profile của các dòng và cột được dùng để xác định tọa độ của các điểm trong bản đồ. Vì vậy các dòng hoặc các cột có profile gần giống nhau sẽ được đặt gần nhau trong bản đồ. Sau đây là Profile của các dòng và các cột được CA sinh ra từ bang d ̉ ự phong (Contingency Table) ̀ Row Profile Region 1 Region 2 Region 3 Sum 100 Brand A 12.5% 12.5% 75.0% % 100 Brand B 14.3% 71.4% 14.3% % 100 Brand C 60.0% 20.0% 20.0% % 100 Brand D 75.0% 25.0% 0.0% % 100 Mean 40.4% 33.2% 27.3% % Brand A Colum Profile Region 1 Region 2 Region 3 Mean 12.5% 12.5% 75.0% 33.3% Nhom 9 ́ Page 15 Correspondence Analysis CA Brand B Brand C Brand D Sum 12.5% 37.5% 37.5% 100% 62.5% 12.5% 12.5% 100% 12.5% 12.5% 0.0% 100% 29.2% 20.8% 16.7% 100% 4.2.2 Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency Table Bước đầu tiên trong phân tích CA là kiểm định giả thuyết về sự phụ thuộc giữa các dòng và các cột trong bảng dữ liệu ban đầu CA tự động kiểm tra mối qua hệ này. Với dữ liệu trong ví dụ trên, kết quả kiểm định giả thuyết được CA sinh ra như sau: Test of indepe ndence betwee n the rows and the column s: Chi square (Obser ved value) Chi 79.607 12.592 square Nhom 9 ́ Page 16 Correspondence Analysis CA (Critica l value) DF pvalue alpha

Ngày đăng: 11/01/2020, 23:36