Luận văn tốt nghiệp phương pháp phân tích thành phần chính và ứng dụng

83 20 0
Luận văn tốt nghiệp phương pháp phân tích thành phần chính và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MƠN TỐN  LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC PHƯƠNG PHÁP PHÂN TÍCH THÀNH PH ẦN CHÍNH VÀ ỨNG DỤNG GIÁO VIÊN HƯỚNG DẪN SINH VIÊN THỰC HIỆN THS TRẦN PHƯỚC LỘC NGÔ NGUYỄN THANH HƯƠNG NGÀNH: TỐN ỨNG DỤNG (BỘ MƠN TỐN – KHOA KHTN) CẦN THƠ - 05/2010 i LỜI CẢM ƠN - Lớp Toán Ứng Dụng K32 khóa ngành tốn thuộc Khoa Khoa Học Tự nhiên, nên trình học tập tiếp thu kiến thức chúng em lúng túng bỡ ngỡ Tuy nhiên, nhờ tận tình giảng dạy giúp đỡ q thầy nên , sau năm học chúng em tự tin nhiều chúng em trang bị kiến thức cần thiết để vào đời Xin chân thành cảm ơn q thầy khoa, đặc biệt thầy cô thuộc môn tốn khoa Khoa Học Tự Nhiên dìu dắt chúng em suốt thời gian qua Em xin bày tỏ lòng biết ơn sâu sắc đến thầy Trần Phước Lộc tận tình hướng dẫn, giúp đỡ em thời gian qua để hoàn thành luận văn Xin chân thành cảm ơn bạn l ớp Toán Ứng Dụng K32 giúp đỡ thời gian qua, chân thành cám ơn cô cố vấn, cô quan tâm đến việc học tập mặt khác lớp Cuối cùng, xin gửi lời tri ân chân thành biết ơn đến mẹ anh chị em gia đình tơi - họ nguồn động viên vật chất lẫn tinh thần cho nhiều năm qua, giúp an tâm lo việc học tập Mặc dù có cố gắng nổ lực thân với giúp đỡ nhiệt tình thầy hướng dẫn, thầy cô bạn luận văn tơi khơng thể tránh khỏi thiếu sót định Do đó, tơi mong đóng góp ý kiến q thầy bạn sinh viên để luận văn hoàn thiện Xin chân thành cám ơn Cần Thơ, tháng 05 năm 2010 Ngô Nguyễn Thanh Hương ii DANH MỤC CÁC BẢNG Trang Bảng 1: Chỉ tiêu sinh học 23 cá Amiard .24 Bảng 2: Diện tích, sản lượng suất lúa năm 2008 .52 Bảng 3: Các mặt hàng xuất nước chủ yếu sơ tháng 11/2009 … 59 DANH MỤC CÁC HÌNH Trang Hình 1: Mơ hình ảnh phân tích thành phần 23 Hình 2: Biểu diễn cá thể R 28 p Hình 3: Qn tính N theo siêu phẳng gốc 36 Hình 4: Phép chiếu 44 Hình 5: Phép chiếu lên khơng gian .45 n Hình 6: Góc khoảng cách hai biến (trong R ) .49 Hình 7: Biểu diễn vectơ cá thể lên mặt phẳng thứ 55 Hình 8: Biểu diễn biến lên mặt phẳng tạo hai trục nhân tố 57 iii MỤC LỤC Trang Lời cảm ơn .i Danh sách bảng ii Danh sách hình ii Phần mở đầu Phân nội dung Chương 1.1 KIẾN THỨC CHUẨN BỊ MA TRẬN 1.1.1 Định nghĩa ma trận 1.1.2 Các phép toán ma trận 1.2 1.1.2.1 Cộng ma trận nhân ma trận với vô hướng 1.1.2.2 Nhân hai ma trận 1.1.2.3 Ma trận chuyển vị 1.1.2.4 Hạng ma trận 1.1.2.5 Định thức 1.1.2.6 Ma trận nghịch đảo 1.1.2.7 Hệ phương trình tuyến tính 11 p ÁNH XẠ TUYẾN TÍNH VÀ TÍCH VƠ HƯỚNG R 14 1.2.1 Định nghĩa ánh xạ tuyến tính 14 1.2.2 Ma trận ánh xạ tuyến tính 15 1.2.3 Tích vơ hướng 17 1.2.4 Chuẩn, khoảng cách góc R 17 1.3 p Giá trị riêng vectơ riêng 18 1.3.1 Định nghĩa 18 1.3.2 Tìm giá trị riêng vectơ riêng ma trận 19 Chương PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH 21 iv 2.1 BẢNG SỐ LIỆU NHIỀU CHIỀU TRONG PHÂN TÍCH THÀNH PHẦN CHÍNH 23 2.1.1 Bảng số liệu loại định lượng 24 2.1.2 Qui tâm bảng số liệu 26 2.1.3 p Biểu diễn cá thể R 28 2.1.4 Không gian cá thể R 30 2.1.5 Biểu diễn biến R 31 2.1.6 Không gian biến 32 2.1.7 n Ánh xạ tuyến tính từ R d vào R 33 2.1.8 Quán tính 34 2.2 p n p PHƯƠNG PHÁP TÌM TRỤC CHÍNH 37 2.2.1 Phương pháp tìm trục (tìm vectơ riêng) 37 2.2.2 Tỷ lệ đóng góp qn tính 39 2.2.3 Biểu diễn đám mây điểm – cá thể siêu phẳng chọn 39 2.3 PHƯƠNG PHÁP TÌM CÁC THÀNH PHẦN CHÍNH 40 2.3.1 Tiêu chuẩn chọn thành phần cho phân tích 40 2.3.2 Phương pháp tìm thành phần 41 2.3.3 Các giá trị riêng vectơ riêng XX′ (phần 1.3 chương I) 42 2.3.4 Liên hệ R R 42 2.3.5 Biểu diễn đám mây điểm – biến siêu phẳng chọn 43 2.4 p n PHÉP CHIẾU TRONG KHƠNG GIAN TUYẾN TÍNH 43 2.4.1 Phép chiếu 43 2.4.2 Phép chiếu lên không gian 45 2.5 PHÂN TÍCH 46 2.5.1 Biến chuẩn hóa 47 2.5.2 Góc khoảng cách hai cá thể (phân tích R ) 47 2.5.3 Góc khoảng cách hai biến (phân tích R ) 48 2.6 p n TĨM TẮT CÁC BƯỚC PHÂN TÍCH THÀNH PHẦN CHÍNH 50 Chương BÀI TOÁN ỨNG DỤNG .52 3.1 Bài toán 52 3.2 DÙNG SPSS TRONG PHÂN TÍCH THÀNH PHẦN CHÍNH 59 v 3.2.1 Bài toán 59 3.2.2 Kết 63 3.2.3 Mở rộng 68 Phần kết luận 74 Tài liệu tham khảo .77 vi PHẦN MỞ ĐẦU Ngày nay, xã hội phát triển phương pháp xử lí số liệu thống kê trở nên phổ biến, với đóng góp có hiệu lĩnh vực kinh tế, xã hội, nông nghiệp, y học, hóa học, … Thơng thường bảng số liệu chứa đựng nhiều thơng tin nhằm thể vài yếu tố cần xem xét phân tích Ví dụ muốn phân tích tình hình phát triển kinh tế xã hội tỉnh vùng, người ta thu thập số liệu liên quan đến thu nhập bình quân đầu người, dân số, mức sống, tỉ lệ thất nghiệp, … Tất số liệu tạo nên bảng số liệu lớn Để phân tích bảng số liệu vậy, có nhiều phương pháp xử lí như: phương pháp phân tích thành phần chính, phương pháp phân tích tương ứng, phân tích phân lớp, phân tích phân biệt… gọi chung phân tích nhân tố xử lý số liệu nhiều chiều Trong phương pháp liệt kê, quan tâm đến phương pháp phân tích thàn h phần Vì phương pháp cho phép người phân tích nhìn ban đầu, tổng quan số liệu thơng qua việc mô tả đám mây số liệu nhiều chiều khơng gian có số chiều mà giữ thơng tin chứa Bên cạnh đó, phương pháp coi tảng bước khởi đầu cho phương pháp phân tích nhiều chiều khác Vì mà tơi chọn đề tài “phương pháp phân tích thành phần ứng dụng” để nghiên cứu nhằm làm rõ ứng dụng phương pháp xử lý số liệu thống kê đồng thời mở rộng hiểu biết thân Luận văn nghiên cứu thiên hình ảnh trực quan để thể bảng số liệu nhiều chiều, tìm khơng gian có số chiều mà khơng gian có ểth quan sát tốt biến - cá thể việc biểu diễn số liệu đồ thị đơn giản có nhiều lượng thơng tin chứa bảng số liệu Với mục đích cụ thể sau: • Nghiên cứu làm rõ lý thuyết phương pháp phân tích thành phần thơng qua phương pháp hình học, từ đưa thí dụ minh họa cho lý thuyết • Sử dụng phần mềm SPSS cho việc phân tích có hiệu bảng số liệu cồng kềnh, phức tạp Do thời gian có hạn nên không tiến hành thu mẫu số liệu mà tìm số liệu sẵn có phù hợp để làm ví dụ minh họa Những số liệu xử lí phần sau lấy trang www.gso.gov.vn Cấu trúc luận văn: • Chương 1: Kiến thức chuẩn bị Nội dung chương nói về: Ma trận, ánh xạ tuyến tính, tích vơ hướng, chuẩn, góc, khoảng cách, giá trị riêng vectơ riêng… sở cho chương sau • Chương 2: Phương pháp phân tích thành phần Trong chương này, ta trình bày lý thuyết phương pháp phân tích thành phần tóm tắt bước tiến hành tốn phân tích thành phần • Chương 3: Bài tốn ứng dụng Trong phần này, đưa toán, thứ áp dụng lý thuyết chương để giải lại tiến hành phần mềm thống kê SPSS, song song tóm tắt bước xử lý số liệu phương pháp thành phần SPSS Chương 1 KIẾN THỨC CHUẨN BỊ 1.1 MA TRẬN 1.1.1 Định nghĩa ma trận Ma trận bảng số gồm n dịng p cột, n p hữu hạn Ký hiệu ma trận chữ hoa A, B, X, … Đôi để rõ số dòng cột ma trận, ta ký hiệu A n.p (n dòng p cột) Như vậy: A n.p  a11 a 12 a a 22 21 =    a n1 a n2 a1p  a 2p    a np  a ij phần tử nằm dịng i, cột j A Cũng viết: A = ( a ij ) ; i=1,n; j=1,p Hoặc A = a ij  np Hoặc A = ( a ij ) np Ma trận cỡ n x n gồm n hàng n cột, gọi ma trận vng cấp n 1.1.2 Các phép tốn ma trận 1.1.2.1 Cộng ma trận nhân ma trận với vô hướng  a11 a 12 a a Cho ma trận A =  21 22   a n1 a n2 a1p  a 2p  cỡ n x p gồm n hàng p cột Khi đó:   a np   Định nghĩa Hai ma trận A B gọi cộng chúng có cỡ Ta gọi tổng hai ma trận cộng A = a ij  B =  bij  ma trận C = cij  xác định cij = a ij + bij Với i, j Ký hiệu: C = A +B 1 2 3 4 4 6  Ví dụ 1:   +   =   -1  0     2   -1  + -7  khơng có nghĩa chúng khơng cộng      Các tính chất Cho A, B, C ma trận cộng được, α β vơ hướng Khi đó: a A + B = B + A: phép cộng có tính giao hoán b (A + B) + C = A + (B + C): phép cộng có tính chất kết hợp c A + = A d A + (-A) = 0, (-A gọi ma trận đối ma trận A) e α ( A + B ) = αA + αB : phép nhân có tính chất phân phối phép cộng f ( α + β ) A = αA + βA g α ( βA ) = ( αβ ) A h 1.A = A 1.1.2.2 Nhân hai ma trận  Định nghĩa Cho hai ma trận A = [ a ik ]m×n B =  b kj  n×p Ta gọi tích ma trận A với ma trận B ma trận C = cij  m×p , có phần tử cij xác định bởi: n cij = ∑a ik b kj = a i1b1j + a i2 b 2j + + a im b nj , ∀i=1 m; j=1 p k=1 Kí hiệu: C = AB Từ định nghĩa suy rằng, để tích AB tồn tại, ta phải có số cột A số hàng B Nếu A cỡ m x n, B cỡ n x p tích AB ma trận cỡ m x p Mở rộng cách hình thức cho R , ta gọi R n tập tất gồm n số thực dạng ( x1 ; x ; ; x n ) , phần tử gọi v ectơ R n phần tử ( x1; x ; ; x n ) kí hiệu ( x ) = ( x1; x ; ; x n ) ∈ R n Tích vơ hướng hai vec tơ ( x ) = ( x1; x ; ; x n ) ( y ) = ( y1; y ; ; y n ) định nghĩa số: Trong khung Missing Values (giá ịtrkhuyết) chọn Exclude cases listwise Trong khung Coefficient Display Format (định dạng hệ số hiển thị) ta chọn: Sorted by size (sắp xếp theo kích thước) Suppress absolute values less than (loại bỏ giá trị tuyệt đối), ta chọn nhỏ 0.001, sau nhấn continue cuối nhấn OK Qua thao tác ta kết sau: 3.2.2 Kết Thống kê mô tả De scri ptive S tatistics Mean Cao su 22.99373 Duoc pham 47.26327 San pham go 37.26682 Cac loai giay 47.97400 Hoa chat 116.54173 Sat thep 302.93718 St d Deviation 21.939574 50.623878 45.439307 52.316064 121.531801 302.259890 Analys is N 11 11 11 11 11 11 Biểu đồ giá trị riêng Scree Plot 120,000 100,000 Eigenvalue 80,000 60,000 40,000 20,000 Component Number Biểu đồ Scree Plot cho ta giá trị riêng tương ứng thành phần Có thể nói từ giá trị thứ trở sai khác chúng không đáng kể Điều cho thấy muốn tăng số thành phần để tăng mức giải thích đám mây ảnh ta không nên dùng thành phần 63 Bảng tổng phương sai Total Vari ance Ex pla ined Raw Rescaled Component 2 Ex trac tion Sums of Squared Loadings Rotation Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % 101501.1 89.054 89.054 93978 374 82.454 82.454 6014.329 5.277 94.331 13537 051 11.877 94.331 1.978 32.975 32.975 1.585 26.424 26.424 912 15.192 48.167 1.305 21.744 48.167 Ex trac tion Met hod: Principal Component Analys is Bảng cho biết có 26.424% qn tính đám mây số liệu phản ảnh thành phần thứ 21.744% phản ảnh thành phần thứ hai Với 11 nước, dùn g thành phần thu đám mây ảnh giải thích 48.167% đặc tính số liệu ban đầu Tuy nhiên, vào giá trị Score biểu đ người ta dùng tới thành phần để mơ tả số liệu ban đầu Ma trận thành phần (các vectơ riêng) – tọa độ biến Compone nt Matriax Sat thep Hoa chat Cao su San pham go Cac loai giay Duoc pham Raw Component 301.323 -23.297 101.186 63.166 7.933 -2 912 6.420 24.137 5.815 21.798 -18.140 -20.381 Rescaled Component 997 -.077 833 520 362 -.133 141 531 111 417 -.358 -.403 Ex trac tion Met hod: Principal Component A naly sis a c omponents extracted Tọa độ biến trục sau phép quay Rotated Component Matrix Sat thep Cao su Hoa chat San pham go Duoc pham Cac loai giay Raw Component 295.749 62.216 8.432 -.568 79.389 89.028 -.612 24.968 -11.690 -24.654 -.537 22.554 a Rescaled Component 206 978 -.026 384 733 653 549 -.013 -.487 -.231 431 -.010 Extraction Method: Principal Com ponent Analysis Rotation Method: Varimax wi th Kaiser Normal ization a Rotation converged in iterations 64 Biểu đồ biến siêu phẳng chiếu Duocpham caosu Satthep Cacloaigiay SPgo Hoachat Component Plot in Rotated Space 1.0 Component 0.5 0.0 -0.5 -1.0 -1.0 -0.5 0.0 0.5 1.0 Component Biểu đồ vị trí biến mặt phẳng tọa độ với trục thành phần Trên biểu đồ ta thấy số quan hệ chủ yếu sau: - Theo trục 1: SP gỗ loại giấy biến đổi chiều - Theo trục 2: sắt thép, cao su, biến đổi chiều - Xét trục ta thấy dược phẩm biến đổi ngược chiều với hóa chất - Các biến chia thành nhóm mà quan hệ nhóm tương đối chặt chẽ nhau: Nhóm 1: SP gỗ, loại giấy Nhóm 2: Dược phẩm Nhóm 3: Cao su, sắt thép Nhóm 4: Hóa chất Tỉ lệ giải thích biến nhờ nhân tố Communalities Cao su Duoc pham San pham go Cac loai giay Hoa chat Sat thep Raw Extraction 71.418 744.457 623.791 508.959 14228.672 91338.127 Rescaled Extraction 148 290 302 186 963 1.000 Extraction Method: Principal Component Analysis 65 Bảng hệ số tổ hợp biến (các vectơ nhân tố chính) Component Score Coefficient Matrix a Component 005 -.010 039 -.167 -.048 176 -.050 183 -.242 1.259 1.190 -.872 Cao su Duoc pham San pham go Cac loai giay Hoa chat Sat thep Extraction Method: Principal Com ponent Analysis Rotation Method: Varimax with Kaiser Normalization Component Scores a Coefficients are standardized Bảng cho ta hệ số cấu thành hệ số nhân tố cá thể, thủ tục hệ số kí hiệu FAC1_1 FAC2_2 Các biến dùng phân tích số liệu giá trị tính tổ hợp tuyến tính biến ban đầu Như trình bày trên, cá thể có thêm hai giá trị tọa độ chúng theo nhân tố Điều cho phép ta lập biểu đồ cá thể theo hai nhân tố tìm Biểu đồ biểu thị quốc gia có giá trị tuyệt đối hai nhân tố Để làm điều ta tiếp tục thực thao tác sau: Bước 7: Vào menu Graphs → Scatter ta chọn Simple Scatterplot → Difine Ta bảng sau 66 Ta đưa hệ số nhân tố FAC2_2 FAC1_1 vào Y Axis X Axis đưa Quốc gia vào khung Label Cases by Bước 8: Ta lựa chọn Option Trong khung Missing Values ta ọn ch Exclude cases listwise; chọn tiếp Display groups defined by missing values vàọnchtiếp Display chart with cases labels Continue → OK ta biểu đồ sau: Graphs Nhat Han Quoc Phap Duc Italia My Malaysia Indonexia Thai Lan Dai Loan Trung Quoc REGR factor score for analysis 2.00000 1.00000 0.00000 -1.00000 -1.00000 -0.50000 0.00000 0.50000 1.00000 REGR factor score for analysis 67 1.50000 2.00000 → Biểu đồ thể vị trí mặt phẳng chiếu với trục tương tự Cách phân tích biểu đồ biến Tuy nhiên, với biểu đồ ta chia cách sơ quốc gia thành nhóm sau: Nhóm 1: Trung Quốc, Đài Loan Nhóm 2: Mỹ, Thái Lan, Indonexia Nhóm 3: Malaysia Nhóm 4: Pháp, Đức , Itali Nhóm 5: Hàn Quốc, Nhật Các quốc gia nhóm có đặc trưng giống thể qua biến phân tích Ý nghĩa việc phân nhóm thể rằng: Các quốc gia nhóm xuất mặt hàng với giá trị chêch lệnh tương đối Sự biến động mặt hàng xuất ảnh hưởng đến kinh tế quốc gia Ở ta khơng phân tích cụ thể hơn, ta dừng lại việc tổng hợp cách tổng quát Phần lại chuyên mơn phân tích cụ thể 3.2.3 Mở rộng • Phép quay hệ trục: Khi sử dụng phần mềm SPSS để phân tích thành phần chính, hồn tồn lý thuyết trình bày trên, trước tiên ta nhận kết vectơ thành phần chính, nhân tố Tuy nhiên, khơng chọn tất p thành phần (có thể nói không bao giờ), mà chọn thành phần có khả giải thích cao nên biến cá thể bị nhóm thành nhóm khơng thật gần trục tọa độ tương ứng Để dễ dàng phân tích, SPSS thực thuật tốn quay hệ trục cho biến có tọa độ lớn lớn hơn, đồng thời biến có tọa độ nhỏ nhỏ Sự khác có th ể thấy qua bảng Component Matrix Rotation Component Matrix Với ví dụ ta thấy hai tỉ lệ trước sau phép quay có khác (32.975 26.424 thành phần thứ nhất, 15.192 21.744 thành phần thứ hai) Đồng thời phép quay gần làm thay đổi vị trí (theo trục) biến – (xem biểu đồ sau) 68 Biểu đồ biến chưa quay Duocpham Satthep caosu Cacloaigiay SPgo Hoachat Component Plot 1.0 Component 0.5 0.0 -0.5 -1.0 -1.0 -0.5 0.0 0.5 1.0 Component Biểu đồ biến quay Duocpham caosu Satthep Cacloaigiay SPgo Hoachat Component Plot in Rotated Space 1.0 Component 0.5 0.0 -0.5 -1.0 -1.0 -0.5 0.0 Component 69 0.5 1.0 Trong nhiều trường hợp người ta khơng chọn phép quay trên, đám mây ảnh tập trung nhóm khác Tuy nhiên, điều biết sau phân tích, nên chọn phép quay từ lần phân tích Những phân tích chi tiết sử dụng hai kết quả, với kết ban đầu (chưa thực phép quay) biến có vị trí thực hệ trục mới, vị trí vị trí tuyệt đối xác theo trục thành phần Mặc khác, muốn giải thích ý nghĩa thành phần hay trục người ta cần tìm số biến có vị trí sát nằm trục Với phép quay vị trí tương đối biến khơng đổi, điều cho thấy kết sau quay hồn tồn dùng để phân tích mối quan hệ biến (mục tiêu chủ yếu phân tích nhân tố) • Tỷ lệ đóng góp trục: Như ví dụ tổng tỉ lệ giải thích mức 48.167%, tỉ lệ đủ nhỏ mà người phân tích khơng hài lịng Làm để có mức giải thích cao hơn, rõ ràng hơn? Chỉ có cách: + Thứ tăng số thành phần chính: Với biến ví dụ trên, ta tăng số thành phần (r = 3) Với hai mục đích, hi vọng có tỉ lệ giải thích cao hơn; hai mơ tả số kết phân tích với nhiều thành phần Vì số kết giải thích trên, nên ta liệt kê kết cần thiết Total Variance Explained Raw Rescaled Component 3 Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % 89.054 98279.424 86.228 86.228 101501.1 89.054 91.504 5.277 6014.329 5.277 94.331 6014.378 97.104 97.104 6382.448 5.600 3160.825 2.773 28.556 28.556 32.975 32.975 1.713 1.978 27.959 56.515 15.192 48.167 1.678 912 917 15.289 71.804 1.418 23.637 71.804 Extraction Method: Principal Component Analys is Nhìn vào bảng Total Variance Explained ta thấy với thành phần tỷ lệ giải thích 71.804% Ngồi có nhóm biến có tọa độ trục gần nhau, nói cách khác có nhóm biến có quan hệ tương quan chặt Để thấy 70 rõ chất quan hệ ta xem biểu đồ hình chiếu mặt phẳng Rotated Component Matrix a Sat thep Hoa chat Cac loai giay Duoc pham Cao su San pham go 299.742 90.615 -1.621 -12.527 7.127 3.601 Raw Component 37.662 30.267 49.825 -32.611 11.567 -.227 9.149 73.165 -1.387 -8.594 -8.047 28.374 992 746 -.031 -.247 325 079 Rescaled Component 125 249 952 -.644 527 -.005 030 602 -.027 -.170 -.367 624 Extraction Method: Principal Component Analysis Rotation Method: Varimax with Kaiser Normalization a Rotation converged in iterations Sau biểu đồ biến R Component Plot in Rotated Space + Thứ hai trở lại xem xét việc bỏ bớt biến phân tích: Có hai tình trạng số biến khơng nên để phân tích nhân tố hay phân tích thành phần Đó biến mà tạo nên nhóm gần độc lập với biến lại; biến quan hệ chặt chẽ với số biến nhóm 71 đó, với biến loại thứ hai cần có kiểm định khác đầy đủ hơn, chẳng hạn phân tích hồi qui, tương quan Chúng ta tăng tỉ lệ giải thích thành phần cách giảm đến mức biến phân tích, nghĩa cần giảm biến đến ta cho tổng tỷ lệ giải thích đủ lớn Nếu ta bỏ bớt biến “Hóa chất” ta kết sau: Total Variance Ex pla ined Raw Rescaled Ex trac tion Sums of Squared Loadings Rotation Sums of Squared Loadings Component Total % of Variance Cumulative % Total % of Variance Cumulative % 91774.050 92.508 92.508 4831.653 4.870 4.870 3616.786 3.646 96.153 90559.183 91.283 96.153 1.284 25.681 25.681 1.585 31.692 31.692 1.472 29.448 55.129 1.172 23.437 55.129 Ex trac tion Method: Principal Component Analys is Nhìn vào bảng Total Variance Explained ta thấy tổng tỷ lệ giải thích hai thành phần đạt 55.129%, kết tạm đủ để thỏa mãn u cầu tốn phân tích a Rotate d Component Matrix Cac loai giay Duoc pham Cao su San pham go Sat thep Raw Component 43.928 -.300 -40.353 -12.888 7.347 8.551 12.929 3.576 300.543 32.146 Rescaled Component 840 -.006 -.797 -.255 390 335 285 079 106 994 Ex trac tion Met hod: Principal Component A naly sis Rotation Method: V arimax with Kaiser Normaliz ation a Rotation c onverged in iterations Vậy ta chọn hai cách điều chỉnh để phân tích chúng có tỉ lệ giải thích thấp, nhầm thỏa mãn u cầu tốn • Những tóm tắt bản: Mặc dù thí dụ khơng đủ tình cần xử lí phân tích nhân ốt phương pháp thành phần chính, qua có số nhận xét tóm tắt có tính chất khái qt nội dung q trình phân tích sau: 72 + Thực phân tích lựa chọn số biến thích hợp theo mục đích người phân tích nội dung quan trọng công việc xuyên suốt q trình phân tích + Tiến hành phân tích bổ trợ để làm rõ đặc trưng thể kết phân tích cần thiết khơng nên q cầu tồn chất khách quan đám mây số liệu giới hạn cao điều chỉnh + Chọn thành phần có thể, phân tích hình học cuối cần thiết khơng bỏ qua + Tìm cách mơ tả kết rõ r àng nội dung quan trọng để trình bày kết cách dễ hiểu phong phú + Các biểu đồ cá thể khơng tả được, thực tế phân tích nhân tố làm việc với số liệu lớn, số cá thể lớn Muốn mô tả chúng cần có tiêu thức phân loại khác nhằm giảm số chiều không gian biến 73 PHẦN KẾT LUẬN Tóm lượt: • Ngun lý phân tích thành phần bảng số liệu có p cột (biến), nói cá thể biểu diễn không gian p chiều, “nhìn thấy” khơng gian Do mục đích phân tích thành phần tìm khơng gian có số chiều nhỏ mà khơng gian quan sát tốt cá thể Với mục đích dễ quan sát, khơng gian cịn lại có chiều (đường thẳng) hai chiều (mặt phẳng) • Biểu diễn kết phân tích thành phần chính: để quan sát biến – cá thể, việc xây dựng mặt phẳng từ trục có tỉ lệ phần trăm đóng góp cao mơ tả đám mây số liệu Và mặt phẳng chứa thơng tin lớn gọi mặt phẳng Nhờ giúp ta phân tích kết tốt Nhưng đặc biệt cần ý đến biến ban đầu biến quan trọng việc tạo thành phần để giải thích vị trí cá thể • Cách đọc mặt phẳng có cá thể đọc đồ thị hai biến bình thường: người ta quan tâm đến gần hay xa cá thể góc vecto biểu diễn chúng • Cách tìm R n (trong R p ) không gian (siêu phẳng) số chiều “thâu tóm” tốt đám mây điểm – biến (điểm – cá thể), cho hình ảnh đám mây số liệu thể cách rõ ràng đó, tức xấp xỉ khơng gian phản ánh tốt khoảng cách thực Giải vấn đề đặt Những khảo sát cần thiết số liệu trước phân tích thành phần chính: Trước làm phân tích thống kê đặc biệt phân tích thành phần chính, cần đánh giá tập số liệu, lập biểu đồ cho biến xây dựng mặt phẳng tọa độ cho bạn hiểu tốt số liệu ban đầu Vì bạn tìm kiện bất thường, sai số đo đạc, … lỗi đơn giản đánh máy Khi số liệu kiểm tra bảo đảm, bạn bắt đầu với phân tích thành phần • Nếu bảng số liệu bị thiếu sao? (Vì phương pháp đòi hỏi bảng số liệu phải đầy đủ) 74 Phân tích thành phần khơng thể xử lý bảng số liệu bị thiếu Vì phương pháp địi hỏi bảng số liệu phải đầy đủ Nếu bảng số liệu bị thiếu, phải loại cá thể (dịng) biến (cột) khỏi phân tích có bảng số liệu đủ • Trong phân tích thành phần ta cần tìm trục chính? Điều phụ thuộc vào thơng tin “nhìn thấy được” trục, phụ thuộc vào toán riêng người Tuy nhiên; Tìm trục tức tìm vectơ riêng: Điều tùy thuộc vào bảng số liệu mà ta tìm giá trị riêng, xếp giá trị riêng theo hướng giảm dần ta thấy giá trị riêng có tỷ lệ đóng góp quán tính cao (nhằm đảm bảo đám mây trục có độ sai khác khơng lớn so với đám mây ban đầu), chọn giá trị riêng đó, từ ta tìm vectơ riêng ứng với giá trị riêng tìm số trục cần cho phân tích Thơng thường ta chọn trục tối đa để thuận tiện cho việc phân tích Chẳng hạn, lượng thông tin thu 90% với trục ta có cách khác nhau: 35 + 28 + 27 60 + 27 + 83 + + Ta chọn trục trường hợp đầu tiên, trục trường hợp thứ hai cần trục trường hợp cuối Để cho dễ hiểu ta xét lại ví dụ trường hợp thành phần với tỷ lệ đóng góp trục là: 30.273%, 28.73% 24.718% ta chọn hết trục c húng gần thỏa mức độ yêu cầu toán Đối với trục cho, biến có hệ số lớn giá trị tuyệt đối biến đóng góp nhiều việc tạo trục • Trong mặt phẳng chính, thấy vài cá thể bên so với toàn quần thể nhiều nhóm cá thể riêng biệt Do nguyên nhân cách khắc phục để đánh giá kết phân tích thành phần (Nếu cá thể phân bố mặt phẳng, đánh giá kết thành phần chính) Trong mặt phẳng chính, thấy vài cá thể bên so với toàn quần thể Điều có nghĩa có lựa chọn: + Hoặc vài số liệu bảng số liệu sai (nhập sai số liệu), cần phải sửa số liệu chạy lại thành phần 75 + Hoặc vài cá thể hoàn toàn khác với cá thể khác Khuyến cáo nên lấy cá thể khỏi bảng số liệu thành phần giúp bạn quan sát tốt cá thể lại Nếu thấy nhiều nhóm cá thể riêng biệt, có nghĩa bạn làm phân tích với nhiều tập cá thể Khi đó: + Hoặc mục tiêu bạn làm phân tích thành phần đơn giản mô tả cá thể bạn thấy rõ ràng có nhóm riêng biệt + Hoặc mục tiêu bạn chủ yếu nghiên cứu mối quan hệ biến Trong trường hợp này, việc tồn nhiều tập cá thể làm sai lệch giá trị thực tương quan biến Do cần phải thực phân tích thành phần cho nhóm Hạn chế đề tài Phân tích nhân tố phương pháp thành phần phương pháp cho phép nhìn thấy dạng đồ thị thông tin chủ yếu chứa bảng số liệu Giá trị cho phép thấy rõ biến riêng biệt mà toàn biến đồng thời Phương pháp có ích việc mơ tả có hạn chế nó: • Chỉ biểu thị có bảng số liệu • Bài tốn phân tích thành ph ần xây dựng dựa phương pháp: phương pháp đại số phương pháp hình học Trong giới hạn đề tài, tơi trình bày phương pháp hình học tính trực quan Cịn phương pháp đại số tơi cần tìm hiểu kỹ nên chưa thể trình bày • Trên sở lý thuyết ta tìm giá trị riêng, vectơ riêng hay nhân ốt từ ma trận phương sai – hiệp phương sai từ ma trận tương quan Nhưng tơi trình bày cách tìm ma trận hiệp phương sai, cịn ma trận tương quan cần nghiên cứu thêm • Do hạn chế đề tài nên ví dụ nêu khơng đủ tình cần xử lí phân tích nhân tố phương pháp thành phần kiến thức có hạn nên phần trình bày cịn nhiều thiếu sót, mong q thầy bạn sinh viên thơng cảm đóng góp ý kiến để đề tài tơi hồn chỉnh 76 TÀI LIỆU THAM KHẢO - [1] Bryan F.J Manly, Multivariate statistical methods, third edition, New York [2] Ngô Văn Thứ, Thống kê thực hành với trợ giúp SPSS WINSTATAI, NXB Khoa học kĩ thuật [3] Trần Mạnh Tuấn, Xác suất thống kê, lý thuyết thực hành tính tốn, NXB Đại học quốc gia Hà Nội [4] Tơ Cẩm Tú Nguyễn Huy Hồng, Phân tích số liệu nhiều chiều, NXB Khoa học kĩ thuật 77 ... thất nghiệp, … Tất số liệu tạo nên bảng số liệu lớn Để phân tích bảng số liệu vậy, có nhiều phương pháp xử lí như: phương pháp phân tích thành phần chính, phương pháp phân tích tương ứng, phân tích. .. Chương 2: Phương pháp phân tích thành phần Trong chương này, ta trình bày lý thuyết phương pháp phân tích thành phần tóm tắt bước tiến hành tốn phân tích thành phần • Chương 3: Bài toán ứng dụng Trong... trị riêng {1; 3; 1; -1} 3  -1 20 Chương PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH Phương pháp phân tích thành ph ần dạng phân tích nhân tố, phương pháp thống kê chủ yếu để mô tả, mục đích biểu

Ngày đăng: 24/04/2021, 09:21

Mục lục

    KIẾN THỨC CHUẨN BỊ

    Định nghĩa ma trận

    Các phép toán trên ma trận

    Cộng ma trận và nhân ma trận với một vô hướng

    Nhân hai ma trận

    Ma trận chuyển vị

    Hạng của ma trận

    Ma trận nghịch đảo

    Hệ phương trình tuyến tính

    ÁNH XẠ TUYẾN TÍNH VÀ TÍCH VÔ HƯỚNG

Tài liệu cùng người dùng

Tài liệu liên quan