PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ PHÂN TÍCH NHÂN TỐ VỚI PHẦN MỀM MINITAB .... Phương pháp nghiên cứu Hai phương pháp đơn giản là Phân tích thành phần chính và Phân tích nhân tố được sử dụng
Trang 1ĐẠI HỌC ĐÀ NẴNG
GV hướng dẫn: TS Lê Văn Dũng
Phản biện: ThS Nguyễn Thị Hải Yến
Khóa luận sẽ được bảo vệ trước hội đồng chấm Khóa luận tốt nghiệp cử nhân họp tại Đại học Sư phạm Đà
Nẵng vào ngày 27 tháng 4 năm 2019
Có thể tìm hiểu khóa luận tại Thư viện trường Đại học Sư phạm, Đại học Đà Nẵng
Trang 2MỤC LỤC
PHẦN MỞ ĐẦU 2
1 Tính cấp thiết của đề tài 2
2 Mục tiêu nghiên cứu 2
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp nghiên cứu 2
5 Bố cục đề tài 2
6 Tổng quan tài liệu nghiên cứu 2
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 3
1.1 VECTƠ NGẪU NHIÊN VÀ MA TRẬN 3
1.1.1 Vectơ và ma trận 3
a Vectơ 3
b Ma trận 3
c Căn bậc hai của ma trận 4
1.1.2 Vectơ ngẫu nhiên 4
a Vectơ trung bình và ma trận hiệp phương sai 5
b Chia khối ma trận 5
c Hàm mật độ xác suất đồng thời 6
d Vectơ trung bình và ma trận hiệp phương sai của tổ hợp tuyến tính các vectơ ngẫu nhiên 6
1.1.3 Phân bố chuẩn nhiều chiều 7
a Định nghĩa 7
b Tính chất 7
1.2 ƯỚC LƯỢNG VÀ KIỂM ĐỊNH 7
1.2.1 Vectơ trung bình mẫu, ma trận hiệp phương sai mẫu 7
1.2.2 Phân bố mẫu trung bình mẫu 8
1.2.3 Nhận dạng phân bố chuẩn nhiều chiều 8
1.2.4 Kiểm định giả thuyết về vectơ trung bình 9
CHƯƠNG 2 PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ PHÂN TÍCH NHÂN TỐ VỚI PHẦN MỀM MINITAB 10
2.1 PHÂN TÍCH THÀNH PHẦN CHÍNH 10
2.1.1 Cấu trúc của các thành phần chính 10
2.1.2 Các thành phần chính đã chuẩn hóa 13
2.1.3 Phân tích thành phần chính dựa trên 1 mẫu 13
2.2 PHÂN TÍCH NHÂN TỐ 16
2.2.1 Mô hình phân tích nhân tố trực giao 16
2.2.2 Phương pháp ước lượng 17
2.2.3 Xoay nhân tố 18
2.3 ỨNG DỤNG PHẦN MỀM MINITAB 20
2.3.1 Phân tích thành phần chính 20
2.3.2 Phân tích nhân tố 20
KẾT LUẬN 28
Trang 3PHẦN MỞ ĐẦU
1 Tính cấp thiết của đề tài
Một vấn đề quan trọng đặt ra trong việc nghiên cứu là phân tích và xử lý số liệu thu thập được Nếu bảng
số liệu thu thập được lớn thì việc tìm hiểu thông tin từ đó là khá khó khăn và phức tạp
2 Mục tiêu nghiên cứu
Phân tích một bộ dữ liệu cụ thể từ một đề tài thực tế cũng như đưa ra nhận xét, đánh giá dữ liệu đã được
xử lý
3 Đối tượng và phạm vi nghiên cứu
Mỗi bộ dữ liệu thu thập được khi tiến hành các nghiên cứu, thí nghiệm thường được thể hiện dưới dạng bảng các giá trị số của nhiều cá thể Chúng tạo thành “đám mây số liệu” khá phức tạp Các số liệu này cần được phân tích và xử lí để có thể rút ra được những nhận xét, đánh giá thích hợp
4 Phương pháp nghiên cứu
Hai phương pháp đơn giản là Phân tích thành phần chính và Phân tích nhân tố được sử dụng thông qua phần mềm Minitab
6 Tổng quan tài liệu nghiên cứu
Phân tích thành phần chính là kĩ thuật biểu diễn số liệu dựa theo các tiêu chuẩn về đại số và hình học mà không đòi hỏi một giả thuyết thống kê hay mô hình đặc biệt nào Lĩnh vực áp dụng của phân tích thành phần chính rất rộng, như trong nông nghiệp, kinh tế, khoa học cơ bản
Phân tích nhân tố là kĩ thuật ghép các điểm quan sát lại thành nhóm theo một tiêu chí nào đó, tương tự như trong cách phân loại trong sinh học Việc phân tích có thuật toán đơn giản, đồng thời đem lại cái nhìn trực quan của phân loại thu được nên dễ được các nhà chuyên môn trong các ngành khoa học khác nhau chấp nhận
Trang 4CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 1.1 VECTƠ NGẪU NHIÊN VÀ MA TRẬN
1.1.1 Vectơ và ma trận
a Vectơ
Cho x ( , x x1 2, , xn) Ta viết dạng ma trận của x như sau:
1 2
n
x x
Các phép toán: Cho c và 2 vectơ:
,
n
cx cx cx cx
Trang 5Ma trận chuyển vị của ma trận A [ aij n n] được kí hiệu bởi AT là ma trận xác định bởi AT [ ] bij với
b a
Ma trận đối xứng: ma trận vuông A [ aij n n] là ma trận đối xứng nếu aij aji
Ma trận đường chéo: A là ma trận đường chéo nếu aij 0 với mọi i j Khi đó A được kí hiệu là
Ma trận trực giao: ma trận vuôngAlà ma trận trực giao nếu AT A1
Giá trị riêng và vectơ riêng của ma trận vuông Cho A là ma trận vuông cấp n, nếu tồn tại vectơ x 0
và số thực sao cho Ax x thì được gọi là giá trị riêng và x được gọi là vectơ riêng ứng với .d Vết của ma trận là tổng các phần tử nằm trên đường chéo chính của ma trận vuông
Ma trận xác định không âm x A xT n n 0 với mọi x n Kí hiệu: A 0
Ma trận xác định dương x A xT n n 0 với mọi x n, x A xT n n 0 x (0, , 0) n Kí hiệu:
0
A
Định lý 1.1 Nếu A 0 thì các giá trị riêng của A là các số thực không âm
Định lý 1.2 Nếu ma trận Ap p cópcặp giá trị riêng - vectơ riêng ( ; ) 1 e1 , ( ; ) 2 e2 , , ( p; ep) với e1,
2
e , , ep là hệ trực chuẩn thì A 1 1 1e eT 2 2 2e eT p p pe eT
c Căn bậc hai của ma trận
Cho Ap p là ma trận đối xứng, xác định không âm Đặt
1 2[ , , , ]
1.1.2 Vectơ ngẫu nhiên
Cho X X1, 2, , Xn là các biến ngẫu nhiên cùng xác định trên không gian xác suất ( , , ) P Kí hiệu
( , , , n)
X X X X được gọi là vectơ ngẫu nhiên n chiều Dạng ma trận của X như sau
Trang 61 2
n
X X
a Vectơ trung bình và ma trận hiệp phương sai
Cho vectơ ngẫu nhiên X ( X X1, 2, , Xn) Giả sử E X ( i) i và cov X X ( i; j) ij Khi đó,
Trang 7thì hàm xác suất đồng thời của X là hàm p X : ( ) xác định bởi p x ( )i P X ( xi).
Nếu X ( , x X1 2, , Xn) gồm n biến ngẫu nhiên liên tục và nếu tồn tại hàm số không âm f x ( ) xác định trên n
sao cho với mọi A [ ; ] [ ; ] a b1 1 a bn n n, ( ) ( )
A
P X A f x dx thì f x ( ) được gọi là làm mật độ xác suất đồng thời của X
Định lý 1.3 Nếu X1, X2, , Xn là các biến ngẫu nhiên độc lập có hàm mật độ xác suất lần lượt là
d Vectơ trung bình và ma trận hiệp phương sai của tổ hợp tuyến tính các vectơ ngẫu nhiên
Nếu X1 và X2 là hai biến ngẫu nhiên, a và b là các số thực thì:
Một cách tổng quát, nếu CT [ , , , c c1 2 cn] là vectơ các hằng số và XT [ X X1, 2, , Xn] là vectơ ngẫu nhiên thì E C X ( T ) C E XT ( ) CT và Var C X ( T ) C cov X C CT ( ) T C
Trang 8Khi đó, E CX ( ) CE X ( ), cov CX ( ) Ccov X C ( ) T
1.1.3 Phân bố chuẩn nhiều chiều
X có phân bố chuẩn 1 chiều
Tính chất 1.2 Nếu X có phân bố chuẩn Np( ; ) thì với mọi aT [ , a a1 2, , ap] ta có
Tính chất 1.3 Nếu X có phân bố chuẩn Np( ; ) thì với mọi A [ aij n p] , ta có: AX ~ N A ( ; A A T).
Tính chất 1.4 Nếu xác định dương thì 1 tồn tại, hơn nữa nếu ( ; ) e là cặp giá trị riêng - vectơ riêng của thì ( 1; ) e
là cặp giá trị riêng - vectơ riêng của 1
Tính chất 1.5 Nếu X có phân bố chuẩn p chiều Np( ; ) thì ( X )T ( X ) có phân bố
2
p
(phân bố khi bình phương p bậc tự do) Do đó, với mức ý nghĩa , ta có:
2(( )T ( ) p( ))
1.2 ƯỚC LƯỢNG VÀ KIỂM ĐỊNH
1.2.1 Vectơ trung bình mẫu, ma trận hiệp phương sai mẫu
Giả sử x1., x2, ,xn là mẫu được chọn ngẫu nhiên từ tổng thể XT [ X X1, 2, , Xp], trong đó
[ , , , ]
T
Trang 9được gọi là ma trận hệ số tương quan mẫu
1.2.2 Phân bố mẫu trung bình mẫu
Định lý 1.4 Cho x [ ] xij n p là mẫu ngẫu nhiên của tổng thể X có phân bố chuẩn p chiều Np( ; )
Khi đó x có phân bố chuẩn Np( ; )
là mẫu được chọn ngẫu nhiên của XT [ X X1, 2, , Xp]
Dựa vào mẫu số liệu trên để kiểm tra xem X có phân bố chuẩn không?
Sử dụng biểu đồ xác suất chuẩn
Ta có tính chất: nếu X có phân bố chuẩn p chiều Np( ; ) thì các thành phần của X là X1, X2, ,
p
X có phân bố chuẩn 1 chiều
Trang 10Do đó nếu từ biểu đồ xác suất chuẩn của các thành phần x1, x2, ,xp có thể chấp nhận X1, X2, ,Xp
có phân bố chuẩn 1 chiều thì lúc đó ta có thể chấp nhận X có phân bố chuẩn
1.2.4 Kiểm định giả thuyết về vectơ trung bình
Định lý 1.6 Cho x [ ] xij n p là mẫu ngẫu nhiên của tổng thể X có phân bố chuẩn p chiều Np( ; )
Hoặc tính P-giá trị: P-giá triP F( 2,10,19) 0,85 0.05.
Trang 11CHƯƠNG 2 PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ PHÂN TÍCH NHÂN TỐ VỚI PHẦN MỀM
cov Y Y với mọi i j và các Var Y( )i lớn nhất có thể Như vậy,
- Thành phần chính thứ nhất là tổ hợp tuyến tính Y1 sao cho Var Y ( )1 đạt giá trị lớn nhất trên tập
Định lý 2.1 Nếu ma trận hiệp phương sai của vectơ X có p cặp giá trị riêng - vectơ riêng ( ; ) 1 e1 ,
( p; ep),, ,( p; ep) sao cho 1 2 p và e1, e2, ,ep là hệ trực chuẩn thì thành phần chính thứ i
xác định bởi Yi e X ii T , 1, 2, , p
Và với việc chọn như vậy ta có Var Y ( )i i, cov Y Y ( , )i j eT i ej 0 i j
Như vậy nếu ta xem X ( X X1; 2; ; Xp) là tọa độ của điểm X trong hệ trục tọa độ vuông góc với cơ
sở trực chuẩn i1, i2, ,ip với ik là vectơ có tọa độ thành phần thứ k bằng 1 còn các tọa độ thành phần khác bằng 0 thì Y ( ; ; ; Y Y1 2 Yp) là phép biến đổi sang hệ trục tọa độ mới với hệ trực chuẩn mới là e1, e2, ,ep
Trang 12Định nghĩa 2.2 Đại lượng
1
i p
thì ta chỉ cần sử dụng m thành phần chính đầu tiên này mà thông tin
về dữ liệu ban đầu mất không quá nhiều
Trang 132 0.616556 0.615444 0.615444 0.716556
X X
T T
e e
Ví dụ 2.2 Cho X ( X X X1, 2, 3) có ma trận hiệp phương sai
T T T
e e e
Trang 1422 1/2
Định lý 2.4 Cho Z ( , , Z1 Zp) là vectơ ngẫu nhiên đã chuẩn hóa có ma trận hệ số tương quan Nếu
có p cặp giá trị riêng - vectơ riêng ( ; ) 1 e1 , , ( p; ep) với 1 p thì thành phần chính của Z xác định bởi Yi e Zi T , i 1, 2, , p
Var Y p
và ( , Y Zi k) eik i, trong đó eik là thành phần tọa độ thứ k của ei
2.1.3 Phân tích thành phần chính dựa trên 1 mẫu
là mẫu được chọn ngẫu nhiên của XT [ X X1, 2, , Xp]
Ta nhắc lại trung bình mẫu là x ( , , x1 xp), hiệp phương sai mẫu là S ( ) sij p p
Trang 15Vì vậy, các thành phần chính của ( X1, , Xp) dựa trên mẫu x được định nghĩa như sau:
- Ước lượng thành phần chính thứ nhất là tổ hợp tuyến tính của ˆ1 1T
Y a X sao cho a Sa1T 1 đạt lớn nhất trên
{ a p: a aT 1}
- Ước lượng thành phần chính thứ hai là tổ hợp tuyến tính của ˆ2 2T
Y a X sao cho a Sa2T 2 đạt lớn nhất trên
Trang 16Ví dụ 2.4 Điểm tổng kết năm học các mơn Tốn, tiếng Anh, Lịch sử, Địa lí, Hĩa học và Vật lý của 5 học
sinh như sau:
PC1 0.556Toán 0.085Anh 0.073Sử 0.292Địa 0.415Hóa 0.64Lí CPC2 0.282Toán 0.411Anh 0.561Sử 0.643Địa 0.133Hóa 0.075Lí C
Do C1 và C2 là các hằng số nên ta cĩ thể bỏ qua
Ở thành phần chính thứ nhất PC1 tương quan dương với tất cả các mơn học và tương quan dương mạnh nhất là mơn Lý, đến Tốn và đến Hĩa Thành phần chính thứ 2 PC2 tương quan âm mạnh nhất đối với mơn Địa, đến Sử và đến Anh
Bây giờ ta tiến hành chiếu lên hệ trục O.PC1PC2
Trang 17Hình 3.4: dg g Như vậy nếu xếp theo lực học môn Toán, Lý và Hóa ta có thứ tự học sinh như sau: D, B, A, E, C Còn xếp theo lực học môn Sử, Địa Anh ta có thứ tự học sinh sẽ là: E, D, A, B, C
2.2.1 Mô hình phân tích nhân tố trực giao
Cho vectơ ngẫu nhiên có thể quan sát được X ( X X1, 2, , Xp) có vectơ kì vọng E X ( ) và ma trận hiệp phương sai Var X ( ) Mô hình nhân tố giả định rằng X là tổ hợp tuyến tính của một số ít các biến ngẫu nhiên không quan sát được F1, F2, , Fm (mp) gọi là các nhân tố chung và p biến ngẫu nhiên cộng thêm 1, 2, , p Tức là
Phần tử lij của ma trận L được gọi là tải trọng của biến Xi đặt lên nhât tố Fj
Các giả thiết của mô hình:
- Đối với nhân tố F: E F ( ) 0, cov F ( ) E FF ( T) I
- Đối với sai số ngẫu nhiên : E ( ) 0, cov ( ) E ( T) diag ( , , 1 p)
-F và không tương quan: cov F ( ; ) 0.
Nếu các giả thiết trên được thỏa mãn thì ( ) T .
Trang 18Giả sử X là tổ hợp tuyến tính của hai nhân tố trực giao Tìm F1, F2 và
2.2.2 Phương pháp ước lượng
Ước lượng dựa trên phân tích thành phần chính
Cho X ( X X1, 2, , Xp) có vectơ trung bình E X ( ) và ma trận hiệp phương sai Giả sử ( ; ) 1 e1
, ( ; ) 2 e2 , , ( p, ep) là p cặp giá trị riêng - vectơ riêng của Khi đó
Giả sử có n quan sát độc lập của vectơ ngẫu nhiên X ( X X1, 2, , Xp):
Để ước lượng L và dựa trên mẫu số liệu trên ta thực hiện như sau:
- Tìm p cặp giá trị riêng - vectơ riêng của ma trận hiệp phương sai mẫu S: ( ; ) ˆ ˆ1 e1 ; ( ; ) ˆ ˆ2 e2 , ,( ˆ ˆm; ep)
Trang 19
- Chọn m giá trị riêng đầu tiên Ước lượng L bởi: ˆ ˆ ˆ1 1ˆ ˆ2 2ˆ ˆ ˆ
S LL được gọi là ma trận phần dư
Ta cũng có thể chuẩn hóa mẫu số liệu x: ij ij j , 1, 2, , ; 1, 2, ,
Phân tích nhân tố thành phần chính của R tương tự S
Ví dụ 2.6 Cho ước lượng ma trận hiệp phương sai điểm thi THPT Quốc gia 3 môn Toán, Tiếng Anh và
Vật lý của các thí sinh tham dự tuyển sinh vào một trường đại học như sau:
Toán 2.9830 Anh 0.0665 0.7570 Vật lý 2.971 0.3305 3.467 Phân tích 2 nhân tố bằng phương pháp thành phần chính
0.492 0.217 0.130 0.985 0.503 0.043
Phép xoay trực giao là phép xoay không làm thay đổi tính trực giao của các nhân tố Nếu Q là ma trận của phép xoay trực giao, khi đó ta có Q QT I Gọi ˆL là ma trận ma trận tải trọng ước lượng được từ mẫu số liệu, ma trận tải trọng sau khi quay sẽ là L* LQ ˆ Khi đó, ta có: LL ˆ ˆT LQQ L ˆ TˆT L L* *T . Do
đó ma trận phần dư không thay đổi khi thực hiện phép quay Q
Trong trường hợp chỉ hai nhân tố F1 và F2, ta có:
Trang 20Ví dụ 2.7 Trong một nghiên cứu của Lawley và Maxwell về điểm tổng kết các mơn học Thể thao, Tiếng
Anh, Lịch sử, Số học, Đại số và Hình học của 220 học sinh, các tác giả đã tính được ma trận hệ số tương quan mẫu như sau
Thể thao Tiếng Anh Lịch Sử Số học Đại số Hình học1.000 0.439 0.410 0.288 0.329 0.2480.439 1.000 0.351 0.354 0.320 0.3290.410 0.351 1.000 0.164 0.190 0.1810.288 0.354 0.164 1.000 0.595 0.4700.329 0.320 0.190 0.595 1.000 0.4
Thể thao 0.658 -0.449 Tiếng Anh 0.688 -0.29
Trang 21Bây giờ ta tiến hành xoay nhân tố Varimax:
Số học, Đại số và Hình học; nhân tố F2 tương quan âm mạnh với các biến Thể thao, Tiếng Anh và Lịch sử
Do đó, những học sinh có nhân tố F1 lớn có thiên hướng đối với các môn toán (Số học, Đại số và Hình học) còn những học sinh có nhân tố F1 nhỏ có thiên hướng với các môn xã hội (Thể thao, Tiếng Anh và Lịch sử)
Trang 22Ví dụ 1: Phân tích điểm trung bình Toán, Lý, Hóa, Sinh, Văn, Sử, Địa, Anh của các học sinh lớp 12A2 Bước 1: Phân tích thành phần chính
Nhập điểm trung bình các môn Toán, Lý, Hóa, Sinh, Văn, Sử, Địa, Anh của các học sinh lớp 12A2 vào Minitab
Thực hiện phân tích thành phần chính
Trang 23Bước 2: Phân tích nhân tố
409 0.140 0.198 0.4910.061 0.227 0.335 0.35
- Sau khi phân tích thành phần chính, ta giữ lại 4 thành phần chính đầu tiên để phân tích 4 nhân tố
Từ bảng kết quả phân tích nhân tố điểm trung bình của các học sinh lớp 12A2 trên, ta thấy rằng F1 tương quan dương mạnh với các biến Toán, Lý, Hóa Do đó các học sinh F1 có xu hướng học các môn khoa học tự
Trang 24nhiên (Toán, Lý, Hóa Các học sinh F2 có xu hướng học các môn khoa học xã hội (Văn, Sử, Địa) Các học sinh F3 có su hướng học môn Sinh Và các học sinh F4 có su hướng học môn Anh Nhưng nói chung, đa số học sinh lớp 12A2 có su hướng học tốt các môn Toán, Lý, Hóa
Ví dụ 2: Để khảo sát sự hài lòng của bệnh nhân (BN) đối với bệnh viện, một bộ câu hỏi được soạn sẵn với
20 câu hỏi (biến) như sau:
1 Trang thiết bị phục vụ khám chữa bệnh của bệnh viện có đầy đủ, hiện đại?
2 Phòng điều trị, phòng chờ khám bệnh có sạch sẽ và đầy đủ thiết bị?
3 Nhà vệ sinh có sạch sẽ và đặt ở nơi thuận tiện?
4 Bệnh viện có làm cho anh/ chị cảm thấy an tâm khi lựa chọn điều trị tại đây?
5 Bác sĩ, điều dưỡng có luôn quan tâm và sẵn sàng giúp đỡ, giải quyết các vấn đề của anh/chị?
6 Anh/chị có tin tưởng vào kết quả chẩn đoán và phương pháp điều trị của bệnh viện?
7 Anh/chị có tin tưởng vào bác sĩ điều trị tại bệnh viện?
8 Bệnh viện có cung cấp dịch vụ khám chữa bệnh nhanh chóng mà không cần nhiều thời gian chờ đợi?
9 Bệnh viện có cung cấp đầy đủ thông tin về tình trạng sức khoẻ của anh/chị?
10 Bác sĩ có lắng nghe và giúp đỡ anh/chị tận tình và chu đáo?
11 Khi anh/chị cần, bệnh viện có đáp ứng điều trị kịp thời, nhanh chóng?
12 Mọi thủ tục từ khi nhập viện đến khi xuất viện có được giải quyết nhanh chóng?
13 Những câu hỏi liên quan đến tình hình sức khoẻ của anh/chị đều được nhân viên trả lời đầy đủ, rõ ràng?
14 Bác sĩ, điều dưỡng bệnh viện có lịch sự và thân thiện trong quá trình khám chữa bệnh cho anh/chị?
15 Anh/chị có thấy nhân viên bệnh viện vui vẻ trong phục vụ?
16 Bác sĩ có giải thích những gì đã xảy ra với bệnh nhân trước khi đưa ra điều trị?
17 Bác sĩ nói với bệnh nhân về chẩn đoán bệnh của họ?
18 Bác sĩ có sẵn sàng trả lời các câu hỏi nào về tình trạng sức khoẻ của anh/chị?
19 Bác sĩ, điều dưỡng có đủ kiến thức để trả lời các câu hỏi của anh/chị?
20 Trình độ chuyên môn của bác sĩ có đáp ứng được nhu cầu khám chữa bệnh của anh/chị?
Dùng thang điểm Likert với: Hoàn toàn đồng ý (5 điểm), đồng ý (4 điểm), không ý kiến (3 điểm), không đồng ý (2 điểm), hoàn toàn không đồng ý (1 điểm)