DANH MỤC BẢNGBảng 1: K礃Ā hiệu c愃Āc m̀u nước 攃Āp gĀc-chanh d愃Ȁy được đ愃Ānh gi愃Ā cảm quan trong thí nghiệm với lượng gĀc cĀ định 150 g...10Bảng 2: Trọng sĀ c甃ऀa c愃Āc thành phần.
TỔNG QUAN VỀ PHÂN TÍCH THÀNH PHẦN CHÍNH
Khái niệm
Ph愃Ȁn tích thành phần chính (Principal Component Analysis - PCA) là một trong những phương ph愃Āp ph愃Ȁn tích dữ liệu đã chiều được sử dụng trong thĀng kê mục đích làm giảm chiều (giảm sĀ lượng biến) nhưng v̀n giữ lại được nhiều nhĀt c愃Āc thông tin c甃ऀa tập dữ liệu ban đầu.
Bản chất của phân tích thành phần chính
Thực chĀt việc cô đọng thông tin hay giảm chiều dữ liệu c甃ऀa phương ph愃Āp ph愃Ȁn tích thành phần chính là thay thế p biến ban đầu (có quan hệ tương quan với nhau) bằng một sĀ thành phần chính (biến mới) là z (với z < p) Mỗi thành phần chính là tổ hợp tuyến tính c甃ऀa c愃Āc biến ban đầu C愃Āc thành phần chính được x愃Āc định trên cơ sở có mĀi liên hệ tuyến tính cao với c愃Āc biến ban đầu và giữa c愃Āc thành phần chính không tương quan với nhau => được sử dụng như bước tiền xử l礃Ā dữ liệu cho c愃Āc phương ph愃Āp hồi quy bội và ph愃Ȁn cụm dữ liệu. Đऀ thực hiện giảm chiều, PCA biến đổi tập dữ liệu ban đầu lên một hệ trục tọa độ mới mà c愃Āc trục tọa độ là c愃Āc thành phần chính sao cho mỗi thành phần chính là một hàm hồi quy tuyến tính c甃ऀa c愃Āc biến ban đầu C愃Āc thành phần chính được x愃Āc định trên cơ sở có mĀi liên hệ tương quan cao với c愃Āc biến ban đầu và giữa c愃Āc thành phần chính không tương quan với nhau Thành phần chính đầu tiên sẽ có phương sai lớn nhĀt hay là trục tọa độ mà c愃Āc quan s愃Āt được ph愃Ȁn bĀ tĀi đa (ph愃Ȁn t愃Ān rộng nhĀt) trên trục đó.
Mục đích của phân tích thành phần chính
- Giảm chiều dữ liệu: PCA giúp giảm sĀ lượng biến đầu vào c甃ऀa dữ liệu, chuyऀn từ không gian ban đầu sang không gian mới có sĀ chiều (thường ít hơn) mà v̀n giữ lại được phần lớn thông tin quan trọng từ dữ liệu ban đầu Điều này giúp làm cho dữ liệu trở nên dễ quản l礃Ā hơn và giảm độ phức tạp trong việc ph愃Ȁn tích
- Ph愃Āt hiện sự tương quan: PCA giúp ph愃Āt hiện và hiऀu rõ sự tương quan giữa c愃Āc biến Nó t椃m ra c愃Āc "thành phần chính" hoặc "vector riêng" c甃ऀa dữ liệu, đó là những hướng chứa phần lớn biến thiên trong dữ liệu
- N攃Ān thông tin: PCA cho ph攃Āp biऀu diễn dữ liệu ban đầu dưới dạng tổ hợp tuyến tính c甃ऀa c愃Āc thành phần chính Điều này có nghĩa rằng bạn có thऀ lưu trữ dữ liệu một c愃Āch hiệu quả hơn với ít thông tin hơn, mà v̀n giữ lại được c愃Āc đặc trưng quan trọng
- Loại bỏ nhiễu: PCA có thऀ giúp loại bỏ hoặc giảm nhiễu từ dữ liệu, làm cho dữ liệu trở nên dễ dàng ph愃Ȁn tích và hiऀu hơn
- Visualize dữ liệu: PCA có thऀ được sử dụng đऀ biऀu diễn dữ liệu nhiều chiều trong không gian hai hoặc ba chiều đऀ dễ dàng trực quan hóa dữ liệu
- Tạo c愃Āc biến mới không tương quan (orthogonal): C愃Āc thành phần chính sau khi trích xuĀt từ PCA là không tương quan với nhau, điều này có thऀ giúp trong việc loại bỏ tương quan giữa biến đầu vào trong c愃Āc mô h椃nh thĀng kê
=> Tóm lại, PCA là một công cụ mạnh mẽ trong ph愃Ȁn tích dữ liệu, giúp tiết kiệm thời gian và tạo ra biऀu đồ hoặc biऀu đồ giúp hiऀu rõ hơn về mĀi quan hệ và đặc điऀm quan trọng trong dữ liệu.
Phạm vi áp dụng
- Ph愃Ȁn tích thành phần chính được 愃Āp dụng cho biến định lượng hoặc biến định tính với thang đo thứ bậc
- Ngoài mục đích tổng hợp biến mới sử dụng trong c愃Āc phương ph愃Āp ph愃Ȁn tích dữ liệu kh愃Āc như đã đề cập ở trên, PCA được ứng dụng nhiều trong lĩnh vực kinh tế - xã hội nhằm tính to愃Ān c愃Āc chỉ sĀ tổng hợp
PHÂN TÍCH NGHIÊN CỨU
Ứng dụng phương pháp phân tích thành phần chính và hồi quy logistic trong đánh giá cảm quan nước ép gấc – chanh dây
1 Lý do chọn đề tài
Sản xuĀt nước 攃Āp tr愃Āi c愃Ȁy ngày càng trở nên quan trọng đĀi với thị trường trong nước do nhu cầu sử dụng sản phẩm tiện lợi và bổ dưỡng Nước 攃Āp gĀc-chanh d愃Ȁy kết hợp sẽ làm t愃ng gi愃Ā trị dinh dưỡng và cải thiện mùi vị thơm ngon cho sản phẩm Tuy vậy, sản phẩm cần có thêm c愃Āc bước nghiên cứu về đ愃Ānh gi愃Ā cảm quan c甃ऀa người tiêu dùng đऀ x愃Āc nhận kết quả c甃ऀa nghiên cứu này và đảm bảo tiềm n愃ng c甃ऀa sản phẩm mới trên thị trường
Ph愃Ȁn tích cảm quan cung cĀp cho c愃Āc nhà tiếp thị hiऀu về chĀt lượng sản phẩm thực phẩm, hướng đến chĀt lượng sản phẩm tĀt và cải tiến sản phẩm theo quan điऀm c甃ऀa người tiêu dùng (Lawless and Heymann, 1998) Phương ph愃Āp ph愃Ȁn tích thành phần chính (PCA) đã được sử dụng và xem x攃Āt bởi c愃Āc nhà nghiên cứu cho c愃Āc ứng dụng đ愃Ānh gi愃Ā cảm quan cho c愃Āc sản phẩm thực phẩm kh愃Āc nhau PCA có thऀ được 愃Āp dụng cho việc điều tra dữ liệu ưa thích, do đó có thऀ tạo ra một không gian sản phẩm- người tiêu dùng dựa trên dữ liệu chĀp nhận (Hough et al., 1992; Greenhooff and McFie, 1994) Đ愃Ȁy c甃̀ng là một công cụ đऀ miêu tả sự kh愃Āc biệt giữa c愃Āc thuộc tính cảm quan c甃ऀa c愃Āc sản phẩm thực phẩm (Powers, 1984) MĀi quan hệ giữa người tiêu dùng và dữ liệu mô tả, c甃̀ng như dữ liệu thu nhận từ cảm quan và dụng cụ đo có thऀ được h椃nh dung một c愃Āch rõ ràng bởi PCA PCA c甃̀ng được sử dụng đऀ cung cĀp c愃Āch h椃nh dung mĀi quan hệ giữa c愃Āc sản phẩm và thuộc tính
Ngoài ra, c愃Āc mô h椃nh hồi quy logistic rĀt hữu ích đऀ mô tả ảnh hưởng c甃ऀa c愃Āc yếu tĀ dự b愃Āo (c愃Āc biến độc lập) lên biến nhị ph愃Ȁn (biến phụ thuộc) thऀ hiện kết quả chĀp nhận hoặc không chĀp nhận c甃ऀa người tiêu dùng (Agresti, 1996) Kết quả từ hồi quy logistic có thऀ được giải thích bằng c愃Āch sử dụng ước tính x愃Āc suĀt hoặc tỷ sĀ khả dĩ ước tính Hồi quy logistic có thऀ dự đo愃Ān x愃Āc suĀt ước tính rằng một sự kiện sẽ thành công hoặc thĀt bại dựa trên một sĀ dự b愃Āo (biến độc lập) (Hair et al., 1998) Nếu x愃Āc suĀt dự đo愃Ān lớn hơn 0,5 th椃 dự đo愃Ān là có (thành công), ngược lại là không (Agresti, 1996) Nói c愃Āch kh愃Āc, x愃Āc suĀt thành công hay thĀt bại c甃ऀa biến phụ thuộc không bị
8 ảnh hưởng bởi biến độc lập Tỷ sĀ odd có gi愃Ā trị 愃Ȁm cho thĀy sự suy giảm trong x愃Āc suĀt thành công, và tỷ sĀ odd dương cho thĀy khả n愃ng thành công t愃ng lên (Hair et al., 1998) Phương ph愃Āp hồi quy logistic đã được 愃Āp dụng trong một vài trường hợp trong lãnh vực đ愃Ānh gi愃Ā cảm quan
2 Tóm tắt bài nghiên cứu
Trong nghiên cứu này, c愃Āc cảm quan viên được đào tạo đऀ đ愃Ānh gi愃Ā c愃Āc thuộc tính kh愃Āc nhau c甃ऀa sản phẩm nước 攃Āp gĀc-chanh d愃Ȁy Hàm lượng dịch chanh d愃Ȁy sử dụng từ 50-200 g (150 g gĀc) và tỷ lệ pha loãng tổng c愃Āc thành phần (gĀc và chanh d愃Ȁy) với nước (1:8 đến 1:15) Ph愃Ȁn tích thành phần chính (PCA) x愃Āc định hai thành phần chính ch甃ऀ yếu chiếm 80,43% phương sai trong dữ liệu thuộc tính cảm quan PCA cho thĀy thuộc tính cảm quan quan trọng c甃ऀa nước 攃Āp này là hương vị, màu sắc và độ đồng nhĀt Khả n愃ng chĀp nhận chung c甃ऀa sản phẩm được mô phỏng (ph愃Ȁn tích hồi quy logistic) như một hàm c甃ऀa hàm lượng dịch quả chanh d愃Ȁy và tỷ lệ pha loãng c甃ऀa nước trong sản phẩm MĀi quan hệ thĀng kê quan trọng giữa c愃Āc biến được x愃Āc định
(P10% là PC1(56,6%), PC2(23,8%) và PC3 (12,7%) được biऀu diễn trên H椃nh 5a và H椃nh 5c
Tuy nhiên, nghiên cứu này chỉ lựa chọn 2 thành phần chính đầu tiên v椃 tổng 2 thành phần này đã giải thích được toàn bộ 80,4% tập dữ liệu yêu cầu (tổng giải thích phương sai hai thành phần chính lớn hơn 50%) C愃Āc vector màu xanh cho biết mĀi quan hệ giữa c愃Āc biến ban đầu (h椃nh d愃Āng MPs) và c愃Āc thành phần chính, độ dài c甃ऀa vector cho biết độ mạnh c甃ऀa mĀi tương quan c甃ऀa biến ban đầu với thành phần chính Theo kết quả ph愃Ȁn tích ma trận xoay trong H椃nh 5a, mĀi tương quan giữa c愃Āc h椃nh d愃Āng vi nhựa trong H椃nh 5d và kết quả gi愃Ā trị P-Value trong H椃nh 5b cho thĀy rằng: i) Dạng sợi - dạng kh愃Āc gần như không có mĀi tương quan (r = 0,08) và dạng mảnh - dạng hạt có mĀi tương quan yếu (r = 0,47), c愃Āc gi愃Ā trị P-Value < 0,05=> ChĀp nhận H0, có 礃Ā nghĩa thĀng kê ii) Ngoài ra, H椃nh 5a c甃̀ng cho thĀy dạng mảnh và dạng hạt có mĀi tương quan với thành phần chính PC1 cao hơn c愃Āc dạng kh愃Āc và dạng sợi, ngoài ra trong PC2 th椃 dạng sợi và dạng kh愃Āc có mĀi tương quan cao với thành phần chính này (nhưng gi愃Ā trị P-Value giữa dạng sợi-dạng kh愃Āc trong H椃nh 5b lại cho thĀy chúng không có 礃Ā nghĩa thĀng kê P-Value = 0,48).
Hình 5a: Kết qu愃ऀ ph愃Ȁn t椃Āch PCA c甃ऀa R Hình 5b: Kết qu愃ऀ trình dìn hệ số tư漃ᬀng quan và giá tr椃⌀ PValue c甃ऀa các hình dạng vi nhựa từ R
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
Hình 5c: Biऀu đồ Scree plot thऀ hiện phần trăm phư漃ᬀng sai mà các thành phần ch椃Ānh gi愃ऀi th椃Āch bộ dữ liệu
Hình 5d: Biऀu đồ tư漃ᬀng quan đa biến các hình dạng c甃ऀa vi nhựa được tìm thĀy
Từ c愃Āc ph愃Ȁn tích trên, nghiên cứu lựa chọn thực hiện ph攃Āp trích c愃Āc h椃nh d愃Āng vi nhựa cho c愃Āc thành phần chính như sau:
PC1 gồm: Dạng sợi (hệ sĀ x愃Āc định là 49%), dạng mảnh (56%) và dạng hạt (52,8%)
PC2 gồm: Dạng kh愃Āc (74,7%) Biऀu diễn phương tr椃nh cho thành phần chính PC1:
PC1 = 0,49DangSoi + 0,56DangManh + 0,53DangHạt Biऀu diễn phương tr椃nh cho thành phần chính PC2:
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
Hình 5e: Biऀu đồ dự báo xu hướng biến đổi c甃ऀa các hình dạng vi nhựa theo
H椃nh 5e cho thĀy gần như c愃Āc h椃nh d愃Āng vi nhựa trong c愃Āc điऀm khảo s愃Āt trên sông Sài G漃n và sông Đồng Nai đều có liên quan đến thành phần chính đầu tiên C愃Āc vi nhựa bị ph愃Ȁn rã ngoài dạng sợi, mảnh, hạt có liên quan đến thành phần chính thứ hai C愃Āc hạt dạng sợi, hạt và bị ph愃Ȁn mảnh là c愃Āc loại vi nhựa chính được t椃m thĀy trong nước bề mặt lưu vực sông trong cả hai mùa, vào lúc triều lên và xuĀng trong ngày.
2.2 Kết qu愃ऀ phân tích t甃ᬀơng quan và PCA c愃Āc đặc điểm về hình dạng của vi nhựa trong môi tr甃ᬀờng n甃ᬀớc sông Sài Gòn - Đồng Nai trong n愃m 2022
Ph愃Ȁn tích tương tự cho n愃m 2022, H椃nh 6a và H椃nh 6c cho thĀy những đóng góp đầu tiên thành phần chính về h椃nh d愃Āng vi nhựa trong n愃m 2022 thỏa mãn phần tr愃m giải thích phương sai > 10% là PC1 (65,3%), PC2 (19,1%) và PC3 (12,3%)
Nghiên cứu này chỉ lựa chọn 2 thành phần chính đầu tiên v椃 tổng 2 thành phần này đã giải thích được toàn bộ 84,3% tập dữ liệu yêu cầu trong n愃m 2022 (tổng giải thích phương sai hai thành phần chính lớn hơn 50%) (H椃nh 6c) Vector h椃nh d愃Āng vi nhựa dạng sợi có chiều dài vượt trội hơn so với n愃m 2021 Điều này chứng tỏ mức nhiễm vi nhựa dạng sợi trên lưu vực 2 con sông v̀n cao và t愃ng hơn n愃m 2021 Kết luận này được khẳng định bởi 礃Ā nghĩa thĀng kê c甃ऀa dữ liệu khảo s愃Āt là rĀt rõ ràng bởi gi愃Ā trị P- Values hoàn toàn < 0,05=> ChĀp nhận H0, có 礃Ā nghĩa thĀng kê (H椃nh 6b).
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
Hình 6a: Kết qu愃ऀ ph愃Ȁn t椃Āch PCA c甃ऀa R Hình 6b: Kết qu愃ऀ trình dìn hệ số tư漃ᬀng quan và giá tr椃⌀ PValue c甃ऀa các hình dạng vi nhựa từ R
Hình 6c: Biऀu đồ Scree plot thऀ hiện phần trăm phư漃ᬀng sai mà các thành phần ch椃Ānh gi愃ऀi th椃Āch bộ dữ liệu
Hình 6d: Biऀu đồ tư漃ᬀng quan đa biến các hình dạng c甃ऀa vi nhựa được tìm thĀy Đऀ x愃Āc định c愃Āc nh愃Ȁn tĀ trong 2 thành phần PC1 và PC2, nghiên cứu dựa vào H椃nh 6a và H椃nh 6d và lựa chọn kết quả trích h椃nh dạng vi nhựa như sau:
PC1 gồm: Dạng sợi (hệ sĀ x愃Āc định là 43%), dạng mảnh (51%) và dạng kh愃Āc (46%)
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
PC2 gồm: Dạng kh愃Āc (52%) Phương tr椃nh biऀu diễn thành phần chính PC1:
PC1 = 0.43DangSoi + 0.51DangManh + 0.46DangKhac Phương tr椃nh biऀu diễn thành phần chính PC2:
Hình 6e: Biऀu đồ dự báo xu hướng biến đổi c甃ऀa các hình dạng vi nhựa theo
Đánh giá chất lượng sinh thái cho tỉnh Thanh Hóa trong năm 2021 dựa vào chỉ số sinh thái viễn thám (RSEI)
Chỉ sĀ đ愃Ānh gi愃Ā chĀt lượng sinh th愃Āi được thiết lập thông qua bĀn chỉ sĀ (Chỉ sĀ thực vật kh愃Āc biệt chuẩn hóa (NDVI), Độ ẩm (WET), Chỉ sĀ khô hạn thực vật (TVDI) và Nhiệt độ (TEM)), kết hợp với phương ph愃Āp ph愃Ȁn tích thành phần chính (PCA) đऀ 愃Āp dụng đ愃Ānh gi愃Ā chĀt lượng sinh th愃Āi cho tỉnh Thanh Hóa trong n愃m 2021.
Chỉ sĀ chỉ sĀ sinh th愃Āi viễn th愃Ām (RSEI) được tính to愃Ān trên cơ sở ph愃Ȁn tích thành phần chính và sự kết hợp c甃ऀa bĀn chỉ sĀ cho ra công thức sau:
RSEI = 0,23*NDVI + 0,2*WET - 0,27*TVDI + 0,1*TEM.
C愃n cứ vào sự biến đổi c甃ऀa 4 chỉ tiêu trên, cho thĀy môi trường sinh th愃Āi c甃ऀa Thanh Hóa ở mức tĀt Kết quả cho thĀy, c愃Āc khu vực có chĀt lượng môi trường sinh th愃Āi tĀt ch甃ऀ yếu bị giới hạn bởi điều kiện địa l礃Ā, mật độ d愃Ȁn sĀ ít và ít chịu t愃Āc động c甃ऀa c愃Āc hoạt động kinh tế con người như tại huyện phía Đông Bắc tỉnh Thanh Hóa (Quan Hóa, Mường L愃Āt, Quan Sơn ), gi愃Ā trị RSEI giao động từ 0,6 đến 1 C愃Āc khu
Downloaded by Vu Vu (quangchinhlas199@gmail.com) vực có chĀt lượng môi trường sinh th愃Āi k攃Ām ch甃ऀ yếu là c愃Āc khu vực có tr椃nh độ kinh tế cao, đang diễn ra qu愃Ā tr椃nh đô thị hóa, không gian xanh ít và thường xuyên có hoạt động kinh tế c甃ऀa con người, và tập trung ch甃ऀ yếu ở phía đông c甃ऀa tỉnh như tỉnh Thanh Hóa, Nông CĀng và Hậu Lộc, gi愃Ā trị RSEI giao động từ 0,0 đến 0,4.
2 Phạm vi ứng dụng của phương pháp phân tích thành phần chính PCA trong nghiên cứu:
2.1 Chỉ số sinh th愃Āi viễn th愃Ām RSEI:
Chỉ sĀ sinh th愃Āi viễn th愃Ām RSEI được tính theo 4 thành phần: Độ xanh (Greenness), độ ẩm (Wetness), độ khô (Dryness) và độ nóng (Heat) C愃Āc t愃Āc động c甃ऀa từng thành phần đến môi trường sinh th愃Āi được x愃Āc định bằng PCA RSEI có thऀ được tính bằng c愃Āch sử dụng như sau phương tr椃nh (1), trong đó Cx là trọng sĀ c甃ऀa mỗi chỉ sĀ:
RSEI = C1 * Greenness + C2 * Wetness + C3 * Dryness + C4 * Heat (1) Trong đó, C1, C2 Là trọng sĀ tương ứng với hệ sĀ tải theo kết quả ph愃Ȁn tích thành phần chính PCA.
2.1.1 Chỉ số độ xanh NDVI
NDVI = ρ nir − ρ red ρ nir + ρ red (2) Trong đó: NIR và RED tương ứng với gi愃Ā trị phản xạ phổ tại kênh cận hồng ngoại và kênh đỏ c甃ऀa ảnh vệ tinh ĐĀi với ảnh vệ tinh Landsat 5 th椃 NIR và RED lần lượt là gi愃Ā trị phản xạ phổ tại kênh 4 và 3; đĀi với ảnh Landsat 8 là kênh 5 và 4
Chỉ sĀ độ ẩm được tính theo công thức sau (Zhang 2016):
Wet = 0,1511* NIR + 0,1973 * Red + 0,3283* Blue + 0,3407 * Green - 0,7117*SWIR1 - 0,4559 * SWIR2 (3)
2.1.3 Chỉ số TVDI Được x愃Āc định theo công thức sau (Yuhai Bao et al., 2013, Amin Zargar et al., 2011, AghaKouchak, A và cộng sự 2015):
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
Trong đó: T s min , T s max là nhiệt độ bề mặt cực tiऀu và cực đại trên ảnh nhiệt sau khi được tính to愃Ān xử l礃Ā.
T = K 2 ln ( K 1 Lλ+1 ) Trong đó: T = nhiệt độ hiệu quả trên vệ tinh (K); K 1 = 774.8853 đĀi với Landsat 8; K 2= 1321.0789 đĀi với Landsat 8
Chỉ sĀ RSEI được chia làm 5 mức:
Bảng 7: Mức đánh giá theo chỉ số RSEI
2.2 Ph甃ᬀơng ph愃Āp phân tích thành phần chính PCA
Phương ph愃Āp ph愃Ȁn tích thành phần chính PCA được 愃Āp dụng trong nghiên cứu nhằm lựa chọn trọng sĀ phù hợp cho c愃Āc tiêu chí đ愃Ānh gi愃Ā (NDVI (chỉ sĀ xanh);
WET (chỉ sĀ độ ẩm), TEM (chỉ sĀ nhiệt), TVDI (chỉ sĀ độ khô)) đऀ x愃Āc định chỉ sĀ RSEI.
C愃Āc bước thực hiện ph愃Ȁn tích thành phần chính như sau:
Bước 1: Thu thập dữ liệu Bước 2: Chuẩn hóa dữ liệu:
X愃Ȁy dựng ma trận chuẩn hóa bằng c愃Āch mang tĀt cả c愃Āc gi愃Ā trị đo được c甃ऀa mỗi cột (mỗi thông sĀ) trừ đi gi愃Ā trị trung b椃nh từng cột.
Bước 3: X愃Ȁy dựng ma trận hiệp phương sai hoặc ma trận tương quan theo công thức
Ma trận hiệp phương sai Trong đó:
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
Cov φij: Hiệp phương sai giữa tính chĀt i và tính chĀt j Ma trận tương quan
Rx,y: là hệ sĀ tương quan giữa hai tính chĀt x và y.
Bước 4: X愃Āc định gi愃Ā trị riêng (λ), vectơ riêng (K) c甃ऀa một trong 2 ma trận.
Bước 5: Chọn K vector riêng ứng với (λ) gi愃Ā trị riêng lớn nhĀt đऀ x愃Ȁy dựng ma trận Uk, với c愃Āc thành phần chính, tạo thành một không gian con gần với ph愃Ȁn bĀ c甃ऀa dữ liệu ban đầu đã chuẩn hóa.
3.1 Xây dựng c愃Āc b愃ऀn đồ từng thành phần: Ảnh sau xử l礃Ā tiến hành x愃Ȁy dựng c愃Āc bản đồ thành phần theo c愃Āc công thức tính c愃Āc chỉ sĀ NDVI, TVDI, WET, TEM Kết quả x愃Ȁy dựng c愃Āc bản đồ thành phần như sau:
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
Hình 7: B愃ऀn đồ 4 chỉ số NDVI, WET, TVDI, TEM
Bằng c愃Āch tính to愃Ān chỉ sĀ sinh th愃Āi môi trường (RSEI) c甃ऀa bĀn chỉ sĀ NDVI, WET, TVDI, và TEM vào n愃m 2021 tại tỉnh Thanh Ho愃Ā, kết hợp sử dụng mô h椃nh ph愃Ȁn tích thành chính (PCA), chĀt lượng sinh th愃Āi dưới t愃Āc động c甃ऀa hoạt động ph愃Āt triऀn kinh tế - xã hội đã được ph愃Ȁn tích.
Kết quả ph愃Ȁn tích thành phần chính c甃ऀa 4 yếu tĀ gồm độ ẩm, nhiệt độ, độ khô hạn và gi愃Ā trị NDVI tại khu vực Thanh Hóa.
Bảng 8: Bảng tổng hợp kết quả tính PCA
Kết quả ph愃Ȁn tích thành phần chính cho thĀy, nhóm thành phần chính PC1 có có thऀ giải thích 73,22% tập dữ liệu, thành phần chính thứ hai PC2 giải thích được 15,78%, thành phần chính thứ ba PC3 giải thích được 7,57% và thành phần chính
Downloaded by Vu Vu (quangchinhlas199@gmail.com) thứ 4 giải thích được 3,43% Như vậy, thành phần chính thứ nhĀt PC1 có khả n愃ng giải thích lớn nhĀt c甃ऀa tập dữ liệu (73,22%), nên thành phần chính PC1 được lựa chọn đऀ x愃Āc định chỉ sĀ RSEI, c愃Āc hệ sĀ tải được coi là hệ sĀ tương ứng c甃ऀa từng chỉ tiêu NDVI, WET, TVDI và TEM trong phương tr椃nh (1).
Chỉ sĀ RSEI được tính trên cơ sở kết quả ph愃Ȁn tích thành phần chính và c愃Āc chỉ tiêu độ ẩm, nhiệt độ, độ khô hạn và gi愃Ā trị NDVI theo công thức (1) Cụ thऀ như sau:
RSEI=0,23*NDVI + 0,2*WET – 0,27*TVDI + 0,1*TEM
Hình 8: Kết qu愃ऀ t椃Ānh chỉ số RSEI, tỉnh Thanh Hóa năm 2021
Từ h椃nh 3 cho thĀy, khu vực có chĀt lượng sinh th愃Āi tĀt tập trung ở c愃Āc huyện phía đông bắc khu vực tỉnh Thanh Hóa như Quan Hóa, Mường L愃Āt, Quan Sơn Khu
SỬ DỤNG BỘ DỮ LIỆU ĐỂ PHÂN TÍCH BẰNG PHẦN MỀM R
Giới thiệu mẫu nghiên cứu
1 Giới thiệu bộ dữ liệu.
Bộ dữ liệu “Pokemon.csv” là kết quả tổng hợp thô từ Kaggle cung cĀp thông tin về c愃Āc loại Pok攃Āmon (Nguồn dữ liệu lĀy từ nhiều trang web bao gồm:
Pok攃Āmon.com, Pok攃Āmondb, bulbapedia).
Bộ dữ liệu này bao gồm 898 Pok攃Āmon, với 1072 dạng thay thế.
Từ những thông tin thô, nghiên cứu ph愃Ȁn tích c愃Āc thuộc tính và thông sĀ chiến đĀu c甃ऀa c愃Āc loại Pok攃Āmon kh愃Āc nhau đऀ hiऀu rõ hơn về đặc điऀm và sức mạnh c甃ऀa chúng Đồng thời, ảnh hưởng c甃ऀa loại Pok攃Āmon trong việc x愃Ȁy dựng và triऀn khai chiến thuật chiến đĀu trong tr漃 chơi Pok攃Āmon.
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
Bộ dữ liệu gồm 13 biến, trong đó có 1 biến chứa sĀ thứ tự, 5 biến trả lời về tên, ph愃Ȁn loại nhóm thuộc tính và 7 biến là thông tin sĀ liệu chiến đĀu trong tr漃 chơi tương ứng với 7 biến được nhóm lựa chọn đऀ ph愃Ȁn tích PCA.
Bảng 9: Giải thích biến hp (health points) Lượng m愃Āu c甃ऀa Pok攃Āmon. attack Sức mạnh tĀn công c甃ऀa Pok攃Āmon. defense Sức mạnh ph漃ng th甃ऀ c甃ऀa Pok攃Āmon. sp_attack Sức mạnh tĀn công đặc biệt c甃ऀa Pok攃Āmon. sp_defense Sức mạnh ph漃ng th甃ऀ đặc biệt c甃ऀa Pok攃Āmon. speed TĀc độ c甃ऀa Pok攃Āmon generation Thế hệ mà Pok攃Āmon thuộc về.
Phân tích thành phần chính (PCA)
1.1 Ma trận hệ số t甃ᬀơng quan
Mục đích: xem x攃Āt hệ sĀ tương quan giữa 2 biến nhằm loại bỏ sự t愃Āc động bên ngoài c甃ऀa c愃Āc biến đưa vào Nếu biến đó có độ tương quan cao với c愃Āc biến kh愃Āc (hay
>0.3) th椃 có thऀ đưa vào ph愃Ȁn tích tiếp.
Bảng 10: Ma trận hệ số tương quan sau khi chuẩn hóa covariance_matrix 0.3 nên c愃Āc biến có đ甃ऀ điều kiện đऀ tiếp tục ph愃Ȁn tích PC.
Sử dụng kiऀm định Bartlett đऀ kiऀm định với mức 礃Ā nghĩa 5%, ma trận hệ sĀ tương quan có phải là ma trận đơn vị không Ta có cặp giải thuyết sau:
H0: Không có sự tương quan giữa c愃Āc biến/ ma trận hệ sĀ tương quan là ma trận đơn vị
H1: Có sự tương quan giữa c愃Āc biến/ ma trận hệ sĀ tương quan không là ma trận đơn vị cortest.bartlett(pkm)
Hình 9: Kết qu愃ऀ c甃ऀa kiऀm đ椃⌀nh Bartlett
Kết luận: Với mức 礃Ā nghĩa 5%, p.value = 0 < 0.05 => Đ甃ऀ cơ sở b愃Āc bỏ H0 Ta có thऀ
愃Āp dụng phương ph愃Āp ph愃Ȁn tích thành phần chính
Hệ sĀ KMO là cơ sở kiऀm tra hệ sĀ tương quan riêng phần c甃ऀa c愃Āc cặp biến khi có sự t愃Āc động c甃ऀa c愃Āc biến kh愃Āc
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
Hệ sĀ KMO chung là: 0.62 >0.5 => M̀u phù hợp ph愃Ȁn tích PCA.
Hệ sĀ KMO c甃ऀa từng biến đều lớn hơn 0.5 do đó c愃Āc biến đều phù hợp đऀ đưa vào ph愃Ȁn tích PCA.
2 Bước 2: Xác định các thành phần chính
Eigenvalue: gi愃Ā trị riêng, phản 愃Ānh phương sai c甃ऀa thành phần chính Gi愃Ā trị tổng phương sai mô tả độ ph愃Ȁn t愃Ān chung c甃ऀa c愃Āc biến ng̀u nhiên quanh c愃Āc gi愃Ā trị trung b椃nh c甃ऀa chúng.
Tổng c愃Āc gi愃Ā trị riêng sẽ bằng tổng c愃Āc gi愃Ā trị trên đường ch攃Āo c甃ऀa ma trận dữ liệu đầu vào PCA. pca.pkm p=7 => tổng phương sai là 7
∑variance = 2.726 + 1.122 + 0.995 + 0.794 + 0.670 + 0.435 + 0.257 = 6.999 ≈ 7 = p ∑λj => Ma trận đầu vào là ma trận hệ sĀ tương quan và có 7 PC.
PC thứ nhĀt giải thích được 38.941% dữ liệu ban đầu
PC thứ 2 giải thích được 16.027% dữ liệu ban đầu
PC thứ 3 giải thích được 14.220% dữ liệu ban đầu
PC thứ 4 giải thích được 11.350% dữ liệu ban đầu
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
PC thứ 5 giải thích được 9.575% dữ liệu ban đầu
PC thứ 6 giải thích được 6.212% dữ liệu ban đầu
PC thứ 7 giải thích được 3.676% dữ liệu ban đầu
2.2 X愃Āc đ椃⌀nh số thành phần chính giữ lại
Cách 1: Dựa vào tỉ lệ phần tr愃m biến thiên c甃ऀa dữ liệu ban đầu được giải thích bởi c愃Āc thành phần chính.
Kết luận: Từ bảng 12, % of var cộng dồn c甃ऀa Dim1 và Dim2 là 54,698% > 50%
Dim1 và Dim2 giải thích được 54,698% sự biến thiên c甃ऀa dữ liệu ban đầu
Cách 2: Gi愃Ā trị riêng c甃ऀa c愃Āc thành phần chính > gi愃Ā trị riêng trung b椃nh.
Kết luận: Từ bảng 12 ta thĀy:
Variance c甃ऀa Dim1 là 2.726 và Dim2 là 1.122 đều lớn hơn 1 => có thऀ giữ lại
Variance từ Dim 3 là 0.995 tuy nhỏ hơn 1 nhưng rĀt gần 1, có thऀ xem x攃Āt giữ lại.
Variance từ Dim 4 trở đi đều b攃Ā hơn 1 => loại
C愃Āch 3: Biऀu đồ khuỷu tay (Scree Plot) fviz_eig(pca.pkm, addlabels = TRUE, ylim = c(0, 50))
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
Hình 10: Biऀu đồ khuỷu tay
Kết luận: Từ biऀu đồ ta có thऀ giữ lại Dim1, Dim2 v椃 tạo độ dĀc kh愃Āc biệt.
Kết hợp 3 phương ph愃Āp ta thĀy rằng có thऀ giữ lại Dim 1,2
2.3 Đ愃Ānh gi愃Ā chất l甃ᬀợng biểu diễn của biến phân tích
- Tổng hệ sĀ x愃Āc định c甃ऀa một biến với c愃Āc thành phần chính được giữ lại (Communality) c甃ऀa từng biến cho biết bao nhiêu phần tr愃m biến thiên c甃ऀa biến đó được giải thích bởi hai thành phần chính được giữ lại.
Downloaded by Vu Vu (quangchinhlas199@gmail.com)
- Tương quan c甃ऀa c愃Āc biến với c愃Āc PC là lớn, tỉ lệ % biến được giải thích bởi c愃Āc PC là tĀt khi gi愃Ā trị Communality c甃ऀa từng biến lớn hơn 0.3.
(Giá tr椃⌀ Communality = ∑ R2 theo dòng)
Biến Gi愃Ā trị Communality hp (Hit Points)
0.470 attack 0.526 defense 0.756 sp_attack 0.648 sp_defense 0.586 speed 0.788 generation 0.074
Ta thĀy, Communality c甃ऀa hầu hết c愃Āc biến đều cao và tĀt cả đều lớn hơn 0.3
Communality c甃ऀa biến generation rĀt thĀp (0.07