Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
3,16 MB
Nội dung
TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BÒO CÒO TỔNG KẾT HỌC PHẦN THỐNG KÊ NHIỀU CHIỀU PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ ỨNG DỤNG TRONG PHÂN TÍCH DỊCH TỄ TN441 - 2021 Cần Thơ, 2021 TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BÒO CÒO TỔNG KẾT HỌC PHẦN THỐNG KÊ NHIỀU CHIỀU PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ ỨNG DỤNG TRONG PHÂN TÍCH DỊCH TỄ Giảng viên hướng dẫn: TS Trần Văn Lý Trưởng nhóm: Trần Nam Hưng B1906052 Các thành viên: Lý Ngọc Thanh B1906074 Lê Phát Tài B1906071 Mai Quốc Vinh B1906101 Huỳnh Thị Nhật Linh B1906058 Cần Thơ, 2021 Tóm tắt nội dung In this research, the number of patients with Covid-19 due to this disease in some ofprovinces/cities are considered First, the relations between the considered provinces/cities are studied using Pearson’s correlation Then, based on the spread rate of Covid-19, these provinces/cities are categorized using principal component analysis and factor analysis Title: The principal component algorithm and its application to epidemiological analysis Keyword: Tóm tắt nội dung Trong nghiên cứu này, số lượng bệnh nhân mắc Covid-19 bệnh số tỉnh/thành phố xem xét Đầu tiên, mối quan hệ tỉnh/thành phố xem xét nghiên cứu cách sử dụng tương quan Pearson Sau đó, dựa tỷ lệ lây lan Covid-19, tỉnh/thành phố phân loại cách sử dụng phân tích thành phần phân tích nhân tố Mục lục PHẦN MỞ ĐẦU iv TỔNG QUAN CƠ SỞ LÝ THUYẾT 1.1 Lý thuyết đại số tuyến tính 1.1.1 Ma trận phép tính ma trận 1.1.2 Chuẩn 1.1.3 Véc-tơ riêng giá trị riêng Thuật toán tìm véc-tơ riêng 1.2 Lý thuyết xác suất 1.3 Phương pháp chuẩn hóa liệu THUẬT TOÒN PHÂN TÍCH THÀNH PHẦN CHÍNH 2.1 Dẫn nhập 2.2 Thuật toán phân tích thành phần 2.3 Tiêu chí giảm thiểu số chiều liệu 10 PHƯƠNG PHỊP PHÂN TÍCH NHÂN TỐ 12 3.1 Dẫn nhập 12 3.2 Thuật toán phân tích nhân tố 12 3.2.1 Kiểm định Barlett kiểm định KMO 12 3.2.2 Xoay nhân tố 13 THỰC NGHIỆM 15 4.1 Viêm phổi vi-rút Corona 15 4.2 Tổng quan việc thực 16 4.2.1 Dữ liệu nghiên cứu 16 4.2.2 Các tiêu chuẩn đánh giá mơ hình 16 4.2.3 Thiết kế nghiên cứu 17 4.3 Đọc xử lý số liệu 18 4.4 Một số thống kê mô tả cho hai liệu 19 4.5 Mối tương quan số ca nhiễm bệnh tỉnh 23 4.6 Phân tích thành phần 27 4.6.1 Dữ liệu case_data 27 4.6.2 Dữ liệu cul_data 36 4.7 Kiểm định Bartlett – KMO 46 4.8 Phân tích nhân tố 48 4.9 Ma trận xoay 50 4.10 Bàn luận i 53 KẾT LUẬN 54 5.1 Kết luận 54 5.2 Nhận xét sơ báo cáo 54 PHỤ LỤC 56 6.1 Thông tin phần mềm 56 6.2 Nguồn mã lập trình 57 TÀI LIỆU THAM KHẢO 58 INDEX 59 ii Danh sách hình vẽ 2.1 Mơ tả thuật tốn phân tích thành phần 2.2 Thuật tốn phân tích thành phần 10 4.1 Đồ thị số ca nhiễm ngày 21 4.2 Đồ thị số ca nhiễm tích lũy 22 4.3 Tương quan đồ thể tương quan liệu ngày ca xác nhận nhiễm tỉnh/thành phố 23 4.4 Tương quan đồ thể tương quan liệu tích lũy ca xác nhận nhiễm 24 4.5 Mạng tương quan pcor liệu ca bệnh thu nhập ngày 25 4.6 Mạng tương quan pcor liệu ca bệnh tích lũy ngày 26 4.7 Biểu đồ tương quan Thành phố Hồ Chí Minh tỉnh lân cận 26 4.8 Sơ đồ sàng lọc với phân tích song song liệu ca nhiễm ngày 27 4.9 Sơ đồ sàng lọc liệu ca nhiễm ngày giá trị riêng tương ứng 30 4.10 Biểu đồ biplot cho liệu ngày 31 4.11 Biểu đồ biplot tổng hợp mật độ cos2 hai thành phần liệu ngày 32 4.12 Đồ thị biểu diễn thông số theo hai chiều liệu 33 4.13 Sơ đồ sàng lọc với phân tích song song liệu ca nhiễm ngày 36 4.14 Sơ đồ sàng lọc liệu ca nhiễm ngày giá trị riêng tương ứng 39 4.15 Biểu đồ biplot cho liệu ngày 40 4.16 Biểu đồ biplot tổng hợp mật độ cos2 hai thành phần liệu tích lũy 41 4.17 Đồ thị biểu diễn thông số theo hai chiều với liệu tích lũy 42 4.18 Biểu đồ giá trị cos2 biến chọn làm thành phần biến chưa phân tích 45 4.19 Phân cụm nhân tố hệ số nhân tố tương ứng hai liệu 51 4.20 Tương quan nhân tố liệu nhân tố xác định với hệ số tải nhân tố 0.55 52 6.1 57 Đường dẫn cụ thể cho mã vạch QR iii PHẦN MỞ ĐẦU Trong chương muốn giới thiệu mục tiêu nghiên cứu bố cục báo cáo Đầu tiên mục tiêu nghiên cứu mô tả thành phần liên quan đến tình hình 18 tỉnh thành có dịch Cuối bố cục báo cáo nêu rõ tên trọng tâm chương Bài báo cáo sử dụng phương pháp thành phần để phân loại biến dựa theo báo khoa học [4] Mục tiêu nghiên cứu Mô tả liệu với thông số trung bình, phương sai cung cấp thơng tin dịch tễ 18 tỉnh/thành phố có dịch bệnh Ứng dụng thuật tốn phân tích thành phần để giảm thiểu số chiều liệu dịch tễ trường hợp xác nhận nhiễm covid-19 18 tỉnh/thành phố miền Nam phân tích nhân tố vào liệu để phân cụm tỉnh có tính chất tương tự Bố cục báo cáo Đề tài bao gồm năm chương với trọng tâm sau Chương Tổng quan sở lý thuyết tập trung tổng kết có hệ thống vài lý thuyết đại số tuyến tính xác suất chuẩn hóa liệu để thiết lập thống kê mô tả thuật tốn phân tích thành phần phân tích nhân tố Chương Thuật tốn phân tích thành phần dành giải thích trình bày thuật tốn phân tích thành phần theo lý thuyết đại số tuyến tính với định nghĩa thống kê Ngồi ra, số tiêu chí giảm thiểu số chiều liệu trình bày để thiết lập thuật tốn phân cụm vùng tỉnh/thành phố có bệnh dịch Chương Phương pháp phân tích nhân tố dành trọn vẹn cho việc khảo cứu thuật tốn phân tích nhân tố cách ứng dụng vào liệu dịch bệnh Chương Thực nghiệm trình bày tổng quan liệu tiêu chuẩn đánh giá tham số kiểm định Phần yếu nêu kết ứng dụng thuật toán vào hai loại liệu thứ cấp thể số ca nhiễm ngày tích lũy tỉnh/thành phố bùng phát dịch Chương Kết luận định hướng nghiên cứu trình bày kết luận lượng giá báo cáo iv Chương TỔNG QUAN CƠ SỞ LÝ THUYẾT 1.1 Lý thuyết đại số tuyến tính Lý thuyết đại số tuyến tính cung cấp định nghĩa ma trận tập trung vào khái niệm có liên quan đến thuật tốn phân tích thành phần phân tích nhân tố Ngồi báo cáo đưa quy trình trực giao hóa cách xác định véc-tơ riêng nhằm sâu giải thích thuật tốn phân tích thành phần 1.1.1 Ma trận phép tính ma trận Định nghĩa 1.1 (Ma trận) Giả sử F trường tùy ý, bảng có dạng â ì a11 a12 a1n A= a21 a22 a2n am1 am2 amn , aij ∈ F với ≤ i ≤ m ≤ j ≤ n, gọi ma trận m hàng n cột (hay ma trận cấp m × n) với yếu tố trường F Các vô hướng aij ∈ F gọi phần tử (hay hệ tử) hàng i cột j ma trận A Ma trận thường ký hiệu gọn A = (aij )m×n Định nghĩa 1.2 (Phép cộng nhân vô hướng hai ma trận) Ta định nghĩa hai phép toán cộng hai ma trận nhân ma trận với vô hướng tập hợp ma trận M sau (aij ) + (bij ) = (a + b)ij α(aij ) = (αaij ) Định nghĩa 1.3 (Tích hai ma trận) Giả sử ma trận A = (aij ) ∈ M(m × n , F) ma trận B = (bij ) ∈ M(n × p , F), ta có tích hai ma trận A B, ký hiệu AB, ma trận C = (cij ) ∈ M(m × p , F) với phần tử xác định sau cik = n X aij bjk , (1 ≤ i ≤ m , ≤ k ≤ p) j=1 Định nghĩa 1.4 (Ma trận đơn vị) Ma trận In phần tử trung hòa phép nhân hai ma trận Nếu A ∈ M(n × n , F) In ma trận đơn vị bậc n AI = IA = A Định nghĩa 1.5 (Ma trận khả nghịch) Ma trận vng A ∈ M(n × n , F) gọi ma trận khả nghịch (hoặc ma trận khơng suy biến) có ma trận B ∈ M (n × n , F) cho AB = BA = In Khi đó, ta nói B ma trận nghịch đảo A ký hiệu B = A−1 Định nghĩa 1.6 (Ma trận đường chéo) Một ma trận vuông A = (aij ) với ≤ i , j ≤ n thuộc M(n , n) gọi ma trận đường chéo phần tử khác đường chéo Ta ký hiệu ma trận đường chéo diag(λ1 , λn ) Định nghĩa 1.7 (Vết ma trận vuông) Với ma trận vuông A = (aij ) ∈ M(n , n), vết ma trận vuông A, ký hiệu trace(A) định nghĩa tổng phần tử đường chéo A, tức Pn trace(A) = i=1 aii 1.1.2 Chuẩn Phần định nghĩa chuẩn véc-tơ tập số thực Rd có d-chiều quy trình trực giao hóa Định nghĩa 1.8 (Tích vơ hướng hai véc-tơ) Cho hai véc-tơ x , y ∈ Rd định nghĩa x ⊤ y = y⊤ x = d X xi yi i=1 Nếu tích vơ hướng hai véc-tơ khác (khơng) ta nói hai véc-tơ trực giao với Định nghĩa 1.9 (Độ đo phân biệt phần tử rời rạc) Cho X tập tùy ý khác rỗng Hàm số d : X × X → R độ đo phân biệt d thỏa mãn ba tiên đề (i) d(x , y) ≥ , ∀x , y ∈ X; (ii) d(x , y) = ⇔ x = y; (iii) d(x , y) = d(y , x) Nếu ta thêm tiên đề độ đo phân biệt thỏa mãn bất đẳng thức tam giác d(x , y) ≤ d(x , z) + d(z , y) , ∀x , y , z ∈ X độ đo phân biệt metric (khoảng cách) Định nghĩa 1.10 (Chuẩn) Hàm số f : Rd → R gọi chuẩn thỏa mãn ba tiên đề sau (i) f (x) ≥ , ∀x ∈ Rd ; (ii) f (αx) = ♣α♣f (x) , ∀α ∈ R; (iii) f (x1 ) + f (x2 ) ≥ f (x1 + x2 ) , ∀x1 , x2 ∈ Rd Định nghĩa 1.11 (Chuẩn không gian Euclid) Giả sử E khơng gian véc-tơ Euclid với tích vơ hướng ⟨·, ·⟩ Khi đó, độ dài (hay chuẩn) véc-tơ v ∈ E số thực không âm định nghĩa p ∥v∥ = ⟨v, v⟩ Định nghĩa 1.12 (Chuẩn ma trận) Giả sử hàm số ∥x∥α chuẩn vector x Ứng với chuẩn này, định nghĩa chuẩn tương ứng cho ma trận A ∥A∥α = max x ∥Ax∥α ∥x∥α ý ma trận A khơng vng số cột với số chiều x 4.7 Kiểm định Bartlett – KMO Tiến hành kiểm định Bartlett với liệu covid_case gói lệnh psych Mục đích kiểm định kiểm tra giả thiết mẫu có phương sai case_data %>% psych::cortest.bartlett() ## R was not square, finding R from data ## $chisq ## [1] 2105.383 ## ## $p.value ## [1] ## ## $df ## [1] 153 Ở đây, giá trị p − value = 0nhau, ta bác bỏ giả thiết phương sai đơi Tức liệu thích hợp để phân tích nhân tố Mặt khác ta kiểm định KMO để xem case_data %>% psych::KMO() ## Kaiser-Meyer-Olkin factor adequacy ## Call: psych::KMO(r = ) ## Overall MSA = 0.77 ## MSA for each item = ## TP.Ho.Chi.Minh Tien.Giang Long.An An.Giang Ben.Tre ## 0.84 0.87 0.44 0.74 0.72 ## Can.Tho Vinh.Long Tra.Vinh Ca.Mau Hau.Giang ## 0.72 0.74 0.63 0.73 0.77 ## Kien.Giang Soc.Trang Bac.Lieu Dong.Thap Binh.Duong 0.87 0.90 ## 0.77 0.63 0.79 ## Vung.Tau Tay.Ninh Binh.Phuoc ## 0.86 0.78 0.84 Giá trị KMO trung bình nằm mức 0.77 Theo tiêu chuẩn đánh giá phù hợp để phân tích nhân tố, giá trị OverallM SA ≥ 0.7, ta xác định liệu thích hợp để phân tích nhân tố Hệ số MSA biến Long An mức phù hợp (0.44) nên phân tích nhân tố ta loại bỏ biến Long An Sau tiến hành bỏ biến Long An liệu OverallM SA có thay đổi case_data %>% select(.,-Long.An) %>% KMO() %>% $MSA ## [1] 0.8227004 Chỉ số M SA = 0.82 cải thiện sau loại trừ biến Long An có M SA = 0.44 thấp không phù hợp để phân tích nhân tố 46 Ta thực kiểm định Barlett liệu tích lũy, với giả thiết thống kê cul_data %>% psych::cortest.bartlett() ## R was not square, finding R from data ## $chisq ## [1] 7978.616 ## ## $p.value ## [1] ## ## $df ## [1] 153 Ở đây, giá trị p − value = tức bác bỏ giả thiết Tức liệu thích hợp để phân tích nhân tố Mặt khác ta kiểm định KMO để xem cul_data %>% psych::KMO() ## Kaiser-Meyer-Olkin factor adequacy ## Call: psych::KMO(r = ) ## Overall MSA = 0.87 ## MSA for each item = ## TP.Ho.Chi.Minh Tien.Giang Long.An An.Giang Ben.Tre ## 0.89 0.85 0.83 0.84 0.84 ## TP.Can.Tho Vinh.Long Tra.Vinh Ca.Mau Hau.Giang ## 0.83 0.94 0.85 0.95 0.85 ## Kien.Giang Soc.Trang Bac.Lieu Dong.Thap Binh.Duong ## 0.84 0.87 0.94 0.87 0.87 ## Vung.Tau Tay.Ninh Binh.Phuoc ## 0.93 0.84 0.94 Giá trị KMO trung bình nằm mức 0.87 thích hợp để phân tích nhân tố cao Như bảng liệu đủ điều kiện để phân tích nhân tố Tất biến có giá trị MSA 0.6 nên ta không cần loại biến Cả hai liệu sẵn sàng để phân tích nhân tố Đối với liệu ngày, ta chọn số nhân tố liệu tích lũy ta chọn nhân tố Vì liệu có 96 quan sát nên ta chọn hệ số tải (Factor Loading) 0.55 Như phân tích, biến Long An liệu ngày có KM O thấp nên loại khỏi liệu 47 4.8 Phân tích nhân tố principal(case_data %>% select(-Long.An), nfactors = rotate = "varimax") %>% print.psych(., cut = 0.55, sort = TRUE) ## Principal Components Analysis ## Call: principal(r = case_data %>% select(-Long.An), nfactors = Nfacs, ## rotate = "varimax") ## Standardized loadings (pattern matrix) based upon correlation matrix ## item RC1 ## Binh.Duong 14 0.92 0.94 0.055 1.2 ## Hau.Giang 0.86 0.82 0.176 1.3 ## Can.Tho 0.85 0.88 0.117 1.4 ## Vung.Tau 15 0.84 0.82 0.185 1.3 ## Kien.Giang 10 0.80 0.77 0.229 1.4 ## Tien.Giang 0.76 0.67 0.334 1.3 ## TP.Ho.Chi.Minh 0.66 ## Tay.Ninh 16 0.65 ## Soc.Trang 11 0.85 0.74 0.257 1.0 ## An.Giang 0.83 0.81 0.192 1.4 ## Dong.Thap 13 0.76 0.85 0.146 2.0 0.69 0.87 0.135 2.0 RC3 0.57 h2 u2 com 0.89 0.108 2.5 0.54 0.460 1.6 ## Ben.Tre ## Tra.Vinh ## Vinh.Long 0.65 0.347 3.0 ## Bac.Lieu 12 0.77 0.73 0.272 1.4 0.74 0.59 0.415 1.1 17 0.63 0.64 0.359 2.0 ## Ca.Mau ## Binh.Phuoc 0.63 RC2 0.55 0.51 0.492 1.9 ## ## RC1 RC2 RC3 ## SS loadings 6.43 3.87 2.42 ## Proportion Var 0.38 0.23 0.14 ## Cumulative Var 0.38 0.61 0.75 ## Proportion Explained 0.51 0.30 0.19 ## Cumulative Proportion 0.51 0.81 1.00 ## ## Mean item complexity = 1.6 ## Test of the hypothesis that components are sufficient ## ## The root mean square of the residuals (RMSR) is ## with the empirical chi square 117.62 0.07 with prob < ## ## Fit based upon off diagonal values = 0.99 48 0.019 principal(cul_data, nfactors = 1, rotate = "varimax") %>% print.psych(., cut = 0.55, sort = TRUE) ## Principal Components Analysis ## Call: principal(r = cul_data, nfactors = 1, rotate = "varimax") ## Standardized loadings (pattern matrix) based upon correlation matrix ## V ## TP.Ho.Chi.Minh 1.00 0.99 0.0064 ## Binh.Duong 15 1.00 0.99 0.0070 ## Tien.Giang 0.99 0.99 0.0118 ## Hau.Giang 10 0.99 0.99 0.0144 0.99 0.98 0.0180 ## Binh.Phuoc 18 0.99 0.98 0.0189 ## Dong.Thap 14 0.99 0.98 0.0202 ## Kien.Giang 11 0.99 0.98 0.0241 ## Vinh.Long 0.99 0.97 0.0265 ## Soc.Trang 12 0.99 0.97 0.0265 ## Tra.Vinh 0.98 0.96 0.0355 ## Vung.Tau 16 0.98 0.96 0.0366 ## An.Giang 0.98 0.95 0.0462 ## Long.An 0.97 0.95 0.0509 ## Bac.Lieu 13 0.97 0.94 0.0625 0.97 0.94 0.0649 17 0.95 0.90 0.1041 0.93 0.86 0.1394 ## Ben.Tre ## TP.Can.Tho ## Tay.Ninh ## Ca.Mau PC1 h2 u2 com ## ## PC1 ## SS loadings ## Proportion Var 17.29 0.96 ## ## Mean item complexity = ## Test of the hypothesis that component is sufficient ## ## The root mean square of the residuals (RMSR) is ## with the empirical chi square 20.23 0.03 with prob < ## ## Fit based upon off diagonal values = 49 4.9 Ma trận xoay fa_case % select(-Long.An) %>% factanal(., 3, rotation = "varimax") fa_cul % factanal(., 2, rotation = "varimax") fa.diagram(fa_case$loadings) fa.diagram(fa_cul$loadings) 50 Factor Analysis Can.Tho Hau.Giang Binh.Duong Vung.Tau Ben.Tre Tien.Giang 0.9 0.9 0.8 0.7 0.6 0.6 0.5 Factor1 Tra.Vinh An.Giang Dong.Thap Soc.Trang TP.Ho.Chi.Minh Bac.Lieu Kien.Giang Binh.Phuoc Vinh.Long Tay.Ninh 0.8 0.8 0.7 0.6 Factor2 0.7 0.6 0.6 0.5 0.5 0.3 Factor3 Ca.Mau (a) Nhân tố liệu ngày Factor Analysis Tay.Ninh TP.Can.Tho Vung.Tau Long.An Tra.Vinh Hau.Giang Kien.Giang Ben.Tre 0.9 0.9 0.8 0.8 0.8 0.8 0.8 0.8 0.8 Factor1 Binh.Duong Ca.Mau Bac.Lieu An.Giang Vinh.Long Dong.Thap Soc.Trang Binh.Phuoc Tien.Giang 0.9 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.7 Factor2 TP.Ho.Chi.Minh (b) Nhân tố liệu tích lũy Hình 4.19: Phân cum nhân tố hệ số nhân tố tương ứng hai liệu fa_case %>% factor.plot(., cut = 0.55) fa_cul %>% factor.plot(., cut = 0.55) 51 (a) Tương quan nhân tố liệu ngày Với ba nhân tố xác định với hệ số tải nhân tố 0.55 Plot 13 714 1218 15 510 11 16 17 (b) Tương quan nhân tố liệu tích lũy Với hai nhân tố xác định với hệ số tải nhân tố 0.55 Hình 4.20: Tương quan nhân tố liệu nhân tố xác định với hệ số tải nhân tố 0.55 52 4.10 Bàn luận Do tác động xã hội, kinh tế môi trường khác Covid-19, điều quan trọng phải nghiên cứu so sánh tốc độ lây lan bệnh tỉnh/thành phố khác Trong nghiên cứu này, số lượng bệnh nhân có Covid-19 18 tỉnh/thành phố xem xét Đầu tiên, mối quan hệ tỉnh/thành phố xem xét nghiên cứu cách sử dụng mối tương quan Pearson Kết có mối quan hệ thuận chiều cao tỉnh/thành phố xem xét, dựa số lượng bệnh nhân mắc bệnh Covid-19 tích lũy số ca nhiễm bệnh theo ngày Sau đó, dựa tốc độ lây lan Covid-19, tỉnh/thành phố phân loại cách sử dụng phân tích thành phần Kết rằng, số lượng bệnh nhân, phân bố lây lan Sóc Trăng, An Giang, Trà Vinh, Đồng Tháp, Bến Tre, Vĩnh Long Tp Hồ Chí Minh tương tự khác với tỉnh/thành phố khác Ngồi ra, số lượng bệnh nhân tích lũy theo ngày, phân bố lây lan Bình Dương Vũng Tàu tương tự khác với tỉnh Đồng Tháp, Tiền Giang Tp Hồ Chí Minh ta phân tích chọn thành phần tiêu biểu Các tác giả đề nghị nhà nghiên cứu xem xét nhiều tỉnh/thành phố phân loại chúng dựa phân tích thành phần phương pháp khác phân tích nhân tố có cải tiến 53 Chương KẾT LUẬN 5.1 Kết luận Những kết thu sau phân loại 18 biến liệu tỉnh/thành phố có ca nhiễm ngày tích lũy bao gồm Cung cấp thông tin mô tả số lượng ca nhiễm theo ngày ca nhiễm tích lũy xác nhận vi-rút corona từ lúc bắt đầu đợt dịch thứ IV 18 tỉnh/thành phố phía nam Thông tin hệ số tương quan biến trình bày tương quan đồ Phân tích thành cơng thuật tốn phân tích thành phần phân loại biến thành hai nhóm Phân tích nhân tố với tiêu chí tìm Đặc biệt, phương pháp phân tích thành phần sử dụng công cụ phân loại liệu rời rạc cho kết ổn định Bài nghiên cứu trực quan hóa thành cơng mạng tương quan ứng dụng xét mối quan hệ tương quan biến Đặt biệt, nghiên cứu trực quan thành công biểu đồ tương quan Pearson 4.7 biến so với biến lại lấy ý tưởng từ bia đạn với mục tiêu nằm biến chọn để xét hệ số tương quan với biến khác Nghiên cứu sử dụng phần mềm lập trình thống kê R (phiên 4.1.0) để phân tích thống kê R ngơn ngữ lập trình với nhiều lợi cú pháp đơn giản, hệ thống thư viện có cấu trúc chặt chẽ, tương thích cao, đặc biệt tối ưu cho mơ hình Machine Learning, Các chương trình lệnh thơng tin mã nguồn lưu trữ cập nhật trang web Github 5.2 Nhận xét sơ báo cáo Bài báo cáo hoàn thành với việc giảm thiểu từ 18 biến liệu thành biến với phần trăm phân tích phương sai đạt 83% liệu ngày thành phần liệu tích lũy giải thích 96% phương sai Phân tích nhân tố phân chia liệu ngày thành ba nhân tố chia liệu tích lũy thành hai nhân tố Với hệ số tải cho trước, hệ số nhân tố thiết lập phân tích 54 Song, phải vừa thu thập liệu thứ cấp ngày kiểm tra nhiều nguồn khác nhau, chúng tơi khơng tránh khỏi khó khăn thời gian hoàn thiện việc viết Mặc khác, nghiên cứu trước việc ứng dụng phân tích thành phần phân tích nhân tố cho liệu thời gian Điều làm tăng khó khăn cho chúng tơi nghiên cứu vấn đề mẻ Ngoài ra, thân báo cáo viên phải hứng chịu tác động tiêu cực đại dịch Covid-19 nên việc trao đổi nghiên cứu trở nên khó khăn, sinh viên tiếp xúc với chương trình học Hướng nghiên cứu tập trung vào phân tích thành phần ứng dụng phân loại hình ảnh có số chiều lớn Sử dụng thêm tốn phân loại để phân loại mơ hình tảng phân tích thành phần 55 Chương PHỤ LỤC 6.1 Thông tin phần mềm Phần cung cấp số thông tin thiết bị mà nhóm tác giả sử dụng để hồn thành phần thực nghiệm Trong q trình thực phân tích thành phần phân tích nhân tố tác vụ khác, sử dụng máy chủ với thông tin kỹ thuật cho bảng Processor Intel(R) Core(TM) i3-9100 CPU @ 3.60GHz 3.60 GHz Installed RAM 8,00 GB System type 64-bit operating system, x64-based processor (AMD64) Edition Windows 10 Bài báo sử dụng ngơn ngữ lập trình thống kê R phiên 4.1.0 (cập nhật vào ngày 18/7/2021) để thực tác vụ báo cáo Thông tin chi tiết cho bảng dây Để hoàn thành mục tiêu nghiên cứu, chúng tơi sử dụng số gói chương trình lệnh ngơn ngữ lập trình thống kê R liệt kê sau pks