Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 52 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
52
Dung lượng
0,92 MB
Nội dung
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA TOÁN ******** NGUYỄN ĐĂNG ĐỨC PHÂN TÍCH LỚP VÀ ỨNG DỤNG KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC Chun ngành: Tốn ứng dụng HÀ NỘI – 2019 TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA TOÁN ******** NGUYỄN ĐĂNG ĐỨC PHÂN TÍCH LỚP VÀ ỨNG DỤNG KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Toán ứng dụng Người hướng dẫn khoa học PGS.TS TRẦN TRỌNG NGUYÊN HÀ NỘI – 2019 LỜI CẢM ƠN Để hồn thành khóa luận này, em xin bày tỏ lòng biết ơn sâu sắc đến thầy PGS.TS Trần Trọng Nguyên – Người trực tiếp tận tình hướng dẫn, bảo định hướng cho em suốt q trình em nghiên cứu khóa luận Đồng thời em xin chân thành cảm ơn Ban chủ nhiệm khoa Tốn, thầy tổ Tốn ứng dụng thầy khoa Tốn – Trường Đại học Sư phạm Hà Nội tạo điều kiện cho em hồn thành tốt khóa luận để có kết ngày hơm Mặc dù có nhiều cố gắng, song thời gian nghiên cứu kinh nghiệm thân nhiều hạn chế nên khóa luận khơng thể tránh khỏi thiếu sót mong nhận đóng góp ý kiến thầy cô, bạn sinh viên bạn đọc Em xin chân thành cảm ơn! Hà Nội, 20 tháng năm 2019 Sinh viên thực Nguyễn Đăng Đức LỜI CAM ĐOAN Em xin cam đoan khóa luận kết việc nghiên cứu nỗ lực học tập thân hướng dẫn thầy PGS.TS Trần Trọng Ngun, nội dung khóa luận khơng trùng lặp với kết đề tài khác Trong nghiên cứu, hồn thành khóa luận em tham khảo số tài liệu ghi phần tài liệu tham khảo Em xin chịu hoàn toàn trách nhiệm lời cam đoan này! Hà Nội, 20 tháng năm 2019 Sinh viên thực Nguyễn Đăng Đức MỤC LỤC LỜI MỞ ĐẦU 1 Lí chọn đề tài Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp công cụ nghiên cứu Cấu trúc khóa luận Chương 1: ĐỘ ĐO KHOẢNG CÁCH 1.1 Khoảng cách 1.1.1 Độ đo khác biệt 1.1.2 Độ đo tương tự (với biến tần số) 1.1.3 Độ đo tương tự (cho biến nhị phân) 1.1.4 Độ đo hỗn hợp 1.2 Khoảng cách nhóm 1.2.1 Liên kết trung bình 1.2.2 Liên kết đơn 1.2.3 Liên kết đầy đủ 10 1.3 Một số vấn đề tổ hợp phân lớp 10 1.3.1 Số cách phân chia tập n cá thể thành lớp k thể 10 1.3.2 Tổng số cách chia n cá thể 11 1.3.3 Lựa chọn số lớp tối ưu 11 Chương 2: PHƯƠNG PHÁP PHÂN LỚP 13 2.1 Phân lớp không thứ bậc 13 2.1.1 Các phương pháp kiểu đám mây động không gian Ơ lit 13 2.1.1.1 Quán tính lớp lớp 14 2.1.1.2 Thuật toán K-means cluster .15 2.1.1.3 Lựa chọn k tâm nhóm .16 2.1.1.4 Khắc phục suy biến 17 2.1.2 Phân lớp với biến nhị phân .19 2.1.2.1 Phương pháp 20 2.1.2.2 Phương pháp Ward .20 2.2 Phân lớp thứ bậc .23 2.2.1 Tiêu chuẩn quán tính phương pháp Ward 25 2.1.1.1 Mức giảm quán tính ghép lớp khoảng cách hai lớp 25 2.1.1.2 Chọn số lớp 26 2.3 Phương pháp phân lớp hai bước 28 2.3.1 Phương pháp two-step cluster .28 2.3.2 Thí dụ phân tích kết 29 2.3.2.1 Dữ liệu – mơ hình thủ tục 29 2.3.2.2 Kết .32 Chương 3: BÀI TOÁN PHÂN LỚP TRÊN SPSS 36 3.1 Thủ tục K – Means Cluster .36 3.2 Phân lớp có thứ bậc các thể 39 KẾT LUẬN 45 TÀI LIỆU THAM KHẢO 46 LỜI MỞ ĐẦU Lí chọn đề tài Phân lớp (hay phân nhóm) tốn quan tâm từ sớm lịch sử Từ xa xưa người ta tiến hành phân lớp lĩnh vực Trong trường hợp tổng thể có đặc trưng việc phân lớp hồn tồn hình thành tự động hay theo quan điểm chủ quan Ngay trường hợp dùng đặc trưng, ý tưởng phân lớp rõ ràng vượt khỏi giới hạn tổng thể đặc trưng Chẳng hạn, quan sát, nghiên cứu thu thập cư dân Cho dù điều kiện xã hội, kinh tế, trị điều kiện khác người nghiên cứu thu thập với mục đích tìm thị trường cho loại hàng (kể hàng thiết yếu lương thực, thực phẩm, may mặc,…) thường trực ý niệm mức hay tỷ lệ chi cho tiêu dùng mặt hàng mà họ quan tâm khác theo giới Tổng thể phân lớp: Nam Nữ Có nhiều toán phân lớp tự bộc lộ lời giải q trình vận động tổng thể Sẽ khơng thắc mắc giới tính cư dân lại chia lớp, hàng hóa lại chia thành thiết yếu, thơng thường xa xỉ cách phân chia chúng thời đại Tuy nhiên, cá thể tổng thể có nhiều đặc trưng có nhiều đặc trưng mà ta khơng thể hiểu cặn kẽ: đặc trưng lại vận động mối quan hệ tác động qua lại đồng thời việc phân lớp trở thành vấn đề phức tạp Có thể thấy vấn đề khơng giới hạn việc có nhiều đặc trưng cho cá thể mà điều kiện khơng thể áp đặt quan niệm hay mục đích chủ quan việc phân lớp Vì việc nghiên cứu sở phương pháp khác để giải tốn phân lớp khách quan, khơng phụ thuộc vào quan điểm chủ quan, mà phụ thuộc vào biểu cá thể trình vận động chúng Hơn tiêu chuẩn cao phân lớp tổng thể tạo lớp (tập con) với tối đa lớp khác biệt tối đa cá thể khác lớp Thấy ý nghĩa quan trọng phân tích lớp kinh tế thực tế chưa có nhiều đề tài nghiên cứu vấn đề nên hướng dẫn thầy PGS.TS Trần Trọng Nguyên em lựa chọn đề nghiên cứu cho khóa luận tốt nghiệp là: “PHÂN TÍCH LỚP VÀ ỨNG DỤNG” Mục đích nghiên cứu ✓ Cơ sở lý thuyết độ đo khoảng cách ✓ Cơ sở lý thuyết phân tích lớp ✓ Ứng dụng phần mềm thống kê SPSS để giải tốn phân tích lớp Đối tượng phạm vi nghiên cứu ✓ Đối tượng nghiên cứu: Các khái niệm sử dụng toán phân lớp với trợ giúp SPSS ✓ Phạm vi nghiên cứu: Các dạng toán phân lớp ứng dụng số toán Phương pháp công cụ nghiên cứu ✓ Phần mềm SPSS ✓ Nghiên cứu tổng hợp, thống kê, liệt kê, so sánh ✓ Phân tích liệu Cấu trúc khóa luận ✓ Ngồi phần mở đầu khóa luận tài liệu tham khảo Nội dung nghiên cứu khóa luận dự kiến gồm chương: Chương 1: Độ đo khoảng cách Chương 2: Phương pháp phân lớp Chương 3: Bài toán toán phân lớp SPSS CHƯƠNG 1: ĐỘ ĐO KHOẢNG CÁCH Chương chủ yếu trình bày khái niệm, tính chất kiến thức liên quan để phục vụ cho nội dung chương chương 1.1 Khoảng cách Dữ liệu cho phân lớp tập hợn n thể cho dạng bảng số (số liệu thô) hay bảng quan hệ n x n Để thực phân nhóm cá thể yếu tố quan trọng xác định khoảng cách các thể khoảng cách nhóm Các khoảng cách thông thường thể hai dạng: Chỉ số tương tự số khác biệt (độ phát tán) cặp cá thể Sau xem xét sơ lược loại khoảng cách thường sử dụng 1.1.1 Độ đo khác biệt Xét tập n thể, thể đặc trưng p đặc trưng (biến) Gọi E tập cá thể cần phân lớp Khoảng cách đo độ khác biệt cá thể i cá thể j số thực d (i, j ) thỏa mãn điều kiện + d (i, j ) = d ( j, i) ; + d (i, j ) ; + d (i, j ) = i = j ; + d (i, j ) d (i, k ) + d (k , j ) Có thể mở rộng định nghĩa việc bỏ điều kiện thứ tự ta khoảng cách phi Ơcơlit Một số độ đo khoảng cách (Với biến có thang đo khoảng) m ( Euclidean: d (i, k ) = xij − xkj j =1 ) 1/2 Squared Euclidean: d (i, k ) = ( xij − xkj ) m 2 j =1 Mahanobis: d (i, k ) = ( X i − X k ) −1 ( X i − X k ) T m Block: d (i, k ) = xij − xkj j =1 ( p Chebychev: d (i, k ) = max xij − xkj m Minkowski: d p (i, k ) = xij − xkj j =1 ) 1/ p p 1 Pearson correlation*: d (i, k ) = − r (i, k ) Cosine*: d (i, k ) = − i, k i k Có thể thấy khoảng cách thơng thường khơng gian tuyến tính khoảng cách Ơ lit (* khoảng cách đo độ tương tự) 1.1.2 Độ đo tương tự (với biến tần số) Với biến tần số hay số đếm, người ta sử dụng khoảng cách tương đối đặc biệt Đó khoảng cách Khi-bình phương Phi Khi bình phương: = i, j Phi: = (O ij − Eij ) Eij 2 n 2.3.2.2 Kết Auto-Clustering Schwarz’s Number of Ratio of BIC Ratio of BIC Bayesian Cluster Distance Change a b Changes Measuresc Criterion (BIC) 203.734 113.428 -90.306 1.000 19.392 156.058 42.631 -.472 2.685 203.225 47.167 -.522 2.731 252.097 48.873 -.541 1.047 301.014 48.917 -.542 a The changes are the from the previous number of cluster in the table b The ratios of changes are relative to the change for the two cluster solution c The ratios of distance measures are based on the current number of clusters against the previous number of clusters Since the distance at the current number of cluster is zero, auto-clustering will not continue Kết mơ tả q trình phân lớp Với số BIC nhỏ nhât đạt số lớp nên chọn giải pháp chia lớp tốt 32 Cluster Distribution N % of Combined % of Total 214 45.1 45.1 208 43.9 43.9 Outlier (-1) 52 11.0 11.0 Combined 474 100.0 100.0 Cluster Total 474 100.0 Kết có 474 cá thể, lớp thứ gồm 214 cá thể; lớp thứ gôm 208 cá thể , có 52 cá thể ngoại lai (không phân lớp) Centroids Cluster Educational Level (years) Outlier (-1) Combined Mean 12.34 13.87 16.75 13.49 Std 2.303 2.477 3.624 2.885 Current Mean 25,815.86 34,699.54 68,707.21 34,419.57 Salary Std 7,214.745 10,870.06 22,307.895 17,075.66 Beginning Mean 12,957.36 17,150.82 33,180.38 17,016.09 Salary Std 2,583.345 4,287.817 11,680.208 7,870.638 Previous Mean 76.36 104.46 141.75 95.86 Std 94.289 100.525 138.767 104.586 Experience (months) 33 Gender Female Male Fre Percent Fre Percent 214 99.1 0.0 0.0 208 80.6 Outlier (-1) 0.9 50 19.4 Combined 216 100.0 258 100.0 Cluster Employment Category Clerical Cluster Custodial Manager Fre Percent Fre Percent Fre Percent 206 56.7 0.0 9.5 157 43.3 20 74.1 31 36.9 Outlier 0.0 25.9 45 53.6 Combined 363 100.0 27 100.0 84 100.0 34 35 CHƯƠNG 3: BÀI TOÁN PHÂN LỚP TRÊN SPSS 3.1 Thủ tục K – Means Cluster Thủ tục thực phân lớp cá thể với số lớp (k) xác định trước Thực đơn thức sau - Cửa số biến cho phép khai bao biến đặc trưng chia tổng thể phân lớp Việc xác định biến phụ thuộc vào phạm vi quan tâm người nghiên cứu hay vấn đề cần phân tích; - Số lớp (k) xác định cửa sổ Number of Clusters; - Yêu cầu kết phân nhóm tồn q trình in kết cuối xác định mục: Method; - Tên cá thể kèm theo số thứ tự Cases ô Label Case by; - Nút Iterate cho phép xác định số bước lặp sử dụng trung tâm nhóm có thể; - Nút Save cho phép ghi lại cá thể thành phần nhóm k nhóm; 36 - Nút Options… cho phép lựa chọn mơ tả thống kê q trình phân tích; Thí Dụ 3.1: Từ tệp GSS93.save phân lớp theo biến chọn làmchilds, sibs, educ, incom91, chldidel QICK CLUSTER Childs sibs educ incom91 chldidel /MISSING=LTSTWISE /CRITERIA= CLUSTER (3) MXITER (10) CONVERGE (0) /METHOD=KMEANS (NOUPDATE) /PRIN ID (id) ANOVA Iteration Historya Change in Cluster Centers Iteration 12.620 9.436 12.845 2.738 1.437 810 1.392 537 247 728 179 080 584 180 043 427 161 020 342 089 035 327 122 047 438 110 044 10 591 262 049 37 Final Cluster Centers Cluster Number of Children 2 Number of Brothers and 3 11 12 14 12 18 3 Sisters Highest Year of School Completed Total Family income Ideal Number of Children ANOVA Cluster Error Mean Square df F 2.725 921 29.844 000 5.082 921 419.790 000 961.730 7.578 921 126.918 000 9564.739 8.848 921 1081.031 000 23.944 2.348 921 10.220 000 Square Number of Children Mean df 81.323 Number of Brothers 2133.487 Sig and Sisters Highest Year of School Completed Total Family income Ideal Number of Children The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters The observed significance levels are not corrected for this and thus 38 cannot be interpreted as tests of the hypothesis that the cluster means are equal Number of Cases in each Cluster Cluster 127.000 264.000 533.000 Valid 924.000 Missing 576.000 Bảng ANOVA cho thấy tổng sai số bình phương tính theo tưng biến kết phân lớp Với biến Cluster\Mean Square cho trung bình phương khoảng cách tâm nhóm với tâm toàn đám mây điểm; Error\Mean Square cho trung bình khoảng cách cá thể đến tâm nhóm Đây hai đại lương mang thơng tin qn tính IB IW thiết lập Ngồi SPSS thực phân tích phương sai với giả thuyết H “Các tâm lớp không khác nhau” tương đương với giả thuyết “Không cần chia thành lớp” Chúng ta nhận nhiều thơng tin xác nhận lựa chọn khác thực đơn 3.2 Phân lớp có thứ bậc cá thể Phân lớp có thứ bậc thực với nhiều độ đo khác nhau, mục trình bày Vì sử dụng phân lớp có thứ bậc cần ý đến đặc điểm biến dùng để phân lớp Có hai lựa chọn quan trọng lựa chọn phương pháp lựa chọn độ đo mà sau xem xét số cách lựa chọn Thủ tục phân lớp thứ bậc nhận từ thực đơn Analysis\Classify\Hierarchical với bảng chọn sau 39 Bảng chọn có số cửa biến nhãn bảng chọn trên, giải thích chi tiết thực lựa chọn - Lựa chọn Cluster phân lớp cá thể biến; - Nút Statistics cho lựa chọn mô tả thống kê + Lựa chọn Agglomeration schedude: Liệt kê tồn q trình ghép lớp; + Lựa chọn Proximity matrix cho phép bảng độ đo theo cách lựa chọn nút Method; 40 + Bảng chọn nhỏ Cluster Membership cho phép lựa chọn cách thức liệt kê cá thể vào lớp - Nút Plots cho phép định dạng cách thực lớp ghép thứ bậc - Nút Method cho bảng chọn sau: (bảng chọn hierarchical Cluster…) + Bảng chọn cho phép chọn phương pháp khác để phân lớp, phương pháp Ward phương pháp liệt kê cửa sổ Cluster Method (như bảng trên) Tùy thuộc người sử dụng lựa chọn phương pháp, khác phương pháp tốc độ phân lớp; + Việc sử dụng độ đo liệt kê cửa sổ Measure Lựa chọn độ đo nhiều trường hợp ảnh hưởng đến kết phân lớp Vì cần phải chọn độ đo thích hợp SPSS cung cấp lớp độ đo tương ứng với trường hợp sử dụng biến khác - Đối với biến nói chung sử dụng khoảng cách thơng thường, với lựa chọn Interval ta có bảng độ đo khoảng cách Trong khoảng cách 41 Ơcơlit với bậc khác thường sử dụng biến làm sở phân lớp biến định lượng Trường hợp tập hợp biến dùng để phân lớp cá thể bao gồm biến định lượng định tính ta sử dụng khoảng cách khác Chebychev, Minkowski,… Như bảng liệt kê đây; - Đối với biến định tính nhiều dấu hiệu chọn độ đo Khi bình phương từ Counts; - Với biến nhị phân có độ đo chọn từ bảng liên tiếp 2x2, có nhiều độ đo khác Jaccard, Hamann,… Tuy độ đo Khi bình phương coi thơng dụng Tệp liệu lấy từ địa chỉ: http://mfe.neu.edu.vn/danh-muc/dulieu-phan-mem.html 42 Thí dụ 3.2: Các biến chọn làm sở phân lớp là: urban lifeexpf babymort gdp_cap calories lit_male phân lớp quốc gia tập liệu Wordl95.sav (các nước cận trung đông) CLUSTER urban lifeexpf babymort bdp_cap calories lit_male /METHOD BAVARAGE /MEASURE= SEUCLID /ID=country /PRIN SCHEDULE CLUSTER (3) /PLOT DENDROGRAM VICICLE - Kết phân lớp Agglomeration Schedule Stage Cluster First Cluster combined Stage Cluster Cluster Coefcien ts Appears Cluster Cluster Next stage 60 87 132931.3 0 52 53 293772.0 0 3 52 58 560322.0 60 64 797890.1 33 52 970878.7 6 33 99 5991379 7 33 60 2.3E+07 43 - Kết phân lớp chia quốc gia thành lớp Cluster Membership Case Clusters 33:Egypt 52:Iran 53:Iraq 58:Jordan 60:Kuwait 64:Libya 87:Saudi Arabia 99:Turkey 44 KẾT LUẬN Trên tồn nội dung khóa luận đề tài: “Phân tích lớp ứng dụng” Trong khóa luận này, em trình bày khái niệm toán phân lớp, phương pháp phân lớp với sử dụng phần mềm thống kê SPSS để phân tích kết Tuy nhiên, thời gian có hạn chưa có nhiều kinh nghiệm cơng tác nghiên cứu khoa học nên vấn đề mà em trình bày khóa luận khơng tránh khỏi thiếu sót Vì em mong nhận đóng góp ý kiến thầy bạn sinh viên để khóa luận em hồn thiện Trước kết thúc khóa luận này, lần em xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS Trần Trọng Nguyên tận tình hướng dẫn giúp đỡ em hồn thành khóa luận thầy Khoa Tốn Trường Đại học Sư phạm Hà Nội Em xin chân thành cảm ơn! 45 TÀI LIỆU THAM KHẢO Tiếng việt [1] Nguyễn Văn Hữu, Nguyễn Hữu Dư (2003), Phân tích thống kê dự báo (chương 6), NXB ĐHQG HN [2] Nguyễn Khắc Minh, Các phương pháp phân tích dự báo kinh tế (2002), NXB KH&KT [3] Ngô Văn Thứ, Nguyễn Mạnh Thế (2015), Thống kê thực hành (chương 11), NXB ĐHKTQD Tiếng anh [1] Dale J Piorier (1995), Intermediate statistics and econometrics [2] David W Hosmer and Stanley Lemeshow (1989), Applied Logistic Regression [3] Michel Volle (1994), Analyse des donnees, Economica Internet [1] http://www.mfe.edu.vn/thuvien/dulieu_phanmem 46 ... nghiệp là: “PHÂN TÍCH LỚP VÀ ỨNG DỤNG” Mục đích nghiên cứu ✓ Cơ sở lý thuyết độ đo khoảng cách ✓ Cơ sở lý thuyết phân tích lớp ✓ Ứng dụng phần mềm thống kê SPSS để giải toán phân tích lớp Đối tượng... cách phân lớp mà người sử dụng chọn số lớp họ cho phù hợp Với tập n cá thể người ta phân thành n, n – 1, n – 2, lớp mà lớp lồng vào lớp khác số lớp cần thiết theo nghĩa sau: Một phép chia k lớp. .. sree,hap(ree, Hap) ghép vào lớp: lớp = {ree, hap} Max{sij} = s1,tms(1, tms) ghép vào lớp: lớp = {ree, hap, tms} Max{sij} = s1,sam(1, sam) ghép vào lớp: lớp = {ree, hap, tms, sam} Kết phân nhóm với k