Phân tích chùm Cluster Analysis - CA là một phương pháp thống kê nhằm phânloại các đối tượng các biến sao cho mỗi đối tượng biến là rất giống so với cácđối tượng biến khác trong cùng một
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
NGUYỄN THỊ HUYỀN
PHÂN TÍCH THỐNG KÊ THỔ NHƯỠNG ĐẤT TRỒNG TRỌT CỦA HUYỆN THANH BA – PHÚ THỌ
LUẬN VĂN THẠC SĨ KHOA HỌC
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
NGUYỄN THỊ HUYỀN
PHÂN TÍCH THỐNG KÊ THỔ NHƯỠNG ĐẤT TRỒNG TRỌT CỦA HUYỆN THANH BA – PHÚ THỌ
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS TS HỒ ĐĂNG PHÚC
Trang 3Lời nói đầu 3
1.1 Các khái niệm cơ bản 5
1.1.1 Vectơ ngẫu nhiên 5
1.1.2 Tích vô hướng của hai vectơ 10
1.1.3 Chuẩn của một vectơ 10
1.1.4 Khoảng cách giữa hai vectơ 11
1.1.5 Các loại khoảng cách thường dùng 11
1.2 Phân tích chùm 13
1.2.1 Phân tích chùm là gì? 13
1.2.2 Khái quát phân tích chùm 14
1.2.3 Các bước của phân tích chùm 16
1.2.4 Kiểm tra độ phù hợp của sự phân nhóm 26
1.3 Phân tích thành phần chính 28
1.3.1 Cấu trúc của các thành phần chính 28
1.3.2 Các thành phần chính của các biến đã chuẩn hóa 34
1.3.3 Phân tích các thành phần chính dựa trên một mẫu 36
1.3.4 Các kết luận thống kê dựa trên mẫu lớn 38
2 Ứng dụng trong phân tích thổ nhưỡng đất trồng trọt của huyện Thanh Ba - Phú Thọ 40 2.1 Phần mềm trợ giúp việc tính toán 40
2.1.1 Giới thiệu chung 40
2.1.2 Phần mềm SPSS 40
2.1.3 Sử dụng SPSS trong phân tích chùm 41
2.1.4 Sử dụng SPSS trong phân tích thành phần chính 43
2.2 Số liệu thổ nhưỡng đất 46
2.2.1 Thổ nhưỡng đất 46
Trang 42.2.2 Sơ lược về điều tra đất 472.2.3 Một số vấn đề về phẫu diện đất tại Thanh Ba - Phú Thọ 472.3 Kết quả áp dụng phương pháp phân tích chùm 502.4 Kết quả áp dụng phương pháp phân tích thành phần chính 54
Trang 5Phân tích chùm (Cluster Analysis - CA) là một phương pháp thống kê nhằm phânloại các đối tượng (các biến) sao cho mỗi đối tượng (biến) là rất giống so với cácđối tượng (biến) khác trong cùng một nhóm dựa vào một vài tiêu chí đã được xácđịnh trước.
Phân tích thành phần chính (Principal Component Analysis - PCA) cũng là mộtphương pháp thống kê nhằm rút gọn số liệu, biểu diễn và giải thích tập các số liệudựa trên việc biến đổi phân tích cấu trúc của một ma trận hiệp phương sai củavectơ ngẫu nhiên thông qua việc phân tích các tổ hợp tuyến tính của các thànhphần của nó
Trong khuôn khổ thời gian cho phép của luận văn Thạc sĩ, mục tiêu chính của luậnvăn là tìm hiểu, hệ thống lại các kiến thức cơ bản có liên quan đến Phân tích chùm,Phân tích thành phần chính dưới góc độ cơ sở toán học và ứng dụng từ đó phântích trên một số liệu cụ thể Luận văn được chia làm hai chương:
Chương một đề cập đến một số kiến thức thống kê liên quan Các khái niệm cơ bảncủa lý thuyết xác suất thống kê liên quan đến Phân tích chùm và Phân tích thànhphần chính như vectơ ngẫu nhiên, khoảng cách giữa hai vectơ Sau đó là trình bàychi tiết về Phân tích chùm và Phân tích thành phần chính, là cơ sở toán học choứng dụng của luận văn
Chương hai đầu tiên là giới thiệu sơ lược về phần mềm trợ giúp việc tính toán, vềthổ nhưỡng đất Từ đó, đưa ra các kết luận cho số liệu thổ nhưỡng đất trồng trọtcủa huyện Thanh Ba - Phú Thọ Với kiến thức chuyên ngành chưa sâu sắc nên luậnvăn chỉ mới đưa ra được một số kết quả ban đầu Tuy nhiên, các kết quả có đượckhá phù hợp với phân tích chuyên ngành và thực tế
Trang 6Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo hướng dẫn - Phó giáo
sư, Tiến sĩ Hồ Đăng Phúc, người thầy đã động viên, giúp đỡ và hướng dẫn tôi tậntình trong quá trình hoàn thành luận văn
Tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trong tổ Xác suất Thống kê đã giúp đỡ tôi rất nhiều trong quá trình học tập cũng như làm luận văn.Đặc biệt, tôi xin gửi lời cảm ơn đến thầy giáo Lê Đức Vĩnh - Nguyên trưởng bộmôn Toán Trường Đại học Nông Nghiệp Hà Nội đã nhiệt tình giúp đỡ, cung cấp
-dữ liệu chính xác và một số kiến thức giúp tôi hoàn thành luận văn này
Cuối cùng là lời cảm ơn chân thành tới gia đình, bạn bè những người đã động viên,giúp đỡ tôi trong quá trình thực hiện luận văn
Hà Nội, tháng 02 năm 2012
Trang 7Một số kiến thức thống kê liên quan
1.1.1 Vectơ ngẫu nhiên
Vectơ ngẫu nhiên n chiều là một ánh xạ từ không gian mẫu Ω vào Rn Hay nói
cách khác, vectơ ngẫu nhiên X = (X1, , X n) là một vectơ mà mỗi thành phần
X1, , Xn của nó là một biến ngẫu nhiên
Ma trận ngẫu nhiên
Nếu X = (X i j)là ma trận cấp n × p mà các thành phần X i j của nó là các biến ngẫu
nhiên sẽ được gọi là ma trận ngẫu nhiên.
Vectơ trung bình và ma trận phương sai
Cho X = (X1, , X n)T là một ma trận ngẫu nhiên n ×1 Vectơ EX = (EX1, , EX n)T =
(μ1, , μn)T được gọi là vectơ giá trị trung bình Đại lượngσii = E(X i− μi)2, i =
1, , n được gọi là phương sai của X i;σi j = E(X i−μi )(X j−μi)vớiμi = E(X i), μj =
E(X j)được gọi là hiệp phương sai của hai biến X i và X j, dễ dàng nhận thấy
trong đó tổng chạy theo tất cả các x i (tương ứng x j) trong miền giá trịcủa các biến
ngẫu nhiên X i (tương ứng X j ) Nếu i j và σ i j = 0 thì các biến ngẫu nhiên X i và
X j được gọi là không tương quan.
X và X được gọi là độc lập nếu
Trang 8P(X i < x i , X j < x j) = P(X i < x i )P(X j < x j), ∀x i , x j ∈ R1.Đẳng thức đó tương đương với các đẳng thức sau
xi j fi j (x)dx Nếu X i j là biến ngẫu nhiên liên tục có hàm mật độ f i j (x i j)
Chú ý, nếu X i và X jđộc lập thìσi j = 0, điều ngược lại cũng đúng trong trường hợp
X i , X j có phân phối chuẩn
Ma trận hiệp phương sai: Kí hiệu
cov(X − μ)(X − μ) T = [E(X i− μi )(X j− μj)]
và gọi đó là ma trận hiệp phương sai của vectơ X Đặt = cov(X) = (σ
i j)khi đó
là ma trận đối xứng xác định không âm cấp n.
Hệ số tương quan và ma trận tương quan: Đại lượngρi j = σi j
Trang 9var(cX1) = E(cX1 − cμ1)2 = c2E(X1− μ1)2 = c2var(X1).
cov(aX1, bX2) = E(aX1 − aμ1 )(bX2 − bμ2)
Trang 10Một cách tổng quát, đối với tổ hợp tuyến tính C T X = c1 X1 + c2 X2 + + c n X n tacó
z q = c q1 X1 + c q2 X2 + + c qn X n.hoặc dưới dạng ma trận
EZ = CEX;Z = cov(Z) = cov(CX) = CX C T
Vectơ trung bình mẫu và ma trận hiệp phương sai mẫu
Xét véc tơ ngẫu nhiên X T = (X1, X2, , X p) Ta thực hiện n quan sát độc lập về
X T Giả sử quan sát lần thứ nhất ta thu được X1 = (x11, x12, , x1p), quan sát
lần thứ hai ta thu được X2 = (x21, x22, , x2p), , và quan sát thứ n ta thu được
Trang 11được gọi là hiệp phương sai mẫu.
Ma trận tương quan mẫu
Trang 121.1.2 Tích vô hướng của hai vectơ
Cho V là một không gian vectơ, một ánh xạ T : V × V −→ R được gọi là tích vô hướng xác định trong V nếu nó thỏa mãn các tiên đề sau:
1 T (u , u) ≥ 0 ∀ u ∈ V; T(u, u) = 0 khi và chỉ khi u = θ.
1 Trong một không gian vectơ có thể xác định nhiều tích vô hướng khác nhau
2 Mọi tích vô hướng đều được sinh bởi một ma trận đối xứng xác định dương
Q nào đó Ở đó Q là một ma trận vuông cấp n , Q gọi là ma trận đối xứng xác định dương nếu nó là ma trận đối xứng và xQx t > 0 ∀ x θ.
1.1.3 Chuẩn của một vectơ
Cho V là một không gian vectơ với tích vô hướng Chuẩn của vectơ x ∈ V là số
||x|| = √< x, x >.
Một số tính chất:
Trang 131 ||x|| ≥ 0; ||x|| = 0 ⇔ x = θ.
2 ||kx|| = |k|.||x||, ∀ k ∈ R, ∀ x ∈ V.
3 Bất đẳng thức Cauchy-Schwarz
Với hai vectơ x , y bất kỳ của V ta có: |< x, y >| ≤ ||x||.||y||.
4 Với mọi x , y ∈ V thì ||x + y|| ≤ ||x|| + ||y||.
Giả sử V là không gian vectơ với tích vô hướng, với mọi x , y θ thì từ BĐT
Cauchy-Schwarz ta có | < x, y > |
||x||.||y|| ≤ 1 nên tồn tại ϕ ∈ [0; π] sao cho cosϕ =
< x, y >
||x||.||y|| khi đó ta nói ϕ là góc giữa hai vectơ khác không x và y.
1.1.4 Khoảng cách giữa hai vectơ
Khoảng cách giữa hai vectơ x và y của không gian vectơ V với tích vô hướng là số
d(x , y) = ||x − y|| Từ định nghĩa khoảng cách ta có ngay các tính chất sau:
1.1.5 Các loại khoảng cách thường dùng
Xét hai véc tơ x = (x1, , x n)T và y = (y1, , y n)T Sau đây là các khoảng cáchthường dùng để đo sự "gần nhau" giữa hai đối tượng
Trang 14d52(x , y) = (x − y) T A(x − y) trong đó A là ma trận xác định dương.
Khoảng cách Mahalanobis
d6(x , y) = (x − y) T −1
(x − y) Khoảng cách giữa các tập con rời nhau
Cho tập A = {a1, , a n } với a i = (x i1 , , x in) khi đó C(A) = C1, C2, , C m được
gọi là phân hoạch bậc m của tập hợp A nếu thỏa mãn ba điều kiện sau:
Mỗi C i ∈ C(A) còn được gọi là một lớp của phân hoạch C(A) Số phần tử n i của
lớp C i được gọi là lực lượng của lớp C i
Gọi c i là trọng tâm của lớp C i , c j là trọng tâm của lớp C j
Ta có các khoảng cách xác định trong C(A) như sau:
1 D1 (C i , C j) = min d(a, b) với a ∈ C i , b ∈ C j
2 D2 (C i , C j) = max d(a, b) với a ∈ C i , b ∈ C j
Trang 155 D5 (C i , C j) = (c j − c i)T −1
(c j − c i).Chú ý:
1 Các D i nói chung không phải là một metric mà chỉ là một siêu metric
2 Trong định nghĩa khoảng cách giữa các tập con rời nhau thì d có thể là
d1, d2, d3, d4, d5, d6.
1.2.1 Phân tích chùm là gì?
Phân tích chùm là tên của những kỹ thuật nhiều biến mà mục đích chính của chúng
là phân loại các thực thể tương tự từ những đặc trưng của chúng Với một vài tiêuchí lựa chọn đã được xác định trước chúng ta xác định và phân loại các đối tượng(các biến) sao cho mỗi đối tượng (biến) là rất giống so với các đối tượng (biến)khác trong cùng một nhóm Việc phân nhóm như vậy sẽ chỉ ra có tính thuần nhấtcao trong mỗi nhóm, tính khác biệt cao giữa các nhóm Như vậy, nếu phân loại làthành công, các đối tượng trong cùng một nhóm sẽ gần nhau hơn nếu được biểudiễn một cách hình học, trong khi các đối tượng trong các nhóm khác nhau sẽ xanhau hơn
Phân tích chùm còn được gọi là Q-phân tích, phân loại, phân tích phân loại hoặcphân loại số học Sự đa dạng trong tên gọi này là vì phương pháp phân nhóm được
sử dụng trong nhiều lĩnh vực khác nhau chẳng hạn như tâm lý học, sinh học, xã hộihọc, kinh tế, kỹ thuật, và thương mại Mặc dù có nhiều tên gọi khác nhau, nhưngchúng có một đặc điểm chung đó là sự phân loại gắn liền với mối quan hệ trong
tự nhiên của các đối tượng Đặc điểm này chính là yêu cầu cần thiết của tất cảcác cách tiếp cận phân loại nhóm Như vậy, giá trịchính của phân loại nhóm nằmtrong đặc điểm tương đồng tự nhiên của dữ liệu
Phân tích chùm là một công cụ hữu ích cho phân tích số liệu trong nhiều tìnhhuống khác nhau Ví dụ, một nhà nghiên cứu người đã sưu tập số liệu với sự giúp
đỡ của một bộ câu hỏi trắc nghiệm có thể đối mặt với một số lượng lớn của những
Trang 16đối tượng vô nghĩa trừ khi chúng được phân loại vào trong các nhóm có thể điềukhiển Phân tích chùm có thể được sử dụng để thực hiện quá trình rút gọn số liệumột cách có mục đích bởi giảm thông tin từ một đám đông hoặc một tập lớn vềthông tin của các nhóm con cụ thể nhỏ hơn Trong cách này, các nhà nghiên cứu
có một các diễn đạt ngắn gọn hơn, dễ hiểu hơn của những đối tượng với sự mấtmát tối thiểu của thông tin
Phân tích chùm cũng là hữu ích khi một nhà nghiên cứu hy vọng phát triển nhữnggiả thuyết có liên quan đến tính tự nhiên của dữ liệu hoặc để kiểm tra những giảthuyết đã được đề cập trước đó Ví dụ một nhà nghiên cứu có thể tin rằng thái độhướng tới sự tiêu thụ của bia nhẹ so với bia nặng có thể được sử dụng để chia táchkhách hàng thành những nhóm một cách hợp logic Phân tích chùm có thể được sửdụng để đưa ra được thông tin hữu ích về sự giống nhau và khác nhau của các cáthể điển hình trong mỗi nhóm
Hai ví dụ kể trên chỉ là một phần nhỏ trong các kiểu ứng dụng của phân tích chùm.Trong sinh học cho phép ghép nhóm tất cả các sinh vật tới sự phân loại tâm lý dựatrên đặc tính cá nhân hay như phân tích thịphần của các nhà kinh tế, phân tíchchùm luôn là một công cụ mạnh cho việc ghép nhóm các cá thể Công cụ này cóthể được mở rộng tới phân loại các đối tượng bao gồm cấu trúc thịtrường, phântích sự giống nhau và khác nhau giữa những sản phẩm mới và những sự đánh giáthực thi của thương hội để xác định ghép lớp dựa vào các định hướng chiến lược.Kết quả có thể là một sự bùng nổ các ứng dụng trong hầu hết các lĩnh vực, tạo rakhông chỉ là sự hiểu biết thành thạo về việc sử dụng phân tích chùm, mà còn là sựcần thiết cho một sự hiểu biết sâu hơn để giảm thiểu những sai số có thể mắc phải
1.2.2 Khái quát phân tích chùm
Để minh họa tính tự nhiên của phân tích chùm, ta lấy một ví dụ hai biến Giả sửmột nhà nghiên cứu thịtrường phải xác định các phân khúc thịtrường được kết nốigần gũi trong một cộng đồng nhỏ Hơn nữa, giả sử rằng một mẫu ngẫu nhiên củađám đông đã được lựa chọn và thông tin được xếp vào bảng theo hai tiêu chí sau:
1 Trình độ học vấn
2 Sự trung thành đối với thương hiệu
Trang 17Tất cả những câu trả lời được đánh dấu trên đồ thịphân tán như Hình 1.1 Khảosát Hình 1.1 chỉ ra rằng tồn tại một mối quan hệ cụ thể nào đó Cụ thể là, nhà
Hình 1.1:
nghiên cứu có thể vẽ một cách đơn giản một đường chia thành hai nhóm sao chocác điểm trong mỗi nhóm là gần giống nhau Trong thuật ngữ của phân tích nhóm,nhà nghiên cứu đã xác định hai nhóm phân biệt với hệ số tương quan trung bìnhgiữa các cá thể trong mỗi nhóm khoảng 0.75 Hơn nữa, nếu nhà nghiên cứu xemxét sự đại diện hữu ích của mỗi nhóm, có thể xác định được rằng hai nhóm làkhông tương quan hoặc thậm chí là tương quan âm; nghĩa là, chúng là khá khácnhau
Trong trường hợp hai biến khái niệm này là đơn giản vì dữ liệu được xắp xếp dướidạng hai chiều Tuy nhiên, trong hầu hết các nghiên cứu về thịtrường, mỗi thựcthể được đo trên nhiều hơn hai biến và tình huống là phức tạp hơn nhiều
Để minh họa một tình huống phức tạp như vậy ta có thể xét các biến có liên quan
có thể là định lượng, chẳng hạn, cân nặng, chiều cao, thu nhập, tuổi, hoặc các biến
có thể là định tính, chẳng hạn, tôn giáo, quốc tịch, chủng tộc, giới tính hoặc chúng
có thể là một vài sự kết hợp của cả hai loại trên Nhưng bất kể là tình huống nàothì sự sử dụng của phân tích chùm sẽ trở nên phức tạp hơn khi nhiều biến hơn đượcthêm vào hoặc khi trộn các tập dữ liệu với các biến định lượng và định tính
Trang 181.2.3 Các bước của phân tích chùm
Trong thực hành, phân tích chùm có thể được chia làm ba giai đoạn chính: tiếpcận vấn đề, định danh các nhóm, và chứng minh tính đúng đắn và đưa ra thông tinhữu ích Giai đoạn tiếp cận vấn đề là quá trình của việc xác định có hay không cómột cách phân nhóm và cách thức các nhóm có thể được phát triển Giai đoạn địnhdanh các nhóm là quá trình tìm hiểu các đặc trưng của mỗi nhóm và đưa ra mộttên hoặc nhãn mà xác định một cách chính xác tính tự nhiên của nhóm đó Giaiđoạn thứ ba có liên quan đến việc đánh giá tính đúng đắn của việc phân nhóm (ví
dụ, xác định tính ổn định và tính tổng quát của nó) cùng với việc diễn tả các đặctrưng của mỗi nhóm
Bước 1: Tiếp cận vấn đề
Trong suốt bước này, bốn câu hỏi chính cần được xem xét kỹ lưỡng: Các biến được
sử dụng trong tính toán sự giống nhau giữa các nhóm là gì? Sự giống nhau bêntrong nhóm nên được đo như thế nào? Trong các nhóm, thuật toán nào nên được
sử dụng để hoán đổi các đối tượng tương tự? Nên tạo ra bao nhiêu nhóm? Nhiềucách tiếp cận có thể được sử dụng để trả lời những câu hỏi này, nhưng không cáchnào là tuyệt đối để đưa ra được một câu trả lời xác định cho mọi vấn đề Hơn nữa,những cách tiếp cận trên có thể cho ra những câu trả lời khác nhau cho cùng mộttập dữ liệu Như vậy phân tích chùm, cùng với phân tích nhân tố giống nghệ thuậtnhiều hơn là giống khoa học Bởi lý do này, chúng ta chỉ thảo luận những vấn đềmang tính tổng quát nhất mà không tập trung vào những hạn chế lý thuyết cũngnhư thực hành của chúng
Lựa chọn biến trong phân tích chùm phải được hoàn thành với sự xem xét cẩn thận
cả yếu tố lý thuyết lẫn thực hành Giúp đưa ra một cách phân nhóm phù hợp nhấtđối với các đối tượng thông qua tất cả các biến Nhà nghiên cứu phải nhận ra sựquan trọng của việc lựa chọn chỉ những biến mà thể hiện đặc trưng các đối tượngđược phân nhóm, và gắn kết sự lựa chọn đó với các mục tiêu của phân tích chùm
Kỹ thuật phân tích chùm không có nghĩa là chỉ ra sự khác nhau của các biến cóliên quan với các biến không liên quan Nó chỉ phát triển từ các nhóm phù hợpnhất của các đối tượng thông qua tất cả các biến
Trong một cách thức thực hành cụ thể, phân tích chùm có thể bịảnh hưởng một
Trang 19cách rõ rệt bởi sự lựa chọn của chỉ một hoặc hai biến không thích hợp Nhà nghiêncứu nên xem xét các kết quả và bỏ đi các biến không có tác dụng phân biệt cácnhóm đã được xây dựng Phương thức này xem xét hoặc lựa chọn các kỹ thuậtphân nhóm để xác định một cách cực đại các nhóm dựa trên chỉ những biến có thểhiện sự khác nhau.
Tính tương đồng bên trong các nhóm có thể được đo bởi nhiều cách khác nhau.Một cách là xem xét tính xấp xỉ hoặc gần nhau của mỗi cặp đối tượng để xác địnhtính tương đồng giữa chúng Vì khoảng cách là khái niệm đo tính không tươngđồng, một cách khác khoảng cách là thước đo sự khác nhau giữa các đối tượngtrong một cặp
Thuật toán phân nhóm
Câu hỏi thứ hai cần được trả lời trong giai đoạn tiếp cận vấn đề này là phương thứcnào nên được sử dụng để hoán đổi các đối tượng tương tự trong các nhóm? Nghĩa
là thuật toán nhóm nào hay bộ các quy tắc nào là chính xác nhất? Đây là một vấn
đề không đơn giản vì đã có hàng trăm chương trình máy tính đang sử dụng cácthuật toán khác nhau và nhiều chương trình đang được phát triển Tuy nhiên, tiêuchí quan trọng của tất cả các chương trình là cực đại sự khác biệt giữa các nhóm
so với sự khác biệt trong nội bộ các nhóm (Hình 1.2 minh họa điều này) Thuậttoán nhóm được sử dụng chung nhất có thể được chia làm hai nhóm chung là phânchùm có thứ bậc và phân chùm không có thứ bậc Chúng ta sẽ thảo luận kỹ thuậtphân bậc trước
Hình 1.2:
Trang 20Phương pháp phân nhóm có thứ bậc
Phương pháp phân nhóm có thứ bậc liên quan đến sự xậy dựng một cấu trúc phânbậc hay hình cây Có hai kiểu cơ bản của phương pháp phân nhóm có thứ bậc làcộng gộp và chia tách Trong phương pháp cộng gộp, mỗi đối tượng khởi đầu vớinhóm của chính nó Trong các bước tiếp theo, hai nhóm (cá thể) gần nhau nhấtđược kết hợp vào trong một nhóm mới như vậy giảm số nhóm sau mỗi bước xuốngmột đơn vị Trong một số trường hợp, một cá thể thứ ba tham gia với hai cá thểđầu tiên trong một nhóm Trong một số trường hợp khác, nhóm khác của hai cáthể tham gia cùng nhau để tạo một nhóm mới Cuối cùng là, tất cả các cá thể đượcghép nhóm vào trong một nhóm lớn hơn; bởi lý do này, phương pháp cộng gộpthỉnh thoảng được liên hệ tới các phương pháp xây dựng từ dưới lên Quá trình nàyđược chỉ ra trong Hình 1.3; và được gọi là một biểu đồ hoặc một đồ thịcây
Khi quá trình nhóm được thực hiện theo chiều ngược lại của phương pháp cộnggộp, nó được gọi là chia tách Trong phương pháp này, chúng ta bắt đầu với mộtnhóm lớn chứa tất cả các đối tượng Trong các bước kế tiếp, các đối tượng mà khácnhau nhất được phân tách và nhóm ban đầu được tách thành hai nhóm nhỏ hơn.Quá trình này kết thúc cho đến khi mỗi đối tượng trở thành một nhóm của chính
nó Trong Hình 1.3 phương pháp thứ nhất sẽ đi từ trái qua phải và phương pháp thứhai đi từ phải qua trái Vì phần lớn các phần mềm liên quan đều sử dụng phươngpháp thứ nhất nên chúng ta sẽ không thảo luận phương pháp thứ hai thêm nữa
Hình 1.3:
Trang 21Năm phương pháp cộng gộp phổ biến được sử dụng để phát triển nhóm là: Liên kếtđơn, liên kết hoàn thành, liên kết trung bình, phương pháp Ward và phương phápđiểm trung tâm Những phương pháp này khác nhau trong cách thức tính khoảngcách giữa các nhóm.
Phương pháp liên kết đơn được xây dựng dựa trên khoảng cách nhỏ nhất Nó tìm
ra hai các thể tách biệt bởi khoảng cách ngắn nhất và thay thế chúng trong nhómthứ nhất Tiếp theo khoảng cách ngắn nhất được tìm thấy và hoặc là một cá thể thứ
ba được tham gia vào nhóm hai cá thể kể trên để tạo thành một nhóm hoặc là mộtnhóm gồm hai cá thể mới sẽ được hình thành Quá trình này tiếp tục cho đến khitất cả các cá thể được ghép nhóm Phương pháp này còn được gọi là tiếp cận lâncận gần nhất
Khoảng cách của hai nhóm trong phương pháp này chính là khoảng cách bé nhấttrong các khoảng cách từ một cá thể tùy ý của nhóm này đến một cá thể tùy ý củanhó kia Hai nhóm được kết hợp tại bất kỳ bước nào bởi liên kết ngắn nhất (haymạnh nhất) giữa chúng Tuy nhiên, vấn đề xuất hiện khi các nhóm được diễn tả,giải thích một cách nghèo nàn Trong những trường hợp như vậy, phương pháp liênkết đơn tạo ra một dây chuyền dài giống hình con rắn, và cuối cùng là tất cả các
cá thể được liên kết trong một dây chuyền Các cá thể tại các đầu mút của một dâychuyền có thể là rất khác nhau Một ví dụ của sự xắp xếp này được minh họa trongHình 1.4
Hình 1.4:
Trang 22Phương pháp liên kết hoàn toàn là gần tương tự như liên kết đơn ngoại trừ rằngtiêu chí nhóm được xây dựng dựa trên khoảng cách cực đại Vì lý do này, nó thỉnhthoảng được liên hệ đến sự tiếp cận lân cận xa nhất Đây là một phương phápđường kính Khoảng cách xa nhất của bất kỳ hai cá thể trong một nhóm đại diệnhình cầu bé nhất mà chứa nhóm đó Phương pháp này được gọi là liên kết hoànthành bởi vì tất cả các đối tượng trong một nhóm được liên kết với đối tượng kháctại một vài khoảng cách cực đại hoặc bởi tính tương tự cực tiểu Chúng ta có thểnói rằng tính tương tự trong nhóm là bằng đường kính nhóm Phương pháp nàykhử vấn đề con rắn được xác định với liên kết đơn.
Tuy nhiên vấn đề của khoảng cách độ đo giữa các nhóm vẫn nảy sinh Hình 1.5chỉ ra cách khoảng cách ngắn nhất và khoảng cách dài nhất có thể không đại diệnđúng tính tương tự giữa các nhóm
Trang 23Trong phương pháp của Ward, khoảng cách của hai nhóm là tổng của các bìnhphương giữa hai nhóm được lấy tổng trên tất cả các biến Tại mỗi bước trongphương pháp nhóm, tổng các bình phương trong nhóm được cực tiểu trên tất cảcác phần, có thể nhận được bởi kết hợp hai nhóm từ bước trước Phương pháp nàydẫn tới kết hợp các nhóm với một số lượng nhỏ của các đối tượng.
Trong phương pháp điểm trung tâm khoảng cách giữa hai nhóm là khoảng cách(thường là khoảng cách Euclide) giữa các điểm trung tâm của chúng Trong phươngpháp này, tại mỗi thời điểm mà các cá thể được ghép nhóm thì một điểm trung tâmmới được xác định Các điểm trung tâm nhóm di chuyển khi sự sát nhập nhómdiễn ra Nói một cách khác, có sự thay đổi trong một điểm trung tâm của nhóm,tại mỗi thời điểm một cá thể mới hoặc một nhóm mới được thêm vào một nhóm
đã tồn tại Phương pháp này là phổ biến đối với các nhà sinh học nhưng có thể đưa
ra các kết quả nhầm lẫn Ưu điểm của phương pháp này là nó bịảnh hưởng bởi cácyếu tố bên ngoài ít hơn so với các phương pháp phân bậc khác
Nên được chú ý rằng phương pháp điểm trung tâm yêu cầu dữ liệu định lượng,điều này hạn chế ứng dụng của nó trong các ngành khoa học xã hội
Phương pháp phân nhóm không thứ bậc
Tương phản với phương pháp phân nhóm có thứ bậc, phương pháp phân nhómkhông thứ bậc không liên quan tới quá trình xây dựng cây phân loại Thay vào đó,bước đầu tiên là chọn lựa tâm của nhóm, sau đó đưa tất cả các đối tượng nằm cách
xa không quá một ngưỡng khoảng cách xác định trước vào nhóm Phương phápnày có thể liên tưởng đến phương pháp ghép nhóm theo K-trung bình
Kỹ thuật ghép nhóm không thứ bậc thường sử dụng một trong ba cách tiếp cậnsau: Phương thức ngưỡng tuần tự bắt đầu với lựa chọn một đối tượng ”hạt giống”của nhóm, tất cả các đối tượng nằm cách điểm hạt giống không quá một khoảngcách xác định trước được đưa vào nhóm Tiếp đó, xác định đối tượng hạt giống củanhóm thứ hai và đưa các đối tượng trong vòng khoảng cách đến điểm hạt giốngkhông vượt quá ngưỡng cho trước vào nhóm thứ hai này Quá trình trên được tiếptục theo nguyên tắc khi một đối tượng đã được ghép nhóm với một hạt giống thì
nó không được ghép nhóm với hạt giống khác nữa
Ngược lại, phương thức ngưỡng song song lựa chọn đồng thời một số hạt giống
Trang 24khi bắt đầu quy trình Tiếp đó, các đối tượng nằm trong ngưỡng khoảng cách đượcgán tới hạt giống gần nhất Khi quá trình tiến hành, ngưỡng khoảng cách có thểthay đổi để tăng hoặc giảm số lượng các đối tượng trong mỗi nhóm Như vậy, trongthực hành, có thể xảy ra trường hợp một số đối tượng sẽ không được ghép nhómnếu chúng nằm ngoài ngưỡng khoảng cách cho trước so với bất kỳ hạt giống nhómnào.
Phương thức thứ ba liên quan tới mục tiêu tối ưu hóa, tương tự như hai phươngthức trên ngoại trừ việc ghép lại đối tượng từ nhóm này sang nhóm khác được thựchiện dựa trên những tiêu chí tối ưu đã định
Vấn đề chính mà các phương thức phân nhóm không thứ bậc gặp phải là cách thứclựa chọn hạt giống hay các hạt giống nhóm Ví dụ, với một sự lựa chọn ngưỡngsong song kết quả nhóm cuối cùng phụ thuộc vào thứ tự của các đối tượng trongtập hợp dữ liệu và nếu như thứ tự thay đổi sẽ ảnh hưởng tới kết quả Việc cụ thểcác hạt giống nhóm giống ban đầu trong phương thức ngưỡng song song có thểhạn chế vấn đề này, nhưng quá trình lựa chọn hạt giống vẫn có thể ảnh hưởng tớikết quả và do đó không thể khử hết được vấn đề này
Bao nhiêu nhóm nên được kiến tạo?
Một vấn đế chính với tất cả kỹ thuật ghép nhóm là bao nhiêu nhóm nên được kiêntạo Có nhiều tiêu chí và hướng dẫn cho sự tiếp cận vấn đề này Tuy nhiên, khôngtiêu chuẩn, phương thức là chung cho tất cả các bài toán Khoảng cách giữa cácnhóm tại các bước kế tiếp có thể cung cấp hướng dẫn hữu ích để lựa chọn thời điểmdừng lại khi mà khoảng cách này đạt tới một giá trịcho trước hoặc khi khoảng cách
kế tiếp giữa các bước tạo ra một bước nhảy vọt Cũng vậy, những hiểu biết lý thuyết
có thể gợi ý để lựa chọn số lượng các nhóm Tuy nhiên, trong phân tích cuối, cóthể xem xét lời giải cho một vài số lượng khác nhau của các nhóm (ví dụ hai, ba,hoặc bốn) và sau đó quyết định lựa chọn dựa trên một tiêu chí có trước, hợp lýtrong thực hành hoặc nền tảng lý thuyết
Trang 25ví dụ về bia ở trên Giả sử rằng một thang thái độ được sử dụng mà đã chứa cáckhẳng định xem xét sự tiêu dùng của bia Các cá nhân được hỏi để đánh giá nhữngkhẳng định này trên một thang 7 điểm Ví dụ của các khẳng định là “Bia nhẹ có vị
dễ chịu”, hoặc là bia thông thường có mùi mạnh, v.v Giả sử xa hơn rằng dữ liệutiêu dùng và nhân khẩu đã được sưu tập
Khi khởi động quá trình định danh các nhóm, một độ đo được sử dụng một cáchthường xuyên là điểm trung tâm của nhóm (giá trịtrung bình của các đối tượngđược chứa trong nhóm trên mỗi một biến) Nếu phương thức nhóm được thực hiệntrên dữ liệu nguyên bản, điều này sẽ là một sự diễn tả hợp logic Nếu dữ liệu đãđược chuẩn hóa, hoặc nếu phân tích nhóm được thực hiện sử dụng các thành phầnphân tích nhân tố, ta sẽ phải quay trở lại tới dữ liệu nguyên bản cho các giá trịgốc
và tính các thông tin hữu ích trung bình sử dụng những giá trịnày
Bước 3: Đánh giá và đưa ra thông tin hữu ích
Đánh giá bao gồm các nỗ lực bởi những nhà phân tích để đảm bảo rằng các nhóm
là đại diện cho đám đông, tổng quát tới các đối tượng khác và ổn định trong mộtthời gian Sự tiếp cận trực tiếp nhất của hướng này là phân tách các mẫu, so sánhlời giải nhóm và đánh giá sự tương ứng của các kết quả Tuy nhiên cách tiếp cậnnày thường là khó thực hành bởi vì thời gian, chi phí, hoặc tính sẵn có của đốitượng cho phân tích nhóm nhiều chiều Trong những ví dụ này một sự tiếp cậnchung là phân tách mẫu thành hai nhóm Mỗi nhóm được phân tích nhóm mộtcách tách biệt, sau đó các kết quả được đem ra so sánh Một dạng đã chỉnh sửa là
để nhận các tâm nhóm từ một nhóm và sử dụng chúng với các nhóm còn lại để xácđịnh các nhóm cần ghép, sau đó so sánh kết quả giữa hai nhóm trên
Việc phân nhóm có thứ bậc kết nối một tập gồm N phần tử có các bước như sau:
1 Bắt đầu với N nhóm, mỗi nhóm chứa một phần tử, lập ma trận các khoảng cách cấp N là D = (d ik)
2 Tìm một ma trận khoảng cách của các cặp các nhóm gần nhất Giả sử khoảng
cách giữa hai nhóm gần nhất U , V là d UV
3 Gộp nhóm U với nhóm V, kí hiệu nhóm mới là (UV) Lập các phần tử của
ma trận khoảng cách mới bằng cách
Trang 26+) Loại các hàng và cột tương ứng với nhóm U , V.
+) Thêm vào một hàng và một cột gồm các khoảng cách từ nhóm (UV) đến
Sau đây là ví dụ về phân nhóm có thứ bậc theo liên kết đơn
Ví dụ 1.2.1 Khi tìm hiểu về mối liên hệ giữa các giống lúa, thời gian sinh trưởng
và đặc điểm hình thái của 16 dòng lúa trong vụ mùa năm 2009 tại Gia Lâm - HàNội Với bảng số liệu sau:
Dong Thoigian caocay caobong dailadong rongladong gocla
Ma trận khoảng cách của các đối tượng là
Trang 271 2 3 4 5 6 1
12(56)
Trang 28Thứ 3: Khoảng cách ngắn nhất trong ma trận trên là d(34,56) Vậy ta lại tiếp túc gộp(3456) thành một nhóm.
d(3456 ,1) = min(d(341), d(561)) = 368.8956;
d(3456,2) = min(d(342), d(562)) = 289.2851
Ta được
(3456) 1 2(3456)
12
1.2.4 Kiểm tra độ phù hợp của sự phân nhóm.
Một trong các tính chất mà ta mong muốn khi tiến hành phân nhóm các đối tượng
là thu được các nhóm càng tách biệt nhau càng tốt Để áp dụng tiêu chuẩn thống
kê khi khảo sát sự tách biệt giữa các nhóm ta làm các bước sau:
1 Thực hiện việc so sánh từng cặp nhóm
Ta xét hai nhóm là N1 và N2 đã được tách biệt, mỗi nhóm chứa n1 và n2 phần tử
tương ứng Giả sử (x1 j, x2 j, , x k j), j = 1, n1 là các biến đặc trưng cho phần tử
Trang 29thứ j của nhóm N1 và (y1 j , y2 j, , y k j), j = 1, n2 là các biến đặc trưng cho phần
Trang 302 Nếu hai nhóm không tách biệt nhau một cách có ý nghĩa thì thông thường
ta phải tiến hành tách nhóm lại thành một số ít nhóm hơn hoặc nhập hai nhóm đóthành một nhóm
1.3 Phân tích thành phần chính
Giả sử chúng ta có các quan sát về p biến ngẫu nhiên Chúng ta tìm cách đơn giản tình hình, xem khi nào có thể tìm được p biến mớiξ1, ξ2, , ξp không tương quanvới nhau, được biểu diễn tuyến tính qua các biến cũ và không làm mất thông tin vềcác biến ban đầu Phân tích thành phần chính là nhằm mục đích như vậy Nó dựavào phân tích cấu trúc của một ma trận hiệp phương sai Σ của vectơ ngẫu nhiên
X thông qua việc phân tích các tổ hợp tuyến tính của các thành phần của nó Mụctiêu cơ bản của phân tích thành phần chính là
1 Rút gọn số liệu
2 Biểu diễn và giải thích tập các số liệu
Ta đã biết rằng, mỗi ma trận phương sai sinh ra một dạng toàn phương xác địnhkhông âm Phân tích thành phần chính là đưa dạng toàn phương này về trục chính
và sắp xếp các trục theo thứ tự giảm dần của các vectơ riêng
Việc phân tích thành phần chính nhằm phát hiện ra các mối quan hệ ẩn trong cácthành phần và cho phép giải thích các mối quan hệ đó
1.3.1 Cấu trúc của các thành phần chính
Cho vectơ ngẫu nhiên k chiều X = (X1, , X k) ∈ Rk có ma trận hiệp phương sai
cov(X) = Σ Ta có thể coi μ = E(X) = 0, nếu μ 0, ta có thể thay X bởi X − μ.
Trang 31D(Y k) = D((a∗
k)T X) = max{a T
k Σa k : a T k a k = 1; (a∗
i)T a k = 0}, ; ∀i = 1, k − 1.
Định nghĩa 1.3.1 Các đại lượng Y i = (a∗
i)T X thỏa mãn điều kiện (∗) hoặc (∗∗)
được gọi là thành phần chính thứ i của vectơ X với ma trận hiệp phương sai
cov(X) =
Mệnh đề 1.3.2 Cho vectơ X có cov(X) = Giả sử (λ1, e1), , (λk , e k) là k cặp
giá trịriêng và vectơ riêng của
sao cho λ1 ≥ λ2 ≥ ≥ λk Khi đó thành phần
chính thứ i của vectơ X được xác định bởi
Y i = e i X , i = 1, k,
và với việc chọn như vậy ta có
D(Y i) = λi , cov(Y i , Y j) = 0, ∀i, j = 1, k.
Để chứng minh Mệnh đề 1.3.2 trước hết ta có bổ đề sau