Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
757,74 KB
Nội dung
Mục lục Lời nói đầu iii Khái quát chung dạng nhận dạng 1.1 Khái niệm dạng nhận dạng 1.1.1 Khái niệm dạng, lớp dạng 1.1.2 Khái niệm nhận dạng: 1.2 Không gian mẫu cách tiếp cận nhận dạng 1.3 Một số ứng dụng nhận dạng: 1.3.1 Nhận dạng giọng nói 1.3.2 Nhận dạng chữ viết tay 1.3.3 Dự báo thời tiết 1.3.4 Phân tích điện tâm đồ để chẩn đoán hoạt động tim 1.3.5 Phân tích y học chụp tia X-quang 1.3.6 Làm rõ ảnh chụp từ vệ tinh khoảng không 1.4 Học có hướng dẫn hướng dẫn Phân tích phân cụm thuật toán phân cụm 2.1 Phân tích phân cụm 2.1.1 Khái niệm phân cụm 2.1.2 Ứng dụng phân cụm 2.1.3 Các yêu cầu phân tích phân cụm 2.2 Các độ đo thường sử dụng phân tích phân cụm 2.2.1 Độ đo gần gũi 2.2.2 Khoảng cách hai cụm (interset) khoảng cách nội cụm (intraset) 2.3 Phân cụm trường hợp số lớp chưa biết 2.3.1 Thuật toán sử dụng phương pháp trực quan 2.3.2 Thuật toán Batchelor Wilkins i 1 2 7 8 11 11 11 13 13 15 15 17 19 19 21 2.4 25 25 34 36 40 41 45 48 Chương trình ứng dụng thuật toán ISODATA 3.1 Nêu lại ví dụ: 3.2 Các trường hợp tính toán 52 52 52 2.5 2.6 Phân cụm trường hợp biết số lớp 2.4.1 Thuật toán ISODATA 2.4.2 Thuật toán ISODATA hiệu chỉnh 2.4.3 Thuật toán K-means Thuật toán K*-means 2.5.1 Độ đo cho phân cụm liệu 2.5.2 Thuật toán K*-means Kết thực nghiệm Kết luận 59 Tài liệu tham khảo 60 ii Lời nói đầu Cuộc sống ngày đại, khoa học công nghệ ngày phát triển đạt nhiều thành tựu to lớn, phục vụ thiết thực cho sống người Trong thành tựu không nhắc tới công nghệ nhận dạng Công nghệ nhận dạng sử dụng khả tính toán máy tính để xử lý khối lượng liệu lớn thành thông tin cần thiết dựa vào trình nhận dạng người Nhờ công nghệ nhận dạng bạn điều khiển đồ vật nhà không cần tay mà giọng nói, hay bạn tra thìa khóa vào ổ để mở cửa mà cần đặt tay vào máy nhận dạng cửa tự động mở, v.v Còn vô số ứng dụng mà bạn ngờ tới tương lai không xa Công nghệ sống, điều thật thú vị phải không? Đó lí chọn đề tài "Các thuật toán phân tích phân cụm ứng dụng" Không sâu vào nghiên cứu ứng dụng cụ thể nhận dạng mà luận văn tập trung vào ba chương chính: Chương 1: Nêu khái quát chung nhận dạng, bao gồm khái niệm dạng, lớp dạng khái niệm nhận dạng, với ứng dụng nhận dạng Qua cung cấp cho cách nhìn tổng quan nhận dạng Chương 2: Đây nội dung luận văn Chương gồm ba phần: • Phần đầu mục "phân tích phân cụm" bao gồm khái niệm phân cụm, ứng dụng phân cụm, số yêu cầu phân cụm • Giới thiệu số độ đo thường sử dụng phân tích phân cụm • Trình bày số thuật toán phân cụm liệu trường hợp: chưa biết trước số lớp biết trước số lớp Phần tập trung vào trình bày thuật toán quan trọng phân tích phân cụm, thuật toán ISODATA thuật toán K-means, phân tích ưu nhược iii điểm chúng giới thiệu thuật toán cải biên K*-means nhằm khắc phục nhược điểm Chương 3: Xây dựng chương trình ứng dụng minh họa cho thuật toán ISODATA, có ứng dụng thuật toán ISODATA để phân cụm liệu với số liệu đầu vào cho trước, đồng thời trình bày thuật toán sinh số liệu phân phối chuẩn hai chiều qua mô từ áp dụng thuật toán ISODATA để phân cụm liệu vừa sinh Qua đây, xin gửi lời cảm ơn sâu sắc đến người thầy, người hướng dẫn khoa học mình, TS Nguyễn Hữu Tiến, người đưa đề tài tận tình hướng dẫn suốt trình nghiên cứu Đồng thời xin gửi lời cảm ơn sâu sắc đến thầy cô khoa Toán - Cơ - Tin học trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, dạy bảo tạo điều kiện cho tài liệu thủ tục hành để hoàn thành luận văn Cuối xin gửi lời cảm ơn chân thành đến gia đình, bạn bè động viên giúp đỡ trình thực luận văn Do thời gian trình độ hạn chế, chắn luận văn tránh khỏi thiếu sót, mong nhận bảo tận tình thầy cô bạn bè đồng nghiệp, xin chân thành cảm ơn! Hà Nội, ngày 20 tháng 11 năm 2010 Học viên Lê Đăng Điển iv Chương Khái quát chung dạng nhận dạng 1.1 1.1.1 Khái niệm dạng nhận dạng Khái niệm dạng, lớp dạng Khái niệm dạng: Chúng ta nói dạng thường đề cập đến đối tượng cá thể mà ta quan sát Nhưng thực tế ta hiểu dạng theo nghĩa rộng hơn, dạng không đối tượng cụ thể mà hệ thống liệu Có nhiều ví dụ dạng ta nghiên cứu tình hình kinh tế quốc gia ta đề cập đến dạng kinh tế quốc gia đó, ta nhận thấy suốt trình khủng hoảng tài giới năm 1997-1999 có nhiều quốc gia bị ảnh hưởng nặng nề số khác không, lí dạng kinh tế họ khác Khái niệm lớp dạng: Dạng xác định định lượng hay mô tả cấu trúc đối tượng mà quan tâm Theo lớp dạng hiểu tập hợp dạng có số thuộc tính chung Thông thường, dạng mô tả điểm không gian đa chiều thích hợp gọi không gian dạng (mỗi chiều tương ứng với đặc trưng dạng) Chương Khái quát chung dạng nhận dạng 1.1.2 Khái niệm nhận dạng: Nhận dạng trình phân loại liệu đo hay nhận thấy thành thành phần số lớp hay cụm khác Thực tế ta xây dựng cấu trúc phân biệt lớp dạng khác Ví dụ như, không khó để phân biệt giới tính nam-nữ, phân biệt người khu vực khu vực giới Mục đích chung nghiên cứu nhận dạng tìm chế hoạt động trình nhận dạng, mô tính xử lý thủ tục nhận dạng công nghệ đại nhằm phục vụ cho nhu cầu thiết thực ngày người Nhận dạng nhánh trí tuệ nhân tạo mang tính liên ngành, nhiều nhà khoa học áp dụng công nghệ nhận dạng để giải vấn đề lĩnh vực nghiên cứu họ khảo cổ học, thiên văn học, mật mã, địa lí, địa chất, Thông thường công nghệ nhận dạng áp dụng khi: • Các phương pháp phân tích truyền thống thất bại • Việc áp dụng phương pháp mô hình hóa không phù hợp • Các xử lý dựa theo mô trở nên hiệu Chúng ta thường phân biệt hai loại toán nhận dạng sau: Nhận dạng đối tượng cụ thể: nhận dạng dạng vật thể mang tính chất không gian thời gian Ví dụ, không gian quang cảnh, tranh ảnh, biểu tượng, kí tự (chữ Latinh, chữ Ả rập, chữ Trung Hoa), đồ thời tiết, điện tâm đồ (ECG), điện não đồ (EEG), hình ảnh chụp X-quang, Nhận dạng đối tượng trừu tượng: nhận dạng khái niệm Ví dụ, nghe nhạc ta nhận biết có giai điệu đàn guitar hay piano 1.2 Không gian mẫu cách tiếp cận nhận dạng Chúng ta cần lựa chọn, đo đạc hay quan sát để thu thập tập liệu tượng Nếu tượng cần phân tích bao gồm Chương Khái quát chung dạng nhận dạng đối tượng vật lý hình ảnh, thiết bị thu thập liệu camera, máy quét đa phổ, hay thiết bị khác Đối với vấn đề khác toán kinh tế, cần đến loại hệ thu thập liệu đặc thù để thu tập liệu phù hợp Trong trình tiền xử lý liệu thường sử dụng phép biến đổi (hay hàm) để chuyển đổi dạng quan sát thành dạng điện tử chuyển đổi tập hợp liệu rời rạc thành dạng toán học cho liệu phù hợp với việc phân tích máy tính Kết trình chuyển đổi cho véc tơ dạng, véc tơ xem điểm không gian dạng mẫu Chẳng hạn ta quét ảnh máy quét đa phổ 12 kênh, ta thu điểm ảnh đơn lẻ với 12 giá trị, giá trị tương ứng với phản ứng phổ riêng biệt Còn ảnh xử lý ảnh màu, trình tiền xử lý cho điểm ảnh với giá trị thành phần màu chính, tương ứng là: đỏ, xanh cây, xanh da trời Mỗi giá trị thành phần dải phổ xem biến ngẫu nhiên không gian n chiều không gian dạng mẫu thành phần dải phổ cho tương ứng với chiều Mỗi dạng xuất điểm không gian dạng mẫu Rn véc tơ gồm n thành phần kí hiệu xi có biểu diễn sau: x i1 xi2 xi = xin số n mô tả số chiều Nếu n < 3, không gian dạng mẫu có biểu diễn hình học Một tập S bao gồm N véc tơ dạng mẫu mô tả ma trận kích thước N × n sau: T x x x12 · · · x1n 11 T x2 x21 x22 · · · x2n S= = T xN xN xN · · · xN n xTi = (xi1 , xi2 , · · · , xin ), i = 1, · · · , N , biểu diễn véc tơ dạng mẫu thứ i Chương Khái quát chung dạng nhận dạng Mục đích việc trích chọn đặc trưng trình làm giảm số chiều Nó chuyển đổi liệu gốc thành dạng phù hợp gọi véc tơ dạng mẫu sử dụng đầu vào cho trình xử lý đưa định phân loại Như kết trình trích chọn đặc trưng cho véc tơ đặc trưng: xTi = (xi1 , xi2 , · · · , xir ), i = 1, · · · , N ; với r < n Một véc tơ dạng mẫu đặt không gian dạng mẫu điểm, véc tơ dạng mẫu tập trung gần không gian dạng mẫu tạo thành lớp hay cụm riêng biệt Như liệu đầu vào cho trình xử lý để đưa định phân loại tập hợp véc tơ dạng mẫu Dữ liệu đầu trình xử lý đưa định phân loại Cả trình tiền xử lý xử lý đưa định thường chọn lựa người sử dụng Hàm định sử dụng tuyến tính, tuyến tính khúc, phi tuyến, hay số loại hàm khác Trọng số dùng trình xử lý đưa định giá trị tính toán dựa việc hoàn thiện thông tin tiên nghiệm có tập véc tơ dạng mẫu Tập liệu gọi tập luyện, trình xử lý gọi trình luyện Trong suốt trình luyện, trọng số hiệu chỉnh tùy theo việc phân loại véc tơ dạng mẫu tập luyện thực hay sai Quá trình luyện coi hoàn thành thông tin thu cho phép hình thành qui tắc phân loại có khả phân loại tất véc tơ dạng mẫu tập luyện Sau qui tắc phân loại hình thành sử dụng vào việc phân loại dạng vào lớp hay cụm tương ứng không gian dạng mẫu Ta lưu ý không nên tách rời hai công đoạn học phân loại thủ tục nhận dạng với Thông thường việc kết hợp cách hợp lý hai công đoạn nói tạo thủ tục nhận dạng hiệu Một tập luyện S gọi tập luyện có hướng dẫn véc tơ dạng mẫu cho sau: l xi1 l l xi = xik ; l = 1, · · · , K; i = 1, · · · , Nl ; k = 1, · · · , n l xin Chương Khái quát chung dạng nhận dạng l số lớp dạng, i số véc tơ dạng mẫu thứ i lớp thứ l: ωl ; k thành phần thứ k vectơ dạng mẫu n chiều K, Nl , n tương ứng số lớp dạng, số véc tơ dạng mẫu lớp thứ l, số chiều vectơ dạng mẫu Các véc tơ dạng mẫu thuộc lớp dạng có số thuộc tính chung tạo thành cụm miền định không gian dạng mẫu Trong trường hợp không gian dạng mẫu hai chiều toán phân loại thực chất tìm mặt phân biệt không gian dạng mẫu cho có khả phân loại tất véc tơ dạng mẫu tập luyện Sau ta mong muốn sử dụng mặt phân biệt để phân loại véc tơ dạng mẫu xét theo độ đo gần gũi chúng giống với véc tơ dạng mẫu tập luyện cho trước Như trình nhận dạng thực chất trình phân chia không gian dạng mẫu thành số hữu hạn miền rời gọi miền định việc phân loại phụ thuộc vào véc tơ dạng mẫu xét rơi vào miền định không gian dạng mẫu Cách tiếp cận nói chung giống cách tiếp cận lý thuyết định Điều cách tiếp cận cần có biểu diễn đầy đủ tập liệu dạng véc tơ dạng mẫu Khi thủ tục nhận dạng thường xây dựng theo hai phương pháp phương pháp phân tích cấu trúc cú pháp phương pháp tiếp cận theo lý thuyết định Ta lưu ý có số toán cách tiếp cận cú pháp cấu trúc phù hợp, số toán cách tiếp cận lý thuyết định lại phù hợp Việc chọn lựa cách tiếp cận phụ thuộc vào tập liệu có toán Nhiều toán có thông tin cấu trúc phong phú sử dụng phương pháp cấu trúc nhằm thu thủ tục nhận dạng hiệu Nhưng toán mà thông tin cú pháp hay cấu trúc không đóng vai trò quan trọng nên sử dụng cách tiếp cận lý thuyết định Tuy nhiên, có nhiều ứng dụng cần kết hợp hai phương pháp nêu Một kết hợp hợp lí hai cách tiếp cận cho kết hiệu toán nhận dạng cụ thể 1.3 Một số ứng dụng nhận dạng: Công nghệ nhận dạng mẫu áp dụng cho nhiều loại toán thực tế khác nhau, ta nêu số ứng dụng sau: Chương Khái quát chung dạng nhận dạng 1.3.1 Nhận dạng giọng nói Nhận dạng giọng nói có nhiều ứng dụng Ví dụ như, công tác điều tra tội phạm, việc nhận dạng xác giọng nói đối tượng để phân tích xem họ có phải đối tượng nghi vấn không hay không Chúng ta mô tả chế hoạt động hệ thống nhận dạng giọng nói theo sơ đồ sau: Hình 1.1: Cơ chế hệ thống nhận dạng giọng nói Các tín hiệu biến đổi từ ngôn từ, lọc lấy mẫu Chương Phân tích phân cụm thuật toán phân cụm dụng đến thông tin ma trận hiệp phương sai xét biểu thức (2.39) (2.40) bước đơn ta nhằm mục đích định vị miền cụm với điểm hạt giống tương ứng Do đó, để đơn giản tính toán bỏ qua thông tin hiệp phương sai Bước 2: Khởi tạo αr = 1/K với r = 1, · · · , K cho r ma trận hiệp phương sai điểm liệu với ur = ( hay véc tơ dạng thuộc cụm Sr ) Dưới dây, ước lượng αr , zr r nhằm cực tiểu hóa biểu thức (2.38) ( hay tương đương nhằm cực tiểu hóa biểu thức (2.32)) Bước 2.1: Cho điểm liệu xi , tính I(l|xi ) công thức (2.35) Bước 2.2: Cập nhật lại điểm hạt giống zw có véc tơ dạng xi xếp vào miền cụm Sw theo công thức sau: zwnew = zwold − η ∂R ∂zw old zw −1 = zwold + η w (xi − zwold ) (2.41) Hoặc đơn giản biểu thức (2.40) với việc bỏ −1 w biểu thức (2.41) Như vậy, cập nhật lại zw theo hướng giảm gradient Ngoài ra, ta phải cập nhật tham số αr w Việc thực việc làm cực tiểu biểu thức (2.38) với ràng buộc αr xác định biểu thức (2.30) Ta có nhận xét trọng số αl chọn để thỏa mãn điều kiện (2.30) theo cách sau: αr = exp(βr ) K r=1 exp(βr ) , ≤ r ≤ K (2.42) Ở đây, ràng buộc αr tự động thỏa mãn, biến βr lại chọn tùy ý Do đó, thay cập nhật αr ta cập nhật ước lượng cho βwnew công thức sau: βwnew = βwold − η ∂R ∂βw old βw = βwold + η(1 − αwold ) (2.43) Còn giá trị βr khác không thay đổi Theo cách ta thấy có αw điều chỉnh tăng αr khác bị giảm tương ứng Ở đây, cần ý rằng, αr hội tụ biểu thức (2.43) tính toán giá trị β theo chiều tăng lên mà cận trên, 46 Chương Phân tích phân cụm thuật toán phân cụm thực tế αw nhỏ Để tránh xảy trường hợp không mong muốn này, phương pháp khả thi trừ số dương cβ từ tất giá trị βr giá trị lớn βr đạt đến giá trị ngưỡng dương xác định trước Còn việc cập nhật w thực theo công thức sau: new w = (1 − ηs ) old w +ηs Ui UiT (2.44) Ở Ui = xi − zwold , ηs hệ số tỷ lệ bé chọn trước Nói chung, việc ước lượng ma trận hiệp phương sai nhạy cảm so với việc ước lượng tham số khác Từ nhận xét công thức ước lượng (2.36) (2.41) sử dụng giá trị −1 nên để giảm nhẹ tính toán, thay ước lượng cho w ta l thực ước lượng trực tiếp cho ma trận −1 w theo công thức truy hồi sau: −1(new) w = −1(old) w − ηs I− −1(old) w −1(old) T ηs Ui Ui w ηs Ui UiT − ηs + (2.45) Trong I ma trận đơn vị cấp với −1 w Bước 2.1 2.2 tiến hành lặp lại dãy K giá trị thu I(l|xi ) với l = 1, · · · , K bước lặp sau không thay đổi với tất giá trị xi ∈ S thuật toán kết thúc 47 Chương Phân tích phân cụm thuật toán phân cụm 2.6 Kết thực nghiệm Chúng ta giới thiệu ví dụ để minh họa cho hiệu thuật toán K*-means xét tài liệu ([3]) Ở thí dụ thứ nhất, với việc sử dụng 1000 véc tơ dạng mẫu mô từ hàm mật độ trộn chuẩn xác định ba phân phối chuẩn sau: 0.1 0.05 p(x) = 0.3G x , 0.05 0.2 0.1 + 0.4G x , 0.1 0.1 −0.05 (2.46) + 0.3G x , −0.05 0.1 Như hình(2.4a) tập luyện có K ∗ = cụm riêng biệt Để chạy thuật toán K*-means tác giả xuất phát với K=6 điểm hạt giống chọn ngẫu nhiên từ tập luyện gồm 1000 véc tơ dạng mẫu chọn hệ số hiệu chỉnh η = 0.001 ηs = 0.0001 Sau bước thuật toán K*-means, cụm phân điểm hạt giống hình(2.4b) Sau đó, thực bước thuật toán, kết thu có α1 , α5 , α6 hội tụ đến 0.2958, 0.3987, 0.3055 giá trị α2 , α3 , α4 hội tụ Do đó, hình(2.4c) cụm nhận biết tốt với: 0.0968 0.0469 1.0087 , = z1 = 0.0469 0.1980 0.9738 0.9757 0.0919 0.0016 , z5 = = 4.9761 0.0016 0.0908 5.0163 0.1104 −0.0576 , z6 = = (2.47) 5.0063 −0.0576 0.1105 Trong điểm hạt giống phụ z2 , z3 , z4 bị đẩy phía biên cụm tương ứng chúng Ta có hình vẽ mô tả kết thuật toán ví dụ thứ theo bước sau: 48 Chương Phân tích phân cụm thuật toán phân cụm Hình 2.4: Ví dụ thứ với tập luyện gồm 1000 véc tơ dạng mẫu Trong ví dụ thứ 2, tác giả sử dụng 2000 véc tơ dạng mẫu mô từ hàm mật độ trộn chuẩn p(x) xác định ba hàm phân phối 49 Chương Phân tích phân cụm thuật toán phân cụm chuẩn sau: 0.15 0.05 p(x) = 0.3G x , 0.05 0.25 0.15 + 0.4G x , 0.15 2.5 0.15 −0.1 2.5 + 0.3G x , −0.1 0.15 2.5 (2.48) Tuy nhiên tập liệu thu có chồng xếp cụm dạng mô tả hình ( 2.5a) Tương tự, tác giả thực bước phương pháp K*-means, điểm hạt giống phân bổ vào cụm hình vẽ (2.5b) Sau tác giả thực bước 2, kết thu α2 = 0.3879, α3 = 0.2925, α6 = 0.3196 α1 , α4 , α5 hội tụ hình vẽ (2.5c) Do đó, ta có kết sau: 0.1252 0.0040 0.9491 , = z2 = 0.0040 0.1153 2.4657 0.1481 0.0494 1.0223 , = z3 = 0.0494 0.2189 0.9576 0.1759 −0.1252 2.5041 , (2.49) = z6 = −0.1252 0.1789 2.5161 Kết cho thấy việc áp dụng thuật toán K*-means không cho phép nhận dạng cụm có cấu trúc cụm phân biệt hoàn toàn với (như ví dụ 1) mà kể cụm dạng có cấu trúc chồng xếp lên (như ví dụ 2), đạt đến phân cụm hợp lý cho tập liệu Ta có hình vẽ mô tả kết thuật toán ví dụ thứ hai theo bước sau: 50 Chương Phân tích phân cụm thuật toán phân cụm Hình 2.5: Ví dụ thứ hai với tập luyện gồm 2000 véc tơ dạng mẫu 51 Chương Chương trình ứng dụng thuật toán ISODATA 3.1 Nêu lại ví dụ: Cho tập liệu gồm 20 véc tơ dạng mẫu: x1 x8 x9 x10 (0, 0)T (1, 0)T (0, 1)T (1, 1)T (2, 1)T (1, 2)T (2, 2)T (2, 3)T (6, 6)T (7, 6)T x19 x20 x11 x2 x12 x3 x13 x4 x14 x5 x15 x6 x16 x7 x17 x18 (8, 6)T (6, 7)T (7, 7)T (8, 7)T (9, 7)T (7, 8)T (8, 8)T (9, 8)T (10, 8)T (11, 8)T Dựa vào thuật toán ISODATA thực phân cụm liệu 3.2 Các trường hợp tính toán Trường hợp 1: Các giá trị đầu vào: M = 2, δ = 4, η = 1, L = 0, σs = 1.5, I = 4, γ = 0.6 : Ta có bảng: Tóm tắt lại bước tính toán: Bước lặp 1: 52 Chương Chương trình ứng dụng thuật toán ISODATA • Chọn: z1 = x1 = (0, 0)T • Tính toán lại tâm cụm, ta được: z1 = (5.25, 4.8)T • Độ lệch tiêu chuẩn σ1 = (3.59, 3.027)T nên σ1max = 3.59 Ta có σ1max > σs nên tách z1 theo thành phần thứ với giá trị γ = 0.6 ta thu hai tâm mới: z1 = (7.404, 4.8)T , z2 = (3.096, 4.8)T Bước lặp 2: • Với hai tâm cụm: z1 = (7.404, 4.8)T , z2 = (3.096, 4.8)T , ta phân bố véc tơ dạng mẫu vào miền cụm dựa theo nguyên lý cực tiểu khoảng cách, tức véc tơ dạng mẫu gần tâm cụm phân vào cụm tương ứng có tâm cụm Do ta thu hai miền cụm mới: S1 = {x9 , x10 , · · · , x20 } S2 = {x1 , x2 , · · · , x8 } • Tính lại tâm cụm, ta được: z1 = (8, 7.17)T z2 = (1.125, 1.25)T : Độ lệch chuẩn cụm 1: σ1 = (1.472, 0.799) nên σ1max = 1.472 Độ lệch chuẩn cụm 2: σ2 = (0.78, 0.97) nên σ2max = 0.97 Do σs = 1.5 nên σ1max < σs σ2max < σs : giữ nguyên tâm cụm Kết quả: Ta thu hai cụm có tâm cụm là: z1 = (8, 7.17)T z2 = (1.125, 1.25)T với miền cụm tương ứng là: S1 = {x9 , x10 , · · · , x20 } S2 = {x1 , x2 , · · · , x8 } Ta có bảng hiển thị kết thuật toán: Trường hợp 2: 53 Chương Chương trình ứng dụng thuật toán ISODATA Hình 3.1: Trường hợp 1: Kết thuật toán với thông số đầu vào ban đầu Nếu giữ nguyên số giá trị đầu vào trường hợp 1, thay đổi giá trị M = giá trị σs = 0.9 Ta có bảng sau: • Do σ1 = (1.472, 0.799) σ2 = (0.78, 0.97)T có σ1max > σs σ2max > σs nên áp dụng thuật toán ta tiếp tục chia cụm thành cụm với tâm cụm mới: z1 = (8.883, 7.167)T , z2 = (7.117, 7.167)T z3 = (1.125, 1.831)T , z4 = (1.125, 0.669)T 54 Chương Chương trình ứng dụng thuật toán ISODATA • Với bốn tâm cụm trên, ta thực phân bố lại véc tơ dạng mẫu vào miền cụm tương ứng với bốn tâm cụm trên, ta bốn miền cụm sau: S1 = {x15 , x18 , x19 , x20 }, S2 = {x9 , x10 , x11 , x12 , x13 , x14 , x16 , x17 } S3 = {x6 , x7 , x8 }, S4 = {x1 , x2 , x3 , x4 , x5 } • Cập nhật lại tâm cụm ta thu bốn tâm cụm tương ứng: z1 = (9.75, 7.75)T , z2 = (7.125, 6.875)T z3 = (1.67, 2.33)T , z4 = (0.8, 0.6)T Ta có bảng hiển thị kết thuật toán: Hình 3.2: Trường hợp 2: Kết thuật toán thay M = σs = 0.9 Trường hợp 3: Nếu thay đổi giá trị L (ví dụ L=1, tức số cặp cụm tối đa gộp 1) Ta có bảng: • Khi đó, khoảng cách tâm cụm là: D12 = 2.77, D13 = 9.73, D14 = 11.46, D23 = 7.10, D24 = 8.91, D34 = 1.94 55 Chương Chương trình ứng dụng thuật toán ISODATA Ta thấy giá trị D12 < σ D34 < σ Do L=1 nên ta chọn giá trị nhỏ D12 D34 D34 , ta gộp cụm thứ cụm thứ thành cụm • Ba miền cụm là: S1 = {x15 , x18 , x19 , x20 } S2 = {x9 , x10 , x11 , x12 , x13 , x14 , x16 , x17 } S3 = {x1 , x2 , x3 , x4 , x5 , x6 , x7 , x8 } • Tương ứng ba tâm cụm mới: z1 = (9.75, 7.75)T , z2 = (7.125, 6.875)T , z3 = (1.125, 1.25)T Ta có bảng hiển thị kết thuật toán: Hình 3.3: Trường hợp 3: Kết thuật toán thay L=1 56 Chương Chương trình ứng dụng thuật toán ISODATA Trường hợp 4: Các giá trị đầu vào trên, ta thay đổi δ cho δ < 1.94, chẳng hạn chọn δ = 1.5.Ta có bảng số liệu đầu vào Do δ < Dij ∀i = j, i, j = 1, 2, 3, nên cụm bị gộp, ta có bốn cụm trường hợp 2: S1 = {x15 , x18 , x19 , x20 }, S2 = {x9 , x10 , x11 , x12 , x13 , x14 , x16 , x17 } S3 = {x6 , x7 , x8 }, S4 = {x1 , x2 , x3 , x4 , x5 } Với tâm cụm tương úng: z1 = (9.75, 7.75)T , z2 = (7.125, 6.875)T z3 = (1.67, 2.33)T , z4 = (0.8, 0.6)T Ta có bảng hiển thị kết thuật toán sau: 57 Chương Chương trình ứng dụng thuật toán ISODATA Hình 3.4: Trường hợp 4: Kết thuật toán thay δ = 1.5 58 Kết luận Qua luận văn này, đề cập đến nội dung sau: Khái quát chung nhận dạng, tìm hiểu số thuật toán phân tích phân cụm chương trình minh họa thuật toán ISODATA Qua việc xây dựng chạy thử chương trình ISODATA với số liệu khác nhau, nhận thấy rằng: bên cạnh việc phân cụm cách linh động hiệu quả, kết thuật toán ISODATA lại phụ thuộc nhiều vào giá trị đầu vào định trước như: số cụm mong muốn, giá trị cực tiểu cho phép độ lệch chuẩn hay khoảng cách tối thiểu hai tâm cụm chấp nhận Số cụm thu tăng lên giảm giá trị cực tiểu cho phép độ lệch chuẩn để thỏa mãn điều kiện tách cụm Hoặc số cụm thu được giảm tăng số cặp cụm tối đa gộp tăng giá trị khoảng cách tối thiểu hai tâm cụm chấp nhận để thỏa mãn điều kiện gộp cụm Để định giá trị này, cần đến nghiên cứu trước thực thuật toán.Vì vậy, việc cài đặt hợp lý thực nhờ phương pháp vừa chạy vừa thử nghiệm lỗi Đồng thời, việc giới thiệu thuật toán K*-means kết thực nghiệm chứng tỏ thuật toán linh động hiệu quả, việc lập trình để minh họa kết cho thuật toán toán tương đối phức tạp đòi hỏi kiến thức sâu rộng lĩnh vực toán tin học Do thời gian trình độ hạn chế nên luận văn dừng lại mức tìm hiểu số thuật toán phân cụm xây dựng chương trình minh họa thuật toán với số liệu khác Trong thời gian tới, điều kiện cho phép, nghiên cứu, tìm hiểu cải thiện thuật toán để đưa kết có tính ứng dụng thực tiễn Trong trình thực luận văn chắn không tránh khỏi sai sót Chúng mong muốn nhận ý kiến đóng góp thầy cô bạn bè để hoàn thiện luận văn tốt Xin chân thành cảm ơn 59 Tài liệu tham khảo [1] Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như (2004), Thống kê toán học, Nhà xuất Đại học Quốc gia Hà Nội [2] Nguyễn Văn Hữu, Nguyễn Hữu Dư (2003), Phân tích thống kê dự báo, Nhà xuất Đại học Quốc gia Hà Nội [3] Yiu-Ming Cheung (2003), K*-Means: A new generalized K-means clustering algorithm , Elsevier B.V [4] Fukunaga K (1992), Introduction to Statistical Pattern Recognition, Academic Press New York [5] George.S.Fishman, Monte Carlo (1996), Concepts Algorithms and Application, Springer [6] Mendel J.M.,Fu K.S (1970), Adaptive learning and Pattern Recognition Systems, Academic Press New York [7] Singtze Bow (2002), Pattern Recognition and Image Preprocessing, Marcel Dekker [8] Theodoridis S., Koutroumbas K (1999), Pattern Recognition, Academic Press New York [9] Young T.Y., Calvert T.W (1974), Classification, Estimation and Pattern Recognition, Academic Press New York 60 [...]... = số các véc tơ dạng mẫu trong các cụm có tâm tương ứng zil , zjl Toàn bộ quá trình này có thể được mô tả bằng một sơ đồ khối như hình vẽ sau: 26 Chương 2 Phân tích phân cụm và các thuật toán phân cụm 27 Chương 2 Phân tích phân cụm và các thuật toán phân cụm 28 Chương 2 Phân tích phân cụm và các thuật toán phân cụm 29 Chương 2 Phân tích phân cụm và các thuật toán phân cụm Hình 2.2: Sơ đồ thuật toán. .. 23 Chương 2 Phân tích phân cụm và các thuật toán phân cụm Hình 2.1: : Ví dụ minh họa cho thuật toán Batchelor và Wilkins 24 Chương 2 Phân tích phân cụm và các thuật toán phân cụm 2.4 Phân cụm trong trường hợp đã biết số lớp 2.4.1 Thuật toán ISODATA ISODATA( Iterative Self Organizing Data Analysis Techniques A) là một từ viết tắt cho các kĩ thuật lặp phân tích dữ liệu tự tổ chức Trong thuật toán này,... Mặt khác nó cũng có vài hạn chế khi dùng thuật toán như sau: 20 Chương 2 Phân tích phân cụm và các thuật toán phân cụm • Thuật toán này đòi hỏi các véc tơ dạng nếu thuộc cùng một cụm phải có liên kết chặt chẽ với nhau và giữa các cụm vẫn có sự tách biệt khá rõ ràng thì thuật toán mới cho một phân cụm như mong đợi • Kết quả phân cụm theo thuật toán sẽ phụ thuộc vào thứ tự xử lí các véc tơ dạng mẫu của... quát chung về dạng và nhận dạng dựng các thuật toán nhằm phân cụm các véc tơ dạng mẫu của tập luyện Trong đề tài này, chúng tôi nghiên cứu về Các thuật toán phân tích phân cụm và ứng dụng, nghĩa là tìm hiểu một số các bài toán phân loại trong trường hợp học không có hướng dẫn (còn gọi là phân cụm) Dựa trên cơ sở nghiên cứu các độ đo gần gũi chúng tôi sẽ phân tích một số thuật toán phân cụm khác nhau trong... không thì sẽ dừng và kết thúc thuật toán Nếu cần tâm cụm mới thì quy về Bước 3, Bước 4, Bước 5 và Bước 6 cho đến khi dừng hẳn thuật toán Nếu khoảng cách này lớn hơn một phần xác định của khoảng cách giữa các tâm cụm thì mẫu đó sẽ tương ứng với một cụm mới Nếu không, dừng thuật toán 21 Chương 2 Phân tích phân cụm và các thuật toán phân cụm • Bước 8: Phân cụm các véc tơ dạng mẫu mới về cụm có tâm là zi... một cụm thì tách cụm Si này làm hai cụm mới 25 Chương 2 Phân tích phân cụm và các thuật toán phân cụm • Bước 6: Tính các khoảng cách giữa tất cả các cặp tâm cụm Nếu có một vài cặp cụm có khoảng cách giữa hai tâm cụm nhỏ hơn khoảng cách tối thiểu cho phép đã được chỉ định trước thì lưu lại, và trong số các cặp cụm này, cặp nào có khoảng cách giữa hai tâm cụm nhỏ nhất thì sẽ được kết hợp thành một cụm. .. là đối với các tập dữ liệu dạng hỗn hợp 12 Chương 2 Phân tích phân cụm và các thuật toán phân cụm 2.1.2 Ứng dụng của phân cụm Phân cụm có nhiều ứng dụng trong nhiều lĩnh vực như: • Thương mại: Tìm kiếm nhóm các khách hàng quan trọng có đặc trưng tương đồng và những đặc tả họ từ những bản ghi mua bán trong các mẫu dữ liệu • Sinh học: Phân loại các gen với các chức năng tương đồng và thu được các cấu trúc... có trạng thái phân cụm tốt và thỏa mãn các ràng buộc • Dễ hiểu và dễ sử dụng: Người sử dụng thường chờ đợi những kết quả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, một phân cụm được đề xuất sẽ cần được giải thích rõ ràng ý nghĩa và ứng dụng của nó 2.2 Các độ đo thường được sử dụng trong phân tích phân cụm 2.2.1 Độ đo sự gần gũi Từ định nghĩa sự phân cụm, một cụm sẽ bao gồm các véc tơ dạng... khoảng cách nội cụm Dss xác định như sau: 2 Dss = D2 ([x 2N i ], [xj ]) = N −1 18 n σk2 k=1 (2.11) Chương 2 Phân tích phân cụm và các thuật toán phân cụm 2.3 Phân cụm trong trường hợp số lớp chưa biết 2.3.1 Thuật toán sử dụng phương pháp trực quan Trong trường hợp chưa biết số lớp, từ các véc tơ dạng mẫu đã cho trong tập luyện, ta có thể sử dụng các phương pháp phi thống kê để xây dựng thuật toán phân cụm. .. với các kiểu thuộc tính khác nhau: Nhiều thuật toán được thiết kế cho việc phân cụm với tập mẫu kiểu số Tuy nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu 13 Chương 2 Phân tích phân cụm và các thuật toán phân cụm dữ liệu khác nhau, như kiểu nhị phân, kiểu tường minh (định danhkhông thứ tự), hay dạng hỗn hợp nhiều kiểu dữ liệu • Khám phá các cụm với hình dạng bất kì: Nhiều thuật toán