1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Các thuật toán phân cụm dữ liệu và ứng dụng

91 829 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 91
Dung lượng 1,09 MB

Nội dung

Chương 2: Các khái niệm cơ bản về phân cụm Chương này giới thiệu các khái niệm cơ bản trong kỹ thuật phân cụm gồm định nghĩa phân cụm, các độ đo độ gần gũi được sử dụng trong phân cụm v

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Nguyễn Hữu Tiến

Hà Nội – 2010

Trang 2

MỤC LỤC

LỜI CẢM ƠN 3

MỞ ĐẦU 4

DANH MỤC THUẬT NGỮ VIẾT TẮT 6

DANH MỤC BẢNG 7

DANH MỤC HÌNH 9

Chương 1 10

Tổng quan về lý thuyết nhận dạng 10

Chương 2 12

Các khái niệm cơ bản về phân cụm 12

2.1 Giới thiệu 12

2.1.1 Định nghĩa phân cụm 13

2.2 Độ đo sự gần gũi 14

2.2.1 Định nghĩa 14

2.2.2 Độ đo sự gần gũi giữa hai điểm 15

2.2.3 Độ đo sự gần gũi giữa một điểm và một tập 22

2.2.4 Độ đo sự gần gũi giữa hai tập 25

Chương 3 26

Các thuật toán phân cụm tuần tự 26

3.1 Giới thiệu 26

3.2 Các thuật toán phân cụm tuần tự 26

3.2.1 Trường hợp các véc tơ đặc trưng được duyệt trong thuật toán duy nhất một lần 26

3.2.2 Thuật toán phân cụm tuần tự cải tiến MBSAS (Modified Basic Sequential Algorithmic Scheme). 29

3.2.3 Thuật toán phân cụm tuần tự hai ngưỡng TTSAS (Two – Threshold Sequential Algorithm Scheme) 30

3.2.4 Các phương pháp hiệu chỉnh thuật toán BSAS 33

3.2.5 Thuật toán BSAS cải tiến (kết hợp các phương pháp hiệu chỉnh) 34

4.1 Giới thiệu 36

Trang 3

4.2 Các thuật toán phân cụm tích tụ 37

4.2.1 Định nghĩa một số đại lượng hữu ích trong thuật toán 38

4.2.2 Thuật toán phân cụm tích tụ dựa trên lý thuyết ma trận 40

4.2.3 Thuật toán phân cụm tích tụ dựa trên lý thuyết đồ thị 45

4.3 Các thuật toán phân cụm phân rã 52

Chương 5 55

5.1 Giới thiệu 55

5.2 Thuật toán K – means 56

5.3 Thuật toán ISODATA 58

5.4 Thuật toán ISODATA sửa đổi 69

PHỤ LỤC CHƯƠNG TRÌNH ỨNG DỤNG 72

A.Chuẩn bị dữ liệu 72

B.Thuật toán K –Means 75

C.Thuật toán ISODATA 78

D.Một số hình ảnh mô tả kết quả chạy chương trình 83

KẾT LUẬN 89

TÀI LIỆU THAM KHẢO 90

Trang 4

Em cũng xin gửi lời cảm ơn tới gia đình, bạn bè, những người luôn cổ vũ, quan tâm và giúp đỡ em trong suốt thời gian học tập cũng như lúc lam luận văn

Do thời gian và kiến thức có hạn nên luận văn chắc không tránh khỏi những thiếu sót nhất định Em rất mong nhận được sự góp ý quý báu của thầy cô và các bạn

Hà Nội tháng 10 năm 2010 NGUYỄN THẾ HUỲNH

Trang 5

MỞ ĐẦU

Trong thời đại công nghiệp hóa ngày nay, để sản xuất ra một sản phẩm công nghiệp, vai trò của các thông tin định hướng điều khiển càng trở nên quan trọng Từ các nghiên cứu về nhận dạng có thể đưa ra các định hướng cơ bản và điều này rất cần thiết cho việc hoạch định ra con đường đúng đắn để phát triển trong bất kỳ lĩnh vực nào

Nhận dạng có lịch sử lâu đời, trước những năm 1960 các thành tựu về nhận dạng hầu hết thu được từ những nghiên cứu trong thống kê học

Nhận dạng là một ngành khoa học mà mục đích chính là nghiên cứu các phương pháp phân chia các đối tượng thành các nhóm hoặc các lớp (phân cụm) Trong khuôn khổ luận văn sẽ chủ yếu tìm hiểu về các thuật toán phân cụm dữ liệu

v Bố cục luận văn

Ngoài các phần Mở đầu, Mục lục, Danh mục hình, Phụ lục chương trình, Kết luận, Tài liệu tham khảo, nội dung luận văn gồm năm chương:

Chương 1: Tổng quan về lý thuyết nhận dạng

Chương này giới thiệu tổng quan về lý thuyết nhận dạng và nêu một số ứng dụng quan trọng của nhận dạng trong cuộc sống

Chương 2: Các khái niệm cơ bản về phân cụm

Chương này giới thiệu các khái niệm cơ bản trong kỹ thuật phân cụm gồm định nghĩa phân cụm, các độ đo độ gần gũi được sử dụng trong phân cụm và xét các độ đo này trong một số trường hợp cụ thể (độ đo sự gần gũi giữa hai điểm, giữa hai tập, giữa điểm với tập và trong các trường hợp các véc tơ dữ liệu là các giá trị thực, giá trị rời rạc, khuyết dữ liệu…)

Trang 6

Chương 3: Các thuật toán phân cụm tuần tự

Chương này giới thiệu các thuật toán cơ bản nhất và những cải tiến của chúng trong phân cụm dữ liệu là các thuật toán phân cụm tuần tự Đặc điểm của các thuật toán này là đơn giản, dễ hiểu và có tốc độ xử lý nhanh khi ta cài đặt trên máy tính

Chương 4: Các thuật toán phân cụm theo thứ bậc

Chương này mô tả một dạng của các thuật toán phân cụm là các thuật toán phân cụm theo thứ bậc Cụ thể sẽ tìm hiểu về hai loại thuật toán chính là: Các thuật toán phân cụm tích tụ và các thuật toán phân cụm phân rã Đặc điểm của các thuật toán này

là kết quả phân cụm thu được theo cấu trúc một cây thứ bậc mà dựa vào cây này chúng

ta có thể lựa chọn các kết quả phù hợp nhất

Chương 5: Thuật toán K – Means và thuật toán ISODATA

Chương này tìm hiểu hai thuật toán được ứng dụng chủ yếu trong nhận dạng là thuật toán K-Means và thuật toán ISODATA Đây là hai thuật toán mà trong chương trình, dữ liệu tự tổ chức và gom cụm chỉ dựa vào một vài tham số đầu vào Đây cũng là hai thuật toán ngày nay được ứng dụng nhiều trong các lĩnh vực khác nhau

Trang 7

DANH MỤC THUẬT NGỮ VIẾT TẮT

Trang 8

DANH MỤC BẢNG

Bảng 1: mô tả 20 dữ liệu đầu tiên về các xét nghiệm trên rượu vang đỏ "Vinho

Verde"………73

Bảng 2 mô tả các thống kê về 300 mẫu xét nghiệm theo điểm đánh giá của các chuyên gia……… 73

Bảng 3: Kết quả phân cụm dữ liệu theo thuật toán K-Means với k=4……….76

Bảng 4: Đánh giá độ chính xác của thuật toán K-Means với k=4………76

Bảng 5: Kết quả phân cụm dữ liệu theo thuật toán K-Means với k=2……….76

Bảng 6: Đánh giá độ chính xác của thuật toán K-Means với k=2………76

Bảng 7: Kết quả phân cụm theo thuật toán ISODATA với bộ tham số nhập đầu vào của chương trình (k,I,L, , , ) = (4,15,2,30,7,10)……… 79

Bảng 8: Đánh giá độ chính xác của thuật toán ISODATA với bộ tham số đầu vào

(k, I, L, , , ) = (4, 20, 2, 30, 7, 10)……… 79

Bảng 9: Kết quả phân cụm theo thuật toán ISODATA với bộ tham số nhập đầu vào của chương trình (k, I, L, , , ) = (4, 20, 2, 30, 7, 10)……… 79

Bảng 10: Đánh giá độ chính xác của thuật toán ISODATA với bộ tham số nhập đầu vào của chương trình (k, I, L, , , ) = (4, 20, 2, 30, 7, 10)………80

Bảng 11: Kết quả phân cụm theo thuật toán ISODATA với bộ tham số nhập đầu vào của chương trình (k, I, L, , , ) = (2, 15, 2, 30, 7, 10)……… 80

Trang 9

Bảng 12: Đánh giá độ chính xác của thuật toán ISODATA với bộ tham số nhập đầu

Bảng 13: Kết quả phân cụm theo thuật toán ISODATA với bộ tham số nhập đầu vào

Bảng 14: Đánh giá độ chính xác của thuật toán ISODATA với bộ tham số nhập đầu

Trang 10

DANH MỤC HÌNH

Hình1: Menu chương trình của thuật toán K-Means……….75

Hình2: Menu chương trình của thuật toán ISODATA……… 78

Hình3: Kết quả phân cụm bằng thuật toán K-Means với số phân cụm nhập là 4…… 82

Hình4: Kết quả phân cụm bằng thuật toán K-Means với số phân cụm nhập là 2…… 83

Hình5: Kết quả phân cụm bằng thuật toán ISODATA với bộ tham số

(k, I, L, , , ) = (4, 15, 2, 30, 7, 10)……… 84

Hình6: Kết quả phân cụm bằng thuật toán ISODATA với bộ tham số

(k, I, L, , , ) = (4, 20, 2, 30, 7, 10)……… 85

Hình7: Kết quả phân cụm bằng thuật toán ISODATA với bộ tham số

(k, I, L, , , ) = (2, 15, 2, 30, 7, 10)……… 86

Hình8: Kết quả phân cụm bằng thuật toán ISODATA với bộ tham số

(k, I, L, , , ) = (2, 20, 2, 30, 7, 10)……… 87

Trang 11

Nhận dạng được tích hợp trong hầu hết các hệ thống máy thông minh để hỗ trợ quá trình đưa ra quyết định cho một hoạt động cụ thể Các ứng dụng quan trọng của lý thuyết nhận dạng có thể kể ra một vài ứng dụng sau:

+ Nhận dạng có vai trò rất quan trọng trong hệ thống các máy nhận dạng.Trong sản xuất công nghiệp, các máy nhận dạng thông qua một camera lấy các hình ảnh về sản phẩm, nhận dạng xác định xem sản phẩm đó có lỗi hay không đồng thời phân các sản phẩm thành các lớp sản phẩm tương ứng với số lỗi của sản phẩm đó

+ Nhận dạng được ứng dụng nhiều trong việc nhận dạng ký tự Các hệ thống nhận dạng sẽ xử lý dữ liệu ảnh đầu vào và phân chia thành các nhóm: chữ cái, chữ số, và nhóm các ký tự đặc biệt Từ đó tùy mục đích cụ thể của ứng dụng mà lấy ra thông tin

Trang 12

cần thiết Các ứng dụng nhận dạng trong việc nhận dạng ký tự có thể kể ra như nhận dạng chữ viết tay, nhận dạng chữ ký trong các hệ thống thẻ tín dụng hoặc nhận dạng các mã bưu điện bưu phẩm để lọc và phân chia các thư tín về đúng địa chỉ cần được gửi đến…

+ Nhận dạng được ứng dụng trong các hệ thống máy chẩn đoán y học Các máy chẩn đoán đọc các ảnh chụp tia X của bệnh nhân, xử lý và hỗ trợ các bác sĩ đưa ra kết luận chính xác về tình trạng của bệnh nhân đó

+ Nhận dạng được ứng dụng trong việc nhận dạng giọng nói nhằm giảm thiểu các điều khiển tay chân của con người, tăng tính tự động hóa, tăng độ chính xác của sản phẩm… Quá trình nhận dạng được thực hiện nhờ việc xử lý một tập dữ liệu mẫu bao gồm các kết quả quan sát thực nghiệm trên các cá thể của tập cần nhận dạng và tập dữ liệu này

được gọi là tập luyện Bài toán nhận dạng được chia thành hai loại là: nhận dạng có

hướng dẫn và nhận dạng không hướng dẫn Trong bài toán nhận dạng có hướng dẫn, bên cạnh các kết quả quan sát về các cá thể còn được gọi là các véc tơ dạng mẫu, tập luyện còn cho biết mỗi cá thể đó thuộc vào lớp dạng cụ thể nào Ngược lại, trong bài toán nhận dạng không hướng dẫn tập luyện chỉ chứa các thông tin về các véc tơ dạng mẫu

Trang 13

Chương 2

Các khái niệm cơ bản về phân cụm 2.1 Giới thiệu

Chúng ta xét một ví dụ về bài toán phân cụm các loài vật sau: cừu, chó, mèo (động vật

có vú), chim sẻ (chim), rắn, thằn lằn (bò sát), cá vàng, cá đối, cá mập (cá), ếch, nhái (lưỡng cư) Để tổ chức các loài vật trên thành các nhóm chúng ta cần định nghĩa ra một chuẩn phân hoạch Do đó nếu chúng ta phân cụm theo cây phả hệ, dòng dõi quan hệ thì cừu, chó, mèo và cá mập sẽ thuộc cùng một nhóm trong khi đó phần còn lại sẽ thuộc nhóm thứ hai Nếu chúng ta xét dựa trên đặc điểm vể sự tồn tại phổi trong hô hấp thì cá vàng, cá đối, cá mập lại thuộc cùng một nhóm và các loài khác thuộc nhóm thứ hai Ở một khía cạnh khác nếu chúng ta phân chia dựa trên yếu tố môi trường sống thì chúng

ta sẽ có ba nhóm: nhóm sống trên cạn gồm cừu, chó mèo, chim sẻ rắn, thằn lằn; nhóm sống dưới nước gồm cá vàng, cá đối, cá mập và nhóm lưỡng cư là ếch nhái

Ví dụ trên cho thấy rằng kết quả của việc phân cụm thu được sẽ khác nhau nếu chúng

ta lựa chọn các tiêu chuẩn phân cụm khác nhau Chúng ta có thể khái quát các bước cơ bản để phát triển một tác vụ phân cụm gồm có:

+ Lựa chọn đặc trưng

+ Xác định độ đo sự gần gũi

+ Xác định tiêu chuẩn phân hoạch

+ Xác định thuật toán phân hoạch

+ Kiểm định tính đúng đắn của kết quả thu được

+ Giải thích kết quả thu được và đưa ra kết luận

Trang 14

Để bắt đầu các nghiên cứu, trước hết chúng ta sẽ phát biểu bài toán phân cụm Rõ ràng việc phân cụm được đặt ra khi ta cần phân chia các cá thể của một đám đông thành một

số xác định các nhóm cá thể khác nhau (hay còn gọi là các cụm) sao cho các cá thể thuộc cùng một cụm sẽ có thuộc tính chung trong khi đó các cá thể ở các cụm khác không có thuộc tính đó Để nhất quán về thuật ngữ ta sẽ gọi đám đông cần xét là một không gian dạng, mỗi cá thể của đám đông sẽ được gọi là một dạng, một véc tơ gồm hữu hạn các đặc trưng của một dạng sẽ được gọi là một véc tơ dạng Một tập gồm hữu hạn các véc tơ thu được từ các quan sát thực nghiệm trên các dạng của không gian

dạng sẽ là một tập luyện và các phần tử của nó sẽ gọi là các véc tơ dạng mẫu Như vậy các véc tơ dạng mẫu là một điểm của không gian dạng mẫu n chiều và các cụm sẽ được

mô tả như các miền con của không gian dạng mẫu này

2.1.1 Định nghĩa phân cụm

luyện X Ta có

= { , , … , } (2.1)

Chúng ta định nghĩa một phân cụm gồm m-cụm của X, khi X được phân hoạch thành m

Trang 15

Chú ý rằng với định nghĩa phân cụm như trên thì mỗi dạng chỉ thuộc một cụm duy

nhất Tuy nhiên Zadeh đã đưa ra định nghĩa phân cụm dựa trên khái niệm các tập mờ là

Độ đo sự gần gũi là đại lượng xác định mức tương quan lẫn nhau giữa các thực thể Độ

đo sự gần gũi được chia thành hai loại là độ đo không tương tự và độ đo tương tự Độ

đo không tương tự có thể hiểu là mức độ khác biệt giữa các thực thể trong khi độ đo tương tự có thể hiểu là mức độ giống nhau của các thực thể

· Độ đo không tương tự DM (Dissimilarity Measure) trên không gian dạng X là một hàm ký hiệu là d và được xác định như sau:

: × → ℝ Trong ℝ đó là tập số thực sao cho d(x, y) thỏa mãn các điều kiện sau:

Trang 16

( , ) = ∀ ∈ (2.4)

( , ) = ( , ), ∀ , ∈ (2.5)

Nếu thêm các điều kiện ( , ) = khi và chỉ khi x = y (2.6)

( , ) ≤ ( , ) + ( , ), ∀ , , ∈ (2.7)

Thì d được gọi là một độ đo không tương tự metric hay một metric DM Bất đẳng thức

(2.7) được gọi là bất đẳng thức tam giác

· Độ đo tương tự SM (Similarity Measure) là một hàm ký hiệu là s và được xác

Khi đó s được gọi là một độ đo tương tự metric hay một metric SM

2.2.2 Độ đo sự gần gũi giữa hai điểm

A) Véc tơ dạng mẫu nhận giá trị thực

a Trường hợp độ đo không tương tự:

Trang 17

( , ) = | − |

/

(2.13)

Trong đó xi, yi thành phần thứ i của các véc tơ dạng mẫu x và y, i =1,…,l và

wi ≥ 0 là trọng số thứ i Trường hợp đặc biệt hợp p = 2 và wi =1, với ∀ = 1, , ta có

quát như sau:

( , ) = ( − ) ( − ) (2.14)

Trong đó B là một ma trận đối xứng xác định dương

Xét một số trường hợp đặc biệt sau:

+ Độ đo không tương tự có trọng số l1 hay chuẩn Manhattan ký hiệu là d1(x, y) và

được xác định như sau:

( , ) = | − | (2.15)

+ Độ đo không tương tự có trọng số ℎ ẩ ký hiệu là ( , ) và định nghĩa là:

( , ) = max | − | (2.16)

Trang 18

b Trường hợp độ đo tương tự:

+ Tích vô hướng ký hiệu là s inner (x, y) được xác định như sau:

( , ) = = (2.17)

Trong đó x và y là các vec tơ dạng mẫu l chiều

+ Độ đo Tanimoto hay khoảng cách Tanimoto được sử dụng trong cả hai trường hợp các vec tơ dạng mẫu với giá trị thực và các vec tơ dạng mẫu với các thành phần rời rạc:

biểu diễn như sau:

‖ ‖ ‖ ‖ (2.21)

Trang 19

Khi đó ( ) = 1 ℎ = à min = 0 ℎ = −

B) Vec tơ dạng mẫu nhận các giá trị rời rạc

Trong phần này chúng ta xét các véc tơ dạng mẫu x trong đó các thành phần của nó nhận các giá trị rời rạc trong tập xác định F :={0,…,k - 1}, trong đó k là hằng số

( , ) =

, , , (2.22)

tơ thứ nhất nhận giá trị i thì thành phần tương ứng của véc tơ thứ hai nhận giá trị j với , ∈ : {0, 1,2, … , − 1} A được gọi là ma trận ngẫu nhiên Ví dụ nếu l =6, k =3

như một tổ hợp nào đó của các thành phần của ma trận A

a Độ đo không tương tự

+ Khoảng cách Hamming là một độ đo không tương tự của hai véc tơ rời rạc x và y

tơ x và y là sai khác nhau:

( , ) =

,

(2.23)

Trang 20

Nghĩa là tổng tất cả các thành phần ngoài đường chéo chính của ma trận A sẽ biểu diễn

Độ đo Tanimoto được mở rộng cho việc xác định độ đo tương tự của các véc tơ rời rạc

Hay nói cách khác, độ đo Tanimoto là tỷ lệ của số các thành phần tương ứng chung của hai tập trên tổng tất cả các thành phần khác nhau của hai tập

Bây giờ ta xét độ đo tương tự Tanimoto giữa hai véc tơ rời rạc x và y Độ đo này sẽ xét theo tất cả các cặp thành phần tương ứng của véc tơ x và y chỉ trừ trường hợp cả hai thành phần tương ứng (xi, yi) của chúng đều bằng không

không của véc tơ x, (y) tương ứng

Khi đó ta có độ đo Tanimoto giữa hai véc tơ rời rạc x và y sẽ là:

∑ ∑ (2.25)

Trang 21

Trường hợp đặc biệt với k =2:

( , ) = (2.26)

c Vec tơ dạng nhận giá trị hỗn hợp

Một trường hợp quan tâm thường diễn ra trong thực tiễn là khi véc tơ dạng nhận các giá trị hỗn hợp (nghĩa là không thuộc hai trường hợp trên) Một phương pháp có thể chuyển đổi các thành phần giá trị thực thành dạng giá trị rời rạc được xác định như sau

Nếu đặc trưng xi nhận giá trị trong khoảng [a, b], chúng ta có thể chia khoảng này

có thể chuyển thành một véc tơ dạng với các thành phần đều nhận các giá trị rời rạc

Ý tưởng xây dựng một độ đo tương tự cho trường hợp các véc tơ dạng mẫu nhận giá trị hỗn hợp mà không cần thực hiện chuyển đổi dạng vec tơ được Gowe đề xuất vào năm 1971 như sau:

∑ (2.27)

Trong đó sq(xi, xj) sự tương tự giữa thành phần thứ q của xi và xj và wq là trọng số tương

ứng của thành phần thứ q Đặc biệt nếu một trong hai thành phần thứ q không xác định

giá trị 0 thì wq cũng bằng 0 Trong tất cả các trường hợp khác thì wq đều nhận giá trị là

1 Cuối cùng nếu tất cả wq = 0 thì s(xi, xj) là không xác định

Trang 22

Nếu thành phần thứ q của hai vec tơ xi, xj là các biến danh nghĩa hoặc các biến thứ tự thì:

Khuyết dữ liệu là trường hợp hay gặp phải trong các ứng dụng thực tế khi mà các véc

tơ dạng có một vài thành phần hoặc tất cả các thành phần của nó là chưa biết Có một

số kỹ thuật xử lý trường hợp này như sau:

1 Loại bỏ tất cả các véc tơ có dữ liệu bị khuyết Phương pháp này có thể được sử

dụng khi số các véc tơ bị khuyết dữ liệu là nhỏ so với số lượng tất cả vec tơ của tập

luyện X

2 Đối với thành phần thứ i, tìm ra trung bình dựa trên các vec tơ không bị khuyết thành phần này, sau đó lấy giá trị trung bình tìm được thay thế cho giá trị thứ i của

vec tơ bị khuyết

3 Đối với tất cả các cặp thành phần xi và yj của các vec tơ x và y ta định nghĩa bi:

1 á ườ ℎợ ℎá (2.30)

Trang 23

Khi đó độ gần gũi của hai véc tơ x và y được xác định bởi:

của ℘( , ) Khi đó cách định nghĩa trên bảo đảm là độ gần gũi giữa hai véc tơ x và

y phủ kín cả khoảng đóng [a, b], vì không tính đến số các đặc trưng khuyết trong cả

hai véc tơ đó

4 Tìm trung bình ∅ ( ) của tất cả các véc tơ trong X theo tất cả các thành phần

i =1,…l Rõ ràng là một số véc tơ x có thành phần i là bị khuyết trong trương hợp

này chúng ta định nghĩa độ gần gũi giữa thành phần thứ i của hai véc tơ x và y là

2.2.3 Độ đo sự gần gũi giữa một điểm và một tập

Trong mô hình phân cụm, một véc tơ x được xếp vào cụm C tùy theo độ gần gũi của x với cụm C đó, và hàm mô tả độ gần gũi này được ký hiệu là ℘( , ) Có hai hướng

định nghĩa hàm ℘( , ) sau:

+ Hàm đo độ gần gũi cực đại:

Trang 24

phân cụm Trong số đó phần tử đại diện là một điểm, một siêu phẳng, một siêu cầu được sử dụng nhiều nhất Thông thường đối với một cụm có dạng compact ta chọn một điểm làm phần tử đại diện trong khi đối với cụm có dạng băng dải ta thường chọn phần

tử đại diện là một siêu phẳng

a Phần tử đại diện là một điểm

Ta có thể chọn một trong số các véc tơ sau làm phần tử đại diện:

+ Véc tơ trung bình:

(2.36)

Trang 25

+ Véc tơ trung bình trung tâm ∈ được định nghĩa:

Trong đó d là độ đo không tương tự giữa hai điểm, trong trường hợp độ đo này được

thay bởi độ đo tương tự thì bất đẳng thức đảo chiều

b Phần tử đại diện là một siêu phẳng

Phương trình cơ bản của siêu phẳng H là:

+ = + = 0 (2.39)

Trong đó x =[x1, x2, …x l]T và a =[a1, a2, …a l]T là véc tơ trọng số của H Khoảng cách

giữa x và H là:

( , ) = min

∈ ( , ) (2.40)

Trong trường hợp sử dụng khoảng cách Euclide thì khoảng cách giữa véc tơ x và siêu

phẳng H được xác định như sau:

( , ) =

‖ ‖ (2.41)

c Phần tử đại diện có dạng một siêu cầu

Phương trình tổng quát của siêu cầu Q là:

Trang 26

(x - C) T (x - C) = r 2 (2.42)

Trong đó C là tâm của siêu phẳng và r là bán kính Khoảng cách từ điểm x tới siêu cầu

Q được định nghĩa:

( , ) = min{ ( , )} (2.43)

và trong hầu hết các trường hợp thì d là khoảng cách Euclide

2.2.4 Độ đo sự gần gũi giữa hai tập

Một số dạng hàm xác định độ gần gũi giữa hai tập là:

+ Hàm xác định độ đo cực đại:

∈ , ∈ ℘( , ) (2.44) + Hàm xác định độ đo cực tiểu:

∈ , ∈ ℘( , ) (2.45) + Hàm xác định độ đo trung bình:

Trang 27

Các thuật toán phân cụm tuần tự BSAS (Basic Sequential Algorithmic Scheme) nói

chung đều là các thuật toán đơn giản, dễ hiểu, dễ cài đặt và có ưu điểm về tốc độ xử lý nhanh

3.2 Các thuật toán phân cụm tuần tự

Một đặc điểm chung trong các thuật toán phân cụm tuần tự là số lần duyệt các véc tơ đặc trưng trong thuật toán là một số cụ thể Chúng ta sẽ tìm hiểu các thuật toán tuần tự dựa trên đặc điểm này

3.2.1 Trường hợp các véc tơ đặc trưng được duyệt trong thuật toán duy nhất một lần

Trong trường hợp này khi xét một véc tơ, nó sẽ thuộc vào một trong các cụm của phân cụm trước đó nếu thỏa mãn các điều kiện xác định trước của phân cụm hoặc được xếp vào một cụm mới

Đặt d(x, C) là khoảng cách (hoặc độ không tương tự) giữa vec tơ đặc trưng x và một cụm C Có hai tham số sử dụng trong thuật toán là giới hạn (hay ngưỡng cho phép) của

độ không tương tự và giới hạn cho phép của số cụm q Ý tưởng cơ bản của thuật toán

là một véc tơ được sẽ xét thuộc một cụm đã tồn tại khi nó chưa vượt khỏi ngưỡng đã cho về độ không tương tự trên Còn trong trường hợp ngược lại nếu số cụm được hình

Trang 28

thành chưa vượt ngưỡng q của số cụm cho phép thì nó sẽ được xếp vào một cụm mới

Đặt m là số cụm hiện thời, khi đó thuật toán BSAS (Basic Sequential Algorithmic

Scheme) được mô tả như sau:

trong đó mC là phần tử đại diện của C

thủ tục cập nhật lại phần tử đại diện của C được biểu diễn:

= (3.2)

Trang 29

Thuật toán phân cụm tuần tự có thể áp dụng cho trường hợp ta sử dụng độ đo tương tự

thay cho độ đo không tương tự khi đó chúng ta cần thay hàm min đã xét trên bằng hàm

định giới hạn số lớn nhất q các cụm để thuật toán hội tụ

Do đó trong phần này chúng ta xét một phương pháp ước lượng số cụm hợp lý nhất áp dụng cho thuật toán phân cụm tuần tự

Ý tưởng của phương pháp là:

· Chạy s lần thuật toán BSAS( ), mỗi lần dữ liệu được duyệt theo thứ tự khác

nhau

· Ước lượng số lượng cụm , là số cụm có tần suất thu được lớn nhất ở bước trên

lựa chọn dựa trên sự lựa chọn độ đo không tương tự d(x, C) Từ kết quả thực nghiệm ta thấy rằng số lần lặp s càng lớn thì thuật toán càng hội tụ và số cụm thu được càng

chính xác

Trang 30

3.2.2 Thuật toán phân cụm tuần tự cải tiến MBSAS (Modified Basic Sequential

Algorithmic Scheme)

Trong thuật toán phân cụm BSAS mô tả ở trên, một véc tơ khi được duyệt nếu nó không thỏa mãn một trong hai điều kiện giới hạn của thuật toán thì sẽ tạo một cụm mới chỉ chứa véc tơ đó Do đó xảy ra trường hợp tồn tại một số véc tơ không thuộc bất kỳ một cụm nào (hay có một số cụm chỉ chứa duy nhất một véc tơ) khi thuật toán kết thúc

Để khắc phục hạn chế này chúng ta đưa ra thuật toán phân cụm tuần tự cải tiến

MBSAS (Modified Basic Sequential Algorithmic Scheme), tuy nhiên MBSAS cũng phải trả giá cho những cải tiến này khi các véc tơ của tập luyện X phải xử lý hai lần

Thuật toán MBSAS được chia làm hai giai đoạn Giai đoạn thứ nhất chứa thủ tục phân cụm như trong thuật toán BSAS nhằm tìm ra số cụm; giai đoạn thứ hai là xét các véc tơ

X không thuộc các cụm trong giai đoạn đầu và kết nạp chúng vào cụm gần nhất

Mô tả thuật toán:

Trang 31

Thuật toán MBSAS cũng có thể áp dụng trong trường hợp sử dụng các độ đo tương tự

3.2.3 Thuật toán phân cụm tuần tự hai ngưỡng TTSAS (Two – Threshold

Sequential Algorithm Scheme)

Trong mục này chúng xét một phương pháp cải tiến thuật toán BSAS theo hướng sử

một cụm C nào đó được xét hay không

Nội dung phương pháp này gồm các bước sau:

· Nếu < d(x, C) < (trường hợp không chắc chắn) thì việc gán x vào một

cụm sẽ được thực hiện trong một bước sau

Trang 32

Ký hiệu clas(x) là cờ của x, clas(x) nhận hai giá trị 0 và 1; m là số cụm mà thuật toán

sinh ra tại bước hiện thời Chúng ta mô tả thuật toán TTSAS dưới ngôn ngữ giả mã như sau:

Thuật toán TTSAS

Trang 34

3.2.4 Các phương pháp hiệu chỉnh thuật toán BSAS

Trong phần này chúng ta tìm hiểu về các phương pháp hiệu chỉnh nhằm khắc phục các hạn chế khi áp dụng các thuật toán BSAS Các phương pháp hiệu chỉnh này có thể được áp dụng như là một bước cải tiến trong thuật toán BSAS

+ Một trường hợp xảy ra khi áp dụng các thuật toán phân cụm trên ta thu được một số cụm có khoảng cách khá gần nhau Trong trường hợp này bước hiệu chỉnh thích hợp cho thuật toán là kết hợp các cụm đó thành một cụm Thủ tục kết hợp này được thực hiện theo các bước sau:

Thủ tục hợp nhất các cụm (Merging procedure):

· (A) tìm C i , C j (i<j) mà d(C i , C j )=min k,r=1…m, k≠r d(C k , C r )

· If (d(C i , C j ) ≤ M 1 )

* Kết hợp C i , C j thành C i

* Đổi lại tên các cụm C j+1 , …, C m thành C j , …, C m-1

M1 có thể định nghĩa dựa trên các tiêu chuẩn về độ không tương tự ta đã xác định ở chương trước

+ Một trường hợp khác xảy ra khi việc chọn thứ tự các véc tơ được duyệt trong thuật

Trang 35

thuật toán chúng ta nhận thấy rằng x2 lại gần với một cụm Ci nào đó Như vậy về lý

thuyết x2 phải thuộc Ci Để xử lý trường hợp này chúng ta áp dụng thuật toán sau:

Thủ tục phân cụm lại (Reassign procedure):

3.2.5 Thuật toán BSAS cải tiến (kết hợp các phương pháp hiệu chỉnh)

Chúng ta có thể kết hợp hai thủ tục cải tiến trên để xây dựng lên thuật toán BSAS cải tiến mới được mô tả như sau:

Giả sử xuất phát với (m >1) cụm trong đó mỗi cụm chứa một trong số m véc tơ của tập

X (gồm có N phần tử) Khi đó ta thực hiện thủ tục kết hợp (Merging procedure) và nếu

giả sử theo thủ tục này ta hợp nhất hai cụm nào đó thành một cụm thì bước tiếp theo sẽ

duyệt N – m véc tơ còn lại để xét xem chúng thuộc vào cụm nào trong số m – 1 cụm (do vừa kết hợp hai cụm thành một nên số cụm mới là m - 1) và cập nhật lại phần tử đại

gần nó nhất là lớn hơn một ngưỡng đã định trước thì ta tạo một cụm mới chỉ chứa duy

nhất phần tử xi này Quá trình hợp nhất các cụm lặp lại cho đến khi ta duyệt xong

N – m phần tử còn lại của X Cuối cùng chúng ta sẽ thực hiện thủ tục phân cụm lại (Reassign procedure)

Như vậy thuật toán cần thực hiện N – m +1 lần thủ tục hợp nhất các cụm

Trang 36

Ø Các bước mô tả thuật toán:

Bước 1: Giả sử có m cụm chứa m véc tơ của X

Bước 2: Áp dụng thủ tục hợp nhất (Merging procedure) kết hợp m cụm trên

Bước 3: Phân cụm các véc tơ còn lại vào m cụm đã có theo thuật toán BSAS

Bước 4: Áp dụng thủ tục hợp nhất (Merging procedure) kết hợp số các cụm mới thu

được ở bước 3

Bước 5: Áp dụng thủ tục phân cụm lại (Reassign procedure) đối với các véc tơ

Trang 37

r < k cụm nếu mỗi cụm thuộc phân cụm ℛ đều là một tập con của cụm nào đó thuộc phân cụm ℛ và có ít nhất một cụm của phân cụm ℛ là một tập con đích thực của phân cụm ℛ và ta ký hiệu là ℛ ⊏ ℛ Ví dụ ℛ ={{x1, x3}, {x4}, {x2, x5}} nằm trong

ℛ ={{x1, x3, x4},{x3, x5}} Rõ ràng rằng theo khái niệm trên, một phân cụm không nằm trong chính nó

Các thuật toán phân cụm theo thứ bậc sẽ tạo ra một cây phân cấp các phân cụm Một cách cụ thể hơn, các thuật toán này bao gồm N bước, chính là số lượng các véc tơ dạng

mẫu của tập X Tại bước t, một phân cụm mới được sinh ra dựa trên các cụm của bước

t -1

Trang 38

Các thuật toán phân cụm theo thứ bậc được chia làm hai nhóm chính là: nhóm các

thuật toán phân cụm tích tụ và nhóm các thuật toán phân cụm phân rã Ta giả sử ℛ là

số cụm ở bước khởi tạo, khi đó:

(tương ứng với số các véc tơ dạng mẫu của X), ở bước đầu tiên của thuật toán phân

cụm sẽ sinh ra ℛ có N -1 cụm nên ℛ ⊏ ℛ … thuật toán lặp cho đến bước cuối cùng,

Ngược lại các thuật toán phân cụm phân rã sẽ xác định ℛ chỉ chứa một cụm duy nhất

là tất cả các thành phần của X, ở bước đầu tiên sinh ra ℛ chứa hai cụm và có

cụm, mỗi cụm này là một véc tơ dạng mẫu của X Ta có:

Trong phần tiếp theo chúng ta sẽ tìm hiểu cụ thể về hai nhóm thuật toán này

4.2 Các thuật toán phân cụm tích tụ

Thuật toán phân cụm tích tụ có thể được mô tả như sau:

Thuật toán phân cụm tích tụ GAS (generalized agglomerative scheme)

1 Khởi tạo:

1.1 Chọn ℛ ={C i ={x i }, i= 1,2…N}

1.2 t =0

2 Lặp

Trang 39

Sinh ℛ theo công thức ℛ = ℛ − , ∪

· Kết thúc khi tất cả các véc tơ của tập luyện X đều nằm trong một cụm

Ø Đánh giá thuật toán:

Xét tại bước t, khi đó chỉ còn N – t véc tơ riêng biệt, nên để tìm được cặp cụm được kết

cặp cụm phải kiểm tra trong suốt quá trình thuật toán thực hiện là:

( − 1) ( + 1)

6 Nghĩa là, tổng số phép toán mà thuật toán phân cụm tích tụ thực hiện là một hàm tỷ lệ

định nghĩa hàm g

4.2.1 Định nghĩa một số đại lượng hữu ích trong thuật toán

Nhóm các thuật toán phân cụm tích tụ được chia thành hai nhóm con, nhóm con thứ nhất dựa trên các khái niệm của lý thuyết ma trận, còn nhóm con thứ hai dựa trên các khái niệm của lý thuyết đồ thị Trước khi thảo luận về các nhóm này, chúng ta cần định nghĩa một số khái niệm liên quan

+ Ma trận mẫu D(X) là ma trận cấp N×l với hàng thứ i là chuyển vị của véc tơ thứ i trong X

Trang 40

+ Ma trận tương tự (không tương tự) P(X) là một ma trận cấp N×N trong đó thành phần (i, j) bằng độ tương tự s(xi, xj) (hoặc độ không tương tự d(xi, xj)) giữa xi và xj P cũng

có thể được gọi là ma trận gần gũi P là một ma trận đối xứng Tuy nhiên nếu P là ma

trận tương tự, các thành phần trên đường chéo chính của nó sẽ nhận giá trị cực đại của

hàm s và bằng 1 và ngược lại nếu P là một ma trận không tưng tự thì các thành phần trên đường chéo chính của nó sẽ nhận giá trị cực tiểu của hàm d và bằng 0 Chú ý rằng

với một ma trận mẫu, có thể có nhiều ma trận gần gũi khác nhau khi ta lựa chọn các độ

định thì chỉ có duy nhất một ma trận gần gũi tương ứng cho một ma trận mẫu

11456⎦

Ma trận không tương tự tương ứng khi ta chọn độ đo không tương tự là khoảng cách Euclide:

1 0 4.2 5.7 6.7

5 4.2 0 1.4 2.5

6.45.71.40 1.1

7.46.72.51.1

0.75 1 0.44 0.35 0.2

0.26 0.44 1 0.96 0.9

0.210.350.961 0.98

0.18 0.2 0.9 0.981

Ngày đăng: 15/07/2017, 23:15

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w