Phương pháp phân cụm

Một phần của tài liệu QUẢN Lý d6cntt epu dai (Trang 33 - 38)

CHƯƠNG 2: KỸ THUẬT TRA CỨU ẢNH DỰA VÀO NỘI DUNG VÀ SỬ DỤNG PHƯƠNG PHÁP TRUY VẤN ĐA ĐIỂM.

2.3 Phương pháp phân cụm

Có rất nhiều phương pháp cũng như thuật toán dùng để phân cụm. Tuy nhiên trong bài toán này e sử dụng thuật toán K-Mean vì tính đơn giản, dễ sử dụng, có khả năng mở rộng và dễ thay đổi đối với những dự liệu mới. Dưới đây là cơ sở lý thuyết và áp dụng vào bài toán.

2.3.1 Cơ sở lý thuyết của K-mean -Đầu vào:

Tập các đối tượng X = {xi| i = 1, 2, …, N}, Số cụm: K

- Đầu ra:

Các cụm Ci ( i = 1 ÷ K) tách rời và hàm tiêu chuẩn E đạt giá trị tối thiểu. - Thuật toán hoạt động trên 1 tập vectơ d chiều, tập dữ liệu X gồm N phần tử:

X = {xi | i = 1, 2, …, N}

- K-Mean lặp lại nhiều lần quá trình: Gán dữ liệu.

Cập nhật lại vị trí trọng tâm

- Quá trình lặp dừng lại khi trọng tâm hội tụ và mỗi đối tượng là 1 bộ phận của 1 cụm.

21 1 (|| || ) i j N i j i x C x c = ∈ − ∑ ∑

- Hàm đo độ tương tự sử dụng khoảng cách Euclidean E =

trong đó cj là trọng tâm của cụm Cj

- Hàm trên không âm, giảm khi có 1 sự thay đổi trong 1 trong 2 bước: gán dữ liệu và định lại vị trí tâm.

2.3.1.1 Mô tả thuật toán.

Bắt đầu

Số cụm K

Trọng tâm

Khoảng cách các đối tượng đến các trọng tâm

Không có đối tượng chuyển nhóm

+- -

Hình 2.3: Sơ đồ thuật toán K-Means 2.3.1.2 Các bước của thuật toán

Thuật toán K-Means thực hiện qua các bước chính sau:

Bước 1 - Khởi tạo

Chọn K trọng tâm {ci} (i = 1÷K). Bước 2 - Tính toán khoảng cách

Bước 3 - Cập nhật lại trọng tâm

Bước 4 – Điều kiện dừng

Lặp lại các bước 2 và 3 cho tới khi không có sự thay đổi trọng tâm của cụm. 2.3.1.3 Đánh giá thuật toán K-means.

Ưu điểm:

-Độ phức tạp: O(K.N.l) với l: số lần lặp

-Có khả năng mở rộng, có thể dễ dàng sửa đổi với những dữ liệu mới. -Bảo đảm hội tụ sau 1 số bước lặp hữu hạn.

-Luôn có K cụm dữ liệu

-Luôn có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu.

-Các cụm không phân cấp và không bị chồng chéo dữ liệu lên nhau.

-Mọi thành viên của 1 cụm là gần với chính cụm đó hơn bất cứ 1 cụm nào khác.

Nhược điểm:

- Không có khả năng tìm ra các cụm không lồi hoặc các cụm có hình dạng phức tạp.

- Khó khăn trong việc xác định các trọng tâm cụm ban đầu - Chọn ngẫu nhiên các trung tâm cụm lúc khởi tạo

- Độ hội tụ của thuật toán phụ thuộc vào việc khởi tạo các vector trung tâm cụm

- Khó để chọn ra được số lượng cụm tối ưu ngay từ đầu, mà phải qua nhiều lần thử để tìm ra được số lượng cụm tối ưu.

- Rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu.

- Không phải lúc nào mỗi đối tượng cũng chỉ thuộc về 1 cụm, chỉ phù hợp với đường biên giữa các cụm rõ.

2.3.2 Áp dụng thuật toán K-Means vào bài toán

Hình ảnh Màu R Màu G Màu B

A 2 9 5

B 4 8 4

C 7 4 5

D 8 5 3

Bước 1: Khởi tạo

Chọn 2 trọng tâm ban đầu:

c1 (2;9;5) ≡A thuộc cụm 1 và c2 (4;8;4) ≡ B thuộc cụm 2.

Bước 2: Tính khoảng cách d(C, c1) = (7-2)2 + (4-9)2 + (5-5)2 = 50 d(C,c2) = (7-4)2 + (4-8)2 + (5-4)2 = 26 d(C, c1) > d(C, c2) => C thuộc cụm 2 d(D, c1) = (8-2)2 + (5-9)2 + (3-5)2 = 56 d(D, c2) = (8-4)2 + (5-8)2 + (3-4)2 = 26 d(D, c1) > d(D, c2) => D thuộc cụm 2

Bước 3: Cập nhật lại trọng tâm

Trọng tâm cụm 1 c1 ≡ A(2;9;5) Trọng tâm cụm 2 c2 = (;; ) = (;;4)

Bước 4-1: Lặp lại bước 2 – Tính khoảng cách

d(A, c1) = 0 < d(A, c2) = 30,89 => A thuộc cụm 1 d(B, c1) = 6 < d(B, c2) = 10,89 => B thuộc cụm 1 d(C, c1) = 50 > d(C, c2) = 4,22 => C thuộc cụm 2 d(D, c1) = 56 > d(D, c2) =4,22 => D thuộc cụm 2

Bước 4-2: Lặp lại bước 3 - Cập nhật lại trọng tâm

Trọng tâm cụm 1 c1 = (;; ) = (;) Trọng tâm cụm 2 c2 = (;; ) = (;;4)

Bước 4-3: Lặp lại bước 2 – Tính khoảng cách

d(A, c1) = 1,5 < d(A, c2) = 51,5 => A thuộc cụm 1 d(B, c1) = 1,5 < d(B, c2) = 24,5 => B thuộc cụm 1 d(C, c1) = 36,5 > d(C, c2) = 1,5 => C thuộc cụm 2 d(D, c1) = 39,5 > d(D, c2) = 1,5 => D thuộc cụm 2

Tới bước này, tâm cụm không thay đổi(các hình ảnh không có sự thay đổi) thì sẽ dừng lại. Kết thúc phân cụm ở đây và ta có cụm 1 gồm ảnh A, ảnh B, cụm 2 gồm ảnh C và ảnh D.

Một phần của tài liệu QUẢN Lý d6cntt epu dai (Trang 33 - 38)

Tải bản đầy đủ (DOCX)

(62 trang)
w