Phương pháp gom nhóm

Một phần của tài liệu luận văn NHẬN DẠNG MẶT NGƯỜI VỚI ĐẶC TRƯNG GABOR WAVELET KẾT HỢP ADABOOST (Trang 53 - 57)

j ti i i

2.3.2Phương pháp gom nhóm

Định nghĩa

Phương pháp gom nhóm là gom các đối tượng dữ liệu tương tự với một đối tượng khác vào trong một nhóm và khơng tương tự với các đối tượng trong các nhóm khác. Các đối tượng dữ liệu được gom nhóm chỉ dựa trên thơng tin được tìm thấy trong dữ liệu mơ tả những đối tượng đó hay những mối quan hệ của chúng. Mục đích của gom nhóm là để gom tập các đối tượng thành các nhóm có ý nghĩa, những đối tượng bên trong một nhóm thì tương tự (có liên quan) với nhau và chúng khác (không liên quan) với những đối tượng trong các nhóm khác. Nếu sự tương tự trong một nhóm càng lớn và sự khác nhau giữa các nhóm càng nhiều thì phép gom nhóm càng tốt hơn hay dễ phân biệt hơn.

Trong nhiều ứng dụng, khái niệm một nhóm khơng được định nghĩa rõ ràng. Để hiểu rõ hơn sự khó khăn khi quyết định điều gì tạo thành một nhóm, chúng ta xem hình 2.10, biểu diễn hai mươi điểm và ba cách phân nhóm khác nhau. Những ký hiệu chỉ rõ thành phần của mỗi nhóm. Hình 2.10(b) và 2.10(d) lần lượt chia dữ liệu thành hai và sáu nhóm. Khơng thể khơng có lý khi cho rằng các điểm tạo thành bốn nhóm như trong hình 2.10(c). Hình này biểu diễn định nghĩa một nhóm là khơng chính xác và định nghĩa tốt nhất phụ thuộc vào trạng thái nguyên thủy của dữ liệu và những kết quả mong muốn.

Các ứng dụng của phương pháp gom nhóm

Có nhiều ứng dụng của phương pháp gom nhóm đối với những vấn đề thực tiễn. Chúng tơi cung cấp một vài ví dụ tiêu biểu tùy theo mục đích nghiên cứu hay ứng dụng.

Tiếp thị: khám phá các nhóm khác hàng phân biệt trong CSDL mua hàng. Sử dụng đất: nhận dạng các vùng đất sử dụng giống nhau khi khảo sát

CSDL quả đất.

Bảo hiểm: nhận dạng các nhóm cơng ty có chính sách bảo hiểm mơ tơ với

chi phí đền bù trung bình cao.

Hoạch định thành phố: nhận dạng các nhóm nhà cửa theo loại nhà, giá trị

và vị trí địa lý.

Hình 2.10 – Các cách chia nhóm khác nhau của cùng một tập điểm.

Y học: Một bệnh thường xuyên có một số biến thể và phương pháp gom

nhóm có thể dùng để nhận ra những nhóm con khác nhau này. Phép gom nhóm có thể dùng để nhận dạng những mẫu trong sự phân bố không gian hay thời gian của một bệnh.

Phục hồi thông tin: World Wide Web chứa hàng tỉ trang web và kết quả của

một lệnh truy vấn trong search engine có thể trả về hàng ngàn trong web. Phép gom nhóm có thể dùng để nhóm những kết quả tìm kiếm này vào những nhóm, mỗi nhóm đề cập một khía cạnh riêng biệt của lệnh truy vấn. Chẳng hạn, tìm kiếm từ khóa “movie” có thể trả về những trong web được nhóm thành các loại như reviews, trailers và stars. Mỗi nhóm có thể chia thành các nhóm con sinh ra một cấu trúc thứ bậc giúp cho người dùng dễ dảng hơn trong chọn lọc kết quả.

Các phương pháp gom nhóm chủ yếu

Phương pháp dựa trên phân hoạch: tạo một phân hoạch của cơ sở dữ liệu

chứa n đối tượng thành tập gồm k nhóm sao cho: mỗi nhóm chứa ít nhất là một đối tượng và mỗi đối tượng thuộc về đúng một nhóm. Nghĩa là cho trước một số nguyên dương k, tìm một phân hoạch có k nhóm nhằm tối ưu tiểu chuẩn phân hoạch được chọn (tiêu chuẩn phân hoạch ở đây thường dùng là độ đo bình phương sai SSE, sẽ được nói rõ trong phần sau). Các thuật toán tiêu biểu trong phương pháp phân hoạch là: thuật toán k-means (MacQueen-1967) biểu diễn mỗi nhóm bằng trọng tâm của các dữ liệu trong nhóm đó và thuật tốn k-medoids (Kaufman và Rousseeuw-1987) biểu diễn mỗi nhóm bằng một đối tượng nằm gần trung tâm của nhóm, hình 2.11.

Phương pháp dựa trên phân cấp: xây dựng các nhóm và tổ chức như cây

phân cấp. Phân cấp nhóm thường tạo cây các nhóm hay cịn được gọi là dendrogram để lưu lại q trình phân chia nhóm. Các lá của cây biểu diễn các đối tượng riêng lẻ. Các nút trong của cây biểu diễn các nhóm. Phương pháp này ta không cần biết trước số nhóm k và xác định số nhóm cần thiết bằng việc cắt

chính là: tích tụ - Agglomerative (từ dưới lên – mỗi đối tượng là một nhóm) và

phân chia - Divisive (từ trên xuống - tất cả đối tượng là một nhóm), hình 2.12.

Hình 2.11 – Minh họa thuật tốn gom nhóm k-means.

Hình 2.12 – Minh họa gom nhóm dựa trên phương pháp phân cấp.

• Tích tụ: Đưa từng đối tượng vào nhóm riêng của nó. Ở mỗi bước trộn hai nhóm tương tự nhất cho đến khi chỉ cịn một nhóm hay thỏa điều kiện kết thúc.

• Phân chia: Bắt đầu bằng một nhóm lớn chứa tất cả đối tượng. Phân chia nhóm phân biệt nhất thành các nhóm nhỏ hơn và xử lý cho đến khi có n nhóm hay thỏa điều kiện kết thúc, hình 2.13.

Hình 2.13 – Hai loại phương pháp tạo kiến trúc phân cấp nhóm.

Các thuật tốn phổ biến trong phương pháp này là: thuật toán AGNES (Agglomerative Nesting), thuật toán DIANA (Divisive Analysis), thuật toán BIRCH (Balance Iterative Reducing & Clustering using Hierachies), thuật toán CURE (Clustering Using Representative),… [15, 22].

Phương pháp dựa trên mật độ: mở rộng các nhóm cho đến khi mật độ của

đối tượng dữ liệu trong vùng lân cận vượt qua ngưỡng. DBSCAN là thuật tốn gom nhóm tiêu biểu cho phương pháp này.

Ngồi ra cịn có các phương pháp để gom nhóm dữ liệu như là phương pháp dựa trên lưới và phương pháp dựa trên mơ hình.

Một phần của tài liệu luận văn NHẬN DẠNG MẶT NGƯỜI VỚI ĐẶC TRƯNG GABOR WAVELET KẾT HỢP ADABOOST (Trang 53 - 57)