Khái niệm:

Một phần của tài liệu Luận văn: Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu ppt (Trang 54 - 55)

Phân cụm là quá trình nhóm một tập các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tương tự. Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau trong cùng một cụm và phi tương tự với các đối tượng trong cụm khác. Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng.

Phân cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng ta vẫn làm và thực hiện hàng ngày ví dụ như phân loại học sinh khá, giỏi trong lớp, phân loại đất đai, phân loại tài sản, phân loại sách trong thư viện… Việc phân loại này là thực hiện gom các đối tượng có cùng tính chất hay có các tính chất gần giống nhau thành nhóm.

Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con người. Ngay từ lúc bé, con người đã học cách làm thế nào để phân biệt giữa mèo và chó, giữa động vật và thực vật, và liên tục đưa vào sơ đồ phân loại trong tiềm thức của mình. Phân cụm được sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trường... Bằng phân cụm, người ta có thể nhận ra những vùng mau (đông) và những vùng thưa, và vì vậy phát hiện ra toàn bộ các mẫu phân bố và quan tâm tới sự tương quan giữa các thuộc tính dữ liệu. Trong thương mại, phân cụm có thể giúp những nhà phân tích thị trường tìm ra những nhóm riêng biệt trong những cơ sở khách hàng của họ và mô tả đặc điểm của những nhóm khách hàng dựa trên những mẫu thu được. Trong sinh học, nó có thể được sử dụng để phân loại thực vật và động vật, phân loại gen với các chức năng tương đồng thu được bên trong các cấu trúc vốn có trong dân cư. Phân cụm cũng có thể giúp trong việc nhận dạng các vùng đất giống nhau dựa vào cơ sở dữ liệu quan sát trên

trái đất, và trong việc nhận dạng các nhóm những người có chính sách bảo hiểm ôtô với mức chi phí bồi thường trung bình cao cũng như việc nhận dạng những nhóm nhà trong một thành phố theo kiểu nhà, giá trị và vị trí địa lý. Nó cũng có thể giúp phân loại các tài liệu trên WWW nhằm phát hiện thông tin. Với tư cách là một chức năng khai phá dữ liệu, phân tích phân cụm có thể được sử dụng như một công cụ độc lập chuẩn để quan sát đặc trưng của mỗi cụm thu được bên trong sự phân bố của dữ liệu và tập trung vào một tập riêng biệt của các cụm để giúp cho việc phân tích. Phân cụm có thể dùng như một bước tiền xử lý cho các thuật toán khác, như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm.

Có thể nghiên cứu các phương pháp phân tích phân cụm có hiệu quả và hiệu suất cao trong cơ sơ dữ liệu lớn. Những mục tiêu trước tiên của nghiên cứu là tập trung vào khả năng mở rộng của các phương pháp phân cụm, tính hiệu quả của các phương pháp cho phân cụm với những hình dạng phức tạp , những kỹ thuật cho

phân cụm với nhiều kiểu dữ liệu có kích cỡ lớn và những phương pháp cho phân

cụm dữ liệu tường minh và những dữ liệu dạng số hỗn hợp trong cơ sở dữ liệu lớn.

Phân cụm được sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu,

phân tích dữ liệu, xử lí ảnh, nghiên cứu thị trường,... Ứng dụng trong luận văn này là phân cụm được sử dụng để tìm kiếm thông tin.

Một phần của tài liệu Luận văn: Nghiên cứu phát triển hệ thống đa phương tiện trên cơ sở phân cụm dữ liệu ppt (Trang 54 - 55)