Giới thiệu về phân cụm dữ liệu bản đồ véctơ

Một phần của tài liệu Nghiên cứu phương pháp phân cụm dữ liệu bản đồ véc tơ và ứng dụng (Trang 37 - 42)

CHƯƠNG 2 CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU

2.1 Giới thiệu về phân cụm dữ liệu bản đồ véctơ

Từ góc độ thực tế, phân cụm (clustering) là một việc làm diễn ra tự nhiên và được thực hiện thường xuyên. Ví dụ như phân loại sinh viên theo học lực khá, giỏi, …; phân loại đất đai theo chất lƣợng đất; phân loại các trạm rút tiền theo tiêu chí gần một vị trí cụ thể nào đó, … Việc phân cụm chính là quá trình thực hiện gom các đối tƣợng có cùng tính chất hay có các tính chất gần giống nhau thành nhóm.

Tiền thân của các kỹ thuật phân cụm dữ liệu trong khai phá dữ liệu xuất phát từ lĩnh vực toán học thống kê và phân tích số. Trong lĩnh vực máy học, phân cụm dùng để tìm mẫu ẩn trong đó sử dụng kỹ thuật tìm kiếm nhóm bằng việc học không giám sát (unsupervised) và hệ thống trả về kết quả biểu diễn dưới dạng dữ liệu khái niệm. Phân cụm dữ liệu khác với phân loại (classification) ở chỗ phân loại cho biết trước số lượng lớp các đối tượng và giá trị nhãn của các lớp. Phân loại là phương pháp học có giám sát (supervised).

2.1.1.Phân cụm dữ liệu và một số khái niệm liên quan

Phân cụm (clustering) là việc chia tập dữ liệu bao gồm đối tƣợng thực thể hay trừu tượng thành nhóm các đối tượng tương tự. Một nhóm là một tập hợp các đối tượng mà các phần tử của nó tương tự nhau trong cùng một cụm và không tương tự với các đối tượng trong nhóm khác. Một nhóm các đối tượng dữ liệu có thể xem là một cụm trong nhiều ứng dụng. Việc biểu diễn dữ liệu thuộc một vài nhóm cần thiết hơn so với việc hiển thị toàn bộ dữ liệu chi tiết.

Thực tế cho thấy phân cụm dữ liệu là một phương pháp nổi bật trong các ứng dụng khai phá dữ liệu ở nhiều lĩnh vực nhƣ khai phá dữ liệu khoa học, trích rút thông tin và khai phá văn bản, nhận dạng mẫu, ứng dụng cơ sở dữ liệu không gian, xử lý ảnh, phân tích Web, maketing, quản lý quan hệ khách hàng (CRM – Customers Relationship Management), ... Cụ thể, trong thương mại, những nhà phân tích thị trường sử dụng phân cụm để tìm ra những nhóm khách hàng riêng biệt và mô tả đặc điểm của từng nhóm khách hàng dựa trên những mẫu thu

được, nhóm những người có chính sách bảo hiểm ôtô với chi phí bồi thường trung bình ở mức cao, nhận dạng nhóm nhà trong một thành phố theo kiểu nhà, giá trị và vị trí địa lý. Trong sinh học, phân cụm dùng để phân loại thực vật và động vật, phân loại gen với các chức năng tương đồng thu được bên trong các cấu trúc vốn có trong dân cư. Trong quản lý môi trường tài nguyên, phân cụm giúp nhận dạng các vùng đất giống nhau dựa vào cơ sở dữ liệu quan sát trên trái đất. Nó cũng có thể giúp phân loại các tài liệu trên Web nhằm phát hiện xu hướng của thông tin.

Phân tích phân cụm đƣợc sử dụng nhƣ công cụ độc lập chuẩn để quan sát đặc trƣng của mỗi cụm thu đƣợc bên trong sự phân bố của dữ liệu và tập trung vào một tập riêng biệt của các cụm để giúp cho việc phân tích dễ dàng hơn.

Phân cụm có thể dùng như một bước tiền xử lý cho các thuật toán khác, như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm.

Nếu phương pháp phân cụm sinh ra các cụm có chất lượng cao thì đó là phương pháp tốt. Điều đó thể hiện ở: Thứ nhất, giữa các đối tượng trong cùng lớp có độ tương tự cao, còn giữa các đối tượng khác lớp có độ tương tự thấp.

Thứ hai, nó phụ thuộc vào đơn vị đo độ tương tự và quá trình thực hiện của phương pháp đó. Thứ ba, có khả năng tìm ra một số hay tất cả các mẫu ẩn bên dưới dữ.

Khi các đặc tính của dữ liệu được xác định, cần có hướng giải quyết thích hợp để tính được “khoảng cách”, còn gọi là phép đo tương tự, giữa các đối tƣợng dữ liệu. Đó là hàm để đo sự “giống nhau” giữa các cặp đối tƣợng dữ liệu, các hàm này cho phép tính độ tương tự hoặc phi tương tự giữa các đối tượng.

Nếu giá trị của hàm lớn có nghĩa các đối tƣợng giống nhau hơn. Trong lĩnh vực toán học, khái niệm khoảng cách dùng để nói về độ gần nhau giữa hai đối tƣợng.

Ngược lại, trong ngữ cảnh và các lĩnh vực ứng dụng khác thì khái niệm tương ứng chính là độ tương tự. Việc dùng phương pháp khác nhau để tính khoảng cách ảnh hưởng đáng kể tới kết quả và phụ thuộc vào kiểu thuộc tính dữ liệu cần phân tích .

Nhìn chung, khoảng cách dij giữa 2 điểm bất kỳ trong không gian nhiều chiều có thể đƣợc tính bằng công thức do Minkowski đƣa ra:

n p

i

p jk ik

ij x x

d

1

1 

 

 

 

Trong đó k là chỉ số tọa độ và p xác định kiểu khoảng cách.

- Nếu p = 1 và dùng trên biến khoảng hoặc liên tục thì là khoảng cách Manhattan.

- Nếu p = 1 và dùng trên thuộc tính kiểu nhị phân thì là khoảng cách Hamming (xác định số các bit 1 giống nhau giữa 2 dãy giá trị nhị phân).

- Nếu p = 2 thì chính là khoảng cách Euclidean.

Trong các dạng trên, khoảng cách Euclidean đƣợc sử dụng phổ biến để tính độ tương tự giữa các đối tượng. Chú ý, các dạng khác nhau của công thức đo khoảng cách Minkowski không tính đến trường hợp sử dụng hệ đo khác nhau của các chiều. Do vậy cần phải quy các chiều về cùng một tỷ lệ trước khi thực hiện việc tính toán để kết quả chính xác hơn.

2.1.2.Phân cụm dữ liệu bản đồ

Trong cộng đồng sử dụng dữ liệu địa lý, khai phá dữ liệu hứa hẹn nhiều công cụ mới và hữu ích để phân tích dữ liệu trong đó bao gồm cả công cụ phân cụm dữ liệu bản đồ. Ví dụ nhƣ xác định các vùng đất sử dụng giống nhau trên cơ sở dữ liệu trái đất, hợp nhất các vùng có cùng kiểu thời tiết, … Mặc dù, công cụ phân cụm là nhánh nhỏ của khai phá dữ liệu nhƣng với khối lƣợng lớn các ứng dụng có dùng nó khiến công cụ này phát triển vƣợt bậc.

Phân cụm không gian véctơ là nhóm các đối tƣợng không gian vào các lớp/nhóm sao cho các đối tượng trong cùng một nhóm thì tương tự nhau và không tương tự với đối tượng thuộc nhóm khác. Việc gom nhóm có thể dựa trên các thuộc tính phi không gian, thuộc tính không gian với sự lân cận, gần gũi (proximity) các đối tƣợng hay sự kiện trong không gian, thời gian và không gian thời gian (space-time).

Việc lựa chọn một thuật toán phân cụm thích hợp để khai phá dữ liệu tùy thuộc vào kiểu, loại ứng dụng. Các đặc tính cần quan tâm của thuật toán phải kể đến nhƣ: thuật toán xử lý đƣợc kiểu thuộc tính nào, có thích hợp với tập dữ liệu lớn không, có khả năng làm việc trên dữ liệu nhiều chiều ra sao, có khả năng tìm đƣợc các cụm có hình dạng đặc biệt, có xử lý đƣợc dữ liệu nhiễu không, … Ngoài ra trong quá trình lựa chọn thuật toán cần xem xét đến một vài nhân tố dưới đây.

2.1.2.1. Mục tiêu của ứng dụng

Mục tiêu của ứng dụng thường ảnh hưởng đến loại thuật toán phân cụm đƣợc sử dụng. Ví dụ chuỗi siêu thị muốn tìm kiếm các vị trí tốt để đặt kho hàng, siêu thị, nên cần phân cụm khách hàng sao cho tổng khoảng cách tới trung tâm của cụm khách hàng là nhỏ nhất. Khi đó, nếu khoảng cách tới trung tâm của cụm là tiêu chí đánh giá thì cần chọn thuật toán thuộc nhóm phân đoạn nhƣ k- means và k-medoids.

Với ứng dụng phân tích dữ liệu ảnh raster và nhận dạng ảnh thì xu hướng chung là tìm các cụm tự nhiên như nhận biết bằng mắt thường các đám đông.

Trong trường hợp này, việc tìm kiếm các cụm dựa trên tính đồng đều trong mật độ, màu sắc hoặc là một hình khối hay kích thước tùy ý. Thuật toán thuộc nhóm phân cụm dựa trên mật độ sẽ đƣợc lựa chọn.

2.1.2.2. Cân đối giữa chất lƣợng và tốc độ

Việc so sánh và lựa chọn giữa tốc độ của thuật toán phân cụm và chất lượng các cụm mà nó sinh ra luôn luôn được người dùng quan tâm. Một thuật toán phân cụm thích hợp với ứng dụng nào đó thì cần thỏa mãn cả yêu cầu về chất lượng và tốc độ của nó. Thông thường kích thước của dữ liệu cần phân cụm là nhân tố quan trọng trong thời gian thực hiện thuật toán phân cụm.

Một thuật toán phân cụm có thể cho chất lƣợng tốt trên tập dữ liệu nhỏ nhƣng không đảm bảo chất lƣợng khi thực hiện trên tập dữ liệu lớn.

2.1.2.3. Đặc tính của dữ liệu

Sự tương tự giữa hai đối tượng dữ liệu được đánh giá bằng sự khác nhau trong các dữ liệu thuộc tính của chúng. Khi các thuộc tính là kiểu số thì việc đo khoảng cách nhƣ khoảng cách Euclidean hay Manhattan có thể đƣợc tính dễ dàng. Tuy nhiên, nếu thuộc tính thuộc kiểu thứ tự hay kiểu tên thì việc tính toán khoảng cách hết sức phức tạp. Hầu hết các thuật toán phân cụm đều thực hiện trên biến kiểu số.

Bậc (dimensionality) của dữ liệu là số thuộc tính của đối tƣợng dữ liệu.

Nhiều thuật toán phân cụm thực hiện tốt trên dữ liệu có bậc thấp, nhƣng khi bậc của dữ liệu tăng lên thì thuật toán có kết quả kém chính xác. Nguyên nhân của chiều hướng xấu có thể do tăng thời gian thực hiện hoặc giảm chất lượng cụm.

Để thực hiện phân cụm trên dữ liệu bậc cao, thời gian thực hiện và chất lƣợng của thuật toán cần đặt lên hàng đầu. Số lƣợng thuộc tính của đối tƣợng dữ liệu trên 16 thì đối tượng được xếp vào đối tượng có bậc cao. Trên thực tế, người ta cần giảm, thu gọn chiều của đối tƣợng bằng cách loại đi các thuộc tính không thích hợp với quá trình phân tích để thuật toán phân cụm đƣợc thực hiện tốt hơn.

Ví dụ với ứng dụng khai phá văn bản và trích rút thông tin, khối lƣợng dữ liệu xử lý có hàng ngàn thuộc tính (từ hoặc số chỉ mục), người ta sử dụng kỹ thuật chuyển đổi các thuộc tính (attributes transformation) và phân rã vùng (domain decomposition). Trong đó, việc chuyển đổi thuộc tính là quá trình đơn giản hóa các thuộc tính hiện có nhƣ dùng thuộc tính Thành tiền thay vì dùng 2 thuộc tính Số lƣợng và Đơn giá. Phân rã vùng là tiến hành chia dữ liệu thành các tập con rồi thực hiện thuật toán trên tập con đó hay dùng phép tính toán tốn chi phí ít hơn.

Một số thuật toán phân cụm có thể đƣa ra kết quả không tốt nếu khối lƣợng dữ liệu đó có thông tin nhiễu (noise) hoặc tồn tại các phần tử ngoại lai (outlier).

Để có đƣợc kết quả tốt cần lựa chọn thuật toán có tính đến các yếu tố này.

Một phần của tài liệu Nghiên cứu phương pháp phân cụm dữ liệu bản đồ véc tơ và ứng dụng (Trang 37 - 42)

Tải bản đầy đủ (PDF)

(74 trang)