Các loại phân cụm và phân hoạch tương ứng [2]- 123docz.net

2.5. eNERF

2.6. Các ví dụ

2.7. Tóm tắt

2.1. Mở đầu

Trong bốn thập kỷ qua, rất nhiều thuật toán phân cụm đã được phát triển và sử dụng thành công trên các dữ liệu có kiểu và kích thước khác nhau. Tuy nhiên, cũng trong thời gian đó, các kỹ thuật thu thập dữ liệu đã được cải thiện, dẫn tới kết quả là các tập dữ liệu có thể vượt quá dung lượng bộ nhớ chính của hầu hết các trạm máy tính. Tập dữ liệu có kích thước lớn hơn 10 gigabytes (tức lớn hơn 1012 bytes) không phải là không phổ biến. Các thuật toán

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

phân cụm có thể theo kịp với kích thước của các tập dữ liệu hiện tại không? Theo Huber [27], người đã định nghĩa các tập dữ liệu lớn là có cấp độ lớn của 108 byte, “Một vài nhiệm vụ quản lý cơ sở dữ liệu chuẩn đơn giản với độ phức tạp tính toán O(n) hoặc O(nlogn) vẫn còn khả thi với các tập dữ liệu khổng lồ cỡ terabyte, trong khi những thuật toán khác (ví dụ như phân cụm) đã vỡ tung ngay với các tập dữ liệu đủ lớn”. Thế hệ tiếp theo của các thuật toán phân cụm phải không vỡ tung (đứng vững) khi xử lý dữ liệu lớn hoặc thậm chí là đối với cả dữ liệu rất lớn (ít nhất cấp độ lớn của 1012 bytes).

Một cách để tấn công vấn đề phân cụm trong dữ liệu rất lớn được thảo luận trong [34], ở đó các khái niệm về mở rộng được giới thiệu. Nói chung, một lược đồ phân cụm được mở rộng áp dụng một thuật toán phân cụm cho một mẫu đại diện (và có kích thước kiểm soát được) cho toàn bộ tập dữ liệu, sau đó mở rộng không lặp lại kết quả mẫu để thu được các cụm (xấp xỉ) cho các dữ liệu còn lại trong toàn bộ mẫu. Các thuật toán bao gồm các cơ chế riêng của chúng cho việc mở rộng được gọi là các thuật toán mở rộng. Ngược lại, một lược đồ nguyên gốc áp dụng thuật toán phân cụm mà không có hiệu chỉnh nào tới toàn bộ tập dữ liệu.

Hai mở rộng khác nhau trong dữ liệu lớn của phân cụm c-trung bình mờ nguyên gốc (LFCM) xuất hiện trong [23, 34]. Mở rộng nhanh eFFCM sử dụng các kiểm định thống kê đơn giản (chi-bình phương hoặc phân kỳ) trên các mẫu ngẫu nhiên của dữ liệu ảnh dạng số để tìm một tập con “thích hợp” của dữ liệu. Sau đó LFCM được áp dụng cho mẫu chọn và cuối cùng, các kết quả LFCM mở rộng không lặp lại đối với các phần còn lại của ảnh. Phương pháp eFFCM được tổng quát hóa trong [23] để làm việc với dữ liệu đối tượng không phải là ảnh. Thuật toán có được geFFCM cung cấp một phương tiện cho phân cụm các tập dữ

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

liệu đối tượng của các vectơ đặc trưng là quá lớn để có thể nạp được vào trong bộ nhớ chính của một máy tính đơn.

Xét một tập gồm N đối tượng o1,, oN. Dữ liệu đối tượng số có dạng  1, , N s

X  x  x  R ở đó tọa độ của xi cung cấp những giá trị nổi bật (ví dụ: trọng lượng, độ dài…) để mô tả đối tượng oi. Thuật toán geFFCM làm việc tốt với dữ liệu đối tượng, nhưng đôi khi các phép đo thực hiện trong suốt quá trình thu thập dữ liệu là dữ liệu quan hệ kiểu số, gồm N2cặp tương tự (hoặc phi tương tự) được miêu tả bằng một ma trận R = [Rij = (phi) tương tự (oi,oj) |1i, jN] .

Nhiều thuật toán phân cụm được biết đến và sử dụng cho cả hai loại dữ liệu. Chúng ta luôn luôn có thể chuyển X thành dữ liệu phi tương tự D = D(X) bằng

cách tính dij  xi xj ở một chuẩn vectơ bất kỳ trên s, vì vậy hầu hết các thuật toán phân cụm quan hệ được áp dụng (một cách không tường minh) cho các dữ liệu đối tượng . Tuy nhiên, có những tập dữ liệu quan hệ tương tự và phi tương tự đều không bắt đầu như là dữ liệu đối tượng, và do đó, chúng ta không có lựa chọn nào khác ngoại trừ việc sử dụng một thuật toán quan hệ. Trong nhiều lĩnh vực ứng dụng, một biểu diễn quan hệ có thể phản ánh cách mà dữ liệu được thu thập và lưu trữ. Hãy xem xét các vấn đề phân cụm các diễn viên dựa vào việc họ có cùng đóng trong một bộ phim, hoặc phân cụm các tài liệu dựa trên việc sử dụng các từ tương tự nhau hay không. Trong mỗi trường hợp, một biểu diễn tự nhiên cho dữ liệu chính là một quan hệ nhị phân để xác định sự tương tự giữa các đối tượng. Hay một vấn đề tương tự phát sinh trong tiếp thị, khi cố gắng nhóm các dòng sản phẩm mà chúng thường xuyên được mua cùng nhau. Thay vì lưu trữ tất cả các giao dịch mua bán, một biểu diễn hiệu quả hơn là chỉ lưu giữ tần suất những cặp sản phẩm được mua cùng nhau.

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

Đến nay, nhiều thuật toán đã được đề xuất cho phân cụm với dữ liệu đối tượng VL, nhưng (như chúng ta nhận thức được) không tồn tại thuật toán nào đối với dữ liệu quan hệ “thuần túy” (tức: R  R(X), dữ liệu quan hệ nhận được từ

một dữ liệu đối tượng X nào đó). Mục tiêu của chúng ta ở đây là xác định và phát triển một thuật toán có thể được sử dụng để phân cụm dữ liệu quan hệ VL.

Chúng ta sẽ theo hướng của eFFCM và geFFCM, theo đuổi mục tiêu của chúng ta thông qua lấy mẫu tăng dần và mở rộng. Phần 2.5 cung cấp thông tin cơ bản về công trình trước đó liên quan đến việc xử lý các tập dữ liệu rất lớn. Ở đây, chúng ta mô tả bốn giai đoạn cần thiết để xây dựng một dạng mở rộng của thuật toán phân cụm quan hệ NERF. Phần 2.6 chúng ta chứng minh các khía

cạnh khác nhau của thuật toán mới bằng việc sử dụng ba tập dữ liệu quan hệ. Phần cuối chương tóm tắt công việc hiện tại và liệt kê một số vấn đề mở cho các nghiên cứu trong tương lai.

2.2. Phân loại kích thước các tập dữ liệu [7]

Mục tiêu của việc mở rộng phụ thuộc vào kích thước của dữ liệu. Khi tập dữ liệu rất lớn, lấy mẫu và mở rộng cung cấp một giải pháp phân cụm (tức là làm cho phân cụm khả thi) cho các trường hợp mà nó không thể khả thi với cách tiếp cận nguyên gốc tương ứng. Nếu dữ liệu chỉ là lớn, nhưng vẫn có thể nạp vào bộ nhớ thì một lược đồ được mở rộng có thể cung cấp một giải pháp xấp xỉ có thể so với các giải pháp nguyên gốc với mức chi phí tính toán được giảm thiểu một cách đáng kể, nói cách khác, nó làm tăng tốc độ lược đồ nguyên gốc tương ứng. Vì vậy những lợi ích cho hai trường hợp có thể được tóm tắt như tính khả thi cho tập dữ liệu VL và tăng tốc cho các tập dữ liệu L. Cả hai tình huống được mô tả trong hình 2.1, trong đó tập dữ liệu được phân cụm là RL hoặc RVL. Tập R biểu

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

được mở rộng được đề xuất chọn Rs, phân cụm nó, và sau đó mở rộng kết quả tới RL hoặc RVL.

Thử nghiệm của chúng ta nhằm đánh giá liệu Rs có là đại diện của mẫu ban đầu có thể yêu cầu một xử lý cơ bản nào đó của toàn bộ mẫu. Chúng ta có thể nạp RL vào trong bộ nhớ chính và thực hiện yêu cầu xử lý (để kiểm tra các mẫu). Ta không thể nạp RVL nhưng có thể đọc từng trang của RVLmột lần để thu thập những thống kê đơn giản (ví dụ số khoảng cho một biểu đồ tần số) cần để đánh giá chất lượng của các mẫu ứng viên.

Một khác biệt cơ bản khác nữa giữa hai trường hợp liên quan đến việc tính một lỗi (sai số) xấp xỉ. Đối với các tập dữ liệu L, chúng ta có thể đánh giá lỗi xấp xỉ bằng cách đo sự khác biệt giữa các giải pháp phân cụm thu được bằng cách sử dụng các lược đồ mở rộng và nguyên gốc tương ứng. Mặt khác, giải pháp chung duy nhất đã có sẵn cho một tập dữ liệu VL có được thu bởi lược đồ mở rộng, trong trường hợp này lỗi xấp xỉ không thể đo được. Như vậy, sự tin tưởng của chúng ta về tính chính xác của các cụm mở rộng trong trường hợp không thể kiểm chứng được (RVL) nhất thiết được suy từ dáng điệu tốt mà

Hình 2.1. Quần thể R và các mẫu RVL, RL, RS

R (quần thể)

RVL(không nạp được) Mục tiêu: khả thi Lỗi xấp xỉ: không đo được

RL(nạp được) Mục tiêu: tăng tốc Lỗi xấp xỉ: đo được

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

chúng ta quan sát được bằng cách tiến hành các thí nghiệm RL khác nhau. Tiếp theo chúng ta xem xét một số cách tiếp cận khác đối với phân cụm các tập dữ liệu lớn.

Cốt lõi của giai đoạn 1 của bất kỳ lược đồ mở rộng nào là lấy mẫu tăng dần. Provost [38] cung cấp một phân tích dễ đọc và một tóm lược về các lược đồ lấy mẫu tăng dần. Nghiên cứu của họ cho thấy lấy mẫu tăng dần hiệu quả hơn những cách tiến hành nguyên gốc trong nhiều trường hợp khác nhau. Meek [32] cung cấp một phương pháp lấy mẫu tăng dần cho phân cụm (EM). Mọi mở rộng trên cơ sở FCM của chúng ta đều yêu cầu chạy duy nhất của thuật toán phân cụm chính trên mẫu được chấp nhận, trong khi các phương pháp của [38, 32] cho rằng các thuật toán ban đầu sẽ được sử dụng chạy trên mỗi mẫu trong lịch trình cho đến khi lấy mẫu tăng dần chấm dứt, và đầu ra của thuật toán trên mẫu cuối cùng là kết quả cuối cùng (các mẫu chưa được xử lý cũng theo cách đó).

Thuật toán chạy/quét một lần sử dụng tất cả dữ liệu VL một cách tuần tự, với một vài lược đồ xử lý toàn bộ tập dữ liệu trong các khối quản trị được và sau đó kết hợp các kết quả từ mỗi khối. Ví dụ về các thuật toán chạy/quét một lần có thể được tìm thấy trong [8, 9,19, 41]. Các cụm cuối cùng được xây dựng lên từ “các cụm con” bằng cách xử lý lần lượt từng khối.

Các lược đồ dữ liệu đối tượng cho phân cụm các tập dữ liệu đối tượng rất lớn bao gồm tiếp cận dựa trên đồ thị trong Ng và Han [33], thuật toán phân cấp CURE [21], và một phương pháp trong Fayyad và Smyth [18] xây dựng các cụm xác xuất từ một mẫu và sau đó xác nhận kết quả mẫu bằng cách sử dụng dữ liệu bổ sung. Domingos và Hulten [14] rút ra một xấp xỉ cho các lỗi thống kê trong cụm rõ thu được bằng cách sử dụng mẫu hiện thời. Xấp xỉ này sau đó được sử

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

dụng để xác định một mẫu đủ tốt. Các lược đồ dữ liệu đối tượng mờ khác phần nào liên quan đến phương pháp quan hệ của phần tiếp theo là: FFCM được giới thiệu bởi Uma Shankar và Pal [40], trong đó FCM được áp dụng cho các mẫu lồng nhau lớn dần cho đến khi có chút thay đổi trong các giải pháp phân cụm, và thủ tục nhiều giai đoạn lấy mẫu ngẫu nhiên fuzzy c-means (mrFCM) của Cheng [11] mà thực chất là việc kết hợp FFCM với việc chạy phiên bản gốc cuối cùng của FCM trên toàn bộ tập dữ liệu bằng cách sử dụng kết quả mẫu cuối cùng như là khởi tạo của nó. Trái ngược với FFCM và mrFCM, phương pháp mới được đề xuất trong mục 2.5 dành riêng cho dữ liệu quan hệ chỉ cần một ứng dụng của thuật toán chính cho mẫu cuối cùng được chấp nhận. Nghiên cứu khác để đẩy nhanh FCM cho các vấn đề lớn hơn thì ít liên quan đến lược đồ mở rộng ở đây và có thể tìm thấy trong [10, 16, 30].

2.3. Các vectơ nhãn và các phân hoạch [4]

2.3.1. Các ký hiệu

Các vectơ được in đậm (x, v, V, ...); x p là ma trận kích thước p x 1,

1 p

(x , , x )

 

x . Tên của các ma trận và các tập hợp thì không được in đậm (mặc dù ma trận U kích thước c x p là một vectơ trong   cp c x p). Với ma trận

U  , chúng ta có thể viết dòng thứ i của U là U(i) p và cột thứ k của U là

c k 

U . Bằng quy ước này, khi giải thích U như một vectơ cột kích thước cp x 1, chúng ta có thể viết U (U1,,Up)  (U(1),,U(p))T cp. Khi giải thích các

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

đơn,…, c dòng: U  (U(1),,U(c))  cp {U(1),,U(p)}T p và sử dụng O

là vectơ không trong tất cả các không gian vectơ, cụ thể là trong p và cp.

Hai kiểu dữ liệu được sử dụng trong nhận dạng mẫu bằng số là: dữ liệu đối tượng (đặc trưng hoặc các vectơ mẫu) và dữ liệu quan hệ. Dữ liệu đối tượng được biểu diễn là X  { ,x1 x2,,xn} p, là một tập gồm n vectơ đặc trưng trong không gian đặc trưng p. Nhiều tác giả trong một vài trường hợp gọi các đặc trưng của mỗi đối tượng là các thuộc tính và các tác giả khác thì gọi là các đặc trưng. Đối tượng thứ j là một thực thể vật lý chẳng hạn như một chiếc xe,

một bệnh nhân, một báo cáo chứng khoán,…Vectơ cột xj là biểu diễn bằng số của nó; xkj là giá trị đặc trưng hoặc giá trị của thuộc tính thứ k của đối tượng thứ

j. Các đặc trưng có thể là các giá trị rời rạc hoặc liên tục trong .

2.3.2. Các vectơ nhãn

Một trong những cấu trúc cơ bản trong nhận dạng mẫu và phân cụm dữ liệu là vectơ nhãn. Có bốn kiểu nhãn lớp là: rõ, mờ, xác suất và khả năng. Cho n là số đối tượng (hoặc đặc trưng hoặc số các hàng và cột trong dữ liệu quan hệ), số nguyên c biểu thị cho số lớp sao cho 1 c n. Thông thường, c khác 1 và n, tuy

nhiên chúng ta cho phép khả năng này để xử lý các trường hợp đặc biệt có thể xảy ra.

Ta định nghĩa ba tập các vectơ nhãn trong cnhư sau:

c i i { : y [0,1] i, y 0 }=[0,1]c { } pc N  y    i  O (2.1) c

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

i 1 2 c

{ : y {0,1} i} { e ,e ,...,e }

hc fc

N  yN    (2.3)

Trong (2.1) O là vectơ không trong c. Chú ý rằng Nhc Nfc  Npc. Hình 2.2 mô tả ba tập với c3. Nhc là vectơ đơn vị cơ bản của c-không gian Euclid, do đó i (0, 0,..., 1 ,..., 0)T



e là đỉnh thứ i của Nhc, là nhãn rõ của lớp (cụm) i

với 1 i c.

Tập Nfc là một phần của mặt phẳng, là phần diện tích bị giới hạn bởi tam giác có ba đỉnh là tậpNhc. Vectơ y  0.1, 0.6, 0.3 Tlà một vectơ nhãn bị ràng buộc, các thành phần của nó nằm giữa 0 và 1, và có tổng là 1. Trọng tâm của Nfc

là vectơ có các thành phần bằng nhau l c/  l / c,...,l / c T. Nếu y là một vectơ

nhãn cho các x p được sinh ra bởi phương pháp phân cụm c-trung bình mờ, ta sẽ gọi y là nhãn mờ của x. Nếu y được sinh ra từ một phương pháp chẳng hạn

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

như được đánh giá có khả năng xảy ra là lớn nhất trong phân tích hỗn hợp, trong trường hợp này y sẽ là một nhãn xác suất. Khi đó, 1/c là điểm duy nhất của các

xác suất bằng nhau cho tất cả c lớp. [0,1]c { }

N   O là hình lập phương đơn vị trong c, ngoại trừ gốc tọa độ. Các vectơ như z 0.7, 0.2, 0.7 Tvới mỗi thành phần nằm giữa 0 và 1 và không bị ràng buộc là tổng của chúng phải bằng 1 được gọi là các nhãn khả năng trong Np3. Các nhãn khả năng được sinh ra bởi các thuật toán phân cụm khả năng (Krishnapuram and Keller, 1993) và bởi các mạng nơron tính toán có các hàm truyền tín hiệu moidal đơn cực tại c nút đầu ra (Zurada, 1992).

2.3.3. Các phân hoạch

Một c-phân hoạch của O (hoặc D) là một tập gồm (cN) các giá trị {uik} là một

Các loại phân cụm và phân hoạch tương ứng [2]

Các cụm và các hình mẫu

Lấy mẫu tăng dần và thuật toán PS