3.5. Tóm tắt chương
3.1. Mở đầu
Một thách thức lớn trong nhận dạng mẫu là làm thế nào để đo được hiệu quả tính toán của các thuật toán phân cụm trên các tập dữ liệu lớn. Mở rộng của phân cụm c-trung bình mờ quan hệ phi Euclid (NERF) đối với dữ liệu quan hệ rất lớn (không nạp được) được gọi là thuật toán phân cụm NERF mở rộng, bao gồm 4 giai đoạn như đã phân tích trong chương 2. Các ví dụ được công bố trước đó trên một vài tập dữ liệu cho thấy eNERF là khả thi đối với các tập dữ liệu thực sự lớn. Tuy nhiên, dường như các giai đoạn (i) và (ii)… tức là tìm kiếm Rn, là không thực tế bởi vì kích thước mẫu n thường là khoảng 50% của N, và việc lấy mẫu quá nhiều (over-sampling) này đã triệt tiêu toàn bộ mục đích của eNERF. Trong chương này này chúng ta sẽ kiểm tra việc thực hiện của lược đồ lấy mẫu eNERF với các tham số khác nhau và đề xuất một lược đồ lấy mẫu sửa đổi để sử
Chương 3. Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn
dụng với eNERF kết hợp lấy mẫu ngẫu nhiên đơn giản với các thủ tục lấy mẫu được sử dụng bởi eNERF và một thuật toán liên quan sVAT. Ta sẽ chứng minh rằng lược đồ lấy mẫu sửa đổi có thể loại bỏ việc lấy mẫu quá nhiều của lược đồ lấy mẫu tăng dần ban đầu, vì vậy cho phép xử lý dữ liệu thực sự rất lớn. Các ví dụ bằng số trên một ma trận khoảng cách của một tập gồm 3.000.000 vectơ được rút ra từ một hỗn hợp của 5 phân phối chuẩn hai chiều chứng minh tính khả thi và hiệu quả của phương pháp lấy mẫu được đề xuất. Theo đó, ta cũng thấy rằng thực tế việc chạy eNERF trên một tập dữ liệu có kích thước này rất tốn kém về thời gian tính toán. Vì vậy, các kết quả thử nghiệm sẽ chứng minh việc hiệu chỉnh tiếp theo của eNERF, đặc biệt là giai đoạn mở rộng, sẽ là cần thiết trước khi nó thực sự có ích cho dữ liệu VL.
Cụ thể hơn, trong chương này, chúng tôi trình bày một số nội dung chính như sau:
- Chứng minh sự nhạy cảm của lược đồ lấy mẫu tăng dần trong eNERF với
dữ liệu lấy mẫu quá lớn.
- Phát triển một lược đồ lấy mẫu sửa đổi cho eNERF, được gọi là lấy mẫu
chọn lọc, trong đó sử dụng kết hợp lấy mẫu ngẫu nhiên và phân hoạch nguyên
mẫu gần nhất (nearest-prototype partitioning ) để xây dựng một tập các mẫu cho
phân cụm; và
- Chứng tính hiệu quả của lược đồ lấy mẫu chọn lọc theo nghĩa giảm lượng
dữ liệu cần phải được lấy mẫu, trong khi vẫn duy trì tính chính xác của các kết
quả phân cụm cuối cùng so với thuật toán eNERF ban đầu.
Trong phần 3.2 chúng ta sẽ đề cập tới những thách thức trong lấy mẫu dữ liệu bằng thuật toán DF+PS. Trong phần 3.3, chúng tôi phân tích lược đồ lấy
Chương 3. Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn
mẫu tăng dần được sử dụng bởi eNERF dẫn đến các kích thước mẫu không phù hợp và trình bày một lược đồ lấy mẫu được sửa đổi để khắc phục hạn chế này. Phần 3.4 sẽ đưa ra một vài ví dụ để so sánh các lược đồ lấy mẫu sửa đổi và lược đồ ban đầu dựa trên chất lượng của các cụm xấp xỉ (gần đúng) đối với các tập dữ liệu L hoặc VL. Phần 3.5 là phần tóm tắt chương.
3.2. Những thách thức trong lấy mẫu dữ liệu bằng thuật toán DF+PS
Các mẫu thường cung cấp đủ độ chính xác với ít chi phí tính toán hơn so với việc phân cụm trên toàn bộ tập dữ liệu một cách trực tiếp. Tuy nhiên, có được “vừa đủ” các mẫu để có được độ chính xác là một vấn đề thách thức. Mục đích sử dụng (DF+PS) là để có được một tập đại diện các mẫu làm cơ sở cho việc phân cụm. Việc lấy mẫu tăng dần trong eNERF, kiểm định phân kỳ thống kê giữa mẫu và quần thể được thực hiện cho từng đặc điểm nổi bật được chọn, và lấy mẫu chỉ chấm dứt khi tất cả các kiểm định của tất cả các đặc điểm nổi bật qua được. Chúng tôi tin rằng có các phương pháp tính toán rẻ và/hoặc tốt hơn để kết thúc việc lấy mẫu tăng dần. Kiểm định phân kỳ có phải là cách dự báo tốt nhất không? Câu trả lời có lẽ là “không”. Thật không may, các kiểm định phân kỳ xem ra rất hạn chế trong thực tế, và kích thước mẫu n thu được bởi lược đồ này hóa ra gần bằng 50% của N, điều đó hoàn toàn không thực tế đối với dữ liệu thực VL. Ví dụ 1 trong phần 3.4 sẽ cho thấy rằng ngay cả đối với dữ liệu L, PS
cũng không thể kết thúc ngay cả khi n bằng 20% - 50% của N. Chúng tôi đã
kiểm tra việc thực hiện lấy mẫu của eNERF với một loạt điều chỉnh các thông số trong phần 3.4, và chúng tôi thấy rằng kích thước mẫu vẫn cực lớn, và không thể được giảm nhiều bởi bất kỳ sự kết hợp nào của các thông số trong PS.
Chương 3. Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn
3.3. Lấy mẫu chọn lọc bằng thuật toán SS
Để giải quyết vấn đề nêu trên, chúng tôi đã phát triển một lược đồ lấy mẫu sửa đổi để kết hợp các yếu tố từ các công trình của Bezdek [7] và Hathaway [26] với lấy mẫu ngẫu nhiên phân bố đều đơn giản (RS). Lược đồ mới này được gọi là lấy mẫu chọn lọc, hoạt động như sau: Trước tiên, chúng ta thu được NN mẫu
NN
D từ N mẫu ban đầu bằng cách lấy mẫu ngẫu nhiên đều, nghĩa là DN DNN với RS. Các mẫu DNN này thực hiện vai trò hầu quần thể có kích thước kiểm soát được cho các bước tiếp theo. Sau đó ta chọn c’ đối tượng nổi bật từ tập con kích thước H x H của DNN, sao cho c’ đối tượng này có thể được sử dụng như là các bản mẫu (prototypes) để hướng dẫn lấy mẫu, nghĩa là DNN DH, từ đó có được
c’ đặc điểm nổi bật bằng cách sử dụng DF từ eNERF. Tiếp theo, ta nhóm mỗi
đối tượng trong { ,o o1 2, . . . , oNN}với đối tượng nổi bật gần nó nhất, nghĩa là, xây dựng phân hoạch bản mẫu gần nhất ONN C1C2. . .Cc'. Cuối cùng, ta chọn một số nhỏ ( )ni các mẫu từ mỗi Ci sao cho '
1
c i i n n
. Ưu điểm của lược đồ lấy mẫu sửa đổi này là nó giúp loại trừ PS, và vì vậy, xu hướng của nó để lấy mẫu đủ lớn cho ON. Ngoài ra, nó có thể thực hiện một cách tính hiệu quả, trong đó cho phép xử lý dữ liệu thực sự VL. Để thuận tiện, ta gọi lược đồ lấy mẫu chọn
lọc này là thuật toán lấy mẫu chọn lọc: SS (selective sampling).
Thuật toán SS
Dữ liệu vào: Các cặp phi tương tự DN kích thước N x N
Người dùng nhập vào:
Chương 3. Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn
tượng phân biệt phải chọn;
◦ n = kích thước mẫu (xấp xỉ);
◦ NN = kích thước mẫu trung gian;
◦ H = số đối tượng ứng viên từ đó c’ đối tượng nổi bật được chọn;
SS1. Lấy NN mẫu DNN từ N đối tượng ban đầu bằng cách lấy mẫu ngẫu
nhiên DN, có vai trò hầu quần thể.
Điều này là cần thiết để xử lý dữ liệu VL, và nó là hợp lý bởi vì, nói
chung cN. Hơn nữa, quá nhiều mẫu cho dữ liệu VL cung cấp cơ bản
thông tin dư thừa để đặc trưng cấu trúc của toàn bộ tập dữ liệu.
SS2. Chọn các chỉ số m1, . . . , mc' của c’ đối tượng nổi bật từ H dòng ứng
viên (tức là, ma trận trên cùng H x H từ DNN).
Ma trận DH thì nạp được trong khi đó DNNthì không thể. Bước này sử dụng DF từ eNERF. Lựa chọn H thường được xác định bởi bộ nhớ có sẵn để lưu trữ H(H – 1) / 2phần tử từ DNN.
Chọn ngẫu nhiên đối tượng nổi bật đầu tiên, ví dụ m1 1 (không mất tính tổng
quát) Khởi tạo mảng tìm kiếm s( , . . . ,s1 sH)(d11, . . . .,d1H) For i = 2, . . . , c’ + Cập nhật 1 1 1 1 ,1 2 ,2 ,
(min{ , }, min{ , }, . . . , min{ , })
i i i m m H m H s s d s d s d + Chọn mi arg max{ },1sj jH.
SS3. Nhóm mỗi đối tượng trong { , . . . , o1 oNN} với đối tượng nổi bật gần
nó nhất.
Chương 3. Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn
mẫu gần nhất (nearest prototype rule)
Khởi tạo các tập chỉ số tương ứng của các đối tượng nổi bật
1 2 ' C C ...Cc Ø For k = 1 to NN + Chọn arg min{ , }, 1 ' j m k q d jc + Và sau đó cập nhật CqCq{ }k
SS4. Chọn dữ liệu cho ma trận mẫu Dn gần mỗi đối tượng nổi bật.
For i = 1: c’
+ Tính nhóm thứ i đại diện cho mẫu con kích thước ni n| C | /i NN
+ Lấy ngẫu nhiên nichỉ mục từ Ci
Đặt mẫu S là ký hiệu hợp của tất cả các chỉ số đã được chọn ngẫu nhiên và định
nghĩa n S.
Ra: Ma trận con chính Dn kích thước n x n của DNN tương ứng với các chỉ số dòng/cột trong S.
Cần lưu ý rằng, nếu một tập các đối tượng O được biểu diễn bởi ma trận phi tương tự quan hệ D có thể được phân hoạch thành c1 các cụm tròn trịa và tách được theo định nghĩa của Dunn về các cụm CS, và nếu c'cthì SS2 sẽ chọn ít nhất một đối tượng nổi bật từ mỗi cụm. Và trong trường hợp này, tỷ lệ của các đối tượng trong mẫu từ mỗi cụm bằng với tỷ lệ của các đối tượng trong hầu quần thể từ cùng một cụm.
3.4. Các kết quả thử nghiệm
Mục đích của phần này là kiểm tra những hạn chế của việc sử dụng lược đồ lấy mẫu tăng dần (PS) trong eNERF, và phát hiện ra tính hiệu quả của lược đồ lấy mẫu chọn lọc (SS) như là một lược đồ lấy mẫu thay thế cho eNERF. Để kiểm tra những hạn chế của PS, trước tiên chúng tôi kiểm tra xem liệu việc thực hiện
Chương 3. Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn
chọn các đặc điểm nổi bật hay không, hay với các tham số khác nhau trong việc thiết lập PS. Khi thiết lập xu hướng của PS trong eNERF để lấy đủ mẫu, sau đó chúng tôi đánh giá tính chính xác của eNERF bằng việc sử dụng thuật toán SS trên tập dữ liệu VL.
Tính toán được thực hiện trên máy PC với 2GB RAM và 3.0 GHz CPU. Các chương trình con của eNERF được viết trong phiên bản 7.3 của MATLAB. Các chuẩn dừng sử dụng trong các ví dụ bằng số như sau: Đối với LNERF, chuẩn sup cho các ma trận, xem chúng như các vectơ trong cn
và đối với xNERF, chuẩn sup trên c
. Các chương trình của chúng tôi không được tối ưu để chạy một cách có hiệu quả nhất. Tất cả các ví dụ bằng số sử dụng các hỗn hợp của các phân phối chuẩn như là các tập dữ liệu nguồn. Chúng tôi sử dụng kiểu dữ liệu đơn giản này bởi vì nó rất dễ dàng để tạo ra dữ liệu VL có các đặc trưng được biết đến là hữu ích cho việc đánh giá thuật toán SS.
Phân hoạch và ký hiệu sai số như sau:
true
U phân hoạch rõ true (được ghi lại trong suốt quá trình phát sinh dữ liệu)
lit LNERF,N
U U đầu ra của LNERF, khi được áp dụng cho tất cả DN
app LNERF,n| xNERF,N n
U U U đầu ra của eNERF xấp xỉ Ulit.
2 1 || lit app||F ( lit,ik app,ik)
E U U u u sai số xấp xỉ của các thành viên mờ. (3.1)
2 lit app 1 1 0.5 | ( ) ( ) | c N ik ik i k E H U H U ; sai số xấp xỉ sánh hợp. (3.2) 3 true app 1 1 0.5 | ( ) ( ) | c N ik ik i k E U H U
; sai số huấn luyện xấp xỉ; (3.3)
0.5 | ( ) ( ) |
c N
Chương 3. Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn
Phương trình (3.1) là giá trị khác biệt giữa Ulitvà Uapp theo chuẩn Frobenius. Nó đo sai số gần đúng của các thành viên mờ trong Ulit bởi các thành viên trong
app
U . Phương trình (3.2) đếm số không sánh hợp giữa các cột trong các phiên bản cứng của H(Ulit)và H(Uapp). Hàm H “làm cứng” U ∈ Mfcn bằng cách tìm thành phần lớn nhất trong mỗi cột của U; thay thế nó bởi 1, và đặt (c1) thành phần còn lại bằng 0. Do đó, E2 đo sai số xấp xỉ của các nhãn rõ được sinh ra
bằng cách cứng hóa cả Ulit và Uapp. E2 không phải là “tỷ lệ sai số” theo nghĩa thông thường, nhưng phương trình (3.3) đối với E3 là sai số (huấn luyện) phân lớp của eNERF khi phân hoạch mờ của nó được cứng hóa và dùng như một ước lượng của các nhãn rõ thật của các điểm trong mẫu. Phương trình (3.4) đối với
E4 là sai số phân lớp của LNERF, khi phân hoạch mờ của nó cứng lại và dùng như là một ước tính của các nhãn rõ thật của các điểm trong mẫu.
Ví dụ 1. Ví dụ này sử dụng hai ma trận khác nhau của bình phương khoảng cách Euclid giữa mỗi cặp vectơ trong một tậpN 3000 điểm trong 2
. Mục tiêu của ví dụ này là khảo sát (DF+PS) trong eNERF, và so sánh nó với thuật toán sửa đổi SS của chúng ta bằng cách khảo sát tính chính xác của các phân hoạch eNERF tương ứng. Các vectơ được phân phối theo một hỗn hợp của c5phân phối chuẩn hai chiều.
Đối với dữ liệu I, các thành phần như sau:
tỷ lệ pha trộn: p10.3,p2 0.2,p3 0.1,p4 0.2,p5 0.2;
nghĩa là 1 ( 3, 4) ,T 2 (0, 0) ,T 3 (3,3) ;T 4 (5, 2) , T 5 ( 6,5)T, và các
ma trận hiệp phương sai 1 2 3 4 5 1 0 0 1
Chương 3. Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn
Đối với dữ liệu II, các thành phần như sau:
tỷ lệ pha trộn p10.2,p2 0.2,p3 0.3, p4 0.1,p5 0.2;
nghĩa là 1 ( 3, 3) ,T 2 (0, 0) ,T 3 (3,3) ;T 4 (3, 2) , T 5 ( 3,3) ;T và các ma trận hiệp phương sai
1 2 3 4 5 1 0 1 0 0.1 0 0.5 0 0.2 0 , , , , 0 0.2 0 1 0 1 0 1 0 1
Dữ liệu II được thể hiện ở phía trên bên phải của hình (3.1).
VAT [5] là một công cụ hữu ích để có thể xác định cấu trúc cụm có trong các tập dữ liệu nhỏ. Tiếp cận VAT trình bày thông tin các cặp phi tương tự về N đối tượng như là một ảnh kỹ thuật số hai chiều với N2điểm, sau khi các đối
Hình 3.1. Các hình khuếch tán và các ảnh VAT tương ứng
Chương 3. Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn
tượng được sắp xếp lại một cách phù hợp, do đó ảnh tốt hơn có thể làm nổi bật cấu trúc cụm tiềm năng. Các khối màu tối dọc theo đường chéo chính của ảnh VAT cho thấy cấu trúc cụm trong nằm bên dưới dữ liệu. Các ảnh VAT của các tập dữ liệu I và II được thể hiện trực tiếp ở đồ thị điểm của chúng bên dưới. Cả hai ảnh cho thấy dữ liệu có c5cụm, và đối với các cụm được xác định tốt này, kích thước của mỗi khối phản ánh gần đúng số vectơ được rút ra từ mỗi thành phần của hỗn hợp. Ví dụ, 5 khối trong ảnh bên trái có tỷ lệ xấp xỉ là 2:3:2:2:1 tương ứng với (sắp xếp lại) các điểm được giữ lại với thứ tự p2: p1:p4:p5:p3.