Phân cụm tích lũy dựa trên lan truyền quan hệ

Một phần của tài liệu Phương pháp phân cụm tích lũy và áp dụng tại Ngân hàng Thương mại cổ phần Quân đội (Trang 32)

AP (Affinity Propagation) là một thuật toán có hiệu năng cao hơn hướng phân cụm truyền thống như thuật toán k-means. Thuật toán gọi là voting-PAP (voting partion affinity propagation) là một phương pháp cho việc phân cụm sử dụng tích lũy bằng chứng dựa trên AP. Các cụm kết quả có được bằng voting-PAP không ràng buộc với hình dạng siêu cầu [12]. Voting-PAP bao gồm 3 phần: Partion Affinity propagation (PAP), cây bao phủ tối thiểu đa gốc yếu (relaxed multi-root minimum spanning tree) và bầu cử đa số. PAP là một phương pháp có thể tạo ra tập mẫu khác nhau dựa trên AP. Cây bao phủ tối thiểu yếu là một thuật toán gán điểm dữ liệu có hiệu năng tốt hơn luật gán gần nhất. Bầu cử đa số là một lược đồ sử dụng để tìm một kết quả phân cụm thống nhất của các vùng khác nhau dựa trên ý tưởng của sự tích lũy bằng chứng. Chúng ta cũng bàn làm thế nào tìm một ngưỡng thích hợp tương ứng với một vùng thống nhất ý tưởng xấp xỉ trong bài báo này.

Lan truyền quan hệ (Affinity Propagation – AP) là một thuật toán phân cụm mạnh dựa trên message passing. So sánh với các phương pháp phân cụm thông thường như k- means, AP không cố định số lượng của cụm trước mà nó tìm kiếm để xác định số cụm bằng một trong những đối tượng của nó, gọi là mẫu, thay cho trung tâm hình học ảo. AP điều khiển số lượng của các cụm được xác định bằng các tham số gọi là preferences. Tuy nhiên, kết quả phân cụm lý tưởng không phải luôn luôn đạt được bằng cách thay đổi preferences trong AP, mặc dù một số cụm tốt với các cụm khác nhau có thể có được bằng những tham số thích hợp.

Nếu có nhiều cụm hơn quan niệm, mỗi cụm về thực chất sẽ bị phân chia thành một số cụm nhỏ. Theo nguyên tắc, sự phân chia này có thể là ngẫu nhiên và các điểm dữ

liệu có quan hệ gần gũi có khả năng được đưa cùng vào một cụm. Dựa trên nhận định này, một phương pháp sử dụng tích lũy bằng chứng xuyên suốt lược đồ bầu cử đa số với thuật toán k-means được đề xuất trong [3] để đạt được một kết quả phân cụm của một số lượng thích hợp của các cụm hình dạng ngẫu nhiên. Tuy nhiên, không dễ để chọn được giá trị k để đạt được hiệu quả cao.

Nếu một số lượng sự phân chia tốt với sự ngẫu nhiên có thể đạt được bằng cách chạy AP sau một số xác định lần, và chúng ta sử dụng lược đồ bầu cử trên những sự phân chia này, thì một kết quả phân cụm lý tưởng xấp xỉ có thể đạt được.

Thuật toán gọi là lan truyền quan hệ cụm bầu cử (voting – PAP) bao gồm 3 phần: Đầu tiên, một phương thức, gọi là lan truyền quan hệ vùng (PAP), được đề xuất để tạo ra các tập mẫu khác nhau dựa trên AP. Thứ hai, một thuật toán gán điểm dữ liệu gọi là MST đa gốc yếu được cài đặt để gán các điểm dữ liệu còn lại vào các mẫu bước trên, làm giảm thiểu lỗi hơn so với luật gán gần nhất. Cuối cùng, các kết quả phân cụm khác nhau được kết nối sử dụng tích lũy bằng chứng và một cách để tìm một ngưỡng thích hợp để đạt được một vùng thống nhất lý tưởng xấp xỉ được bàn tới [12].

 Lan truyền quan hệ (Affinity propagation-AP)

Lan truyền quan hệ (AP) [1] có thể được xem như một phương pháp tìm kiếm cực tiểu của một hàm năng lượng

   N i s i ci c E 1 ( , ) ) ( với s(i,ci) 0 (1)

Mỗi nhãn ci chỉ ra bản sao (exemplar) của điểm dữ liệu i, trong khi s(i,ci) là sự giống nhau giữa điểm dữ liệu i và bản sao ci.

Đối với ci=i, s(i,ci) là tham số đầu vào (input preference) cho điểm dữ liệu i chỉ ra làm thế nào một điểm dữ liệu i có thể là exemplar. Trong hầu hết các trường hợp, cấu trúc thống kê và hình học của tập dữ liệu không biết do đó để hợp lý có thể thiết lập các tham số giống nhau. Giá trị chia sẻ này càng lớn, số lượng cụm càng lớn. Trong nội dung luận văn, các tham số (preferences) được thiết lập cùng giá trị nếu không nói gì đến.

Tiến trình của AP có thể được xem như một tiến trình giao tiếp thông điệp với hai loại thông điệp chuyển đổi giữa các điểm dữ liệu, đặt tên là sẵn sàng và đáp ứng (responsibility and availability). Thuật toán được phát biểu bên dưới:

Thuật toán 1: lan truyền quan hệ

Đầu vào: ma trận xấp xỉ của N điểm dữ liệu, SNxN trong đó đường chéo của ma trận là các tham số (preferences).

Đầu ra: phân cụm các điểm dữ liệu

Khởi tạo: thiết lập ma trận sẵn sàng ANxN là 0

Các bước: 1. Cập nhật mọi đáp ứng r(i,k): r(i,k) s(i,k)k k t s

kmax'.. ' {a(i,k') + s(i,k')} (2) 2. Cập nhật mọi biến sẵn sàng a(i,k):

a(i,k) min{0,r(k,k) +  {, } ' . . 'sti ik i max{0,r(i',k)}} (3) a(k,k)   {, } ' . . 'sti ik i max{0,r(i’,k)} (4)

3.Kết nối mọi biến sẵn sàng và các đáp ứng để quan sát các quyết định mẫu: các điểm dữ liệu k này với a(k,k) + r(k,k)>0 là các mẫu được xác định.

4. Nếu các quyết định tạo ra ở bước 3 không thay đổi trong một số lần xác định của sự lặp lại hoặc một số xác định của sự lặp lại đạt được, đến bước 5. Ngược lại, trở lại bước 1.

5. Gán những điểm dữ liệu khác thành các mẫu sử dụng luật gán gần nhất, để gán mỗi điểm dữ liệu tới một mẫu là nó giống nhất.

 Tích lũy bằng chứng dựa trên AP

Kết quả của phân cụm lý tưởng không thể luôn đạt được từ AP bằng việc đơn giản điều chỉnh giá trị tham số (preference value) khi ràng buộc cố định mỗi mẫu phải tham chiếu đến chính nó bắt buộc các cụm xuất .

Ana L.N. Fred đề xuất ý tưởng của tích lũy bằng chứng và kết hợp lược đồ bầu cử đa số với k-means để đạt được kết quả phân cụm thống nhất hình dạng ngẫu nhiên. Tuy nhiên, giá trị k rất khó khăn để chọn trong 3. Nếu k quá nhỏ, sự gán sai có thể xảy ra đối với tập dữ liệu không thông thường. Ngược lại, khả năng của có được một mẫu khởi đầu tốt bằng việc thiết lập ngẫu nhiên sẽ giam xuống.

 Lan truyền quan hệ vùng (PAP)

Từ biểu thức (2), (3), (4), chúng ta có thể thấy rằng trong mỗi vòng lặp của AP, việc cập nhật của mỗi đáp ứng r(i,k) có tính đến các tính sẵn sàng và sự giống giữa i và mọi điểm dữ liệu khác, trong khi sự cập nhật của sự sẵn sàng a(i,k) cũng có một quan hệ với các đáp ứng giữa k và mọi điểm dữ liệu khác. Do đó, đưa ra tập sự giống nhau, kết quả phân cụm đạt được bằng AP là giống nhau với tham số đầu vào giống nhau.

Tuy nhiên, ma trận tính sẵn sàng khởi tạo cũng là một nhân tố sẽ dẫn đến xác điịnh tập mẫu khác nhau. Phương pháp sau được đề xuất để tạo ra tập mẫu khác nhau bằng cách thay đổi ma trận sẵn sàng khởi đầu của AP:

Thuật toán 2. Lan truyền quan hệ vùng

Đầu vào: Ma trận tương tự SNxN của N điểm dữ liệu trong đó đường chéo của ma trận là các tham số (preferences);

Số lượng các khối con: k.

Đầu ra:mẫu của mỗi điểm dữ liệu

Các bước:

1. Tạo ra một sự hoán vị ngẫu nhiên perm của 1 tới N. Thực hiện hoán vị SNxN theo sự hoán vị trước đó và có S'NxN theo kiểu:

s'(i,j)=s(perm(i),perm(j)) (5)

2. Phân chia tập dữ liệu thành k tập con trung bình để phân tích ma trận S'NxN như chỉ ra ở bên dưới:

k phải lớn hơn 1 và nhỏ hơn

    2 N ; S‟11, S‟22,…, S‟kk là các đỉnh vuông, và kích thước của S‟11, S‟22,…, S‟k-1,k-1 là     k N .

3. Sử dụng ma trận nhỏ S’11, S’22,…, S’kk như đầu vào của AP, và chạy chúng theo thứ tự trên. Sau đó chúng ta lấy được k ma trận sẵn sàng A’11, A’22, …, A’kk.

4. Kết nối A’11, A’22, …, A’kk để xây dựng ma trận sẵn sàng khởi tạo của cả tập dữ liệu:

Tất cả các thành phần cònl ại của ma trận A’ đều là 0.

5. Chạy AP sử dụng A’ như ma trận sẵn sàng khởi tạo để có được tập mẫu I’. 6. Khôi phục I’

I(i) = perm(I’(i)) (8) 7. Gán các điểm dữ liệu còn lại vào các mẫu

Một sự hoán vị ngẫu nhiên sẽ dẫn đến sự phân cụm đa dạng của tập dữ liệu do đó tạo ra các ma trận sẵn sàng và các tập mẫu khác nhau. N là giới hạn trên của số lượng các cụm của một tập dữ liệu của kích thước N bởi luật ngón tay cái, do đó có trung bình ít nhất hai điểm dữ liệu của mỗi cụm trong mỗi tập con.

Số lượng cụm tạo ra bởi PAP hầu hết giống như thuật toán AP ban đầu.

 MST đa gốc yếu

Các kết quả thí nghiệm chỉ ra rằng khi giá trị tham số (preference value) được thiết lập là một nữa của trung bình của sự giống nhau đầu vào, số lượng các mẫu xác định bởi AP sẽ luôn bằng hoặc lớn hơn N . Thậm chí với giá trị này như tham số chia sẻ (shared preference), một số sự gán sai, mặc dù ít hơn kết quả của k-means, có thể vẫn xảy ra sử dụng luật gán gần nhất.

Tính đến cả vấn đề gán sai và sự cần thiết của tính ngẫu nhiên, chúng ta đưa ra thuật toán gán sau dựa trên thuật toán cây bao trùm tối thiểu của Prim.

Thuật toán 3. MST đa gốc yếu

Đầu vào: tập mẫu: I;

Ma trận tương tự: SNxN; Hệ số:  (>0).

Đầu ra: Mẫu của mỗi điểm dữ liệu.

Khởi tạo: thiết lập remainN

Thiết lập exemNum là kích thước của I;

thiết lập ma trận mẫu-khoảng cách deNx2: de(i,2)= k k i s(, )) max( arg kI (9) de(i,1)=s(i,de(i,2)) (10) Các bước:

1. Lặp lại khi remain>0:

1.1 Thiết lập assignNum là giá trị max(1,min(remain,exemNum x )) (11) 1.2 Lựa chọn P các điểm dữ liệu assignNum lớn nhất

1.3 Cập nhật de theo các luật sau:

Nếu de(i,1)  -Inf và max(s(i,k)) > de(i,1)

de(i,1)=max(s(i,k)) (12) de(i,2) = de( k k i s( , )),2) max( arg ) kP

1.4 Cập nhật remain thành remain – assignNum.

Khi  rất lớn, thuật toán này giống như luật gán gần nhất. Ngược lại, khi  rất nhỏ, nó lại giống thuật toán MST đa gốc.

Hình 1 chỉ ra kết quả của k-means với k= N (hình 1(a)), PAP với luật gán gần nhất (hình 1(b)) và PAP với thuật toán MST đa gốc yếu (hình 1(c)). Có nhiều kết nối giữa hai vòng xoắn của kết quả phân cụm k-means. Tuy nhiên, chỉ có một liên kết như vậy trong kết quả của PAP với phương pháp vừa đề xuất bên trên.

Hình 2.3: Kết quả phân cụm cho một số phương pháp áp dụng cho tập dữ liệu kích thước 2000 là tổ hợp của 2 vòng xoắn. (a) k-means, k=45  2000. (b) PAP (=). (c) PAP

(=4).

 PAP bầu cử

 Tích lũy bằng chứng

Tích lũy bằng chứng trên phân cụm là một ý tưởng sử dụng để tìm các cụm thống nhất:

co_assoc(i,j) =

N votesi,j

(13)

trong đó N là số lượng vùng và votesij là số lần cặp điểm dữ liệu, (i,j) , được gán thuộc cùng cụm giữa N cụm.

2. Tạo một cụm cho mỗi điểm. Cặp các điểm dữ liệu, (i,j), và các cụm của chúng kết hợp thành một nếu

co_assoc(i,j) > threshold

 Lan truyền quan hệ vùng bầu cử. Sử dụng PAP với thuật toán gán MST đa gốc yếu như bộ tạo ra các vùng của tích lũy bằng chứng.

Do voting-PAP chỉ mang đến ít lỗi khi gán, chúng ta đề xuất cách sau để chọn ngưỡng thích hợp cho tập dữ liệu khác thường: Tăng ngưỡng với các bước cố định, delta, ví dụ 0.1. So sánh các vùng với vùng trước bằng chỉ số thống nhất vùng [3], pc_idx(P1,P2), P1 là vùng với ngưỡng t-delta, P2 là vùng với ngưỡng t. Bắt đầu từ ngưỡng delta. Lần đầu tiên pc_idx xuống dưới 1.0 chỉ ra một ngưỡng thích hợp tương ứng với một kết quả phân cụm thống nhất xấp xỉ lý tưởng.

Chương 3. Mô hình khai phá dữ liệu dịch vụ khách hàng Ngân hàng quân đội

Trong chương trước chúng ta đã tìm hiểu những khái niệm về khai phá dữ liệu cũng như một số kĩ thuật khai phá dữ liệu thường được sử dụng, cũng như những lĩnh vực mà khai phá dữ liệu có thể áp dụng được. Trong chương này, chúng ta sẽ phân tích mô hình hoạt động kinh doanh của Ngân hàng Quân đội (MB) và xem xét cách thức áp dụng khai phá dữ liệu trong Ngân hàng này.

Một phần của tài liệu Phương pháp phân cụm tích lũy và áp dụng tại Ngân hàng Thương mại cổ phần Quân đội (Trang 32)

Tải bản đầy đủ (PDF)

(79 trang)