Tính trọng tâm của các cụm mới

Thuật toán k-means bao gồm các bước cơ bản sau :

Đầu vào: Số cụm k và hàm E: E= y*,y IX-ZM,. I 2

Đầu ra : Các cụm C[i] (1 ≤ i ≤ k) với hàm tiêu chuẩn E đạt giá trị tối thiểu. Begin

Bước 1 : Khởi tạo

Chọn ngẫu nhiên k tâm {mj }k=1 ban đầu trong không gian Rd(d là số chiều của dữ liệu). Mỗi cụm được đại diện bằng các tâm của cụm .

n Bước 2: Tính tốn khoảng cách: Dj=ι^∑(x, ~mjγ

Đối với mỗi điểm xi( 1 ≤ i ≤ n), tính tốn khoảng cách của nó tới mỗi trọng tâm mj(1 ≤ j ≤ k). Sau đó tìm trọng tâm gần nhất đối với mỗi điểm và nhóm chúng vào các nhóm gần nhất.

Bước 3: Cập nhật lại trọng tâm

Đối với mỗi 1≤ j ≤ k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng các vectơ đối tượng dữ liệu.

Bước 4: Gán lại các điểm gần trung tâm nhóm mới

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

Nhóm các đối tượng vào nhóm gần nhất dựa trên trọng tâm của nhóm. Điều kiện dừng:

Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm khơng thay đổi.

End.

Thuật tốn k-means được chứng minh là hội tụ và có độ phức tạp tính tốn là O(tkn) với t là số lần lặp, k là số cụm, n là số đối tượng của tập dữ liệu vào. Thông thường k<<n và t<<n thường kết thúc tại một điểm tối ưu cục bộ.

Tuy nhiên, nhược điểm của k-means là còn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu. Hơn nữa, chất lượng phân cụm dữ liệu của thuật toán k- means phụ thuộc nhiều vào các tham số đầu vào như: số cụm k và k trọng tâm khởi tạo ban đầu. Trong trường hợp các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp, nghĩa là các cụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế. Trên thực tế chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất.

Đánh giá thuật tốn K-Means

• Ưu điểm :

- K-means là có độ phức tạp tính tốn O(tkn).

- K-means phân tích phân cụm đơn giản nên có thể áp dụng đối với tập dữ liệu lớn.

• Nhược điểm :

- K-means không khắc phục được nhiễu và giá trị k phải được cho bởi người dùng. - Chỉ thích hợp áp dụng với dữ liệu có thuộc tính số và khám ra các cụm có dạng

hình cầu.

Ví dụ :

Giả sử ta có 4 khách hàng, mỗi loại thuộc biểu diễn bởi 2 đặc trưng X và Y như sau. Mục đích của ta là nhóm các khách hàng đã cho vào 2 nhóm (K=2) dựa vào các đặc trưng của chúng.

Tên Khách hàng X: tuổi Y: Thu nhập (tr) Nhóm A 30 8 1 B 40 5 2 C 50 10 2 D 25 7 1

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

Bước 1. Khởi tạo tâm (centroid) cho 2 nhóm. Giả sử ta chọn A là tâm của nhóm thứ

nhất (tọa độ tâm nhóm thứ nhất c1(30,8)) và B là tâm của nhóm thứ 2 (tọa độ tâm nhóm thứ hai c2 (40,5)).

Bước 2. Tính khoảng cách từ các đối tượng đến tâm của các nhóm (Khoảng cách

Euclidean) ■ 0 .10,44 10,44 20,09 0 11,8 5,09 ■15,13. j : = c1=(30,8) - group -1 , c2=(40,5) - group -2

Mỗi cột trong ma trận khoảng cách (D) là một đối tượng (cột thứ nhất tương ứng với đối tượng A, cột thứ 2 tương ứng với đối tượng B,...). Hàng thứ nhất trong ma trận khoảng cách biểu diễn khoảng cách giữa các đối tượng đến tâm của nhóm thứ nhất (c1) và hàng thứ 2 trong ma trận khoảng cách biểu diễn khoảng cách của các đối tượng đến tâm của nhóm thứ 2 (c2).

Ví dụ, khoảng cách từ Khách hàng C=(50,10) đến tâm c1(30,8) là 20,09 và đến tâm c2(40,5) là 11,8 được tính như sau:

C1 = Vi (50 - 30)Ξ + (10 - 8)2) = 20,09

=11,8

Bước 3. Nhóm các đối tượng vào nhóm gần nhất

Go=i1

OOl 110-

Ta thấy rằng nhóm 1 sau vịng lặp thứ nhất gồm có 1 đối tượng A, D và nhóm 2 gồm các đối tượng cịn lại B,C

Bước 4. Tính lại tọa độ các tâm cho các nhóm mới dựa vào tọa độ của các đối

tượng trong nhóm. Tâm nhóm 1 được tính như sau: 1

/30 + 25 8 + 7x /55 15x

1 V 2 2 / <22/

/40 + 50 5 + 10∖ / _ 15∖

Bước 6. Tính lại khoảng cách từ các đối tượng đến tâm mới

12,75

5,59 L15,01

Bước 7. Nhóm các đối tượng vào nhóm

0 0 1' 110- 22,64 5,59 2,55 ■20,01. *4 1

Ta thấy G1 = G0 (Khơng có sự thay đổi nhóm nào của các đối tượng) nên thuật toán dừng và kết quả phân nhóm như sau:

Phân cụm dữ liệu có rất nhiều ứng dụng trong các lĩnh vực khác nhau:

- Thương mại: Giúp các doanh nhân khám phá ra các nhóm khách hàng quan trọng để đưa ra các mục tiêu tiếp thị.

- Sinh học: Xác định các loài sinh vật, phân loại các Gen với chức năng tương đồng và thu được các cấu trúc trong các mẫu.

- Lập quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lý, nhằm cung cấp thông tin cho quy hoặch đô thị.

- Thư viện: Phân loại các cụm sách có nội dung và ý nghĩa tương đồng nhau để cung cấp cho độc giả.

- Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi thqờng cao, nhận dạng gian lận thương mại.

- Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung cấp thông tin cho nhân dạng các vùng nguy hiểm.

- World Wide Web: Có thể khám phá các nhóm tài liệu quan trọng, có nhiều ý nghĩa trong môi trường web. Các lớp tài liệu này trợ giúp cho việc khai phá dữ

liệu từ

dữ liệu.

CHƯƠNG III. ỨNG DỤNG KHAI PHÁ DỮ LIỆU PHÂN CỤM K-MEANS TRONG PHÂN ĐOẠN KHÁCH HÀNG TẠI NHNo&PTNT TRỰC NINH NAM

ĐỊNH SỬ DỤNG PHẦN MỀM WEKA.

Dựa trên cơ sở lý luận về khai phá dữ liệu bằng thuật toán phân cụm và lý thuyết về phân đoạn khách hàng được trình bày trong chương 1 và chương 2, chương này sẽ giải quyết bài toán phân đoạn khách hàng bán lẻ với việc áp dụng kỹ thuật khai phá dữ liệu phân cụm bằng công cụ WEKA, áp dụng với nguồn CSDL của Ngân hàng Agribank Trực Ninh Nam Định

3.1. Thực trạng phân đoạn khách hàng tại ngân hàng nông nghiệp và phát triển

nông thôn chi nhánh Trực Ninh Nam Định

NHNo & PTNT Trực Ninh trực thuộc NHNo & PTNT Tỉnh Nam Định. Nhiệm vụ chủ yếu của NHNo & PTNT Trực Ninh là hoạt động kinh doanh tiền tệ, tín dụng, dịch vụ ngân hàng trong địa bàn huyện Trực Ninh bao gồm 21 xã, thị trấn của huyện

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

nghiệp, giao thông vận tải, xây dựng, thương mại, và chủ yếu là phục vụ chương trình phát triển nơng nghiệp nơng thơn.. Cơ chế quản lý, phân quyền phán quyết, khoán tiền lương đến từng đơn vị và người lao động ... đã có những tác động tích cực làm các phịng giao dịch phải tính tốn hoạt động kinh doanh sao cho ngày một hiệu quả hơn. Quy mô hoạt động và các lĩnh vực ngành nghề, các đối tượng khách hàng ngày càng được mở rộng, các hoạt động thực sự năng động có tính cạnh tranh cao.

Hộ sản xuất, cá thể vẫn là những khách hàng mục tiêu trong hoạt động dịch vụ ngân hàng. Nguyên nhân là do trên địa bàn huyện Trực Ninh là nơi đa số các xã sản xuất nơng nghiệp, trình độ thâm canh cao, có nhiều trang trại chăn ni quy mô lớn. Với khoảng hơn 27000 khách hàng nhưng chi nhánh vẫn thành cơng trong việc kiểm sốt chất lượng dịch vụ và quản lý rủi ro. Số lượng khách hàng ngày càng tăng lên, mọi khoản giao dịch đều được giải quyết kịp thời, nhanh gọn, chính xác, đảm bảo an tồn chi trả. Để có thể kiểm sốt được số lượng khách hàng lớn như vậy, ngân hàng đã phải phân đoạn khách hàng theo từng khu vực quản lý. Bên cạnh đó, ngân hàng cịn phân loại ra những khách hàng VIP để có thể phục vụ chuyên nghiệp hơn. Khách hàng VIP đều chủ yếu căn cứ theo tiêu chí thu nhập hoặc số dư tiền gửi bình quân làm cơ sở đánh giá. Chi nhánh cũng rất linh hoạt với các tiêu chí xếp hạng khách hàng theo từng thời kỳ, phù hợp với chiến lược kinh doanh của ngân hàng nhằm thu hút, đồng thời khuyến khích khách hàng gắn bó dài lâu với ngân hàng, trở thành khách hàng VIP để được phục vụ với những tiêu chuẩn cao cấp.

Bên cạnh những kết quả đạt được, hoạt động phân đoạn khách hàng của NHNo & PTNT Trực Ninh vẫn còn một số hạn chế cần được quan tâm.

Việc điều tra phân đoạn khách hàng đã có nhưng chưa sâu sát, bản thân cán bộ ngân hàng chưa thấy hết được tầm quan trọng của việc phân loại khách hàng để từ đó có hướng đầu tư, có chế độ ưu đãi đối với khách hàng truyền thống và khách hàng mục tiêu.

Phân đoạn khách hàng mới chỉ dừng lại ở việc phân đoạn theo khu vực quản lý bỏ qua nhiều tiêu thức quan trọng như vậy chưa thể tìm được những thị trường khách hàng mục tiêu. Đã có chiến lược hướng tới những khách hàng tiềm năng tuy nhiên cơ sở đánh giá mới chỉ là số dư tiền gửi hoặc thu nhập, điều này dễ dẫn đến bỏ sót những khách hàng quan trọng. Thêm vào đó, hoạt động giao dịch hàng ngày tại của chi nhánh ngày càng đòi hỏi phải khẩn trương hơn, chuyên nghiệp hơn cả về chuyên môn và phong cách giao dịch nên nếu khơng phân đoạn khách hàng hợp lý, khơng tìm được đoạn khách hàng mục tiêu, ngân hàng sẽ gặp rất nhiều khó khăn trong việc chăm sóc khách hàng.

Vì vậy, khóa luận hướng tới giải quyết những khó khăn về phân đoạn khách hàng mục tiêu mà ngân hàng NHNo & PTNT Trực Ninh đang gặp phải. Nội dung sẽ được trình bày cụ thể ở mục 3.2.

3.2. Ứng dụng phần mềm Weka trong khai phá dữ liệu phân đoạn khách hàng

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

3.2.1. Mơ tả bài tốn phân đoạn khách hàng cá nhân tại NHNo&PTNT Trực

Ninh

Do nhu cầu sử dụng các dịch vụ, sản phẩm của ngân hàng ngày một tăng cao, số lượng khách hàng cá nhân trong các ngân hàng cũng vì vậy mà ngày một gia tăng nhanh chóng. Tuy nhiên, mỗi khách hàng lại có những nhu cầu, mục đích sử dụng khác nhau. Tùy vào từng độ tuổi, tầng lớp. thì sự lựa chọn của họ với dịch vụ ngân hàng lại thay đổi. Chính vì vậy, để quản lý tốt các khách hàng cá nhân, ngân hàng nên tìm ra các nhóm khách hàng mục tiêu. Điều đó khơng giúp ngân hàng thiết kế được các sản phẩm dịch vụ phù hợp mà còn giúp họ quản trị rủi ro có khả năng gặp phải. Tiêu thức thường được lựa chọn để phân đoạn khách hàng là phân đoạn theo lợi ích, hành vi khách hàng, nhân khẩu học và địa lý. Và thuật toán luận văn lựa chọn để giải quyết bài toán phân đoạn khách hàng là kỹ thuật phân cụm K-Means. Mục đích chính của thuật tốn K-Means là dùng để phân nhóm các đối tượng. Giả sử rằng ta có các dữ liệu về các khách hàng vay với các giá trị dữ liệu đã biết về các thuộc tính như: Mã khách hàng, Tuổi, giới tính, khu vực cư trú, thu nhập, tình trạng thu nhập, con, có xe hay khơng, khách hàng có tài khoản tiết kiệm khơng, hiện tại có tài khoản khơng, có thế chấp khơng ... Nhiệm vụ của bài toán là dùng thuật toán K-Means để phân nhóm các khách hàng vào K nhóm, dựa vào sự tương tự (similar) trên 12 thuộc tính của họ. Thiết lập các tham số cho thuật toán K-Means như số cụm k, cách tính khoảng cách (trong ví dụ này dùng khoảng cách Euclidean).

Đầu vào: Bộ dữ liệu về thông tin khách hàng bao gồm các thuộc tính trên

Đầu ra: Danh sách các nhóm khách hàng hoặc tỷ trọng của từng nhóm trong tổng số khách hàng thống kê. Nội dung đặc trưng xuất hiện ở mỗi nhóm. Cụm khách

hàng.

Cơng cụ sử dụng: phần mềm Weka, phiên bản 3.6.9. 3.2.2. Lý do sử dụng phần mềm Weka.

Cùng với xu hướng dữ liệu lớn và khai phá dữ liệu, các phần mềm hỗ trợ khai phá dữ liệu đến nay đã được nhiều tổ chức xây dựng và phát triển. Chúng ta sẽ tìm hiểu về 2 cơng cụ đó là:

- Các cơng cụ mã nguồn mở: là những phần mềm được cung cấp dưới dạng mã nguồn, khơng chỉ miễn phí tiền mua mà chủ yếu là miễn phí về bản quyền. Do có được mã nguồn của phần mềm và có quy định về giấy phép, người sử dụng có quyền sửa đổi, cải tiến, phát triển và nâng cấp theo một số nguyên tắc chung đã được qui định mà không cần phải xin phép ai. Phần mềm sẽ do một người, một nhóm người hay một tổ chức phát triển và đưa ra phiên bản đầu tiên cùng với mã nguồn, công bố công khai cho cộng đồng, thường là trên Internet. Trên cơ sở đó các cá nhân tham gia sử dụng sẽ đóng góp phát triển, sửa các lỗi (nếu có) và bổ sung để hồn thiện sản phẩm cho các phiên bản tiếp theo. Một số công cụ mã nguồn mở phổ biến là R, Tanagra,

phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định

được với hệ quản trị cơ sở dữ liệu, không khả thi khi áp dụng vào thực tế các doanh nghiệp, chỉ phù hợp làm cơng cụ nghiên cứu. Bên cạnh đó, phần mềm vẫn cịn tồn tại một số nhược điểm như Khơng có sự hỗ trợ kĩ thuật một cách chính thức, ít tài liệu, giao diện khơng được chăm chút nhiều, tính cam kết duy trì sự phát triển thấp, khó kiểm sốt phiên bản và sự thay đổi mã nguồn, phải tuân thủ các yêu cầu trong giấy phép.

- Các công cụ thương mại: là phần mềm thuộc bản quyền của tác giả hoặc các hãng phần mềm, chỉ được cung cấp dưới dạng mã nhị phân, người dùng phải mua và khơng có quyền bán lại. Phần mềm thương mại bao gồm IBM InfoSphere Data warehouse, IBM Cognos Business Intelligence, Business Intelligence Development Studio của Microsoft, Oracle Data Mining, Enterprise Miner của SAS Institute... Ưu điểm của các công cụ thương mại là cung cấp giải pháp hoàn chỉnh, từ khâu chuẩn bị dữ liệu cho đến khai phá dữ liệu, tạo các báo cáo kết quả trực quan và khả năng tích hợp với các hệ thống thơng tin như ERP, CRM. Tuy nhiên phần mềm thương mại hồn tồn đóng, khơng được dùng quyền nào. Muốn dùng phải mua, và chỉ dùng được trong khuôn khổ các chức năng định trước của sản phẩm.

Trong phạm vi nghiên cứu hẹp của khóa luận, việc sử dụng phần mềm mã nguồn mở hợp lý và hiệu quả hơn. Luận văn sẽ đề cập tới một phần mềm mã nguồn mở thông dụng và được đánh giá là hiệu quả trong việc thử nghiệm khai phá dữ liệu: phần mềm khai phá dữ liệu Weka.

Weka (Waikato Enviroment for Knowledge Analysis) là môi trường thử nghiệm KPDL do các nhà khoa học thuộc trường Đại học Waikato ở NewZeland khởi xướng và được sự đóng góp của rất nhiều nhà nghiên cứu trên thế giới. Weka là phần mềm mã nguồn mở, cung cấp công cụ trực quan và sinh động cho mọi người tìm hiểu về KPDL. Weka cịn cho phép các giải thuật học mới phát triển có thể tích hợp vào mơi trường của nó. Phần mềm được viết bằng Java và chạy trên hầu hết các hệ điều hành. Weka cung cấp nhiều giải thuật khác nhau với nhiều phương thức cho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Weka tập hợp các thuật toán cho các tác vụ KPDL, bao gồm các công cụ thực hiện: tiền xử lý dữ liệu (data pre-processing), phân lớp (classification), hồi quy (regression), phân cụm (clustering), luật kết hợp (association rules).

3.2.3. Giới thiệu phần mềm Weka.

Kết quả của quá trình phân cụm

Phân cụm phân cấp Top-down và Bottom-up