Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 106 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
106
Dung lượng
1,73 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Doãn Hiền ỨNG DỤNG MỘT SỐ THUẬT TỐN PHÂN CỤM PHÂN TÍCH DỮ LIỆU NGÂN HÀNG LUẬN VĂN THẠC SỸ Hà Nội – 2006 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ Nguyễn Dỗn Hiền ỨNG DỤNG MỘT SỐ THUẬT TOÁN PHÂN CỤM PHÂN TÍCH DỮ LIỆU NGÂN HÀNG Ngành: Cơng nghệ Thơng tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ Ngƣời hƣớng dẫn khoa học: PGS TSKH Bùi Công Cƣờng Hà Nội – 2006 Lời cảm ơn Sau mt thi gian nghiờn cứu nỗ lực thực hiện, luận văn “Ứng dụng số thuật tốn phân cụm phân tích liệu Ngân hàng” hoàn thành Ngoài cố gắng thân, nhận đƣợc giúp đỡ từ nhà trƣờng, thầy giáo, gia đình bạn bè Trƣớc hết, xin đƣợc cảm ơn mẹ, ngƣời động viên chăm sóc tơi q trình học tập hồn thành luận văn Tơi xin cảm ơn thầy cô giáo trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội truyền đạt kiến thức q báu cho tơi nhƣ học viên lớp Cao học Công nghệ K10T3 Đặc biệt, xin cảm ơn sâu sắc tới thầy giáo Bùi Cơng Cƣờng, ngƣời trực tiếp tận tình giúp đỡ, hƣớng dẫn tơi q trình thực luận văn Nhân đây, gửi lời cảm ơn tới bạn bè lớp K10T3 sát cánh động viên ngày học tập trƣờng Đại học Công nghệ - Đại học Quốc Gia Hà Nội MỤC LỤC MỞ ĐẦU CHƢƠNG TỔNG QUAN .7 1.1 MỤC TIÊU, NỘI DUNG VÀ PHƢƠNG PHÁP NGHIÊN CỨU 1.2 TÓM TẮT NỘI DUNG CÁC CHƢƠNG CHƢƠNG PHÂN CỤM DỮ LIỆU 10 2.1 KHÁI NIỆM PHÂN CỤM DỮ LIỆU 10 2.2 CÁC BƢỚC CƠ BẢN ĐỂ PHÂN CỤM 11 2.3 CÁC ỨNG DỤNG CỦA PHÂN CỤM 12 2.4 CÁC LOẠI ĐẶC TRƢNG 13 2.5 CÁC ĐỊNH NGHĨA PHÂN CỤM 14 2.5.1 Định nghĩa phân cụm 14 2.5.2 Định nghĩa phân cụm mờ 15 2.6 CÁC ĐỘ ĐO 16 2.6.1 Độ đo không tƣơng tự 16 2.6.2 Độ đo tƣơng tự 16 2.6.3 Độ đo gần gũi tập X 17 2.6.4 Các độ đo gần gũi hai điểm 18 2.6.5 Các hàm gần gũi điểm tập 27 2.6.6 Các hàm gần gũi hai tập 29 2.6.7 Đánh giá phân cụm 30 CHƢƠNG MỘT SỐ THUẬT TOÁN PHÂN CỤM 32 3.1 GIỚI THIỆU VỀ CÁC THUẬT TOÁN PHÂN CỤM 32 3.1.1 Số phân cụm 32 3.1.2 Phân loại thuật toán phân cụm 33 3.2 THUẬT TOÁN PHÂN CỤM TUẦN TỰ 34 3.2.1 Thuật toán phân cụm 34 3.2.2 Ƣớc lƣợng số lƣợng phân cụm 37 3.2.3 Một thuật toán BSAS cải tiến 39 3.2.4 Sơ đồ với hai ngƣỡng 41 3.2.5 Thực tinh chỉnh 45 3.3 THUẬT TOÁN PHÂN CỤM K-MEANS 47 3.3.1 Thuật toán K-means 47 3.3.2 Các bƣớc thực thuật toán K-means 47 3.3.3 Ví dụ áp dụng thuật toán K-means 49 3.3.4 Một số vấn đề ƣu, nhƣợc điểm K-means 52 3.3.5 Độ phức tạp thuật toán K-means 53 3.4 THUẬT TOÁN PHÂN CỤM MỜ K-MEANS (FKM) 53 3.4.1 Khái niệm tập mờ phân cụm mờ 53 3.4.2 Thuật toán phân cụm mờ K-means 55 3.4.3 Mơ tả thuật tốn 57 3.4.4 Độ phức tạp thuật toán 58 3.5 THUẬT TOÁN PHÂN CỤM HIERACHICAL 59 3.5.1 Nguyên lý thực 59 3.5.2 Mơ tả thuật tốn 60 3.5.3 Ví dụ thuật tốn phân cấp 61 3.5.4 Ƣu, nhƣợc điểm thuật toán 65 3.6 THUẬT TOÁN PHÂN CỤM K-LÁNG GIỀNG GẦN 66 3.6.1 Thuật toán K-láng giềng gần 66 3.6.2 Cách thức thực thuật toán KNN 66 3.6.3 Một ví dụ áp dụng thuật tốn KNN 69 3.6.4 Ƣu, nhƣợc điểm thuật toán KNN 71 CHƢƠNG XÂY DỰNG CHƢƠNG TRÌNH PHÂN CỤM 72 4.1 PHÂN TÍCH CÁC MODULE 72 4.1.1 Module chuẩn bị liệu 72 4.1.2 Tinh chỉnh liệu 72 4.1.3 Hàm tính khoảng cách 73 4.2 CHƢƠNG TRÌNH MƠ PHỎNG CÁC THUẬT TOÁN 75 4.2.1 Giới thiệu chƣơng trình 75 4.2.2 Chuyển đổi tinh chỉnh liệu 75 4.2.3 Thuật toán K-means 76 4.2.4 Thuật toán phân cụm phân cấp (Hierachical) 77 4.2.5 Thuật toán Fuzzy K-means 79 CHƢƠNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU GIAO DỊCH ATM 80 5.1 PHÁT BIỂU BÀI TOÁN 80 5.2 ÁP DỤNG VÀO CHƢƠNG TRÌNH ĐÃ XÂY DỰNG 80 5.2.1 Phƣơng pháp áp dụng 80 5.2.2 Đặc tả liệu cách thức thực 81 5.2.3 Phân tích, đánh giá kết 81 KẾT LUẬN 85 TÓM TẮT KẾT QUẢ 85 PHƢƠNG HƢỚNG PHÁT TRIỂN 85 TÀI LIỆU THAM KHẢO 87 PHỤ LỤC 1: MÃ NGUỒN CHƢƠNG TRÌNH 88 MODULE TÍNH KHOẢNG CÁCH GIỮA CÁC PHẦN TỬ 88 1.1 Tính khoảng cách theo Manhattan 88 1.2 Tính khoảng cách theo cơng thức Euclide 89 1.3 Tính khoảng cách hỗn hợp (công thức Kaufman Rousseeuw) 90 MODULE THỰC HIỆN THUẬT TOÁN K-MEANS 96 MODULE THỰC HIỆN THUẬT TOÁN HIERACHICAL 99 PHỤ LỤC 2: MÔ TẢ DỮ LIỆU GIAO DỊCH 102 Cấu trúc bảng liệu 102 Danh sách mã loại thẻ 102 Danh sách mã giao dịch 103 Định dạng liệu sau chuyển đổi 103 Định dạng liệu sau phân cụm thuật toán K-means 104 Định dạng liệu sau phân cụm thuật toán Hierachical 104 Định dạng phân cấp 105 MỞ ĐẦU Đối với Ngân hàng nay, nắm đƣợc khách hàng điểm mấu chốt tạo nên thành công kinh doanh Để đạt đƣợc điều này, việc cần thiết thiết lập đƣợc chiến lƣợc khách hàng đắn để cho giành đƣợc khách hàng giữ đƣợc khách hàng có chất lƣợng cao Để đạt đƣợc mục tiêu đó, Ngân hàng xây dựng hệ thống liệu khách hàng, từ phân tích xây dựng chiến lƣợc kinh doanh cho Thực tế cho thấy rằng, thay nhắm vào tất khách hàng để đối xử, khuyến khích, Ngân hàng lựa chọn khách hàng đáp ứng tiêu chuẩn lợi nhuận dựa thuộc tính giao dịch hay thuộc tính khác khách hàng [7] Trong năm gần đây, hệ thống máy giao dịch tự động (ATM – Automatic Teller Machine) đƣợc Ngân hàng Việt Nam triển khai phát triển mạnh mẽ Hệ thống cho phép khách hàng thực giao dịch cách tiện lợi thời gian (online 24/7) nhƣ cung cấp dịch vụ (vấn tin, chuyển khoản, rút tiền, toán hoá đơn, cách dịch vụ tín dụng ) Vì vậy, nói hệ thống ATM trở thành kênh quan trọng kênh giao dịch Ngân hàng cung cấp cho khách hàng Tuy nhiên, để phát huy hiệu hệ thống này, ngồi thơng tin cố định nhƣ lƣợng thẻ, lƣợng giao dịch, số máy ATM… Ngân hàng cần biết đƣợc thuộc tính ẩn khách hàng để đề chiến lƣợc phát triển đắn cho loại hình dịch vụ Đó lý cần đến khoa học khai phá liệu mà cụ thể hơn, nghiên cứu thuật tốn phân cụm liệu để tìm thuộc tính ẩn CHƢƠNG TỔNG QUAN 1.1 MỤC TIÊU, NỘI DUNG VÀ PHƢƠNG PHÁP NGHIÊN CỨU Mục tiêu luận văn Nắm bắt đƣợc sở lý thuyết thuật toán phân cụm, đƣa phƣơng hƣớng giải cho toán áp dụng vào thực tế để thực toán phân cụm liệu ATM Ngân hàng Nội dung luận văn Luận văn có nội dung nhƣ sau: - Khái quát sở lý thuyết phân cụm liệu - Tìm hiểu, trình bày số thuật toán phân cụm đƣợc sử dụng giớ1 - Xây dựng chƣơng trình mơ thuật tốn phân cụm liệu - Áp dụng vào bào toán phân cụm liệu ATM Ngân hàng Đầu tƣ Phát triển Việt nam (BIDV) Phƣơng pháp nghiên cứu - Kết hợp lý thuyết, thực nghiệm thực tế để đƣa đánh giá, kết luận - Học hỏi, nghiên cứu, phân tích lý thuyết lĩnh vực có liên quan luận văn, từ nguồn: thầy giáo, cô giáo, nhà khoa học, chuyên gia, đồng nghiệp, sách, báo, tài liệu, internet, 5.5 - Tìm hiểu thực tế yêu cầu, tiêu chuẩn đánh giá hệ thống - Xây dựng sơ đồ cấu trúc, nguyên lý cho hệ thống cho phù hợp với yêu cầu khả năng, xây dựng mơ hình thực nghiệm - Đƣa kết luận từ kết nghiên cứu 1.2 TÓM TẮT NỘI DUNG CÁC CHƢƠNG Luận văn có chƣơng phần mở đầu, kết luận: Phần mở đầu Phần nêu lên cần thiết vấn đề phân cụm liệu nói chung việc áp dụng vào phân tích liệu Ngân hàng để từ định hƣớng cho việc mở rộng dịch vụ với dối tƣợng khách hàng hợp lý Chƣơng một: Tổng quan Chƣơng nêu lên mục tiêu, nội dung phƣơng pháp nghiên cứu để hoàn thành luận văn Chƣơng hai: Phân cụm liệu Chƣơng nêu lên khái niệm phân cụm liệu, bƣớc để thực thuật toán phân cụm, loại đặc trƣng phân cụm định nghĩa liên quan đến phân cụm Chƣơng hai có đề cập đến số ứng dụng việc phân cụm nội dung quan trọng thuật toán phân cụm độ đo Chƣơng ba: Một số thuật toán phân cụm liệu Chƣơng ba giới thiệu chi tiết số thuật toán phân cụm đƣợc áp dụng phổ biến, thuật toán phân cụm (Sequence), thuật toán phân cụm phân cấp (Hierachical), thuật tốn K-trung bình (K-Means), Ktrung bình mờ (Fuzzy K-Means) thuật tốn K láng giềng gần (K-Nearest Neighbour) Chƣơng bốn: Xây dựng chƣơng trình phân cụm Chƣơng bốn giới thiệu chƣơng trình thực số thuật toán nêu Chƣơng ba bao gồm phần phân tích module thực phần chƣơng trình thực Chƣơng năm: Ứng dụng phân cụm liệu giao dịch ATM Chƣơng năm giới thiệu ứng dụng toán phân cụm vào việc phân tích liệu giao dịch ATM Ngân hàng, cụ thể phát biểu toán, nêu phƣơng pháp áp dụng, đặc tả liệu, phân tích đánh giá kết đầu đề xuất phƣơng hƣớng phát triển chƣơng trình Phần kết luận Phần nêu kết luận văn định hƣớng phát triển tƣơng lai Phục lục mã nguồn chƣơng trình Mã nguồn thực thuật toán phân cụm số hàm liên quan nhƣ chuyển đổi liệu, tinh chỉnh liệu trƣớc phân cụm, tính khoảng cách số hàm khác liên quan