1. Trang chủ
  2. » Công Nghệ Thông Tin

Thuật toán KMean phân loại khách hàng mua bảo hiểm VCLI 9,5đ

69 58 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 6,52 MB

Nội dung

Bước vào thế kỷ XX, một nền kinh tế hội nhập và phát triển mạnh mẽ, đi cùng với nhu cầu của đời sống xã hội là sự phát triển không ngừng của công nghệ thông tin đã mang lại cho thế giới bao điểu kỳ diệu. Chúng ta, những con người đang sống trong xã hội hiện đại không thể phủ nhận vai trò của nó và đặc biệt là lượng thông tin cũng từ đó tăng lên với tốc độ bùng nổ. Lượng dữ liệu khổng lồ ấy là nguồn tài nguyên vô giá nếu như chúng ta biết cách phát hiện và khai thác những thông tin hữu ích có trong đó. Như vậy vấn đề đặt ra với dữ liệu của chúng ta là việc lưu trữ và khai thác chúng. Các phương pháp khai thác truyền thống nay đã dần dần thay thế bởi các kỹ thuật mới là khai phá dữ liệu và khám phá tri thức. Công nghệ khai phá dữ liệu ra đời cho phép chúng ta khai thác được những thông tin hữu dụng bằng việc trích xuất những thông tin có mối liên hệ và liên quan nhất định từ một kho dữ liệu lớn để từ đó giải quyết các bài toán tìm kiếm, phân loại, dự báo...Đặc biệt trong lĩnh vực kinh doanh, việc ứng dụng công nghệ khai phá dữ liệu vào trong việc quản lý là một trong những yếu tố quan trọng góp phần vào sự thành công của công ty.Trong quá trình thực hiện, do kiến thức và kinh nghiệm bản thân còn hạn chế, đồ án còn nhiều thiếu sót, chúng em rất mong nhận được những ý kiến đóng góp quý báu của các thầy cô để đồ án được hoàn thiện hơn.

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.HCM KHOA CÔNG NGHỆ THÔNG TIN  ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI: XÂY DỰNG HỆ THỐNG PHÂN LOẠI ĐỂ DỰ ĐOÁN KHÁCH HÀNG MUA BẢO HIỂM TẠI VCLI Giảng viên hướng dẫn: Nguyễn Thị Định Sinh viên thực : 2001170046 – Đặng Quốc Hải 2001170309 – Phạm Quốc Bảo TP HỒ CHÍ MINH – 2020 LỜI CẢM ƠN Trước trình bày nội dung đề tài, chúng em xin dành đôi lời cảm ơn chân thành đến giáo viên hướng dẫn - cô Nguyễn Thị Định, người tận tình giúp đỡ, đóng góp ý kiến vơ bổ ích tạo điều kiện tốt cho chúng em suốt trình thực đồ án tốt nghiệp Chúng em xin gửi lời cám ơn chân thành đến quý thầy cô Khoa Công Nghệ Thông Tin, Trường Đại học Công Nghiệp Thực Phẩm thành phố Hồ Chí Minh giảng dạy cho chúng em kiến thức quý báu làm tiền đề cho chúng em thực tốt đề tài Chúng xin gửi lời cám ơn sâu sắc đến bậc sinh thành ln chăm sóc động viên suốt trình học tập nghiên cứu để chúng có kết ngày hơm TP Hồ Chí Minh, ngày 05 tháng 12 năm 2020 Nhóm sinh viên thực Đặng Quốc Hải – Phạm Quốc Bảo MỤC LỤC CHƯƠNG 1: TỔNG QUAN 1.1 GIỚI THIỆU 1.1.1 Giới thiệu công ty bảo hiểm VCLI .2 1.1.2 Lý chọn đề tài 1.2 MỤC TIÊU VÀ PHẠM VI ĐỀ TÀI 1.2.1 Mục tiêu đề tài 1.2.2 Phạm vi giới hạn đề tài 1.3 KHẢO SÁT HỆ THỐNG 1.3.1 Sơ đồ tổ chức máy công ty 1.3.2 Mơ tả tốn 1.3.3 Các quy trình nghiệp vụ 1.3.4 Các biểu mẫu liên quan .8 1.4 KẾT CHƯƠNG 10 CHƯƠNG 2: PHÂN TÍCH HỆ THỐNG 11 2.1 GIỚI THIỆU 11 2.2 MƠ HÌNH HĨA NGHIỆP VỤ 11 2.2.1 Sơ đồ Use-Case nghiệp vụ .11 2.2.2 Mơ hình hoạt động mua bảo hiểm 12 2.2.3 Mơ hình hoạt động toán 13 2.2.4 Mơ hình mua bảo hiểm .14 2.2.5 Mơ hình tốn 15 2.3 MƠ HÌNH HÓA CHỨC NĂNG 16 2.3.2 Đặc tả Use-Case hệ thống 16 2.3.3 Sơ đồ use case báo cáo – thống kê 20 2.4 SƠ ĐỒ LỚP MỨC PHÂN TÍCH 20 2.5 KẾT CHƯƠNG 21 CHƯƠNG 3: THIẾT KẾ HỆ THỐNG .22 3.1 GIỚI THIỆU .22 3.2 THIẾT KẾ CSDL .22 3.2.1 Mơ hình liệu quan hệ .22 3.2.2 Ràng buộc toàn vẹn .26 3.3 THIẾT KẾ GIAO DIỆN HỆ THỐNG 32 3.3.1 Giao diện đăng nhập .32 3.3.2 Giao diện 32 3.3.3 Giao diện quản lý hợp đồng 33 3.3.4 Giao diện quản lý khách hàng 34 3.3.5 Giao diện quản lý gói bảo hiểm 34 3.3.6 Giao diện quản lý đóng bảo hiểm định kỳ 35 3.3.7 Giao diện quản lý chấm dứt hợp đồng 35 3.3.8 Giao diện xử lý chấm dứt hợp đồng trước hạn 36 3.3.9 Giao diện quản lý hạng hưởng .36 3.3.10.Giao diện tìm kiếm khách hàng 37 3.3.11.Giao diện tìm kiếm gói bảo hiểm 37 3.3.12.Giao diện tìm kiếm hợp đồng 38 3.3.13.Giao diện quản lý khách hàng trễ hạn 38 3.3.14.Giao diện thống kê khách hàng chấm dứt hợp đồng 39 3.3.15.Giao diện thống kê khách hàng mua bảo hiểm 39 3.3.16.Giao diện thống kê doanh thu 40 3.3.17.Giao diện danh sách khách hàng 40 3.3.18.Giao diện chuẩn hóa liệu khách hàng 41 3.3.19.Giao diện kết phân loại khách hàng .41 3.3.20.Giao diện tùy chọn xuất báo cáo 42 3.3.21.Giao diện thống kê loại khách hàng 43 3.4 SƠ ĐỒ LỚP MỨC THIẾT KẾ 43 3.5 THIẾT KẾ CHỨC NĂNG HỆ THỐNG .44 3.5.1 Chức quản lý đóng bảo hiểm định kỳ 44 3.5.2 Chức quản lý khách hàng trễ hạn đóng bảo hiểm 45 3.5.3 Chức chấm dứt hợp đồng 46 3.5.4 Chức quản lý hạng hưởng 48 3.5.5 Chức báo cáo thống kê 49 CHƯƠNG 4: CÀI ĐẶT THUẬT TOÁN K- MEANS 51 4.1 GIỚI THIỆU CHUNG 51 4.1.1 Phân cụm 51 4.1.2 Thuật toán K-Means 51 4.1.3 Bài toán minh họa 53 4.2 GIẢI PHÁP PHÂN CỤM 59 4.2.1 Các loại khách hàng 59 4.2.2 Tiền xử lý liệu 59 4.2.3 Ứng dụng K-means phân cụm khách hàng 60 CHƯƠNG 5: KẾT LUẬN 62 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Viết tắt VCLI PK FK CSDL Tiếng anh Vietcombank Cardif Life Primary Key Foreign Key Database Tiếng việt Cơng ty bảo hiểm VCLI Khóa Khóa ngoại Cơ sở liệu DANH MỤC CÁC HÌNH VẼ CHƯƠNG Hình 1.1 : Sơ đồ tổ chức công ty VCLI Hình 1.2 : Biểu đồ khôi phục hợp đồng Hình 1.3 : Biểu mẫu yêu cầu toán 10 CHƯƠNG 2Y Hình 2.1: Sơ đồ use-case nghiệp vụ mua bảo hiểm 12 Hình 2.2: Sơ đồ hoạt động mua bảo hiểm theo gói 13 Hình 2.3: Sơ đồ hoạt động tốn bảo hiểm .13 Hình 2.4: Sơ đồ mua bảo hiểm .14 Hình 2.5: Sơ đồ toán bảo hiểm 15 Hình 2.6: Sơ đồ use-case hệ thống tổng quát 16 Hình 2.7: Sơ đồ use-case hệ thống thống kê .19 Hình 2.8: Sơ đồ lớp mức phân tích 20 CHƯƠNG Hình 3.1: Mơ hình liệu quan hệ 21 Hình 3.2: Màn hình đăng nhập 31 Hình 3.3: Giao diện 31 Hình 3.4: Giao diện hợp đồng bảo hiểm 32 Hình 3.5: Giao diện quản lý khách hàng 32 Hình 3.6: Giao diện quản lý gói bảo hiểm 33 Hình 3.7: Giao diện quản lý lịch đóng định kỳ 33 Hình 3.8: Giao diện quản lý chấm dứt hợp đồng 34 Hình 3.9: Giao diện xử lý chấm dứt hợp đồng trước hạn 34 Hình 3.10 : Giao diện quản lý hạng hưởng .35 Hình 3.11: Giao diện tìm kiếm khách hàng 35 Hình 3.12: Giao diện tìm kiếm bảo hiểm 36 Hình 3.13: Giao diện tìm kiếm hợp đồng 36 Hình 3.14: Giao diện quản lý khách hàng trễ hạn .37 Hình 3.15: Giao diện thống kê chấm dứt hợp đồng 37 Hình 3.16 : Giao diện thống kê danh sách khach hàng .38 Hình 3.17 : Giao diện thống kê danh doanh thu định kỳ 38 Hình 3.18: Giao diện danh sách khách hàng từ Excel .39 Hình 3.19 : Giao diện thơng tin khách hàng chuẩn hóa 39 Hình 3.20: Giao diện phân loại khách hàng 40 Hình 3.21: Giao diện tùy chọn xuất báo cáo .40 Hình 3.22 : Giao diện thống kê khách hàng theo cụm 41 Hình 3.23: Sơ đồ lớp mức thiết kế 41 Hình 3.24: Sơ dồ lớp thiết kế tầng đóng bảo hiểm định kỳ 42 Hình 3.25: Sơ đồ quản lý đóng bảo hiểm định kỳ 43 Hình 3.26: Sơ đồ lớp tầng quản lý khách hàng trễ hạn 43 Hình 3.27: Sơ đồ quản lý trễ hạn 44 Hình 3.28: Sơ đồ lớp tầng quản lý chấm dứt hợp đồng 45 Hình 3.29: Sơ đồ quản lý chấm dứt hợp đồng 46 Hình 3.30: Sơ đồ lớp tầng quản lý hạng hưởng .46 Hình 3.31: Sơ đồ quản lý hạng hưởng 47 Hình 3.32: Sơ đồ lớp tầng báo cáo thống kê 48 Hình 3.33: Sơ đồ báo cáo thống kê .48 CHƯƠNG Hình 4.1: Minh họa 20 điểm liệu khách hàng 52 Hình 4.2 : Minh họa khởi tạo tâm .53 Hình 4.3: Minh họa gom cụm lần thứ .54 Hình 4.4: Minh họa gom cụm lần thứ hai 56 Hình 4.5: Dữ liệu thu nhập ban đầu 58 Hình 4.6: Dữ liệu tiền xử lý 58 Hình 4.7: Kết phân cụm khách hàng tiềm 59 DANH MỤC BẢNG CHƯƠNG 1: Bảng 1.1: Thơng tin gói bảo hiểm Bảng 1.2: Thông tin hợp đồng bảo hiểm Bảng 1.3: Thông tin chấm dứt hợp đồng bảo hiểm CHƯƠNG 2: Bảng 2.1: Quy trình tham gia bảo hiểm 12 Bảng 2.2: Đặc tả mơ hình tham gia gói bảo hiểm .14 Bảng 2.3: Đặc tả mơ hình tốn 15 Bảng 2.4: Đặc tả Use-Case quản lý khách hàng .16 Bảng 2.5: Đặc tả Use-Case quản lý hạng hưởng .17 Bảng 2.6: Đặc tả Use-Case quản lý chấm dứt hợp đồng bảo hiểm 17 Bảng 2.7: Đặc tả Use-Case quản lý trễ hạn đóng bảo hiểm 18 Bảng 2.8: Đặc tả Use- Case quản lý đóng bảo hiểm định kỳ 18 Bảng 2.9: Đặc tả Use-Case báo cáo- thống kê 19 CHƯƠNG 3: Bảng 3.1: Thực thể khách hàng 22 Bảng 3.2: Thực thể nhân viên 22 Bảng 3.3: Thực thể loại bảo hiểm .23 Bảng 3.4: Thực thể gói bảo hiểm 23 Bảng 3.5: Thực thể hạng hưởng 23 Bảng 3.6: Thực thể đóng bảo hiểm 23 Bảng 3.7: Thực thể giám đốc 24 Bảng 3.8: Thực thể hợp đồng 24 Bảng 3.9: Thực thể chi tiết hợp đồng 24 Bảng 3.10: Thực thể chấm dứt hợp đồng trước hạn 25 Bảng 3.11: Thực thể thống kê 25 Bảng 3.12: Thực thể loại thống kê 25 Bảng 3.13: Ràng buộc toàn vẹn quan hệ 28 Bảng 3.14: Ràng buộc toàn vẹn nhiều quan hệ 31 CHƯƠNG 4: Bảng 4.1: Dữ liệu khách hàng ban đầu .51 Bảng 4.2: Dữ liệu khách hàng sau chuẩn hóa .52 Bảng 4.3: Tính khoảng cách lần 54 Bảng 4.4: Cập nhật trọng tâm cụm .55 Bảng 4.5: Tính khoảng cách lần thứ hai 55 Bảng 4.6: Cập nhật lại trọng tâm lần thứ hai 56 Bảng 4.7: Tính lại khoảng cách đến trọng tâm 57 … MỞ ĐẦU Bước vào kỷ XX, kinh tế hội nhập phát triển mạnh mẽ, với nhu cầu đời sống xã hội phát triển không ngừng công nghệ thông tin mang lại cho giới bao điểu kỳ diệu Chúng ta, người sống xã hội đại khơng thể phủ nhận vai trị đặc biệt lượng thơng tin từ tăng lên với tốc độ bùng nổ Lượng liệu khổng lồ nguồn tài nguyên vô giá biết cách phát khai thác thơng tin hữu ích có Như vấn đề đặt với liệu việc lưu trữ khai thác chúng Các phương pháp khai thác truyền thống thay kỹ thuật khai phá liệu khám phá tri thức Công nghệ khai phá liệu đời cho phép khai thác thông tin hữu dụng việc trích xuất thơng tin có mối liên hệ liên quan định từ kho liệu lớn để từ giải tốn tìm kiếm, phân loại, dự báo Đặc biệt lĩnh vực kinh doanh, việc ứng dụng công nghệ khai phá liệu vào việc quản lý yếu tố quan trọng góp phần vào thành cơng cơng ty Trong q trình thực hiện, kiến thức kinh nghiệm thân hạn chế, đồ án cịn nhiều thiếu sót, chúng em mong nhận ý kiến đóng góp quý báu thầy để đồ án hồn thiện CHƯƠNG 1: TỔNG QUAN 1.1 GIỚI THIỆU 1.1.1 Giới thiệu công ty bảo hiểm VCLI VCLI (Vietcombank Cardif Life) công ty bảo hiểm trực thuộc ngân hàng Vietcombank, thành lập vào tháng năm 2007 theo giấy phép Bộ Tài hoạt động theo luật doanh nghiệp, luật kinh doanh bảo hiểm văn pháp luật có liên quan nhà nước VCLI kết hợp ngân hàng ngoại thương Việt Nam BNP Paribas Cardif (Pháp), công ty tập đồn tài BNP Paribas có mạng lướt hoạt động 36 quốc gia Nó sở hữu đầy đủ cơng ty bảo hiểm tồn cầu hòa quyện bảo hiểm với ngân hàng.[7] Với sở hạ tầng đại, với nhiều chiến lược kinh doanh độc đáo, hiệu lực quản lý chuyên môn cao cấp VCLI trọng việc nâng cao khả trình độ nghiệp vụ bảo hiểm toàn hệ thống, xây dựng, cải tiến phát triển hệ thống sản phẩm bảo hiểm đa dạng, tạo khác biệt để mang đến phục vụ cho khách hàng cách tốt Bảo hiểm Vietcombank Cardif Life quản lý góp phần giảm thiểu rủi ro, hạn chế bù đắp tổn thất cho khách hàng nhằm hướng tới an toàn thịnh vượng cho cộng đồng Với phương châm: “ Cộng đồng trách nhiệm – niềm tinh bảo hiểm”, VCLI hướng đến công ty trở thành 70 tập đồn tài có sức mạnh cạnh tranh ngồi nước, khơng đáp ứng nhu cầu đơng đảo khách hàng Việt Nam mà mở rộng thị trường toàn giới.[8] 1.1.2 Lý chọn đề tài Ngày nay, với sức mạnh công nghệ đại nhanh chóng giúp người khỏi khó khăn công việc, sống tấp nập hối ta cần phải nhanh chóng gia nhập vào giới, chủ động hội nhập Với phát triển nhanh chóng có nhiều cơng cụ hữu ích giúp tiết kiệm nhiều thời gian chi phí Nhiều phần mềm lĩnh vực công nghệ thông tin nhanh chóng đời góp phần đáng kể “Cơng Nghệ Thông Tin” lĩnh vực đầy tiềm đem lại cho người ứng dụng thật tiện lợi hữu ích Một ứng dụng thiết thực mà đem lại việc ứng dụng tin học vào nhiều lĩnh vực đời sống trường học, cơng ty, quan, xí nghiệp, bệnh viện… phần lớn ứng dụng tin học để giúp cho việc quản lý dễ dàng thuận tiện Chính vậy, cơng ty, quan muốn xây dựng riêng cho phần mềm quản lý Hình 3.30: Sơ đồ quản lý chấm dứt hợp đồng 3.5.4 Chức quản lý hạng hưởng  Sơ đồ lớp thiết kế Hình 3.31: Sơ đồ lớp tầng quản lý hạng hưởng  Mơ tả tốn 47 Mỗi gói bảo hiểm có hạng hưởng định, việc quản lý thông tin hạng hưởng giúp nhân viên biết số tiền hưởng gói bao nhiêu, thời gian Khi người dùng truy cập vào giao diện hạng hưởng hệ thống hiển thị thơng tin mức hưởng cho người dùng xem.Khi thực cập nhật, thêm, xóa, sửa tác động đến thơng tin hợp đồng gói bảo hiểm  Sơ đồ Hình 3.32: Sơ đồ quản lý hạng hưởng 3.5.5 Chức báo cáo thống kê  Sơ đồ lớp thiết kế lớp 48 Hình 3.33: Mơ hình lớp báo cáo thống kê  Sơ đồ Hình 3.34: Sơ đồ báo cáo - thống kê 49 CHƯƠNG 4: CÀI ĐẶT THUẬT TOÁN K- MEANS 4.1 GIỚI THIỆU CHUNG 4.1.1 Phân cụm Phân cụm liệu phương pháp xử lý thông tin nhằm khám phá mối liên hệ mẫu liệu cách tổ chức chúng thành cụm tương tự Tất dạng liệu biểu diễn đặc trưng vectơ n-chiều Để phân cụm liệu cần thực bước sau: ­ Chọn đặc trưng: Các đặc trưng lựa chọn phải hợp lý để mã hố nhiều thông tin liên quan đến công việc quan tâm ­ Chọn độ đo gần nhất: Một độ đo mức độ tương tự hay không tương tự hai vectơ đặc trưng ­ Tiêu chuẩn phân cụm: Tiêu chuẩn phân cụm biểu diễn hàm chi phí vài quy tắc khác ­ Cơng nhận kết quả: Sau có kết phân cụm, cần kiểm tra tính đắn ­ Giải thích kết quả: Bằng kết thực nghiệm cần phân tích để đưa kết luận đắn ­ Một số phương pháp phân cụm điển hình: Phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới, phân cụm dựa mơ hình, phân cụm có ràng buộc Tác giả chọn phương pháp phân cụm phân hoạch nhằm gom cụm khách hàng phù hợp dựa điểm số số thơng tin tích lũy thời gian tham gia bảo hiểm cơng ty 4.1.2 Thuật tốn K-Means K-Means thuật toán quan trọng sử dụng phổ biến kỹ thuật phân cụm liệu [1] Thuật tốn tìm cách phân cụm đối tượng cho vào k cụm (k số cụm xác định trước, k nguyên dương) cho tổng bình phương khoảng cách đối tượng đến tâm cụm (centroid) nhỏ Về nguyên lý, có n đối tượng, đối tượng có m thuộc tính, đối tượng phân chia thành k cụm dựa thuộc tính đối tượng việc áp dụng thuật toán K-means Bài toán xem thuộc tính đối tượng (đối tượng có m thuộc tính) tọa độ không gian m chiều biểu diễn đối tượng điểm không gian m chiều, là: (1) Trong đó: (i = n): Đối tượng thứ i ( i = n, j = .m): Thuộc tính thứ j đối tượng i 50  Khoảng cách Euclid Phương pháp phân cụm liệu thực dựa khoảng cách Euclid khoảng cách nhỏ từ đối tượng đến phần tử trọng tâm cụm Phần tử trọng tâm cụm xác định giá trị trung bình phần tử cụm i = � đối tượng thứ i cần phân cụm ; j= � phần tử trọng tâm cụm j Khoảng cách Euclid từ đối tượng đến phần tử trọng tâm nhóm j; cj tính tốn dựa cơng thức: (2) Trong đó: : Khoảng cách Euclid từ đến : Thuộc tính thứ s đối tượng : Thuộc tính thứ s phần tử trọng tâm c  Phần tử trọng tâm K phần tử trọng tâm ban đầu chọn ngẫu nhiên, sau lần gom đối tượng vào cụm, phần tử trọng tâm tính tốn lại: = {, , … , } – cụm thứ i; � = ��; k số cluster � = ��; m số thuộc tính �: Số phần tử có nhóm thứ i : Thuộc tính thứ j phần tử s; � = .� : Toạ độ thứ j phần tử trung tâm cụm i; = (3)  Các bước thực mã giả Input: Số cụm k trọng tâm cụm {}; = Output: Các cụm �[�] (1 ≤ � ≤ �) hàm tiêu chuẩn E đạt giá trị tối thiểu Begin Bước 1: Khởi tạo Chọn k trọng tâm {} (1 ≤ � ≤ �), ban đầu không gian (d số chiều liệu) Việc lựa chọn ngẫu nhiên theo kinh nghiệm Bước 2: Tính khoảng cách Đối với điểm (1 ≤ � ≤ �), tính khoảng cách tới trọng tâm {} (1 ≤ � ≤ �) Sau tìm trọng tâm gần điểm Bước 3: Cập nhật lại trọng tâm Đối với ≤ � ≤ �, cập nhật trọng tâm cụm cách xác định trung bình cộng vectơ đối tượng liệu Điều kiện dừng: Lặp lại bước trọng tâm cụm không thay đổi End 51 4.1.3 Bài tốn minh họa Ví dụ: Có 20 mẫu liệu khách hàng gồm thuộc tính: mã khách hàng, họ tên khách hàng, độ tuổi, thu nhập, lương thêm trình trạng nhân, u cầu gom thành cụm khách hàng tiềm khách hàng không tiềm Mã KH Họ Tên Độ tuổi KH01 KH02 KH03 KH04 KH05 KH06 KH07 KH08 KH09 KH10 KH11 KH12 KH13 KH14 KH15 KH16 KH17 KH18 KH19 KH20 Lâm Quốc Bảo Trương Minh Tú Trần Quốc Tuấn Nguyễn Thị Định Trần Tấn Trung Võ Thị Sinh Lê Minh Quân Đoàn Thị Hồng Phạm Văn Quý Huỳnh Gia Bảo Trương Phong Đặng Quốc Hưng Mai Ngọc Loan Trần Đức Bo Hồ Thị Hải Phạm Nhiên Lưu Mỹ Nhân Trần Quốc Tuấn Hồ Tuấn Anh Nguyễn Đắc Huề 20 30 35 25 45 50 19 28 47 38 18 60 43 26 19 58 45 38 20 35 Thu nhập Lương thêm Hôn nhân 1000000 2000000 1000000 2000000 1000000 500000 100000 1000000 500000 100000 1000000 200000 500000 500000 200000 1000000 100000 100000 1000000 3000000 Độc thân Đã kết hôn Từng ly hôn Độc thân Đã kết hôn Độc thân Độc thân Độc thân Đã kết hôn Từng ly hôn Độc thân Đã kết hôn Từng ly hôn Đã kết hôn Độc thân Đã kết hôn Đã kết hôn Độc thân Độc thân Đã kết hôn 2000000 13000000 15000000 10000000 5000000 2000000 3000000 8000000 20000000 8000000 20000000 10000000 25000000 13000000 6000000 15000000 5500000 30000000 15000000 4000000 Bảng 4.1: Dữ liệu khách hàng ban đầu Hình 4.1: Minh họa 20 điểm liệu khách hàng Với liệu ban đầu, khó việc tính tốn độ xác khơng cao nên cần chuẩn hóa liệu vệ đoạn ( 0,1) để dể thực Công thức chuẩn hóa liệu: (3) 52 Trong đó: x: giá trị vị trí cần tính min: giá trị nhỏ hàng thuộc tính max: giá trị lớn hàng thuộc tính Ví dụ: Tại độ tuổi KH001: = 0.05 (đã làm trịn), tính tương tự ta có bảng kết chuẩn hóa sau: Mã KH Họ Tên Độ tuổi Thu nhập Lương thêm Hôn nhân KH01 KH02 KH03 KH04 KH05 KH06 KH07 KH08 KH09 KH10 KH11 KH12 KH13 KH14 KH15 KH16 KH17 KH18 KH19 KH20 Lâm Quốc Bảo Trương Minh Tú Trần Quốc Tuấn Nguyễn Thị Định Trần Tấn Trung Võ Thị Sinh Lê Minh Quân Đoàn Thị Hồng Phạm Văn Quý Huỳnh Gia Bảo Trương Phong Đặng Quốc Hưng Mai Ngọc Loan Trần Đức Bo Hồ Thị Hải Phạm Nhiên Lưu Mỹ Nhân Trần Quốc Tuấn Hồ Tuấn Anh Nguyễn Đắc Huề 0.05 0.29 0.40 0.17 0.64 0.76 0.02 0.24 0.69 0.48 0.00 1.00 0.60 0.19 0.02 0.95 0.64 0.48 0.05 0.40 0.00 0.39 0.46 0.29 0.11 0.00 0.04 0.21 0.64 0.21 0.64 0.29 0.82 0.39 0.14 0.46 0.13 1.00 0.46 0.07 0.31 0.66 0.31 0.66 0.31 0.14 0.00 0.31 0.14 0.00 0.31 0.03 0.14 0.14 0.03 0.31 0.00 0.00 0.31 1.00 0.0 1.0 0.5 0.0 1.0 0.0 0.0 0.0 1.0 0.5 0.0 1.0 0.5 1.0 0.0 1.0 1.0 0.0 0.0 1.0 Bảng 4.2: Dữ liệu khách hàng sau chuẩn hóa  Bước 1: Khởi tạo Trong liệu này, gom thành cụm:  Cụm 1, khởi tạo trọng tâm C1 dòng thứ (0.05, 0, 0.31, 0)  Cụm 2, khởi tạo trọng tâm C2 dịng thứ 10 (0.48, 0.21, 0, 0.5) 53 Hình 4.2: Minh họa khởi tạo tâm  Bước 2: Tính khoảng cách Áp dụng cơng thức Euclidean, vị trí Tâm C2 đến KH01 ta có: D (C2, KH01) = = 0.76 Tính tương tự, ta có kết sau: Mã KH KH01 KH02 KH03 KH04 KH05 KH06 KH07 KH08 KH09 KH10 KH11 KH12 KH13 KH14 KH15 KH16 KH17 KH18 KH19 KH20 Họ tên Lâm Quốc Bảo Trương Minh Tú Trần Quốc Tuấn Nguyễn Thị Định Trần Tấn Trung Võ Thị Sinh Lê Minh Quân Đoàn Thị Hồng Phạm Văn Quý Huỳnh Gia Bảo Trương Phong Đặng Quốc Hưng Mai Ngọc Loan Trần Đức Bo Hồ Thị Hải Phạm Nhiên Lưu Mỹ Nhân Trần Quốc Tuấn Hồ Tuấn Anh Nguyễn Đắc Huề Tính khoảng cách Tâm C1 Tâm C2 0.00 0.76 1.15 0.86 0.76 0.40 0.47 0.88 1.17 0.62 0.73 0.63 0.31 0.70 0.28 0.64 1.36 0.71 0.76 0.00 0.64 0.87 1.44 0.73 1.12 0.64 1.10 0.62 0.31 0.68 1.42 0.79 1.21 0.53 1.13 0.93 0.46 0.77 1.27 1.13 Lần Cụm X Cụm Y Y X Y Y X X Y Y X Y Y Y X Y Y Y X Y Bảng 4.3: Tính khoảng khách lần Sau lần tính khoảng cách thứ nhất, ta so sách giá trị tâm C1 tâm C2, giá trị nhỏ thuộc cụm Ví dụ KH01 có khoảng cách đến trọng tâm C1 54 0.00 đến trọng tậm C2 0.76 nên KH01 thuộc cụm 1, gán thích X Tương tự ta thu kết lần với hình minh họa sau: Hình 4.3: Minh họa gom cụm lần thứ  Bước 3: Cập nhật lại tâm cụm cụm Sau có điểm thuộc cụm lần thứ nhất, ta cập nhật lại trọng tâm cụm cách lấy giá trị thuộc tính điểm thuộc cụm cộng lại chia cho tổng số điểm cụm Ví dụ cụm 1, ta tính trung bình cộng giá trị thuộc tính (độ tuổi, thu nhập, lương thêm, hôn nhân) với giá trị lấy từ bảng 4.2 sau: – Thuộc tính độ tuổi trọng tâm == 0.08 – Thuộc tính thu nhập trọng tâm == 0.25 – Thuộc tính lương thêm trọng tâm == 0.28 – Thuộc tính nhân trọng tâm == 0.00 Vậy trọng tâm (0.08, 0.25, 0.28, 0.00) Tính tương tự ta có bảng sau: Cụm Độ tuổi 0.08 0.58 Thu nhập 0.25 0.38 Lương thêm 0.28 0.24 Hôn nhân 0.00 0.73 Bảng 4.4: Cập nhật trọng tâm cụm  Bước 4: Lặp lại bước – Tính khoảng cách Mã KH KH01 KH02 KH03 KH04 KH05 KH06 KH07 KH08 Họ tên Lâm Quốc Bảo Trương Minh Tú Trần Quốc Tuấn Nguyễn Thị Định Trần Tấn Trung Võ Thị Sinh Lê Minh Qn Đồn Thị Hồng Tính khoảng cách Tâm C1 Tâm C2 0.25 0.98 1.10 0.58 0.63 0.31 0.40 0.94 1.15 0.39 0.74 0.85 0.36 1.01 0.17 0.83 55 Lần Cụm X Cụm Y Y X Y X X X KH09 KH10 KH11 KH12 KH13 KH14 KH15 KH16 KH17 KH18 KH19 KH20 Phạm Văn Quý Huỳnh Gia Bảo Trương Phong Đặng Quốc Hưng Mai Ngọc Loan Trần Đức Bo Hồ Thị Hải Phạm Nhiên Lưu Mỹ Nhân Trần Quốc Tuấn Hồ Tuấn Anh Nguyễn Đắc Huề 1.24 0.70 0.40 1.38 0.93 1.02 0.28 1.34 1.18 0.89 0.21 1.28 0.40 0.39 0.97 0.55 0.51 0.45 0.97 0.47 0.44 0.99 0.91 0.88 Y Y X Y Y Y X Y Y X X Y Bảng 4.5: Tính khoảng cách lần thứ hai Hình 4.4: Minh họa gom cụm lần thứ hai  Bước 5: Quay lại bước - Cập nhật lại tâm cụm cụm Cụm Độ tuổi 0.19 0.57 Thu nhập 0.31 0.36 Lương thêm 0.23 0.28 Hôn nhân 0.00 0.86 Bảng 4.6: Cập nhật lại trọng tâm lần hai  Bước 6: Lặp lại bước – tính hoảng cách Mã KH KH01 KH02 KH03 KH04 KH05 KH06 KH07 Họ tên Lâm Quốc Bảo Trương Minh Tú Trần Quốc Tuấn Nguyễn Thị Định Trần Tấn Trung Võ Thị Sinh Lê Minh Quân Tính khoảng cách Tâm C1 Tâm C2 0.34 1.06 0.4 0.56 0.41 0.43 1.02 1.1 0.29 0.65 0.96 0.39 1.10 56 Lần Cụm X Cụm Y Y X Y X X KH08 KH09 KH10 KH11 KH12 KH13 KH14 KH15 KH16 KH17 KH18 KH19 KH20 Đoàn Thị Hồng Phạm Văn Quý Huỳnh Gia Bảo Trương Phong Đặng Quốc Hưng Mai Ngọc Loan Trần Đức Bo Hồ Thị Hải Phạm Nhiên Lưu Mỹ Nhân Trần Quốc Tuấn Hồ Tuấn Anh Nguyễn Đắc Huề 0.13 1.16 0.63 0.3 1.3 0.82 0.31 1.26 1.13 0.78 0.22 1.3 0.9 0.36 0.48 1.06 0.52 0.6 0.42 1.07 0.41 0.39 1.11 1.01 0.8 X Y Y X Y Y Y X Y Y X X Y Bảng 4.7: Tính lại khoảng cách đến trọng tâm  Bước 7:Kết luận Ta thấy trọng tâm cụm không thay đổi nữa, nên toán dừng lại Vậy: – Cụm 1, trọng tâm C1(0.19; 0.31; 0.23; 0) gồm khách hàng có mã số (KH01; KH04; KH06; KH07; KH08; KH11; KH15; KH18; KH19) – Cụm 2, trọng tâm C2(0.57; 0.36; 0.28; 0.86) gồm 11 khách hàng có mã số (KH02; KH03; KH05; KH09; KH10; KH12; KH13; KH14; KH16; KH17; KH20) 4.2 GIẢI PHÁP PHÂN CỤM 4.2.1 Các loại khách hàng Khách hàng gồm có nhiều loại khác khách hàng lợi nhuận, khách hàng thân thiết, khách hàng tiềm năng, khách hàng khác…, nhiên đề tài nhóm chúng em khách hàng phân thành nhóm là: khách hàng tiềm khách hàng khơng tiềm Nhóm chúng em đưa giải pháp thực nghiệm giải việc định hướng phân loại khách hàng cách tự động vào kết chuẩn đoán số liệu liên quan đến khách hàng thu nhập, số tuổi, tình trạng nhân Để từ chuẩn đốn đưa gói bảo hiểm tiềm phù hợp với khách hàng 4.2.2 Tiền xử lý liệu Dữ liệu thu thập ban đầu tập tin excel chứa thông tin cá nhân khách hàng Mỗi tập tin chứa thông tin thu nhập chính, thu nhập phụ có, lương người thân ( vợ/ chồng), lập gia đình hay chưa có (nếu có) 57 Bảng 4.1: Dữ liệu thu thập ban đầu Do tập tin excel chứa thơng tin khách hàng có tập thuộc tính khơng cần thiết phân cụm liệu Việc xếp vị trí thuộc tính cần tính chưa phù hợp liệu gây nhiễu nên cần loại bỏ thuộc tính dư thừa nhằm phục vụ cho toán phân cụm khách hàng xác Bảng 4.2: Dữ liệu tiền xử lý 4.2.3 Ứng dụng K-means phân cụm khách hàng Thuật toán K-Means áp dụng phân cụm cho loại khách hàng, loại khách hàng có kết cụm, cụm gồm khách hàng tiềm cụm cịn lại khách hàng khơng tiềm năng, lặp lại thuật toán hết loại khách hàng Trọng tâm ban đầu cụm loại khách hàng định với mức gọi ngưỡng ngưỡng Ngưỡng gom cụm gồm khách hàng tiềm năng, ngưỡng gom cụm gồm khách hàng không tiềm Thuật tốn K-Means áp dụng vào tốn trình bày sau: Input:  Bảng thông tin khách hàng tổng hợp qua bước tiền xử lý  Danh sách thuộc tính chọn theo loại khách hàng  Trọng tâm cụm ứng với ngưỡng (tiềm năng) ngưỡng (không tiềm năng) 58 Output: Danh sách khách hàng phân cụm theo khách hàng tiềm danh sách khách hàng thuộc loại khách hàng không tiềm Begin Bước 1: Khởi tạo  Trọng tâm ban đầu theo chuyên ngành (); trọng tâm cụm i thuộc chuyên ngành k; m điểm số thứ m thuộc trọng tâm  Danh sách thuộc tính (); nhóm điểm thứ i thuộc chuyên ngành k; m điểm số thứ m thuộc nhóm điểm Bước 2: Phân cụm cho loại khách hàng For k = to N //Lặp N loại khách hàng = K-Means (); //Xử lý phân cụm cho loại khách hàng // gồm tập: gồm sinh viên phân cụm vào chuyên ngành sinh viên không thuộc chuyên ngành Bước 3: Xử lý kết For i = to M // Duyệt qua danh sách M khách hàng đầu vào Nếu  {tập tất loại khách hàng phân cụm}  {Danh sách khác} End Kết phân cụm cho loại khách hàng: Hình 4.5: Kết phân cụm khách hàng tiềm 59 gồm CHƯƠNG 5: KẾT LUẬN 5.1 Kết đạt 5.1.1 Về kiến thức học tập Nắm vững kiến thức lý thuyết phục vụ tốt cho việc thiết kế chương trình Thực phân tích, thiết kế chức để xây dựng ứng dụng Củng cố lại kiến thức học được, đặc biệt kỹ phân tích, làm việc nhóm 5.1.2 Về phần mềm Ứng dụng thực môi trường phát triển Visual Studio 2013, viết ngôn ngữ C# Hoàn thiện đầy đủ chức phần mềm quản lý: thêm, xoá, sửa, cập nhật thông tin Thống kê doanh thu, xuất thông tin thống kê danh sách khách hàng, thông tin hợp đồng trễ hạn Giao diện chương trình thân thiện, dễ sử dụng, trực quan linh hoạt 5.2 Hạn chế đề tài Kiến thức thực tế kiến thức lập trình cịn hạn chế, nên tính chun nghiệp chưa cao, bắt lỗi chưa kỹ số chỗ số tính chưa tối ưu Chương trình hoạt động chưa mượt mà, hoạt ảnh chuyển động chậm giật 5.3 Hướng phát triển Thiết kế biểu mẫu đầy đủ sát với thực tế Tìm hiểu chương trình chạy nhiều tảng khác tìm hiểu biện pháp bảo mật cho ứng dụng quản lý, từ áp dụng cho chương trình Bổ sung thêm chức khác: chấm công nhân viên, quét mã vạch cho khách hàng Hệ thống xây dựng thêm dạng web nhằm tăng thêm kết hợp chặt chẽ khách hàng chi nhánh công ty giúp cho việc quản lý khách hàng tốt 5.4 Kết luận 60 Mặc dù cố gắng hoàn thành đề tài tốt nghiệp với tất nổ lực để hoàn thành đề tài kinh nghiệm lượng kiến thức hạn chế nên chắn khơng tránh khỏi thiếu sót định, kính mong đóng góp ý kiến q thầy để phần mềm trở nên hồn thiện TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Thiện Tâm, Trần xuân Hải, Giáo trình SQL Server 2000 (Giáo trình nội bộ), Đại học Quốc gia TP.HCM, Đại học Khoa học tự nhiên, 2004 [2] Hồ Thuần, Hồ Cẩm Hà, Các hệ sở liệu Lý thuyết thực hành, Nhà xuất giáo dục, 2007 [3] Nguyễn Văn Chức - Thuật toán K-Means với toán phân cụm liệu, BIS 2010 [4] Ths Đinh Khắc Quyền & ThS Phan Tấn Tài, Phân tích thiết kế HTTT [5] Vũ Thị Kim Phượng & Nguyễn Thị Nhung, Phân thích thiết kế HTTT Tiếng Anh [6] Jame McCaffrey - K-Means data clustering using C#, Visual Studio Magazine, 2013 Website [7] Thông tin VCLI (https://niemtinbaohiem.com/bao-hiem-vietcombank/ ) [8] Thơng tin bảo gói bảo hiểm (https://thongtinbaohiem.net/vcli ) [9] Giới thiệu thuật toán (http://en.wikipedia.org/wiki/k-means_clustering ) [10] Thuật toán K-Means (http://ungdung.khoahnvd.com/Hoc_thuat/KMeans.html) [11] Nguyễn Văn Đức (http://bis.net.vn/forums/t/374.aspx ) [12] https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/KMeans? [13] https://visualstudiomagazine.com/Articles/2013/12/01/K-Means-DataClustering-Using-C.aspx?Page=1 [14] https://www.codeproject.com/Articles/985824/Implementing-The-K-MeansClustering-Algorithm-in-C? [15] http://accord-framework.net/samples.html? 61 ... Thực chức quản lý ứng dụng gồm:  Chức quản lý: Quản lý danh mục khách hàng, quản lý hợp đồng bảo hiểm, quản lý sổ bảo hiểm, quản lý gói bảo hiểm, quản lý lịch đóng bảo hiểm khách hàng  Chức... phần mềm dự đốn khách hàng mua bảo hiểm bao gồm chức sau: quản lý thơng tin khách hàng, quản lý gói bảo hiểm, quản lý tình trạng đóng bảo hiểm hạn, trễ hạn hạng hưởng bảo hiểm, quản lý thống kê tổng... khách hàng, thơng tin gói bảo hiểm quản lý tình hình đóng bảo hiểm khách hàng theo hợp đồng ký Xác định nhóm khách hàng ( khách hàng tiềm năng, khách hàng không tiềm ) tới tham gia bảo hiểm VCLI

Ngày đăng: 16/03/2021, 20:51

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w