Ứng dụng phân cụm dữ liệu trong quản lý bảo hiểm tại công ty bảo việt nhân thọ hà nội

64 9 0
Ứng dụng phân cụm dữ liệu trong quản lý bảo hiểm tại công ty bảo việt nhân thọ hà nội

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐỖ PHƯƠNG DUNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG QUẢN LÝ BẢO HIỂM TẠI CÔNG TY BẢO VIỆT NHÂN THỌ HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2018 LỜI CAM ĐOAN Em xin cam đoan luận văn cơng trình em tự nghiên cứu hướng dẫn thầy giáo Nguyễn Tân Ân Mọi trích dẫn sử dụng báo cáo ghi rõ nguồn tài liệu tham khảo theo quy định Thái Nguyên, ngày 06 tháng 04 năm 2018 Tác giả luận văn Đỗ Phương Dung LỜI CẢM ƠN Trước hết, xin bày tỏ lịng kính trọng lịng biết ơn sâu sắc tới thầy giáo PGS.TS Nguyễn Tân Ân, người tận tình hướng dẫn, bảo cung cấp tài liệu hữu ích để tơi hồn thành luận văn Tơi xin cảm ơn lãnh đạo Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên tạo điều kiện giúp đỡ tơi mặt suốt q trình học tập thực luận văn Tôi xin bày tỏ lịng biết ơn tới thầy, giáo giảng dạy, truyền đạt kiến thức, phương pháp nghiên cứu khoa học suốt thời gian học tập vừa qua Cuối cùng, gửi lời cảm ơn tới gia đình, anh chị em học viên cao học CK15B, bạn đồng nghiẹp động viên, khích lệ ln tạo điều kiện giúp đỡ tơi q trình học tập nghiên cứu Thái Nguyên, ngày 06 tháng 04 năm 2018 Tác giả luận văn Đỗ Phương Dung MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC .4 DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 10 1.1 Giới thiệu chung khám phá tri thức khai phá liệu 10 1.2 Quá trình khám phá tri thức 11 1.3 Quá trình khai phá liệu 12 1.4 Các phương pháp khai phá liệu 13 1.5 Các lĩnh vực ứng dụng thực tiễn KPDL 14 1.6 Các hướng tiếp cận kỹ thuật áp dụng KPDL 15 1.7 Kết luận 17 CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU 19 2.1 Khái niệm mục tiêu phân cụm liệu 19 2.2 Các ứng dụng phân cụm liệu 20 2.3 Các yêu cầu phân cụm 21 2.4 Những kỹ thuật tiếp cận phân cụm liệu 23 2.4.1 Phương pháp phân cụm phân hoạch .23 2.4.2 Phương pháp phân cụm phân cấp 29 2.4.3 Phương pháp phân cụm dựa mật độ .35 2.4.4 Phương pháp phân cụm dựa lưới .39 2.4.5 Phương pháp phân cụm dựa mơ hình 40 2.4.6 Phương pháp phân cụm có liệu buộc 41 CHƯƠNG 3: BÀI TOÁN ỨNG DỤNG 43 3.1 Đặt toán 43 3.2 Giải toán 44 3.3 Lý thuyết áp dụng 45 3.4 Chương trình ứng dụng 45 3.5 Đánh giá kết 48 HƯỚNG NGHIÊN CỨU TIẾP THEO 52 TÀI LIỆU THAM KHẢO 53 PHỤ LỤC 54 Phụ lục 1: Hướng dẫn sử dụng chương trình 54 Phụ lục 2: Mã nguồn trang Phân cụm chương trình 57 DANH MỤC CÁC TỪ VIẾT TẮT STT Viết tắt Cụm từ CNTT Công nghệ thông tin CSDL Cơ sở liệu KPDL Khai phá liệu PCDL Phân cụm liệu DANH MỤC HÌNH VẼ Tên hình vẽ STT Hình 1.1: Quá trình Khai phá tri thức Hình 1.2: Quá trình Khai phá liệu Hình 2.1: Các thiết lập để xác định ranh giới cụm ban đầu Hình 2.2: Tính tốn trọng tâm cụm Hình 2.3: Phân cụm phân cấp Top-down Bottom-up Hình 2.4: Các cụm liệu theo thuật tốn CURE Hình 2.5: Cấu trúc CF Hình 2.6: Một số hình dạng cụm liệu khám phá kỹ thuật PCDL dựa mật độ Hình 2.7: Mơ hình cấu trúc liệu lưới MỞ ĐẦU Sự phát triển Công nghệ thông tin việc ứng dụng công nghệ thông tin lĩnh vực đời sống kinh tế, xã hội nhiều năm qua dẫn đến liệu thu thập lưu trữ ngày đa dạng phong phú Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kĩ thuật cơng cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kĩ thuật Khai phá liệu trở thành lĩnh vực thời Công nghệ thông tin giới Một vấn đề đặt phải trích chọn thơng tin có ý nghĩa từ tập liệu lớn để từ giải yêu cầu thực tế trợ giúp định dự đoán,… Khai phá liệu (Data mining) đời nhằm giải yêu cầu Khai phá liệu định nghĩa là: q trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ Cơ sở liệu, kho liệu… Hiện nay, thuật ngữ khai phá liệu, người ta dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ Cơ sở liệu (knowlegde mining from databases), trích lọc liệu (knowlegde extraction), phân tích liệu/mẫu (data/pattern analysis), khảo cổ liệu (data archaeology), nạo vét liệu (data dredging) Nhiều người coi khai phá liệu thuật ngữ thông dụng khác khám phá tri thức Cơ sở liệu (Knowlegde Discovery in Databases) Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình Khám phá tri thức Cơ sở liệu Ngay từ ngày đầu xuất hiện, Data mining trở thành xu hướng nghiên cứu phổ biến lĩnh vực học máy tính công nghệ tri thức Nhiều thành tựu nghiên cứu Data mining áp dụng thực tế Data mining có nhiều hướng quan trọng hướng phân cụm liệu (Data Clustering) Phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tương tự" (Similar) với phần tử cụm khác "phi tương tự" (Dissimilar) với Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định Phân cụm liệu đặc biệt hiệu ta thông tin cụm Phân cụm coi công cụ độc lập để xem xét phân bố liệu Hiện nay, phân cụm liệu hướng nghiên cứu nhiều tin học Chính em chọn đề tài “Ứng dụng phân cụm liệu quản lý bảo hiểm công ty Bảo Việt nhân thọ Hà Nội” để ứng dụng thuật toán phân cụm liệu để đưa nhóm khách hàng có giống lớn từ giúp cho chuyên đưa đánh giá mẫu khách hàng, sở hồ sơ mua bảo hiểm gồm thông tin độ tuổi, số tiền, số năm mua 10 CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung khám phá tri thức khai phá liệu Nếu ta cho rằng, điện tử truyền thơng chất khoa học điện tử, liệu, thơng tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khám phá tri thức khai phá liệu Thông thường, coi liệu chuỗi bits, số ký hiệu “đối tượng” với ý nghĩa gửi cho chương trình dạng định Các bits thường sử dụng để đo thông tin, xem liệu loại bỏ phần tử thừa, lặp lại, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Tri thức xem thơng tin tích hợp, bao gồm kiện mối quan hệ chúng, nhận thức, khám phá, nghiên cứu Nói cách khác, tri thức coi liệu mức độ cao trừu tượng tổng quát Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mơ hình liệu với tính năng: Phân tích, tổng hợp, hợp thức, khả ích hiểu Khai phá liệu bước trình khám phá tri thức, gồm thuật tốn khai thác liệu chuyên dùng số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục tiêu KPDL tìm mẫu mơ hình tồn CSDL ẩn khối lượng lớn liệu 50 - Chương trình chạy thử nghiệm với số cụm k=3, thay đổi k để có kết đánh giá tổng quan hơn, nhiên số cụm k lớn ý nghĩa phân cụm khơng thể rõ nét - Dựa kết phân cụm theo tiêu chí: Tuổi mua: Số lượng khách hàng mua độ tuổi 37-66 lớn (56,1%) Số tiền mua: Số lượng khách hàng mua với mức tiền 30-65 triệu nhiều (71%) Số năm mua: Số lượng khách hàng mua với số năm mua từ 16-40 năm nhiều (74,3%) Qua nhà làm bảo hiểm đánh giá đưa nhóm khách hàng tiềm năng, từ đưa chiến lược bảo hiểm cơng ty 51 KẾT LUẬN Trong luận em nêu lên nét đặc trưng lĩnh vực Khai phá liệu bao gồm vấn đề cần khám phá tri thức, hướng tiếp cận nghiên cứu tiêu biểu, phân cụm liệu phương pháp khám phá tri thức quan trọng Khai phá liệu có nhiều ý nghĩa khoa học thực tiễn Luận văn đề cập đến số thuật tốn phổ biến, thơng dụng ứng dụng thuật toán Kmean để phân cụm liệu với khách hàng bảo hiểm 52 HƯỚNG NGHIÊN CỨU TIẾP THEO Khai phá liệu lĩnh vực nghiên cứu mới, đồng thời xu hướng nghiên cứu ngày phổ biến Do nhu cầu thực tế, với phát triển cơng nghệ máy tính, lĩnh vực kinh tế - xã lượng thơng tin lưu trữ ngày tăng, nhu cầu khai thác thông tin, tri thức ngày lớn Việc nghiên cứu phát triển phương pháp phân cụm liệu đóng vai trò quan trọng hoạt động khoa học cơng nghệ máy tính, hoạt động thực tiễn Ứng dụng Phân cụm liệu đa dạng, nhiều lĩnh vực Trong trình nghiên cứu tham khảo nhiều tài liệu, nhiều nguồn khác tránh khỏi thiếu sót hạn chế Bài tốn ứng dụng dừng lại việc phân cụm với thuộc tính kiểu liệu số Trong thời gian tới em tiếp tục tìm hiểu thêm số kỹ thuật phân cụm phát triển ứng dụng với kiểu liệu đa dạng 53 TÀI LIỆU THAM KHẢO Tiếng Việt [1] TS Đỗ Phúc, Chuyên đề Khai phá liệu Nhà kho liệu (Data Mining & Data Warehouse), Đại học Quốc Gia Thành Phố Hồ Chí Minh, 2004 [2] Đỗ Phúc, Giáo trình Khai thác liệu, Đại học Quốc Gia Thành phố Hồ Chí Minh, 2005 [3] Hồng Văn Dũng, “Khai phá liệu Web kỹ thuật phân cụm”, Luận văn thạc sĩ, Trường Đại học Đại học Sư phạm Hà Nội, 2007 Tiếng Anh [4] "Introduction to Data Mining" cua P.-N Tan and M Steinbach and V Kumar http://www-users.cs.umn.edu/~kumar/dmbook/index.php 54 PHỤ LỤC Phụ lục 1: Hướng dẫn sử dụng chương trình Đăng nhập Hệ thống Nhập thơng tin Hợp đồng Thực phân cụm Nhập số cụm Chọn tiêu chí phân cụm 55 56 Xem chi tiết thông tin cụm 57 Phụ lục 2: Mã nguồn trang Phân cụm chương trình 58 59 60 61 62 63 64 ... xét phân bố liệu Hiện nay, phân cụm liệu hướng nghiên cứu nhiều tin học Chính em chọn đề tài ? ?Ứng dụng phân cụm liệu quản lý bảo hiểm công ty Bảo Việt nhân thọ Hà Nội? ?? để ứng dụng thuật toán phân. .. CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU 2.1 Khái niệm mục tiêu phân cụm liệu Phân cụm liệu q trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương... kết hợp hai phương pháp phân cụm phân hoạch phân cụm phân cấp, nghĩa kết thu phương pháp phân cấp cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch phân cụm phân cấp hai phương pháp

Ngày đăng: 12/06/2021, 16:59

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan