1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng phân cụm dữ liệu trong quản lý bảo hiểm tại công ty bảo việt nhân thọ hà nội

64 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 2,62 MB

Nội dung

1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐỖ PHƯƠNG DUNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG QUẢN LÝ BẢO HIỂM TẠI CÔNG TY BẢO VIỆT NHÂN THỌ HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2018 LỜI CAM ĐOAN Em xin cam đoan luận văn cơng trình em tự nghiên cứu hướng dẫn thầy giáo Nguyễn Tân Ân Mọi trích dẫn sử dụng báo cáo ghi rõ nguồn tài liệu tham khảo theo quy định Thái Nguyên, ngày 06 tháng 04 năm 2018 Tác giả luận văn Đỗ Phương Dung LỜI CẢM ƠN Trước hết, xin bày tỏ lịng kính trọng lịng biết ơn sâu sắc tới thầy giáo PGS.TS Nguyễn Tân Ân, người tận tình hướng dẫn, bảo cung cấp tài liệu hữu ích để tơi hồn thành luận văn Tơi xin cảm ơn lãnh đạo Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên tạo điều kiện giúp đỡ tơi mặt suốt q trình học tập thực luận văn Tôi xin bày tỏ lịng biết ơn tới thầy, giáo giảng dạy, truyền đạt kiến thức, phương pháp nghiên cứu khoa học suốt thời gian học tập vừa qua Cuối cùng, gửi lời cảm ơn tới gia đình, anh chị em học viên cao học CK15B, bạn đồng nghiẹp động viên, khích lệ ln tạo điều kiện giúp đỡ tơi q trình học tập nghiên cứu Thái Nguyên, ngày 06 tháng 04 năm 2018 Tác giả luận văn Đỗ Phương Dung MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1.Giới thiệu chung khám phá tri thức khai p 1.2.Quá trình khám phá tri thức 1.3.Quá trình khai phá liệu 1.4.Các phương pháp khai phá liệu 1.5.Các lĩnh vực ứng dụng thực tiễn KPDL 1.6.Các hướng tiếp cận kỹ thuật áp dụng 1.7.Kết luận CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU 2.1.Khái niệm mục tiêu phân cụm liệu 2.2.Các ứng dụng phân cụm liệu 2.3.Các yêu cầu phân cụm 2.4.Những kỹ thuật tiếp cận phân cụm liệu 2.4.1 Phương pháp phân cụm phân hoạch 2.4.2 Phương pháp phân cụm phân cấp 2.4.3 Phương pháp phân cụm dựa mật độ 2.4.4 Phương pháp phân cụm dựa lưới 2.4.5 Phương pháp phân cụm dựa mơ hình 2.4.6 Phương pháp phân cụm có liệu buộc CHƯƠNG 3: BÀI TOÁN ỨNG DỤNG 3.1.Đặt toán 3.2.Giải toán 3.3.Lý thuyết áp dụng 3.4.Chương trình ứng dụng 3.5 Đánh giá kết HƯỚNG NGHIÊN CỨU TIẾP THEO TÀI LIỆU THAM KHẢO PHỤ LỤC Phụ lục 1: Hướng dẫn sử dụng chương trình Phụ lục 2: Mã nguồn trang Phân cụm chương trình DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤ STT Hình 1.1: Quá trình Khai ph Hình 1.2: Quá trình Khai ph Hình 2.1: Các thiết lập để xá Hình 2.2: Tính tốn trọng tâ Hình 2.3: Phân cụm phân cấ Hình 2.4: Các cụm liệu th Hình 2.5: Cấu trúc CF Hình 2.6: Một số hình dạng PCDL dựa mật độ Hình 2.7: Mơ hình cấu trúc d MỞ ĐẦU Sự phát triển Công nghệ thông tin việc ứng dụng công nghệ thông tin lĩnh vực đời sống kinh tế, xã hội nhiều năm qua dẫn đến liệu thu thập lưu trữ ngày đa dạng phong phú Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kĩ thuật cơng cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kĩ thuật Khai phá liệu trở thành lĩnh vực thời Công nghệ thông tin giới Một vấn đề đặt phải trích chọn thơng tin có ý nghĩa từ tập liệu lớn để từ giải yêu cầu thực tế trợ giúp định dự đoán,… Khai phá liệu (Data mining) đời nhằm giải yêu cầu Khai phá liệu định nghĩa là: q trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ Cơ sở liệu, kho liệu… Hiện nay, thuật ngữ khai phá liệu, người ta dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ Cơ sở liệu (knowlegde mining from databases), trích lọc liệu (knowlegde extraction), phân tích liệu/mẫu (data/pattern analysis), khảo cổ liệu (data archaeology), nạo vét liệu (data dredging) Nhiều người coi khai phá liệu thuật ngữ thông dụng khác khám phá tri thức Cơ sở liệu (Knowlegde Discovery in Databases) Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình Khám phá tri thức Cơ sở liệu Ngay từ ngày đầu xuất hiện, Data mining trở thành xu hướng nghiên cứu phổ biến lĩnh vực học máy tính công nghệ tri thức Nhiều thành tựu nghiên cứu Data mining áp dụng thực tế Data mining có nhiều hướng quan trọng hướng phân cụm liệu (Data Clustering) Phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tương tự" (Similar) với phần tử cụm khác "phi tương tự" (Dissimilar) với Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định Phân cụm liệu đặc biệt hiệu ta thông tin cụm Phân cụm coi công cụ độc lập để xem xét phân bố liệu Hiện nay, phân cụm liệu hướng nghiên cứu nhiều tin học Chính em chọn đề tài “Ứng dụng phân cụm liệu quản lý bảo hiểm công ty Bảo Việt nhân thọ Hà Nội” để ứng dụng thuật toán phân cụm liệu để đưa nhóm khách hàng có giống lớn từ giúp cho chuyên đưa đánh giá mẫu khách hàng, sở hồ sơ mua bảo hiểm gồm thông tin độ tuổi, số tiền, số năm mua 10 CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung khám phá tri thức khai phá liệu Nếu ta cho rằng, điện tử truyền thơng chất khoa học điện tử, liệu, thơng tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khám phá tri thức khai phá liệu Thông thường, coi liệu chuỗi bits, số ký hiệu “đối tượng” với ý nghĩa gửi cho chương trình dạng định Các bits thường sử dụng để đo thông tin, xem liệu loại bỏ phần tử thừa, lặp lại, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Tri thức xem thơng tin tích hợp, bao gồm kiện mối quan hệ chúng, nhận thức, khám phá, nghiên cứu Nói cách khác, tri thức coi liệu mức độ cao trừu tượng tổng quát Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mơ hình liệu với tính năng: Phân tích, tổng hợp, hợp thức, khả ích hiểu Khai phá liệu bước trình khám phá tri thức, gồm thuật tốn khai thác liệu chuyên dùng số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục tiêu KPDL tìm mẫu mơ hình tồn CSDL ẩn khối lượng lớn liệu 11 Hình 1.1: Quá trình Khai phá tri thức 1.2 Quá trình khám phá tri thức [4] Quá trình khai phá tri thức trải qua bước sau: Bước 1: Chuẩn bị liệu Do liệu thu thập từ nhiều nguồn khác nên thể có nhiều sai sót, dư thừa, trùng lặp Vì bước chuẩn bị bước quan trọng Dữ liệu sau bước chuẩn bị nhỏ hơn, xử lý nhanh chóng Chuẩn bị liệu bao gồm công đoạn sau: - Làm liệu (Data Cleaning): Loại bỏ liệu nhiễu liệu khơng thích hợp - Tích hợp liệu (Data Intergation): Tích hợp liệu từ nguồn khác - Lựa chọn liệu (Data Selection): Lựa chọn liệu phù hợp với nhiệm vụ phân tích trích rút từ sở liệu 50 - Chương trình chạy thử nghiệm với số cụm k=3, thay đổi k để có kết đánh giá tổng quan hơn, nhiên số cụm k lớn ý nghĩa phân cụm khơng thể rõ nét - Dựa kết phân cụm theo tiêu chí: Tuổi mua: Số lượng khách hàng mua độ tuổi 37-66 lớn (56,1%) Số tiền mua: Số lượng khách hàng mua với mức tiền 30-65 triệu nhiều (71%) Số năm mua: Số lượng khách hàng mua với số năm mua từ 16-40 năm nhiều (74,3%) Qua nhà làm bảo hiểm đánh giá đưa nhóm khách hàng tiềm năng, từ đưa chiến lược bảo hiểm cơng ty 51 KẾT LUẬN Trong luận em nêu lên nét đặc trưng lĩnh vực Khai phá liệu bao gồm vấn đề cần khám phá tri thức, hướng tiếp cận nghiên cứu tiêu biểu, phân cụm liệu phương pháp khám phá tri thức quan trọng Khai phá liệu có nhiều ý nghĩa khoa học thực tiễn Luận văn đề cập đến số thuật tốn phổ biến, thơng dụng ứng dụng thuật toán Kmean để phân cụm liệu với khách hàng bảo hiểm 52 HƯỚNG NGHIÊN CỨU TIẾP THEO Khai phá liệu lĩnh vực nghiên cứu mới, đồng thời xu hướng nghiên cứu ngày phổ biến Do nhu cầu thực tế, với phát triển cơng nghệ máy tính, lĩnh vực kinh tế - xã lượng thơng tin lưu trữ ngày tăng, nhu cầu khai thác thông tin, tri thức ngày lớn Việc nghiên cứu phát triển phương pháp phân cụm liệu đóng vai trị quan trọng hoạt động khoa học cơng nghệ máy tính, hoạt động thực tiễn Ứng dụng Phân cụm liệu đa dạng, nhiều lĩnh vực Trong trình nghiên cứu tham khảo nhiều tài liệu, nhiều nguồn khác tránh khỏi thiếu sót hạn chế Bài tốn ứng dụng dừng lại việc phân cụm với thuộc tính kiểu liệu số Trong thời gian tới em tiếp tục tìm hiểu thêm số kỹ thuật phân cụm phát triển ứng dụng với kiểu liệu đa dạng 53 TÀI LIỆU THAM KHẢO Tiếng Việt [1] TS Đỗ Phúc, Chuyên đề Khai phá liệu Nhà kho liệu (Data Mining & Data Warehouse), Đại học Quốc Gia Thành Phố Hồ Chí Minh, 2004 [2] Đỗ Phúc, Giáo trình Khai thác liệu, Đại học Quốc Gia Thành phố Hồ Chí Minh, 2005 [3] Hồng Văn Dũng, “Khai phá liệu Web kỹ thuật phân cụm”, Luận văn thạc sĩ, Trường Đại học Đại học Sư phạm Hà Nội, 2007 Tiếng Anh [4] "Introduction to Data Mining" cua P.-N Tan and M Steinbach and V Kumar http://www-users.cs.umn.edu/~kumar/dmbook/index.php 54 PHỤ LỤC Phụ lục 1: Hướng dẫn sử dụng chương trình Đăng nhập Hệ thống Nhập thông tin Hợp đồng Thực phân cụm Nhập số cụm Chọn tiêu chí phân cụm 55 56 Xem chi tiết thông tin cụm 57 Phụ lục 2: Mã nguồn trang Phân cụm chương trình 58 59 60 61 62 63 64 ... xét phân bố liệu Hiện nay, phân cụm liệu hướng nghiên cứu nhiều tin học Chính em chọn đề tài ? ?Ứng dụng phân cụm liệu quản lý bảo hiểm công ty Bảo Việt nhân thọ Hà Nội? ?? để ứng dụng thuật toán phân. .. tiêu phân cụm liệu 2.2.Các ứng dụng phân cụm liệu 2.3.Các yêu cầu phân cụm 2.4.Những kỹ thuật tiếp cận phân cụm liệu 2.4.1 Phương pháp phân cụm phân hoạch 2.4.2 Phương pháp phân cụm. .. CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU 2.1 Khái niệm mục tiêu phân cụm liệu Phân cụm liệu trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương

Ngày đăng: 08/06/2021, 12:59

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w