Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
2,45 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐỖ PHƯƠNG DUNGỨNGDỤNGPHÂNCỤMDỮLIỆUTRONGQUẢNLÝBẢOHIỂMTẠICÔNGTYBẢOVIỆTNHÂNTHỌHÀNỘI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2018 LỜI CAM ĐOAN Em xin cam đoan luận văn cơng trình em tự nghiên cứu hướng dẫn thầy giáo Nguyễn Tân Ân Mọi trích dẫn sử dụngbáo cáo ghi rõ nguồn tàiliệu tham khảo theo quy định Thái Nguyên, ngày 06 tháng 04 năm 2018 Tác giả luận văn Đỗ Phương Dung LỜI CẢM ƠN Trước hết, xin bày tỏ lòng kính trọng lòng biết ơn sâu sắc tới thầy giáo PGS.TS Nguyễn Tân Ân, người tận tình hướng dẫn, bảo cung cấp tàiliệu hữu ích để tơi hồn thành luận văn Tơi xin cảm ơn lãnh đạo Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên tạo điều kiện giúp đỡ tơi mặt suốt q trình học tập thực luận văn Tôi xin bày tỏ lòng biết ơn tới thầy, giáo giảng dạy, truyền đạt kiến thức, phương pháp nghiên cứu khoa học suốt thời gian học tập vừa qua Cuối cùng, gửi lời cảm ơn tới gia đình, anh chị em học viên cao học CK15B, bạn đồng nghiẹp động viên, khích lệ ln tạo điều kiện giúp đỡ tơi q trình học tập nghiên cứu Thái Nguyên, ngày 06 tháng 04 năm 2018 Tác giả luận văn Đỗ Phương Dung MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC .4 DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮLIỆU 10 1.1 Giới thiệu chung khám phá tri thức khai phá liệu 10 1.2 Quá trình khám phá tri thức 11 1.3 Quá trình khai phá liệu 12 1.4 Các phương pháp khai phá liệu 13 1.5 Các lĩnh vực ứngdụng thực tiễn KPDL 14 1.6 Các hướng tiếp cận kỹ thuật áp dụng KPDL 15 1.7 Kết luận 17 CHƯƠNG 2: PHÂNCỤMDỮLIỆU VÀ CÁC THUẬT TOÁN TRONGPHÂNCỤMDỮLIỆU 19 2.1 Khái niệm mục tiêu phâncụmliệu 19 2.2 Các ứngdụngphâncụmliệu 20 2.3 Các yêu cầu phâncụm 21 2.4 Những kỹ thuật tiếp cận phâncụmliệu 23 2.4.1 Phương pháp phâncụmphân hoạch .23 2.4.2 Phương pháp phâncụmphân cấp 29 2.4.3 Phương pháp phâncụm dựa mật độ .35 2.4.4 Phương pháp phâncụm dựa lưới .39 2.4.5 Phương pháp phâncụm dựa mô hình 40 2.4.6 Phương pháp phâncụm có liệu buộc 41 CHƯƠNG 3: BÀI TOÁN ỨNGDỤNG 43 3.1 Đặt toán 43 3.2 Giải toán 44 3.3 Lý thuyết áp dụng 45 3.4 Chương trình ứngdụng 45 3.5 Đánh giá kết 48 HƯỚNG NGHIÊN CỨU TIẾP THEO 52 TÀILIỆU THAM KHẢO 53 PHỤ LỤC 54 Phụ lục 1: Hướng dẫn sử dụng chương trình 54 Phụ lục 2: Mã nguồn trang Phâncụm chương trình 57 DANH MỤC CÁC TỪ VIẾT TẮT C C ô CS C K PC P hâ DANH MỤC HÌNH VẼ S T 1H ìn 2H ìn 3H ìn 4H ìn 5H ìn 6H ìn h 7H ìn 8H ìn h 9H ìn MỞ ĐẦU Sự phát triển Công nghệ thông tin việc ứngdụngcông nghệ thông tin lĩnh vực đời sống kinh tế, xã hội nhiều năm qua dẫn đến liệu thu thập lưu trữ ngày đa dạng phong phú Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kĩ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kĩ thuật Khai phá liệu trở thành lĩnh vực thời Công nghệ thông tin giới Một vấn đề đặt phải trích chọn thơng tin có ý nghĩa từ tập liệu lớn để từ giải yêu cầu thực tế trợ giúp định dự đoán,… Khai phá liệu (Data mining) đời nhằm giải yêu cầu Khai phá liệu định nghĩa là: trình trích xuất thơng tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ Cơ sở liệu, kho liệu… Hiện nay, ngồi thuật ngữ khai phá liệu, người ta dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ Cơ sở liệu (knowlegde mining from databases), trích lọc liệu (knowlegde extraction), phân tích liệu/mẫu (data/pattern analysis), khảo cổ liệu (data archaeology), nạo vét liệu (data dredging) Nhiều người coi khai phá liệu thuật ngữ thông dụng khác khám phá tri thức Cơ sở liệu (Knowlegde Discovery in Databases) Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình Khám phá tri thức Cơ sở liệu Ngay từ ngày đầu xuất hiện, Data mining trở thành xu hướng nghiên cứu phổ biến lĩnh vực học máy tính cơng nghệ tri thức Nhiều thành tựu nghiên cứu Data mining áp dụng thực tế Data mining có nhiều hướng quantrọng hướng phâncụmliệu (Data Clustering) Phâncụmliệu trình phân chia tập liệu ban đầu thành cụmliệu cho phần tử cụm "tương tự" (Similar) với phần tử cụm khác "phi tương tự" (Dissimilar) với Số cụmliệuphân xác định trước theo kinh nghiệm tự động xác định Phâncụmliệu đặc biệt hiệu ta thông tin cụmPhâncụm coi công cụ độc lập để xem xét phân bố liệu Hiện nay, phâncụmliệu hướng nghiên cứu nhiều tin học Chính em chọn đề tài “Ứng dụngphâncụmliệuquảnlýbảohiểmcôngtyBảoViệtnhânthọHà Nội” để ứngdụng thuật toán phâncụmliệu để đưa nhóm khách hàng có giống lớn từ giúp cho chuyên đưa đánh giá mẫu khách hàng, sở hồ sơ mua bảohiểm gồm thông tin độ tuổi, số tiền, số năm mua 10 CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮLIỆU 1.1 Giới thiệu chung khám phá tri thức khai phá liệu Nếu ta cho rằng, điện tử truyền thông chất khoa học điện tử, liệu, thông tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khám phá tri thức khai phá liệu Thông thường, coi liệu chuỗi bits, số ký hiệu “đối tượng” với ý nghĩa gửi cho chương trình dạng định Các bits thường sử dụng để đo thơng tin, xem liệu loại bỏ phần tử thừa, lặp lại, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Tri thức xem thơng tin tích hợp, bao gồm kiện mối quan hệ chúng, nhận thức, khám phá, nghiên cứu Nói cách khác, tri thức coi liệu mức độ cao trừu tượng tổng quát Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mơ hình liệu với tính năng: Phân tích, tổng hợp, hợp thức, khả ích hiểu Khai phá liệu bước trình khám phá tri thức, gồm thuật toán khai thác liệu chuyên dùng số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệuNói cách khác, mục tiêu KPDL tìm mẫu mơ hình tồn CSDL ẩn khối lượng lớn liệu - Chương trình chạy thử nghiệm với số cụm k=3, thay đổi k để có kết đánh giá tổng quan hơn, nhiên số cụm k lớn ý nghĩa phâncụm rõ nét - Dựa kết phâncụm theo tiêu chí: Tuổi mua: Số lượng khách hàng mua độ tuổi 37-66 lớn (56,1%) Số tiền mua: Số lượng khách hàng mua với mức tiền 30-65 triệu nhiều (71%) Số năm mua: Số lượng khách hàng mua với số năm mua từ 16-40 năm nhiều (74,3%) Qua nhà làm bảohiểm đánh giá đưa nhóm khách hàng tiềm năng, từ đưa chiến lược bảohiểmcơngty KẾT LUẬN Trong luận em nêu lên nét đặc trưng lĩnh vực Khai phá liệubao gồm vấn đề cần khám phá tri thức, hướng tiếp cận nghiên cứu tiêu biểu, phâncụmliệu phương pháp khám phá tri thức quantrọng Khai phá liệu có nhiều ý nghĩa khoa học thực tiễn Luận văn đề cập đến số thuật tốn phổ biến, thơng dụngứngdụng thuật toán Kmean để phâncụmliệu với khách hàng bảohiểm HƯỚNG NGHIÊN CỨU TIẾP THEO Khai phá liệu lĩnh vực nghiên cứu mới, đồng thời xu hướng nghiên cứu ngày phổ biến Do nhu cầu thực tế, với phát triển cơng nghệ máy tính, lĩnh vực kinh tế - xã lượng thơng tin lưu trữ ngày tăng, nhu cầu khai thác thông tin, tri thức ngày lớn Việc nghiên cứu phát triển phương pháp phâncụmliệu đóng vai trò quantrọng hoạt động khoa học cơng nghệ máy tính, hoạt động thực tiễn ỨngdụngPhâncụmliệu đa dạng, nhiều lĩnh vực Trong trình nghiên cứu tham khảo nhiều tài liệu, nhiều nguồn khác tránh khỏi thiếu sót hạn chế Bài tốn ứngdụngdừng lại việc phâncụm với thuộc tính kiểu liệu số Trong thời gian tới em tiếp tục tìm hiểu thêm số kỹ thuật phâncụm phát triển ứngdụng với kiểu liệu đa dạng TÀILIỆU THAM KHẢO Tiếng Việt [1] TS Đỗ Phúc, Chuyên đề Khai phá liệu Nhà kho liệu (Data Mining & Data Warehouse), Đại học Quốc Gia Thành Phố Hồ Chí Minh, 2004 [2] Đỗ Phúc, Giáo trình Khai thác liệu, Đại học Quốc Gia Thành phố Hồ Chí Minh, 2005 [3] Hồng Văn Dũng, “Khai phá liệu Web kỹ thuật phân cụm”, Luận văn thạc sĩ, Trường Đại học Đại học Sư phạm Hà Nội, 2007 Tiếng Anh [4] "Introduction to Data Mining" cua P.-N Tan and M Steinbach and V Kumar http://www-users.cs.umn.edu/~kumar/dmbook/index.php PHỤ LỤC Phụ lục 1: Hướng dẫn sử dụng chương trình Đăng nhập Hệ thống Nhập thơng tin Hợp đồng Thực phâncụm Nhập số cụm Chọn tiêu chí phâncụm Xem chi tiết thông tin cụm Phụ lục 2: Mã nguồn trang Phâncụm chương trình ... xét phân bố liệu Hiện nay, phân cụm liệu hướng nghiên cứu nhiều tin học Chính em chọn đề tài Ứng dụng phân cụm liệu quản lý bảo hiểm công ty Bảo Việt nhân thọ Hà Nội để ứng dụng thuật toán phân. .. CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU 2.1 Khái niệm mục tiêu phân cụm liệu Phân cụm liệu q trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương... LIỆU VÀ CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU 19 2.1 Khái niệm mục tiêu phân cụm liệu 19 2.2 Các ứng dụng phân cụm liệu 20 2.3 Các yêu cầu phân cụm 21 2.4 Những