1. Trang chủ
  2. » Giáo Dục - Đào Tạo

bài tập lớn môn khai phá dữ liệu đề tài ứng dụng thuật toán k means phân khúc khách hàng mua bảo hiểm

20 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Áp dụng K-means vào dữ liệubảo hiểm có thể giúp xác định các nhóm khách hàng có xuhướng mua bảo hiểm giống nhau, từ đó tối ưu hóa chiến lượcmarketing và cung cấp dịch vụ phù hợp.Cùng với

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC PHƯƠNG ĐÔNG

BÀI TẬP LỚN MÔN: KHAI PHÁ DỮ LIỆU

ĐỀ TÀI: ỨNG DỤNG THUẬT TOÁN K-MEANS PHÂN KHÚCKHÁCH HÀNG MUA BẢO HIỂM

SINH VIÊN THỰC HIỆN: CÔNG VŨ ANH

NGUYỄN HẢI ĐĂNGNGUYỄN QUỐC KHÁNHLỚP: 521100C

GIẢNG VIÊN:

Trang 2

MỞ ĐẦU1 Lý do chọn đề tài

Khai phá dữ liệu là một lĩnh vực nghiên cứu quan trọng,đặc biệt là trong việc trích xuất thông tin từ các tập dữ liệu lớn.Với sự phát triển của công nghệ thông tin, ngành bảo hiểmđang ngày càng phụ thuộc vào các chiến lược và giải pháp dựatrên dữ liệu để đáp ứng nhu cầu của khách hàng.

Các công ty bảo hiểm cần hiểu rõ thông tin chi tiết về cácphân khúc khách hàng để có thể tối ưu hóa chiến lược kinhdoanh và cung cấp dịch vụ tốt nhất cho họ Hiện nay, phân tíchdữ liệu lớn và khai phá dữ liệu đang trở thành một phần khôngthể thiếu trong việc thu thập thông tin và hiểu rõ hơn về nhucầu của thị trường bảo hiểm.

Trong lĩnh vực này, thuật toán K-means có vai trò quantrọng trong việc phân cụm dữ liệu K-means không chỉ giúp tổchức dữ liệu một cách có ý nghĩa mà còn tạo ra các nhómkhách hàng có đặc điểm tương tự Áp dụng K-means vào dữ liệubảo hiểm có thể giúp xác định các nhóm khách hàng có xuhướng mua bảo hiểm giống nhau, từ đó tối ưu hóa chiến lượcmarketing và cung cấp dịch vụ phù hợp.

Cùng với đó, việc khai phá dữ liệu bằng K-means cũng giúpphát hiện ra các mẫu và xu hướng tiềm ẩn trong dữ liệu, từ đógiúp công ty bảo hiểm hiểu rõ hơn về thị trường và khách hàngcủa mình.

Tóm lại, việc áp dụng thuật toán K-means trong khai phádữ liệu của công ty bảo hiểm là một phương tiện mạnh mẽ đểtối ưu hóa chiến lược kinh doanh và cung cấp dịch vụ tốt nhấtcho khách hàng mua bảo hiểm.

2 Đối tượng và phạm vi nghiên cứu

a Đối tượng nghiên cứu và Phạm vi nghiên cứu:

 Đối tượng nghiên cứu: Khách hàng mua bảo hiểm.

 Phạm vi nghiên cứu: Dữ liệu về khách hàng, bao gồmthông tin như độ tuổi, giới tính, thu nhập, lịch sử mua bảohiểm, loại bảo hiểm và các thông tin khác liên quan.

Trang 3

b Mục tiêu và nhiệm vụ nghiên cứu:

 Mục tiêu: Áp dụng thuật toán K-means để phân khúckhách hàng mua bảo hiểm thành các nhóm có đặc điểmtương tự, từ đó tối ưu hóa chiến lược kinh doanh và cungcấp dịch vụ phù hợp.

o Áp dụng thuật toán K-means: Phân cụm khách hàng thànhcác nhóm dựa trên các đặc điểm tương tự.

o Phân tích kết quả: Đánh giá và hiểu rõ các nhóm kháchhàng được tạo ra bởi thuật toán K-means.

o Xây dựng chiến lược kinh doanh: Dựa trên kết quả phâncụm, đề xuất các chiến lược phù hợp để tối ưu hóa kinhdoanh và dịch vụ cho từng nhóm khách hàng.

c Phương pháp nghiên cứu:

 Thu thập dữ liệu: Sử dụng các nguồn dữ liệu từ công tybảo hiểm, bao gồm thông tin khách hàng và lịch sử muabảo hiểm.

 Tiền xử lý dữ liệu: Loại bỏ dữ liệu trùng lặp, xử lý giá trịthiếu và chuẩn hóa dữ liệu nếu cần thiết.

 Áp dụng thuật toán K-means: Sử dụng thuật toán K-meansđể phân cụm khách hàng dựa trên các đặc điểm như độtuổi, thu nhập, lịch sử mua bảo hiểm, vv.

 Phân tích kết quả: Đánh giá và hiểu rõ các nhóm kháchhàng được tạo ra bởi thuật toán K-means, xem xét sự khácbiệt giữa các nhóm và những điểm chung của chúng.

 Xây dựng chiến lược kinh doanh: Dựa trên kết quả phâncụm, đề xuất các chiến lược kinh doanh cụ thể để tối ưuhóa hiệu suất bán hàng và phục vụ khách hàng tốt hơn.

Trang 4

Phần I Cơ sở lý thuyết về khai phá dữ liệu và kho dữliệu

1.1 Giới thiệu về khai phá dữ liệu

Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vàonhững năm cuối của thập kỷ 1980 Nó là quá trình trích xuấtcác thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu đượclưu trữ trong các CSDL, kho dữ liệu Một ví dụ hay được sửdụng là là việc khai thác vàng từ đá và cát, Data Mining được vínhư công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữliệu cho trước Thuật ngữ Data Mining ám chỉ việc tìm kiếm mộttập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô Cónhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từData Mining như Knowledge Mining (khai phá tri thức),Knowledge Extraction(chắt lọc tri thức), Data/PatternAnalysis(phân tích dữ liệu/mẫu), Data Archaeology (khảo cổ dữliệu), Data Dredging(nạo vét dữ liệu),

1.2 Quá trình khám phá trí thức và khai phá dữ liệu

Các bước chính thường sử dụng trong khai phá dữ liệu:

Trang 5

 Gom dữ liệu: thu thập dữ liệu là bước đầu tiên trong việckhai phá dữ liệu.

 Dữ liệu có thể lấy từ nhiều nguồn, từ các website trênmạng v.v…

 Trích lọc dữ liệu: Trích chọn dữ liệu từ kho dữ liệu và phânchia theo các tiêu chuẩn để dễ cho việc khai thác nguồndữ liệu này.

 Làm sạch, tiền xử lý dữ liệu: Loại bỏ dữ liệu nhiễu, dữ liệudư thừa hay các dữ liệu không đủ tính chặt chẽ, logic… Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các

dạng phù hợp cho quá trình xử lý.

 Khai phá dữ liệu: Là một bước quan trọng nhất, trong đósử dụng các thuật toán thông minh để trích ra các mẫu dữliệu.

 Đánh giá các luật và biểu diễn tri thức: là quá trình đánhgiá các kết quả tìm được, sau đó sử dụng các kỹ thuật đểbiểu diễn cho người dùng.

1.3 Các chức năng chính của khai phá dữ liệu

Data Mining được chia thành một số hướng chính như sau:  Mô tả khái niệm (concept description): thiên về mô

tả, tổng hợp và tóm tắt khái niệm Ví dụ: tóm tắt văn bản

Luật kết hợp (association rules): là dạng luật biểu diễn

tri thứ ở dạng khá đơn giản

Ví dụ: “60% nam giới vào siêu thị nếu mua bia thì có tới 80%trong số họ

sẽ mua thêm thịt bò khô” Luật kết hợp được ứng dụng nhiềutrong lĩnh vực

kính doanh, y học, tài chính & thị trường chứng khoán, v.v  Phân lớp và dự đoán (classification & prediction):

xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết Hướng tiếp cậnnày

Trang 6

thường sử dụng một số kỹ thuật của machine learning như câyquyết định

(decision tree), mạng nơ ron nhân tạo (neural network), v.v.Người ta còn

gọi phân lớp là học có giám sát

Phân cụm (clustering): xếp các đối tượng theo từng

cụm (số lượng cũng như tên của cụm chưa được biết trước.Người ta còn gọi phân cụm là học không giám sát.

Khai phá chuỗi (sequential/temporal patterns):

tương tự như khai phá luật kết hợp nhưng có thêm tính thứtự và tính thời gian Hướng tiếp cận này được ứng dụngnhiều trong lĩnh vực tài chính và thị trường chứng khoán vìnó có tính dự báo cao.

Phân cụm dữ liệu là một môn khoa học trẻ đang phát triểnmạnh mẽ Có một số lượng lớn các bài báo nghiên cứu trongnhiều hội nghị, hầu hết trong các lĩnh vực của khai phá dữ liệu:

Trang 7

thống kê, học máy, cơ sở dữ liệu không gian, sinh vật học, kinhdoanh, v.v với tầm quan trọng và các kỹ thuật khác nhau Dosố lượng lớn các dữ liệu đã thu thập trong cơ sở dữ liệu nênphép phân tích cụm gần đây trở thành một chủ đề tích cực caotrong nghiên cứu khai phá dữ liệu.

2.2.2 Mục tiêu của phân cụm dữ liệu

Mục tiêu của phân cụm là xác định được bản chất nhómtrong tập dữ liệu chưa có nhãn Nhưng để có thể quyết địnhđược cái gì tạo thành một cụm tốt Nó có thể được chỉ ra rằngkhông có tiêu chuẩn tuyệt đối “tốt” mà có thể không phụ thuộcvào kết quả phân cụm Vì vậy, nó đòi hỏi người sử dụng phảicung cấp tiêu chuẩn này, theo cách mà kết quả phân cụm sẽđáp ứng yêu cầu Theo các nghiên cứu cho thấy thì hiện naychưa có một phương pháp phân cụm tổng quát nào có thể giảiquyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liễu Hơnnữa, các phương pháp phân cụm cần có cách thức biểu diễncấu trúc của các cụm dữ liệu, với mỗi cách thức biểu diễn khácnhau sẽ có tương ứng một thuật toán phân cụm phù hợp.

Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề khó và mở,vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn vàphù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữliệu hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệuvà đây cũng là một trong những thách thức lớn trong lĩnh vựckhai phá dữ liệu.

2.2 Các ứng dụng của phân cụm dữ liệu

Phân cụm dữ liệu được ứng dụng trong nhiều lĩnh vực như:  Thương mại: Tìm kiếm nhóm các khách hàng quan trọng

có đặc trưng tương đồng và những đặc tả họ từ các bảnghi mua bán trong cơ sở dữ liệu Trong nghiên cứu thịtrường, phân cụm dữ liệu được sử dụng để phân đoạn thịtrường và xác định mục tiêu thị trường (Chrisoppher,1969; Saunders, 1980, Frank and Green, 1968) Trongphân đoạn thị trường, phân cụm dữ liệu thường được dùngđể phân chia thị trường thành nhưng cụm mang ý nghĩa,chẳng hạn như chia ra đối tượng nam giới từ 21-30 tuổi vànam giới ngoài 51 tuổi, đối tượng nam giới ngoài 51 tuổithường không có khuynh hướng mua các sản phẩm mới

Trang 8

 Sinh học: Phân loại các gen với các chức năng tương đồngvà thu được các cấu trúc trong mẫu Phân cụm là mộttrong những phân tích được sử dụng thường xuyên nhấttrong biểu diễn dữ liệu gene (Yeung et al., 2003; Eisenatal., 1998) Dữ liệu biểu diễn gene là một tâp hợp các phépđo được lấy từ DNA microarray (còn gọi là DNA chip haygene chip) là một tấm thủy tinh hoặc nhựa trên đó có gắncác đoạn DNA thành các hàng siêu nhỏ Các nhà nghiêncứu sử dụng các con chip như vậy để sàng lọc các mẫusinh học nhằm kiểm tra sự có mặt hàng loạt trình tự cùngmột lúc Các đoạn DNA gắn trên chip được gọi là probe(mẫu dò) Trên mỗi điểm của chip có hàng ngàn phân tửprobe với trình tự giống nhau.

 Thư viện: Phân loại các cụm sách có nội dung và ý nghĩatương đồng nhau để cung cấp cho độc giả.

 Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phíbồi thường cao, nhận dạng gian lận thương mại.

 Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu vàvị trí địa lí, nhằm cung cấp thông tin cho quy hoạch đôthị.

 Nghiên cứu trái đất: Phân cụm để theo dõi các tâm độngđất nhằm cung cấp thông tin cho nhận dạng các vùngnguy hiểm

 WWW: Có thể khám phá các nhóm tài liệu quan trọng, cónhiều ý nghĩa trong môi trường Web Các lớp tài liệu nàytrợ giúp cho việc KPTT từ dữ liệu.

2.3 Những kỹ thuật tiếp cận phân cụm dữ liệu

Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và cácứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chungđó là chất lượng của các cụm khám phá được và tốc độ thựchiện của thuật toán Hiện nay, các kỹ thuật phân cụm có thểphân loại theo các cách tiếp cận chính sau :

 Phương pháp phân cụm phân hoạch:

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tửthành k nhóm cho đến khi xác định số các cụm được thiết lập.Số các cụm được thiết lập là các đặc trưng được lựa chọn trước.

Trang 9

Phương pháp này là tốt cho việc tìm các cụm hình cầu trongkhông gian Euclidean Ngoài ra, phương pháp này cũng phụthuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn cácđiểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác vàcác điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xanhau so với mỗi điểm khác.

 Phương pháp phân cụm phân cấp:

Phương pháp này xây dựng một phân cấp trên cơ sở các đốitượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệuđã cho thành một cấu trúc có dạng hình cây, cây phân cấp nàyđược xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổbiến của kỹ thuật này đó là:

o Tiếp cận Bottom-Up o Tiếp cận Top-Down

 Phương pháp phân cụm dựa trên mật độ:

Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mậtđộ xác định, mật độ là số các đối tượng lân cận của một đốitượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này,khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêmcác đối tượng dữ liệu mới miễn là số các đối tuợng lân cận nàyphải lớn hơn một ngưỡng đã được xác định trước Phương phápphân cụm dựa trên mật độ của các đối tượng để xác định cáccụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bấtkỳ Kỹ thuật này có thể khắc phục được các phần tử ngoại laihoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham sốmật độ của thuật toán là rất khó khăn, trong khi các tham sốnày lại có tác động rất lớn đến kết quả phân cụm.

 Phương pháp phân cụm dựa trên lưới:

Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiềuchiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương phápnày chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mụctiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạothành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉcần làm việc với các đối tượng trong từng ô trên lưới chứ khôngphải các đối tượng dữ liệu Cách tiếp cận dựa trên lưới nàykhông di chuyển các đối tượng trong các ô mà xây dựng nhiềumức phân cấp của nhóm các đối tượng trong một ô Phương

Trang 10

pháp này gần giống với phương pháp phân cụm phân cấpnhưng chúng không trộn các ô, đồng thời giải quyết khắc phụcyêu cầu đối với dữ liệu nhiều chiều mà phương pháp phân phâncụm dựa trên mật độ không giải quyết được ưu điểm củaphương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh vàđộc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thayvào đó là chúng phụ thuộc vào số ô trong mỗi chiều của khônggian lưới.

 Phương pháp phân cụm dựa trên mô hình:

Phương này cố gắng khám phá các phép xấp xỉ tốt của cáctham số mô hình sao cho khớp với dữ liệu một cách tốt nhất.Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặcphân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúnggiả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hìnhnày để nhận dạng ra các phân hoạch Phương pháp phân cụmdựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hìnhtoán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằnghỗn hợp phân phối xác suất cơ bản Các thuật toán phân cụmdựa trên mô hình có hai cách tiếp cận chính: mô hình thống kêvà mạng nơron.

2.4 Một số thuật toán trong phân cụm dữ liệu

2.4.1 Thuật toán phân cụm phân cấp

 Thuật toán CURE:

Trong khi hầu hết các thuật toán thực hiện phân cụm với cáccụm hình cầu và kích thước tương tự, như vậy là không hiệuquả khi xuất hiện các phần tử ngoại lai Thuật toán CURE khắcphục được vấn đề này và tốt hơn với các phần tử ngoại lai.Thuật toán này định nghĩa một số cố định các điểm đạidiệnnằm rải rác trong toàn bộ không gian dữ liệu và được chọnđể mô tả các cụm được hình thành Các điểm này được tạo ranhờ lựa chọn các đối tượng nằm rải rác cho cụm và sau đó “colại” hoặc di chuyển chúng về trung tâm cụm bằng nhân tố cocụm Quá trình này được lặp lại và như vậy trong quá trình này,có thể đo tỉ lệ gia tăng của cụm Tại mỗi bước của thuật toán,hai cụm có cặp các điểm đại diện gần nhau (mỗi điểm trongcặp thuộc về mỗi cụm khác nhau) được hòa nhập.

Trang 11

 Thuật toán ANGES:

Phương pháp phân hoạch ANGNES là kỹ thuật kiểu tích tụ.ANGNES bắt đầu ở ngoài với mỗi đối tượng dữ liệu trong cáccụm riêng lẻ Các cụm được hòa nhập theo một số loại của cơsở luật, cho đến khi chỉ có một cụm ở đỉnh của phân cấp, hoặcgặp điều kiện dừng Hình dạng này của phân cụm phân cấpcũng liên quan đến tiếp cận bottom-up bắt đầu ở dưới với cácnút lá trong mỗi cụm riêng lẻ và duyệt lên trên phân cấp tới nútgốc, nơi tìm thấy cụm đơn cuối cùng với tất cả các đối tượng dữliệu được chứa trong cụm đó.

 Thuật toán DIANA:

DIANA thực hiện đối lập với AGNES DIANA bắt đầu với tất cảcác đối tượng dữ liệu được chứa trong một cụm lớn và chia táchlặp lại, theo phân loại giống nhau dựa trên luật, cho đến khi mỗiđối tượng dữ liệu của cụm lớn được chia tách hết Hình dạngcủa cụm phân cấp cùng liên quan đế tiếp cận top-down bắt đầutại mức đỉnh nút gốc, với tất cả các đối tượng dữ liệu, trong mộtcụm, và duyệt xuống các nút lá dưới cùng nơi tất cả các đốitượng dữ liệu từng cái được chứa trong cụm của chính mình.

 Thuật toán Chameleon:

Phương pháp Chameleon một cách tiếp cận khác trong việcsử dụng mô hình động để xác định các cụm nào được hìnhthành Bước đầu tiên của Chameleon là xây dựng một đồ thịmật độ thưa và sau đó ứng dụng một thuật toán phân hoạch đồthị để phân cụm dữ liệu với số lớn của các cụm con Tiếp theo,Chameleon thực hiện tích tụ phân cụm phân cấp, như AGNES,bằng hòa nhập các cụm con nhỏ theo hai phép đo, mối quan hệliên thông và mối quan hệ gần nhau của các nhóm con Do đó,thuật toán không phụ thuộc vào người sử dụng các tham số nhưK-means và có thể thích nghi Thuật toán này khảo sát mô hìnhđộng trong phân cụm phân cấp Trong đó, hai cụm được hòanhập nêu giữa hai cụm có liên quan mật thiết tới quan hệ kếtvà gần nhau của các đối tượng trong các cụm Quá trình hòanhập dễ dàng khám phá các cụm tự nhiên và đồng nhất, ứngdụng cho tất cả các kiểu dữ liệu miễn là hàm tương tự được xácđịnh.

Ngoài ra còn có các thuật toán như BIRCH, ROCK v.v…

Ngày đăng: 03/07/2024, 15:47

Xem thêm:

w