1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI TẬP LỚN MÔN KHAI PHÁ DỮ LIỆU ĐỀ TÀI ỨNG DỤNG THUẬT TOÁN K-MEANS PHÂN KHÚC KHÁCH HÀNG MUA BẢO HIỂM

33 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Thuật Toán K-Means Phân Khúc Khách Hàng Mua Bảo Hiểm
Tác giả Công Vũ Anh, Nguyễn Hải Đăng, Nguyễn Quốc Khánh
Người hướng dẫn Dương Thị Bình
Trường học Trường Đại Học Phương Đông
Chuyên ngành Khai Phá Dữ Liệu
Thể loại bài tập lớn
Định dạng
Số trang 33
Dung lượng 2,45 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC PHƯƠNG ĐÔNG BÀI TẬP LỚN MÔN KHAI PHÁ DỮ LIỆU ĐỀ TÀI ỨNG DỤNG THUẬT TOÁN K MEANS PHÂN KHÚC KHÁCH HÀNG MUA BẢO HIỂM SINH VIÊN THỰC HIỆN CÔNG VŨ ANH NGUYỄN HẢI ĐĂNG[.]

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC PHƯƠNG ĐÔNG

BÀI TẬP LỚN MÔN: KHAI PHÁ DỮ LIỆU

ĐỀ TÀI: ỨNG DỤNG THUẬT TOÁN K-MEANS PHÂN KHÚC

KHÁCH HÀNG MUA BẢO HIỂM

SINH VIÊN THỰC HIỆN:

CÔNG VŨ ANH NGUYỄN HẢI ĐĂNG NGUYỄN QUỐC KHÁNH

LỚP: 521100C GIẢNG VIÊN: DƯƠNG THỊ BÌNH

Trang 2

MỞ ĐẦU 3

1 Lý do chọn đề tài 3

2 Đối tượng và phạm vi nghiên cứu 4

a Đối tượng nghiên cứu và Phạm vi nghiên cứu: 4

b Mục tiêu và nhiệm vụ nghiên cứu: 4

c Phương pháp nghiên cứu: 4

Phần I Cơ sở lý thuyết về khai phá dữ liệu và kho dữ liệu 6

1.1 Giới thiệu về khai phá dữ liệu 6

1.2 Quá trình khám phá trí thức và khai phá dữ liệu 6

1.3 Các chức năng chính của khai phá dữ liệu 7

1.4 Các ứng dụng khai phá dữ liệu 8

Phần II LÝ THUYẾT VỀ GOM CỤM 9

2.1 Gom cụm dữ liệu 9

2.1.1 Khái niệm 9

2.1.2 Tiêu chuẩn gom cụm 10

2.1.3 Độ đo khoảng cách 10

2.1.4 Quá trình gom cụm 11

2.1.5 Các kỹ thuật gom gụm dữ liệu 12

2.1.6 Các yêu cầu tiêu biểu về gom cụm dữ liệu 13

2.1.7 Ứng dụng của phương pháp gom cụm 13

Phần III Thuật toán K-means 14

3.1 Thuật toán K-means 14

3.2 Thuật giải 15

3.3 Bài toán ví dụ 15

3.4 Đánh giá thuật toán - ưu điểm - nhược điểm 19

3.4.1 Ưu điểm 19

3.4.2 Nhược điểm 19

Trang 3

3.5 Ứng dụng của thuật toán K-means 20

Phần IV Ứng dụng thuật toán K-means để phân khúc khách hàng mua bảo hiểm 21

4.1 Phát hiện bài toán: 21

4.2 Phân tích bài toán: 21

4.2.1 Mục tiêu bài toán: 21

4.2.2 Yêu cầu: 21

4.2.3 Phương pháp: 21

4.3 Các bước thực hiện gom cụm: 21

4.3.1 Chuẩn bị bộ dữ liệu: 21

4.3.2 Chạy bộ dữ liệu trên Orange: 22

4.4 kết quả đánh giá 32

4.4.1 tổng quan về dữ liệu: 32

4.4.2 kết quả của thuật gom cụm bằng K-Means chạy trên Orange: 32

MỞ ĐẦU

1 Lý do chọn đề tài

Khai phá dữ liệu là một lĩnh vực nghiên cứu quan trọng, đặc biệt là trong việc trích xuất thông tin từ các tập dữ liệu lớn Với sự phát triển của công nghệ thông tin, ngành bảo hiểm đang ngày càng phụ thuộc vào các chiến lược và giải pháp dựa trên dữ liệu để đáp ứng nhu cầu của khách hàng

Các công ty bảo hiểm cần hiểu rõ thông tin chi tiết về các phân khúc khách hàng để có thể tối ưu hóa chiến lược kinh doanh và cung cấp dịch vụ tốt nhất cho họ Hiện nay, phân tích

dữ liệu lớn và khai phá dữ liệu đang trở thành một phần không thể thiếu trong việc thu thập thông tin và hiểu rõ hơn về nhu cầu của thị trường bảo hiểm

Trong lĩnh vực này, thuật toán K-means có vai trò quan trọng trong việc phân cụm dữ liệu K-means không chỉ giúp tổ chức dữ liệu một cách có ý nghĩa mà còn tạo ra các nhóm khách hàng có đặc điểm tương tự Áp dụng K-means vào dữ liệu

Trang 4

bảo hiểm có thể giúp xác định các nhóm khách hàng có xuhướng mua bảo hiểm giống nhau, từ đó tối ưu hóa chiến lượcmarketing và cung cấp dịch vụ phù hợp.

Cùng với đó, việc khai phá dữ liệu bằng K-means cũng giúpphát hiện ra các mẫu và xu hướng tiềm ẩn trong dữ liệu, từ đógiúp công ty bảo hiểm hiểu rõ hơn về thị trường và khách hàngcủa mình

Tóm lại, việc áp dụng thuật toán K-means trong khai phá

dữ liệu của công ty bảo hiểm là một phương tiện mạnh mẽ đểtối ưu hóa chiến lược kinh doanh và cung cấp dịch vụ tốt nhấtcho khách hàng mua bảo hiểm

2 Đối tượng và phạm vi nghiên cứu

a Đối tượng nghiên cứu và Phạm vi nghiên cứu:

 Đối tượng nghiên cứu: Khách hàng mua bảo hiểm

 Phạm vi nghiên cứu: Dữ liệu về khách hàng, bao gồmthông tin như độ tuổi, giới tính, thu nhập, lịch sử mua bảohiểm, loại bảo hiểm và các thông tin khác liên quan

 Công nghệ : phần mềm orange

b Mục tiêu và nhiệm vụ nghiên cứu:

 Mục tiêu: Áp dụng thuật toán K-means để phân khúckhách hàng mua bảo hiểm thành các nhóm có đặc điểmtương tự, từ đó tối ưu hóa chiến lược kinh doanh và cungcấp dịch vụ phù hợp

và điền các giá trị thiếu

o Áp dụng thuật toán K-means: Phân cụm khách hàng thànhcác nhóm dựa trên các đặc điểm tương tự

o Phân tích kết quả: Đánh giá và hiểu rõ các nhóm kháchhàng được tạo ra bởi thuật toán K-means

Trang 5

o Xây dựng chiến lược kinh doanh: Dựa trên kết quả phâncụm, đề xuất các chiến lược phù hợp để tối ưu hóa kinhdoanh và dịch vụ cho từng nhóm khách hàng.

c Phương pháp nghiên cứu:

 Thu thập dữ liệu: Sử dụng các nguồn dữ liệu từ công tybảo hiểm, bao gồm thông tin khách hàng và lịch sử muabảo hiểm

 Tiền xử lý dữ liệu: Loại bỏ dữ liệu trùng lặp, xử lý giá trịthiếu và chuẩn hóa dữ liệu nếu cần thiết

 Áp dụng thuật toán K-means: Sử dụng thuật toán K-means

để phân cụm khách hàng dựa trên các đặc điểm như độtuổi, thu nhập, lịch sử mua bảo hiểm, vv

 Phân tích kết quả: Đánh giá và hiểu rõ các nhóm kháchhàng được tạo ra bởi thuật toán K-means, xem xét sự khácbiệt giữa các nhóm và những điểm chung của chúng

 Xây dựng chiến lược kinh doanh: Dựa trên kết quả phâncụm, đề xuất các chiến lược kinh doanh cụ thể để tối ưuhóa hiệu suất bán hàng và phục vụ khách hàng tốt hơn

Trang 6

Phần I Cơ sở lý thuyết về khai phá dữ liệu và kho dữ

liệu 1.1 Giới thiệu về khai phá dữ liệu

Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vàonhững năm cuối của thập kỷ 1980 Nó là quá trình trích xuấtcác thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu đượclưu trữ trong các CSDL, kho dữ liệu Một ví dụ hay được sửdụng là là việc khai thác vàng từ đá và cát, Data Mining được vínhư công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữliệu cho trước Thuật ngữ Data Mining ám chỉ việc tìm kiếm mộttập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô Cónhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từData Mining như Knowledge Mining (khai phá tri thức),Knowledge Extraction(chắt lọc tri thức), Data/PatternAnalysis(phân tích dữ liệu/mẫu), Data Archaeology (khảo cổ dữliệu), Data Dredging(nạo vét dữ liệu),

1.2 Quá trình khám phá trí thức và khai phá dữ liệu

Các bước chính thường sử dụng trong khai phá dữ liệu:

Trang 7

 Gom dữ liệu: thu thập dữ liệu là bước đầu tiên trong việckhai phá dữ liệu.

 Dữ liệu có thể lấy từ nhiều nguồn, từ các website trênmạng v.v…

 Trích lọc dữ liệu: Trích chọn dữ liệu từ kho dữ liệu và phânchia theo các tiêu chuẩn để dễ cho việc khai thác nguồn

dữ liệu này

 Làm sạch, tiền xử lý dữ liệu: Loại bỏ dữ liệu nhiễu, dữ liệu

dư thừa hay các dữ liệu không đủ tính chặt chẽ, logic…

 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang cácdạng phù hợp cho quá trình xử lý

 Khai phá dữ liệu: Là một bước quan trọng nhất, trong đó

sử dụng các thuật toán thông minh để trích ra các mẫu dữliệu

 Đánh giá các luật và biểu diễn tri thức: là quá trình đánhgiá các kết quả tìm được, sau đó sử dụng các kỹ thuật đểbiểu diễn cho người dùng

1.3 Các chức năng chính của khai phá dữ liệu

Data Mining được chia thành một số hướng chính như sau:

Mô tả khái niệm (concept description): thiên về mô

tả, tổng hợp và tóm tắt khái niệm

Ví dụ: tóm tắt văn bản

Luật kết hợp (association rules): là dạng luật biểu diễn

tri thứ ở dạng khá đơn giản

Ví dụ: “60% nam giới vào siêu thị nếu mua bia thì có tới 80%trong số họ

sẽ mua thêm thịt bò khô” Luật kết hợp được ứng dụng nhiềutrong lĩnh vực

kính doanh, y học, tài chính & thị trường chứng khoán, v.v

Phân lớp và dự đoán (classification & prediction):

xếp một đối tượng vào một trong những lớp đã biết trước

Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết Hướng tiếp cậnnày

Trang 8

thường sử dụng một số kỹ thuật của machine learning như câyquyết định

(decision tree), mạng nơ ron nhân tạo (neural network), v.v.Người ta còn

gọi phân lớp là học có giám sát

Phân cụm (clustering): xếp các đối tượng theo từng

cụm (số lượng cũng như tên của cụm chưa được biết trước.Người ta còn gọi phân cụm là học không giám sát

Khai phá chuỗi (sequential/temporal patterns):

tương tự như khai phá luật kết hợp nhưng có thêm tính thứ

tự và tính thời gian Hướng tiếp cận này được ứng dụngnhiều trong lĩnh vực tài chính và thị trường chứng khoán vì

 Thông tin sản xuất: Điều khiển và lập lịch, quản lý v.v…

 Thông tin khoa học: phân tích phát hiện các dấu hiệu thờitiết bất thường, động đất v.v…

Trang 9

Phần II LÝ THUYẾT VỀ GOM CỤM

2.1 Gom cụm dữ liệu

2.1.1 Khái niệm

Gom cụm (clustering) là quá trình phân nhóm các đối tượng có đặc điểm tương đồng vào các cụm (cluster) khác nhau Mục tiêu của gom cụm là tạo ra các cụm có chất lượng, nơi mà sự tương đồng giữa các đối tượng trong cùng một cụm là cao, trong khi đó sự khác biệt giữa các cụm là lớn

Một phương pháp gom cụm được coi là tốt khi nó đảm bảo rằngmỗi cụm chứa các đối tượng có sự giống nhau cao với nhau Điều này có nghĩa là các đối tượng trong cùng một cụm nên chia sẻ các đặc điểm hoặc thuộc tính gần như nhau Ngoài ra, giữa các cụm, sự giống nhau của các đối tượng nên là thấp, tức

là các cụm nên được phân biệt rõ ràng với nhau

Mặc dù cả gom cụm và phân lớp (classification) đều liên quan đến việc phân nhóm dữ liệu, nhưng chúng là hai bài toán khác nhau Trong gom cụm, chúng ta không có thông tin về nhãn củacác cụm trước, mục tiêu là phân nhóm dữ liệu dựa trên sự

tương đồng giữa chúng Trong khi đó, trong phân lớp, chúng ta

đã có thông tin về các nhãn hoặc lớp và mục tiêu là xây dựng một mô hình dự đoán lớp của các đối tượng dựa trên các đặc điểm của chúng

Trang 10

Phân lớp Gom cụm

Học có giám sát -

Supervised learning

(Tìm phương pháp để dự

đoán lớp của mẫu mới từ

các mẫu đã phân lớp trước)

Học không giám sát - Unsupervised learning(Tìm các cụm của các mẫu không được gán nhãn)

2.1.2 Tiêu chuẩn gom cụm

Một phương pháp gom cụm tốt sẽ tạo ra các cụm có chất lượng cao với:

 Sự giốngnhau caotrong mộtcụm

 Sự giốngnhau thấpgiữa các cụm

Trang 11

- Khoảng cách Minkowski:

d (i, j)=q|x i 1y y1| q+|x i 2y y 2|q+…+|x ipy yp| q

Với i=(x¬i1, x¬i2, …, x¬ip) và

j=(y¬j1, y¬j2, …, y¬jp): hai đối tượng p chiều

và q là số nguyên dương

Khoảng cách Manhattan:

d (i, j)=|x i 1x j 2|+|x i 1x j 2|+…+|x ipx jp|

Khoảng cách Euclide:

d (i, j)=q|x i 1y y1| q+|x i 2y y 2|q+…+|x ipy yp| q

Tính chất của độ đo khoảng cách:

Trang 12

Hình 1.2: Quá trình gom cụm dữ liệu

2.1.5 Các kỹ thuật gom gụm dữ liệu

Phân hoạch (Partitioning): các phân hoạch được tạo ra vàđánh giá theo một tiêu chí nào đó

Hình 1.3: Gom cụm dữ liệu bằng phân hoạchPhân cấp (Hierarchical): phân rã tập dữ liệu có thứ tự phân cấp theo một tiêu chí nào đó

Hình 1.4: Gom cụm dữ liệu bằng phân cấp

Trang 13

Dựa trên mật độ (Density-based): dựa trên connectivity and granularity structure.

2.1.6 Các yêu cầu tiêu biểu về gom cụm dữ liệu

- Các yêu cầu tiêu biểu về việc gom cụm dữ liệu

- Khả năng co giãn về tập dữ liệu (scalability)

- Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes)

- Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape)

- Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định các thông số nhập (domain knowledge for input parameters)

- Khả năng xử lý dữ liệu có nhiễu (noisy data)

- Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập (incremental clustering and insensitivity to the order of input records)

- Khả năng xử lý dữ liệu đa chiều (high dimensionality)

- Khả năng gom cụm dựa trên ràng buộc (constraint-based clustering)

- Khả diễn và khả dụng (interpretability and usability)

2.1.7 Ứng dụng của phương pháp gom cụm

Phân tích dữ liệu khách hàng:

- Gom cụm giúp hiểu rõ hơn về hành vi của khách hàng, từ đó tăng cường chiến lược tiếp thị và phục vụ khách hàng một cách hiệu quả hơn

Phân loại văn bản:

- Phân loại văn bản vào các nhóm tương đương hoặc có chủ đềtương tự

Dự báo và phát hiện gian lận:

- Phát hiện gian lận hoặc dự báo xu hướng giao dịch không bình thường trong tài chính và giao dịch điện tử

Trang 14

- Nhóm các kết quả tìm kiếm tương đương hoặc liên quan với nhau trong các công cụ tìm kiếm.

Phân tích hình ảnh và video:

- Phân loại và nhận dạng đối tượng trong hình ảnh và video trong thị giác máy tính

Phân tích gen và sinh học:

- Phân loại các mẫu gen hoặc dữ liệu sinh học thành các nhóm

có ý nghĩa trong sinh học

Quản lý dữ liệu và tập trung dữ liệu:

- Tổ chức và tập trung dữ liệu một cách hiệu quả trong các hệ thống quản lý dữ liệu và trích xuất thông tin

Phần III Thuật toán K-means 3.1 Thuật toán K-means

K-Means là thuật toán rất quan trọng và được sử dụng phổbiến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã chovào K cụm (K là số các cụm được xác đinh trước, K nguyêndương) sao cho tổng bình phương khoảng cách giữa các đốitượng đến tâm nhóm (centroid ) là nhỏ nhất Thuật toán k-means áp dụng cho các đối tượng được biểu diễn bởi các điểmtrong không gian vectơ d chiều U = {xi | i = 1, … , N}, với xi ∈

ℜ biểu thị đối tượng (hay điểm dữ liệu) thứ i Thuật toán means gom cụm toàn bộ các điểm dữ liệu trong U thành k cụm

k-C = {k-C1, k-C2, … k-Ck} sao cho mỗi điểm dữ liệu xi nằm trong mộtcụm duy nhất Để biết điểm dữ liệu thuộc cụm nào người ta gáncho nó một mã cụm Các điểm có cùng mã cụm thì ở cùng cụm,trong khi các điểm khác mã cụm thì ở trong các cụm khácnhau Một cụm có thể biểu thị bằng vec-tơ liên thuộc cụm v có

độ dài N, với vi là mã cụm của xi Giá trị k là đầu vào của thuậttoán Giá trị k dựa trên tiêu chuẩn tri thức trước đó Sẽ có baonhiêu cụm thực sự xuất hiện trong U, bao nhiêu cụm được đềnghị cho ứng dụng hiện hành, hay các kiểu cụm được tìm thấybằng cách dựa vào thực nghiệm với nhiều giá trị k khác nhau.Không cần thiết phải hiểu k được chọn như thế nào khi k-meansphân mảnh tập dữ liệu U, việc chọn giá trị k như thế nào sẽ

Trang 15

được thảo luận trong phần kế tiếp Trong các thuật toán gom

cụm, các điểm được nhóm theo khái niệm “độ gần” hay “độtương tự” Với k-means, phép đo mặc định cho “độ tương tư” làkhoảng cách Euclide Đặc biệt, có thể thấy k-means cố gắngcực tiểu hóa hàm giá trị không âm sau:

Thuật toán K-Means thực hiện qua các bước chính sau:

B1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗicụm được đại diện bằng các tâm của cụm

B2 Tính khoảng cách giữa các đối tượng (objects) đến K tâm(thường dùng khoảng cách Euclidean)

B3 Nhóm các đối tượng vào nhóm gần nhất

B4 Xác định lại tâm mới cho các nhóm

B5 Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhómnào của các đối tượng

3.2 Thuật giải

Thuật toán K-means:

Đầu vào: Tập dữ liệu D, số cụm k

Đầu ra:

Tập thể hiện các cụm C, vec-tơ liên thuộc cụm m

Các bước thực hiện:

Bước 1: Chọn ngẫu nhiên k điểm dữ liệu từ D

Bước 2: Xem k điểm này là tập khởi tạo các thể hiện cụm Crepeat

Bước 3: Gán lại các điểm trong D cho trung bình cụm gầnnhất

Bước 4: Cập nhật m sao cho mi là mã cụm của điểm thứ itrong D

Bước 5: Cập nhật C sao cho cj là trung bình các điểm trongcụm j until hội tụ hàm mục tiêu:

Trang 17

Bước 2: Tính khoảng cách:

d(C, c1) = (4 – 1)2 + (3 – 1)2 = 13 d(C, c2) = (4 – 2)2 + (3 – 1)2 = 8

d(C, c2) < d(C, c1) => C thuộc cụm 2 d(D, c1) = (5 – 1)2 + (4 – 1)2 = 25 d(D, c2) = (5 – 2)2 + (4 – 1)2 = 18 d(D, c2) < d(D, c1) => D thuộc cụm 2 Bước 3: Cập nhật lại vị trí trọng tâm:Trọng tâm cụm 1: c1 = (1,1)

Trong tâm cụm 2: c2 = (11/3,8/3)

Bước 4: lặp lại bước 2:

d(A , c1)=0<d(A , c2)= 9,89

Ngày đăng: 03/07/2024, 10:43

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w