Xây dựng ứng dụng - Thuật toán phân cụm dữ liệu nử- 123docz.net

3.2.1. Giới thiệu

Trong vài năm gần đây hoạt động kinh doanh bảo hiểm ở Việt Nam đã có sự phát triển vƣợt bậc. Thị trƣờng bảo hiểm ở nƣớc ta đang đƣợc đa dạng hóa, sức ép mở cửa thị trƣờng ngày càng lớn. Các doanh nghiệp muốn tồn tại và phát triển buộc phải mở rộng thị phần, phát triển các sản phẩm bảo hiểm.

Kinh doanh bảo hiểm nhân thọ bản thân có tính rủi ro rất cao do các rủi ro bất ngờ xảy đến với ngƣời mua bảo hiểm, ngoài ra còn có các cá nhân cố tình trục lợi từ việc bảo hiểm nhƣ khai báo không trung thực hay cố ý tạo ra các sự kiện bảo hiểm. Việc xác định các tiềm năng từ thông tin khách hàng cung cấp trong hợp đồng bảo hiểm và tính xác thực của các thông tin đó là công việc rất quan trọng. Chỉ những chuyên gia hoặc những ngƣời đã có kinh nghiệm mới có thể đánh giá đƣợc nhóm các khách hàng tiềm năng. Vấn đề đặt ra là cần đƣa ra các mẫu để trợ giúp những nhân viên ít kinh nghiệm có thể xác định mức độ rủi ro cho từng hợp đồng bảo hiểm. Các mẫu này bƣớc đầu phân loại các mức độ rủi ro cho các hợp đồng bảo hiểm. Việc xác định tính đúng đắn của các mẫu cần có chuyên gia đánh giá lại. Tuy nhiên nó cũng đã làm giảm đi rất nhiều công việc cho các chuyên gia. Bên cạnh đó còn giúp các nhân viên tƣ vấn khách hàng hƣớng khách hàng đến những sản phẩm bảo hiểm phù hợp với điều kiện của họ. Việc đánh giá rủi ro cho các hợp đồng

Trang 45

mua bảo hiểm còn góp phần quan trọng trong việc công ty có chấp nhận cho khách hàng đó mua bảo hiểm mà họ đã yêu cầu không.

Rủi ro của hợp đồng bảo hiểm là những biến cố xảy ra bất thƣờng với hậu quả thiệt hại hoặc mang lại kết quả không nhƣ dự tính trong thời gian khách hàng mua bảo hiểm. Khi xảy ra rủi ro, công ty bảo hiểm sẽ xác định mức chi trả cho khách hàng theo những quy định và nội dung của hợp đồng. Rủi ro của hợp đồng bảo hiểm có nhiều mức, để xác định mức độ rủi ro của các hợp đồng bảo hiểm phải dựa trên nhiều thông tin: Độ tuổi thu nhập, nghề nghiệp, tình trạng sức khỏe, và cả những thông tin về ngƣời thân của ngƣời tham gia bảo hiểm nhƣ có bệnh gì không, những thông tin này cũng rất quan trọng vì có một số bệnh nghiêm có tính di truyền và khả năng mắc bệnh của ngƣời tham gia bảo hiểm là có thể xảy ra.

3.2.2. Bài toán

Input:

Tập n các hồ sơ mua bảo hiểm, gồm các thông tin về khách hàng mua và đƣợc bảo hiểm và các thông tin về việc mua bảo hiểm của khách hàng. Các thông tin này đƣợc coi là một tập dữ liệu hỗn hợp có các thuộc tính số thuộc tính thứ tự, và thuộc tính định danh. K mức độ rủi ro từ các thông tin khách hàng cung cấp theo ý kiến của các chuyên gia có kinh nghiệm.

Output:

Đƣa ra k nhóm khách hàng có sự giống nhau là lớn nhất và dựa theo sự đánh giá của các chuyên gia để có thể đƣa ra các mẫu khách hàng với các mức độ rủi ro tƣơng ứng.

Trang 46

Tất cả những thông tin khách hàng cung cấp đều quan trọng nhƣng trong đó có những thông tin quan trọng hơn. Mỗi thông tin khách hàng cung cấp ta gán cho chúng một trọng số theo kinh nghiệm của các chuyên gia.

Bảng sau gồm các thuộc tính dùng để đánh giá các mức độ rủi ro:

Số TT

Tên thuộc tính Kiểu thuộc

tính

Các giá trị có thể

1 Tuổi của ngƣời đƣợc bảo hiểm Số 160 2 Nghề nghiệp ngƣời đƣợc bảo hiểm Định danh 3 Loại nghề nghiệp của ngƣời đƣợc

bảo hiểm

Thứ tự 1: An toàn 2:Bình thƣờng 3: Hơi nguy hiểm 4: Nguy hiểm 4 Thu nhập của ngƣời đƣợc bảo hiểm Số

5 Quan hệ với ngƣời đƣợc bảo hiểm Định danh 6 Bệnh của ngƣời đƣợc bảo hiểm Định danh 7 Tuổi của ngƣời mua bảo hiểm Số 160 8 Nghề nghiệp ngƣời mua bảo hiểm Định danh 9 Loại nghề nghiệp của ngƣời mua

bảo hiểm

Thứ tự 1: An toàn 2:Bình thƣờng 3: Hơi nguy hiểm 4: Nguy hiểm

Trang 47

10 Thu nhập gia đình ngƣời mua BH Số

11 Bệnh của ngƣời mua bảo hiểm Định danh 12 Tên bảo hiểm đăng kí mua Định danh

13 Số tiền mua bảo hiểm Số

14 Số năm mua bảo hiểm Số 560 (tùy từng bảo

hiểm)

Vì thuộc tính bệnh của khách thì có rất nhiều bệnh khác nhau, do đó trong chƣơng trình ứng dụng để đơn giản em chuyển thuộc tính bệnh thành các cấp độ tình trạng của sức khỏe từ 1 đến 10 theo cấp độ nguy hiểm tăng dần 1: Hoàn toàn khỏe mạnh và tăng dần đến 10 là các bệnh nghiêm trọng ung thƣ, tiểu đƣờng, bệnh về tim mạch. Với cấp độ 10 khách hàng sẽ khó có cơ hội mua bảo hiểm hoặc đƣợc mua nhƣng với phí sẽ rất cao. Do đó, thuộc tính bệnh sẽ đƣợc coi nhƣ thuộc tính có thứ tự trong chƣơng trình ứng dụng.

Tƣơng tự nhƣ vậy với thuộc tính nghề nghiệp, em xin bỏ thuộc tính nghề nghiệp, thay vào đó sẽ xét theo mức độ nguy hiểm của nghề nghiệp theo thuộc tính loại nghề nghiệp.

 Thông tin các loại bảo hiểm

Công ty Prudential có các loại bảo hiểm chính sau: Phú_Thành tài, Phú _Khởi nghiệp, Phú_Tích lũy gia tăng, Phú_An khang thịnh kỳ, Phú_An khang tích lũy thịnh kỳ, Phú_An khang hƣu trí, Phú_An khang hƣu trí toàn diện, Phú_An khang trọn đời, Phú_Trƣờng an, Phú_Hoà nhân an, Phú_Thành gia. Khi khách hàng mua các sản phẩm bảo hiểm chính còn có thể mua kèm các sản phẩm bảo hiểm bổ sung:

Trang 48

Phú_Thành tài:

Trẻ em (ngƣời đƣợc bảo hiểm): 0 - 12 tuổi. Tuổi tối đa khi đáo hạn hợp đồng: Trẻ em (ngƣời đƣợc bảo hiểm): 24 tuổi.

Phú_Khởi nghiệp:

Ngƣời đƣợc bảo hiểm: từ 0-17 tuổi.Tuổi khi đáo hạn hợp đồng: 28 tuổi. Thời hạn hợp đồng: 11-28 năm.

Phú_Tích lũy gia tăng:

Ngƣời đƣợc bảo hiểm: 0 - 63 tuổi. Tuổi tối đa khi đáo hạn hợp đồng: 75 tuổi. Thời hạn hợp đồng: 12, 15 hoặc 18 năm.

Phú_Trường an:

Độ tuổi khi tham gia bảo hiểm: 0 - 55. Tuổi khi đáo hạn hợp đồng: 99. Thời hạn hợp đồng: 44 đến 99 năm.

Phú_Hòa nhân an:

Độ tuổi khi tham gia bảo hiểm: từ 15 - 60 tuổi.Tuổi tối đa khi đáo hạn hợp đồng: 65 tuổi. Thời hạn hợp đồng: 5 năm hoặc 8 năm.

Phú_Thành gia:

Ngƣời đƣợc bảo hiểm: 15 - 50 tuổi. Tuổi tối đa khi đáo hạn hợp đồng: 65 tuổi. Thời hạn hợp đồng: 15 năm.

Phú_An khang thịnh kỳ:

Ngƣời đƣợc bảo hiểm: 0 - 60 hoặc 61 - 65 tuổi. Tuổi tối đa khi đáo hạn hợp đồng: 75 tuổi. Thời hạn hợp đồng: 10 đến 30 năm.

Phú_An khang tích lũy gia tăng:

Ngƣời đƣợc bảo hiểm: 0-65 tuổi.Tuổi tối đa khi đáo hạn hợp đồng: 75 tuổi. Thời hạn hợp đồng: 7 đến 30 năm.

Trang 49

Phú_An khang hưu trí:

Ngƣời đƣợc bảo hiểm: 20 - 55 tuổi. Tuổi tối đa khi đáo hạn hợp đồng: 74 tuổi. Thời hạn hợp đồng: 19 đến 39 năm.

Phú_An khang hưu trí toàn diện:

Ngƣời đƣợc bảo hiểm: 20-50 tuổi. Tuổi tối đa khi đáo hạn hợp đồng: 69 tuổi. Thời hạn hợp đồng: 19 đến 39 năm.

Phú_An khang trọn đời:

Ngƣời đƣợc bảo hiểm: 18-45 tuổi hoặc 18-50 tuổi (tùy thuộc độ tuổi chọn nghỉ hƣu). Tuổi tối đa khi đáo hạn hợp đồng: 70 hoặc 75 tuổi. Thời hạn hợp đồng: 10 đến 57 năm.

3.2.3. Cài đặt thuật toán phân cụm nửa giám sát với dữ liệu hỗn hợp

Nếu nói Thuật toán K-Tâm là cải tiến của thuật toán K-Means áp dụng với kiểu dữ liệu hỗn hợp và thuật toán phân cụm dữ liệu nửa giám sát Seeded- Kmeans và Constrained-Kmeans là cải tiến của thuật toán K-Means với việc khởi tạo K cụm ban đầu từ tập giống. Thì bằng cách phân cụm dữ liệu áp dụng thuật toán phân cụm dữ liệu nửa giám sát cho kiểu dữ liệu hỗn hợp có nghĩa là ta đã kết hợp thuật toán K-Tâm và thuật toán phân cụm dữ liệu nửa giám sát.

Về cơ bản khi tiến hành phân cụm dữ liệu nửa giám sát cho kiểu dữ liệu hỗn hợp không khác gì mấy so với việc phân cụm dữ liệu nửa giám sát với kiểu dữ liệu số. Chỉ có một điểm khác nhau cơ bản ở đây là việc tính khoảng cách giữa hai đối tƣợng ta phải áp dụng phƣơng pháp tính khoảng cách với kiểu dữ liệu hỗn hợp thay vì kiểu dữ liệu số thông thƣờng. Các công thức tính khoảng cách:

Trang 50

 Nếu Aj là thuộc tính thứ tự và DOM(Aj) = k

j j a a1,..., với k j j j a a a1  2 ... , ta lấy một hàm đơn điệu fj: DOM(Aj)→ [0,1] sao cho ( 1)0; ( k)1

j j j j a f a f (hàm này có thể là : 1 1 ) (    k i a fj ij ).

Khi đó dj(x, y)= │fj(x)-fj(y) │ (2)

 Nếu Aj là dữ liệu định danh thì dj(x,y)=

     y x khi y x khi : 1 : 0 (3)

Vậy khoảng cách d(x, y) giữa hai đối tƣợng x = (x1,...,xn) và y = (y1,...,yn) đƣợc tính bởi công thức:

   n j j j j jd x y y x d 1 2 2 ) , ( ) , (  (4)

Trong đó các dj(xj, yj) đƣợc tính theo các công thức (1-3) và j là các trọng số dƣơng cho bởi các chuyên gia. Các giá trị trọng số này cũng chính là một phần thể hiện sự nửa giám sát, các trọng số sẽ giúp cho việc xác định các thông tin nào là quan trọng và các thông tin nào là kém quan trọng hơn trong qua trình phân cụm. Giá trị của các trọng số sẽ góp phần quan trọng trong kết quả phân cụm thu đƣợc.

Trang 51

3.2.4. Giao diện chương trình

Trang 52

 Phân cụm dữ liệu

Trang 53

 Kết quả phân cụm

Trang 54

KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN

1. Kết luận

Data mining là một trong những lĩnh vực nghiên cứ mới, nhƣng đồng thời nó cũng là một trong những xu hƣớng nghiên cứu ngày càng phổ biến. Do nhu cầu của thực tế, với sự phát triển của công nghệ máy tính, của các lĩnh vực kinh tế - xã hội thì lƣợng thông tin lƣu trữ ngày càng tăng, và nhu cầu khai thác thông tin, tri thức ngày càng lớn. Do đó việc đọc, nghiên cứu và phát triển phƣơng pháp phân cụm dữ liệu đóng một vai trò rất quan trọng trong hoạt động của khoa học công nghệ máy tính, cũng nhƣ trong hoạt động thực tiễn.

Trong khóa luận này em đã nêu lên những nét đặc trƣng nhất trong lĩnh vực Data Mining bao gồm các vấn đề cần khám phá tri thức, các hƣớng tiếp cận nghiên cứu tiêu biểu. Phân cụm dữ liệu là một phƣơng pháp khám phá tri thức quan trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng nhƣ thực tiễn. Trong đó, phân cụm dữ liệu nửa giám sát là một trong những hƣớng nghiên cứu mới đƣợc nhiều nhà khoa học quan tâm. Bài khóa luận đã nêu đƣợc một cách khái quát về Data mining và phƣơng pháp phân cụm không giám sát, từ đó phân tích chi tiết về phân cụm nửa giám sát. Trình bày hai thuật toán điển hình của phân cụm nửa giám sát đó là: Seeded-KMeans, Constrained-Kmeans.

Tóm lại, phân cụm dữ liệu nói chung và phân cụm nửa giám sát nói riêng đang ngày càng đƣợc quan tâm ở nƣớc ta và trên thế giới. Ngày càng có nhiều thuật toán và tƣ tƣởng mới về phân cụm dữ liệu ra đời. Phân cụm dữ liệu đã từng bƣớc chứng minh đƣợc tầm quan trọng cũng nhƣ vai trò của mình trong sự phát triển của công nghệ máy tính nói riêng và phát triển của thế giới nói chung.

Trang 55

2. Định hướng phát triển

Do đây là một đề tài mới, với thời gian nghiên cứu còn ngắn nên bài khóa luận còn nhiều hạn chế. Em sẽ cố gắng hoàn thiện hơn ở thời gian sau với hai thuật toán Seeded-KMeans, Constrained-KMeans.

Tìm hiểu và phát triển nghiên cứu với các thuật toán phân cụm dữ liệu mới, tìm cách cải tiến mới cho một số thuật toán phân cụm nửa giám sát.

Phát triển mở rộng ứng dụng cho các ngành nông nghiệp trong việc dự đoán bệnh cho cây trồng và vật nuôi. Em mong muốn đƣa đề tài này ứng dụng vào thực tiễn ngành nông nghiệp của quê hƣơng em, góp phần nhỏ của mình để phát triển quê hƣơng ngày một giàu mạnh hơn.

Trên đây là hƣớng phát triển của em cho khóa luận tốt nghiệp này, kính mong đƣợc sự quan tâm giúp đỡ của các quý thầy cô và các bạn.

Một lần nữa, em xin chân thành gửi lời cảm ơn sự giúp đỡ của các thầy cô giáo khoa Công nghệ thông tin, đặc biệt là thầy giáo Trịnh Đình Thắng; cùng toàn thể các bạn lớp K34 Công nghệ thông tin đã giúp đỡ em trong quá trình làm khóa luận tốt nghiệp này.

Trang 56

TÀI LIỆU THAM KHẢO

[1] Nguyễn Trung Thông, Phương pháp phân cụm nửa giám sát, Nhà xuất bản giáo dục.

[2] Hà Quang Thụy (2009), Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam.

[3] Kỹ sƣ Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin, Ứng dụng các kỹ thuật khai phá dữ liệu vào lĩnh vực viễn thông.

[4] Hoàng Hải Xanh, Một số kỹ thuật phân cụm dữ liệu trong Data Mining,

Luận văn thạc sĩ, Trƣờng Đại học Công nghệ (ĐHQGHN), Hà Nội. [5] Hoàng Xuân Huấn, Nguyễn Thị Xuân Hƣơng, Mở rộng thuật toán phân

cụm K-Mean cho dữ liệu hỗn hợp. Một số vấn đề chọn lọc của Công nghệ thông tin, Hải phòng 25-27 tháng 8 năm 2005.

[6] Nguyễn Thị Ngọc Mai, Microsoft Visual Basic 6.0 và Lập Trình Cơ Sở Dữ Liệu, Nhà xuất bản Lao Động Và Xã Hội.