1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Tiểu luận) phân tích các tác nhân ảnh hưởng tới chi phí bảo hiểm sức khỏe và sử dụng mô hình học máy tìm ra các phương án tối ưu

60 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

1.4 Phương pháp nghiên cứu 1.4.1 Phương pháp nghiên cứu lý luận Tiến hành nghiên cứu, thu thập, chọn lọc và phân tích dữ liệu, thông tin bằng cách đọc sách, báo, tài liệu nhằm tìm ra các

Trang 1

ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH CÁC TÁC NHÂN ẢNH HƯỞNG TỚI CHI PHÍ BẢO HIỂM SỨC KHỎE VÀ SỬ DỤNG MÔ HÌNH

HỌC MÁY TÌM RA CÁC PHƯƠNG ÁN TỐI ƯU

Trang 2

1 MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU………3

1.1 Lý do chọn đề tài………3

1.2 Mục tiêu nghiên cứu………4

1.3 Đối tượng và phương pháp nghiên cứu………4

1.4 Phương pháp nghiên cứu……… ……4

1.4.1 Phương pháp nghiên cứu lý luận……… …4

1.4.2 Phương pháp nghiên cứu thực tiễn……… …4

1.5 Cấu trúc bài nghiên cứu………5

CHƯƠNG 2: CƠ SỞ LÝ LUẬN………5

2.1 Khai phá dữ liệu……….5

2.1.1 Quá trình phát hiện tri thức và khai phá dữ liệu………6

2.1 2.Khái niệm khai phá dữ liệu………7

2.1.3 Các tính năng chính của khai phá dữ liệu………8

2.1 4 Quy trình khai phá dữ liệu……… 9

2.1 5 Phương pháp khai phá dữ liệu………10

2.1.6 Ứng dụng của khai phá dữ liệu……….….11

2.1.7.Công cụ khai phá dữ liệu trong bài nghiên cứu trong bài nghiên cứu………11

2.1.8 Kết luận………12

2.2 Phân lớp dữ liệu………12

2.2.1 Khái niệm phân lớp dữ liệu………12

2.2.2 Quy trình phân lớp dữ liệu……… 13

2.2.2.3 Các phương pháp phân lớp dữ liệu……….……13

2.2.2.3.1 Cây quyết định ( decision tree) ……….……14

2.2.2.3.2 SVM( support vector machine)………14

2.2.2.3.3 Hồi quy Logistic ( Logistic Regression)……….…15

2.2.2.3.4 Hồi quy tuyến tính ( Linear Regression)………15

2.2.4 Một số phương pháp đánh giá mô hình phân lớp ……… 16

Trang 3

2.3.2 Quy trình phân cụm dữ liệu………19

2.3.3 Phương pháp phân cụm dữ liệu……….20

2.3.3.1 K-Means……….21

2.3.3.2 Hierarchical clustering……… …22

2.3.4 Ứng dụng của phân cụm dữ liệu……….22

CHƯƠNG 3: KẾT QUẢ NGHIÊN CỨU………23

3.1 Phân cụm dữ liệu chưa có nhãn……… 23

3.2 Mô hình nghiên cứu……… 37

3.2.1 Xây dựng biến số dùng để nghiên cứu……… 37

3.2.2 Mô hình nghiên cứu đề xuất……….37

3.2.3 Nguồn số liệu……… ……37

3.2.4 Mô tả dữ liệu huấn luyện và dự báo………37

3.2.5 Kết quả của bộ dữ liệu huấn luyện và dự báo ………37

3.2.6 Kết luận của kết quả nghiên cứu ………37

4 Mô tả bộ dữ liệu huấn luyện và dự báo……….……38

4.1 Mô tả bộ dữ liệu huấn luyện………38

4.2 Mô tả bộ dữ liệu dự báo ……… ……39

5 Kết quả bộ dữ liệu huấn luyện và dự báo……….……40

5.1 Kết quả bộ dữ liệu huấn luyện……… … 42

5.2 Kết quả bộ dữ liệu dự báo……… …….43

6 Phương pháp hồi quy và dự báo kết quả……… 44

6.1 Mô hình……… …44

6.2 Kết quả dự đoán……… 50

Trang 4

CHƯƠNG 4: KẾT LUẬN……… …… 51

4.1 Kết luận ………52

4.2 Hạn chế ……….53

4.3 Đề xuất hướng nghiên cứu tiếp theo ………53

TÀI LIỆU THAM KHẢO………54

PHỤC LỤC ………55

CHƯƠNG 1: GIỚI THIỆU 1.1 Lý do chọn đề tài:

Bảo hiểm là một trong những lĩnh vực tài chính quan trọng, giúp người tham gia giảm thiểu rủi ro tài chính khi gặp phải các sự kiện bất ngờ Trong đó, việc chi trả số tiền bảo hiểm cho khách hàng là một trong những hoạt động quan trọng nhất của công ty bảo hiểm Chúng ta có thể dễ nhận thấy rằng, đây là một vấn đề thực tế, có liên quan trực tiếp đến lợi ích của khách hàng Khi tham gia bảo hiểm, khách hàng mong muốn được chi trả số tiền bảo hiểm một cách nhanh chóng, chính xác và đầy đủ Việc tìm hiểu về cách thức chi trả số tiền bảo hiểm sẽ giúp chúng ta hiểu rõ hơn về quy trình này, từ đó có thể tư vấn và hỗ trợ khách hàng tốt hơn Bên cạnh đó, đây là một vấn đề phức tạp, đòi hỏi phải nắm vững kiến thức chuyên môn Để chi trả số tiền bảo hiểm cho khách hàng, công ty bảo hiểm cần phải thực hiện nhiều bước, từ việc xác định quyền lợi bảo hiểm, điều tra vụ việc, đến việc thanh toán tiền bảo hiểm Mỗi bước đều có những quy định và thủ tục riêng, mà công ty bảo hiểm cần phải tuân thủ Việc tìm hiểu về cách thức chi trả số tiền bảo hiểm sẽ giúp chúng ta nâng cao kiến thức và kỹ năng chuyên môn, từ đó có thể làm việc hiệu quả hơn Hơn nữa, một trong những nhân tố khiến nhóm chúng em quyết định chọn đề tài về phân tích về cơ chế vận hành của bảo hiểm là bởi vì đây đang là một vấn đề đang được quan tâm và tranh luận nhiều trong thời gian gần đây Một số khách hàng phản ánh rằng họ gặp phải khó khăn trong việc nhận được số tiền bảo hiểm Điều này khiến cho uy tín của các công ty bảo hiểm bị ảnh hưởng Việc

Too long to read onyour phone? Save

to read later on your computer

Save to a Studylist

Trang 5

tìm hiểu về cách thức chi trả số tiền bảo hiểm sẽ giúp hiểu rõ hơn về những vấn đề này, từ đó có thể đưa ra những giải pháp góp phần nâng cao chất lượng dịch vụ bảo hiểm Tóm lại, việc tìm hiểu về cách thức tính toán, hoạt động trong việc chi trả số tiền bảo hiểm cho khách hàng là một chủ đề có ý nghĩa cả về lý luận và thực tiễn Việc nghiên cứu và tìm hiểu về chủ đề này sẽ giúp có thêm kiến thức và kỹ năng chuyên môn, từ đó có thể đóng góp tích cực cho sự phát triển của lĩnh vực bảo hiểm Từ những lí do nêu trên, nhóm chúng em quyết định chọn đề tài “ Phân tích các tác nhân ảnh hưởng tới chi phí bảo hiểm sức khỏe và sử dụng mô hình học máy để tìm ra các phương án tối ưu”

1.2 Mục tiêu nghiên cứu

Nghiên cứu này tập trung vào các lý thuyết và kỹ thuật cơ bản của khoa học dữ liệu và khai thác dữ liệu Các mô hình được xây dựng dựa trên bộ dữ liệu sẵn có và mô hình phù hợp nhất được lựa chọn để thực hiện dự báo đối với bộ dữ liệu dự báo Nghiên cứu này góp phần tạo nền tảng cho các nghiên cứu tiếp theo

1.3 Đối tượng và phương pháp nghiên cứu

- Phương pháp nghiên cứu: Phân tích định lượng và sử dụng các mô hình học máy - Đối tượng nghiên cứu : Dữ liệu về thông tin bảo hiểm của công ty bảo hiểm ở Mỹ và ở Ấn Độ

1.4 Phương pháp nghiên cứu 1.4.1 Phương pháp nghiên cứu lý luận

Tiến hành nghiên cứu, thu thập, chọn lọc và phân tích dữ liệu, thông tin bằng cách đọc sách, báo, tài liệu nhằm tìm ra các quan niệm, quan điểm xây dựng cơ sở lý luận cho nghiên cứu, dự đoán các thuộc tính của đối tượng nghiên cứu, xây dựng sơ bộ lý luận.Các phương pháp nghiên cứu bao gồm:

● Phương pháp phân tích - tổng hợp lý thuyết: Đọc và tổng hợp các lý thuyết, quan niệm, quan điểm liên quan đến đối tượng nghiên cứu để rút ra những nội dung cần thiết.

● Phương pháp mô hình hóa: Xây dựng mô hình nghiên cứu dựa trên lý thuyết và ứng dụng mô hình để dự báo nhằm kiểm định tính chính xác của mô hình.

Trang 6

1.4 2 Phương pháp nghiên cứu thực tiễn

Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thực tiễn:

Thông qua các thuật toán của phần mềm Orange - một công cụ khá trực quan để nghiên cứu về các thuật toán machine learning và thực hành khoa học dữ liệu phổ biến hiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên cứu

Từ đó, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánh các kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất nhằm giúp người có ý định mua bảo hiểm có quyết định chính xác hơn khi đầu tư hiệu quả

1.5 Cấu trúc bài nghiên cứu

2.1.1 Quá trình phát hiện tri thức và khai phá dữ liệu - Những tiến bộ trong công nghệ cơ sở dữ liệu

Từ công việc, hoạt động của con người, vấn đề từ kỹ thuật, kinh tế, xã hội đến hoạt động quản lý đều cần có sự tích lũy và xử lý dữ liệu Gắn liền với các sản phẩm đầu tiên của hệ thống quản lý tệp, bộ nhớ ngoài nổi lên như bộ nhớ trong lý tưởng Vào giữa những năm 1960, thế hệ hệ thống quản lý cơ sở dữ liệu đầu tiên được đặc trưng bởi việc sử dụng các truy vấn phi thủ tục, do người dùng xác định để mô tả và mô tả rõ ràng dữ liệu ứng dụng cũng như ngôn ngữ truy cập nội bộ Chúng ta có thể truy cập dữ liệu và tìm bản ghi mà không cần phải tuân theo cấu trúc lưu trữ vật lý của dữ liệu Thập niên 1970, mô hình dữ liệu quan hệ và hệ thống quản lý cơ sở dữ liệu quan hệ đã được cài đặt Mô hình quan hệ đơn giản hóa việc truy cập dữ liệu cho người dùng bên ngoài Vào những năm 1980, các hệ thống quản lý cơ sở dữ liệu quan hệ, mô hình dữ liệu nâng cao và hệ thống quản lý cơ sở dữ liệu hướng ứng dụng đã xuất hiện( không gian, khoa học,

Trang 7

cộng nghệ ) Từ thập niên 1990 - những năm 2000: khai phá dữ liệu (data mining) và kho dữ liệu (data warehouse), cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu mạng

- Dữ liệu, thông tin và tri thức

Hình 2.1: Mô hình dữ liệu - thông tin- tri thức Nguồn: Amber (30/4/2020) + Dữ liệu (data): ta thường thu thập và nhìn thấy hàng ngày, ví dụ: một chuỗi các

bit, các kí hiệu, biểu tượng,

+ Thông tin (Information): là dữ liệu đã được loại bỏ các phần dư thừa, không cần thiết Thông tin mô tả các đặc trưng, thuộc tính của dữ liệu với chi phí nhỏ nhất + Tri thức (Knowledge) : sự tích hợp các thông tin bao gồm cả quan hệ, là sự

đúng đắn đã được kiểm nghiệm Hay tri thức có thể được xem như dữ liệu ở mức cao của của quá trình trừu tượng hóa và khái quát hoá

● Quá trình khai phá dữ liệu:

Trang 8

Hình 2.2: Quá trình khai phá dữ liệu Nguồn: Viện ISB UEH

- Khai phá dữ liệu là một bước trong quá trình KDD (Knowledge Discovery in Database) gồm 7 trình khác nhau theo thứ tự sau:

1 Làm sạch dữ liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu và các dữ liệu không cần thiết

2 Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing)

3 Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data) 4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý

5 Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu

6 Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó

7 Biểu diễn tri thức (knowledge presentation) là bước cuối cùng trong quy trình Phần mềm sẽ xem xét và chọn lựa các mẫu dữ liệu với các tiêu chí khác nhau đánh giá phù hợp

2.1 2.Khái niệm khai phá dữ liệu

Trang 9

Khai phá dữ liệu (data mining) là quá trình tính toán để tìm các mẫu trong các tập dữ liệu lớn, liên quan đến các phương pháp giao thoa giữa học máy, thống kê và hệ thống cơ sở dữ liệu Là một lĩnh vực khoa học máy tính liên ngành, trong đó mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ các tập dữ liệu và chuyển đổi nó thành các cấu trúc dễ hiểu để sử dụng tiếp Ngoài các bước phân tích thô, còn có các khía cạnh cơ sở dữ liệu và quản lý dữ liệu, tiền xử lý dữ liệu, lập mô hình và suy luận thống kê, các số liệu thú vị và các cân nhắc phức tạp

2.1.3 Các tính năng chính của khai phá dữ liệu

Một số tính năng chính của Data Mining đã giúp ích rất nhiều cho các nhà nghiên cứu:

- Dự đoán các mẫu dựa trên xu hướng trong dữ liệu - Tính toán dự đoán kết quả

- Tạo thông tin phản hồi để phân tích - Tập trung vào cơ sở dữ liệu lớn hơn

- Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắt khái niệm Ví dụ: tóm tắt văn bản

- Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Người ta còn gọi phân lớp là học có giám sát (học có thầy)

- Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước

- Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao

2.1 4 Quy trình khai phá dữ liệu

Trang 10

9

Hình 2.3 Quá trình khai thác dữ liệu Nguồn: ThS T.H.Cường, ThS N.Đ.Vĩnh (2011)

Các thuật toán khai thác dữ liệu thường được mô tả là các chương trình hoạt động trực tiếp trên các tệp dữ liệu Đối với các phương pháp thống kê và học máy trước đây, bước đầu tiên của thuật toán thường là tải toàn bộ tệp dữ liệu vào bộ nhớ Mô hình này không thể thỏa mãn khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai thác các kho dữ liệu lớn Không chỉ vì nó không thể nhét hết dữ liệu vào 10 bộ nhớ mà còn vì rất khó để trích xuất dữ liệu thành một tệp đơn giản để phân tích Quá trình khai thác dữ liệu bắt đầu bằng việc xác định chính xác vấn đề cần giải quyết Sau đó, sẽ xác định dữ liệu liên quan để sử dụng nhằm xây dựng giải pháp Bước tiếp theo là thu thập dữ liệu liên quan và xử lý nó thành dạng mà thuật toán khai thác dữ liệu có thể hiểu được Về lý thuyết thì có vẻ đơn giản nhưng trên thực tế, đây thực sự là một quá trình rất khó khăn và gặp nhiều vấn đề như: dữ liệu phải được sao chép thành nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các tệp, các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình Khi tất cả thông tin trong cơ sở dữ liệu quá dư thừa cho mục đích khai phá dữ liệu thì có rất nhiều thuật toán khai phá dữ liệu dựa trên những thống kê tóm tắt rất đơn giản của cơ sở dữ liệu Bước tiếp theo là chọn một thuật toán khai thác dữ liệu phù hợp và thực hiện khai thác dữ liệu để tìm các mẫu có ý nghĩa trong các biểu diễn tương ứng với các ý nghĩa này, các đặc điểm của chúng phải mới Độ mới có thể được đo bằng cách so sánh giá trị hiện tại với giá trị trước đó hoặc giá trị mong đợi hoặc bằng kiến thức, đo lường mức độ thay đổi của dữ liệu Thông thường, tính mới của mẫu được đánh giá bằng hàm logistic hoặc hàm đo lường tính mới hoặc tính bất ngờ của mẫu Ngoài ra, mẫu phải có tiềm năng sử dụng Các mẫu này, sau khi được xử lý và diễn giải, phải có tác dụng có lợi nào đó, được đánh giá bởi hàm tiện ích Với sự đa dạng của các thuật toán và nhiệm vụ khai thác dữ liệu nên hình thức trích mẫu cũng rất đa dạng Dạng của mẫu chiết xuất được có thể được phân loại bởi kiểu mẫu dữ liệu mà nó mô tả Kỹ thuật khai phá dữ liệu thực chất không có gì mới Nó là sự kế thừa, kết hợp và mở rộng của các kỹ thuật cơ bản đã được nghiên cứu từ trước như học máy,

Trang 11

nhận dạng, thống kê (hồi quy, xếp loại, phân cụm), các mô hình đồ thị, mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia, Tuy nhiên, với sự kết hợp tài tình của khai phá dữ liệu, kỹ thuật này có ưu thế hơn hẳn các phương pháp trước đó, đem lại nhiều triển vọng trong việc ứng dụng phát triển nghiên cứu khoa học cũng như làm tăng mức lợi nhuận trong các hoạt động kinh doanh

2.1 5 Phương pháp khai phá dữ liệu

- Phân lớp (Classification): Phương pháp sử dụng để dự báo dữ liệu thông qua bộ dữ liệu huấn luyện, phân loại đối tượng Nhóm chúng em sẽ sử dụng phương pháp khai phá dữ liệu này trong bài để dự báo số liệu

- Hồi quy (Regression): Mục đích chính của phương pháp hồi quy này là dùng để khám phá và ánh xạ dữ liệu, từ đó dự báo kết quả cho tệp dữ liệu mới đầu vào - Phân cụm (Clustering): Phương pháp phân cụm giúp việc mô tả dữ liệu trở nên dễ dàng hơn bằng các xác định tập hợp hữu hạn các cụm với nhau

- Tổng hợp (Summarization): Phương pháp này cho phép người làm tìm kiếm một mô tả nhỏ gọn

- Mô hình ràng buộc (Dependency modeling): Người làm sẽ tìm được mô hình cục bộ mô tả các phụ thuộc dựa vào phương pháp mô hình ràng buộc

- Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Mục đích của phương pháp này là để tìm ra những thay đổi quan trọng

2.1.6 Ứng dụng của khai phá dữ liệu

Mặc dù khai thác dữ liệu là một phương pháp mới nhưng nó đã thu hút được nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ tính ứng dụng thực tế của nó Chúng ta có thể liệt kê một số ứng dụng tiêu biểu ở đây

- Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) - Điều trị y học (medical treatment)

- Text mining & Web mining - Tài chính và thị trường chứng khoán

- Lĩnh vực kỹ thuật sản xuất: Khám phá các mẫu (patterns) trong quy trình sản xuất phức tạp Ngoài ra, nó còn được dùng để dự đoán thời gian phát triển sản phẩm, chi phí - Các ứng dụng khoa học khác: Kho dữ liệu và tiền xử lý dữ liệu (Data Warehouses and data preprocessing); Khai thác dựa trên đồ thị (Graph-based mining); Hình dung và kiến thức cụ thể miền (Visualization and domain-specific knowledge)

Tuy nhiên, việc ứng dụng khai phá dữ liệu trong lĩnh vực giáo dục chưa thực sự được phát huy mạnh mẽ Có thể do khai thác dữ liệu vẫn còn mới ở Việt Nam và ứng dụng đòi hỏi một mức chi phí nhất định

2.1.7.Công cụ khai phá dữ liệu trong bài nghiên cứu trong bài nghiên cứu

Trang 12

Hình 2.4 : Các công cụ khai phá dữ liệu Nguồn: Viện ISB UEH

Khai thác dữ liệu là một lĩnh vực khá khó nghiên cứu nên có nhiều phần mềm được tạo ra giúp người dùng dễ dàng tra cứu, giải quyết vấn đề khó khăn này

- Phần mềm Orange nổi tiếng với việc tích hợp các công cụ khai thác dữ liệu mã nguồn Học máy mở, đơn giản và thông minh, được lập trình bằng Python với giao diện trực quan Quan sát và tương tác một cách dễ dàng với nhiều tính năng và có thể thực hiện phân tích dữ liệu chính xác.Hơn thế, Orange còn làm cho việc khai thác dữ liệu dễ dàng hơn cho cả người dùng mới tiếp cận như sinh viên năm 1, năm 2 để dự đoán, so sánh các thuật toán học máy, trực quan hóa các phần tử dữ liệu, Vì thế nhóm nghiên cứu chọn Organe là phần mềm chính để thực hiện dự án này

2.1.8 Kết luận

Chúng ta vừa xem xét những đặc điểm chung nhất của quá trình phát hiện tri thức và khai phá trong cơ sở dữ liệu Quá trình này bao gồm một loạt các hoạt động liên tiếp, trong đó đầu ra của giai đoạn trước là đầu vào của giai đoạn tiếp theo Trong số đó, khai phá dữ liệu chỉ là một giai đoạn phát triển của KDD và cũng là giai đoạn được mọi người rất quan tâm Và các kỹ thuật khác nhau thường tác động đến nghiên cứu vì chúng yêu cầu số lượng và loại thông tin rất khác nhau cho mỗi lần nghiên cứu

2.2 Phân lớp dữ liệu

2.2.1 Khái niệm phân lớp dữ liệu

“Phân lớp là việc tự học một hàm, hàm này ánh xạ (hay phân loại) một mục dữ liệu vào một trong số các lớp đã xác định trước (Hand 1981; Weiss & Kulilowski 1992)” -Phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai phá dữ liệu.Là quá trình phân các đối tượng vào một hay nhiều lớp đã cho trước nhờ vào một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó Quá trình gán nhãn cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu Phân lớp và dự đoán là một trong hai dạng của phân tích dữ liệu nhằm rút ra một mô hình mô tả các lớp dữ liệu quan trọng hoặc dự đoán xu hướng của dữ liệu trong tương lai Công

Trang 13

nghệ này đã, đang và sẽ có nhiều ứng dụng trong các lĩnh vực thương mại, ngân hàng, y tế, giáo dục…Trong các mô hình phân lớp đã được đề xuất, cây quyết định được coi là công cụ mạnh, phổ biến và đặc biệt thích hợp với các ứng dụng khai phá dữ liệu Thuật toán phân lớp là nhân tố trung tâm trong một mô hình phân lớp

2.2.2 Quy trình phân lớp dữ liệu:

Quá trình phân lớp dữ liệu gồm hai bước:

: • Bước thứ nhất: xây dựng mô hình phân lớp (learning) nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay các khái niệm định trước Đầu vào của quá trình này là một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data tuple), có thể là sample, example, object, record hay case Bài tiểu luận sử dụng các thuật ngữ này với nghĩa tương đương Trong tập dữ liệu này, mỗi phần tử dữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật dạng if-then, cây quyết định, công thức logic Quá trình này được mô tả như trong hình 2.5

Hình 2.5: Xây dựng mô hình phân lớp Nguồn: L.H.T.Tùng (2023)

• Bước thứ hai: Ước lượng độ chính xác của mô hình và phân lớp dữ liệu mới (classification) Dùng mô hình đã xây dựng ở bước trước để phân lớp dữ liệu mới Trước tiên độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng Holdout là một kỹ thuật đơn giản để ước lượng độ chính xác đó Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo Độ chính xác

Trang 14

của mô hình trên tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế) Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quá vừa” dữ liệu Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệu thực tế Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo Nếu độ chính xác của mô hình là chấp nhận được, thì mô hình được sử dụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa biết

2.2 3 Các phương pháp phân lớp dữ liệu

2.2.3.1 Cây quyết định ( Decision Tree):

Định nghĩa : Cây quyết định là một thuật toán học máy có giám sát được sử dụng để phân loại và hồi quy Nó hoạt động bằng cách tạo một cây phân nhánh, với mỗi nhánh đại diện cho một quyết định.

-Cách thức hoạt động của cây quyết định

+Cây quyết định hoạt động bằng cách tạo một cây phân nhánh, với mỗi nhánh đại diện cho một quyết định Cây được tạo bằng cách sử dụng một tập dữ liệu đào tạo có nhãn Tập dữ liệu đào tạo bao gồm các điểm dữ liệu đã được gắn nhãn với lớp của chúng +Cây quyết định bắt đầu với một nút gốc, đại diện cho tất cả các điểm dữ liệu trong tập dữ liệu đào tạo Sau đó, cây quyết định sử dụng một thuộc tính để phân chia các điểm dữ liệu thành hai nhóm Nhóm nào có nhiều điểm dữ liệu hơn sẽ trở thành nút con của nút gốc Quá trình này được lặp lại cho đến khi tất cả các điểm dữ liệu được phân loại.

Hình 2.6: Mô hình cây Nguồn: Data iku (31/8/2021)

Một khi cây quyết định được tạo, nó có thể được sử dụng để dự đoán lớp của các điểm dữ liệu mới Để làm điều này, cây quyết định sẽ bắt đầu từ nút gốc và đi theo các nhánh cho đến khi đến một nút lá Lá này sẽ chứa dự đoán lớp của điểm dữ liệu mới

Trang 15

Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó

2.2.3.2 SVM( Support Vector Machine):

- Định nghĩa : là một thuật toán học máy có giám sát được sử dụng để phân loại và phân tích hồi quy Nó hoạt động bằng cách tìm một mặt phẳng phân tách dữ liệu thành hai lớp tốt nhất.

Hình 2.7 Mô hình SVM Nguồn: Anshul Saini (07/7/2023)

- SVM cho độ chính xác cao đối với tập dữ liệu có kiểu dữ liệu liên tục (continuous value), cùng với thuật toán cây quyết định là hai phương pháp thường được dùng để phân lớp dữ liệu Tuy nhiên, không có mô hình phân lớp (classifier) nào là tốt nhất theo No Free Lunch Theorem

-

2.2.3.3 Hồi quy Logistic ( Logistic Regression)

Định nghĩa: Hồi quy logistics là một mô hình thống kê được sử dụng để dự đoán xác suất của một biến phụ thuộc là một trong hai giá trị Nó được sử dụng trong nhiều ứng dụng, chẳng hạn như phân loại thư rác, phát hiện gian lận và chẩn đoán y tế

Mô hình hồi quy logistics: Hồi quy logistics là một mô hình tuyến tính Nó sử dụng một hàm logistic để chuyển đổi kết quả của mô hình tuyến tính thành một xác suất

+Hồi quy logistics được sử dụng để dự đoán xác suất của một biến phụ thuộc là một trong hai giá trị Giả sử biến phụ thuộc có hai giá trị, "0" và "1" Trong trường hợp này, hàm logistic sẽ trả về một xác suất nằm trong khoảng từ 0 đến 1.

Trang 16

+Nếu xác suất là 0, thì biến phụ thuộc có nhiều khả năng là "0" Nếu xác suất là 1, thì biến phụ thuộc có nhiều khả năng là "1".

● Có 3 dạng hồi quy Logistic:

• Hồi quy logistic nhị phân: Biến phụ thuộc chỉ có hai 2 kết quả / lớp có thể xảy ra

• Hồi quy logistic đa thức: Biến phụ thuộc chỉ có hai hoặc 3 kết quả/lớp trở lên có thể có mà thứ tự được xếp ngẫu nhiên

• Hồi quy logistic thông thường: Biến phụ thuộc chỉ có hai hoặc nhiều hơn 3 kết quả / lớp có thể có được xếp theo đúng thứ tự

Hình 2.8: Minh họa phương pháp Hồi quy Logistic Nguồn: KyoHB (14/06/2021) 2.2.3.5 Hồi quy tuyến tính ( Linear Regression)

Là 1 phương pháp hồi quy thống kê cố gắng đoán giá trị của biến (lớp) phản hồi liên tục dựa trên giá trị của một số yếu tố dự đoán Mô hình giả định rằng biến phản hồi là sự kết hợp tuyến tính của các yếu tố dự đoán, do đó nhiệm vụ của hồi quy tuyến tính là phù hợp với các hệ số chưa biết

Hồi quy tuyến tính sử dụng tiền xử lý mặc định khi không có bộ tiền xử lý nào khác được đưa ra Nó thực hiện chúng theo thứ tự sau: loại bỏ các trường hợp có giá trị mục tiêu không xác định, tiếp tục các biến phân loại, loại bỏ các cột trống và gán các giá trị còn thiếu bằng giá trị trung bình

MSE, RMSE, và MAE là ba chỉ số đánh giá hiệu suất của các mô hình hồi quy Chúng được sử dụng để đo lường mức độ chính xác của các dự đoán của mô hình so với giá trị thực tế

Trang 17

MSE (Mean squared error) là trung bình của các sai số bình phương giữa giá trị dự đoán và giá trị thực tế Nó được tính bằng công thức sau:

trong đó n là số điểm dữ liệu, yᵢ là giá trị quan sát và ŷ ᵢ là giá trị dự đoán

RMSE (Root mean squared error) là căn bậc hai của MSE Nó được tính bằng công thức sau:

MAE (Mean absolute error) là trung bình của các sai số tuyệt đối giữa giá trị dự đoán và giá trị thực tế Nó được tính bằng công thức sau:

trong đó n là số điểm dữ liệu, xᵢ là giá trị thực và yᵢ là giá trị dự đoán

Giá trị càng thấp của MSE, RMSE, và MAE thì mô hình càng phù hợp với dữ liệu Tuy nhiên, điều quan trọng cần lưu ý là các chỉ số này không thể so sánh trực tiếp với nhau vì chúng có đơn vị khác nhau.

MSE và RMSE đều là thước đo sai số bình phương, trong khi MAE là thước đo sai số tuyệt đối Điều này có nghĩa là MSE và RMSE có xu hướng trừng phạt các lỗi lớn hơn MAE.

Chỉ số nào nên sử dụng phụ thuộc vào ứng dụng cụ thể Nếu điều quan trọng là phải giảm thiểu các lỗi lớn, thì MSE hoặc RMSE có thể là lựa chọn tốt hơn Nếu điều quan trọng là phải giảm thiểu các lỗi tuyệt đối, thì MAE có thể là lựa chọn tốt hơn

2.2.4 Một số phương pháp đánh giá mô hình phân lớp 2.2.4.1.Ma trận nhầm lẫn ( Confusion Matrix):

Là một phương pháp đánh giá kết quả của những bài toán phân loại với việc xem xét cả những chỉ số về độ chính xác và độ bao quát của các dự đoán cho từng lớp Một confusion matrix gồm 4 chỉ số sau đối với mỗi lớp phân loại:

Trang 18

Hình 2.9 : Ma trận nhầm lẫn

● True/False ý chỉ những gì chúng ta dự đoán đã đúng hay chưa (true or false).

● Positive/Negative ý chỉ những gì chúng ta dự đoán (có hoặc không).

Trong bảng trên, ví dụ như chẩn đoán bệnh để giải thích 4 chỉ số này Trong bài toán chuẩn đoán bệnh ta có 2 lớp: lớp bị bệnh được chẩn đoán Positive và lớp không bị bệnh được chẩn đoán là Negative:

● True Positive (TP): những bệnh nhân ta đoán là có bệnh đúng là đang mang bệnh.

● True Negative (TN): những bệnh nhân ta đoán là không có bệnh đúng là đang khỏe mạnh.

● False Positive (FP): những bệnh nhân ta đoán là có bệnh thật ra đang khỏe mạnh.

● False Negative (FN): những bệnh nhân ta đoán là không có bệnh thật ra đang mang bệnh.

2.2.4.2 Tính chính xác ( Accuracy):

- Là một chỉ số đánh giá hiệu suất của các mô hình phân loại Nó được định nghĩa là tỷ lệ phần trăm dự đoán đúng cho dữ liệu thử nghiệm

-Điểm số accuracy cao cho thấy mô hình có thể dự đoán đúng nhiều điểm dữ liệu trong tập dữ liệu thử nghiệm Tuy nhiên, tính chính xác không phải là một chỉ số đánh giá hiệu suất hoàn hảo cho các mô hình phân loại Nó có thể bị ảnh hưởng bởi sự cân bằng của tập dữ liệu.

2.2.4.3 Precision, recall, F1- score:

Là ba chỉ số đánh giá được sử dụng phổ biến trong học máy để đánh giá hiệu suất của các mô hình phân loại.

-Precision đo lường tỷ lệ dự đoán dương tính thực sự chính xác.

-Recall đo lường tỷ lệ các trường hợp dương tính thực tế được dự đoán chính xác -F1-score là trung bình hòan hảo của precision và recall, và thường được sử dụng để tổng hợp hiệu suất tổng thể của một mô hình phân loại

Trang 19

2.2.4.4 ROC, AUC( Receiver Operating Characteristics, Area Under The Curve)

- Là một chỉ số đánh giá hiệu suất của các mô hình phân loại ở các ngưỡng phân loại khác nhau Đây là một đồ thị thể hiện hiệu suất của một mô hình phân loại ở tất cả các ngưỡng phân loại

AUC được tính bằng cách đo diện tích dưới đường cong ROC Đường cong ROC là đồ thị biểu diễn tỷ lệ dương tính thật (TPR) theo tỷ lệ dương tính giả (FPR) ở các ngưỡng phân loại khác nhau TPR là tỷ lệ các trường hợp dương tính được xác định chính xác, trong khi FPR là tỷ lệ các trường hợp âm tính được xác định sai là dương tính AUC = 1 biểu thị một mô hình phân loại hoàn hảo, trong khi AUC = 0.5 biểu thị một mô hình phân loại vô giá trị Hầu hết các mô hình phân loại có AUC nằm trong khoảng từ 0.5 đến 1.

ROC AUC là một chỉ số hiệu suất tốt cho các mô hình phân loại vì nó không phụ thuộc vào phân phối lớp Điều này có nghĩa là nó vẫn là một thước đo hiệu suất tốt ngay cả khi tập dữ liệu không cân bằng, với nhiều trường hợp dương tính hoặc âm tính hơn ROC AUC cũng là một chỉ số hiệu suất tốt cho các mô hình phân loại vì nó ổn định với các ngoại lệ Điều này có nghĩa là một vài ngoại lệ trong tập dữ liệu sẽ không có tác động đáng kể đến điểm số AUC.

ROC AUC được sử dụng rộng rãi trong học máy để đánh giá hiệu suất của các mô hình phân loại Nó đặc biệt hữu ích để so sánh hiệu suất của các mô hình phân loại khác nhau trên cùng một tập dữ liệu

Hình 2.10 Đánh giá qua biểu đồ ROC-AUC Nguồn: geeksforgeeks (10/6/2023) 2.2.4 Cross Validation: K-fold và Holdout:

2.2.4.1 Phương pháp K-fold cross validation :

phân chia dữ liệu thành k tập con có cùng kích thước (gọi là các fold), trong đó sử dụng một trong các folder làm tập dữ liệu dự báo và phần còn lại làm tập dữ liệu huấn luyện Quá trình này lặp lại cho đến khi tất cả các folder đều đã được dùng làm tập dữ liệu đánh giá So với Phương pháp Hold-out, phương pháp này thường được ưa chuộng hơn do mô hình sẽ được huấn luyện và dự báo trên nhiều phần dữ

Trang 20

1 liệu khác nhau từ đó mô hình có độ tin cậy càng cao

Để sử dụng K-fold cross validation, cần thực hiện các bước sau: 1 Chia dữ liệu thành k phần, gọi là folds.

2 Huấn luyện mô hình trên k - 1 folds 3 Đánh giá mô hình trên fold còn lại 4 Lặp lại các bước 2 và 3 k lần.

5 Tính trung bình các kết quả đánh giá để có được hiệu suất của mô hình.

2.2.4.2 Phương pháp Holdout:

-Holdout chia dữ liệu thành hai tập: tập huấn luyện và tập đánh giá Tập huấn luyện được sử dụng để huấn luyện mô hình và tập đánh giá được sử dụng để đánh giá hiệu suất mô hình Tỷ lệ chia dữ liệu giữa tập huấn luyện và tập đánh giá thường là 70/30 hoặc 80/20 Holdout là một phương pháp đánh giá mô hình đơn giản nhưng hiệu quả Tuy nhiên, nó có nhược điểm là không sử dụng tất cả dữ liệu để huấn luyện mô hình Điều này có thể làm giảm độ chính xác của mô hình.Nhưng ta vẫn có thể khắc phục bằng cách điều chỉnh cách chia cũng như tỷ lệ chia mẫu dữ liệu sao cho mỗi lớp được phân bố đều trong cả 2 tập dữ liệu huấn luyện và đánh giá hoặc lấy mẫu ngẫu nhiên rồi thực hiện phương pháp k lần với độ chính xác acc(M) = trung bình cộng k giá trị chính xác

2.3 PHÂN CỤM DỮ LIỆU 2.3.1 Khái niệm phân cụm dữ liệu

Phương pháp phân cụm dữ liệu là một kỹ thuật khoa học dữ liệu nhằm mục đích chia một tập dữ liệu thành các nhóm hoặc cụm sao cho các đối tượng trong cùng một cụm có sự tương đồng cao hơn so với các đối tượng trong các cụm khác.

2.3.2 Quy trình phân cụm dữ liệu

Trang 21

Hình 2.11: Các bước của quá trình phân cụm dữ liệu Nguồn:Vi Văn Sơn (2017)

Quy trình phân cụm dữ liệu có thể được chia thành các bước sau:

1 Thu thập dữ liệu: Bước đầu tiên là thu thập dữ liệu cần được phân cụm Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau, chẳng hạn như từ các cuộc khảo sát, bảng tính, hoặc cơ sở dữ liệu.

2 Làm sạch dữ liệu: Sau khi dữ liệu được thu thập, cần phải làm sạch dữ liệu để loại bỏ các lỗi hoặc giá trị không hợp lệ Điều này sẽ giúp đảm bảo rằng quá trình phân cụm diễn ra chính xác.

3 Khám phá dữ liệu: Bước tiếp theo là khám phá dữ liệu để hiểu rõ hơn về dữ liệu Điều này có thể được thực hiện bằng cách sử dụng các kỹ thuật phân tích mô tả, chẳng hạn như thống kê và trực quan hóa dữ liệu.

4 Chọn thuật toán phân cụm: Có nhiều thuật toán phân cụm khác nhau có sẵn Việc lựa chọn thuật toán phù hợp phụ thuộc vào nhiều yếu tố, chẳng hạn như loại dữ liệu, số lượng cụm, và độ chính xác cần thiết.

5 Huấn luyện mô hình phân cụm: Sau khi chọn thuật toán phân cụm, cần phải huấn luyện mô hình phân cụm trên tập dữ liệu huấn luyện Tập dữ liệu huấn luyện là tập dữ liệu đã được dán nhãn, có nghĩa là mỗi điểm dữ liệu trong tập dữ liệu đã được gán cho một cụm cụ thể.

6 Đánh giá mô hình phân cụm: Sau khi mô hình phân cụm được huấn luyện, cần phải đánh giá mô hình để xác định mức độ chính xác của nó Điều này có thể được thực hiện bằng cách sử dụng tập dữ liệu đánh giá Tập dữ liệu đánh giá là tập dữ liệu chưa được dán nhãn, và mô hình phân cụm sẽ được sử dụng để dự đoán cụm của các điểm dữ liệu trong tập dữ liệu này.

7 Áp dụng mô hình phân cụm: Sau khi mô hình phân cụm được đánh giá và xác định là chính xác, mô hình có thể được sử dụng để phân cụm dữ liệu mới.

Trang 22

2 2.3.3 Phương pháp phân cụm dữ liệu:

Có nhiều phương pháp phân cụm dữ liệu khác nhau, nhưng tất cả đều dựa trên một số khái niệm cơ bản:

● Tương đồng: Tương đồng là thước đo mức độ gần gũi giữa hai đối tượng Có nhiều cách khác nhau để đo tương đồng, chẳng hạn như khoảng cách euclidean, khoảng cách manhattan, và tương quan.

● Cụm: Cụm là một nhóm các đối tượng có sự tương đồng cao Các phương pháp phân cụm dữ liệu có thể được chia thành hai loại chính:

-Phương pháp phân hoạch: Phương pháp này bắt đầu bằng việc gán mỗi đối tượng vào một cụm của riêng nó Sau đó, các cụm được hợp nhất hoặc tách ra cho đến khi đạt được một số tiêu chí nhất định

-Phương pháp phân cấp: Phương pháp này bắt đầu bằng việc gộp tất cả các đối tượng thành một cụm Sau đó, các cụm được chia nhỏ thành các cụm nhỏ hơn cho đến khi đạt được một số tiêu chí nhất định

2.3.3.1 K- Means:

Là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác định trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid ) là nhỏ nhất

Các bước của thuật toán K-means như sau:

1 Chọn ngẫu nhiên k điểm dữ liệu làm tâm cụm ban đầu 2 Gán mỗi điểm dữ liệu cho cụm có tâm gần nhất

3 Cập nhật lại tâm cụm cho mỗi cụm bằng cách tính trung bình của các điểm dữ liệu trong cụm đó

4 Lặp lại các bước 2 và 3 cho đến khi tâm cụm không thay đổi nữa

Để tính khoảng cách trọng tâm (centroid) chúng ta có thể sử dụng các khoảng cách Euclidean, Weighted Euclidean, Minkowski, Manhattan nhưng phổ biến nhất vẫn là Euclidean

- Phương pháp đánh giá phân cụm Silhouette index: nằm trong khoảng [-1,1] Trong đó,

Trang 23

2 ● S ≥ 0.5 : Sát thực tế i

● 0.25 ≤ S < 0.5 : cần đánh giá lại (Theo kinh nghiệm của chuyên gia) i

● S < 0.25: Không tin tưởng vào cluster, tìm phương pháp đánh giá khác i

2.3.3.2 Hierarchical clustering:

Là một thuật toán học máy không giám sát được sử dụng để nhóm các đối tượng tương tự thành các cụm Nó tạo ra một phân cấp các cụm bằng cách hợp nhất hoặc chia chúng dựa trên các phép đo tương tự Hierarchical clustering nhóm các đối tượng tương tự thành một cây phân cấp

Hierarchical clustering có thể được chia thành hai loại:

● Hierarchical clustering kết hợp: Phương pháp này bắt đầu bằng cách coi mỗi quan sát là một cụm riêng biệt Sau đó, nó liên tục hợp nhất hai cụm gần nhất với nhau Quá trình này tiếp tục cho đến khi tất cả các cụm được hợp nhất thành một cụm duy nhất.

● Hierarchical clustering phân chia: Phương pháp này bắt đầu bằng cách coi tất cả các quan sát trong một cụm duy nhất Sau đó, nó liên tục chia cụm lớn nhất thành hai cụm nhỏ hơn Quá trình này tiếp tục cho đến khi mỗi cụm chỉ chứa một quan sát duy nhất.

Phương pháp hierarchical clustering kết hợp là loại hierarchical clustering phổ biến nhất Nó tương đối đơn giản để triển khai và có thể được áp dụng cho nhiều loại dữ liệu Để thực hiện hierarchical clustering kết hợp, các bước sau thường được thực hiện:

1 Chọn phép đo tương tự Phép đo tương tự được sử dụng để tính khoảng cách giữa các cặp quan sát Các phép đo tương tự phổ biến bao gồm khoảng cách Euclide, khoảng cách Manhattan và độ tương tự cosine.

2 Xây dựng ma trận khoảng cách Ma trận khoảng cách là ma trận vuông chứa các khoảng cách giữa tất cả các cặp quan sát.

Trang 24

3 Hợp nhất hai cụm gần nhất Hai cụm gần nhất được xác định bằng cách tìm cặp quan sát có khoảng cách nhỏ nhất Hai cụm sau đó được hợp nhất thành một cụm

2.3.4 Ứng dụng của phân cụm dữ liệu:

Phân cụm dữ liệu có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm: ● Tìm kiếm các mẫu và xu hướng trong dữ liệu: Phân cụm dữ liệu có thể được sử

dụng để tìm kiếm các mẫu và xu hướng trong dữ liệu mà không cần biết trước về các mẫu và xu hướng đó.

● Tối ưu hóa dữ liệu: Phân cụm dữ liệu có thể được sử dụng để tối ưu hóa dữ liệu bằng cách nhóm các dữ liệu cùng loại lại với nhau.

● Giải quyết các vấn đề phân loại: Phân cụm dữ liệu có thể được sử dụng để phân loại dữ liệu bằng cách sử dụng các cụm làm lớp

CHƯƠNG 3: KẾT QUẢ NGHIÊN CỨU 3.1 Phân cụm dữ liệu chưa có nhãn

Để có một góc nhìn đầy đủ hơn về cách thức một công ty bảo hiểm vận hành, hãy cùng xem xét một bảng dữ liệu mẫu sau đây, số liệu lấy từ một công ty bảo hiểm có trụ sở tại Mỹ

Dữ liệu gồm 1338 cá nhân, 7 thuộc tính - Ý nghĩa chỉ số :

+ Age : tuổi người mua bảo hiểm

+Sex : giới tính người mua bảo hiểm (nữ=0, nam =1) + BMI : chỉ số cơ thể

+Children : Số đứa trẻ / phụ thuộc người mua bảo hiểm

+Smoker : người mua bảo hiểm có hút thuốc hay không ( hút thuốc =1, không hút thuốc =0)

Trang 25

+ Region : khu vực người mua bảo hiểm sinh sống (đông bắc=0, tây bắc=1, đông nam=2, tây nam=3)

+ Charges : chi phí y tế cá nhân do bảo hiểm y tế thanh toán( được chi trả =1, không Nguồn: nhóm tác giả thực hiện trên Orange

-Theo phương pháp K-means, được phân ra làm 6 cụm có các chỉ số Silhouette của 9 cụm lần lượt là 0,231; 0,181; 0,193;0,185; 0,179 Dựa vào kết quả trên, ta thấy ở cụm 2 và cụm 4 có kết quả tương đối tốt, chúng ta sẽ đánh giá và lựa chọn cụm 2 hay cụm 4

Trang 26

Hình 3.2 phương pháp silhousette phân 2 cụm Nguồn: nhóm tác giả thực hiện trên Orange

Dựa theo kết quả phân cụm (2 cụm), C1 gồm 1070 người mua bảo hiểm và C2 gồm 268 người mua bảo hiểm Ta thấy ở cụm 1 có khoảng 56 dữ liệu <0,4 và các chỉ số còn lại nằm trong đoạn [0,4;0,85], cụm 2 có khoảng 70 dữ liệu < 0,4 và các chỉ số còn lại nằm trong đoạn [0,4;0,7] Nhìn chung kết quả ở cụm 2 chưa hiệu quả do chỉ só Silhouette chiếm 26,12% Tiếp theo tiến hành quan sát chỉ số Silhouette khi phân ra 4 cụm :

Trang 27

Hình 3.3 Silhouette phân 4 cụm

Hình 3.4 Silhouette phân 4 cụm

Trang 28

Dựa vào hình trên, kết quả phân ra 4 cụm, C1 có 158 người mua bảo hiểm, C2 có 346 người mua bảo hiểm, C3 có 429 người mua bảo hiểm, C4 có 405 người mua bảo hiểm Các chỉ số silhouette ở cụm 2 và cụm 4 tương đối thấp ( dưới 0,4 ) Ở cụm 1 các chỉ số đa số nằm trên mức 0,5; có khoảng 7 dữ liệu <0,5 Cụm 3 có khoảng 120 dữ liệu < 0,4, các chỉ số còn lại nằm trong khoảng ( 0,4;0,57)

Suy ra, ở phương pháp K-means phân 2 cụm cho ta kết quả tốt nhất, với C1 gồm 1070 người mua bảo hiểm và C2 gồm 268 người mua bảo hiểm, chỉ số silhouette là 0,231

Hình 3.5 Khoảng cách ước tính Nguồn: nhóm tác giả thực hiện trên Orange

Để bắt đầu sử dụng phương pháp này chúng ta cần tính khoảng cách ước tính, chúng ta dùng khoảng cách Euclidean (normalized) Sau khi thiết lập ta dùng các phương pháp đo lường khác nhau để tìm đâu là cụm phù hợp nhất

Phương pháp Single :

Trang 29

Hình 3.6 Phương pháp Linkage single

Phương pháp này phân được 2 cụm, quan sát ta thấy được C2 chiếm đa số trong khi đó C1 chiếm số ít không đáng kể Nhìn vào hình 7 ta thấy các chỉ số của phương pháp Single nằm trong khoảng (-1;0,3), ở cụm 1 chúng ta không thể quan sát được trên Silhouette plot, cụm 2 cho các chỉ số silhouette yếu Như vậy phương pháp đo lường single không phù hợp với bộ dữ liệu này

Trang 30

Hình 3.7 Silhouette phương pháp single - Phương pháp Average :

Hình 3.8 : Phương pháp average

Ngày đăng: 12/04/2024, 09:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w