Đề tài ứng dụng khoa học dữ liệu vào dự đoán khả năng khách hàng dừng sử dụng của một công ty viễn thông

37 0 0
Đề tài ứng dụng khoa học dữ liệu  vào dự đoán khả năng khách hàng dừng sử dụng của một công ty viễn thông

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Để đánh giá hiệu quả của mô hình dự báo, đề tài sẽ sử dụng các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu,..Phương pháp thực hiệnPhương pháp nghiên cứu: Phương pháp thu thập dữ liệu:

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH

Thành phố Hồ Chí Minh, 29 tháng 10 năm2023

Trang 2

STTHỌ VÀ TÊNNHI!M VỤĐÁNH GIÁ

1 Hồ Ngọc Giàu Cơ sở lý thuyết, kết luận

và tổng hợp trên word 100%

2 Lê Thảo Uyên Cơ sở lý thuyết, kết luận

và tổng hợp trên word 100%

3 Lê Nguyễn Uyên Trang Tìm bộ dữ liệu, mô tả các biến, xử lí dữ liệu trên Orange, Excel, nhận xét

4 Trần Thị Như Yến Tìm bộ dữ liệu, mô tả các biến, xử lí dữ liệu trên Orange, Excel, nhận xét

100%

Trang 3

4.3 Các phương pháp đánh giá mố hình phân l p :ớ 18

III Mô hình nghiên cứu đề xuất 20

Trang 4

L4I M5 Đ6U

Hiện nay, sự bùng nổ của ngành công nghệ - thông tin khiến kho dữ liệu của các hệ thống thông tin quản lý tăng lên một cách không kiểm soát Luồng thông tin chuyển tải trên thế giới được ước tính tăng gấp đôi cứ khoảng 20 tháng Trước tình hình bùng nổ thông tin đang diễn ra, những người ra quyết định trong các tổ chức tài chính, ngân hàng, thương mại, công nghệ thông tin, y tế, giáo dục, đều muốn thu thập, lưu trữ những thông tin chứa đựng các giá trị tiềm ẩn cần được phát hiện Việc xử lý dữ liệu quá lớn cần được thực hiện nhanh chóng, triệt để thông qua các phần mềm, các ứng dụng để nâng cao năng suất làm việc Đó chính là tiền đề cho sự ra đời kỹ thuật khai phá dữ liệu (Data Mining), khi nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân tích dữ liệu, … đòi hỏi kỹ thuật xử lý ngày càng thông minh và hiệu quả Khai phá dữ liệu cho phép người sử dụng phân tích dữ liệu với nhiều góc độ khác nhau, phân loại dữ liệu theo nhiều quan điểm riêng biệt, từ đó, tổng kết các mối quan hệ đã được bóc tách Nhờ đó, chúng ta có khả năng khai thác những tri thức hữu dụng, cần thiết từ kho dữ liệu khổng lồ

Trong thời đại công nghệ thông tin phát triển như hiện nay, các dịch vụ viễn thông ngày càng trở nên phổ biến và cạnh tranh gay gắt Để giữ chân khách hàng, các công ty viễn thông cần có những chiến lược tiếp thị và chăm sóc khách hàng hiệu quả Một trong những chiến lược quan trọng đó là dự báo khả năng khách hàng rời mạng Vì vậy để nhận biết sớm những khách hàng có nguy cơ rời mạng, từ đó có các biện pháp chăm sóc và giữ chân khách hàng kịp thời Trong tiểu luận này, chúng ta sẽ tìm hiểu về các phương pháp dự báo khả năng khách hàng rời mạng bằng khoa học dữ liệu Cụ thể, chúng ta sẽ phân tích đề tài nghiên cứu: “Ứng dụng khoa học dữ liệu vào dự đoán khả năng khách hàng dừng sử dụng của một công ty viễn thông”

Trang 5

DANH MỤC ẢNH

Hình 1: Bảng thống kê mô tả các biến khảo sát của dữ liệu gốc Hình 2: Type và Role ban đầu của các thuộc tính

Hình 3: Kết quà thực hiện điều chỉnh Role cho biến đầu ra Churn Hình 4: Kết quả đánh giá các thuộc tính trong Rank

Hình 5: Các biến sau khi đánh giá các thuộc tính trong Rank Hình 6: Bảng thể hiện các thao tác trong phần tiền xử lý dữ liệu Hình 7: Phân cụm theo linkage Single

Hình 8: Phân cụm theo linkage Average Hình 9 Phân cụm theo linkage Weighted Hình 10: Phân cụm theo linkage Completed Hình 11: Phân cụm theo linkage Ward

Hình 12: Chỉ số SI của linkage Completed – phương pháp Hierarchical Clustering

Hình 13: Bảng phân tích k-Means cho bộ dữ liệu Hình 14: Bảng Silhouette Plot cho 2 phân cụm phân hoạch

Hình 15: Kết quả thu được từ Pivot Table của phương pháp Hierarchical Hình 16: Kết quả thu được từ Pivot Table của phương pháp k-Means Hình 17 Chuỗi thao tác phân cụm dữ liệu

Trang 6

I Giới thiệu bài toán ứng dụng:

Lí do chọn đề tài

Ngày nay, các kỹ thuật KPDL đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực đời sống, kinh tế xã hội ở các nước trên thế giới, nhưng còn khá mới mẻ tại Việt Nam Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật này vào hoạt động sản xuất kinh doanh của mình và thu được những lợi ích đáng kể Vào những năm gần đây, nước ta cũng dần chấp nhận và đưa nó vào sử dụng.

Thị trường viễn thông Việt Nam đang cạnh tranh khá cao, việc giữ chân khách hàng là một thách thức lớn đối với các công ty viễn thông Dự báo khả năng khách hàng rời mạng là một công cụ hữu ích giúp các công ty viễn thông nhận biết sớm những khách hàng có nguy cơ rời mạng, từ đó có các biện pháp chăm sóc và giữ chân khách hàng kịp thời Đề tài này có tính ứng dụng cao trong thực tế, phù hợp với xu hướng phát triển của ngành viễn thông, có thể giúp các sinh viên khoa học dữ liệu hiểu được cách áp dụng các kỹ thuật khoa học dữ liệu để giải quyết các bài toán thực tế, có tính khoa học cao, đòi hỏi sinh viên phải có kiến thức và kỹ năng về khoa học dữ liệu, giúp sinh viên nâng cao kiến thức và kỹ năng về khoa học dữ liệu, đáp ứng yêu cầu của thị trường lao động.

Mục tiêu nghiên cứu

Nghiên cứu các yếu tố ảnh hưởng đến khả năng rời mạng của khách hàng viễn thông Nghiên cứu này sẽ phân tích các yếu tố về nhân khẩu học, hành vi sử dụng dịch vụ, mức độ hài lòng của khách hàng, để xác định những yếu tố có ảnh hưởng đến khả năng rời mạng của khách hàng.

Xây dựng mô hình dự báo khả năng rời mạng bằng các kỹ thuật học máy Dựa trên các yếu tố ảnh hưởng đến khả năng rời mạng đã xác định được, đề tài sẽ xây dựng mô hình dự báo khả năng rời mạng bằng các kỹ thuật học máy như hồi quy logistic, cây quyết định,

Trang 7

Đánh giá hiệu quả của mô hình dự báo Để đánh giá hiệu quả của mô hình dự báo, đề tài sẽ sử dụng các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu,

Phương pháp thực hiện

Phương pháp nghiên cứu:

 Phương pháp thu thập dữ liệu:

o Nhóm tác giả đã thu thập dữ liệu từ nguồn kaggle.com, một nguồn dữ liệu đáng tin cậy.

o Dữ liệu gốc được xử lý bằng phần mềm Excel và trực quan hóa qua các biểu đồ.

 Phương pháp nghiên cứu lý luận:

o Tiến hành tìm hiểu, thu thập, chắt lọc và phân tích các dữ liệu, thông tin thông qua đọc sách báo, tài liệu.

o Bao gồm các phương pháp sau:

 Phương pháp phân tích – tổng hợp lý thuyết: đọc và tổng hợp các tài liệu để rút ra nội dung cần thiết.

 Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên lý thuyết và kiểm định tính chính xác của mô hình.

 Phương pháp nghiên cứu thực tiễn:

o Từ cơ sở lý luận, tiến hành nghiên cứu thực tiễn bằng các thuật toán trong KPDL và phần mềm Orange.

o Xây dựng các mô hình dự báo dựa trên bộ dữ liệu huấn luyện có sẵn và so sánh kết quả để lựa chọn mô hình phù hợp nhất.

Từ đó, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánh các kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất nhằm giúp các công ty viễn thông có các biện pháp chăm sóc và dữ chân khách hàng kịp thời.

Trang 8

II Tổng quan về phương pháp sử dụng

1 Tiền xử lý dữ liệu

Tiền xử lý dữ liệu (Data preprocessing), là một trong những yếu tố quan trọng, cần thiết trong quá trình khai phá và phân tích các dữ liệu Nhiệm vụ của quá trình tiền xử lý dữ liệu là lấy dữ liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng dữ liệu (quality of the data), chuyển đổi thành dạng mà máy tính hiểu và có khả năng phân tích được Do đó, có thể hoàn thiện được yêu cầu của kết quả khai thác Khi dữ liệu được tiền xử lý và dọn sạch đúng cách, các quy trình tiếp theo sẽ hoạt động có hiệu quả và chuẩn xác hơn rất nhiều Quá trình tiền xử lí dữ liệu gồm: Làm sạch dữ liệu (Data cleaning), Tích hợp dữ liệu (Data integration), chuyển đổi dữ liệu (Data transformation) và rút gọn dữ liệu (Data reduction).

a Làm sạch dữ liệu (Data cleaning/Cleansing)

Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách chỉnh sửa như: thêm dữ liệu thiếu, sửa chửa hoặc loại bỏ những thông tin hay dữ liệu không liên quan hay không chính xác ra khỏi tập dữ liệu để tránh gây sai lệch về kết quả và dẫn đến những yếu tố, quyết định không thực tế và sai lầm Quá trình làm sạch dữ liệu bao gồm: Tóm tắt hoá dữ liệu, xử lý dữ liệu bị thiếu (missing data) và xử lý dữ liệu bị nhiễu (noisy data).

- Tóm tắt hoá dữ liệu:

+ Nhiệm vụ của tóm tắt hoá dữ liệu là xác định các thuộc tính (properties) tiêu biểu của dữ liệu về:

● Xu hướng chính (central tendency): các độ đo về xu hướng chính: mean, median, mode, midrange,

● Sự phân tán (dispersion): các độ đo về sự phân tán: quartiles, interquartile range (IQR), variance.

+ Bên cạnh đó, tóm tắt hoá dữ liệu còn có thể phát hiện được dữ liệu nổi bật/hiếm như: xác định nhiễu (noise), phần tử biên (outliers) và cung cấp cái nhìn cụ thể về dữ liệu.

- Xử lý dữ liệu bị thiếu (missing data): + Bỏ qua những bộ bị thiếu giá trị

+ Xử lý tay: có thể xử lý không tự động hoặc bán tự động

+ Sử dụng các giá trị thay thế hoặc tự động như: hằng số toàn cục, trị phổ biến nhất, trung bình toàn cục, trung bình cục bộ, trị dự đoán,

Trang 9

+ Phòng tránh dữ liệu bị thiếu: có thể giảm thiểu và tránh được tình trạng bị thiếu dữ liệu bằng cách thiết kế, bảo đảm tốt CSDL và các thủ tục nhập liệu (các ràng buộc dữ liệu).

- Xử lý dữ liệu bị nhiễu (noisy data):

+ Xử lý dữ liệu bị nhiễu (noisy data) bao gồm: giảm thiểu nhiễu (noisy data) và nhận diện phần tử biên (outliers) - phần tử không tuân thủ theo những đặc tính hay hành vi chung của đối tượng hay tập dữ liệu - Phân giỏ (binning)

- Hồi quy (regression)

- Phân tích cụm (cluster analysis)

- Phân bố thống kê (statistical distribution-based)

- Khoảng cách (distance-based) - Mật độ (density-based) - Độ lệch (deviation-based) - Xử lý dữ liệu không nhất quán:

+ Dữ liệu không nhất quán là dữ liệu được ghi nhận khác nhau cho cùng một đối tượng hay thực thể; hay không phản ánh đúng ngữ nghĩa cho các đối tượng hoặc thực thể.

+ Các giải pháp xử lý dữ liệu không nhất quán gồm:

● Nhận thấy lợi ích của siêu dữ liệu và ràng buộc các dữ liệu, hay sự kiểm tra từ các nhà phân tích dữ liệu cho việc nhận diện các dữ liệu không nhất quán.

● Điều chỉnh, kiểm soát và kiểm tra các dữ liệu không nhất quán bằng tay ● Sử dụng các giải pháp biến đổi hay chuẩn hoá các dữ liệu tự động.

b Tích hợp dữ liệu (Data integration)

Tích hợp dữ liệu (Data integration) là trộn dữ liệu (merge data) từ nhiều nguồn khác nhau vào một kho dữ liệu

Tích hợp dữ liệu (Data integration) gồm: - Vấn đề dạng thực thể:

+ Các thực thể (object/entity/attribute) đến từ nhiều nguồn dữ liệu khác nhau, và hai hay nhiều hơn hai thực thể thực khác nhau trở lên thì cùng diễn tả cùng một thực thể thực.

Trang 10

+ Gồm Tích hợp lược đồ (schema integration) và so trùng đối tượng (object matching).

- Vấn đề dư thừa (redundancy):

+ Hiện tượng của vấn đề dư thừa: giá trị của một thuộc tính có thể được trích ra từ một hay nhiều thuộc tính khác, làm trùng lắp.

+ Nguyên nhân: tổ chức dữ liệu kém, không hiệu quả và không nhất quán với nhau trong việc đặt tên chiều hoặc thuộc tính.

+ Cách phát hiện ra vấn đề dư thừa: phân tích tương quan (correlation analysis).

- Phát hiện và xử lí mẫu thuẫn giá trị dữ liệu:

+ Dù cùng một thực thể thật, nhưng các giá trị thuộc tính đến từ các nguồn dữ liệu khác nhau thì có thể gây ra sự khác nhau về cách biểu diễn (representation), đo lường (scaling) và mã hoá (encoding).

c Chuyển đổi dữ liệu (Data transformation)

Việc chuyển đổi dữ liệu (Data transformation) sẽ bắt đầu quá trình biến dữ liệu trở thành những định dạng phù hợp cho việc phân tích và tiến hành các bước quy trình kế tiếp Chuyển đổi dữ liệu gồm:

- Làm trơn dữ liệu (smoothing):

+ Có thể làm trơn dữ liệu bằng các phương pháp: Các phương pháp binning (bin means, bin medians, bin boundaries); Hồi quy (Regression); Các kĩ thuật gom cụm (phân tích phần tử biên); Các phương pháp rời rạc hoá những dữ liệu.

- Kết hợp dữ liệu (aggregation):

+ Kết hợp dữ liệu gồm các tác vụ kết hợp hay tóm tắt dữ liệu

+ Có thể chuyển đổi dữ liệu từ mức chi tiết này sang nguồn dữ liệu ở mức chi tiết kém hơn.

+ Mục đích nhằm giúp đỡ và cải thiện việc phân tích những dữ liệu ở nhiều độ mịn có thời điểm khác nhau.

- Tổng quát hoá dữ liệu (generalization):

+ Từ việc phân cấp những ý niệm, có thể chuyển các dữ liệu cấp thấp, dữ liệu nguyên tố hay dữ liệu thô thành các khái niệm ở bậc cao hơn.

- Chuẩn hoá dữ liệu (normalization):

+ Với một miền giá trị được định nghĩa hoặc xác định từ trước, thì các giá trị thuộc tính sẽ được chuyển đổi vào.

- Xây dựng thuộc tính (attribute/future construction):

+ Từ các tập thuộc tính đã có sẵn, các thuộc tính mới sẽ được xây dựng và thêm vào.

Trang 11

+ Việc xây dựng thuộc tính giúp hỗ trợ kiểm tra, bảo đảm và hiểu được cấu trúc của nguồn dữ liệu có đa dạng chiều Bên cạnh đó, xây dựng thuộc tính giúp phát hiện ra những thông tin sai lệch, không chính xác giữa quan hệ của những thuộc tính dữ liệu.

d Rút gọn dữ liệu (Data reduction)

Rút gọn dữ liệu (Data reduction) là việc giảm kích thước dữ liệu (hay giảm số phần tử) bằng cách kết hợp những phương pháp như: kết hợp dữ liệu (data 1

Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa có nhãn

2 Phân cụm dữ liệu

Clustering đươc ứng dụng phổ biến trong nhiều ngành, nhiều lĩnh vực như ngân hàng, thương mại, sinh học, y học,…

a Đặc điểm

Việc xây dựng, lựa chọn phân cụm là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu.

Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì không có bất cứ nhãn nào trong cụm

Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:

- Độ tương đồng bên trong cụm cao

- Độ tương tự giữa các cụm thấp (khác biệt cao) Các ứng dụng điển hình:

- Công cụ phân cụm dữ liệu độc lập.

- Là giai đoạn tiền xử lý cho các thuật toán khác

Trang 12

b Độ đo phân cụm

Được sử dụng làm tiêu chí nhằm tính toán sự tương đồng/sai biệt giữa các đối tượng dữ liệu nhằm phục vụ cho quá trình gom cụm.

Dựa trên các kết nối giữa các đối tượng và

Dựa trên cấu trúc độ chi tiết nhiều cấp

STING, Wave Cluster, CLIQUE.

Dựa trên mô hình (Modelbased)

Dựa trên cấu trúc độ chi tiết nhiều cấp

EM, SOM, COBWEB - Phân cụm phân cấp (Hierarchical approach hay HAC):

Trang 13

+ Phân cụm phân cấp sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy.

+ Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên: ● Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc

dissimilarity matrix)

● Độ đo khoảng cách giữa các cụm (single link, complete link… + Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng.

+ Các phương pháp điển hình: Diana, Agnes…

● Agglomerative (hay AGNES): Trên thực tế, đây là phương pháp được sử dụng phổ biến Agglomerative sử dụng chiến lược Bottom up (từ dưới lên), nghĩa là quá trình phân cụm bắt đầu ở dưới cùng tại các node lá.Với phương pháp này, ban đầu mỗi quan sát là một cụm đơn lẻ của riêng nó Sau đó trong các bước tiếp theo, hai cụm nhỏ ở gần nhau nhất sẽ tập hợp lại thành một cụm lớn hơn, số lượng cụm ở tập dữ liệu sẽ giảm đi một ở mỗi bước Quá trình này tiếp diễn đến khi tất cả các cụm nhỏ tập hợp lại một cụm lớn duy nhất.

● Divisive (hay DIANA): Ngược lại với AGNES, phương pháp này sử dụng chiến lược Top down (từ trên xuống), nghĩa là phân chia bắt đầu từ node gốc của đồ thị Với phương pháp này, ban đầu tất cả các quan sát cùng nằm trong một cụm lớn, các quan sát khác nhau nhất sẽ được phân tách ra theo phương pháp đệ quy (Recursive) thành một cụm riêng biệt Quá trình này tiếp diễn đến khi mỗi quan sát tách ra thành một cụm đại diện cho riêng nó + Một số phương pháp tính khoảng cách:

● Liên kết đơn (Linkage Single): Phương pháp này đo lường sự khác biệt giữa hai cụm bằng cách lấy ra cặp điểm gần nhất giữa hai cụm, được tính theo công thức:

● Liên kết hoàn chỉnh (Linkage Complete): ngược với phương pháp liên kết đơn, sự khác biệt giữa hai cụm được đo lường bằng cách lấy ra hai cặp điểm xa nhau nhất giữa hai cụm

Trang 14

● Liên kết trung bình (Linkage Average): Phương pháp này sẽ lấy trung bình toàn bộ khoảng cách giữa các cặp điểm được lấy từ hai cụm Chúng ta sẽ có tổng cộng N1N2 cặp điểm Như vậy khoảng cách sẽ được tính bằng:

● Phương pháp Ward Linkage: Phương pháp này đo lường khoảng cách giữa hai tâm cụm thông qua sự suy giảm phương sai Tức là việc phân cụm sẽ được coi là hợp lý nếu như sau khi phân cụm thì phương sai giảm một giá trị lớn Phương pháp này chỉ được sử dụng trong điều kiện giả định các quan sát nằm trong không gian Euclidean

- Phân cụm phân hoạch (Partitioning Clustering)

+ Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm.

+ Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho:

● Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau.

● Mỗi cụm có ít nhất 1 phần tử.

+ Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means ● Thuật K- means

Input: Tập các đối tượng số liệu và số cụm K

Output: Các cụm C ( i= ) và hàm mục tiêu được tối ưu.1

Bước 1 : Khởi tạo các cụm: Chọn k trọng tâm (m =1 ban đầu trong không gianj)kj

Rd ( d là số chiều của dữ liệu) là ngẫu nhiên.

Bước 2: Tính toán khoảng cách: Đối với mỗi điểm X ( 1<= I <= n ), tính toán i

khoảng cách của nó tới mỗi trọng tâm m j=1,k Và sau đó tìm trọng tâm gần j

nhất đối với mỗi điểm.

Bước 3: Cập nhật lại trọng tâm: Đối với mỗi j=1, k, cập nhật trọng tâm cụm mj

bằng cách xác định trung bình cộng của các vectơ đối tượng dữ liệu

Bước 4 : Lặp cho đến khi hội tụ: Lặp lại bước 2 và bước 3 cho đến khi các trọng tâm của cụm không đổi.

Trang 15

+ Hai thước đo đánh giá phổ biến nhất : Hệ số Sihouette và chỉ số DUNN’S Index

+ Nguyên tắc đánh giá (theo kinh nghiệm của các tác giả trong tài liệu “Data mining and Predictive analytics” của nhà xuất bản Wiley): Chỉ số Silhouette index nằm trong khoảng từ -1 đến 1, giá trị này càng lớn (càng tiến gần đến 1) thì kết quả phân cụm càng đáng tin cậy, được phân làm các giá trị sau:

● Silhouette index 0,5 : sát thực tế

● 0,25 Silhouette index 0,5 : cần đánh giá lại

● Silhouette index 0,25 :không tin tưởng và cluster, tìm phương pháp đánh giá khác.

4 Phân lớp dữ liệu4.1 Định nghĩa :

Quá trình “ phân lớp dữ liệu chính “ là quá trình gán nhãn cho đối tượng dữ liệu Đây là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó với mục đích dự đoán được tên lớp của những phần tử mới dựa vào những đặc điểm của nó.

Như vậy, nhiệm vụ của bài toán phân lớp dữ liệu là cần xây dựng mô hình (bộ) phân lớp để khi có một dữ liệu mới vào thì mô hình phân lớp sẽ cho biết dữ liệu đó thuộc lớp nào Có nhiều bài toán phân lớp dữ liệu, như phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị,

Quá trình phân lớp dữ liệu gồm 2 bước chính:

Bước 1: Xây dựng mô hình ( giai đoạn “học” / “huấn luyện” )

Trang 16

Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý có cấu trúc được mô tả bằng các thuộc tính và được tạo ra bằng các tập có bộ giá trị của các thuộc tính đó

Dữ liệu đầu vào ra: là mô hình phân lớp đã được huấn luyện thông qua các thuật toán phân lớp: cây quyết định, …

Bước 2: Sử dụng mô hình:

• 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình) Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quá vừa” dữ liệu

• 2.2: Phân lớp dữ liệu mới

Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện.

4.2 Một số phương pháp phân lớp dữ liệu:

- Hồi quy Logistic (Logistic Regression):

Mục đích của hồi qui Logistic là tìm kiếm một đường biên phân chia tốt nhất các nhóm giữa liệu để giải quyết bài toán phân loại nhị phân giữa hai nhóm 0 và 1 Phương pháp thống kê được sử dụng để mô hình hóa và dự đoán xác suất xảy ra của một biến phụ thuộc nhị phân dựa trên các biến độc lập cho trước - Cây quyết định (Decision tree):

Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước Cây quyết định là một trong những mô hình phân cấp có cấu trúc có khả năng diễn giải cao và có thể thực hiện cả nhiệm vụ phân loại và hồi quy dựa vào dãy các quy luật thu được từ dữ liệu về các đối tượng cho trước gồm các thuộc tính cùng với lớp của nó - SVM (Super vector support):

SVM nhận và xem dữ liệu dưới dạng những vector trong không gian và phân loại vào các lớp khác nhau bằng cách xây dựng một siêu phẳng (hyperplane) trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu Để kết quả phân lớp tối ưu thì siêu phẳng phải có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể Nhờ vậy, SVM có thể giảm thiểu

việc phân lớp sai (misclassification) đối với điểm dữ liệu mới đưa vào.

Trang 17

4.3 Các phương pháp đánh giá mô hình phân lớp :

Để quyết định một mô hình có phù hợp và đáng tin cậy để sử dụng hay không cần thông qua hành động kiểm tra tính hiệu quả, tính đúng đắn của mô hình bằng những phương pháp cụ thể Mô hình lý tưởng hướng tới là một mô hình không quá đơn giản hay quá phức tạp và không quá nhạy cảm với nhiễu (tránh trường hợp underfitting và overfitting).

4.3.1 Ma trận nhầm lẫn (Confusion matrix): ): là ma trận có kích thước k x

k với k là số lượng lớp của dữ liệu, giúp chỉ ra có bao nhiêu điểm dữ liệu

thực sự thuộc vào một lớp cụ thể, và được dự đoán là thuộc vào lớp nào.

Nó đại diện điểm trên ma trận 2 chiều bao gồm :Thực tế và Dự đoán.

True Positive (TP): Các giá trị thực sự Positive và được dự đoán là Positive.True Negative (TN): Các giá trị thực sự Negative và được dự đoán là Negative.False Positive (FP): Các giá trị thực sự là Negative nhưng được dự đoán sai là

Positive Còn được gọi là Sai lầm loại I.

False Negative (FN): Các giá trị thực sự là Positive nhưng được dự đoán sai là

Negative Còn được gọi Sai lầm loại II Một số chỉ số (metrics) liên quan:

+ Tính chính xác (Accuracy): Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu là số liệu tiêu chuẩn để đánh giá mô hình Machine Learning Classification techniques:

=> => là độ lỗi của mô hình

Trang 18

+ Độ chính xác (Precision): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng kiểm tra xem có bao nhiêu kết quả thực sự là kết quả tích cực trong tổng số các kết quả được dự đoán tích cực.

Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate) là biện pháp để kiểm tra các kết quả dự đoán tích cực chính xác trong tổng số các kết quả tích cực.

+ F1-score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và Recall

F1có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall F1sẽ có giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn

4.3.2 ROC và AUC:

+ ROC (Receiver Operating Characteristic):

Là một đường cong được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) ở các ngưỡng khác nhau Mô hình hiệu quả là mô hình có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị.

+ AUC (Area Under the Curve):

Là phần diện tích nằm dưới đường cong ROC Có giá trị dương nhỏ hơn hoặc bằng 1 Giá trị này càng lớn thì chất lượng mô hình càng tốt.

III Mô hình nghiên cứu đề xuất

Nhóm sử dụng bộ dữ liệu “Logisticregression telecomCustomer

churmprediction” của một công ty viễn thông để xây dựng mô hình phân loại có thể dự đoánkhả năng khách hàng rời bỏ công ty

1 Biến độc lập:

customerID : Mã số khách hàng: Ứng với mỗi khách hàng sẽ có một ID khác nhau để nhận dạng

tenure : Thời gian khách hàng sử dụng dịch vụ ( tính bằng tháng )

Contract : Hợp đồng : Dựa trên cơ sở hàng tháng ( month to month ) hoặc theo năm ( one year, two years )

PaperlessBilling: Yes nếu thanh toán không cần giấy tờ, No nếu thanh toán không cần giấy tờ

Ngày đăng: 08/04/2024, 08:02

Tài liệu cùng người dùng

Tài liệu liên quan