Để đánh giá hiệu quả của mô hình dự báo, đề tài sẽ sử dụng các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu,..Phương pháp thực hiệnPhương pháp nghiên cứu: Phương pháp thu thập dữ liệu:
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH
Thành phố Hồ Chí Minh, 29 tháng 10 năm
2023
Trang 2STT HỌ VÀ TÊN NHI!M VỤ ĐÁNH GIÁ
1 Hồ Ngọc Giàu Cơ sở lý thuyết, kết luận
và tổng hợp trên word 100%
2 Lê Thảo Uyên Cơ sở lý thuyết, kết luận
và tổng hợp trên word 100%
3 Lê Nguyễn Uyên Trang Tìm bộ dữ liệu, mô tả các
biến, xử lí dữ liệu trên Orange, Excel, nhận xét
100%
4 Trần Thị Như Yến Tìm bộ dữ liệu, mô tả các
biến, xử lí dữ liệu trên Orange, Excel, nhận xét
100%
Trang 3Mục Lục
L4I M5 Đ6U 5
DANH MỤC ẢNH 6
I Giới thiệu bài toán ứng dụng: 7
Lí do ch n đềề tài ọ 7
M c tiều nghiền c u ụ ứ 7
Ph ươ ng pháp th c hi n ự ệ 8
II Tổng quan về phương pháp sử dụng 9
1 Tiềền x lý d li u ử ữ ệ 9
2 Phân c m d li u ụ ữ ệ 12
4 Phân l p d li u ớ ữ ệ 16
4.1 Đ nh nghĩa :ị 16
4.2 M t sốố phộ ương pháp phân l p d li u:ớ ữ ệ 17
4.3 Các phương pháp đánh giá mố hình phân l p : ớ 18
III Mô hình nghiên cứu đề xuất 20
1 Biềến đ c l p ộ ậ 20
2 Biềến ph thu c ụ ộ 20
IV Kết quả thực hiện 20
1 Tiềền x lí ử 20
2 Phân c m d li u ụ ữ ệ 25
2.1 Phương pháp Hierarchical clustering 25
2.2 Phương pháp K-mean 28
2.3 So sánh v i d li u nhãn sẵẵn ban đâầu, nh n xét:ớ ữ ệ ậ 30
3 Phân l p d li u ớ ữ ệ 32
3.1 Xây d ng mố hình phân l pự ớ 32
3.2 Đánh giá mố hình phân l p ớ 32
3.3 D báo:ự 36
3.4 Ki m tra m c đ chính xác c a kếốt qu d báoể ứ ộ ủ ả ự 38
TÀI LI!U THAM KHẢO 39
Trang 4L4I M5 Đ6U
Hiện nay, sự bùng nổ của ngành công nghệ - thông tin khiến kho dữ liệu của các hệ thống thông tin quản lý tăng lên một cách không kiểm soát Luồng thông tin chuyển tải trên thế giới được ước tính tăng gấp đôi cứ khoảng 20 tháng Trước tình hình bùng nổ thông tin đang diễn ra, những người ra quyết định trong các tổ chức tài chính, ngân hàng, thương mại, công nghệ thông tin, y tế, giáo dục, đều muốn thu thập, lưu trữ những thông tin chứa đựng các giá trị tiềm ẩn cần được phát hiện Việc xử lý dữ liệu quá lớn cần được thực hiện nhanh chóng, triệt để thông qua các phần mềm, các ứng dụng để nâng cao năng suất làm việc Đó chính là tiền đề cho sự ra đời kỹ thuật khai phá dữ liệu (Data Mining), khi nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân tích dữ liệu,
… đòi hỏi kỹ thuật xử lý ngày càng thông minh và hiệu quả Khai phá dữ liệu cho phép người sử dụng phân tích dữ liệu với nhiều góc độ khác nhau, phân loại
dữ liệu theo nhiều quan điểm riêng biệt, từ đó, tổng kết các mối quan hệ đã được bóc tách Nhờ đó, chúng ta có khả năng khai thác những tri thức hữu dụng, cần thiết từ kho dữ liệu khổng lồ
Trong thời đại công nghệ thông tin phát triển như hiện nay, các dịch vụ viễn thông ngày càng trở nên phổ biến và cạnh tranh gay gắt Để giữ chân khách hàng, các công ty viễn thông cần có những chiến lược tiếp thị và chăm sóc khách hàng hiệu quả Một trong những chiến lược quan trọng đó là dự báo khả năng khách hàng rời mạng Vì vậy để nhận biết sớm những khách hàng có nguy
cơ rời mạng, từ đó có các biện pháp chăm sóc và giữ chân khách hàng kịp thời Trong tiểu luận này, chúng ta sẽ tìm hiểu về các phương pháp dự báo khả năng khách hàng rời mạng bằng khoa học dữ liệu Cụ thể, chúng ta sẽ phân tích đề tàinghiên cứu: “Ứng dụng khoa học dữ liệu vào dự đoán khả năng khách hàng dừng sử dụng của một công ty viễn thông”
Trang 5Hình 5: Các biến sau khi đánh giá các thuộc tính trong Rank
Hình 6: Bảng thể hiện các thao tác trong phần tiền xử lý dữ liệu Hình 7: Phân cụm theo linkage Single
Hình 8: Phân cụm theo linkage Average
Hình 9 Phân cụm theo linkage Weighted
Hình 10: Phân cụm theo linkage Completed
Hình 11: Phân cụm theo linkage Ward
Hình 12: Chỉ số SI của linkage Completed – phương pháp Hierarchical Clustering
Hình 13: Bảng phân tích k-Means cho bộ dữ liệu
Hình 14: Bảng Silhouette Plot cho 2 phân cụm phân hoạch
Hình 15: Kết quả thu được từ Pivot Table của phương pháp Hierarchical Hình 16: Kết quả thu được từ Pivot Table của phương pháp k-Means Hình 17 Chuỗi thao tác phân cụm dữ liệu
Trang 6I Giới thiệu bài toán ứng dụng:
Lí do chọn đề tài
Ngày nay, các kỹ thuật KPDL đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực đời sống, kinh tế xã hội ở các nước trên thế giới, nhưng còn khá mới mẻ tại Việt Nam Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật này vào hoạt động sản xuất kinh doanh của mình và thu được những lợi ích đáng kể Vào những năm gần đây, nước ta cũng dần chấp nhận và đưa nó vào sử dụng
Thị trường viễn thông Việt Nam đang cạnh tranh khá cao, việc giữ chân khách hàng là một thách thức lớn đối với các công ty viễn thông Dự báo khả năng khách hàng rời mạng là một công cụ hữu ích giúp các công ty viễn thông nhận biết sớm những khách hàng có nguy cơ rời mạng, từ đó có các biện pháp chăm sóc và giữ chân khách hàng kịp thời Đề tài này có tính ứng dụng cao trong thực
tế, phù hợp với xu hướng phát triển của ngành viễn thông, có thể giúp các sinh viên khoa học dữ liệu hiểu được cách áp dụng các kỹ thuật khoa học dữ liệu để giải quyết các bài toán thực tế, có tính khoa học cao, đòi hỏi sinh viên phải có kiến thức và kỹ năng về khoa học dữ liệu, giúp sinh viên nâng cao kiến thức và
kỹ năng về khoa học dữ liệu, đáp ứng yêu cầu của thị trường lao động
Mục tiêu nghiên cứu
Nghiên cứu các yếu tố ảnh hưởng đến khả năng rời mạng của khách hàng viễn thông Nghiên cứu này sẽ phân tích các yếu tố về nhân khẩu học, hành vi sử dụng dịch vụ, mức độ hài lòng của khách hàng, để xác định những yếu tố có ảnh hưởng đến khả năng rời mạng của khách hàng
Xây dựng mô hình dự báo khả năng rời mạng bằng các kỹ thuật học máy Dựa trên các yếu tố ảnh hưởng đến khả năng rời mạng đã xác định được, đề tài sẽ xây dựng mô hình dự báo khả năng rời mạng bằng các kỹ thuật học máy như hồi quy logistic, cây quyết định,
Trang 7Đánh giá hiệu quả của mô hình dự báo Để đánh giá hiệu quả của mô hình dự báo, đề tài sẽ sử dụng các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu,
Phương pháp thực hiện
Phương pháp nghiên cứu:
Phương pháp thu thập dữ liệu:
o Nhóm tác giả đã thu thập dữ liệu từ nguồn kaggle.com, một nguồn
dữ liệu đáng tin cậy
o Dữ liệu gốc được xử lý bằng phần mềm Excel và trực quan hóa quacác biểu đồ
Phương pháp nghiên cứu lý luận:
o Tiến hành tìm hiểu, thu thập, chắt lọc và phân tích các dữ liệu, thông tin thông qua đọc sách báo, tài liệu
o Bao gồm các phương pháp sau:
Phương pháp phân tích – tổng hợp lý thuyết: đọc và tổng hợp các tài liệu để rút ra nội dung cần thiết
Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên lý thuyết và kiểm định tính chính xác của mô hình
Phương pháp nghiên cứu thực tiễn:
o Từ cơ sở lý luận, tiến hành nghiên cứu thực tiễn bằng các thuật toán trong KPDL và phần mềm Orange
o Xây dựng các mô hình dự báo dựa trên bộ dữ liệu huấn luyện có sẵn và so sánh kết quả để lựa chọn mô hình phù hợp nhất
Từ đó, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và
so sánh các kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất nhằm giúp các công ty viễn thông có các biện pháp chăm sóc và dữ chân khách hàng kịp thời
Trang 8II Tổng quan về phương pháp sử dụng
1 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu (Data preprocessing), là một trong những yếu tố quan trọng, cần thiết trong quá trình khai phá và phân tích các dữ liệu Nhiệm vụ của quá trình tiền xử lý dữ liệu là lấy dữ liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng dữ liệu (quality of the data), chuyển đổi thành dạng mà máy tính hiểu và có khả năng phân tích được Do đó, có thể hoàn thiện được yêu cầu của kết quả khai thác Khi dữ liệu được tiền xử lý và dọn sạch đúng cách, các quy trình tiếp theo sẽ hoạt động có hiệu quả và chuẩn xác hơn rất nhiều Quá trình tiền xử lí dữ liệu gồm: Làm sạch dữ liệu (Data cleaning), Tích hợp dữ liệu (Dataintegration), chuyển đổi dữ liệu (Data transformation) và rút gọn dữ liệu (Data reduction)
a Làm sạch dữ liệu (Data cleaning/Cleansing)
Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách chỉnh sửanhư: thêm dữ liệu thiếu, sửa chửa hoặc loại bỏ những thông tin hay dữ liệu không liên quan hay không chính xác ra khỏi tập dữ liệu để tránh gây sai lệch vềkết quả và dẫn đến những yếu tố, quyết định không thực tế và sai lầm Quá trình làm sạch dữ liệu bao gồm: Tóm tắt hoá dữ liệu, xử lý dữ liệu bị thiếu (missing data) và xử lý dữ liệu bị nhiễu (noisy data)
- Xử lý dữ liệu bị thiếu (missing data):
+ Bỏ qua những bộ bị thiếu giá trị
+ Xử lý tay: có thể xử lý không tự động hoặc bán tự động
+ Sử dụng các giá trị thay thế hoặc tự động như: hằng số toàn cục, trị phổ biến nhất, trung bình toàn cục, trung bình cục bộ, trị dự đoán,
Trang 9+ Phòng tránh dữ liệu bị thiếu: có thể giảm thiểu và tránh được tình trạng bịthiếu dữ liệu bằng cách thiết kế, bảo đảm tốt CSDL và các thủ tục nhập liệu (các ràng buộc dữ liệu).
- Xử lý dữ liệu bị nhiễu (noisy data):
+ Xử lý dữ liệu bị nhiễu (noisy data) bao gồm: giảm thiểu nhiễu (noisy data) và nhận diện phần tử biên (outliers) - phần tử không tuân thủ theo những đặc tính hay hành vi chung của đối tượng hay tập dữ liệu
GIẢI PHÁPGiảm thiểu nhiễu
(noisy data)
Nhận diện phần tử biên(outliers)
- Phân giỏ (binning)
- Hồi quy (regression)
- Phân tích cụm (cluster analysis)
- Phân bố thống kê (statistical distribution-based)
- Khoảng cách (distance-based)
- Mật độ (density-based)
- Độ lệch (deviation-based)
- Xử lý dữ liệu không nhất quán:
+ Dữ liệu không nhất quán là dữ liệu được ghi nhận khác nhau cho cùng một đối tượng hay thực thể; hay không phản ánh đúng ngữ nghĩa cho các đối tượng hoặc thực thể
+ Các giải pháp xử lý dữ liệu không nhất quán gồm:
● Nhận thấy lợi ích của siêu dữ liệu và ràng buộc các dữ liệu, hay sự kiểm tra từ các nhà phân tích dữ liệu cho việc nhận diện các dữ liệu không nhấtquán
● Điều chỉnh, kiểm soát và kiểm tra các dữ liệu không nhất quán bằng tay
● Sử dụng các giải pháp biến đổi hay chuẩn hoá các dữ liệu tự động
b Tích hợp dữ liệu (Data integration)
Tích hợp dữ liệu (Data integration) là trộn dữ liệu (merge data) từ nhiều nguồn khác nhau vào một kho dữ liệu
Tích hợp dữ liệu (Data integration) gồm:
- Vấn đề dạng thực thể:
+ Các thực thể (object/entity/attribute) đến từ nhiều nguồn dữ liệu khác nhau, và hai hay nhiều hơn hai thực thể thực khác nhau trở lên thì cùng diễn tả cùng một thực thể thực
Trang 10+ Gồm Tích hợp lược đồ (schema integration) và so trùng đối tượng (objectmatching).
- Vấn đề dư thừa (redundancy):
+ Hiện tượng của vấn đề dư thừa: giá trị của một thuộc tính có thể được trích ra từ một hay nhiều thuộc tính khác, làm trùng lắp
+ Nguyên nhân: tổ chức dữ liệu kém, không hiệu quả và không nhất quán với nhau trong việc đặt tên chiều hoặc thuộc tính
+ Cách phát hiện ra vấn đề dư thừa: phân tích tương quan (correlation analysis)
- Phát hiện và xử lí mẫu thuẫn giá trị dữ liệu:
+ Dù cùng một thực thể thật, nhưng các giá trị thuộc tính đến từ các nguồn
dữ liệu khác nhau thì có thể gây ra sự khác nhau về cách biểu diễn (representation), đo lường (scaling) và mã hoá (encoding)
c Chuyển đổi dữ liệu (Data transformation)
Việc chuyển đổi dữ liệu (Data transformation) sẽ bắt đầu quá trình biến dữ liệu trở thành những định dạng phù hợp cho việc phân tích và tiến hành các bước quy trình kế tiếp Chuyển đổi dữ liệu gồm:
- Làm trơn dữ liệu (smoothing):
+ Có thể làm trơn dữ liệu bằng các phương pháp: Các phương pháp binning(bin means, bin medians, bin boundaries); Hồi quy (Regression); Các kĩ thuật gom cụm (phân tích phần tử biên); Các phương pháp rời rạc hoá những dữ liệu
- Kết hợp dữ liệu (aggregation):
+ Kết hợp dữ liệu gồm các tác vụ kết hợp hay tóm tắt dữ liệu
+ Có thể chuyển đổi dữ liệu từ mức chi tiết này sang nguồn dữ liệu ở mức chi tiết kém hơn
+ Mục đích nhằm giúp đỡ và cải thiện việc phân tích những dữ liệu ở nhiều
độ mịn có thời điểm khác nhau
- Tổng quát hoá dữ liệu (generalization):
+ Từ việc phân cấp những ý niệm, có thể chuyển các dữ liệu cấp thấp, dữ liệu nguyên tố hay dữ liệu thô thành các khái niệm ở bậc cao hơn
- Chuẩn hoá dữ liệu (normalization):
+ Với một miền giá trị được định nghĩa hoặc xác định từ trước, thì các giá trị thuộc tính sẽ được chuyển đổi vào
- Xây dựng thuộc tính (attribute/future construction):
+ Từ các tập thuộc tính đã có sẵn, các thuộc tính mới sẽ được xây dựng và thêm vào
Trang 11+ Việc xây dựng thuộc tính giúp hỗ trợ kiểm tra, bảo đảm và hiểu được cấu trúc của nguồn dữ liệu có đa dạng chiều Bên cạnh đó, xây dựng thuộc tính giúp phát hiện ra những thông tin sai lệch, không chính xác giữa quan hệ của những thuộc tính dữ liệu.
d Rút gọn dữ liệu (Data reduction)
Rút gọn dữ liệu (Data reduction) là việc giảm kích thước dữ liệu (hay giảm số phần tử) bằng cách kết hợp những phương pháp như: kết hợp dữ liệu (data 1Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa có nhãn
- Độ tương đồng bên trong cụm cao
- Độ tương tự giữa các cụm thấp (khác biệt cao)
Các ứng dụng điển hình:
- Công cụ phân cụm dữ liệu độc lập
- Là giai đoạn tiền xử lý cho các thuật toán khác
Trang 12(Hierarchical approach)
Phân cấp các đối tượng dựa trên một số tiêu chí
Diana, Agnes, BIRCH, CAMELEON
Dựa trên phân hoạch
(Partitioning approach)
Xây dựng các phân hoạch khác nhau và đánh giá chúng Sau
đó, tìm cách tối thiểu hóa tổng bình phương
độ lỗi
K-means, K-medoids, Fuzzy C-means
DBSCAN, OPTICS, DenClue
Dựa trên lưới
EM, SOM, COBWEB
- Phân cụm phân cấp (Hierarchical approach hay HAC):
Trang 13+ Phân cụm phân cấp sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy.
+ Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:
● Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)
● Độ đo khoảng cách giữa các cụm (single link, complete link…+ Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng
+ Các phương pháp điển hình: Diana, Agnes…
● Agglomerative (hay AGNES): Trên thực tế, đây là phương pháp được sử dụng phổ biến Agglomerative sử dụng chiến lược Bottom
up (từ dưới lên), nghĩa là quá trình phân cụm bắt đầu ở dưới cùng tại các node lá.Với phương pháp này, ban đầu mỗi quan sát là một cụm đơn lẻ của riêng nó Sau đó trong các bước tiếp theo, hai cụm nhỏ ở gần nhau nhất sẽ tập hợp lại thành một cụm lớn hơn, số lượng cụm ở tập dữ liệu sẽ giảm đi một ở mỗi bước Quá trình này tiếp diễn đến khi tất cả các cụm nhỏ tập hợp lại một cụm lớn duy nhất
● Divisive (hay DIANA): Ngược lại với AGNES, phương pháp này
sử dụng chiến lược Top down (từ trên xuống), nghĩa là phân chia bắt đầu từ node gốc của đồ thị Với phương pháp này, ban đầu tất
cả các quan sát cùng nằm trong một cụm lớn, các quan sát khác nhau nhất sẽ được phân tách ra theo phương pháp đệ quy (Recursive) thành một cụm riêng biệt Quá trình này tiếp diễn đến khi mỗi quan sát tách ra thành một cụm đại diện cho riêng nó.+ Một số phương pháp tính khoảng cách:
● Liên kết đơn (Linkage Single): Phương pháp này đo lường sự khácbiệt giữa hai cụm bằng cách lấy ra cặp điểm gần nhất giữa hai cụm,được tính theo công thức:
● Liên kết hoàn chỉnh (Linkage Complete): ngược với phương pháp liên kết đơn, sự khác biệt giữa hai cụm được đo lường bằng cách lấy ra hai cặp điểm xa nhau nhất giữa hai cụm
Trang 14● Liên kết trung bình (Linkage Average): Phương pháp này sẽ lấy trung bình toàn bộ khoảng cách giữa các cặp điểm được lấy từ hai cụm Chúng ta sẽ có tổng cộng N1N2 cặp điểm Như vậy khoảng cách sẽ được tính bằng:
● Phương pháp Ward Linkage: Phương pháp này đo lường khoảng cách giữa hai tâm cụm thông qua sự suy giảm phương sai Tức là việc phân cụm sẽ được coi là hợp lý nếu như sau khi phân cụm thì phương sai giảm một giá trị lớn Phương pháp này chỉ được sử dụng trong điều kiện giả định các quan sát nằm trong không gian Euclidean
- Phân cụm phân hoạch (Partitioning Clustering)
+ Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm
+ Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ
đo phân cụm) sao cho:
● Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương
tự nhau
● Mỗi cụm có ít nhất 1 phần tử
+ Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means
● Thuật K- means
Input: Tập các đối tượng số liệu và số cụm K
Output: Các cụm C ( i= ) và hàm mục tiêu được tối ưu.1
Bước 1 : Khởi tạo các cụm: Chọn k trọng tâm (m =1 ban đầu trong không gianj)k
j
Rd ( d là số chiều của dữ liệu) là ngẫu nhiên
Bước 2: Tính toán khoảng cách: Đối với mỗi điểm X ( 1<= I <= n ), tính toán i
khoảng cách của nó tới mỗi trọng tâm m j=1,k Và sau đó tìm trọng tâm gần j
nhất đối với mỗi điểm
Bước 3: Cập nhật lại trọng tâm: Đối với mỗi j=1, k, cập nhật trọng tâm cụm mj
bằng cách xác định trung bình cộng của các vectơ đối tượng dữ liệu
Bước 4 : Lặp cho đến khi hội tụ: Lặp lại bước 2 và bước 3 cho đến khi các trọngtâm của cụm không đổi
Trang 15+ Hai thước đo đánh giá phổ biến nhất : Hệ số Sihouette và chỉ số DUNN’SIndex
+ Nguyên tắc đánh giá (theo kinh nghiệm của các tác giả trong tài liệu
“Data mining and Predictive analytics” của nhà xuất bản Wiley): Chỉ số Silhouette index nằm trong khoảng từ -1 đến 1, giá trị này càng lớn (càng tiến gần đến 1) thì kết quả phân cụm càng đáng tin cậy, được phân làm các giá trị sau:
● Silhouette index 0,5 : sát thực tế
● 0,25 Silhouette index 0,5 : cần đánh giá lại
● Silhouette index 0,25 :không tin tưởng và cluster, tìm phương pháp đánh giá khác
Như vậy, nhiệm vụ của bài toán phân lớp dữ liệu là cần xây dựng mô hình (bộ)phân lớp để khi có một dữ liệu mới vào thì mô hình phân lớp sẽ cho biết dữ liệu
đó thuộc lớp nào Có nhiều bài toán phân lớp dữ liệu, như phân lớp nhị phân,phân lớp đa lớp, phân lớp đa trị,
Quá trình phân lớp dữ liệu gồm 2 bước chính:
Bước 1: Xây dựng mô hình ( giai đoạn “học” / “huấn luyện” )
Trang 16Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý có cấu trúc được
mô tả bằng các thuộc tính và được tạo ra bằng các tập có bộ giá trị của cácthuộc tính đó
Dữ liệu đầu vào ra: là mô hình phân lớp đã được huấn luyện thông qua các thuậttoán phân lớp: cây quyết định, …
Bước 2: Sử dụng mô hình:
• 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thìkết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quá vừa” dữliệu
• 2.2: Phân lớp dữ liệu mới
Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vàonhững gì được huấn luyện
4.2 Một số phương pháp phân lớp dữ liệu:
- Hồi quy Logistic (Logistic Regression):
Mục đích của hồi qui Logistic là tìm kiếm một đường biên phân chia tốt nhấtcác nhóm giữa liệu để giải quyết bài toán phân loại nhị phân giữa hai nhóm 0 và
1 Phương pháp thống kê được sử dụng để mô hình hóa và dự đoán xác suất xảy
ra của một biến phụ thuộc nhị phân dựa trên các biến độc lập cho trước
- Cây quyết định (Decision tree):
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả,phân loại và tổng quát hóa tập dữ liệu cho trước Cây quyết định là một trongnhững mô hình phân cấp có cấu trúc có khả năng diễn giải cao và có thể thựchiện cả nhiệm vụ phân loại và hồi quy dựa vào dãy các quy luật thu được từ dữliệu về các đối tượng cho trước gồm các thuộc tính cùng với lớp của nó
- SVM (Super vector support):
SVM nhận và xem dữ liệu dưới dạng những vector trong không gian và phânloại vào các lớp khác nhau bằng cách xây dựng một siêu phẳng (hyperplane)trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu Để kết quảphân lớp tối ưu thì siêu phẳng phải có khoảng cách đến các điểm dữ liệu(margin) của tất cả các lớp xa nhất có thể Nhờ vậy, SVM có thể giảm thiểu
việc phân lớp sai (misclassification) đối với điểm dữ liệu mới đưa vào
Trang 174.3 Các phương pháp đánh giá mô hình phân lớp :
Để quyết định một mô hình có phù hợp và đáng tin cậy để sử dụng hay khôngcần thông qua hành động kiểm tra tính hiệu quả, tính đúng đắn của mô hìnhbằng những phương pháp cụ thể Mô hình lý tưởng hướng tới là một mô hìnhkhông quá đơn giản hay quá phức tạp và không quá nhạy cảm với nhiễu (tránhtrường hợp underfitting và overfitting)
4.3.1 Ma trận nhầm lẫn (Confusion matrix): ): là ma trận có kích thước k x
k với k là số lượng lớp của dữ liệu, giúp chỉ ra có bao nhiêu điểm dữ liệu
thực sự thuộc vào một lớp cụ thể, và được dự đoán là thuộc vào lớp nào.
Nó đại diện điểm trên ma trận 2 chiều bao gồm :Thực tế và Dự đoán
True Positive (TP): Các giá trị thực sự Positive và được dự đoán là Positive True Negative (TN): Các giá trị thực sự Negative và được dự đoán là Negative False Positive (FP): Các giá trị thực sự là Negative nhưng được dự đoán sai là
Positive Còn được gọi là Sai lầm loại I
False Negative (FN): Các giá trị thực sự là Positive nhưng được dự đoán sai là
Negative Còn được gọi Sai lầm loại II
Một số chỉ số (metrics) liên quan:
+ Tính chính xác (Accuracy): Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộtập dữ liệu là số liệu tiêu chuẩn để đánh giá mô hình Machine LearningClassification techniques:
=> => là độ lỗi của mô hình
Trang 18+ Độ chính xác (Precision): cho biết trong số m mẫu được phân vào lớp i thì có
tỷ lệ bao nhiêu mẫu có đúng kiểm tra xem có bao nhiêu kết quả thực sự là kếtquả tích cực trong tổng số các kết quả được dự đoán tích cực
Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (TruePositive Rate) là biện pháp để kiểm tra các kết quả dự đoán tích cực chính xáctrong tổng số các kết quả tích cực
+ F1-score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision
và Recall
F 1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall F 1sẽ
có giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn
4.3.2 ROC và AUC:
+ ROC (Receiver Operating Characteristic):
Là một đường cong được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positiverate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) ở các ngưỡng khácnhau Mô hình hiệu quả là mô hình có FPR thấp và TPR cao, hay ROC càngtiệm cận với điểm (0;1) trong đồ thị
+ AUC (Area Under the Curve):
Là phần diện tích nằm dưới đường cong ROC Có giá trị dương nhỏ hơn hoặcbằng 1 Giá trị này càng lớn thì chất lượng mô hình càng tốt
III Mô hình nghiên cứu đề xuất
Nhóm sử dụng bộ dữ liệu “Logisticregression telecomCustomer
churmprediction” của một công ty viễn thông để xây dựng mô hình phân loại cóthể dự đoánkhả năng khách hàng rời bỏ công ty
1 Biến độc lập:
customerID : Mã số khách hàng: Ứng với mỗi khách hàng sẽ có một ID khác nhau để nhận dạng
tenure : Thời gian khách hàng sử dụng dịch vụ ( tính bằng tháng )
Contract : Hợp đồng : Dựa trên cơ sở hàng tháng ( month to month ) hoặc theo năm ( one year, two years )
PaperlessBilling: Yes nếu thanh toán không cần giấy tờ, No nếu thanh toán không cần giấy tờ