Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng đủ điều kiện vay mua nhà

Bao gồm các phương pháp sau: Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, nghiên cứu khoa học từ các tạp chí uy tín có được, sau đó đọc và tổng hợp để rút ra những nội

Trang 1

ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

ĐỒ ÁN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆUGIẢNG VIÊN HƯỚNG DẪN : THÁI KIM PHỤNG

TÊN SINH VIÊN - MSSV : Trần Huỳnh Phước Ngọc - 31221024030

: Bùi Minh Nhật - 31221024037: Lương Ngọc Hân - 31221021878: Huỳnh Ngọc Hoàng Uyên - 31221022114: Trần Phước Đoan Khánh - 31211022958: Trương Lê Hoài Ngân - 31221020428

Trang 2

CHƯƠNG 1: GIỚI THIỆU1.1 Lý do lựa chọn đề tài

Ngày nay, thời đại công nghệ phát triển mang đến cho con người nhiều cơ hội và tiềm lực mới đểnâng cao, cải thiện đời sống , đồng thời cũng tạo nên những ảnh hưởng to lớn đến đời sống, xã hội.Đơn cử là cách thức làm việc của mọi lao động, sự phát triển của công nghệ thông tin, đang từng bướcthúc đẩy sự phát triển đổi mới nhanh chóng tại nhiều lĩnh vực Tài chính – ngân hàng là một trong số

đó Lĩnh vực tài chính – ngân hàng có nhiều cơ hội đổi mới nhưng luôn tìm ẩn những rủi ro khônglường trước được Chính bởi lẽ đó, sự phát triển của thị trường đã đặt ra nhiều thách thức cho Nhànước, yêu cầu xây dựng chính sách và định hướng thị trường tài chính – ngân hàng với mục tiêu tậndụng, khai thác triệt để được các cơ hội, đồng thời phòng ngừa, khắc phục được những rủi ro, nguy cơtiềm tàng Công nghệ số là một đáp án đúng đắn cho những yêu cầu trên, nó cho phép các tổ chức tàichính thu thập, phân tích và lưu trữ dữ liệu từ nhiều nguồn khác nhau Việc áp dụng trí tuệ nhân tạo,học máy và khai phá dữ liệu giúp phát hiện xu hướng, dự báo rủi ro tín dụng, tối ưu hóa quy trình vàcung cấp thông tin chi tiết để đưa ra quyết định

Nghiên cứu và ứng dụng dữ liệu khách hàng để đánh giá rủi ro tín dụng là xu hướng phổ biến trongngành tài chính Bên cạnh việc tiếp cận và áp dụng các kỹ thuật phân tích dữ liệu hiện đại nhằm tìmkiếm những cơ hội và lợi ích lớn cho các tổ chức tài chính, việc đánh giá khả năng vay của khách hàngcũng là một yếu tố quan trọng Điều này giúp các công ty tài chính đưa ra quyết định thông minh vềviệc cấp vay hay từ chối vay cho khách hàng, từ đó giảm thiểu rủi ro tín dụng và tăng hiệu suất hoạtđộng Thêm vào đó, do sự phát triển của công nghệ thông tin và viễn thông, thông tin về khách hàng dễdàng thu thập được từ nhiều nguồn khác nhau như hồ sơ tín dụng, lịch sử giao dịch, dữ liệu trực tuyến

và xã hội, Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng vay sẽ giúp tiếp cận

và phân tích các nguồn dữ liệu này để đưa ra những quyết định mang tính hiệu quả cao

Trong bài nghiên cứu, trình bày về mô hình dự đoán khả năng vay có thể được xây dựng bằng cách

áp dụng các thuật toán trí tuệ nhân tạo và học máy như học có giám sát, học không giám sát, Điềunày mang lại tiềm năng lớn để tạo ra các công cụ và phương pháp hiệu quả để đánh giá khả năng vaycủa khách hàng Việc nghiên cứu dữ liệu khách hàng nhằm cung cấp những thông tin quan trọng về ưu

và nhược điểm của từng khách hàng Qua đó tối ưu hóa quy trình vay mua nhà, công ty vừa có thể tăngcường khả năng cạnh tranh, tập trung vào các đối tượng khách hàng có tiềm năng và nâng cao trảinghiệm khách hàng, vừa có thể kiểm soát và giảm thiểu rủi ro tín dụng Với những lý do trên, dự án

“Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng đủ điều kiện vay mua nhà” cóthể mang lại nhiều giá trị cho ngân hàng nói riêng và những tổ chức tài chính nói chung

1.2 Mục tiêu nghiên cứu

Dự án “Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng đủ điều kiện vay muanhà” nhằm đáp ứng 2 mục tiêu:

 Nghiên cứu về các phương pháp tính toán cụ thể và chọn ra một phương pháp tối choquá trình dự báo dữ liệu Từ đó đưa ra những mô hình hoạt động kinh doanh tốt nhất cho cácdoanh nghiệp

 Dựa trên mô hình đã được xây dựng trong quá trình nghiên cứu, đưa ra kết luận về phânloại khách hàng và mục tiêu kinh doanh gắn liền với hành vi khách hàng, nhằm mang lại chodoanh nghiệp phương án kinh doanh hiệu quả nhất, đồng thời cũng đưa ra kết luận về nhữnghạn chế của bài nghiên cứu

1.3 Đối tượng và phương pháp nghiên cứu

1.3.1 Đối tượng nghiên cứu

Mô hình khoa học dữ liệu và thuật toán phân lớp dữ liệu bảng bằng Neural Network để ứng dụngtrong việc ra quyết định xem xét cho vay tín dụng

Trang 3

Dữ liệu được thu thập từ Kaggle với thông tin của 614 khách hàng, bao gồm các thông tin: ID Khoảnvay (Loan_ID), số người phụ thuộc (Dependents), giới tính (Gender), tình trạng hôn nhân (Married), họcvấn (Education), tự làm chủ (Self_Employed), thu nhập của người nộp đơn (Applicantincome), thu nhậpcủa người giám hộ (Coapplicantincome), số tiền vay (LoanAmount), thời hạn khoản vay(Loan_Amount_Term), lịch sử tín dụng (Credit_History), khu vực bất động sản (Property_Area), khoảnvay_trạng thái (Loan_Status).

1.3.2 Phương pháp nghiên cứu

1.3.2.1 Phương pháp nghiên cứu lý luận

“Tiến hành nghiên cứu, thu thập, chọn lọc và phân tích dữ liệu bằng cách đọc sách, báo, tài liệunhằm tìm ra các quan niệm, quan điểm xây dựng cơ sở lý luận cho nghiên cứu, dự đoán các thuộc tínhcủa đối tượng nghiên cứu, xây dựng sơ bộ lý luận Bao gồm các phương pháp sau:

 Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, nghiên cứu khoa học từcác tạp chí uy tín có được, sau đó đọc và tổng hợp để rút ra những nội dung cần thiết cho luậnđiểm của bài nghiên cứu

 Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên lý thuyết và ứngdụng mô hình để dự báo nhằm kiểm định tính chính xác của mô hình.”

1.3.2.2 Phương pháp nghiên cứu thực tiễn

“Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thực tiễn:

Thông qua các thuật toán của phần mềm Orange - một công cụ mang tính trực quan để nghiên cứu

về các thuật toán machine learning và thực hành khoa học dữ liệu phổ biến hiện nay để phân tích dữliệu và làm rõ vấn đề nghiên cứu

Từ đó, xây dựng các mô hình dự báo và so sánh các kết quả rút ra được với nhau nhằm lựa mô hìnhphù hợp nhất giúp các nhà đầu tư có quyết định chính xác khi cần có sự suy tính trong các lựa chọn đầutư

1.4 Cấu trúc bài nghiên cứu

kê phân tích dữ liệu

Trang 4

Hình 2.1: Mô tả quá trình phân cụm dữ liệu

sự khác biệt với bài toán Phân lớp

Một phương pháp phân cụm tốt sẽ tạo ra các cụm có chất lượng cao đáp ứng những tiêu chí sau:

- Các điểm dữ liệu bên trong cụm có độ tương đồng cao

- Giữa các cụm phải có độ tượng tự thấp

2.1.1.3 Các ứng dụng của phân cụm dữ liệu

Do phân cụm dữ liệu có tính ứng dụng cao giúp đưa ra những kết quả chính xác nên được sử dụng rộng rãi trong nhiều lĩnh vực của cuộc sống, cụ thể như:

Lĩnh vực kinh doanh:

- Phân định đối tượng khách hàng, phân loại sản phẩm, phân loại kênh tiếp thị: phân cụm dựa trên các thông tin như hành vi mua hàng, độ tuổi, sản phẩm, … để tạo chiến lược tiếp thị, tối ưu hoá dịch vụ khách hàng và phát triển sản phẩm mới theo chiến lược mà kết quả cho ra

- Nhiều công ty thương mại điện tử áp dụng để bán hàng qua nhiều nước thông qua các trang webcủa họ Một trong những công ty nổi tiếng nhất ứng dụng điều hành này là Amazon; họ sử dụng các kỹ thuật khai phá dữ liệu để lái “những người đã xem sản phẩm đó cũng thích sản phẩm được giới thiệu này”

Lĩnh vực y tế:

- Dự báo bệnh tật: phân loại bệnh nhân thành các nhóm rủi ro khác nhau, giúp dự báo nguy cơ mắc bệnh hoặc các biến chứng tiềm năng, từ đó đưa ra các biện pháp phòng ngừa và can thiệp sớm hơn Tìm ra mối quan hệ giữa các loại bệnh và hiệu quả của phương pháp điều trị sẽ giúp thay đổi các loại thuốc mới hoặc đảm bảo rằng bệnh nhân được chăm sóc phù hợp, kịp thời

Lĩnh vực công nghệ thông tin:

Trang 5

- Phát hiện gian lận: phát hiện các hành vi gian lận trong lĩnh vực bảo mật mạng, ví dụ như phát hiện tin tặc hoặc xác định các nhóm nguy hiểm dựa trên hành vi tấn công.

- Phân loại tin tức và phân tích ý kiến: tổ chức tin tức hoặc bài viết thành các nhóm dựa trên nội dung, chủ đề hoặc nguồn thông tin Nó cũng có thể được sử dụng để phân tích ý kiến từ các nguồn dữ liệu khác nhau, như mạng xã hội hoặc diễn đàn, để hiểu quan điểm của người dùng về một vấn đề cụ thể

Lĩnh vực giáo dục:

- Phân cụm dữ liệu có thể giúp dự đoán khả năng thành công học tập của học sinh dựa trên các yếu tố như chỉ số học tập, động lực, sự tương tác xã hội và thói quen học tập Điều này giúp giáo viên

và nhà trường đưa ra các biện pháp hỗ trợ nhằm nâng cao tỷ lệ hoàn thành và thành công học tập

- Tuy nhiên, ứng dụng trong lĩnh vực giáo dục vẫn chưa thực sự được phát huy mạnh mẽ trong thời điểm hiện tại bởi vì sự mới mẻ của việc áp dụng công nghệ ở Việt Nam, cũng như những chi phí nhất định cho việc áp dụng kỹ thuật này vào hệ thống giáo dục

Lĩnh vực sinh học:

- Phân loại gen: Phân cụm dữ liệu có thể được sử dụng để phân loại gen dựa trên sự giống nhau

về cấu trúc hoặc chức năng Điều này giúp trong việc hiểu và phân tích các bộ gen, nhận biết đặc điểm

di truyền và tìm kiếm liên kết giữa các gen và bệnh tật

- Phân lớp loại sinh vật: phân lớp và phân loại các loài sinh vật dựa trên đặc điểm hình thái, di truyền hoặc mô hình sinh thái Điều này hỗ trợ trong việc nghiên cứu, bảo tồn và hiểu sâu về các loài sinh vật

2.1.2 Các phương pháp phân cụm

Một số phương pháp phân cụm chính có thể kể đến như sau:

Dựa trên phân cấp

(Hierarchical approach)

Xây dựng cây phân rã tập dữ liệu theo một

số tiêu chí

Diana, Agnes, BIRCH,CAMELEON

Dựa trên phân hoạch

(Partitioning approach)

Xây dựng nhiều phân hoạch và chọn cáchtốt nhất ( sai số tối thiểu )

means, medoids,Fuzzy C-means

(Model-based) Xác định mô hình cho mỗi cluster

EM, SOM, COBWEBDựa trên cấu trúc phân cụm, Clustering có 2 dạng tổng quát: Phân cụm phân cấp (Hierarchical Clustering) và Phân cụm phân hoạch (Partitioning approach)

2.1.2.1 Phân cụm phân cấp (Hierarchical Clustering)

Trang 6

Hình 2.2: Tổng quan quá trình phân cụm phân cấp

Phân cụm phân cấp là phương pháp phân tích cụm bằng việc tổ chức các đối tượng thành một đồ thị

có cấu trúc dạng cây, có các nhánh là các cụm mong muốn Cây phân cấp được xây dựng cho dữ liệu cầngom cụm dựa trên:

● Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)

● Độ đo khoảng cách giữa các cụm (single link, complete link…)

Theo phương pháp này, chúng tạo ra những biểu diễn phân cấp trong đó các cụm ở mỗi cấp của hệ thống phân cấp được tạo bằng cách hợp nhất các cụm ở cấp độ thấp hơn bên dưới Ở cấp thấp nhất, mỗi cụm chứa một quan sát Ở cấp cao nhất, chỉ có một cụm chứa tất cả dữ liệu Thứ tự cấp bậc của các cụm này tạo thành một cấu trúc cây Dendrogram

Trang 8

Hình 2.4: Minh họa quá trình phân cụm theo phương pháp AGNES và DIANA

+ AGNES: Trên thực tế, đây là phương pháp được sử dụng phổ biến Agglomerative sử dụng chiến lược Bottom up (từ dưới lên), nghĩa là quá trình phân cụm bắt đầu với những cụm chỉ là 1 phần tử Sau

đó trong các bước tiếp theo, hai cụm nhỏ ở gần nhau sẽ tập hợp lại thành một cụm lớn hơn Khoảng cách giữa 2 cụm là khoảng cách gần nhất hoặc khoảng cách trung bình giữa 2 điểm từ hai cụm khác nhau Số lượng cụm ở tập dữ liệu sẽ giảm đi một ở mỗi bước Quá trình này sẽ là vòng lặp cho đến khi tất cả các cụm nhỏ tập hợp lại một cụm lớn duy nhất Kết quả quá trình là tạo thành một dendrogram (cây phân cấp)

Hình 2.5: Minh họa phương pháp phân cụm AGNES

Dendrogram của phương pháp Agnes:

Hình 2.6: Dendrogram của phương pháp AGNES

+ DIANA: Ngược lại với AGNES, phương pháp này sử dụng chiến lược Top down (từ trên xuống), nghĩa là phân chia bắt đầu với tất cả phần tử cùng nằm trong một cụm lớn Sau đó trong các bước tiếp theo, cụm lớn ban đầu được chia thành 2 cụm Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình Các cụm mới được tách ra sẽ được phân tách ra theo phương pháp đệ quy (Recursive) và tạo thành vòng lặp cho đến khi mỗi phần tử là 1 cụm đại diện cho riêng nó Kết quả của quá trình là tạo thành một cây phân cấp (dendrogram)

Trang 9

Hình 2.7: Minh họa phương pháp phân cụm DIANA

Dendrogram của phương pháp Diana:

Hình 2.8: Dendrogram của phương pháp DIANA

● Một số phương pháp tính khoảng cách (Distance)

- Single linkage: Phương pháp này đo lường sự khác biệt giữa hai cụm bằng cách lấy ra cặp điểm gần nhất giữa hai cụm Độ đo sự khác biệt được tính theo công thức:

- Complete linkage: Phương pháp này đo lường sự khác biệt giữa hai cụm bằng cách lấy ra

hai cặp điểm xa nhau nhất giữa hai cụm

Trang 10

- Average linkage: Phương pháp này sẽ lấy trung bình toàn bộ khoảng cách giữa các cặp

điểm được lấy từ hai cụm Chúng ta sẽ có tổng cộng N1N2 cặp điểm Như vậy khoảng cách sẽ được tính bằng:

- Mean: khoảng cách giữa các điểm trung bình (mean) của 2 cụm

dist(C ,Ci j) = |m - m |i j

Với m và m là trung bình của các phần tử trong cụm C và C i j i j

- Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm.

dist(C ,Ci j) = dist(ci,c )

Với c và c lần lượt là các trọng tâm của cụm C , C i j i j

- Medoid: khoảng cách giữa các trung tâm cụm (medoid) của 2 cụm

dist(C ,Ci j) = dist(Mi,M )j

Medoid là phần tử nằm ở trung tâm cụm

Với M và M là trung tâm của các phần tử trong cụm C và C i j i j

2.1.2.2 Phân cụm phân hoạch (Partitioning approach):

Đây là phương pháp phân cụm ‘one-level’, tức một cấp, các cluster không được thể hiện dưới dạng cấp bậc Phương pháp này phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau và mỗi cụm có ít nhất 1 phần tử Điển hình cho phương pháp phân cụm phân hoạch là: Thuật toán K-Means và các biến thể của nó như K-Medoid, Fuzzy C-Means…

Thuật toán K-Means: là thuật toán kinh điển được sử dụng rất rộng rãi trong thực tế và nó có thể được biến đổi để thích hợp cho từng bài toán cụ thể, và nó nằm trong nhóm các phương pháp phân hoạch Tư tưởng chính của thuật toán K-Means đó chính là ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng) Phương pháp K-MEANS được thểhiện bằng các bước sau:

Bước 1: Khởi tạo các trung tâm cụm ban đầu: Chọn ngẫu nhiên K điểm từ tập dữ liệu làm trung tâm

cho từng cụm ban đầu

Bước 2: Gán các điểm dữ liệu vào cụm gần nhất: Nếu các điểm dữ liệu ở từng cụm vừa được phân

chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật toán

Bước 3: Cập nhật lại trung tâm cụm: Tính toán lại vị trí trung tâm cụm bằng cách lấy trung bình của

tất cả các điểm thuộc cùng một cụm sau khi phân chia ở bước 2

Bước 4: Quay lại bước 2 cho đến khi không có sự thay đổi đáng kể trong việc gán các điểm dữ liệu

hoặc đạt được một tiêu chuẩn dừng nhất định

2.1.3 Các phương pháp đánh giá chất lượng phân cụm dữ liệu:

Đánh giá chất lượng phân cụm dữ liệu là một bước quan trọng nhằm đảm bảo tính chính xác, độ tin cậy của dữ liệu được xử lý dựa trên một số tiêu chí:

+ Độ nén (compactness): các phần tử của cụm phải “gần nhau”

+ Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõ ràng

Có 3 phương pháp chủ yếu đánh giá việc phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối

Trang 11

- Đánh giá ngoài (external validation): đánh giá kết quả phân cụm dựa vào xu hướng, cấu trúc phâncụm được chỉ định trước cho tập dữ liệu Các độ đo được sử dụng: Rand statistic, Jaccard coefficient, Fowlkes và Mallows index…

- Đánh giá nội bộ (internal validation): đánh giá kết quả phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của dữ thông qua ma trận xấp xỉ (proximity matrix) Các độ đo được sử dụng: Hubert’s statistic, Silhouette index, Dunn’s index, F-ratio, DBI (Davies Bouldin Index)

…

- Silhouette index: nằm trong khoảng [-1,1] Trong đó,

● Si ≥ 0.5 : Sát thực tế

● 0.25 ≤ Si < 0.5: cần đánh giá lại (Theo kinh nghiệm của chuyên gia)

● Si < 0.25: Không tin tưởng vào cluster, tìm phương pháp đánh giá khác

- Đánh giá tương đối (relative validation): Đánh giá việc phân cụm bằng cách so sánh nó với kết quả gom cụm ứng với các bộ trị thông số khác nhau, kết quả gom cụm của các phương pháp khác

2.2.1.2 Đặc điểm

● Về cơ bản, đây là một thuật toán phân loại có giám sát

● Mô hình này dùng các hàm logarit (được biểu diễn dưới dạng vector)

● Dự báo của phương pháp này là bất kì giá trị nhị phân nào, như True/False, 0/1, -1/1, Namhoặc Nữ dựa vào input (giá trị đầu vào)

● Bản chất là phương pháp hồi quy tuyến tính áp dụng trong bài toán phân loại, đòi hỏi sự độc lập của các quan sát

2.2.1.3 Mô tả, kiến trúc:

Hình 2.9: Phân lớp bằng hồi quy Logistic

Trang 12

● Phương pháp hồi quy Logistic được dùng cho các bài toán phân loại nhị phân, các bài toán

có 2 lớp giá trị, ước tính xác suất của các sự kiện hay xác định mối quan hệ giữa các thông tin đặctrưng và xác suất kết quả Trong hồi quy Logistic, ta cần một hàm số có tác dụng chiếu giá trị dự báo lên không gian xác suất nằm trong khoảng [0,1] Vì vậy, trong mô hình này ta có:

Input: dữ liệu đầu vào ta sẽ xem như có hai nhãn là Male và Female

Output: Xác suất để dữ liệu đầu vào rơi vào nhãn Male hoặc nhãn Female

Decision Boundary: Đường phân loại các lớp dữ liệu từ các điểm dữ liệu ban đầu (x: Male và

x: Female) Đối với hồi quy Logistic, ta sẽ biết được xác suất mỗi điểm rơi vào nhãn x và cũng x

như giữa và có một đường x x Decision Boundary

● Hàm hồi quy Logistic chạy kết quả thông qua một hàm non-linear (phi tuyến tính).Đó là hàm Logistic hay sigmoid với khả năng tạo ra xác suất p

● Công thức hồi quy của model hồi quy Logistic:

Với log( p

1− p), ta có xác suất p:

1+e−( h0 +h 1 x 1+…+hnxn)

S0 (ký hiệu hàm Logistic Regression): là hàm sigmoid với đầu ra là một số có giá trị từ 0 đến

1 được định nghĩa với công thức:

So (t)= 11+exp exp(−t )

Đồ thị:

Hình 2.10: Đồ thị phương trình hồi quy Logistic

Dưới góc nhìn của graphic model thì mô hình hồi quy Logistic có dạng:

Trang 13

Hình 2.11: Minh họa mô hình Hồi quy Logistic

Đồ thị trên gồm 2 bước:

Bước 1: Kết hợp tuyến tính:

Ta có các node (hình tròn) và các mũi tên minh họa cho các biến đầu vào và các hướng tính toán của

đồ thị Cuối cùng ta kết hợp tuyến tính các node để tính ra đầu ra ^y

⇨ Bước này tương đương với quá trình dự báo trong hồi quy tuyến tính

Bước 2: Biểu diễn hàm Sigmoid

Giá trị ^y lại tiếp tục được đưa qua hàm σ để tính xác suất P(y = 1) ở output

Ưu điểm

- Đầu ra của hồi quy Logistic là xác định

- Không yêu cầu bất kỳ dạng phân phối cụ thể nào của các biến độc lập

- Không yêu cầu mối quan hệ tuyến tính giữa các biến độc lập và các biến phụ thuộc

- Ít phức tạp và có cường độ điện toán ít hơn so với Deep Learning => Các phép toán hồi quy Logistic minh bạch và dễ khắc phục sự cố

- Phương pháp này có thể giải quyết được hiệu ứng phi tuyến tính ngay cả khi các số hạng

mũ và đa thức không được thêm vào một cách rõ ràng dưới dạng các biến độc lập bổ sung vì mối quan hệ logistic

Nhược điểm

- Hồi quy Logistic không thể xử lý một số lượng lớn các tính năng phân loại=> không cung cấp độ chính xác tốt đối với những bài toán dự đoán cần nhiều tính năng phân loại

- Không thể áp dụng cho một bài toán phi tuyến tính, dễ bị overfitting

- Hồi quy Logistic hoạt động kém với các biến độc lập không tương quan với mục tiêu và tương quan với nhau

Trang 14

- Y tế: Dự đoán khả năng mắc bệnh của bệnh nhân hoặc tính toán tác động của gen di truyền, …

- Dịch vụ quảng cáo, tiếp thị: Dự đoán khả năng người dùng nhấp vào quảng cáo, nghiên cứu phản ứng của người với những content trên mạng xã hội vì mục đích quảng bá sản phẩm hiệu quả

2.2.2 Lý thuyết – mô tả phương pháp SVM (Support Vector Machines)

2.2.2.1 Khái niệm: Trong các bài toán phân lớp hay đệ quy, SVM nhận dữ liệu vào sau đó phân loại

chúng vào các lớp khác nhau bằng cách thiết lập một siêu phẳng trong không gian nhiều chiều làm mặt phẳng phân cách dữ liệu Phương pháp này xem dữ liệu như những vector

Hình 2.12: Minh họa khái niệm SVM

2.2.2.2 Đặc điểm:

- Đây là một thuật toán có giám sát

- SVM có nhiều biến thể tương thích với nhiều loại bài toán phân loại

- Thường được sử dụng để xử lý ảnh, phân loại văn bản, phân tích quan điểm

2.2.2.3 Mô tả, kiến trúc:

- Với mục tiêu là tìm ra một siêu phẳng (hype lane) trong không gian N chiều (ứng với N tính năng), SVM giúp phân tách các điểm dữ liệu ( phân chia 2 lớp dữ liệu tương ứng)

Hình 2.13: Mô hình SVM

Trang 15

- Để kết quả phân lớp tốt nhất thì phải xác định siêu phẳng tách biệt nhất có thể về khoảng cách với các điểm dữ liệu (margin)

- Cách chọn siêu phẳng tối ưu:

Nếu dữ liệu không thể phân chia tuyến tính, ta có thể dùng:

Lề mềm: Cho phép SVM mắc một số lỗi nhất định vì mục tiêu chung là giữ cho lề càng rộng

càng tốt (tối đa hóa lề) để các điểm khác vẫn được phân loại chính xác

Có hai kiểu phân loại sai có thể xảy ra: Dữ liệu nằm đúng bên nhưng phạm vào lề, dữ liệu nằm sai bên

Hình 2.15: Minh họa Soft margin

Mức độ chấp nhận lỗi: Được xem như một tham số phạt (C) trong lập trình sklearn, C

càng lớn thì SVM càng bị phạt nặng

Trang 16

Hình 2.16: Mức độ chấp nhận lỗi

Thủ thuật Kernel: Một Kernel là một hàm ánh xạ dữ liệu từ không gian ít chiều sang

không gian nhiều chiều hơn

Các kiểu Kernel: Tuyến tính, Đa thức, RBF, Sigmoid

ǁWǁ =

1ǁWǁ+ Khoảng cách từ điểm Xj nằm trên d+ là: d+ = |⟨ W xj⟩+b|

ǁWǁ = 1ǁWǁSuy ra mức lề m = d- + d+ = 2

ǁWǁVậy việc training trong giải thuật SVM tương đương với bài toán cực tiểu hóa có ràng buộcsau đây:

Cực tiểu hóa ¿W W >¿

2Với điều kiện:

- Sử dụng các điểm trong tập hỗ trợ để dự báo trong hàm quyết định => ít tốn dung lượng

- Có tính linh hoạt cao vì không bị vướng theo những quy luật tuyến tính cứng nhắc

Trang 17

Nhược điểm:

- Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không triệt để

- SVM chưa thể hiện tính xác suất trong phân lớp

Ứng dụng:

- Mô hình chẩn đoán bệnh: Biến target là cấc chỉ số dự xét nghiệm lâm sàng, thuật toán SVM sẽ đưa ra dự đoán về một số bênh như máu nhiễm mỡ, tiểu đường, …

- Là một mô hình được dùng phổ biến trong phân loại ảnh trong nhiều năm về trước

- Mô hình SVM có thể phân loại tin tức, xác định chủ đề của một đoạn văn bản, phân loại thư rác, phân loại cảm xúc văn bản

- Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại

và tổng quát hóa tập dữ liệu cho trước.”

Trang 18

Hình 2.18: Mô hình Decision Tree

2.2.3.3: Mô tả, kiến trúc:

● Entropy: Là một hàm đo độ tạp chất của một nút, cho thấy mức độ rối loạn của một nút cụ thể

Tạp chất là mức độ ngẫu nhiên, nó cho biết dữ liệu của chúng ta ngẫu nhiên như thế nào Entropy càng cao thì độ tinh khiết càng thấp và tạp chất càng cao

Trong Machine Learning, sử dụng Entropy để xác định được tạp chất của một nút cụ thể Đó

là cơ sở để phục vụ mục tiêu giảm độ không chắc chắn, tạp chất của dữ liệu Vì trong Decision Tree, đầu ra chủ yếu là Có hoặc Không

● Công thức Entropy:

Với một phân phối xác suất của một biến rời rạc x có thể nhận n giá trị khác nhau x1, x2, …xn:

Giả sử xác suất để x nhận các giá trị trên là: pi=p(x=xi)

Ký hiệu phân phối này là p = (p1, p2, …pn)

Entropy của phân phối này là:

Trang 19

Hình 2.19: Minh họa mô hình Decision Tree với các Feature

⇨ Nút Feature 3 có độ tạp chất nhiều hơn

Information Gain trong Cây quyết định: dựa trên sự giảm của hàm Entropy khi tập dữ

liệu được phân chia trên một thuộc tính Để xây dựng một Decision Tree, ta phải tìm tất cả thuộc tính trả về Information Gain cao nhất

+ Các bước tính Information Gain dựa trên hệ số Entropy để từ đó xác định các nút:

Bước 1: Tính hệ số Entropy của biến mục tiêu S có N phần tử với Nc phần tử thuộc lớp c

Bước 2: Tính hàm số Entropy tại mỗi thuộc tính: với thuộc tính x, các điểm dữ liệu trong S

được chia ra K child node S1, S2, …, SK với số điểm trong mỗi child node lần lượt là m1, m2 , …, mK , ta có:

Giải pháp đưa ra là ta có thể dừng cây dựa trên một số tiêu chuẩn:

- Dừng nếu node có Entropy = 0

- Hạn chế chiều sâu của tree khi giới hạn khoảng cách root node và node bất kỳ

- Entropy giảm không đáng kể khi chia lớp

- Chấp nhận một số điểm bị phân sai lớp, và ra quyết định cho số class cho leaf node dựa trên class chiếm đa số trong node

- Dừng tại một ngưỡng leaf node theo quy định

Ưu điểm:

- Có nhiều quy tắc dễ hiểu cho người đọc, tạo ra bộ luật với mỗi nhánh lá là một luật của cây

- Không yêu cầu dữ liệu phải chuẩn hóa hoàn toàn, vẫn chấp nhận missing data

- Có thể xử lý nhiều kiểu dữ liệu khác nhau

- Xử lý tốt một lượng lớn dữ liệu trong thời gian ngắn

Nhược điểm:

Trang 20

- Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian vì chỉ cần một sự thay đổi nhỏ trong dữ liệu, cả cả cây dữ liệu có thể thay đổi toàn bộ.

- Chi phí xây dựng mô hình cao

- Dễ bị overfitting

Ứng dụng:

- Xử lý tốt dữ liệu dạng bảo biểu với số thuộc tính không quá lớn

- Không phù hợp khi số lượng thuộc tính bùng nổ ( như dữ liệu văn bản, hình ảnh, video, âm thanh,…)

2.2.4 Lý thuyết – mô tả phương pháp Neural Network

2.2.4.1 Khái niệm:

- Neural Network hay mạng nơron thần kinh nhân tạo là một mô hình toán học phức tạp có khả năng xác định, xử lý thông tin, giải quyết các vấn đề phổ biến trong Machine Learning, Deep Learning, trí tuệ nhân tạo AI hay tìm kiếm tất cả mối quan hệ cơ bản trong một tập hợp các dữ liệu

- Phương pháp lấy cảm hứng từ cách thức hoạt động của tế bào thần kinh và khớp thần kinh

từ bộ não con người Mạng nơron là một mạng gồm các nút cơ bản, đôi khi được gọi là nơ-ron Một mạng lưới các nút được hình thành bởi một tập hợp các nút như vậy

Hình 2.20: Mô phỏng cơ chế hoạt động của nơ-ron từ bộ não con người

- Các thuật toán trong phương pháp này được sử dụng với mục đích xác định và nhận ra tất

cả các mối quan hệ có trong các tập dữ liệu

- Phương pháp có khả năng thích ứng rất tốt (rất nhạy) với sự thay đổi từ input Vì thế, phương pháp này vẫn có thể đưa ra được mọi kết quả (output) một cách tốt nhất mà không tác động nhiều đến thiết kế dữ liệu đầu ra

Trang 21

Hình 2.21: Mô hình Neural Network

2.2.4.2 Đặc điểm

- Neural network hoạt động như mạng nơ-ron trong bộ não con người Mỗi nơ-ron thần kinh trong đó đại diện cho hàm toán học với chức năng thu thập và phân loại các thông tin cần thiết dựa vào cấu trúc cụ thể.”

- Chứa các nút được liên kết lại với nhau trong những lớp bao hàm, trong đó mỗi nút có cấu tạo gần giống với hàm hồi quy đa tuyến tính và với những phương pháp thống kê Từ các lớp liên kết chặt chẽ với nhau bên trong một lớp tri giác đa lớp có thứ tự, quy tắc phân bổ Lớp đầu vào sẽ thu thập các mẫu dữ liệu đầu vào và lớp đầu ra sẽ dựa vào đó mà thu nhận các phân loại hoặc tín hiệu đầu ra.”

2.2.4.3 Mô tả, kiến trúc Neural Network

Neural network là sự kết hợp hoàn hảo của những tầng perceptron, gồm 3 kiểu tầng:

- Input layer: Nằm ở phía bên trái của Neural Network, đại diện cho các đầu vào của Neural Network

- Output layer: Nằm ở phía trên bên phải, đại diện cho những đầu ra của Neural Network

- Hidden layer: Nằm xem giữa hai tầng vào và tầng ra thể hiện cho quá trình suy luận logic của Neural Network

Đặc biệt, mỗi một Neural Network chỉ có duy nhất một tầng vào và 1 tầng ra nhưng tầng ẩn thì không bắt buộc số lượng như vậy.

Ưu điểm

Cho phép xây dựng một mô hình tính toán có khả năng học dữ liệu rất cao khi có thể chất chứa nhiều đầu vào, đầu ra hay thậm chí học được sự liên kết ẩn sâu, không hiện rõ của 2 bộ dữ liệu.Nhược điểm

Người sử dụng mô hình này phải có kinh nghiệm để chọn bộ dữ liệu huấn luyện có những thông

số hợp lý, dễ phân tích Mô hình này cũng không có cách tổng quát để đánh giá hoạt động thực sự bên trong mạng

Ứng dụng

- Nhận dạng chữ viết tay, nhận diện khuôn mặt, nhận dạng giọng nói: Neural Network có

thể chuyển đổi các ký tự viết tay thành ký tự kỹ thuật số mà máy tính đọc được

- Dự đoán các giao dịch chứng khoán, tài chính: vì có tính năng kiểm tra, theo dõi các

yếu tố ảnh hưởng đến sự vận động của các mã chứng khoán hàng ngày

Trang 22

- Nén hình ảnh, dữ liệu, …

- Neural Network có thể tìm ra con đường giao hàng tối ưu để giao hàng giúp giảm thiểu chi phí vận chuyển.

- Thị giác máy tính: Neural Network có thể trích xuất dữ liệu cũng như thông tin chuyên

sâu từ hình ảnh, video của máy tính:

Hình 2.22: Minh họa cách ứng dụng tính năng thị giác máy tính

- Kiểm duyệt nội dung để tự động loại bỏ các nội dung không an toàn khỏi kho lưu trữ hình ảnh, video

- Phân tích dữ liệu hành vi trên các nền tảng mạng xã hội để đưa ra phương pháp tiếp thị hợp lý

2.3 Một số phương pháp đánh giá mô hình phân lớp

2.3.1 Confusion Matrix (Ma trận nhầm lẫn)

Ma trận nhầm lẫn là một bố cục bảng có kích thước k x k ( k là số lượng lớp của dữ liệu) cụ thể cho phép trực quan hóa hiệu suất của một thuật toán Đây là một trong những kỹ thuật đo lường phổ biến nhất

và được sử dụng rộng rãi cho nhiều mô hình phân lớp Mỗi hàng của ma trận đại diện cho các cá thể trong một lớp thực tế và mỗi cột sẽ đại diện cho các cá thể trong một lớp được dự đoán hoặc ngược lại

Hình 2.23: Minh họa phương pháp ma trận nhầm lẫn (Confusion Matrix)

Để hình dung rõ hơn về ma trận nhầm lẫn sau đây chúng ta sẽ tìm hiểu về một ví dụ về dự án dự đoán khả năng chi trả khoản vay của khách hàng Bài toán dự báo khả năng chi trả này sẽ bao gồm 2 lớp: lớp

có khả năng chi trả là Positive và Negative là lớp không có khả năng chi trả:

● TP (True Positive): số lượng dự đoán chính xác về khách hàng có thể chi trả khoản vay

● TN (True Negative): số lượng dự đoán chính xác về khách hàng không đủ khả năng chi trảkhoản vay

Tiêu đề	Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng đủ điều kiện vay mua nhà
Tác giả	Trần Huỳnh Phước Ngọc, Bùi Minh Nhật, Lương Ngọc Hân, Huỳnh Ngọc Hoàng Uyên, Trần Phước Đoan Khánh, Trương Lê Hoài Ngân
Người hướng dẫn	Thái Kim Phụng
Trường học	Đại học UEH, Trường Kinh doanh, Khoa Công nghệ Thông tin Kinh doanh
Chuyên ngành	Khoa học dữ liệu
Thể loại	Đồ án cuối kỳ

Định dạng
Số trang	44
Dung lượng	5,69 MB