Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng đủ điều kiện vay mua nhà

44 1 0
Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng đủ điều kiện vay mua nhà

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bao gồm các phương pháp sau: Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, nghiên cứu khoa học từ các tạp chí uy tín có được, sau đó đọc và tổng hợp để rút ra những nội

Trang 1

ĐẠI HỌC UEHTRƯỜNG KINH DOANH

KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

ĐỒ ÁN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU GIẢNG VIÊN HƯỚNG DẪN : THÁI KIM PHỤNG

TÊN SINH VIÊN - MSSV : Trần Huỳnh Phước Ngọc - 31221024030

Trang 2

CHƯƠNG 1: GIỚI THIỆU 1.1.Lý do lựa chọn đề tài

Ngày nay, thời đại công nghệ phát triển mang đến cho con người nhiều cơ hội và tiềm lực mới để nâng cao, cải thiện đời sống , đồng thời cũng tạo nên những ảnh hưởng to lớn đến đời sống, xã hội Đơn cử là cách thức làm việc của mọi lao động, sự phát triển của công nghệ thông tin, đang từng bước thúc đẩy sự phát triển đổi mới nhanh chóng tại nhiều lĩnh vực Tài chính – ngân hàng là một trong số đó Lĩnh vực tài chính – ngân hàng có nhiều cơ hội đổi mới nhưng luôn tìm ẩn những rủi ro không lường trước được Chính bởi lẽ đó, sự phát triển của thị trường đã đặt ra nhiều thách thức cho Nhà nước, yêu cầu xây dựng chính sách và định hướng thị trường tài chính – ngân hàng với mục tiêu tận dụng, khai thác triệt để được các cơ hội, đồng thời phòng ngừa, khắc phục được những rủi ro, nguy cơ tiềm tàng Công nghệ số là một đáp án đúng đắn cho những yêu cầu trên, nó cho phép các tổ chức tài chính thu thập, phân tích và lưu trữ dữ liệu từ nhiều nguồn khác nhau Việc áp dụng trí tuệ nhân tạo, học máy và khai phá dữ liệu giúp phát hiện xu hướng, dự báo rủi ro tín dụng, tối ưu hóa quy trình và cung cấp thông tin chi tiết để đưa ra quyết định.

Nghiên cứu và ứng dụng dữ liệu khách hàng để đánh giá rủi ro tín dụng là xu hướng phổ biến trong ngành tài chính Bên cạnh việc tiếp cận và áp dụng các kỹ thuật phân tích dữ liệu hiện đại nhằm tìm kiếm những cơ hội và lợi ích lớn cho các tổ chức tài chính, việc đánh giá khả năng vay của khách hàng cũng là một yếu tố quan trọng Điều này giúp các công ty tài chính đưa ra quyết định thông minh về việc cấp vay hay từ chối vay cho khách hàng, từ đó giảm thiểu rủi ro tín dụng và tăng hiệu suất hoạt động Thêm vào đó, do sự phát triển của công nghệ thông tin và viễn thông, thông tin về khách hàng dễ dàng thu thập được từ nhiều nguồn khác nhau như hồ sơ tín dụng, lịch sử giao dịch, dữ liệu trực tuyến và xã hội, Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng vay sẽ giúp tiếp cận và phân tích các nguồn dữ liệu này để đưa ra những quyết định mang tính hiệu quả cao.

Trong bài nghiên cứu, trình bày về mô hình dự đoán khả năng vay có thể được xây dựng bằng cách áp dụng các thuật toán trí tuệ nhân tạo và học máy như học có giám sát, học không giám sát, Điều này mang lại tiềm năng lớn để tạo ra các công cụ và phương pháp hiệu quả để đánh giá khả năng vay của khách hàng Việc nghiên cứu dữ liệu khách hàng nhằm cung cấp những thông tin quan trọng về ưu và nhược điểm của từng khách hàng Qua đó tối ưu hóa quy trình vay mua nhà, công ty vừa có thể tăng cường khả năng cạnh tranh, tập trung vào các đối tượng khách hàng có tiềm năng và nâng cao trải nghiệm khách hàng, vừa có thể kiểm soát và giảm thiểu rủi ro tín dụng Với những lý do trên, dự án “Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng đủ điều kiện vay mua nhà” có thể mang lại nhiều giá trị cho ngân hàng nói riêng và những tổ chức tài chính nói chung.

1.2.Mục tiêu nghiên cứu

Dự án “Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng đủ điều kiện vay mua nhà” nhằm đáp ứng 2 mục tiêu:

 Nghiên cứu về các phương pháp tính toán cụ thể và chọn ra một phương pháp tối cho quá trình dự báo dữ liệu Từ đó đưa ra những mô hình hoạt động kinh doanh tốt nhất cho các doanh nghiệp.

 Dựa trên mô hình đã được xây dựng trong quá trình nghiên cứu, đưa ra kết luận về phân loại khách hàng và mục tiêu kinh doanh gắn liền với hành vi khách hàng, nhằm mang lại cho doanh nghiệp phương án kinh doanh hiệu quả nhất, đồng thời cũng đưa ra kết luận về những hạn chế của bài nghiên cứu.

1.3 Đối tượng và phương pháp nghiên cứu1.3.1.Đối tượng nghiên cứu

Mô hình khoa học dữ liệu và thuật toán phân lớp dữ liệu bảng bằng Neural Network để ứng dụng trong việc ra quyết định xem xét cho vay tín dụng.

Trang 3

Dữ liệu được thu thập từ Kaggle với thông tin của 614 khách hàng, bao gồm các thông tin: ID Khoản vay (Loan_ID), số người phụ thuộc (Dependents), giới tính (Gender), tình trạng hôn nhân (Married), học vấn (Education), tự làm chủ (Self_Employed), thu nhập của người nộp đơn (Applicantincome), thu nhập của người giám hộ (Coapplicantincome), số tiền vay (LoanAmount), thời hạn khoản vay (Loan_Amount_Term), lịch sử tín dụng (Credit_History), khu vực bất động sản (Property_Area), khoản vay_trạng thái (Loan_Status).

1.3.2.Phương pháp nghiên cứu1.3.2.1 Phương pháp nghiên cứu lý luận

“Tiến hành nghiên cứu, thu thập, chọn lọc và phân tích dữ liệu bằng cách đọc sách, báo, tài liệu nhằm tìm ra các quan niệm, quan điểm xây dựng cơ sở lý luận cho nghiên cứu, dự đoán các thuộc tính của đối tượng nghiên cứu, xây dựng sơ bộ lý luận Bao gồm các phương pháp sau:

 Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, nghiên cứu khoa học từ các tạp chí uy tín có được, sau đó đọc và tổng hợp để rút ra những nội dung cần thiết cho luận điểm của bài nghiên cứu.

 Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên lý thuyết và ứng dụng mô hình để dự báo nhằm kiểm định tính chính xác của mô hình.”

1.3.2.2 Phương pháp nghiên cứu thực tiễn

“Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thực tiễn:

Thông qua các thuật toán của phần mềm Orange - một công cụ mang tính trực quan để nghiên cứu về các thuật toán machine learning và thực hành khoa học dữ liệu phổ biến hiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên cứu.

Từ đó, xây dựng các mô hình dự báo và so sánh các kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất giúp các nhà đầu tư có quyết định chính xác khi cần có sự suy tính trong các lựa chọn đầu

Phân cụm dữ liệu (hay Phân cụm Học không nhãn; ) là một phương pháp trong lĩnh vực học máy, được sử dụng để nhóm các điểm dữ liệu tương đồng thành các nhóm tương tự nhau dựa trên các đặc trưng chung Trong quá trình phân cụm, các điểm dữ liệu được gom lại thành các cụm sao cho các điểm trong cùng một cụm có tính chất tương tự nhau và khác biệt so với các điểm thuộc vào các cụm khác Mỗi cụm có thể có các đặc trưng riêng phản ánh sự tương đồng giữa các điểm dữ liệu trong cụm đó Mục tiêu của phân cụm dữ liệu là tìm ra điểm chung đặc trưng giữa các đối tượng theo một độ đo nào đó mà không yêu cầu bất kỳ thông tin nhãn hay giám sát nào Đây là dữ liệu tự nhiên thường thấy trong thực tế.

Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác Phân cụm là một tác vụ chính của Data mining, và là một kỹ thuật phổ biến trong thống kê phân tích dữ liệu.

Trang 4

Hình 2.1: Mô tả quá trình phân cụm dữ liệu

2.1.1.2 Đặc điểm

Nhiệm vụ chính của phân cụm là tìm ra mẫu và sự tương đồng trong dữ liệu, giúp hiểu và phân tích thông tin một cách rõ ràng hơn.

Phân cụm thuộc nhóm phương pháp học không giám sát, hay còn gọi là không nhãn (Unsupervised learning) do ta không biết trước dữ liệu sẽ được phân thành bao nhiêu cụm, đây là sự khác biệt với bài toán Phân lớp.

Một phương pháp phân cụm tốt sẽ tạo ra các cụm có chất lượng cao đáp ứng những tiêu chí sau:

- Các điểm dữ liệu bên trong cụm có độ tương đồng cao - Giữa các cụm phải có độ tượng tự thấp

2.1.1.3 Các ứng dụng của phân cụm dữ liệu

Do phân cụm dữ liệu có tính ứng dụng cao giúp đưa ra những kết quả chính xác nên được sử dụng rộng rãi trong nhiều lĩnh vực của cuộc sống, cụ thể như:

Lĩnh vực kinh doanh:

- Phân định đối tượng khách hàng, phân loại sản phẩm, phân loại kênh tiếp thị: phân cụm dựa trên các thông tin như hành vi mua hàng, độ tuổi, sản phẩm, … để tạo chiến lược tiếp thị, tối ưu hoá dịch vụ khách hàng và phát triển sản phẩm mới theo chiến lược mà kết quả cho ra

- Nhiều công ty thương mại điện tử áp dụng để bán hàng qua nhiều nước thông qua các trang web của họ Một trong những công ty nổi tiếng nhất ứng dụng điều hành này là Amazon; họ sử dụng các kỹ thuật khai phá dữ liệu để lái “những người đã xem sản phẩm đó cũng thích sản phẩm được giới thiệu này”

Lĩnh vực y tế:

- Dự báo bệnh tật: phân loại bệnh nhân thành các nhóm rủi ro khác nhau, giúp dự báo nguy cơ mắc bệnh hoặc các biến chứng tiềm năng, từ đó đưa ra các biện pháp phòng ngừa và can thiệp sớm hơn Tìm ra mối quan hệ giữa các loại bệnh và hiệu quả của phương pháp điều trị sẽ giúp thay đổi các loại thuốc mới hoặc đảm bảo rằng bệnh nhân được chăm sóc phù hợp, kịp thời.

Lĩnh vực công nghệ thông tin:

Trang 5

- Phát hiện gian lận: phát hiện các hành vi gian lận trong lĩnh vực bảo mật mạng, ví dụ như phát hiện tin tặc hoặc xác định các nhóm nguy hiểm dựa trên hành vi tấn công.

- Phân loại tin tức và phân tích ý kiến: tổ chức tin tức hoặc bài viết thành các nhóm dựa trên nội dung, chủ đề hoặc nguồn thông tin Nó cũng có thể được sử dụng để phân tích ý kiến từ các nguồn dữ liệu khác nhau, như mạng xã hội hoặc diễn đàn, để hiểu quan điểm của người dùng về một vấn đề cụ thể.

Lĩnh vực giáo dục:

- Phân cụm dữ liệu có thể giúp dự đoán khả năng thành công học tập của học sinh dựa trên các yếu tố như chỉ số học tập, động lực, sự tương tác xã hội và thói quen học tập Điều này giúp giáo viên và nhà trường đưa ra các biện pháp hỗ trợ nhằm nâng cao tỷ lệ hoàn thành và thành công học tập.

- Tuy nhiên, ứng dụng trong lĩnh vực giáo dục vẫn chưa thực sự được phát huy mạnh mẽ trong thời điểm hiện tại bởi vì sự mới mẻ của việc áp dụng công nghệ ở Việt Nam, cũng như những chi phí nhất định cho việc áp dụng kỹ thuật này vào hệ thống giáo dục.

Lĩnh vực sinh học:

- Phân loại gen: Phân cụm dữ liệu có thể được sử dụng để phân loại gen dựa trên sự giống nhau về cấu trúc hoặc chức năng Điều này giúp trong việc hiểu và phân tích các bộ gen, nhận biết đặc điểm di truyền và tìm kiếm liên kết giữa các gen và bệnh tật.

- Phân lớp loại sinh vật: phân lớp và phân loại các loài sinh vật dựa trên đặc điểm hình thái, di truyền hoặc mô hình sinh thái Điều này hỗ trợ trong việc nghiên cứu, bảo tồn và hiểu sâu về các loài sinh vật.

2.1.2 Các phương pháp phân cụm

Một số phương pháp phân cụm chính có thể kể đến như sau:

Dựa trên phân cấp

Xây dựng nhiều phân hoạch và chọn cách tốt nhất ( sai số tối thiểu )

means, K-medoids,Fuzzy C-means Dựa trên mật độ

(Density-based approach) Dựa trên mật độ kết nối OPTICS,DenClueDBSCAN, Dựa trên lưới

(Grid-based approach) Dựa trên cấu trúc của lưới

STING, Wave Cluster,CLIQUE Dựa trên mô hình

(Model-based) Xác định mô hình cho mỗi cluster

EM, SOM, COBWEB Dựa trên cấu trúc phân cụm, Clustering có 2 dạng tổng quát: Phân cụm phân cấp (Hierarchical Clustering) và Phân cụm phân hoạch (Partitioning approach)

2.1.2.1 Phân cụm phân cấp (Hierarchical Clustering)

Trang 6

Hình 2.2: Tổng quan quá trình phân cụm phân cấp

Phân cụm phân cấp là phương pháp phân tích cụm bằng việc tổ chức các đối tượng thành một đồ thị có cấu trúc dạng cây, có các nhánh là các cụm mong muốn Cây phân cấp được xây dựng cho dữ liệu cần gom cụm dựa trên:

● Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix) ● Độ đo khoảng cách giữa các cụm (single link, complete link…)

Theo phương pháp này, chúng tạo ra những biểu diễn phân cấp trong đó các cụm ở mỗi cấp của hệ thống phân cấp được tạo bằng cách hợp nhất các cụm ở cấp độ thấp hơn bên dưới Ở cấp thấp nhất, mỗi cụm chứa một quan sát Ở cấp cao nhất, chỉ có một cụm chứa tất cả dữ liệu Thứ tự cấp bậc của các cụm này tạo thành một cấu trúc cây Dendrogram.

Trang 7

Hình 2.3: Đồ thị Dendrogram

Ngược lại với phương pháp K-Means, phương pháp phân cụm phân cấp (Hierarchical Clustering) không cần xác định trước số cụm nhưng cần xác định điều kiện dừng

Các phương pháp điển hình bao gồm: Agnes và Diana.

F

Trang 8

Hình 2.4: Minh họa quá trình phân cụm theo phương pháp AGNES và DIANA

+ AGNES: Trên thực tế, đây là phương pháp được sử dụng phổ biến Agglomerative sử dụng chiến lược Bottom up (từ dưới lên), nghĩa là quá trình phân cụm bắt đầu với những cụm chỉ là 1 phần tử Sau đó trong các bước tiếp theo, hai cụm nhỏ ở gần nhau sẽ tập hợp lại thành một cụm lớn hơn Khoảng cách giữa 2 cụm là khoảng cách gần nhất hoặc khoảng cách trung bình giữa 2 điểm từ hai cụm khác nhau Số lượng cụm ở tập dữ liệu sẽ giảm đi một ở mỗi bước Quá trình này sẽ là vòng lặp cho đến khi tất cả các cụm nhỏ tập hợp lại một cụm lớn duy nhất Kết quả quá trình là tạo thành một dendrogram (cây phân cấp).

Hình 2.5: Minh họa phương pháp phân cụm AGNES

Dendrogram của phương pháp Agnes:

Hình 2.6: Dendrogram của phương pháp AGNES

+ DIANA: Ngược lại với AGNES, phương pháp này sử dụng chiến lược Top down (từ trên xuống), nghĩa là phân chia bắt đầu với tất cả phần tử cùng nằm trong một cụm lớn Sau đó trong các bước tiếp theo, cụm lớn ban đầu được chia thành 2 cụm Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình Các cụm mới được tách ra sẽ được phân tách ra theo phương pháp đệ quy (Recursive) và tạo thành vòng lặp cho đến khi mỗi phần tử là 1 cụm đại diện cho riêng nó Kết quả của quá trình là tạo thành một cây phân cấp (dendrogram).

Trang 9

Hình 2.7: Minh họa phương pháp phân cụm DIANA

Dendrogram của phương pháp Diana:

Hình 2.8: Dendrogram của phương pháp DIANA

● Một số phương pháp tính khoảng cách (Distance)

- Single linkage: Phương pháp này đo lường sự khác biệt giữa hai cụm bằng cách lấy ra cặp điểm gần nhất giữa hai cụm Độ đo sự khác biệt được tính theo công thức:

- Complete linkage: Phương pháp này đo lường sự khác biệt giữa hai cụm bằng cách lấy ra

hai cặp điểm xa nhau nhất giữa hai cụm.

Trang 10

- Average linkage: Phương pháp này sẽ lấy trung bình toàn bộ khoảng cách giữa các cặp

điểm được lấy từ hai cụm Chúng ta sẽ có tổng cộng N1N2 cặp điểm Như vậy khoảng cách sẽ được tính bằng:

- Mean: khoảng cách giữa các điểm trung bình (mean) của 2 cụm

dist(C ,Cij) = |m - m |ij

Với m và m là trung bình của các phần tử trong cụm C và Cijij

- Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm.

dist(C ,Cij) = dist(ci,c )

Với c và c lần lượt là các trọng tâm của cụm C , Cijij

- Medoid: khoảng cách giữa các trung tâm cụm (medoid) của 2 cụm dist(C ,Cij) = dist(Mi,M )j

Medoid là phần tử nằm ở trung tâm cụm

Với M và M là trung tâm của các phần tử trong cụm C và Ci ji j

2.1.2.2 Phân cụm phân hoạch (Partitioning approach):

Đây là phương pháp phân cụm ‘one-level’, tức một cấp, các cluster không được thể hiện dưới dạng cấp bậc Phương pháp này phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau và mỗi cụm có ít nhất 1 phần tử Điển hình cho phương pháp phân cụm phân hoạch là: Thuật toán K-Means và các biến thể của nó như K-Medoid, Fuzzy C-Means…

Thuật toán K-Means: là thuật toán kinh điển được sử dụng rất rộng rãi trong thực tế và nó có thể được biến đổi để thích hợp cho từng bài toán cụ thể, và nó nằm trong nhóm các phương pháp phân hoạch Tư tưởng chính của thuật toán K-Means đó chính là ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng) Phương pháp K-MEANS được thể hiện bằng các bước sau:

Bước 1: Khởi tạo các trung tâm cụm ban đầu: Chọn ngẫu nhiên K điểm từ tập dữ liệu làm trung tâm

cho từng cụm ban đầu.

Bước 2: Gán các điểm dữ liệu vào cụm gần nhất: Nếu các điểm dữ liệu ở từng cụm vừa được phân

chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật toán.

Bước 3: Cập nhật lại trung tâm cụm: Tính toán lại vị trí trung tâm cụm bằng cách lấy trung bình của

tất cả các điểm thuộc cùng một cụm sau khi phân chia ở bước 2.

Bước 4: Quay lại bước 2 cho đến khi không có sự thay đổi đáng kể trong việc gán các điểm dữ liệu

hoặc đạt được một tiêu chuẩn dừng nhất định.

2.1.3.Các phương pháp đánh giá chất lượng phân cụm dữ liệu:

Đánh giá chất lượng phân cụm dữ liệu là một bước quan trọng nhằm đảm bảo tính chính xác, độ tin cậy của dữ liệu được xử lý dựa trên một số tiêu chí:

+ Độ nén (compactness): các phần tử của cụm phải “gần nhau”

+ Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõ ràng Có 3 phương pháp chủ yếu đánh giá việc phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối.

Trang 11

- Đánh giá ngoài (external validation): đánh giá kết quả phân cụm dựa vào xu hướng, cấu trúc phân cụm được chỉ định trước cho tập dữ liệu Các độ đo được sử dụng: Rand statistic, Jaccard coefficient, Fowlkes và Mallows index…

- Đánh giá nội bộ (internal validation): đánh giá kết quả phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của dữ thông qua ma trận xấp xỉ (proximity matrix) Các độ đo được sử dụng: Hubert’s statistic, Silhouette index, Dunn’s index, F-ratio, DBI (Davies Bouldin Index) ….

- Silhouette index: nằm trong khoảng [-1,1] Trong đó,

● Si ≥ 0.5 : Sát thực tế

● 0.25 ≤ Si < 0.5: cần đánh giá lại (Theo kinh nghiệm của chuyên gia) ● Si < 0.25: Không tin tưởng vào cluster, tìm phương pháp đánh giá khác

- Đánh giá tương đối (relative validation): Đánh giá việc phân cụm bằng cách so sánh nó với kết quả gom cụm ứng với các bộ trị thông số khác nhau, kết quả gom cụm của các phương pháp khác.

2.2 Phân lớp dữ liệu

2.2.1 Lý thuyết – mô tả phương pháp Hồi quy Logistic (Logistic Regression)2.2.1.1 Khái niệm

Hồi quy Logistic là một mô hình xác suất dự đoán giá trị đầu ra rời rạc (output) từ một tập các giá trị đầu vào (input) bằng cách dùng toán học để tìm xem hai yếu tố dữ liệu có quan hệ gì, từ đó dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại

2.2.1.2 Đặc điểm

● Về cơ bản, đây là một thuật toán phân loại có giám sát.

● Mô hình này dùng các hàm logarit (được biểu diễn dưới dạng vector).

● Dự báo của phương pháp này là bất kì giá trị nhị phân nào, như True/False, 0/1, -1/1, Nam hoặc Nữ dựa vào input (giá trị đầu vào).

● Bản chất là phương pháp hồi quy tuyến tính áp dụng trong bài toán phân loại, đòi hỏi sự độc lập của các quan sát.

2.2.1.3 Mô tả, kiến trúc:

Hình 2.9: Phân lớp bằng hồi quy Logistic

Trang 12

● Phương pháp hồi quy Logistic được dùng cho các bài toán phân loại nhị phân, các bài toán có 2 lớp giá trị, ước tính xác suất của các sự kiện hay xác định mối quan hệ giữa các thông tin đặc trưng và xác suất kết quả Trong hồi quy Logistic, ta cần một hàm số có tác dụng chiếu giá trị dự báo lên không gian xác suất nằm trong khoảng [0,1] Vì vậy, trong mô hình này ta có:

Input: dữ liệu đầu vào ta sẽ xem như có hai nhãn là Male và FemaleOutput: Xác suất để dữ liệu đầu vào rơi vào nhãn Male hoặc nhãn Female

Decision Boundary: Đường phân loại các lớp dữ liệu từ các điểm dữ liệu ban đầu (x: Male và

x: Female) Đối với hồi quy Logistic, ta sẽ biết được xác suất mỗi điểm rơi vào nhãn x và cũng x

như giữa và có một đường xxDecision Boundary.

● Hàm hồi quy Logistic chạy kết quả thông qua một hàm non-linear (phi tuyến tính).Đó là hàm Logistic hay sigmoid với khả năng tạo ra xác suất p.

● Công thức hồi quy của model hồi quy Logistic: Với log( p

1− p), ta có xác suất p:

1+e−( h0 +h 1 x 1+…+hnxn)

S0 (ký hiệu hàm Logistic Regression): là hàm sigmoid với đầu ra là một số có giá trị từ 0 đến 1 được định nghĩa với công thức:

So (t)= 1 1+exp exp(−t ) Đồ thị:

Hình 2.10: Đồ thị phương trình hồi quy Logistic

Dưới góc nhìn của graphic model thì mô hình hồi quy Logistic có dạng:

Trang 13

Hình 2.11: Minh họa mô hình Hồi quy Logistic

Đồ thị trên gồm 2 bước:

Bước 1: Kết hợp tuyến tính:

Ta có các node (hình tròn) và các mũi tên minh họa cho các biến đầu vào và các hướng tính toán của đồ thị Cuối cùng ta kết hợp tuyến tính các node để tính ra đầu ra ^y.

⇨ Bước này tương đương với quá trình dự báo trong hồi quy tuyến tính.

Bước 2: Biểu diễn hàm Sigmoid

Giá trị ^y lại tiếp tục được đưa qua hàm σ để tính xác suất P(y = 1) ở output Ưu điểm

- Đầu ra của hồi quy Logistic là xác định.

- Không yêu cầu bất kỳ dạng phân phối cụ thể nào của các biến độc lập.

- Không yêu cầu mối quan hệ tuyến tính giữa các biến độc lập và các biến phụ thuộc - Ít phức tạp và có cường độ điện toán ít hơn so với Deep Learning => Các phép toán hồi quy Logistic minh bạch và dễ khắc phục sự cố.

- Phương pháp này có thể giải quyết được hiệu ứng phi tuyến tính ngay cả khi các số hạng mũ và đa thức không được thêm vào một cách rõ ràng dưới dạng các biến độc lập bổ sung vì mối quan hệ logistic.

Nhược điểm

- Hồi quy Logistic không thể xử lý một số lượng lớn các tính năng phân loại=> không cung cấp độ chính xác tốt đối với những bài toán dự đoán cần nhiều tính năng phân loại.

- Không thể áp dụng cho một bài toán phi tuyến tính, dễ bị overfitting.

- Hồi quy Logistic hoạt động kém với các biến độc lập không tương quan với mục tiêu và tương quan với nhau.

Trang 14

Ứng dụng

- Sản xuất: Các công ty áp dụng phương pháp để ước tính xác suất xảy ra sự cố ở bộ phận trong máy móc, dựa trên xác suất đã ước tính để lên lịch bảo trì nhằm giảm thiểu sự cố trong tương lai.

- Tài chính: Các công ty tài chính phải phân tích các giao dịch tài chính để đề phòng gian lận, xem xét xác đơn xin vay và đơn bảo hiểm để đề phòng rủi ro hay đưa ra phương án đầu tư hợp lý Vì phương pháp sẽ giúp phân loại các đơn ở các xếp hạng: rủi ro cao, rủi ro thấp, đầu tư mạo hiểm hay an toàn, tín nhiệm cao hay thấp, …

- Y tế: Dự đoán khả năng mắc bệnh của bệnh nhân hoặc tính toán tác động của gen di truyền, … - Dịch vụ quảng cáo, tiếp thị: Dự đoán khả năng người dùng nhấp vào quảng cáo, nghiên cứu phản ứng của người với những content trên mạng xã hội vì mục đích quảng bá sản phẩm hiệu quả

2.2.2 Lý thuyết – mô tả phương pháp SVM (Support Vector Machines)

2.2.2.1 Khái niệm: Trong các bài toán phân lớp hay đệ quy, SVM nhận dữ liệu vào sau đó phân loại

chúng vào các lớp khác nhau bằng cách thiết lập một siêu phẳng trong không gian nhiều chiều làm mặt phẳng phân cách dữ liệu Phương pháp này xem dữ liệu như những vector.

Hình 2.12: Minh họa khái niệm SVM

2.2.2.2 Đặc điểm:

- Đây là một thuật toán có giám sát.

- SVM có nhiều biến thể tương thích với nhiều loại bài toán phân loại - Thường được sử dụng để xử lý ảnh, phân loại văn bản, phân tích quan điểm.

2.2.2.3 Mô tả, kiến trúc:

- Với mục tiêu là tìm ra một siêu phẳng (hype lane) trong không gian N chiều (ứng với N tính năng), SVM giúp phân tách các điểm dữ liệu ( phân chia 2 lớp dữ liệu tương ứng).

Hình 2.13: Mô hình SVM

Trang 15

- Để kết quả phân lớp tốt nhất thì phải xác định siêu phẳng tách biệt nhất có thể về khoảng cách với các điểm dữ liệu (margin)

- Cách chọn siêu phẳng tối ưu: + Sử dụng Support Vector:

Siêu phẳng phân tách hai lớp dữ liệu H0 thỏa mãn <W.Xi>+b=0 Siêu phẳng này tạo ra nửa không gian dữ liệu âm Xi thỏa mãn <W.Xi>+b ≤ -1 và nửa không gian dữ liệu lớp dương Xj thỏa mãn <W.Xi

>+b ≥ 1 Support Vector H1 đi qua các điểm lớp âm, gần siêu phẳng H0 nhất và H2 đi qua các điểm thuộc lớp dương, gần siêu phẳng H0 nhất

H1 : <W.X> + b =-1

H2 : <W.X> + b =1

Hình 2.14: Siêu phẳng tối ưu và Support Vectord- là khoảng cách giữa support vector H1 và H0.

d- là khoảng cách giữa support vector H2 và H0.

m = d- + d+: mức lề

Siêu phẳng tối ưu là siêu phẳng phân tách có lề lớn nhất, từ đó sẽ giúp bài toán giảm thiểu tối đa các lỗi mắc phải.

Nếu dữ liệu không thể phân chia tuyến tính, ta có thể dùng:

Lề mềm: Cho phép SVM mắc một số lỗi nhất định vì mục tiêu chung là giữ cho lề càng rộng

càng tốt (tối đa hóa lề) để các điểm khác vẫn được phân loại chính xác

Có hai kiểu phân loại sai có thể xảy ra: Dữ liệu nằm đúng bên nhưng phạm vào lề, dữ liệu nằm sai bên.

Hình 2.15: Minh họa Soft margin

Mức độ chấp nhận lỗi: Được xem như một tham số phạt (C) trong lập trình sklearn, C

càng lớn thì SVM càng bị phạt nặng.

Trang 16

Hình 2.16: Mức độ chấp nhận lỗi

Thủ thuật Kernel: Một Kernel là một hàm ánh xạ dữ liệu từ không gian ít chiều sang

không gian nhiều chiều hơn

Các kiểu Kernel: Tuyến tính, Đa thức, RBF, Sigmoid

+ Việc xác định siêu phẳng H0 được giả sử trong điều kiện lý tưởng: tập dữ liệu có thể phân tách tuyến tính, tìm được hai siêu phẳng lề H và H mà không có điểm dữ liệu nào nằm giữa chúng.12

Ưu điểm:

- SVM có thể xử lý trên không gian số chiều cao Cho nên có thể áp dụng tốt cho các bài toán phân loại văn bản và phân tích quan điểm nơi chiều có thể cực kỳ lớn.

- Sử dụng các điểm trong tập hỗ trợ để dự báo trong hàm quyết định => ít tốn dung lượng - Có tính linh hoạt cao vì không bị vướng theo những quy luật tuyến tính cứng nhắc

Trang 17

Nhược điểm:

- Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không triệt để - SVM chưa thể hiện tính xác suất trong phân lớp.

Ứng dụng:

- Mô hình chẩn đoán bệnh: Biến target là cấc chỉ số dự xét nghiệm lâm sàng, thuật toán SVM sẽ đưa ra dự đoán về một số bênh như máu nhiễm mỡ, tiểu đường, …

- Là một mô hình được dùng phổ biến trong phân loại ảnh trong nhiều năm về trước - Mô hình SVM có thể phân loại tin tức, xác định chủ đề của một đoạn văn bản, phân loại thư rác, phân loại cảm xúc văn bản.

- Phát hiện gian lận

2.2.3 Phương pháp cây ra quyết định Decision Tree2.2.3.1 Khái niệm:

- Trong lý thuyết quản trị, cây quyết định là mô hình hỗ trợ việc đưa ra quyết định dựa trên các mối liên hệ tính toán của các quyết định cùng các kết quả khả dĩ

- Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.”

2.2.3.2 Đặc điểm:

- Là một thuật toán đơn giản, bắt đầu với một Root Notes và kết thúc bằng một quyết định của các lá.

- Các thuộc tính có thể thuộc vào nhiều kiểu dữ liệu khác nhau như Định danh, Nhị phân, Thứ tự, …và thuộc tính phân lớp phải có kiểu dữ liệu là Nhị phân hoặc Thứ tự.”

- Cây quyết định gồm hai loại là cây hồi quy (ước lượng các hàm có giá trị là số thực: ước tính một ngôi nhà, thời gian hoa nở, …) và cây phân loại (biến y là một biến phân loại: Nam hoặc Nữ, Có hoặc Không, …) Mỗi nút trong (internal node) tương ứng với một biến, mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu.

Trang 18

Hình 2.18: Mô hình Decision Tree

2.2.3.3: Mô tả, kiến trúc:

Entropy: Là một hàm đo độ tạp chất của một nút, cho thấy mức độ rối loạn của một nút cụ thể

Tạp chất là mức độ ngẫu nhiên, nó cho biết dữ liệu của chúng ta ngẫu nhiên như thế nào Entropy càng cao thì độ tinh khiết càng thấp và tạp chất càng cao

Trong Machine Learning, sử dụng Entropy để xác định được tạp chất của một nút cụ thể Đó là cơ sở để phục vụ mục tiêu giảm độ không chắc chắn, tạp chất của dữ liệu Vì trong Decision Tree, đầu ra chủ yếu là Có hoặc Không.

Công thức Entropy:

Với một phân phối xác suất của một biến rời rạc x có thể nhận n giá trị khác nhau x1, x2, … xn:

Giả sử xác suất để x nhận các giá trị trên là: pi=p(x=xi) Ký hiệu phân phối này là p = (p1, p2, …pn)

Entropy của phân phối này là:

Trang 19

Hình 2.19: Minh họa mô hình Decision Tree với các Feature

⇨ Nút Feature 3 có độ tạp chất nhiều hơn

Information Gain trong Cây quyết định: dựa trên sự giảm của hàm Entropy khi tập dữ

liệu được phân chia trên một thuộc tính Để xây dựng một Decision Tree, ta phải tìm tất cả thuộc tính trả về Information Gain cao nhất.

+ Các bước tính Information Gain dựa trên hệ số Entropy để từ đó xác định các nút:

Bước 1: Tính hệ số Entropy của biến mục tiêu S có N phần tử với Nc phần tử thuộc lớp c

Bước 2: Tính hàm số Entropy tại mỗi thuộc tính: với thuộc tính x, các điểm dữ liệu trong S

được chia ra K child node S1, S2, …, SK với số điểm trong mỗi child node lần lượt là m1, m2 , …, mK , ta có:

H(x, S) = ∑Kk=1 (mk / N) * H(Sk )

Bước 3: Chỉ số Gain Information được tính bằng:

G (x, S) = H(S) – H (x, S)

Ta có thể sử dụng thuật toán ID3, C4.5 để mô tả cách hoạt động của Decision Tree Tiêu chuẩn dừng: Nếu chia mãi các node vẫn chưa tinh khiết, ta sẽ thu được một cây quyết định rất phức tạp, vài điểm dữ liệu lại có nhiều leaf node => Overfitting.

Giải pháp đưa ra là ta có thể dừng cây dựa trên một số tiêu chuẩn: - Dừng nếu node có Entropy = 0

- Hạn chế chiều sâu của tree khi giới hạn khoảng cách root node và node bất kỳ - Entropy giảm không đáng kể khi chia lớp.

- Chấp nhận một số điểm bị phân sai lớp, và ra quyết định cho số class cho leaf node dựa trên class chiếm đa số trong node.

- Dừng tại một ngưỡng leaf node theo quy định Ưu điểm:

- Có nhiều quy tắc dễ hiểu cho người đọc, tạo ra bộ luật với mỗi nhánh lá là một luật của cây.

- Không yêu cầu dữ liệu phải chuẩn hóa hoàn toàn, vẫn chấp nhận missing data - Có thể xử lý nhiều kiểu dữ liệu khác nhau.

- Xử lý tốt một lượng lớn dữ liệu trong thời gian ngắn Nhược điểm:

Trang 20

- Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian vì chỉ cần một sự thay đổi nhỏ trong dữ liệu, cả cả cây dữ liệu có thể thay đổi toàn bộ.

- Chi phí xây dựng mô hình cao - Dễ bị overfitting.

Ứng dụng:

- Xử lý tốt dữ liệu dạng bảo biểu với số thuộc tính không quá lớn

- Không phù hợp khi số lượng thuộc tính bùng nổ ( như dữ liệu văn bản, hình ảnh, video, âm thanh,…)

2.2.4 Lý thuyết – mô tả phương pháp Neural Network 2.2.4.1 Khái niệm:

- Neural Network hay mạng nơron thần kinh nhân tạo là một mô hình toán học phức tạp có khả năng xác định, xử lý thông tin, giải quyết các vấn đề phổ biến trong Machine Learning, Deep Learning, trí tuệ nhân tạo AI hay tìm kiếm tất cả mối quan hệ cơ bản trong một tập hợp các dữ liệu

- Phương pháp lấy cảm hứng từ cách thức hoạt động của tế bào thần kinh và khớp thần kinh từ bộ não con người Mạng nơron là một mạng gồm các nút cơ bản, đôi khi được gọi là nơ-ron Một mạng lưới các nút được hình thành bởi một tập hợp các nút như vậy.

Hình 2.20: Mô phỏng cơ chế hoạt động của nơ-ron từ bộ não con người

- Các thuật toán trong phương pháp này được sử dụng với mục đích xác định và nhận ra tất cả các mối quan hệ có trong các tập dữ liệu

- Phương pháp có khả năng thích ứng rất tốt (rất nhạy) với sự thay đổi từ input Vì thế, phương pháp này vẫn có thể đưa ra được mọi kết quả (output) một cách tốt nhất mà không tác động nhiều đến thiết kế dữ liệu đầu ra

Trang 21

Hình 2.21: Mô hình Neural Network

2.2.4.2 Đặc điểm

- Neural network hoạt động như mạng nơ-ron trong bộ não con người Mỗi nơ-ron thần kinh trong đó đại diện cho hàm toán học với chức năng thu thập và phân loại các thông tin cần thiết dựa vào cấu trúc cụ thể.”

- Chứa các nút được liên kết lại với nhau trong những lớp bao hàm, trong đó mỗi nút có cấu tạo gần giống với hàm hồi quy đa tuyến tính và với những phương pháp thống kê Từ các lớp liên kết chặt chẽ với nhau bên trong một lớp tri giác đa lớp có thứ tự, quy tắc phân bổ Lớp đầu vào sẽ thu thập các mẫu dữ liệu đầu vào và lớp đầu ra sẽ dựa vào đó mà thu nhận các phân loại hoặc tín hiệu đầu ra.”

2.2.4.3 Mô tả, kiến trúc Neural Network

Neural network là sự kết hợp hoàn hảo của những tầng perceptron, gồm 3 kiểu tầng: - Input layer: Nằm ở phía bên trái của Neural Network, đại diện cho các đầu vào của Neural Network.

- Output layer: Nằm ở phía trên bên phải, đại diện cho những đầu ra của Neural Network - Hidden layer: Nằm xem giữa hai tầng vào và tầng ra thể hiện cho quá trình suy luận logic của Neural Network

Đặc biệt, mỗi một Neural Network chỉ có duy nhất một tầng vào và 1 tầng ra nhưng tầng ẩn thì không bắt buộc số lượng như vậy.

Ưu điểm

Cho phép xây dựng một mô hình tính toán có khả năng học dữ liệu rất cao khi có thể chất chứa nhiều đầu vào, đầu ra hay thậm chí học được sự liên kết ẩn sâu, không hiện rõ của 2 bộ dữ liệu Nhược điểm

Người sử dụng mô hình này phải có kinh nghiệm để chọn bộ dữ liệu huấn luyện có những thông số hợp lý, dễ phân tích Mô hình này cũng không có cách tổng quát để đánh giá hoạt động thực sự bên trong mạng.

Ứng dụng

- Nhận dạng chữ viết tay, nhận diện khuôn mặt, nhận dạng giọng nói: Neural Network có

thể chuyển đổi các ký tự viết tay thành ký tự kỹ thuật số mà máy tính đọc được.

- Dự đoán các giao dịch chứng khoán, tài chính: vì có tính năng kiểm tra, theo dõi các

yếu tố ảnh hưởng đến sự vận động của các mã chứng khoán hàng ngày.

Trang 22

-Nén hình ảnh, dữ liệu, …

-Neural Network có thể tìm ra con đường giao hàng tối ưu để giao hàng giúp giảm thiểu chi phí vận chuyển.

- Thị giác máy tính: Neural Network có thể trích xuất dữ liệu cũng như thông tin chuyên

sâu từ hình ảnh, video của máy tính:

Hình 2.22: Minh họa cách ứng dụng tính năng thị giác máy tính

- Kiểm duyệt nội dung để tự động loại bỏ các nội dung không an toàn khỏi kho lưu trữ hình ảnh, video

- Phân tích dữ liệu hành vi trên các nền tảng mạng xã hội để đưa ra phương pháp tiếp thị hợp lý

2.3 Một số phương pháp đánh giá mô hình phân lớp2.3.1 Confusion Matrix (Ma trận nhầm lẫn)

Ma trận nhầm lẫn là một bố cục bảng có kích thước k x k ( k là số lượng lớp của dữ liệu) cụ thể cho phép trực quan hóa hiệu suất của một thuật toán Đây là một trong những kỹ thuật đo lường phổ biến nhất và được sử dụng rộng rãi cho nhiều mô hình phân lớp Mỗi hàng của ma trận đại diện cho các cá thể trong một lớp thực tế và mỗi cột sẽ đại diện cho các cá thể trong một lớp được dự đoán hoặc ngược lại.

Hình 2.23: Minh họa phương pháp ma trận nhầm lẫn (Confusion Matrix)

Để hình dung rõ hơn về ma trận nhầm lẫn sau đây chúng ta sẽ tìm hiểu về một ví dụ về dự án dự đoán khả năng chi trả khoản vay của khách hàng Bài toán dự báo khả năng chi trả này sẽ bao gồm 2 lớp: lớp có khả năng chi trả là Positive và Negative là lớp không có khả năng chi trả:

● TP (True Positive): số lượng dự đoán chính xác về khách hàng có thể chi trả khoản vay ● TN (True Negative): số lượng dự đoán chính xác về khách hàng không đủ khả năng chi trả khoản vay

Ngày đăng: 08/04/2024, 12:12

Tài liệu cùng người dùng

Tài liệu liên quan