đề tài sử dụng phương pháp phân cụm phân lớp giúp côngty dự đoán nhóm khách hàng mục tiêu

Việc phân tích và sử dụng dữliệu dựa vào ba nguồn tri thức: toán học thống kê toán học, công nghệ thông tin máyhọc và tri thức của lĩnh vực ứng dụng tùy theo từng hoàn cảnh của doanh ngh

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ

1 PHAN TRẦN SƠN BẢO

2 NGUYỄN ĐÌNH ĐẠI NHƠN

3 HỒ VIỄN TRIẾT Chuyên Ngành: KHOA HỌC DỮ LIỆU Khóa: K46

Giảng Viên: THS Trương Việt Phương

TP Hồ Chí Minh, Ngày 18 tháng 09 năm 2022

Trang 2

MỤC LỤC

MỤC LỤC 0

PHÂN CÔNG NHIỆM VỤ 0

CHƯƠNG 1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI CỦA NHÓM 0

1.1 Gi i thi u vềề Khoa h c d li u ớ ệ ọ ữ ệ 0

1.1.1 Khoa h c d ọ ữ ệ li u là gì ? 0

1.1.2 S phát tri n ự ể Khoa h c d li u ọ ữ ệ 0

1.1.3 ng d ng Ứ ụ c a Khoa h c d li u ủ ọ ữ ệ 0

1.2 Gi i thi u đềề tài c a nhóm ớ ệ ủ 0

1.2.1 Vấấn đềề cấền gi i quyềất ả 0

1.2.2 Mô T D Li u ả ữ ệ 0

CHƯƠNG 2 TIỀN XỬ LÝ DỮ LIỆU 0

2.1 Tr ng Thái D Li u ạ ữ ệ 0

2.2 X Lý D Li u ử ữ ệ 0

CHƯƠNG 3 KHAI THÁC DỮ LIỆU 0

3.1 Phấn C m ụ 0

3.1.1 Ph ươ ng Pháp Hierarchical Clustering 0

3.1.2 Ph ươ ng Pháp K-means 0

3.2 Phấn L p ớ 0

3.3 D Báo Và Đánh Giá ự 0

CHƯƠNG 4 KẾT LUẬN 0

4.1 Các Kềất Qu Đ t Đ ả ạ ượ 0 c 4.1.1 Tóm Tắất 0

4.1.2 Kềất Qu Đ t Đ ả ạ ượ 0 c 4.2 Nh ng H n Chềấ , H ữ ạ ướ ng Phát Tri n Và ng D ng ể Ứ ụ 0

4.2.1 H n Chềấ ạ 0

4.2.2 H ướ ng Phát Tri n Và ng D ng ể Ứ ụ 0

TÀI LIỆU THAM KHẢO 0

Trang 3

PHÂN CÔNG NHIỆM VỤ

góp

Phan Trần Sơn Bảo CHƯƠNG 1 GIỚI THIỆU VỀ

KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI CỦA NHÓM

CHƯƠNG 3 KHAI THÁC DỮ LIỆU

100%

Nguyễn Đình Đại

CHƯƠNG 3 KHAI THÁC DỮ LIỆU

100%

Hồ Viễn Triết CHƯƠNG 2 TIỀN XỬ LÝ DỮ LIỆU

CHƯƠNG 3 KHAI THÁC DỮ LIỆU 100%

2

Trang 4

CHƯƠNG 1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI

1.1.1.2 Tổng quan về Khoa học dữ liệu

Khoa học dữ liệu là ngành khoa học về việc khai phá, quản trị và phân tích dữ liệu để dựđoán các xu hướng trong tương lai và đưa ra các quyết định, chiến lược hành động Khoahọc dữ liệu có ba phần chính bào gồm: tạo và quản trị dữ liệu; phân tích dữ liệu; và ápdụng kết quả phân tích thành những hành động có giá trị Việc phân tích và sử dụng dữliệu dựa vào ba nguồn tri thức: toán học (thống kê toán học), công nghệ thông tin (máyhọc) và tri thức của lĩnh vực ứng dụng tùy theo từng hoàn cảnh của doanh nghiệp.Hiện nay, với sự phát triển mạnh mẽ của cách mạng công nghiệp 4.0 đã làm cho Big Datangày một trở thành 1 cơn sốt và vấn đề đối với các công ty bởi nó có thể đem lại lợi íchrất lớn cho các công ty nếu biết tận dụng nguồn dữ liệu khổng lồ đó Chính vì vậy, nhiềucông ty cần những người chuyên môn và thành thạo trong việc xử lý, quản lý, phân tích

và hiểu được xu hướng trong dữ liệu Cũng vì thế mà ngành Khoa học dữ liệu là 1 ngànhcàng ngày càng trở thành xu hướng và được người người săn đón trong những năm gầnđây

Để trở thành một nhà Khoa học dữ liệu thì các ta cần phải có các kỹ năng như phân tích,lập trình, và kiến thức chuyên ngành Chính vì thế, để theo học ngành Khoa học dữ liệu

ta cần học một số các môn chuyên ngành như: Thống kê áp dụng ; học các ngôn ngữ lậptrình, truy vấn; trực quan hóa dữ liệu; xác suất; khai phá dữ liệu

Thêm vào đó, người học sẽ được yêu cầu tìm hiểu về những công cụ chính phục vụ choviệc phân tích dữ liệu như các ngôn ngữ lập trình như: Python, R, Matlab; công cụ truyvấn cơ sở dữ liệu: SQL; công cụ thống kê: Microsoft Excel, Minitab; hệ thống phân tíchthống kê: SAS; các công cụ trực quan hóa dữ liệu – Tableau hay Power BI

Ngoài những kỹ năng “cứng” cần thiết kể trên, để trở thành một nhà khoa học dữ liệu hay

để có thể phát triển được trong ngành khoa học dữ liệu nói chung, bạn cần trang bị chomình những kỹ năng khác như: kỹ năng giao tiếp, kỹ năng đặt câu hỏi, sự nhạy bén trongkinh doanh, trực giác về dữ liệu

Too long to read on your phone? Save to

read later on your computer

Save to a Studylist

Trang 5

Quy trình phân tích của một nhà Khoa học dữ liệu gồm 5 bước chính:

- Bước 1: Đặt vấn đề và thu thập

Ở bước này, nhà khoa học dữ liệu phải đặt câu hỏi về vấn đề mà doanh nghiệp gặp phải

để trích xuất dữ liệu dựa trên vấn đề đó Dữ liệu được thu thập từ nhiều nguồn kênhthông tin sẵn có hoặc bằng các phương pháp thủ công hoặc kết hợp cả hai Sau đó, kiểmtra dữ liệu xem có phù hợp với mục tiêu hay không

Sau khi đã xác định được vấn đề, ta sẽ bắt đầu thu thập dữ liệu để giải quyết vấn đề Các

dữ liệu được thu thập cần phải có liên quan đến vấn đề được đề cập trước đó để có thểxây dựng một mô hình giải quyết vấn đề này một cách tốt hơn

- Bước 2: Tiền xử lí

Bước này chiếm tỷ trọng nhiều nhất trong quy trình Dữ liệu được thu thập thường sẽ

bị các lỗi như bị thiếu, bị nhiễu hoặc không có tính nhất quán Nhà khoa học dữ liệu

sẽ dành nhiều thời gian theo dõi dữ liệu một cách tỉ mỉ xem có lỗi hay không và từ đósửa lỗi để có bộ dữ liệu hoàn chỉnh phù hợp hơn trong các mô hình giải quyết vấn đề

- Bước 3: Chuyển đổi dữ liệu

Định dạng lại cấu trúc của dữ liệu nhằm giúp việc phân tích dễ dàng hơn và cải thiệnkết quả phân tích hơn

- Bước 4: Xây dựng mô hình dữ liệu tối ưu và tiến hành phân tích rút ra các ‘kiếnthức’ từ mô hình dữ liệu tối ưu đó

Ở bước này, chúng ta sẽ sử dụng các phương pháp tính toán xây dựng các mô hình đểgiải quyết vấn đề của doanh nghiệp theo cách tối ưu nhất Bước này là vận dụngphương pháp thống kê, phân tích dự đoán, các thuật toán học máy để chọn lọc thôngtin chi tiết từ bộ dữ liệu đã chuẩn bị trước Mô hình hóa dữ liệu là một cách đơn giản

để ước lượng dữ liệu theo phương trình phù hợp Các nhà khoa học dữ liệu có thể đưa

dự đoán trên mô hình hoặc họ phải tìm các mô hình phù hợp khác Đây là bước thểhiện tính chất liên ngành của ngành khoa học dữ liệu

- Bước 5: Truyền đạt, trình bày ‘kiến thức’ sau khi đã phân tích xong mô hình dữliệu

Kỹ năng truyền đạt là một phần quan trọng trong công việc của các Data Scientist.Đây là một phần rất khó khăn của ngành khoa học dữ liệu vì nó liên quan đến việctrình bày những phát hiện đến mọi người và thành viên trong nhóm bằng một cách dễhiểu nhất có thể Để trình bày một cách hiệu quả, ta có thể vẽ biểu đồ hoặc trình bàythông tin với các công cụ như Power BI, tableau,… hay sử dụng ‘storytelling’ để kếtquả trở nên dễ hiểu hơn đối với người nghe,…

1.1.2 Sự phát triển Khoa học dữ liệu

- Năm 1962, John Tukey đã viết về sự hội tụ của máy tính và số liệu thống kê để đưa ra kết quả đầu ra Output có thể đo lường được trong vòng vài giờ Năm 1974, Peter Naur đãnhiều lần đề cập đến khoa học dữ liệu trong bài viết Concise Survey of Computer Methods của mình

4

Trang 6

- Cho đế năm 1964, các tổ chức khác nhau bắt đầu thu thập dữ liệu cá nhân khổng lồ cho những nỗ lực trưng bày mới Năm 2001, William S.Cleveland đã đưa ra một kế hoạch hoạt động về cách tạo ra sự hiểu biết tập trung và phạm vi của các nhà khoa học dữ liệu

và nhấn mạnh sáu lĩnh vực nghiên cứu cho các trường cao đẳng và văn phòng Năm

2003, Đại học Columbia đã xuất bản tạp chí Khoa học dữ liệu nhằm thiết lập một nền tảng cho các nhóm dữ liệu Năm 2005, Ủy ban Khoa học Quốc gia đã xuất bản một bộ sưu tập dữ liệu kỹ thuật số và vào năm 2013, IBM đã tiết lộ rằng 90% dữ liệu toàn cầu được tạo ra trong hai năm trước đó Đến thời điểm này, tầm quan trọng của Khoa học dữ liệu tăng lên không ngừng và là yếu tố quan trọng quyết định sự thành công của bất kỳ doanh nghiệp nào

- Trong khoảng 10 năm trước, chẳng mấy ai sử dụng dữ liệu và cũng không nhận ra đưuọc những thông tin giá trị mà dữ liệu mang lại Giờ đây, khi có càng nhiều doanh nghiệp nhận ra những giá trị to lớn từ dữ liệu, họ phát hiện rằng mình cần tiếp cận dữ liệumột cách khoa học hơn, phù hợp hơn Khoa học dữ liệu đã trờ thành một lĩnh vực mà họ quan tâm nhất Nhiều tập đoàn lớn có riêng một đội ngũ khoa học dữ liệu như Google, Facebook, Youtube, Amazon,… và họ vẫn tiếp tục tìm kiếm những nhà phân tích tài năng

để tối ưu lợi ích của công ty họ Với sự tăng trưởng không ngừng về lượng dữ liệu trong nền kinh tế số, nhu cầu về ngành khoa học dữ liệu của các doanh nghiệp sẽ tăng mạnh làm thúc đẩy sự phát triển của ngành nghề này

1.1.3 Ứng dụng của Khoa học dữ liệu

- Từ phần giới thiệu tổng quan, ta có thể thấy Data Science được sử dụng trong kinh doanh để dự đoán , phân tích các xu hướng thị trường và hỗ trợ các quyết định của doanh nghiệp Ngoài ra, Data Science còn có rất nhiều ứng dụng trong các ngành khác như:+ Ứng dụng trong y tế:

Trợ lý ảo chăm sóc , hỗ trợ sức khoẻ người bệnh

Nghiên cứu về sự di truyền và tổ chức gen

Nghiên cứu công thức và điều chế thuốc

+ Ứng dụng trong tìm kiếm thông tin:

Xây dựng các thuật toán để mang lại kết quả phổ biến tốt nhất mỗi khi chúng ta muốn tìmkiếm một từ khóa nào đó Việc tối ưu hoá thời gian và bộ nhớ là ưu tiên hàng đầu+ Ứng dụng trong lĩnh vực quảng cáo:

Bằng các thuật toán kiểm tra, chúng có thể giúp các nhà quảng cáo, các công ty nhắm mục tiêu dựa trên hành vi trước đây của người dùng, thay vì hướng quảng cáo của mình tới số đông tất cả mọi người như trước đây

+ Ứng dụng trong thương mại điện tử và dịch vụ số:

Khoa học dữ liệu tính toán mức độ liên quan của mặt hàng cần tìm qua đó gợi ý hàng loạtsản phẩm trong hàng tỷ tỷ sản phẩm tồn tại

Trang 7

+ Ứng dụng trong tài chính – ngân hàng:

Với khoa học dữ liệu, các ngân hàng có thể quản lý nguồn lực của mình một cách hiệu quả Thêm vào đó, họ có thể đưa ra các quyết định chiến lược tăng độ tin cậy thông qua phát hiện bất thường và gian lận, quản lý dữ liệu khách hàng, phân tíchrủi ro, phân tích

dự đoán thời gian thực, phân khúc khách hàng, v.v Ứng dụng của khoa học dữ liệu cũng giúp đánh giá giá trị lâu dài của khách hàng Điều này cho phép họ theo dõi số lượng khách hàng mà họ có và đưa ra một số dự đoán về doanh thu thông qua lượng khách hàngnày

Không chỉ vậy, khoa học dữ liệu còn sử dụng các thuật toán giao dịch với độ phức tạp và hàng loạt các phép tính cực nhanh đóng một vai trò quan trọng trong việc giúp công ty đưa ra các chiến lược giao dịch Cũng giống như cách các ngân hàng phân tích thời gian thực, các ngành tài chính cũng đã sử dụng khoa học dữ liệu cho nhiệm vụ này, bằng cách

đó có thể theo dõi các giao dịch ,các đặc tính mà không có vấn đề về độ trễ Các tổ chức tài chính sử dụng máy học để phân tích dự đoán Nó cho phép các công ty cải thiện các chiến lược phân tích ,cho phép ngân hàng hiểu các cản trở doanh nghiệp ,cho phép quản

lý tài chính và đề ra cách chiến lược mới

+ Ứng dụng trong sản xuất:

Khoa học dữ liệu đang được sử dụng rộng rãi để tối ưu hóa sản xuất, giảm chi phí và tănglợi nhuận Hơn nữa, với khoa học dữ liệu, các ngành công nghiệp có thể quản lý nhân lực,cơ sở vật chất , năng lượng của doanh nghiệm để chọn ra cách phân phối tối ưu nhất về nguồn lực để đạt kết quả tốt nhất Với việc phân tích kỹ lưỡng các đánh giá phản hồi của khách hàng, các nhà khoa học dữ liệu có thể giúp các ngành sản xuất thay đổi và cải thiệnchất lượng sản phẩm của họ Một khía cạnh quan trọng khác của khoa học dữ liệu trong các ngành công nghiệp là tự động hóa

+ Ứng dụng trong giao thông vận tải:

Ứng dụng của khoa học dữ liệu được thể hiện trong ngành công nghiệp vận tải nhờ việc

có thể tính toán và chỉ ra co đường ngắn nhất , nhanh nhất và thuận tiện nhất Tiến hành phân tích các biến số khác nhau như : người tiêu dùng, địa điểm , các chỉ số kinh tế và hậu cần,số liệu các tuyến đường ; các nhà cung cấp vận tải có thể chọn ra tuyến đường giao hàng tốt nhất và phân bổ tài nguyên nguồn lực một cách hợp lý nhất

1.2 Giới thiệu đề tài của nhóm

1.2.1 Vấn đề cần giải quyết

Công ty Dream Housing Finance cho vay các khoản vay nhà ở Công ty hoạt động ở tất

cả các khu vực thành thị, tỉnh và nông thôn Khách hàng chỉ được cho vay để mua nhà chỉ khi công ty đã xác nhận họ đã đủ điều kiện cho vay Công ty muốn tự động hóa quá trình kiểm tra điều kiện cho vay (real - time) này dựa trên thông tin của khách hàng khi

6

Trang 8

họ điền vào biểu mẫu ứng dụng trực tuyến của công ty Các chi tiết của khách hàng như giới tính, tình trạng hôn nhân, giáo dục, thu nhập, lượng tiền vay, lịch sử tín dụng và tài sản vay tiền để mua là những thông tin để tiến hành kiểm tra mức độ uy tín để có thể cho một khách hàng nào đó vay tiền để mua nhà Để tự động hóa quá trình này, họ cần phải xác định được các khách hàng nằm trong phân khúc khách hàng nào, và xác định được những khách hàng có đủ điều kiện để cho vay để họ nhắm tới các khách hàng này 1.2.2 Mô Tả Dữ Liệu.

(unique ID) LP001003; LP001002;

(Nam hoặc nữ)

Male; FemaleMarried Tình trạng hôn nhân

(Đã kết hôn hoặc chưa kếthôn)

(Yes nếu có kinh doanh, Nonếu không kinh doanh)

Yes; No

ApplicantIncome Thu nhập hàng tháng 5849, 4583,…CoapplicantIncome Khoản thu nhập phụ hàng

tháng

1508, 2358,…

Loan_Amount_Term Thời gian đáo hạn 360, 120, …Credit_History Lịch sử tín dụng

(0 là tín dụng xấu, 1 là tíndụng tốt)

0; 1

Property_Area Đia điểm tài sản của người

vay(Thành phố/ Tỉnh/ Nôngthôn)

Rural; Semirural;Urban

Trang 9

CHƯƠNG 2 TIỀN XỬ LÝ DỮ LIỆU

2.1 Trạng Thái Dữ Liệu

- Đánh giá tổng quan:

8

Trang 10

-o Dữ liệu đầu và-o có:

981 instances

10 features bao gồm 3 features thuộc kiểu dữ liệu numeric là

ApplicantIncome CoapplicantIncome, và LoanAmount 7 features còn lại đều thuộc kiểu dữ liệu categorical.

Dữ liệu không có biến target

Trang 11

Tình trạng dữ liệu tốt, không có dữ liệu missing.

Không cần tiền xử lý dữ liệu

-o Feature C-oapplicantInc-ome

Tình trạng dữ liệu tốt, không có dữ liệu missing

o Feature LoanAmount

10

Trang 12

Có 27 dữ liệu bị missing, chiếm khoảng 2% tổng dữ liệu.

Cần tiền xử lý dữ liệu, xử lý dữ liệu bị missing

o Feature Gender

Có 24 dữ liệu bị missing, chiếm khoảng 2% tổng dữ liệu

o Feature Married

Có 3 dữ liệu bị missing, chiếm khoảng 0.3% tổng dữ liệu.Cần tiền xử lý dữ liệu, xử lý dữ liệu bị missing

o Feature Education

o Feature Self_Employed

o Feature Loan_Amount_Term

o Feature Credit_History

Trang 13

o Feature Property_Area

- Kết luận

o Toàn bộ dữ liệu chứa 2.1% dữ liệu missing

o Có 6 features có chứa dữ liệu missing gồm:

Feature LoanAmount: 27 (2%)Feature Gender: 24 (2%)Feature Married: 3 (0.3%)Feature Self_Employed: 55 (5%)Feature Loan_Amount_Term: 20 (2%)Feature Credit_History: 79 (8%)

2.2 Xử Lý Dữ Liệu

12

Trang 14

- Vì dữ liệu chứa 981 instances, không phải là mẫu dữ liệu lớn, loại bỏ khả năng sửdụng phương pháp Loại bỏ missing values vì sẽ gây mất mát rất nhiều dữ liệu:

o Dữ liệu từ 981 instances, giảm xuống còn 785 instances, mất mát 196 dữliệu gần 20% tổng dữ liệu ban đầu

o

Trang 15

o Không sử dụng phương pháp Remove missing values

- Sử dụng phương pháp Fill value vào các dữ liệu bị missing:

o Đối với dữ liệu dạng numeric: Feature LoanAmount:

Để đảm bảo dữ liệu thêm vào không làm thay đổi phân phối ban đầu của dữ liệu và không trở thành các outliers ảnh hưởng đến độ tốt của

dữ liệu

Phương pháp tối ưu nhất là: sử dụng giá trị Average để điền vào

các dữ liệu bị missing

o Đối với dữ liệu dạng categorical: dựa vào Distribution khi đánh giá tình

trạng dữ liệu ở phần 1 ta thấy các Feature này đều có xu hướng 1 giá trị dữ liệu chiếm phần lớn:

Feature Gender: “Male” chiếm đa số

Feature Married: “Yes” chiếm đa số

14

Trang 16

Feature Self_Employed: “No” chiếm đa số

Feature Loan_Amount_Term: “360” chiếm đa số

Feature Credit_History: “1.0” chiếm đa số

Phương pháp tối ưu nhất là: sử dụng giá trị Most frequent (giá trị

chiếm đa số) để điền giá trị vào các vị trí có dữ liệu missing

- Tiến hành tiền xử lý dữ liệu (sử dụng Impute)

Trang 17

o

16

Trang 18

CHƯƠNG 3 KHAI THÁC DỮ LIỆU

3.1.1.1 Distance Metric: Euclidean

Phương pháp tính khoảng cách: Average-link

- Kết quả của Hierarchical clustering

- Phân cụm 2 nhóm :

Trang 19

o Nhóm C1: có điểm số Silhouette là 0.76

18

Trang 20

Trang 22

→Cả hai trường hợp chọn phân cụm 2 cụm và chọn phân cụm 3 cụm đều có chỉ số caohơn với các trường hợp còn lại Loại hai trường hợp chọn phân cụm 4 cụm và phân cụm

5 cụm vì xuất hiện cụm có điểm số Silhouette < 0.5 (không đáng tin cậy)

Phương pháp tính khoảng cách: Complete-link

- Kết quả của Hierarchical clustering

Trang 23

o Nhóm C1: có điểm Silhouette là 0.78

- Phân cụm 3 nhóm:

22

Trang 24

- Phân cụm 4 nhóm:

Tiêu đề	Sử dụng phương pháp phân cụm, phân lớp giúp công ty dự đoán nhóm khách hàng mục tiêu
Tác giả	Phan Trần Sơn Bảo, Nguyễn Đình Đại Nhơn, Hồ Viễn Triết
Người hướng dẫn	THS. Trương Việt Phương
Trường học	Đại Học Kinh Tế Tp Hồ Chí Minh
Chuyên ngành	Khoa Học Dữ Liệu
Thể loại	Đồ Án Môn Học
Năm xuất bản	2022
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	49
Dung lượng	4,43 MB