Việc phân tích và sử dụng dữliệu dựa vào ba nguồn tri thức: toán học thống kê toán học, công nghệ thông tin máyhọc và tri thức của lĩnh vực ứng dụng tùy theo từng hoàn cảnh của doanh ngh
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ
1 PHAN TRẦN SƠN BẢO
2 NGUYỄN ĐÌNH ĐẠI NHƠN
3 HỒ VIỄN TRIẾT Chuyên Ngành: KHOA HỌC DỮ LIỆU Khóa: K46
Giảng Viên: THS Trương Việt Phương
TP Hồ Chí Minh, Ngày 18 tháng 09 năm 2022
Trang 2MỤC LỤC
MỤC LỤC 0
PHÂN CÔNG NHIỆM VỤ 0
CHƯƠNG 1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI CỦA NHÓM 0
1.1 Gi i thi u vềề Khoa h c d li u ớ ệ ọ ữ ệ 0
1.1.1 Khoa h c d ọ ữ ệ li u là gì ? 0
1.1.2 S phát tri n ự ể Khoa h c d li u ọ ữ ệ 0
1.1.3 ng d ng Ứ ụ c a Khoa h c d li u ủ ọ ữ ệ 0
1.2 Gi i thi u đềề tài c a nhóm ớ ệ ủ 0
1.2.1 Vấấn đềề cấền gi i quyềất ả 0
1.2.2 Mô T D Li u ả ữ ệ 0
CHƯƠNG 2 TIỀN XỬ LÝ DỮ LIỆU 0
2.1 Tr ng Thái D Li u ạ ữ ệ 0
2.2 X Lý D Li u ử ữ ệ 0
CHƯƠNG 3 KHAI THÁC DỮ LIỆU 0
3.1 Phấn C m ụ 0
3.1.1 Ph ươ ng Pháp Hierarchical Clustering 0
3.1.2 Ph ươ ng Pháp K-means 0
3.2 Phấn L p ớ 0
3.3 D Báo Và Đánh Giá ự 0
CHƯƠNG 4 KẾT LUẬN 0
4.1 Các Kềất Qu Đ t Đ ả ạ ượ 0 c 4.1.1 Tóm Tắất 0
4.1.2 Kềất Qu Đ t Đ ả ạ ượ 0 c 4.2 Nh ng H n Chềấ , H ữ ạ ướ ng Phát Tri n Và ng D ng ể Ứ ụ 0
4.2.1 H n Chềấ ạ 0
4.2.2 H ướ ng Phát Tri n Và ng D ng ể Ứ ụ 0
TÀI LIỆU THAM KHẢO 0
Trang 3PHÂN CÔNG NHIỆM VỤ
góp
Phan Trần Sơn Bảo CHƯƠNG 1 GIỚI THIỆU VỀ
KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI CỦA NHÓM
CHƯƠNG 3 KHAI THÁC DỮ LIỆU
100%
Nguyễn Đình Đại
CHƯƠNG 3 KHAI THÁC DỮ LIỆU
100%
Hồ Viễn Triết CHƯƠNG 2 TIỀN XỬ LÝ DỮ LIỆU
CHƯƠNG 3 KHAI THÁC DỮ LIỆU 100%
2
Trang 4CHƯƠNG 1 GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ ĐỀ TÀI
1.1.1.2 Tổng quan về Khoa học dữ liệu
Khoa học dữ liệu là ngành khoa học về việc khai phá, quản trị và phân tích dữ liệu để dựđoán các xu hướng trong tương lai và đưa ra các quyết định, chiến lược hành động Khoahọc dữ liệu có ba phần chính bào gồm: tạo và quản trị dữ liệu; phân tích dữ liệu; và ápdụng kết quả phân tích thành những hành động có giá trị Việc phân tích và sử dụng dữliệu dựa vào ba nguồn tri thức: toán học (thống kê toán học), công nghệ thông tin (máyhọc) và tri thức của lĩnh vực ứng dụng tùy theo từng hoàn cảnh của doanh nghiệp.Hiện nay, với sự phát triển mạnh mẽ của cách mạng công nghiệp 4.0 đã làm cho Big Datangày một trở thành 1 cơn sốt và vấn đề đối với các công ty bởi nó có thể đem lại lợi íchrất lớn cho các công ty nếu biết tận dụng nguồn dữ liệu khổng lồ đó Chính vì vậy, nhiềucông ty cần những người chuyên môn và thành thạo trong việc xử lý, quản lý, phân tích
và hiểu được xu hướng trong dữ liệu Cũng vì thế mà ngành Khoa học dữ liệu là 1 ngànhcàng ngày càng trở thành xu hướng và được người người săn đón trong những năm gầnđây
Để trở thành một nhà Khoa học dữ liệu thì các ta cần phải có các kỹ năng như phân tích,lập trình, và kiến thức chuyên ngành Chính vì thế, để theo học ngành Khoa học dữ liệu
ta cần học một số các môn chuyên ngành như: Thống kê áp dụng ; học các ngôn ngữ lậptrình, truy vấn; trực quan hóa dữ liệu; xác suất; khai phá dữ liệu
Thêm vào đó, người học sẽ được yêu cầu tìm hiểu về những công cụ chính phục vụ choviệc phân tích dữ liệu như các ngôn ngữ lập trình như: Python, R, Matlab; công cụ truyvấn cơ sở dữ liệu: SQL; công cụ thống kê: Microsoft Excel, Minitab; hệ thống phân tíchthống kê: SAS; các công cụ trực quan hóa dữ liệu – Tableau hay Power BI
Ngoài những kỹ năng “cứng” cần thiết kể trên, để trở thành một nhà khoa học dữ liệu hay
để có thể phát triển được trong ngành khoa học dữ liệu nói chung, bạn cần trang bị chomình những kỹ năng khác như: kỹ năng giao tiếp, kỹ năng đặt câu hỏi, sự nhạy bén trongkinh doanh, trực giác về dữ liệu
Too long to read on your phone? Save to
read later on your computer
Save to a Studylist
Trang 5Quy trình phân tích của một nhà Khoa học dữ liệu gồm 5 bước chính:
- Bước 1: Đặt vấn đề và thu thập
Ở bước này, nhà khoa học dữ liệu phải đặt câu hỏi về vấn đề mà doanh nghiệp gặp phải
để trích xuất dữ liệu dựa trên vấn đề đó Dữ liệu được thu thập từ nhiều nguồn kênhthông tin sẵn có hoặc bằng các phương pháp thủ công hoặc kết hợp cả hai Sau đó, kiểmtra dữ liệu xem có phù hợp với mục tiêu hay không
Sau khi đã xác định được vấn đề, ta sẽ bắt đầu thu thập dữ liệu để giải quyết vấn đề Các
dữ liệu được thu thập cần phải có liên quan đến vấn đề được đề cập trước đó để có thểxây dựng một mô hình giải quyết vấn đề này một cách tốt hơn
- Bước 2: Tiền xử lí
Bước này chiếm tỷ trọng nhiều nhất trong quy trình Dữ liệu được thu thập thường sẽ
bị các lỗi như bị thiếu, bị nhiễu hoặc không có tính nhất quán Nhà khoa học dữ liệu
sẽ dành nhiều thời gian theo dõi dữ liệu một cách tỉ mỉ xem có lỗi hay không và từ đósửa lỗi để có bộ dữ liệu hoàn chỉnh phù hợp hơn trong các mô hình giải quyết vấn đề
- Bước 3: Chuyển đổi dữ liệu
Định dạng lại cấu trúc của dữ liệu nhằm giúp việc phân tích dễ dàng hơn và cải thiệnkết quả phân tích hơn
- Bước 4: Xây dựng mô hình dữ liệu tối ưu và tiến hành phân tích rút ra các ‘kiếnthức’ từ mô hình dữ liệu tối ưu đó
Ở bước này, chúng ta sẽ sử dụng các phương pháp tính toán xây dựng các mô hình đểgiải quyết vấn đề của doanh nghiệp theo cách tối ưu nhất Bước này là vận dụngphương pháp thống kê, phân tích dự đoán, các thuật toán học máy để chọn lọc thôngtin chi tiết từ bộ dữ liệu đã chuẩn bị trước Mô hình hóa dữ liệu là một cách đơn giản
để ước lượng dữ liệu theo phương trình phù hợp Các nhà khoa học dữ liệu có thể đưa
dự đoán trên mô hình hoặc họ phải tìm các mô hình phù hợp khác Đây là bước thểhiện tính chất liên ngành của ngành khoa học dữ liệu
- Bước 5: Truyền đạt, trình bày ‘kiến thức’ sau khi đã phân tích xong mô hình dữliệu
Kỹ năng truyền đạt là một phần quan trọng trong công việc của các Data Scientist.Đây là một phần rất khó khăn của ngành khoa học dữ liệu vì nó liên quan đến việctrình bày những phát hiện đến mọi người và thành viên trong nhóm bằng một cách dễhiểu nhất có thể Để trình bày một cách hiệu quả, ta có thể vẽ biểu đồ hoặc trình bàythông tin với các công cụ như Power BI, tableau,… hay sử dụng ‘storytelling’ để kếtquả trở nên dễ hiểu hơn đối với người nghe,…
1.1.2 Sự phát triển Khoa học dữ liệu
- Năm 1962, John Tukey đã viết về sự hội tụ của máy tính và số liệu thống kê để đưa ra kết quả đầu ra Output có thể đo lường được trong vòng vài giờ Năm 1974, Peter Naur đãnhiều lần đề cập đến khoa học dữ liệu trong bài viết Concise Survey of Computer Methods của mình
4
Trang 6- Cho đế năm 1964, các tổ chức khác nhau bắt đầu thu thập dữ liệu cá nhân khổng lồ cho những nỗ lực trưng bày mới Năm 2001, William S.Cleveland đã đưa ra một kế hoạch hoạt động về cách tạo ra sự hiểu biết tập trung và phạm vi của các nhà khoa học dữ liệu
và nhấn mạnh sáu lĩnh vực nghiên cứu cho các trường cao đẳng và văn phòng Năm
2003, Đại học Columbia đã xuất bản tạp chí Khoa học dữ liệu nhằm thiết lập một nền tảng cho các nhóm dữ liệu Năm 2005, Ủy ban Khoa học Quốc gia đã xuất bản một bộ sưu tập dữ liệu kỹ thuật số và vào năm 2013, IBM đã tiết lộ rằng 90% dữ liệu toàn cầu được tạo ra trong hai năm trước đó Đến thời điểm này, tầm quan trọng của Khoa học dữ liệu tăng lên không ngừng và là yếu tố quan trọng quyết định sự thành công của bất kỳ doanh nghiệp nào
- Trong khoảng 10 năm trước, chẳng mấy ai sử dụng dữ liệu và cũng không nhận ra đưuọc những thông tin giá trị mà dữ liệu mang lại Giờ đây, khi có càng nhiều doanh nghiệp nhận ra những giá trị to lớn từ dữ liệu, họ phát hiện rằng mình cần tiếp cận dữ liệumột cách khoa học hơn, phù hợp hơn Khoa học dữ liệu đã trờ thành một lĩnh vực mà họ quan tâm nhất Nhiều tập đoàn lớn có riêng một đội ngũ khoa học dữ liệu như Google, Facebook, Youtube, Amazon,… và họ vẫn tiếp tục tìm kiếm những nhà phân tích tài năng
để tối ưu lợi ích của công ty họ Với sự tăng trưởng không ngừng về lượng dữ liệu trong nền kinh tế số, nhu cầu về ngành khoa học dữ liệu của các doanh nghiệp sẽ tăng mạnh làm thúc đẩy sự phát triển của ngành nghề này
1.1.3 Ứng dụng của Khoa học dữ liệu
- Từ phần giới thiệu tổng quan, ta có thể thấy Data Science được sử dụng trong kinh doanh để dự đoán , phân tích các xu hướng thị trường và hỗ trợ các quyết định của doanh nghiệp Ngoài ra, Data Science còn có rất nhiều ứng dụng trong các ngành khác như:+ Ứng dụng trong y tế:
Trợ lý ảo chăm sóc , hỗ trợ sức khoẻ người bệnh
Nghiên cứu về sự di truyền và tổ chức gen
Nghiên cứu công thức và điều chế thuốc
+ Ứng dụng trong tìm kiếm thông tin:
Xây dựng các thuật toán để mang lại kết quả phổ biến tốt nhất mỗi khi chúng ta muốn tìmkiếm một từ khóa nào đó Việc tối ưu hoá thời gian và bộ nhớ là ưu tiên hàng đầu+ Ứng dụng trong lĩnh vực quảng cáo:
Bằng các thuật toán kiểm tra, chúng có thể giúp các nhà quảng cáo, các công ty nhắm mục tiêu dựa trên hành vi trước đây của người dùng, thay vì hướng quảng cáo của mình tới số đông tất cả mọi người như trước đây
+ Ứng dụng trong thương mại điện tử và dịch vụ số:
Khoa học dữ liệu tính toán mức độ liên quan của mặt hàng cần tìm qua đó gợi ý hàng loạtsản phẩm trong hàng tỷ tỷ sản phẩm tồn tại
Trang 7+ Ứng dụng trong tài chính – ngân hàng:
Với khoa học dữ liệu, các ngân hàng có thể quản lý nguồn lực của mình một cách hiệu quả Thêm vào đó, họ có thể đưa ra các quyết định chiến lược tăng độ tin cậy thông qua phát hiện bất thường và gian lận, quản lý dữ liệu khách hàng, phân tíchrủi ro, phân tích
dự đoán thời gian thực, phân khúc khách hàng, v.v Ứng dụng của khoa học dữ liệu cũng giúp đánh giá giá trị lâu dài của khách hàng Điều này cho phép họ theo dõi số lượng khách hàng mà họ có và đưa ra một số dự đoán về doanh thu thông qua lượng khách hàngnày
Không chỉ vậy, khoa học dữ liệu còn sử dụng các thuật toán giao dịch với độ phức tạp và hàng loạt các phép tính cực nhanh đóng một vai trò quan trọng trong việc giúp công ty đưa ra các chiến lược giao dịch Cũng giống như cách các ngân hàng phân tích thời gian thực, các ngành tài chính cũng đã sử dụng khoa học dữ liệu cho nhiệm vụ này, bằng cách
đó có thể theo dõi các giao dịch ,các đặc tính mà không có vấn đề về độ trễ Các tổ chức tài chính sử dụng máy học để phân tích dự đoán Nó cho phép các công ty cải thiện các chiến lược phân tích ,cho phép ngân hàng hiểu các cản trở doanh nghiệp ,cho phép quản
lý tài chính và đề ra cách chiến lược mới
+ Ứng dụng trong sản xuất:
Khoa học dữ liệu đang được sử dụng rộng rãi để tối ưu hóa sản xuất, giảm chi phí và tănglợi nhuận Hơn nữa, với khoa học dữ liệu, các ngành công nghiệp có thể quản lý nhân lực,cơ sở vật chất , năng lượng của doanh nghiệm để chọn ra cách phân phối tối ưu nhất về nguồn lực để đạt kết quả tốt nhất Với việc phân tích kỹ lưỡng các đánh giá phản hồi của khách hàng, các nhà khoa học dữ liệu có thể giúp các ngành sản xuất thay đổi và cải thiệnchất lượng sản phẩm của họ Một khía cạnh quan trọng khác của khoa học dữ liệu trong các ngành công nghiệp là tự động hóa
+ Ứng dụng trong giao thông vận tải:
Ứng dụng của khoa học dữ liệu được thể hiện trong ngành công nghiệp vận tải nhờ việc
có thể tính toán và chỉ ra co đường ngắn nhất , nhanh nhất và thuận tiện nhất Tiến hành phân tích các biến số khác nhau như : người tiêu dùng, địa điểm , các chỉ số kinh tế và hậu cần,số liệu các tuyến đường ; các nhà cung cấp vận tải có thể chọn ra tuyến đường giao hàng tốt nhất và phân bổ tài nguyên nguồn lực một cách hợp lý nhất
1.2 Giới thiệu đề tài của nhóm
1.2.1 Vấn đề cần giải quyết
Công ty Dream Housing Finance cho vay các khoản vay nhà ở Công ty hoạt động ở tất
cả các khu vực thành thị, tỉnh và nông thôn Khách hàng chỉ được cho vay để mua nhà chỉ khi công ty đã xác nhận họ đã đủ điều kiện cho vay Công ty muốn tự động hóa quá trình kiểm tra điều kiện cho vay (real - time) này dựa trên thông tin của khách hàng khi
6
Trang 8họ điền vào biểu mẫu ứng dụng trực tuyến của công ty Các chi tiết của khách hàng như giới tính, tình trạng hôn nhân, giáo dục, thu nhập, lượng tiền vay, lịch sử tín dụng và tài sản vay tiền để mua là những thông tin để tiến hành kiểm tra mức độ uy tín để có thể cho một khách hàng nào đó vay tiền để mua nhà Để tự động hóa quá trình này, họ cần phải xác định được các khách hàng nằm trong phân khúc khách hàng nào, và xác định được những khách hàng có đủ điều kiện để cho vay để họ nhắm tới các khách hàng này 1.2.2 Mô Tả Dữ Liệu.
(unique ID) LP001003; LP001002;
(Nam hoặc nữ)
Male; FemaleMarried Tình trạng hôn nhân
(Đã kết hôn hoặc chưa kếthôn)
(Yes nếu có kinh doanh, Nonếu không kinh doanh)
Yes; No
ApplicantIncome Thu nhập hàng tháng 5849, 4583,…CoapplicantIncome Khoản thu nhập phụ hàng
tháng
1508, 2358,…
Loan_Amount_Term Thời gian đáo hạn 360, 120, …Credit_History Lịch sử tín dụng
(0 là tín dụng xấu, 1 là tíndụng tốt)
0; 1
Property_Area Đia điểm tài sản của người
vay(Thành phố/ Tỉnh/ Nôngthôn)
Rural; Semirural;Urban
Trang 9CHƯƠNG 2 TIỀN XỬ LÝ DỮ LIỆU
2.1 Trạng Thái Dữ Liệu
- Đánh giá tổng quan:
8
Trang 10-o Dữ liệu đầu và-o có:
981 instances
10 features bao gồm 3 features thuộc kiểu dữ liệu numeric là
ApplicantIncome CoapplicantIncome, và LoanAmount 7 features còn lại đều thuộc kiểu dữ liệu categorical.
Dữ liệu không có biến target
Trang 11Tình trạng dữ liệu tốt, không có dữ liệu missing.
Không cần tiền xử lý dữ liệu
-o Feature C-oapplicantInc-ome
Tình trạng dữ liệu tốt, không có dữ liệu missing
Không cần tiền xử lý dữ liệu
o Feature LoanAmount
10
Trang 12Có 27 dữ liệu bị missing, chiếm khoảng 2% tổng dữ liệu.
Cần tiền xử lý dữ liệu, xử lý dữ liệu bị missing
o Feature Gender
Có 24 dữ liệu bị missing, chiếm khoảng 2% tổng dữ liệu
Cần tiền xử lý dữ liệu, xử lý dữ liệu bị missing
o Feature Married
Có 3 dữ liệu bị missing, chiếm khoảng 0.3% tổng dữ liệu.Cần tiền xử lý dữ liệu, xử lý dữ liệu bị missing
o Feature Education
Tình trạng dữ liệu tốt, không có dữ liệu missing
Không cần tiền xử lý dữ liệu
o Feature Self_Employed
Có 55 dữ liệu bị missing, chiếm khoảng 5% tổng dữ liệu
Cần tiền xử lý dữ liệu, xử lý dữ liệu bị missing
o Feature Loan_Amount_Term
Có 20 dữ liệu bị missing, chiếm khoảng 2% tổng dữ liệu
Cần tiền xử lý dữ liệu, xử lý dữ liệu bị missing
o Feature Credit_History
Có 79 dữ liệu bị missing, chiếm khoảng 8% tổng dữ liệu
Cần tiền xử lý dữ liệu, xử lý dữ liệu bị missing
Trang 13o Feature Property_Area
Tình trạng dữ liệu tốt, không có dữ liệu missing
Không cần tiền xử lý dữ liệu
- Kết luận
o Toàn bộ dữ liệu chứa 2.1% dữ liệu missing
o Có 6 features có chứa dữ liệu missing gồm:
Feature LoanAmount: 27 (2%)Feature Gender: 24 (2%)Feature Married: 3 (0.3%)Feature Self_Employed: 55 (5%)Feature Loan_Amount_Term: 20 (2%)Feature Credit_History: 79 (8%)
2.2 Xử Lý Dữ Liệu
12
Trang 14- Vì dữ liệu chứa 981 instances, không phải là mẫu dữ liệu lớn, loại bỏ khả năng sửdụng phương pháp Loại bỏ missing values vì sẽ gây mất mát rất nhiều dữ liệu:
o Dữ liệu từ 981 instances, giảm xuống còn 785 instances, mất mát 196 dữliệu gần 20% tổng dữ liệu ban đầu
o
Trang 15o Không sử dụng phương pháp Remove missing values
- Sử dụng phương pháp Fill value vào các dữ liệu bị missing:
o Đối với dữ liệu dạng numeric: Feature LoanAmount:
Để đảm bảo dữ liệu thêm vào không làm thay đổi phân phối ban đầu của dữ liệu và không trở thành các outliers ảnh hưởng đến độ tốt của
dữ liệu
Phương pháp tối ưu nhất là: sử dụng giá trị Average để điền vào
các dữ liệu bị missing
o Đối với dữ liệu dạng categorical: dựa vào Distribution khi đánh giá tình
trạng dữ liệu ở phần 1 ta thấy các Feature này đều có xu hướng 1 giá trị dữ liệu chiếm phần lớn:
Feature Gender: “Male” chiếm đa số
Feature Married: “Yes” chiếm đa số
14
Trang 16Feature Self_Employed: “No” chiếm đa số
Feature Loan_Amount_Term: “360” chiếm đa số
Feature Credit_History: “1.0” chiếm đa số
Phương pháp tối ưu nhất là: sử dụng giá trị Most frequent (giá trị
chiếm đa số) để điền giá trị vào các vị trí có dữ liệu missing
- Tiến hành tiền xử lý dữ liệu (sử dụng Impute)
Trang 17o
16
Trang 18CHƯƠNG 3 KHAI THÁC DỮ LIỆU
3.1.1.1 Distance Metric: Euclidean
Phương pháp tính khoảng cách: Average-link
- Kết quả của Hierarchical clustering
- Phân cụm 2 nhóm :
Trang 19o Nhóm C1: có điểm số Silhouette là 0.76
o Nhóm C2: có điểm số Silhouette là 0.86
- Phân cụm 3 nhóm :
18
Trang 20o Nhóm C1: có điểm số Silhouette là 0.76
o Nhóm C2: có điểm số Silhouette là 0.61
o Nhóm C3: có điểm số Silhouette là 0.86
- Phân cụm 4 nhóm :
Trang 22→Cả hai trường hợp chọn phân cụm 2 cụm và chọn phân cụm 3 cụm đều có chỉ số caohơn với các trường hợp còn lại Loại hai trường hợp chọn phân cụm 4 cụm và phân cụm
5 cụm vì xuất hiện cụm có điểm số Silhouette < 0.5 (không đáng tin cậy)
Phương pháp tính khoảng cách: Complete-link
- Kết quả của Hierarchical clustering
- Phân cụm 2 nhóm :
Trang 23o Nhóm C1: có điểm Silhouette là 0.78
o Nhóm C2: có điểm Silhouette là 0.79
- Phân cụm 3 nhóm:
22
Trang 24o Nhóm C1: có điểm Silhouette là 0.33
o Nhóm C2: có điểm Silhouette là 0.61
o Nhóm C3: có điểm Silhouette là 0.8
- Phân cụm 4 nhóm: