Tìm Dataset, Chương 2: Tổng quan về chương trình sử dụng và phương pháp sử dụng; PowerPoint, thuyết trình.2 Nguyễn Tài HiếuTìm Dataset, Chương 3: Mô hình nghiên cứu đề xuất, Chương 4: Ứn
Trang 1D ÁN KẾẾT THÚC H C PHẦẦN Ự Ọ
MÔN: KHOA H C D LI U Ọ Ữ Ệ
Mã l p h c phầần: ớ ọ 22C1INF50905973
Gi ng viên: ả TS GVC Nguyễễn Quốốc Hùng
Nhóm sinh viên th c hi n: ự ệ Nguyễễn Ng c Vân Anh ọ
Nguyễễn Tài Hiễốu
Thành phốố Hốồ Chí Minh, tháng 12 năm 2022
Trang 3MỤC LỤC
LỜI MỞ ĐẦU 4
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 5
1.1 Giới thiệu về khoa học dữ liệu: 5
1.2 Sự phát triển của khoa học công nghệ: 7
1.3 Ứng dụng của Khoa học dữ liệu: 8
1.4 Giới thiệu đề tài: 11
1.4.1 Cơ sở hình thành, mục tiêu đề tài nghiên cứu: 11
1.4.2 Đối tượng, phạm vi nghiên cứu: 12
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 13
2.1 Tổng quan về phần mềm Orange: 13
2.1.1 Mô tả: 13
2.1.2 Tính năng: 13
2.1.2.1 Nhóm Data: 14
2.1.2.2 Nhóm Visualize: 19
2.1.2.3 Nhóm Model: 19
2.1.2.4 Nhóm Evaluate: 19
2.1.2.5 Nhóm Unsupervised: 21
2.1.2.6 Nhóm Educational: 21
2.2 Tổng quan về các phương pháp sử dụng: 22
2.2.1 Quá trình phát hiện tri thức và khai phá dữ liệu: 22
2.2.2 Tiền xử lý dữ liệu: 23
2.2.2.1 Làm sạch dữ liệu: 23
2.2.2.2 Tích hợp và chuyển đổi dữ liệu: 24
2.2.2.3 Rút gọn dữ liệu: 25
2.3 Phương pháp phân lớp dữ liệu (học có giám sát): 26
2.3.1 Bài toán phân lớp dữ liệu: 26
2.3.1.1 Định nghĩa: 26
2.3.1.2 Quy trình phân lớp: 26
2.3.2 Một số phương pháp phân lớp cơ bản: 27
2.3.2.1 Hồi quy Logistic (Logistic Regression) 27
2.3.2.2 Cây quyết định (Tree) 27
2.3.2.3 SVM – Support Vector Machine 27
2.3.2.4 Neural Network 28
2.3.3 Các phương pháp đánh giá mô hình phân lớp: 28
2.3.3.1 Ma trận nhầm lẫn (Confusion Matrix) 28
Trang 42.3.3.2 Phương pháp phân chia dữ liệu Hold – out 29
2.3.3.3 K – fold cross Validation 29
2.3.4 Minh hoạt phân lớp bằng Orange (trong chương 3) 29
2.4 Phương pháp phân cụm dữ liệu (học không giám sát) 29
2.4.1 Bài toán phân cụm dữ liệu 30
2.4.1.1 Giới thiệu 30
2.4.2 Một số phương pháp phân cụm 30
2.4.2.1 Phân cụm theo phân cấp (Hierarchical Clustering) 30
2.4.2.2 Phân cụm theo phân hoạch (Partitioning Clustering) 31
2.4.3 Đánh giá mô hình phân cụm 32
2.4.3.1 Đánh giá ngoài (External Validation) 32
2.4.3.2 Đánh giá nội bộ (Internal Validation) 32
2.4.3.3 Đánh giá tương đối (Relative Validation) 32
2.4.4 Minh hoạ mô hình phân cụm bằng Orange (trong chương 3) 32
CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 33
CHƯƠNG 4: ỨNG DỤNG CÁC PHƯƠNG PHÁP VÀO BÀI TOÁN CỤ THỂ 34
4.1 Phân tích dữ liệu Balance Sheets 34
4.1.1 Tiền xử lí dữ liệu 34
4.2 Phân cụm dữ liệu 35
4.2.1 Phương pháp Hierarchical Clustering 36
4.2.2 Phương pháp K-Means 38
4.3.1 Một số phương pháp phân lớp 42
4.3.2 Kết quả mô hình 42
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 56
5.1 Những công việc đã thực hiện 56
5.1.1 Tóm tắt 56
5.1.2 Kết luận 56
5.2 Hướng phát triển 56
TÀI LIỆU THAM KHẢO 57
LỜI CẢM ƠN 57
PHỤ LỤC 57
Trang 5LỜI MỞ ĐẦU
Những năm gần đây, vai trò của hệ thống thông tin trong các doanh nghiệp đã ngày càng lớn mạnh, những người làm lãnh đạo nhạy bén hiểu rằng họ phải biết đối tượng sử dụng dịch vụ của mình có những nhu cầu gì, và thậm chí là dựa vào những số liệu để đưa ra quyết định về các dự án đầu tư, hoạch định ngân sách vốn, khả năng vay vốn của doanh nghiệp
Không đơn thuần chỉ để hỗ trợ một số hoạt động trong văn phòng, hệ thống thông tin“
đã trở nên có vai trò chiến lược trong doanh nghiệp Đặc biệt những thành tựu trong công nghệ thông tin đã khiến doanh nghiệp ngày càng chú ý hơn tới việc áp dụng nó để gia tăng thế cạnh tranh và tạo cơ hội cho mình Khoa học dữ liệu là thuật ngữ dần trở nên quen thuộc
ở Việt Nam trong giai đoạn ngày nay, và đang dần trở thành xu hướng được các doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ việc khai thác sử dụng triệt để những thông tin được phân tích thông qua phần mềm, công nghệ hiện đại Khi cuộc cách mạng công nghiệp 4.0 bùng nổ, mọi quốc gia và doanh nghiệp đều phải dựa nhiều hơn hết vào khoa học công nghệ và dữ liệu ”
Sau quá trình tìm hiểu và chọn lọc những kiến thức về chuyên ngành, nhóm đã lựa chọn bộ dữ liệu về Bảng cân đối kế toán được trích từ Báo cáo tài chính đã được công bố của một tổ chức và xử lý thông tin thông qua phần mềm Orange để nhìn nhận và tìm ra hướng phát triển của tổ chức
Trang 6CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ
TÀI 1.1 Giới thiệu về khoa học dữ liệu:
Khoa học dữ liệu là nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên sâu có
ý nghĩa đối với hoạt động kinh doanh Đây là một lĩnh vực liên ngành, sử dụng các thuật toán và kết hợp ở các lĩnh vực toán học, thống kê, trí tuệ nhân tạo, kỹ thuật máy tính để “
phân tích khối lượng lớn dữ liệu nhằm khám phá các mẫu ẩn, tạo thông tin chuyên sâu và đưa ra quyết định nghiên cứu trực tiếp mang tính chiến lược Nội dung phân tích này sẽ giúpcác nhà khoa học dữ liệu đặt ra và trả lời những câu hỏi như sự kiện gì đã xảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và kết quả thu được có thể sử dụng cho mục đích gì Sự kết hợp giữa trí thông minh của con người và tính tự động hoá của hệ thống giúp khoa học dữ liệu phân tích chi tiết hơn, hiểu biết sâu sắc hơn về dữ liệu để cho ra kết quả chính xác nhất.”
Vậy thì, đối tượng của khoa học dữ liệu là gì? Các nhà khoa học dữ liệu dành hàng giờ để làm việc và khai thác những gì? Đó chính là dữ liệu
Dữ liệu (Data) là một tập hợp các dữ kiện có thể là số, hình ảnh, chuỗi ký tự nhằm đo lường hoặc mô tả một sự vật, đối tượng cụ thể Dữ liệu dễ dàng được thu thập từ vô vàn các kênh thông tin khác nhau: từ các nguồn sẵn có trên mạng xã hội, các bên thứ ba (cơ quan nhà nước), hoặc tự thu thập thông qua việc quan sát, phỏng vấn, làm khảo sát, Dữ liệu là một trong những yếu tố quan trọng trong lĩnh vực kinh doanh, giúp hiểu rõ hơn về các bài toán của doanh nghiệp Việc sử dụng hiệu quả sẽ giúp doanh nghiệp cải thiện tình trạng kinhdoanh, hỗ trợ đưa ra các quyết định nhanh và chính xác hơn dự đoán được xu hướng của thị trường, tăng khả năng cạnh tranh trên thị trường Không chỉ trong lĩnh vực kinh tế mà còn ở tất cả mọi lĩnh vực
Theo sự tiến bộ của xã hội và trong cuộc cách mạng công nghệ 4.0, dữ liệu trở thành nguồn tài nguyên không thể thiếu trong thời đại số Dữ liệu lớn (Big Data) ra đời như một
sự phát triển của dữ liệu nói riêng và khoa học dữ liệu nói chung, là câu trả lời cho sự phổ
Trang 7“Theo số liệu thống kê của cơ quan nghiên cứu ung thư quốc tế (IACR, thuộc WHO) công
bố về tình hình ung thư hiệu chỉnh theo độ tuổi của 185 quốc gia, vùng lãnh thổ năm 2020 thì so với năm 2018, thế giới ghi nhận thêm hơn 2 triệu ca mắc mới ung thư, lên gần 19,3 triệu ca và số ca tử vong tăng từ 9,6 triệu ca (2018) lên 9,96 triệu ca (2020).”
“Dữ liệu về vấn đề kinh tế, xã hội được Tổng cục Thống kê đăng tải như sau: Tỷ lệ thất nghiệp trong độ tuổi lao động quý II/2022 là 2,32%, giảm 0,14 điểm phần trăm so với quý trước và giảm 0,30 điểm phần trăm so với cùng kỳ năm trước Tỷ lệ thất nghiệp trong độ tuổi lao động 6 tháng đầu năm 2022 là 2,39%, giảm 0,13 điểm phần trăm so với cùng kỳ năm trước.”
Khoa học dữ liệu gồm ba phần chính: “ Tạo ra và quản trị dữ liệu, phân tích dữ liệu,
và chuyển kết quả phân tích thành giá trị của hành động Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức: toán học (thống kê toán học), công nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể Cũng như các hình thức thí nghiệm khác, khoa học dữliệu sẽ yêu cầu thực hiện các quan sát, đặt câu hỏi, hình thành các giả thuyết, tạo các bài kiểm tra, phân tích kết quả và đưa ra một khuyến nghị thực tế Chính vì vậy mà mục đích chính của Khoa học Dữ liệu là biến đổi một lượng lớn dữ liệu chưa qua xử lý, làm thế nào
để định vị được thành mô hình kinh doanh, từ đó giúp đỡ các tổ chức tiết giảm chi phí, gia tăng hiệu quả làm việc, nhìn nhận cơ hội, rủi ro trên thị trường và làm gia tăng lợi thế cạnh tranh của doanh nghiệp.”
Các lĩnh vực của khoa học dữ liệu gồm: Khai thác dữ liệu (Data Mining), thống kê
(Statistic), học máy (Machine Learning), phân tích (Analyze) và lập trình (Programming) Hal Varian - CEO tại Google, Giáo sư khoa học thông tin, kinh doanh và kinh tế tại Đại học California đã nói rằng: “Kỹ năng phân tích dữ liệu là để hiểu được, xử lý được, trích xuất giá trị từ dữ liệu, trực quan hóa và truyền đạt dữ liệu, đó là những kỹ năng cực kỳ quan trọng trong những thập kỷ tới.” Ngày càng có nhiều công ty nhận ra tầm quan trọng của khoa học dữ liệu, AI và học máy Bất kể ngành hay quy mô nào, các tổ chức muốn duy trì khả năng cạnh tranh trong thời đại “big data” cần phải phát triển và khai thác hiệu quả tối
đa khả năng mà khoa học dữ liệu mang lại nếu không sẽ có nguy cơ bị bỏ lại phía sau
Trang 81.2 Sự phát triển của khoa học công nghệ:
Thuật ngữ "Khoa học dữ liệu" được tạo ra vào đầu những năm 1960 để mô tả một nghề mới hỗ trợ việc hiểu và giải thích một lượng lớn dữ liệu đang được tích lũy vào thời điểm đó (Vào thời điểm đó, không có cách nào để dự đoán lượng dữ liệu khổng lồ thực sự trong vòng 50 năm tới) Khoa học dữ liệu bắt đầu với số liệu thống kê và đã phát triển để hình thành các mô hình như trí tuệ nhân tạo và Internet vạn vật… Ngày càng có nhiều dữ liệu, đầu tiên là bằng cách ghi lại các hành vi và xu hướng mua sắm, các doanh nghiệp đã thu thập và lưu trữ dữ liệu với số lượng lớn hơn bao giờ hết Với sự phát triển của Internet, Internet of Things và sự tăng trưởng theo cấp số nhân của khối lượng dữ liệu có sẵn ở các doanh nghiệp, tạo nên một loạt thông tin mới và dữ liệu lớn Khi cánh cửa được mở ra bởi các doanh nghiệp đang tìm cách tăng lợi nhuận và thúc đẩy quá trình ra quyết định tốt hơn, việc sử dụng dữ liệu lớn bắt đầu được áp dụng cho các lĩnh vực khác, chẳng hạn như y học,
kỹ thuật và khoa học xã hội
Cuộc cách mạng công nghiệp 4.0 là sự kết hợp của công nghệ trong các lĩnh vực vật
lý, công nghệ số và sinh học Những đột phá phổ biến của cuộc cách mạng là IoT (Internet
of Things – Internet vạn vật), AI (Artificial Intelligence – Trí tuệ nhân tạo), Blockchain (Chuỗi khối), Cloud Computing (Điện toán đám mây) và Big Data (Dữ liệu lớn) Cùng với những đột phá công nghệ, khoa học dữ liệu mở ra cánh cửa mới cho những khả năng về cách công ty phát triển để biến họ trở nên đặc biệt trong cuộc cạnh tranh của nền kinh tế số.Càng nhiều doanh nghiệp nhận ra những giá trị to lớn từ dữ liệu, họ phát hiện rằng mình nêntiếp cận dữ liệu một cách khoa học hơn, phù hợp hơn nữa Nhiều tập đoàn lớn có cho riêng mình một đội ngũ khoa học dữ liệu như Google, Facebook, Youtube, Amazon,…và họ vẫn đang không ngừng tiếp tục tìm kiếm những nhà phân tích tài năng Cơ hội nghề nghiệp của ngành tăng cao khi nhu cầu xử lý dữ liệu lớn gia tăng
Theo thống kê của Glassdoor, một trong những trang web việc làm lớn nhất thế giới, ngành khoa học dữ liệu đứng đầu trong số 25 nghề nghiệp tốt nhất, đứng thứ 16 về
Trang 9Theo phân tích từ nguồn “Is Data Scientist Still the Sexiest Job of the 21st Century?” Tạp chí Kinh doanh Harvard cho rằng, ngành khoa học dữ liệu là “công việc quyến
rũ nhất thế kỷ 21” 10 năm sau đó, các công việc thuộc lĩnh vực này cũng có nhu cầu cao Trí tuệ nhân tạo AI ngày càng phổ biến trong kinh doanh và các công ty thuộc mọi quy mô và địa điểm cảm thấy họ cần các nhà khoa học dữ liệu để phát triển các
mô hình AI
Vào năm 2019, bài đăng tuyển dụng công việc hoặc tìm kiếm nhà khoa học dữ liệu trên Indeed đã tăng đến 256% Bên cạnh đó, Cục Thống kê Lao động Hoa Kỳ, dự đoán khoa học dữ liệu sẽ tăng trưởng hơn hầu hết các lĩnh vực khác từ nay đến năm
2029 Những người làm việc trong ngành khoa học dữ liệu có thể thu nhập lên tới 200.000 USD/ năm
1.3 Ứng dụng của Khoa học dữ liệu:
“Nếu phân tích dữ liệu về nhu cầu thị trường ta có thể quyết định cần nuôi bao nhiêu lợn mỗi nơi mỗi lúc Nếu có và phân tích được dữ liệu mô phỏng các phương án xả lũ vào mùa mưa ta có thể chọn được cách xả lũ ít thiệt hại nhất Nếu có và phân tích được các bệnh án điện tử của người bệnh ta có thể tìm ra được phác đồ thích hợp hơn cả cho người bệnh Amazon đã phân tích các lần mua hàng trước của bạn để dự đoán những món đồ bạn có thể
sẽ thích mua và gửi quảng cáo tới, Khi nghe nói về các thành tựu đột phá gần đây của Trí tuệ nhân tạo người nghe có thể cũng chưa biết rằng phần lớn chúng đều dựa vào các phươngpháp và đột phá của khoa học dữ liệu Qua đó có thể thấy, khoa học dữ liệu được ứng dụng liên ngành và đa dạng vào hầu hết các lĩnh vực ngành nghề.”
Ngành ngân hàng:
Với khoa học dữ liệu, việc quản lý dữ liệu khách hàng trở nên hiệu quả hơn, dễ dàng hơn Khoa học dữ liệu còn giúp đánh giá dữ liệu có được từ các giao dịch mỗi ngày và thông tin của khách hàng từ đó dự đoán được doanh thu Ngoài ra, khoa học
dữ liệu cung cấp các thuật toán tự động hóa giúp hoạt động trong ngân hàng diễn ra suôn sẻ.Trong việc phân tích đánh giá, ngân hàng sử dụng các thuật toán học máy để cải thiện chiến
Trang 10lược Ví dụ khi ngân hàng muốn mở một chi nhánh mới, nhờ vào thuật toán phân cụm sẽ xác định được những địa điểm tập trung nhiều khách hàng tiềm
năng Hoặc trong việc bảo động nguy cơ, khoa học dữ liệu đảm bảo không có giaodịch trái phép nào được thực hiện nhờ các thuật toán phân tích và học máy Từ đó
ngăn chặn các hành vi trái phép nhằm bảo vệ lợi ích của khách hàng và của ngân hàng Đối với ngân hàng, việc rủi ro tín dụng xảy ra là không thể tránh khỏi nhưng có
thể giảm thiểu khả năng đó nhờ xây dựng mô hình rủi ro Với sự hỗ trợ của khoa học
dữ liệu và dữ liệu, ngân hàng phân tích, chọn lọc ra những khách hàng không có khảnặng thanh toán nợ trước hạn từ đó đưa ra những quyết định phòng ngừa trường hợpxấu nhất xảy ra
Bank of America (BoA) là 1 trong những Công ty tài chính đầu tiên cung cấp dịch vụ “
Mobile Banking cho khách hàng đang áp dụng khoa học dữ liệu và phân tích dự đoán vào hoạt động kinh doanh của mình Ứng dụng Data Science, ngân hàng có thể phát hiện gian lận trong thanh toán, bảo hiểm, thẻ tín dụng và kế toán Để phát hiện gian lận sớm, các chuyên gia trong lĩnh vực phân tích khoa học dữ liệu của Ngân hàng sử dụng kiến thức DataScience – Machine Learning như liên kêt, phân cụm, phân loại, dự báo, nhờ vậy thiệt hại được giảm rất nhiều so với trước đây Mô hình rủi ro là một lĩnh vực quan trọng khác được các Ngân hàng thực hiện để điều chỉnh các hoạt động tài chính của mình Thông qua các giải pháp phân tích, các ngân hàng có thể đưa ra các quyết định data-driven dựa trên tính minh bạch và rủi ro Bank of America đã phát hiện ra các tài khoản có rủi ro cao nhờ vào việc sử dụng công nghệ dữ liệu lớn này.”
Ngành tài chính:
Khoa học dữ liệu đóng vai trò quan trọng trong việc tự động hoá các nghiệp vụ của doanh nghiệp Giống như ngân hàng, tài chính sử dụng hệ thống báo động để có thể nhận biết sớm các vấn đề và giải quyết ngay Sử dụng các máy móc, các thuật toán học máy trongviệc phân tích thông tin từ khách hàng hoặc những thông tin nội bộ giúp doanh nghiệp dự
Trang 11tiềm năng nhằm đề xuất xây dựng các chiến lược kinh doanh phù hợp mở rộng thị trường Một số ứng dụng của khoa học dữ liệu trong ngành có thể kể đến như: Đánh giá xếp hạng tín dụng, đánh giá rủi ro thế chấp, quản lý dự án và chiến lược đấu thầu, dự báo tài chính, đánh giá rủi ro của các khoản đầu tư, dự đoán khả năng vỡ nợ và phá sản, dự đoán khả năng vay vốn của doanh nghiệp, quản lý danh mục đầu tư,
Ngành y tế, sức khỏe:
Khoa học dữ liệu không chỉ giúp ích trong lĩnh vực kinh doanh mà cả trong yhọc Cũng giống như ngân hàng, các thông tin về bệnh nhân cũng như bệnh án sẽ được khoahọc dữ liệu quản lý hiệu quả Các nhà khoa học dữ liệu sẽ dựa trên những tư liệu nay để dự đoán hướng phát triển của bệnh Bác sĩ sẽ căn cứ vào kết quả phân tích, xâu chuỗi thành những thông tin giá trị phục vụ cho việc khám chữa bệnh Điều chế thuốc là lĩnh vực nhạy cảm của y học, đòi hỏi các quá trình phức tạp trong việc điều chế Sự hỗ trợ của khoa học
dữ liệu giúp đơn giản hỏa đi quy trình điều chế và cung cấp nguồn thông tin về dược liệu Đồng thời, học máy cũng góp phần phân tích những thành phần phức tạp của thuốc hay các tác dụng của thuốc lên con người để dự đoán kết quả khi đưa vào thực tiễn sử dụng Từ đó, nâng tỷ lệ thành công của điều chế thuốc
Một ứng dụng khác của khoa học dữ liệu là trợ lý sức khỏe và ứng dụng chămsóc sức khỏe Ứng dụng này kết hợp với trí tuệ nhân tạo giúp phân tích những chỉ sốcủa riêng từng người, đánh giá tình trạng sức khỏe và sau đó đưa ra những phươngpháp phù hợp nhằm cải thiện sức khỏe Ví dụ như ứng dụng We Do Pulse được pháttriển bởi Prudential Trong bối cảnh địch bệnh COVID-19, chúng ta được yêu cầu sửdụng các ứng dụng chăm sóc sức khỏe như n-CoVi để khai bảo y tế và đánh giá sứckhỏe của bản thân
Tóm lại, khoa học dữ liệu là thành phần không thể thiếu trong thời đại số Khoahọc dữ liệu sẽ còn phát triển trong tương lai với nhiều ứng dụng hơn nữa trong đời sống conngười
Ngành thương mại điện tử:
Thương mại điện tử và ngành công nghiệp bán lẻ là 2 ngành được “hưởng lợi” rất“lớn từ khoa học dữ liệu Để nhận biết nền tảng khách hàng tiềm năng, khoa học dữ liệu được sử dụng và khai thác trên các sản phẩm, dịch vụ của nhà cung cấp, ngoài ra còn
Trang 12phân tích và dự đoán xu thế thị trường, các doanh nghiệp tối ưu được cơ cấu về giá cho phân khúc khách hàng của mình.”
“Khoa học dữ liệu cũng có ý nghĩa đối với phân đoạn thị trường và chọn lọc đối tượngkhách hàng mục tiêu ở các doanh nghiệp Sử dụng kỹ thuật khoa học dữ liệu trong các đề xuất nâng cao của hệ thống, nền tảng thương mại điện tử hoàn toàn có thể đưa ra những thông tin giá trị và khả thi đối với doanh nghiệp để họ định hướng chiến lược mua và bán của mình trên thị trường Cũng tương tự, các doanh nghiệp dùng phương pháp phân tích dựatrên dữ liệu có sẵn các phản hồi của khách hàng để có được những thông tin mà họ muốn Công việc đòi hỏi sử dụng Natural Language Processing để phân tích các câu chữ của kháchhàng hay kết quả khảo sát ”
Amazon – website thương mại điện tử lớn hàng đầu thế giới đã chuyển đổi, ứng “
dụng Data Science rất thành công Chiến lược kinh doanh nền tảng của Amazon là lấy khách hàng làm trung tâm Do đó, doanh nghiệp chủ yếu dựa vào việc phân tích, dự đoán đểmang đến trải nghiệm hài lòng khách hàng thông qua hệ thống khuyến nghị được cá nhân hóa đến từng người dùng của họ Dựa vào cách phân tích của các khách hàng khi dùng sản phẩm tương tự hoặc thói quen của họ, Amazon tinh tế đưa ra các đề xuất giới thiệu sản phẩm phù hợp hơn Thương hiệu còn phát triển mô hình dự đoán, sử dụng Big Data để dự đoán sản phẩm có khả năng thu hút nhiều người dùng nhất Mặt khác, Amzon còn xây dựng thuật toán riêng để giải quyết tình trạng gian lận giữa người bán và người mua, tối ưu hóa đóng gói sản phẩm…”
1.4 Giới thiệu đề tài:
1.4.1 Cơ sở hình thành, mục tiêu đề tài nghiên cứu:
“Khoa học dữ liệu đóng vai trò quan trọng trong quy trình tự động hóa nghiệp vụ tài chính kế toán Chẳng hạn như các nghiệp vụ liên quan đến tài chính cũng sử dụng và vận hành hệ thống báo động nguy cơ qua khoa học dữ liệu Ngành tài chính kế toán cần tự động hóa quy trình này để thực hiện các chiến lược và công việc của mình hiệu quả hơn Sử dụng trí tuệ máy móc, các doanh nghiệp tài chính có thể nhận diện, điều phối và tiếp cận được
Trang 13Thuật toán trong Khoa học dữ liệu có thể thúc đẩy năng suất làm việc, phát triển côngviệc theo định hướng bền vững bằng cách chắt lọc những dữ liệu sẵn có của doanh nghiệp Thậm chí, những nghiên cứu về tài chính cũng sử dụng Machine Learning để đưa ra dự báo trên phân tích Nó cho phép công ty có thể dự báo giá trị vòng đời khách hàng, thị phần họ đang và có thể chiếm lĩnh, giá trị vòng quay các khoản nợ, phải thu, khả năng vay vốn… Nhận thấy được những lợi ích thiết thực trong trong kinh doanh và quản lý mà khoa
học dữ liệu mang lại ấy, nhóm đã lựa chọn đề tài: “Dự báo khả năng vay vốn của doanh nghiệp thông qua phân tích Bảng cân đối kế toán của tổ chức IDA (International Development Association)”
Bảng cân đối kế toán của IDA bao gồm các loại tài sản, các thành phần có trong nợ phải trả, vốn chủ sở hữu Dựa trên phân tích các số liệu ấy, dự đoán và đánh giá xem doanh nghiệp có khả năng vay vốn hay không Nhóm sẽ xây dựng mô hình dự báo khả năng vay vốn để cho ra kết quả xem liệu tổ chức có khả năng huy động vốn hay không Từ kết quả của mô hình, nhóm đưa ra những đánh giá về tình hình sử dụng vốn của tổ chức
1.4.2 Đối tượng, phạm vi nghiên cứu:
Đối tượng nghiên cứu: Dựa vào bộ dữ liệu tìm được về các thông tin có trên
worksheet của Bảng cân đối kế toán Đối tượng nghiên cứu nhóm hướng đến bao gồm các thành phần có trong Bảng cân đối kế toán: Assets, Liabilities, Equity
Phạm vi nghiên cứu: 1762 mẫu
Trang 14CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC
PHƯƠNG PHÁP SỬ DỤNG 2.1 Tổng quan về phần mềm Orange:
2.1.1 Mô tả:
“Khai phá dữ liệu (Data Mining) và học máy (Machine Learning) là những lĩnh vực khá khó để khám phá và nghiên cứu Do đó, nhiều phần mềm đã ra đời với mục tiêu là giúp cho người dùng có thể dễ dàng nghiên cứu các bài toán trong những lĩnh vực khó nhằn này Một trong những phần mềm đó có thể kể đến là Orange.”
“Phần mềm Orange biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở
và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan và tương tác dễ dàng Với nhiều chức năng, phần mềm này có thể phân tích được những dữ liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị và còn giúp việc khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia.Các công cụ (widgets) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu,”
2.1.2 Tính năng:
“Orange bao gồm 1 giao diện canvas mà người dùng đặt các widget và tạo quy trình phân
tích dữ liệu Các widget cung cấp các chức năng như đọc dữ liệu, hiển thị bảng dữ liệu Các widget cung cấp các chức năng như đọc dữ liệu, hiển thị bảng dữ liệu, dự đoán training, chọn chức năng, so sánh các thuật toán, trực quan hoá các phần tử dữ liệu… Người dùng ”
có thể tương tác khám phá các hình ảnh trực quan hoặc đưa các tập con đã được chọn vào các widget khác
Trang 15Nhóm Data: Chứa các chức năng chính dùng để rút trích, biến đổi và nạp dữ liệu.Nhóm Visualize: Chứa các biểu đồ liên quan đến vẽ dữ liệu.
Nhóm Model: Kỹ thuật học có giám sát (phân lớp dữ liệu)
Nhóm Evaluate: Các phương pháp đánh giá mô hình máy học (phân lớp).Nhóm Unsupervised: Kỹ thuật phân cụm dữ liệu (học không giám sát)
Nhóm Educational
2.1.2.1 Nhóm Data:
- File: Dùng để đọc dữ liệu từ một tệp đầu vào và gửi tệp dữ liệu đến kênh đầu ra Lịch sử
của các tệp được mở gần đây nhất được duy trì trong công cụ File Nó cũng bao gồm một thư mục với các bộ dữ liệu mẫu được cài đặt sẵn với Orange
Trang 16Hình 1.2 Giao diện của công cụ File.
File: Duyệt qua các tệp dữ liệu đã mở trước đó hoặc tải bất kỳ tệp mẫu nào.URL: Chèn dữ liệu từ các địa chỉ URL
Info: Tóm tắt dữ liệu được đưa vào có bao nhiêu thông tin
o Instances: Bản ghi, số lượng quan sát
o Features: Trường dữ liệu
o Missing Value: Giá trị bị thiếu
Columns:
o Name: Tên trường
o Type: kiểu dữ liệu
Numeric: Kiểu dữ liệu số
Catergorical: Kiểu dữ liệu True/ False
Text: Dữ liệu kiểu văn bản
Datetime: Dữ liệu kiểu ngày tháng
o Role: Vai trò của trường dữ liệu và thông thường dữ liệu tồn tài ở hai biến
Features: Trường độc lập
Target: Trường (biến) phụ thuộc
- Datasets: Chức năng giúp nạp dữ liệu và kết nối với các dữ liệu trên Internet được chia sẻ
miễn phí, và tại đây cũng được chưa các mô tả về dữ liệu đó trong phần Description
Trang 17Hình 2.2 Giao diện của Datasets.
- DataTable: “Là nơi chứa và hiển thị dữ liệu có trong File trên bảng tisnh Công cụ cũng cho phép sắp xếp các dữ liệu theo thuộc tính và cũng giúp ta lựa chọn dữ liệu.”
“Cho ta biết tên của các biến nằm ở các bảng và giá trị các biến nằm ở các cột.”
“Info: Thông tin về kích thước của trường dữ liệu hiện tại, số lượng và loại biến ”
“Variables: Giá trị của các biến liên tục (có thể được biểu hiện bằng các thanh màu sắc) được quy về các mức độ khác nhau ”
“Selection: Các biến ở hàng có thể được chọn và đưa vào đầu ra của công cụ ”
“Restore Original Order: dùng để khôi phục lại thứ tự ban đầu sau khi sắp xếp dựa trên các thuộc tính.”
Trang 18Hình 3.2 Giao diện của Data Table.
- Data Sampler: Là nơi lấy dữ liệu ngẫu nhiên.
Trang 19Hình 4.2 Giao diện của Data Sampler.
Fixed Proportion Data: thể hiện tỷ lệ phần trăm dữ liệu được chọn
Fixed Sample Size: Trả về một số trường hợp dữ liệu đã được chọn
Cross Validation: Phân vùng các trường hợp dữ liệu thành tập con bổ sung.Nhấn Sample Data để xuất ra dữ liệu mới
- Preprocess: Tiền xử lý dữ liệu trước khi đưa dữ liệu vào phân tích, vì nếu có giá trị bị lỗi
thì sẽ ảnh hưởng đến độ chính xác của việc phân tích, tại đây ta có thể:
Remove: Loại bỏ giá trị bị lỗi
Replace: Thay thế giá trị ngẫu nhiên
Hình 5.2 Giao diện của Preprocess
- Save Data: Lưu dữ liệu ta thực hiện trên Orange vào máy tính.
2.1.2.2 Nhóm Visualize:
- Tree Viewer: Thể hiện hình ảnh trực quan của cây phân loại và hồi quy.
2.1.2.3 Nhóm Model:
- Tree: Thuật toán cây quyết định.
- SVM: Thuật toán siêu phẳng.
- Logistic Regression: Thuật toán hồi quy Logistic.
2.1.2.4 Nhóm Evaluate:
Trang 20- Test and Score: Cho ra các kết quả đánh giá các thuật toán phân loại thử nghiệm hiệu
năng của từng bộ phân lớp đạt bao nhiêu phần trăm, từ đó giúp người sử dụng tìm ra mô hình nào là tốt nhất
Hình 6.2 Giao diện của Test and Score
AUC: Diện tích đường cong
CA: Độ chính xác
F1: Độ trung bình điều hoà
Number of Folds: Chia dữ liệu thành bao nhiêu phần, từ đây có thể thay đổi kết quả của Test and Score
- Prediction: Dự báo các kết quả của thuật toán phân loại thử nghiệm
- Confusion Matrix: Là bước bổ sung tiếp theo của Test and Score, từ đó có thêm cơ sở để
đánh giá mô hình là tốt nhất cho việc dự báo
Trang 21Hình 7.2 Giao diện của Confusion Matrix.
Nếu sai lầm loại 2 nằm ở góc dưới bên trái (ô màu hồng góc trái) càng lớn thì mô hình các càng không chính xác Do vậy tap phải lựa chọn mô hình có sai lầm loại 2 càng nhỏ càng tốt
- ROC Analysis: Là 1 phương tiện so sánh giữa các mô hình phân loại Đường cong càng
gần đường viên bên trái và sau đó là đường viền trên cùng của không gia ROC, phân loại càng chính xác
2.1.2.5 Nhóm Unsupervised:
- Hierarchical Clustering: Đây là phần hiển thị các cụm của dữ liệu và ta có thể điều chỉnh
số cụm mong muốn đạt được
- K – Means: Dữ liệu được đề xuất ra một tập dữ liệu mới trong đó chỉ mục cụm được chọn
được sử dụng làm thuộc tính phân lớp
- Distances: Tính khảong cách giữa các hàng/ cột trong bộ dữ liệu.
2.1.2.6 Nhóm Educational:
Trang 22- Interactive K – Means: Xác định được cụm nào là tốt để chọn nó là tiêu chuẩn khi ta áp
dụng vào bài toán phân cụm cụ thể
2.2 Tổng quan về các phương pháp sử dụng:
2.2.1 Quá trình phát hiện tri thức và khai phá dữ liệu:
Việc biết chọn lọc và sử dụng thông tin hiệu quả có thể quyết định sự thành công của bạn trong phân tích dữ liệu Điều đó có nghĩa là phải tìm ra những giá trị tiềm ẩn, các yếu tố tác động và những xu hướng phát triển của các dữ liệu sẵn có ấy Quá trình đó được gọi là quá trình phát hiện tri thức (Knowledge Discovery in Database – KDD) mà trong đó KPDL là một kỹ thuật quan trọng cho phép ta thu được các tri thức mong muốn
Hình 8.2 Sơ đồ quá trình phát hiện tri thức Quá trình phát hiện tri thức gồm 5 bước cơ bản sau:
Bước 1: “Chọn lọc dữ liệu (selection): Giai đoạn này cần thu gom các dữ liệu khai thácđược vào một cơ sở dữ liệu (CSDL) riêng Ở bước này, chúng ta chỉ cần chọn lọc và giữ lạinhững dữ liệu cần thiết mà giai đoạn sau yêu cầu Tuy nhiên, công việc này thường khókhăn và tốn nhiều thời gian vì dữ liệu tồn tại ở nhiều dạng khác nhau và nằm rải rác khắp
Trang 23đều mang tính nhất quán Do đó “tiền xử lý” là một bước quan trọng sau đó giúp hạn chếnhững kết quả sai lệch không mong muốn trước khi bước vào quá trình KPDL.
Bước 3: Chuyển đổi dữ liệu (transformation): Ở đây, dữ liệu sẽ được chuyển đổi về dạngthích hợp để thuận tiện tiến hành các bước sau
Bước 4: Khai phá dữ liệu (Data mining): Giai đoạn này sử dụng các kỹ thuật nhằm pháthiện ra các tri thức tiềm ẩn trong dữ liệu Một số kỹ thuật được sử dụng trong bước này đólà: phân lớp, gom cụm,
Bước 5: Đánh giá kết quả mẫu (interpretation evaluation): Đây cũng là bước cuối cùngtrong quá trình KDD Dựa trên những tiêu chuẩn đánh giá phù hợp sẽ được chọn lọc và sửdụng sao cho các mẫu dữ liệu được trích xuất bởi các phần mềm KPDL có thể sử dụngđược
Từ quá trình phát hiện tri thức, ta thấy các kỹ thuật phát hiện tri thức trải qua rất nhiều giaiđoạn và sử dụng nhiều phương pháp để cho ra kết quả cuối cùng Đây là một quá trình liêntục, đầu vào của giai đoạn sau xuất phát từ đầu ra của giai đoạn trước Trong đó, KPDLđược coi trọng hơn cả bởi việc tìm ra được những tri thức và thông tin có cấu trúc chặt chẽtiềm ẩn trong kho dữ liệu khổng lồ
2.2.2 Tiền xử lý dữ liệu:
“D li u trong th c t th ng kh ng s ch, v kh ng nh t qu n C c k
thu!t ti"n x$ l% d li u c' th( c)i thi n đ +c ch t l +ng c,a d li u, do đ'
n' gi.p c c qu tr0nh khai ph d li u ch1nh x c v hi u qu) Ti"n x$ l%
d li u l m4t b 6c quan tr7ng trong qu tr0nh kh m ph tri th8c, b9i v0
ch t l +ng c c quy t đ;nh ph)i d a tr<n ch t l +ng c,a d li u Qu tr0nh
ti"n x$ l% d li u bao g>m: L m s ch d li u, t1ch h+p v bi n đAi d li u,r.t g7n d li u ”
2.2.2.1 Làm sạch dữ liệu:
“D li u trong th c t th ng kh ng đCy đ,, nhiDu, v kh ng nh t qu n
Qu tr0nh l m s ch d li u sE cF gGng đi"n c c gi tr; thi u, lo i bH nhiDu,
v s$a ch a s kh ng nh t qu n c,a d li u ”
V6i d li u b; thi u:
Trang 24“BH qua b4 c' gi tr; thi u: Ph Lng ph p n y th ng đ +c s$ dMng khi nhNn l6p b; thi u Ph Lng ph p n y r t kh ng hi u qu) khi phCntrOm gi tr; thi u trong tPng thu4c t1nh l đ ng k( ”
“Đi"n v o bRng tay c c gi tr; thi u: C ch ti p c!n n y tFn th i gian
v kh ng kh) thi khi th c hi n tr<n t!p d li u l6n v6i nhi"u gi tr; thi u.”
“S$ dMng m4t hRng sF to n cMc đ( đi"n v o c c gi tr; thi u: Thay
th to n b4 gi tr; thi u c,a c c thu4c t1nh bRng m4t hRng sF nh
"Unknown" hay v c c ”
“S$ dMng gi tr; trung b0nh c,a thu4c t1nh đ( đi"n c c gi tr; thi u ”
“S$ dMng m4t gi tr; trung b0nh c,a thu4c t1nh cho t t c) c c mWu th$ thu4c v" cXng m4t l6p v6i b4 đN cho ”
“S$ dMng m4t gi tr; c' kh) nOng nh t đ( đi"n v o c c gi tr; thi u:
gi tr; n y c' th( t0m ra bRng ph Lng ph p h>i qui, hay d a tr<n
c c c ng cM s$ dMng h0nh th8c Bayesian.”
V6i d li u nhiDu:
NhiDu l m4t l[i hay m4t s m\u thuWn ngWu nhi<n trong vi c đo c c bi n
sF C c k thu!t lo i bH nhiDu bao g>m:
“Ph Lng ph p Bining: ĐCu ti<n sGp x p d li u v ph\n ho ch d
li u th nh nh ng bin Sau đ' ng i dXng c' th( l m trLn d li u bRng c c gi tr; trung b0nh c,a bin, bRng trung v; c,a bin, bRng c c bi<n c,a bin, Bin c' đ4 r4ng c ng l6n th0 t!p d li u thu đ +c sE
c ng "trLn" ”
“Ph Lng ph p h>i quy: Ph Lng ph p h>i quy tuy n t1nh t0m m4t
đ ng th]ng tFi u đ( kh1t v6i 2 thu4c t1nh (hay 2 bi n), do đ' m4t thu4c t1nh c' th( dXng đ( d đo n thu4c t1nh can l i ”
“Ph\n cMm: C c gi tr; ngo i lai c' th( đ +c da b9i s ph\n cMm,
Trang 252.2.2.2 Tích hợp và chuyển đổi dữ liệu:
Khai th c d li u th ng đai hHi s t1ch h+p d li u t8c l s h+p nh t d
li u tP nhi"u kho ch8a D li u c' th( đ +c chuy(n đAi sang c c h0nh th8c th1ch h+p cho khai th c d li u
- Ph\n t1ch d li u:
“C c t c vM ph\n t1ch d li u c,a b n sE đai hHi s t1ch h+p d li u, n'
k t h+p d li u tP nhi"u ngu>n kh c nhau th nh m4t khFi d li u gGn k t,
nh trong qu tr0nh x\y d ng v s$ dMng KDL (data warehousing).”
M4t sF v n đ" trong qu tr0nh t1ch h+p d li u:
“L m th n o đ( nh ng th c th( trong th gi6i th c tP nhi"u ngu>n
kh c nhau c' th( phX h+p v6i nhau V1 dM: customer_id v cus_id chf l m4t thu4c t1nh ch8 kh ng ph)i hai ”
“Si<u d li u dXng đ( tr nh s ph t sinh l[i trong qu tr0nh t1ch h+p
“Trong bi n đAi d li u, d li u đ +c chuy(n đAi hay h+p nh t v"
d ng phX h+p cho vi c khai th c d li u Bi n đAi d li u bao g>m
b n h ng h ng ng y c' th( đ +c t1nh to n theo th ng hay theo “
nOm B 6c n y c' th( s$ dMng trong vi c x\y d ng khFi d li u c,a
d li u 9 nhi"u m8c.”
Trang 26Kh i qu t h'a d li u, trong đ' d li u 9 m8c kh i ni m th p hay d
sE hi u qu) hLn so v6i khai th c d li u tr<n d li u gFc C c giai đo n r.t g7n d li u nh sau: ”
TAng h+p khFi d li u, trong đ' c c phjp to n tAng h+p đ +c p dMng “
tr<n d li u trong c u tr.c c,a khFi d li u ”
L a ch7n t!p thu4c t1nh con, trong đ' c c thu4c t1nh hay c c chi"u “
kh ng li<n quan, li<n quan y u, hay d thPa c' th( đ +c t0m v x'a ”
R.t g7n chi"u, trong đ' cL ch mN h'a đ +c s$ dMng đ( r.t g7n k1ch “
th 6c t!p d li u ”
Gi)m sFl +ng, trong đ' d li u đ +c thay th hay đ +c đ nh gi b9i “
d li u kh c, nhH hLn v" sF l +ng nh c c m h0nh tham sF (chf cCn l u
gi c c tham sF m h0nh thay v0 ph)i l u gi d li u th!t) hay c c ph Lng
ph p kh ng dXng tham sF (nonparametric method) nh clustering, l y mWu (sampling), v s$ dMng c c l +c đ> (histograms).”
R i r c h'a v t o c c ph\n c p kh i ni m, trong đ' c c gi tr; d li u “
th c,a c c thu4c t1nh đ +c thay th b9i c c d)i hay c c m8c kh i ni m cao hLn R i r c h'a l nh ng c ng cM m nh mE cho khai th c d li u, trong đ' n' cho phjp khai th c d li u 9 nhi"u m8c kh c nhau c,a kh i
ni m.”
Trang 272.3 Phương pháp phân lớp dữ liệu (học có giám sát):
2.3.1 Bài toán phân lớp dữ liệu:
2.3.1.1 Định nghĩa:
Phân lớp dữ liệu là 1 quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ 1 mô hình phân lớp Mô hình này được xây dựng trên một tệp dữ liệu đã gán nhãn(đã chuẩn bị được bộ dữ liệu trong quá khứ)
Quá trình gán nhãn cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu
2.3.1.2 Quy trình phân lớp:
Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn Training)
Bước 2: Sử dụng mô hình (lựa chọn thuật toán phân lớp)
- Xuất phát từ một tập dữ liệu có sẵn, sau đó ta sẽ tiến hành tiền xử lý dữ kiệu để bộ dữ liệu của ta không có dữ liệu của ta không có dữ liệu bị thiếu, nhiễu
- Từ đây ta sẽ tạo ra được mô hình phân lớp sau khi chạy các thuật toán phân lớp dữ liệu
- Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
- Phân lớp dữ liệu mới
2.3.2 Một số phương pháp phân lớp cơ bản:
2.3.2.1 Hồi quy Logistic (Logistic Regression)
Định nghĩa: Hồi quy Logistric là mô hình xác suất dự báo giá trị đầu ra rời rạc từ một tập giá trị đầu vào và được biểu diễn dưới dạng vector Mục đích của logistic regression là ước tính xác suất của những sự kiện, trong đó bao gồm việc xác định mối quan hệ giữa các tính năng để từ đó dự đoán xác suất của kết quả
Trang 28-Giải thích được các hệ số của mô hình (về tầm quan trọng)
Khuyết điểm:
-Hạn chế về độ tuyến tính giữa biến phụ thuộc và biến độc lập
-Chỉ có thể được sử dụng để dự đoán các chức năng rời rạc
-Khó để dự đoán các mối quan hệ phức tạp
2.3.2.2 Cây quyết định (Tree)
Định nghĩa: Cây quyết định là đồ thị cùng các quyết định khá dĩ đi kèm nhằm mô tả, phân loại và tổng quát hoá dữ liệu cho trước Hệ thống phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc vào nhiềukiểu dữ liệu khác nhau (Binary, Norminal, Ordinal, Quantitative…) và thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal
Từ dữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng ta mô tả, phân loại, tổng quan dữ liệu cho trước này Cụ thể hơn, cây quyết định sẽ đưa ra các dự đoán cho từng đối tượng
Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phân loại Cây hồi quy có ước tính mô hình là các giá trị số thực và cây phân loại được dùng trong các mô hình có giá trị cuối cùng nằm mục đích chính là phần loại Mô hình cây quyết định cho phép có nhiều kết quả
Ví dụ: Xét A có đóng thuế không? Nếu A không đóng thuế thì ta xem xét đến tình trạng hôn nhân: có gia đình thì cá nhân đó không gian lận, không có gia đình hoặc độc thân thì ta xem xét đến thu nhập của cá nhân đó
Ưu điểm:
- Dễ hiểu
- Không cần chuẩn hoá
Trang 29- Khó giải quyết trong tình trạng dữ liệu phụ thuộc thời gian.
- Chi phí xây dựng mô hình cao
2.3.2.3 SVM – Support Vector Machine
Định nghĩa: SVM là thuật toán có giám sát, xem dữ liệu như vector và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều để phân cách các lớp dữ liệu
Để tối ưu hoá kết quả, ta xác định một mặt phẳng siêu phẳng có khoảng cách đến điểm dữ liệu của tất cả các lớp xa nhất có thể
Có nhiều biến thể phù hợp với nhiều bài toán phân lớp
Ưu điểm:
- Chạt nhanh, tiết kiệm bộ nhớ
- Linh hoạt, vừa phân loại tuyến tính, vừa phân loại phi tính
- Xử lý được không gian nhiều chiều
Khuyết điểm:
- Chưa thể hiện tính xác suất trong phân loại
- Kết quả chưa tốt trong trường hợp dữ liệu quá lớn
Mục đích cuối cùng của mô hình SVM: tạo ra mặt phẳng giữa 2 lớp dữ liệu
2.3.2.4 Neural Network
“Neural Network là mạng nơ-ron nhân tạo, đây là một chuỗi những thuật toán được đưa ra
để tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu Thông qua việc bắt chước cách thức hoạt động từ não bộ con người Nói cách khác, mạng nơ-ron nhân tạo được xem
là hệ thống của các tế bào thần kinh nhân tạo ”
“Neural Network có khả năng thích ứng được với mọi thay đổi từ đầu vào Do vậy, nó có thể đưa ra được mọi kết quả một cách tốt nhất có thể mà bạn không cần phải thiết kế lại những tiêu chí đầu ra Trong lĩnh vực tài chính, mạng nơ ron nhân tạo hỗ trợ cho quá trình ”phát triển các quy trình như: giao dịch thuật toán, dự báo chuỗi thời gian, phân loại chứng
Trang 30khoán, mô hình rủi ro tín dụng và xây dựng chỉ báo độc quyền và công cụ phát sinh giá cả Neural Network có sự tương đồng chuẩn mạnh vối những phương pháp thống kê như đồ thị đường cong và phân tích hồi quy Để mạng nơ-ron nhân tạo có thể học được, chúng cần phải có một lượng lớn thông tin được gọi là tập hợp các cặp dữ liệu đầu vào và dữ liệu đầu
ra để huấn luyện trong quá trình máy học (training set)
Ưu điểm:
- Có thể thích ứng với nhiều loại thông số và yêu cầu dữ liệu
- Dễ sử dụng, yêu cầu số liệu thống kê tối thiểu đào tạo
- Mạng nơ-ron có khả năng học hỏi (ở một khía cạnh hạn chế), khiến chúng trở thành mô hình gần nhất với người vận hành
Khuyết điểm:
- Do tính chất phức tạp và cao cấp của mô hình, chúng rất khó thiết kế
- Do mạng nơ-ron sẽ phản ứng với những thay đổi dữ liệu dù là nhỏ nhất, nên thường rất khó để lập mô hình phân tích
2.3.3 Các phương pháp đánh giá mô hình phân lớp:
Là phương pháp kiểm tra hiệu quả của mô hình phân lớp để xem có hiệu quả không Một mô hình lý tưởng là mô hình không quá đơn giản, không quá phức tạp, không quá nhạt cảm với nhiễu (tránh không khớp và quá khớp)
2.3.3.1 Ma trận nhầm lẫn (Confusion Matrix)
- Định nghĩa: Là ma trận chỉ ra có bao nhiêu điểm thật sự thuộc lớp nào Có kích thước k x
k với k là số lượng lớp của dữ liệu
- Tính chính xác (Accuracy): Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ dữ liệu Nó chỉ cho ta biết tỷ lệ dữ liệu đúng (chung), còn cụ thể đúng lớp nào thì không rõ
Trang 31- Độ đo trung bình điều hoà: Là giá trị trung bình điều hoà của Precision và Recall.
- ROC: Đồ thị đánh giá phân loại mô hình nhị phân Tạo ra bằng cách dựa trên tỷ lệ TPR (True Positive Rate) và FPR (False Positive Rate)
ROC càng tiệm cận với 0 và 1 thì độ chính xác càng cao
- AUC: Là diện tích nằm dưới đường cong ROC, AUC càng lớn thì mô hình càng tốt
2.3.3.2 Phương pháp phân chia dữ liệu Hold – out
Phương pháp phân chia dữ liệu Hold – out phân chia dữ liệu đầu thành 2 tập độc lập theo một tỷ lệ nhất định
Ví dụ: Testting 30%, Training 70% hoặc theo tỷ lệ 40 – 60, 80 – 20,…
Thích hợp cho tập dữ liệu nhỏ, không đại diện cho toàn bộ dữ liệu: vì vậy ra cần lấy mẫu sao cho nó phẩn bố đều trong cả 2 dữ liệu huấn luyện và đánh giá
2.3.3.3 K – fold cross Validation
- Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước
- Một trong các fold được sử dụng là dữ liệu đánh giá và còn lại thì dùng training
- Hợp lại cho đếnk hi tất cả các fold đều đã được dùng làm tập dữl iệu đánh giá
2.3.4 Minh hoạt phân lớp bằng Orange (trong chương 3)
2.4 Phương pháp phân cụm dữ liệu (học không giám sát)
Phân biệt Học có giám sát và học không giám sát:
- Học có giám sát:
Phương pháp phân lớp: Là phần thực hiện khi dữ liệu đã đó cấu trúc
Tạo ra mô hình Training và Testing:
Training: Đã đặt tham số Target y vào 1 hay nhiều trường
Testing: Để tất cả các biến là Featured
Dự báo cho dữ liệu mới
- Học không giám sát: