Bài dự án này sẽ phân tích kỹ hơn về lĩnh vực khoa học dữ liệu và sử dụng phần mềm Orange đề khai phá vả phân lớp các đữ liệu có sẵn được lấy từ một công ty kiểm toán.. Cụ thể, khoa học
Trang 1
ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KE
KHOA CONG NGHE THONG TIN KINH DOANH
BO MON CONG NGHE THONG TIN UEH
UNIVERSITY
BAO CAO ĐỎ ÁN HOC PHAN
KHOA HOC DU LIEU
Dé tai: UNG DUNG KHOA HOC DU LIEU DE DU DOAN CAC CONG
TY GIAN LAN TREN CO SO PHAN TICH CAC YEU TO RUI RO
TRONG KIEM TOAN
GVHD: TS.GVC Nguyễn Quốc Hùng
Nhóm thực hiện: Nhóm 08
Trần Trịnh Thanh Trúc (Trưởng nhóm)
Hoàng Ngọc Thanh Bình Phan Lé Thuy Dương Nguyễn Khắc Minh
TP Hồ Chí Minh, Ngày 18 Tháng 12 Năm 2022
Trang 2
BANG PHAN CÔNG CÔNG VIỆC
CHƯƠNG |: GIGI THIEU VE KHOA HOC DU LIEU VA DE TAI
L Về môn học
II Ly do chon dé tai
IH Mue tiéu nghién ctru
IV Đối tượng và phạm vi nghiên cứu
V Phương pháp nghiên cứu
VI Cầu trúc của bai
CHƯƠNG 2: TÔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG
IL Giới thiệu về các phương pháp sử dụng 9
1.5 Ung dụng trong đời sống vả bài nghiên cứu II
Trang 32.2.2.2 Phân lớp đữ liệu mới
2.3 Các phương pháp phân lớp dữ liệu
2.3.1 Héi quy Logistic Regression
2.4.3 Cross Validation: Holdout va K-fold cross validation
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ
L Sơ lược về ngành kiểm toán và mức độ rủi ro của các công ty ở Ân Độ
L Đôi nét về công việc kiểm toán
Trang 42.2 Kiểm toán độc lập
2.3 Kiểm toán nội bộ
3 Giá trị của các kiêm toán độc lập
4 Tình hình gian lận của các công ty ở Ân Độ
H Mô hình nghiên cứu
1 Dữ liệu của bài nghiên cứu
2.1.1 Phương pháp Cay quyét dinh (Tree Decision)
2.1.2 Phương pháp Hỏi quy Logistic (Logistic Regression)
2.1.3 Phuong phap SVM (Support Vector Machine)
2.1.4 Phuong phap Neural Network
2.2 Mô hình nghiên cứu đề xuất
CHUONG 4: DANH GIA KET QUA MO HINH
I Két qua mé hinh nghién ctu
1 Kết quả của bộ dữ liệu huấn luyện
2 Kết quả của bộ đữ liệu đự báo
IL Kết luận kết quả của bài nghiên cứu
KẾT LUẬN VÀ HƯỚNG PHÁT TRIÊN
Trang 5TÀI LIỆU THAM KHẢO
Vv
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
55
Trang 6DANH MỤC HÌNH ẢNH
Hình 3 Quá trình phân lớp dữ liệu - Đánh giá mô Ninh cece 14
Hình 5 Hồi quy Logistic Regression c.ccccccsccscessescessesssessesecseeseseseesestseesnseseesees 16 Hinh 6 Cay quyét dinh (Decision Tree) 0.00.c.ccccccccsccsscesessescecsesssstesesseesseeeseseseesetes 18
Hình 8 Các điểm dữ liệu trong mô hình SVM c1 1T 1E 2111122121211 xe 20
Hình 9 Cấu trúc một mạng Neural Network 2 122112011 11211121 1112211222 21 Hình 10 Các thuật ngữ trong ma trận nhằm lẫn (Confusion Matrix) -: 23 I0 000.409 00.1 7n a‹‹i 25 Hình 12 Phương pháp Hold - out 2 2 222122212211 1211211 121111111112 1118111812012 26 Hình 13 Phương pháp K - fold eross vaÌidation - c2 2222211122112 27 Hình 14 Hình ảnh thê hiện thuộc tính của các biễn - 22 S25 S2 1353552155 52552525555 32
Hình 15 Mô hình tiền xử lý đữ liệu 2-52 2121 SE12111121111511211111111111111 12 1x6 32
Hình 17 Dữ liệu huấn luyện 5 SE E11 112121121111211111101 112111101111 Ha 34
Hình 19 Mô hình phân lớpp - L2 2 222221121121 251 1211221111511 1 12155111111 1111 2111 ke, 35
Hình 20 Kết quả phân lớp qua Test and Score 5 se S2 1219211 127127122 1.12 1xe 36 Hình 21 Kết quả của Decision Tree qua Tree ViewWer s 2112 E1 crre 37 Hình 22 Confusion Matrix - DecIsion TTe€e c2 21121122111 1121 1152111182211 37 Hình 23 Confuston Matrix - LogIstie RÑeeress1on - 2 22: 2222122211221 css, 39 Hình 24 Confusion MlatrIx - SVMM 2 n1 1 2121111111111 1011111101110 111111 xk 40 Hinh 25 Confusion Matrrx - Neural Network c c2 1211212111111 2812 re 4I Hình 26 Mô hình nghiên cứu tông thê - 52-2121 121 22151121121121111121 211121 x2 42 Hình 27 Model comparision by AUC 12212211 22112111211111111101 1201111111 Hye 43
Hình 29 Mô hình phân tách 100 mẫyu 22+ 9E S282 21E115EE227112152 E21 226 46 Hình 30 Data Sampler 100 mẫu - 2 2S S121 1E7152E7111112121211212121 111128 x0 46 Hình 31 Thuộc tính 100 mẫyu 25: 55t92212221122122112211122112211121112111211121 2.20 47 Hình 32 Dự báo I00 mẫn - 2+ -222t221122111211122112211111112111211121111111211 01 1126 47 Hình 33 Kết quả dự báo 100 mẫu 5 2 51 21 1211218711121121121121221121 1 ru 49
Hình 34 Kết quả dự báo L00 mẫu hiển thị qua Data Table 5⁄22 2555 s52 51
VI
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 7D ANH MUC BANG BIEU
Bảng I Đánh giá mức độ hiệu quả của mô hình dựa trên chỉ số AUC Bảng 2 Mô tả biến phụ thuộc
Trang 8DANH MỤC TỪ VIET TAT
KDD Knowledge Discovery in Database
Al Artificial Intelligence
IOT Internet Of Things
SVM Support Vector Machine
TP True Positive
TN True Negative
FP False Positive
FN False Negative
ROC Recetver Operating Characteristic
FPR False Positive Rate
TPR True Positive Rate
AUC Area Under the Curve
Trang 9LỜI MỞ ĐẦU
Trong vòng 15 năm gần đây, con người đã chứng kiến được sự mở rộng cũng như là sự phát triển vượt bậc của hệ thống cơ sở hạ tầng trong lĩnh vực thương mại, cũng như là sự đầu tư của đất nước vảo lĩnh vực này Sự đầu tư và phát triển này đã mang đến những ảnh hưởng trực tiếp đến việc thu thập dữ liệu liên quan đến lĩnh vực thương mại Có thể nói rằng, mọi khía cạnh của kinh tế đều có liên quan mật thiết đến ngành khoa học dữ liệu Các hoạt động như: hoạt động kinh doanh của doanh nghiệp, hoạt động sản xuất và mua bán hàng hóa, hoạt động vận chuyển và cung cấp các nguyên vật liệu, hành vị tiêu dùng của khách hàng, hoạt động quảng bá thương hiệu và hiệu quả của chúng, tiễn trình hoạt động của công ty đây đều là những thứ
mả các nhà đầu tư quan tâm và cần thu thập cảng nhiều thông tin về các khía cạnh kê trên nhiều nhất có thể Không những thế mà các nhà đầu tư còn quan tâm đến các dữ liệu bên ngoài doanh nghiệp, có thê kế đến là: công ty cạnh tranh có động thái như thé nao, thị trường của doanh nghiệp đó có đang ôn định hay không Vậy nên việc thu thập và sử dụng đữ liệu trong lĩnh vực kinh tế đang có mối quan hệ liên quan sâu sắc đến nhau Từ đó dẫn đến việc thúc đây sự phát triển trên cả hai lĩnh vực khoa học
dữ liệu và thương mại
Thế giới đang sở hữu một số lượng thông tin không lồ vả vì thế mọi công ty thuộc tất cả các lĩnh vực khác nhau không chỉ riêng kinh tế đang tập trung mọi nguồn lực đề thu thập và xử lý thông tin nhanh nhất Mục đích của việc này đó chính là nắm bắt được và dự đoán được trước xu thê đề có thê trở thành công ty dẫn đầu trong lĩnh vực của họ Khoa học đữ liệu cần có các nguyên tắc, kỹ thuật dé phan tích được đữ liệu đầu vảo tốt nhất Việc khai phá dữ liệu trong lĩnh vực thương mại thường được dựa vào mối quan hệ của khách hàng với sản phâm đề phân tích thói quen tiêu dùng
và giá trị của khách hàng Nỗi bật nhất đó chính là các siêu thị bán lẻ thường áp dụng các đữ liệu mua hàng của khách hàng để tôi đa hóa số lượng hàng hóa được bán ra thị trường Ta có thế thấy được tầm quan trọng của đữ liệu đối với việc trao đổi mua bán, kinh doanh Mỗi dữ liệu trong lĩnh vực kinh tế đều mang cho mình khả năng giúp người dùng ra quyết định cũng như mang tính độc nhất với mỗi dữ liệu đều hướng tới những mục tiêu riêng như doanh số, sự nhất quán, sự bền vững và kế cả tính cách riêng của khách hàng
Bên cạnh đó, một trong số các đề tài đang nóng hiện nay đó chính là kiếm toán Ngành kiểm toán là một ngành rất cần yếu tố con người và sự chính xác Với việc áp dụng khoa học dữ liệu và máy móc vào một ngành đặc thù như kiêm toán sẽ
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 10giúp nâng cao sự chính xác cũng như tốc độ làm việc Giúp cho các nhà đầu tư dễ dảng ra quyết định đúng cũng như vạch trần được các công ty, doanh nghiệp có những hành vi không minh bạch trong quá trình hoạt động
Bài dự án này sẽ phân tích kỹ hơn về lĩnh vực khoa học dữ liệu và sử dụng phần mềm Orange đề khai phá vả phân lớp các đữ liệu có sẵn được lấy từ một công
ty kiểm toán Từ đó đưa ra kết luận về các doanh nghiệp đang hoạt động tại Ân Độ
có đang gian lận hay không
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 11BANG PHAN CONG CONG VIEC
- Phương pháp khai phá dữ liệu (chương 2)
- Ứng dụng trong đời sống và bài nghiên cứu (chương 2)
- Mô hình Neural Network (chương 2)
- Kết quả của mô hình nghiên cứu (chương 3)
- Tài liệu tham khảo
- Mục tiêu nghiên cứu (chương 1)
- Cầu trúc của bài (chương l)
- Khai phá dữ liệu (chương 2)
- Giới thiệu Orange (chương 2)
- Đánh siá mô hình nghiên cứu (chương 3)
- Mô tả dữ liệu (chương 3)
- Hướng phát triển của đề tài (chương 4)
- Giới thiệu môn học (chương 1)
- Phạm vi nghiên cứu (chương l)
- Quy trình phân lớp (chương 2)
- Phương pháp đánh øiá mô hình phân lớp
Trang 12
- Kết quả dự báo (chương 3)
- Kết luận mô hình nghiên cứu (chương 4)
- Ly do chon dé tải (chương 1)
- Giới thiệu phần mềm Orange (chương 2)
- Phân lớp dữ liệu (chương 2)
- Phương pháp phân lớp dữ liệu (chương 2)
- Sơ lược về ngành kiểm toán và những rủi ro
gian lận kiểm toán (chương 3)
- Kết luận của bài nghiên cứu (chương 3)
Trang 13CHUONG 1: GIOI THIEU VE KHOA HOC DU LIEU VA DE TAI
I Về môn học
Khi sống trong một thời đại phát triển mạnh mẽ đang tồn tại trong cuộc cách mạng công nghiệp lần thứ 4 với sự phát triển vượt bậc của những chuyến giao công nohệ, công nghệ số, hệ thống thông tin, ắt hắn những chủ đề về khoa học dữ liệu cũng đang dần dần bước vào cuộc sông thường nhật của con người Khoa học dữ liệu đang được biết tới là một trong những ngành có nhu cầu nhân lực cao trong thế kỉ XXI hiện nay Cụ thể, khoa học dữ liệu chính lả thu thập, khai thác và phân tích đữ liệu đề tìm ra được những giá trị tiềm ân bên trong bộ đữ liệu đó; từ đó chuyên hóa
đữ liệu thành các dạng mô hình giúp trực quan hóa dữ liệu va phân tích các hành vI,
dự báo xu hướng Chính vì điều này, khoa học đữ liệu có tính ứng dụng cao va dan trở nên phổ biến trong mọi lĩnh vực, đặc biệt lĩnh vực kinh tế Nhận thấy được tầm quan trọng của khoa học đữ liệu, nhà trường đã mở rộng thêm nhiều chương trình đào tạo về các môn liên quan tới khai thác, phân tích dữ liệu và đặc biệt là khoa học
sinh viên trong mọi lĩnh vực Môn học này trang bị cho sinh viên những kiến thức, kĩ
nang can thiết để có thể đự đoán xu hướng thị trường trong tương lai và lựa chọn cân nhắc các phương án, quyết định của mình cho phù hợp nhất
II Ly do chon dé tai
Vai trò thiết yêu của ngành công nghệ thông tin sẽ giúp cho việc phát triển về mọi mặt của xã hội toàn diện hơn khi mà lượng thông tin thu thập được là vô cùng
nhiều Ở một xã hội với tốc độ phát triển nhanh chóng như Việt Nam thì việc không
đi theo kịp xu hướng sẽ đi theo hậu quả nặng nẻ đó 1a bị đảo thải Tuy việc phát triển của ngành công nghệ thông tin đang phát triển rất nhanh nhưng kèm theo đó là những vấn đề như có quá nhiều thông tin gây ra việc loãng thông tin cho người ding Theo nghiên cứu thì cứ 20 tháng, luỗng thông tin được chuyến đi tăng lên gấp đôi
Sự phát triển này còn gây ra thêm việc các thông tin chưa kịp xử lý, từ đó trở thành các thông tin lỗi thời và không còn giá trị sử dụng Chính vì thế những người sử dụng thông tin trong các tô chức tài chính, thương mại, khoa học cần có kỹ thuật khai
phá dữ liệu (Data Mining) đề đứng trước tình thế quá tải thông tin như hiện nay họ
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 14không còn bị bỏ lại phía sau Khoa học đang ngày càng tiên tiến đồng nghĩa với việc công nghệ thông tin cũng đang có những bước tiến, chúng ta cần phải bắt kịp và cải thiện các phần mềm, các ứng dụng đề nâng cao năng suất làm việc, kết quả đầu ra và
hỗ trợ việc sử dụng thông tin tôi ưu và chính xác hơn
Việc khai phá đữ liệu đang được nghiên cứu vả áp dụng rộng rãi ở nhiều lĩnh vực khác nhau như tải chính, khoa học, thống kê, y học, Không chỉ những lĩnh vực được kề trên, lĩnh vực kế toán - kiêm toán đòi hỏi phải có sự tham gia của con người cũng đang đần chuyên mình qua công nghệ Lĩnh vực kế - kiếm hiện nay đang đần trở nên một trong những chủ đề được quan tâm sôi nỗi từ cấp đại học cho đến các công ty, doanh nghiệp đa quốc gia Một lĩnh vực đòi hỏi yếu tổ con người cao như kế toán - kiểm toán thì cũng không thê thiêu những sai sót, lỗ hông trong quá trình xử lý thông tin Vì thế việc áp dụng khai phá đữ liệu vảo lĩnh vực này sẽ tăng độ chính xác cũng như yếu tô trung thực đề đưa ra thông tin hữu ích nhất cho người sử dụng Để làm được điều đó, sự phát triển của các mô hình toán học và các giải thuật hiệu quả
là chia khóa quyết định Chúng em quyết định chọn đề tài: “ỨNG DỤNG KHOA
HOC DỮ LIỆU ĐÈ DỰ ĐOÁN CÁC CÔNG TY GIAN LẬN DỰA TRÊN CƠ SỞ PHAN TICH CAC YEU TO RUI RO KIEM TOÁN” làm đề tài nghiên cứu
IH Mục tiêu nghiên cứu
- _ Dựa trên việc nghiên cứu kiến thức của bộ môn Khoa học dữ liệu đề tiễn hành
khai phá bộ đữ liệu nhằm làm rõ vấn đề nghiên cứu
- Nghiên cứu các phương pháp cụ thể, đặc biệt là phương pháp phân lớp dữ liệu
- _ Xây dựng mô hình nghiên cứu dựa vào bộ dữ liệu có sẵn và lựa chọn mô hình phù hợp nhất đề tiền hành dự báo
- _ Dự báo tình trạng gian lận thông qua việc phân tích mức độ rủi ro kiểm toán dựa trên bộ dữ liệu huấn luyện được chọn
IV Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của đề tài là công ty để đánh giá mức độ rủi ro trong quá trình kiêm toán và từ đó đánh giá mức độ mức độ gian lận hoặc không gian lận
của các công ty trên Chính vì điều này, bộ dữ liệu của đề tài gồm 1200 mẫu (công
ty) với 27 cột (đặc tính) Bộ dữ liệu này được nhóm nghiên cứu thu thập dựa trên nguồn kaggle.com - đây là một trình đuyệt web cung cấp các bộ đữ liệu được chia sẻ bởi nhiều người dùng trên toản thể giới và chủ yếu liên quan tới các ngành khoa học
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 15dữ liệu Vì vậy, số liệu trên nền tảng này có thể được xem lả đáng tin cậy, uy tín và
có thê áp dụng cho nhiều phần mềm phân tích khác nhau
Bên cạnh đó, phạm vị nghiên cứu của bài dựa trên số liệu thực thu thập từ
1200 công ty thuộc các lĩnh vực: Thủy lợi, Y tế công cộng, Lâm nghiệp, Nông nghiệp, Chăn nuôi, Thủy sản, Khoa học công nghệ đến từ các tỉnh và thành phố khác nhau của Ân Độ
V Phương pháp nghiên cứu
Phương pháp nghiên cứu của đề tài là sự kết hợp giữa phương pháp phân tích
- tông hợp và phương pháp mô hình hóa Cụ thế, nhóm nghiên cứu sẽ tiến hanh tim hiểu, thu thập và chắt lọc dữ liệu thông qua các trang thông tin chính thống, uy tín để rút ra được những luận điểm, luận cứ cho bải nghiên cứu Đồng thời, xây đựng mô hình nghiên cứu dựa trên lý thuyết từ đó có thê đưa ra những dự báo mang độ tin cậy cao cũng như kiểm định được tính chính xác của mô hình nghiên cứu
Đề thực hiện phân tích đữ liệu cũng như cho ra kết quả dự báo mô hình, nhóm nghiên cứu tiến hành sử dụng các phương pháp thống kê mô tả, phân tích đữ liệu, ứng dụng các mô hình nghiên cứu thông qua các phần mềm hỗ trợ: phần mềm Orange va Microsoft Excel (2010)
Từ đó, dựa trên kết quả mô hình dự báo, nhóm nghiên cứu tiến hành so sánh các đữ liệu kết quả với nhau đề chọn ra được mô hình nghiên cứu phù hợp nhất
VI Câu trúc của bài
Lời mở đầu
Chương 1: Giới thiệu
Chương 2: Tổng quan về chương trình sử dụng và các phương pháp sử dụng Cương 3: Ứng dụng phương pháp vảo bài toán thực tế
Chương 4: Kết quả của mô hình
Kết luận và hướng phát triển
Tài liệu tham khảo
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 16CHUONG 2: TONG QUAN VẺ CHƯƠNG TRÌNH SỬ DUNG VA CAC
PHUONG PHAP SU DUNG
I Giới thiệu về phần mềm Orange
Khai phá dữ liệu (Data Minins) và học máy (Machine Learnine) là những lĩnh vực tốn nhiều công sức đề nghiên cứu và phát triển Đề phục vụ nhu cầu giúp cho người dùng tiếp cận các bải toán trong lĩnh vực khó nhắn này, nhiều phần mềm đã ra đời Một trong những phần mềm nỗi bật có thê kế đến là Orange
Orange là hệ điều hành nhân bản của Linux (Dòng Minimal X của OpenSUSE) Hệ điều hành nảy dựa trên kiến trúc x82 (32-bit) của Intel và chạy được dưới bộ vi x86 của Intel hay AMD Orange là một nền tảng được xây dựng để tạo các đường ông học máy trên quy trình làm việc giao điện đồ họa người ding (GUI) Phần mềm Orange được biết đến rộng rãi nhờ công dụng tích hợp các công cụ
khai phá đữ liệu mã nguồn mở, đơn giản; chính vì điều này, nó được ví như một “thư
viện” thu nhỏ Ngoài ra, nó còn có giao diện dễ dảng tương tác được dựa vào Python Nhờ sự đa đạng về tính năng, phần mềm nảy có thê dùng đề phân tích các dữ liệu từ đơn giản cho đến những đữ liệu dài và phức tạp, giúp việc khai thác đữ liệu trở nên phủ hợp hơn cho cả người mới và chuyên gia trong lĩnh vực khai pha dit liéu Orange
có thê coi là một môi trường phủ hợp đề viết kịch bản, tạo mẫu nhanh các thuật toán
và các đữ liệu gần đây nhất Đây là nhóm các mô-đun đựa tồn tại trong thư viện lõi
và được đựa trên Python, và cùng từ Python, phần mềm nảy triên khai các tính năng
mả thời gian thực hiện không cần thiết
Các công cụ (widgets) trong phần mềm cung cấp các chức năng cơ bản từ đọc
dữ liệu, hiến thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu cho đến huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quan hóa các phân tử đữ liệu trên nền tảng tập trung Chính vì điều này, Orange là một công cụ khá trực quan để nghiên cứu về các thuật toán Machine learning và thực hành Data minine Những người không có kỹ năng mã hóa có thê vận hành Orange một cách dễ dàng Người ta có thê thực hiện mọi nhiệm vụ ngay từ khi chuẩn bị dữ liệu đến đánh
giá mô hình mả không cần viết một đòng mã nảo
Orange cung cấp cho người ding tap cac toolbox tinh gọn nhất giúp người dùng bắt tay ngay vào phân tích dữ liệu gồm:
— Data dùng đề rút trích, biến đổi, và nạp dữ liệu (ETL process)
— Visualize ding dé biéu dién biéu dé (chart) giúp quan sát đữ liệu được tốt hơn
— Model gồm các ham machine learning phan lop dit liéu
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 17— Evaluate: các phương pháp đánh giá mô hình mây học
— Unsupervised: gồm cac ham machine learning gom nhom dữ liệu
H Giới thiệu về các phương pháp sử dụng
1 Khai phá dữ liệu
Biết chọn lọc vả sử dụng thông tin hiệu quả có thê quyết định sự thành công trong phân tích đữ liệu Điều đó có nghĩa là phải tìm ra những giá trị tiềm ấn, các yếu tổ tác động và những xu hướng phát triển của các đữ liệu sẵn có ấy Quá trình đó được gọi
là quá trình phát hiện tri thức (Knowledge Discovery im Database — KDD) mả trong
đó khai phá dữ liệu là một kỹ thuật quan trọng cho phép ta thu được các tri thức mong muốn
1.2 Các tính năng chính
Data Mining được chia nhỏ thành một số tính năng chính như sau:
Dự báo nhiều mẫu dựa trên bộ đữ liệu đã được huấn luyện
Tính toán và dự đoán các kết quả
Tạo nhiều thông tin đề phản hồi và phân tích
Bộ dữ liệu khá lớn
Phân cụm đữ liệu một cách trực quan, sinh động
1.3 Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu bao gồm 7 bước như sau:
e Đước 1: Làm sạch đữ liệu Đây là bước đầu tiên trong quy trình khai phá đữ liệu Đây là bước quan trọng giúp loại bỏ dữ liệu nhiễu và sửa chữa dữ liệu không cần thiết
e Bude 2: Tích hợp đữ liệu Quá trình hợp nhất dữ liệu thành những kho dữ liệu
sau khi đã làm sạch và tiền xử lý Bước này giúp cải thiện về độ chính xác cũng như tốc độ của quá trình khai phá đữ liệu
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 18e Đước 3: Trích chọn đữ liệu Ở bước nảy, dữ liệu được trích xuất từ cơ sở đữ liệu Giúp kích thước của dữ liệu có khối lượng nhỏ hơn nhưng vẫn đảm bảo
và duy trì về tính toàn vẹn
e Dước 4: Chuyển đổi dữ liệu Tại đây dữ liệu sẽ được chuyền đổi thành dạng
thích hợp với quá trình khai phá dữ liệu Dữ liệu được hợp nhất để quy trình
khai phá đữ liệu có thể hiệu quả hơn vả các mẫu dễ hiểu hơn, giúp dé dang thực hiện phân tích tóm tắt cũng như các hoạt động tổng hợp
e_ Bước 5: Khai phá đữ liệu Giai đoạn này sử dụng các kỹ thuật nhằm phát hiện
ra các tri thức tiềm ân trong dữ liệu bằng cach chat lọc, trích xuất dữ liệu hữu ích từ nhóm dữ liệu hiện có
e ước 6: Đánh giá mẫu Phân tích một số mẫu có trong đữ liệu, tiến hành xác định mẫu đại điện cho nhiều kiến thức dựa trên những thước đo, cho biết những kiến thức nảo là cần thiết, kiến thức nảo là dư thừa và sẽ bị loại bỏ Các phương pháp trực quan hóa vả tóm tắt đữ liệu được sử dụng đề người dùng có thể hiểu được bộ dữ liệu của mình
e Buéc 7: Biéu dién tri thức Dữ liệu được trình bày và điễn giải lại đưới các
báo cáo, hoặc các báo cáo dạng bảng, cây, biểu đồ, ma trận và sau đó gửi cho bên bộ phận xử lý thông tin này
Interpretation
-_ Evaluation
Data mining Transformation
Trong quá trình khai phá dữ liệu, có khá đa dạng các kĩ thuật, phương pháp khai phá
dữ liệu nhằm mô tả dữ liệu, phân tích dữ liệu và đưa ra kết luận Một số kĩ thuật cốt lối trong việc khai phá dữ liệu đó là:
10
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 19Phân cụm (Clustering): Kỹ thuật nảy sẽ hỗ trợ cho việc phân cụm đữ liệu thành nhóm các déi tượng dữ liệu có thuộc tính tương tự nhau Từ đó, người phân tích có thê đễ dàng hơn trong việc mô tả, xác định các biến dữ liệu
Phân lớp (Classification): Đây là kĩ thuật nhằm phân lớp, phân loại dữ liệu vào một hay một số lớp có cùng thuộc tính Bên cạnh đó, kĩ thuật này có thé sir dung các thông tin hữu dụng từ các dữ liệu, siêu đữ liệu để phân tích
Dự báo (Prediction): Đây là một kĩ thuật được sử dụng đề phân tích xu hướng, phân loại, so sánh từ các đữ liệu cho trước từ quá khứ để đự đoán các thông số trong tương lai
Hồi quy (Regression): Các nhà nghiên cứu thường sử dụng kĩ thuật hồi quy nhăm phân tích mối quan hệ giữa các biến đề từ đó xác định được các giá trị của biến phụ thuộc
Phát hiện bất thường (Outlier Detection): Xác định những dữ liệu không
khớp với mẫu, phát hiện dữ liệu bị thiếu, bị nhiễu, không nhất quán
Kết hợp dữ liệu (Associadon Rule): Kỹ thuật giúp cho việc xác định mối quan hệ giữa các biến, khai phá các mẫu ấn trong bộ đữ liệu Từ đó, giúp cho người nghiên cứu có thé phân tích, dự báo được các hành vi, dit liéu
1.5 Ứng dụng trong đời sống và bài nghiên cứu
Sống trong một thời đại phát triển mạnh mẽ về các kỹ thuật công nghệ, chuyển đổi số, áp dụng dữ liệu, hệ thống thông tin vào đời sống, cuộc cách mạng công nghiệp lần thứ 4 đã mang lại một bước đột phá, một sự cải tiến với sự xuất hiện của các công nghệ AI, Vạn vật kết nối (IOT) điều nảy đã khiến cho công nghệ đần trở thành một phần luôn song hảnh trong cuộc sống hàng ngảy của chúng ta Chính vì vậy, sự ra đời của khai phá dữ liệu đã đem lại vô vàn những lợi ích trên nhiều lĩnh vực Điền hình trong lĩnh vực kinh tế: giúp cho các nhà quản trị thống kê, phân tích các chỉ số tải chính; dự đoán sự dao động trong giá cả cô phân; phát hiện rủi ro, gian lận về vấn đề kiếm toán; báo cáo, phân tích, dự đoán các xu hướng trong tiếp thị, kinh doanh Bên cạnh đó, khai phá đữ liệu còn được ứng dụng trong các ngành y học
như thống kê, phân tích dữ liệu của bệnh nhân; liên kết, phân tích mối quan hệ giữa
các triệu chứng từ đó chân đoán được căn bệnh và đưa ra hướng điều trị hop ly Trong bài nghiên cứu, nhóm nghiên cứu muốn hướng tới phân tích và dự báo mức độ rủi ro gian lận kiếm toán của các công ty; do đó, khai phá đữ liệu được áp dụng để tiền xử lý dữ liệu, phân lớp để tìm ra mô hình dự báo tốt nhất, dự báo được
dữ liệu rủi ro gian lận và từ đó nhóm nghiên cứu có thé phân tích, mô tả dữ liệu
II
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 20thông qua các chỉ số, đưa ra những hạn chế và giải pháp cho bài nghiên cứu và đề ra hướng phát triển với mục đích mở rộng được đề tài cho những nghiên cứu sau
2 Phân lớp dữ liệu
2.1 Định nghĩa
Ky thuật phân lớp dữ liệu trong Khai Phá Dữ Liệu được đánh giá là một kĩ thuật khai phá đữ liệu được sử dụng rộng rãi nhất Thông qua một mô hình phân lớp thích hợp, một đối tượng dữ liệu được phân vào một hay nhiều lớp đã cho trước lả quá trình phân lớp đữ liệu Đề định nghĩa rõ hơn thì ta có thê nói một mô hình được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nảo) thì quá trình gán nhãn (thuộc lớp nảo) cho đối tượng dữ liệu gọi lả quá trình phân lớp đữ liệu 2.2 Quy trình phân lớp
Quá trình phân lớp dữ liệu gồm 2 bước chính: đầu tiên là xây dựng mô hình phân lớp (giai đoạn “học” hoặc “huấn luyện”), tiếp theo là kiếm tra, đánh giá tính đúng đắn của mô hỉnh và phân lớp dữ liệu mới
2.2.1 Xây dựng mô hình phân lớp (“học” hoặc “huấn luyện”)
Quá trình “học” hay “huấn luyện” là bước xây dựng mô hình nhằm mô tả thuộc tính
của một tập đữ liệu sẵn có Dữ liệu đầu vảo của quá trình nảy là tập đữ liệu mẫu đã
được gán nhãn vả tiền xử lý Và chúng sẽ được xử lý thông qua các thuật toán phân lớp: Cây quyết định (Decision Tree), hồi quy logistie (Logistic Repression), mạng lưới neural (Neural Network), vectơ hỗ tro (SVM - Support Vector Machine), Kết quả cuối củng của quá trình “học” hay “huấn luyện” nảy là một mô hình phân lớp đã
được huấn luyện hoản chỉnh (trình phân lớp)
12
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 21Audit total risk
điểm kiểm toán rủi ro)
Hình 2 Quả trình phân lớp đữ liệu - Xây dựng mô hình
2.2.2 Đánh giá mồ hình và phân lớp dữ liệu mới
2.2.2.1 Đánh giá mô hình
Đây là quá trình đánh giá, kiếm tra độ chính xác của mô hình đã xây dựng ở bước I
Dữ liệu đầu vào của quá trình này là một tập dữ liệu mẫu khác đã được gán nhãn và
tiền xử lý Nhưng khác với bước I1, khi đưa dữ liệu đầu vào vào mô hình phân lớp thì
các thuộc tính được gán nhãn sẽ được “phớt lờ” Phương pháp đơn giản nhất để đánh giá mô hình đó là phương pháp Hold - out Bằng phương pháp này, dữ liệu đầu vảo
sẽ được tách thành hai mẫu đữ liệu độc lập với nhau theo tý lệ, độ chính xác của mô hình được xác định bằng cách so sánh các thuộc tính được gán nhãn của bộ dữ liệu
đầu vào với kết quả phân lớp của mô hình
13
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 22Test Data
Audit total risk (Tong
diém kiêm toán rủi ro)
Hình 3 Quả trình phân lớp đữ liệu - Đánh giá mô hình
2.2.2.2 Phân lớp dữ liệu mới
Quá trình phân lớp đữ liệu mới có nguồn đữ liệu đầu vào là đữ liệu bị “khuyết” thuộc
tính cần được dự đoán lớp (nhãn) Các nhãn sẽ được mô hình xây dựng tự động phân lớp cho các đữ liệu bị “khuyết” phụ thuộc vào những điều được huấn luyện ở bước 1
14
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 23Audit total risk (Téng | Risk (Rui ro)
điểm kiêm toán rủi ro)
Hình 4 Quả trình phân lớp đữ liệu - Phân lớp đữ liệu mới
2.3 Các phương pháp phân lớp dữ liệu
2.3.1 Hồi quy Logistic Regression
2.3.1.1 Định nghĩa
Hồi quy logistic là phương pháp với khả năng phân tích, quan sát dữ liệu và dự đoán giá trị của đữ liệu Hồi quy Logistic Regression là một thuật toán nỗi bật về tính đơn giản nhưng hiệu quả trong các bài toán phân loại Thuật toán này thường được đặt lên bản cân với các thuật toán phân loại khác để xem đâu là thuật toán phù hợp nhất
Mô hình xác suất được biểu điễn dưới dạng vector, dự đoán được giá trị đầu ra rời rạc từ một tập nhiều giá tri đầu vào
2.3.1.2, Mô tả
Thuật toán này dùng để đự đoán xác suất của các sự kiện, trong đó gồm việc xem xét mỗi quan hệ của các mẫu và đoán xác suất của các kết quả, ta sẽ có:
- Input: dir liéu input (ta sé coi cé hai nhãn là 0 và 1)
- _ Output: Xác suất dữ liệu input rơi vào nhãn 0 hoặc nhãn I
15
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 24và đây là tệp đữ liệu cần được xử lý
Đầu ra dự đoán của logistic regression thường được viết chung dưới đạng:
f(x) = 9(wˆx)
2.3.1.3 Ung dung
- Du doan email nào được đưa vào mục spam
- _ Dự đoán công ty có thể tiếp tục kinh doanh được không
- _ Dự đoán cô phiếu của công ty có thể lên hay xuống
Trang 25- _ Hỏi quy logistic thích hợp với tập đữ liệu có phân tách tuyến tính: Tập dữ liệu
có thê phân tách tuyến tính là tập có thế được tách thành hai lớp đữ liệu riêng biệt chỉ bằng một đường thăng Hồi quy logistic được sử dụng khi biến Y của bạn chỉ có thể nhận hai gia tri va nếu đữ liệu có thể phân tách tuyến tính, thì việc phân loại tập dữ liệu ra hai lớp riêng sẽ hiệu quả hơn
- Hi quy logistic khéng chi cé thê cho người dùng so sánh được mức liên quan của một biến độc lập, mà còn cho chúng ta thông tin về mỗi quan hệ đó đang theo hướng tích cực hay tiêu cực Mối quan hệ mang tính tích cực lả khi tăng gia tri của một biến số sẽ kéo theo gia tri cua biến số khác tăng Ví dụ: bạn học cảng nhiều thì điểm bạn sẽ được cải thiện Hồi quy logistic còn có thé cho người dùng thấy được mối tương quan thuận giữa thời tiết và số lượng sinh viên đi học, nhưng điều này không có nghĩa là sinh viên đi học hay không do hoàn cảnh thời tiết
2.3.1.5 Nhược điểm
- _ Hỏi quy logistic không dự đoán được kết quả liên tục Trong lĩnh vực y khoa, hồi quy logistic không được dùng với mục đích đoán nhịp tim của người bệnh thay đôi như thế nào Nguyên nhân dẫn đến việc này là do quy mô đo lường liên tục (thuật toán nảy hoạt động hiệu quả khi một trong hai biến phụ thuộc
và kết quả là lưỡng phân)
- Hi quy logistic nếu gặp kích thước mẫu quá nhỏ sẽ dẫn đến nhiều sai số Nếu kích thước mẫu không đáp ứng được yêu cầu, thì mô hình tạo ra bởi hồi quy logistic có lượng mẫu quan sát thực té nho Diéu nay co thé gay ra overfitting Đây là một lỗi mô hình hóa khi xảy ra trường hop quá khớp với một bộ dữ liệu vì thiếu đữ liệu đảo tạo Vì thế mô hình không thê dự đoán chính xác kết quả của một tập đữ liệu mới
2.3.2 Cây quyết định (Decision Tree)
- - Ví dụ: Các bạn quyết định có thế đi chơi hay không dựa vào yếu tố thời tiết Thời tiết như thế nào thì các bạn có thê đi chơi:
17
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 26+ Troi dep thi cac ban sé di
+ Trời nắng nhưng độ âm cao thì các bạn sẽ không đi, độ âm bình thường thi sẽ tổ chức
+ Troi 4m u nhưng ít gió thi các bạn sẽ đi còn gió nhiều thì mọi người sẽ
- _ Không đòi hỏi việc chuân hóa dữ liệu
- _ Nhiều kiểu đữ liệu sẽ được cây quyết định phân lớp đễ dàng
- _ Một lượng lớn dữ liệu sẽ được phân lớp trong thời gian ngắn
Trang 27- _ Chỉ phí để tạo ra mô hình dựa vào cây quyết định cao
2.3.3 Máy Vector hỗ trợ (Support Vector Machine)
2.3.3.1 Định nghĩa
SVM được viết là Support Vector Machines (Máy vector hỗ trợ), là một thuật toán có giám sát Support Vector Machine (SVM) là một mô hình phân loại hoạt động bằng việc xây dựng một siêu phẳng (hyperplane) có (n - 1) chiều trong không gian n chiều của dữ liệu sao cho siêu phẳng nảy phân lớp tối ưu nhất Ở không gian 2 chiều thì
siêu phăng nảy là 1 đường thắng phân cách chia mặt phăng không gian thành 2 phần
tương ứng 2 lớp với mỗi lớp nằm ở I phía của đường thăng
SUPPORT VECTOR MACHINE
Hình 7 Máy Vector hỗ trợ (SVM) SVM có nhiều biến thế phù hợp với các bải toán phân loại khác nhau Người dùng muốn ra kết quả tối ưu nhất cho việc phân lớp thì phải xác định được siêu phẳng có khoảng cách đến các điểm đữ liệu (margin) của tất cả các lớp xa nhất có thể Margin
là khoảng cách giữa siêu phăng đến 2 điểm đữ liệu gần nhất ứng với 2 phân lớp
19
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 28Không chiếm nhiều bộ nhớ
Mang tính linh hoạt, có thê phân lớp tuyến tính và phi tuyến
Có thê giải quyết được trong không gian mả có nhiều hơn 2 chiều
nhân tạo Thuật toán nảy có thể thích ứng tốt với mọi thay đổi từ đữ liệu đầu vào Vì
20
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 29thế, mọi kết quả có thê được đưa ra một cách tốt nhất mả người dùng không phải
điều chỉnh lại những chỉ tiêu đầu ra
2.3.4.2 Chỉ tiết mô hình khai phá về Neural Network
Neural Network thường có những đặc điểm đặc thù như: Mạng lưới nơron có cầu tạo như các nơ ron thần kinh trong bộ não con người, các nút mạng có những sự liên kết với nhau Các nút này được xem như một tập hợp tri giác có cầu tạo như hàm hồi quy tuyến tính và các nút này sẽ thu thập dữ liệu, phân loại dữ liệu và đưa được các đầu ra tương ứng
Mỗi một mạng lưới nơron chính là sự kết hợp giữa các tầng perceptron và thường có 3 kiểu tầng đặc trưng:
-_ Input Layer (tầng đầu vào): thường nằm bên trái của mạng lưới và đây cũng chính là đầu vào của mạng
- Output Layer (tầng đầu ra): thường là tầng bên phải của cấu trúc mạng và
là phần đầu ra của mạng
-_ Hidden Layer (tầng ẫn): thường nằm giữa tầng đầu vào và tầng đầu ra và nó thê hiện quá trình suy luận logic của mạng lưới
Hình 9 Cấu trúc một mang Neural Network
21
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 30Điều đặc biệt là ở mỗi một mạng lưới Neural Network chỉ có đúng một tầng đầu vào và một tầng đầu ra Giữa các tầng lại có những sự liên kết với nhau hoặc sự liên kết của cái nút mạng trên cùng một tầng Hơn thế nữa, mỗi nút mạng trong một cầu trúc Neural Network đóng vai trò như một sigmoid nơron nhưng mỗi nút mạng ở đây lại có một hàm kích hoạt riêng biệt, không trùng lặp Số lượng nút mạng tại mỗi tầng có thê đa dạng tùy thuộc vào mỗi bải toán, điều nảy sẽ làm cho việc giải quyết bài toán trở nên thuận lợi hơn Trong một cầu trúc mạng Neural Network, các nút mang no ron co thê kết hợp đôi với nhau từ tầng đầu vảo tới tầng đầu ra Rõ hơn là, mỗi nút mạng ở một tầng là sẽ liên kết với đầu vào là những nút mạng ở tầng trước
đó và ngược lại Do đó, suy luận Neural Network là một dạng suy luận tiến hay còn được gọi là “feedforward”
Theo nhiều nhà nghiên cứu, tính ứng dụng của mô hình Neural Network là khá
phố biến tuy nhiên cách sử dụng mô hình nảy lại khá khó vả phức tạp Mô hình này
có thê được áp đụng như một hàm tủy ý học được từ bộ dữ liệu quan sát Nhóm nghiên cứu sẽ đưa ra một số lưu ý khi sử dụng mô hình Neural Network:
- Lựa chọn mô hình: Cần chú ý cách trình bảy đữ liệu và tính ứng đụng của
mô hình
- Thuật toán học: Cần năm rõ sự liên kết giữa các thuật toán học Mô hình Neural Network sẽ chính xác hơn nếu nó được chạy với những tham số chuẩn
để huấn luyện dữ liệu
- Mạnh mẽ: Khi ta lựa chọn một mô hình, thuật toán và phối hợp nhịp nhàng với các hàm số thì Neural Network sẽ cho ra kết quả vô cùng chuẩn 2.3.4.3 Ứng dụng
Mô hình Neural Network được ứng dụng khá phổ biến vào đa dạng khía cạnh của lĩnh vực kinh tế: tài chính, kinh doanh, quan tri rui ro, giao dịch thương mại, Cụ thé 1a, Neural Network duoc ap dụng để đánh giá, phân tích các chỉ số, dy báo xu hướng, ngoài ra, nó còn được áp dụng đề khai quật, phân tích đữ liệu đề tìm ra giải pháp từ bộ đữ liệu trong quá khứ Hơn thế nữa, Neural Network còn có khả năng xác định mỗi quan hệ phụ thuộc giữa các phi tuyến lẫn nhau của các đữ liệu đầu vảo
Chính vì vậy có thế khắng định, mô hình Neural Network là một công cụ khá có ích
trong việc phân tích, đữ báo đữ liệu của các khối ngành kinh tế
22
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 312.4 Các phương pháp đánh giá mô hình phân lớp
Đề đánh giá mức độ chính xác, tin cậy của mô hình phân lớp và lựa chọn ra phương pháp tốt nhất thì có thê sử dụng Ma trận nhằm lẫn (Confusion Matrix) và Holđ - out
vs K - fold cross validation
2.4.1 Ma trận nhằm lẫn (Confusion Matrix)
Phương pháp ma trận nhằm lẫn là một bảng các số liệu chỉ ra cho chúng ta thấy được rằng một lớp cụ thể chứa bao nhiêu điểm dữ liệu và các điểm dữ liệu đó sẽ được phán đoán thuộc lớp nào Bảng ma trận nhằm lẫn (Confision Matrix) có kích thước k
Ok (k: số lượng các lớp của đữ liệu)
Trong bảng ma trận sẽ có một số thuật nei sau:
Actual Values Positive (1) Negative (0)
Trang 32+ Accuracy (tính chính xác): là tý lệ các dữ liệu được phân lớp chính xác trong tập dữ liệu Accuracy chỉ có thé cho người đọc biết được tỷ lệ các dữ liệu được phân lớp chính xác chứ không thể chỉ rõ các đữ liệu đó được phân loại như thể nảo, có thê phân lớp được dữ liệu nảo đúng nhiều nhất, vả loại đữ liệu nảo thường được phân loại sai nhiều nhất
=> Error rate = I — acc là độ lỗi của mô hình
24
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)
Trang 33True Positiue Rate = PLE
Đường cong ROC
Trang 34- AUC (Area Under the Curve): thé hién tinh hiéu qua cua đồ thị dựa vào phần diện tích nằm phía đưới đường cong ROC Gia tri cia AUC phải là một số dương vả nhỏ hơn hoặc bằng 1
- Hold - out: là phương pháp chia tách một tập đữ liệu đầu vảo thành hai tập đữ
liệu riêng biệt theo một tỷ lệ nhất định gồm tập dữ liệu huấn luyện và tập dữ
liệu dự báo Phương pháp này chỉ thích hợp với các tập dữ liệu có kích thước nhỏ nhưng nó có một nhược điểm đó là các mẫu trong tập dữ liệu đã tách không đại diện cho toàn bộ tập dữ liệu ban đầu (bị thiếu lớp trong tập đự báo) Sau khi sử dụng phương pháp Hold - out đề chia tách đữ liệu, chúng ta sẽ có 2 tập dữ liệu:
+ Training Set: dữ liệu huấn luyện được sử dụng để xây dựng mô hình,
sử dụng trong các thuật toán phân lớp, dùng đề huấn luyện mô hình + Test Set: dữ liệu dự báo được sử dụng để xem xét, đánh giá mức độ hoạt động hiệu quả của mô hình
26
Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)