1. Trang chủ
  2. » Luận Văn - Báo Cáo

đề tài ứng dụng khoa học dữ liệu để dự đoán các công ty gian lận trên cơ sở phân tích các yếu tố rủi ro trong kiểm toán

68 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng khoa học dữ liệu để dự đoán các công ty gian lận trên cơ sở phân tích các yếu tố rủi ro trong kiểm toán
Tác giả Trần Trịnh Thanh Trúc, Hoàng Ngọc Thanh Bình, Phan Lê Thuy Dương, Nguyễn Khắc Minh
Người hướng dẫn TS.GVC Nguyễn Quốc Hùng
Trường học ĐẠI HỌC UEH
Chuyên ngành Khoa học Dữ liệu
Thể loại Báo cáo đồ án học phần
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 68
Dung lượng 9,21 MB

Nội dung

Bài dự án này sẽ phân tích kỹ hơn về lĩnh vực khoa học dữ liệu và sử dụng phần mềm Orange đề khai phá vả phân lớp các đữ liệu có sẵn được lấy từ một công ty kiểm toán.. Cụ thể, khoa học

Trang 1

ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KE

KHOA CONG NGHE THONG TIN KINH DOANH

BO MON CONG NGHE THONG TIN UEH

UNIVERSITY

BAO CAO ĐỎ ÁN HOC PHAN

KHOA HOC DU LIEU

Dé tai: UNG DUNG KHOA HOC DU LIEU DE DU DOAN CAC CONG

TY GIAN LAN TREN CO SO PHAN TICH CAC YEU TO RUI RO

TRONG KIEM TOAN

GVHD: TS.GVC Nguyễn Quốc Hùng

Nhóm thực hiện: Nhóm 08

Trần Trịnh Thanh Trúc (Trưởng nhóm)

Hoàng Ngọc Thanh Bình Phan Lé Thuy Dương Nguyễn Khắc Minh

TP Hồ Chí Minh, Ngày 18 Tháng 12 Năm 2022

Trang 2

BANG PHAN CÔNG CÔNG VIỆC

CHƯƠNG |: GIGI THIEU VE KHOA HOC DU LIEU VA DE TAI

L Về môn học

II Ly do chon dé tai

IH Mue tiéu nghién ctru

IV Đối tượng và phạm vi nghiên cứu

V Phương pháp nghiên cứu

VI Cầu trúc của bai

CHƯƠNG 2: TÔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG

IL Giới thiệu về các phương pháp sử dụng 9

1.5 Ung dụng trong đời sống vả bài nghiên cứu II

Trang 3

2.2.2.2 Phân lớp đữ liệu mới

2.3 Các phương pháp phân lớp dữ liệu

2.3.1 Héi quy Logistic Regression

2.4.3 Cross Validation: Holdout va K-fold cross validation

CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ

L Sơ lược về ngành kiểm toán và mức độ rủi ro của các công ty ở Ân Độ

L Đôi nét về công việc kiểm toán

Trang 4

2.2 Kiểm toán độc lập

2.3 Kiểm toán nội bộ

3 Giá trị của các kiêm toán độc lập

4 Tình hình gian lận của các công ty ở Ân Độ

H Mô hình nghiên cứu

1 Dữ liệu của bài nghiên cứu

2.1.1 Phương pháp Cay quyét dinh (Tree Decision)

2.1.2 Phương pháp Hỏi quy Logistic (Logistic Regression)

2.1.3 Phuong phap SVM (Support Vector Machine)

2.1.4 Phuong phap Neural Network

2.2 Mô hình nghiên cứu đề xuất

CHUONG 4: DANH GIA KET QUA MO HINH

I Két qua mé hinh nghién ctu

1 Kết quả của bộ dữ liệu huấn luyện

2 Kết quả của bộ đữ liệu đự báo

IL Kết luận kết quả của bài nghiên cứu

KẾT LUẬN VÀ HƯỚNG PHÁT TRIÊN

Trang 5

TÀI LIỆU THAM KHẢO

Vv

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

55

Trang 6

DANH MỤC HÌNH ẢNH

Hình 3 Quá trình phân lớp dữ liệu - Đánh giá mô Ninh cece 14

Hình 5 Hồi quy Logistic Regression c.ccccccsccscessescessesssessesecseeseseseesestseesnseseesees 16 Hinh 6 Cay quyét dinh (Decision Tree) 0.00.c.ccccccccsccsscesessescecsesssstesesseesseeeseseseesetes 18

Hình 8 Các điểm dữ liệu trong mô hình SVM c1 1T 1E 2111122121211 xe 20

Hình 9 Cấu trúc một mạng Neural Network 2 122112011 11211121 1112211222 21 Hình 10 Các thuật ngữ trong ma trận nhằm lẫn (Confusion Matrix) -: 23 I0 000.409 00.1 7n a‹‹i 25 Hình 12 Phương pháp Hold - out 2 2 222122212211 1211211 121111111112 1118111812012 26 Hình 13 Phương pháp K - fold eross vaÌidation - c2 2222211122112 27 Hình 14 Hình ảnh thê hiện thuộc tính của các biễn - 22 S25 S2 1353552155 52552525555 32

Hình 15 Mô hình tiền xử lý đữ liệu 2-52 2121 SE12111121111511211111111111111 12 1x6 32

Hình 17 Dữ liệu huấn luyện 5 SE E11 112121121111211111101 112111101111 Ha 34

Hình 19 Mô hình phân lớpp - L2 2 222221121121 251 1211221111511 1 12155111111 1111 2111 ke, 35

Hình 20 Kết quả phân lớp qua Test and Score 5 se S2 1219211 127127122 1.12 1xe 36 Hình 21 Kết quả của Decision Tree qua Tree ViewWer s 2112 E1 crre 37 Hình 22 Confusion Matrix - DecIsion TTe€e c2 21121122111 1121 1152111182211 37 Hình 23 Confuston Matrix - LogIstie RÑeeress1on - 2 22: 2222122211221 css, 39 Hình 24 Confusion MlatrIx - SVMM 2 n1 1 2121111111111 1011111101110 111111 xk 40 Hinh 25 Confusion Matrrx - Neural Network c c2 1211212111111 2812 re 4I Hình 26 Mô hình nghiên cứu tông thê - 52-2121 121 22151121121121111121 211121 x2 42 Hình 27 Model comparision by AUC 12212211 22112111211111111101 1201111111 Hye 43

Hình 29 Mô hình phân tách 100 mẫyu 22+ 9E S282 21E115EE227112152 E21 226 46 Hình 30 Data Sampler 100 mẫu - 2 2S S121 1E7152E7111112121211212121 111128 x0 46 Hình 31 Thuộc tính 100 mẫyu 25: 55t92212221122122112211122112211121112111211121 2.20 47 Hình 32 Dự báo I00 mẫn - 2+ -222t221122111211122112211111112111211121111111211 01 1126 47 Hình 33 Kết quả dự báo 100 mẫu 5 2 51 21 1211218711121121121121221121 1 ru 49

Hình 34 Kết quả dự báo L00 mẫu hiển thị qua Data Table 5⁄22 2555 s52 51

VI

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 7

D ANH MUC BANG BIEU

Bảng I Đánh giá mức độ hiệu quả của mô hình dựa trên chỉ số AUC Bảng 2 Mô tả biến phụ thuộc

Trang 8

DANH MỤC TỪ VIET TAT

KDD Knowledge Discovery in Database

Al Artificial Intelligence

IOT Internet Of Things

SVM Support Vector Machine

TP True Positive

TN True Negative

FP False Positive

FN False Negative

ROC Recetver Operating Characteristic

FPR False Positive Rate

TPR True Positive Rate

AUC Area Under the Curve

Trang 9

LỜI MỞ ĐẦU

Trong vòng 15 năm gần đây, con người đã chứng kiến được sự mở rộng cũng như là sự phát triển vượt bậc của hệ thống cơ sở hạ tầng trong lĩnh vực thương mại, cũng như là sự đầu tư của đất nước vảo lĩnh vực này Sự đầu tư và phát triển này đã mang đến những ảnh hưởng trực tiếp đến việc thu thập dữ liệu liên quan đến lĩnh vực thương mại Có thể nói rằng, mọi khía cạnh của kinh tế đều có liên quan mật thiết đến ngành khoa học dữ liệu Các hoạt động như: hoạt động kinh doanh của doanh nghiệp, hoạt động sản xuất và mua bán hàng hóa, hoạt động vận chuyển và cung cấp các nguyên vật liệu, hành vị tiêu dùng của khách hàng, hoạt động quảng bá thương hiệu và hiệu quả của chúng, tiễn trình hoạt động của công ty đây đều là những thứ

mả các nhà đầu tư quan tâm và cần thu thập cảng nhiều thông tin về các khía cạnh kê trên nhiều nhất có thể Không những thế mà các nhà đầu tư còn quan tâm đến các dữ liệu bên ngoài doanh nghiệp, có thê kế đến là: công ty cạnh tranh có động thái như thé nao, thị trường của doanh nghiệp đó có đang ôn định hay không Vậy nên việc thu thập và sử dụng đữ liệu trong lĩnh vực kinh tế đang có mối quan hệ liên quan sâu sắc đến nhau Từ đó dẫn đến việc thúc đây sự phát triển trên cả hai lĩnh vực khoa học

dữ liệu và thương mại

Thế giới đang sở hữu một số lượng thông tin không lồ vả vì thế mọi công ty thuộc tất cả các lĩnh vực khác nhau không chỉ riêng kinh tế đang tập trung mọi nguồn lực đề thu thập và xử lý thông tin nhanh nhất Mục đích của việc này đó chính là nắm bắt được và dự đoán được trước xu thê đề có thê trở thành công ty dẫn đầu trong lĩnh vực của họ Khoa học đữ liệu cần có các nguyên tắc, kỹ thuật dé phan tích được đữ liệu đầu vảo tốt nhất Việc khai phá dữ liệu trong lĩnh vực thương mại thường được dựa vào mối quan hệ của khách hàng với sản phâm đề phân tích thói quen tiêu dùng

và giá trị của khách hàng Nỗi bật nhất đó chính là các siêu thị bán lẻ thường áp dụng các đữ liệu mua hàng của khách hàng để tôi đa hóa số lượng hàng hóa được bán ra thị trường Ta có thế thấy được tầm quan trọng của đữ liệu đối với việc trao đổi mua bán, kinh doanh Mỗi dữ liệu trong lĩnh vực kinh tế đều mang cho mình khả năng giúp người dùng ra quyết định cũng như mang tính độc nhất với mỗi dữ liệu đều hướng tới những mục tiêu riêng như doanh số, sự nhất quán, sự bền vững và kế cả tính cách riêng của khách hàng

Bên cạnh đó, một trong số các đề tài đang nóng hiện nay đó chính là kiếm toán Ngành kiểm toán là một ngành rất cần yếu tố con người và sự chính xác Với việc áp dụng khoa học dữ liệu và máy móc vào một ngành đặc thù như kiêm toán sẽ

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 10

giúp nâng cao sự chính xác cũng như tốc độ làm việc Giúp cho các nhà đầu tư dễ dảng ra quyết định đúng cũng như vạch trần được các công ty, doanh nghiệp có những hành vi không minh bạch trong quá trình hoạt động

Bài dự án này sẽ phân tích kỹ hơn về lĩnh vực khoa học dữ liệu và sử dụng phần mềm Orange đề khai phá vả phân lớp các đữ liệu có sẵn được lấy từ một công

ty kiểm toán Từ đó đưa ra kết luận về các doanh nghiệp đang hoạt động tại Ân Độ

có đang gian lận hay không

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 11

BANG PHAN CONG CONG VIEC

- Phương pháp khai phá dữ liệu (chương 2)

- Ứng dụng trong đời sống và bài nghiên cứu (chương 2)

- Mô hình Neural Network (chương 2)

- Kết quả của mô hình nghiên cứu (chương 3)

- Tài liệu tham khảo

- Mục tiêu nghiên cứu (chương 1)

- Cầu trúc của bài (chương l)

- Khai phá dữ liệu (chương 2)

- Giới thiệu Orange (chương 2)

- Đánh siá mô hình nghiên cứu (chương 3)

- Mô tả dữ liệu (chương 3)

- Hướng phát triển của đề tài (chương 4)

- Giới thiệu môn học (chương 1)

- Phạm vi nghiên cứu (chương l)

- Quy trình phân lớp (chương 2)

- Phương pháp đánh øiá mô hình phân lớp

Trang 12

- Kết quả dự báo (chương 3)

- Kết luận mô hình nghiên cứu (chương 4)

- Ly do chon dé tải (chương 1)

- Giới thiệu phần mềm Orange (chương 2)

- Phân lớp dữ liệu (chương 2)

- Phương pháp phân lớp dữ liệu (chương 2)

- Sơ lược về ngành kiểm toán và những rủi ro

gian lận kiểm toán (chương 3)

- Kết luận của bài nghiên cứu (chương 3)

Trang 13

CHUONG 1: GIOI THIEU VE KHOA HOC DU LIEU VA DE TAI

I Về môn học

Khi sống trong một thời đại phát triển mạnh mẽ đang tồn tại trong cuộc cách mạng công nghiệp lần thứ 4 với sự phát triển vượt bậc của những chuyến giao công nohệ, công nghệ số, hệ thống thông tin, ắt hắn những chủ đề về khoa học dữ liệu cũng đang dần dần bước vào cuộc sông thường nhật của con người Khoa học dữ liệu đang được biết tới là một trong những ngành có nhu cầu nhân lực cao trong thế kỉ XXI hiện nay Cụ thể, khoa học dữ liệu chính lả thu thập, khai thác và phân tích đữ liệu đề tìm ra được những giá trị tiềm ân bên trong bộ đữ liệu đó; từ đó chuyên hóa

đữ liệu thành các dạng mô hình giúp trực quan hóa dữ liệu va phân tích các hành vI,

dự báo xu hướng Chính vì điều này, khoa học đữ liệu có tính ứng dụng cao va dan trở nên phổ biến trong mọi lĩnh vực, đặc biệt lĩnh vực kinh tế Nhận thấy được tầm quan trọng của khoa học đữ liệu, nhà trường đã mở rộng thêm nhiều chương trình đào tạo về các môn liên quan tới khai thác, phân tích dữ liệu và đặc biệt là khoa học

sinh viên trong mọi lĩnh vực Môn học này trang bị cho sinh viên những kiến thức, kĩ

nang can thiết để có thể đự đoán xu hướng thị trường trong tương lai và lựa chọn cân nhắc các phương án, quyết định của mình cho phù hợp nhất

II Ly do chon dé tai

Vai trò thiết yêu của ngành công nghệ thông tin sẽ giúp cho việc phát triển về mọi mặt của xã hội toàn diện hơn khi mà lượng thông tin thu thập được là vô cùng

nhiều Ở một xã hội với tốc độ phát triển nhanh chóng như Việt Nam thì việc không

đi theo kịp xu hướng sẽ đi theo hậu quả nặng nẻ đó 1a bị đảo thải Tuy việc phát triển của ngành công nghệ thông tin đang phát triển rất nhanh nhưng kèm theo đó là những vấn đề như có quá nhiều thông tin gây ra việc loãng thông tin cho người ding Theo nghiên cứu thì cứ 20 tháng, luỗng thông tin được chuyến đi tăng lên gấp đôi

Sự phát triển này còn gây ra thêm việc các thông tin chưa kịp xử lý, từ đó trở thành các thông tin lỗi thời và không còn giá trị sử dụng Chính vì thế những người sử dụng thông tin trong các tô chức tài chính, thương mại, khoa học cần có kỹ thuật khai

phá dữ liệu (Data Mining) đề đứng trước tình thế quá tải thông tin như hiện nay họ

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 14

không còn bị bỏ lại phía sau Khoa học đang ngày càng tiên tiến đồng nghĩa với việc công nghệ thông tin cũng đang có những bước tiến, chúng ta cần phải bắt kịp và cải thiện các phần mềm, các ứng dụng đề nâng cao năng suất làm việc, kết quả đầu ra và

hỗ trợ việc sử dụng thông tin tôi ưu và chính xác hơn

Việc khai phá đữ liệu đang được nghiên cứu vả áp dụng rộng rãi ở nhiều lĩnh vực khác nhau như tải chính, khoa học, thống kê, y học, Không chỉ những lĩnh vực được kề trên, lĩnh vực kế toán - kiêm toán đòi hỏi phải có sự tham gia của con người cũng đang đần chuyên mình qua công nghệ Lĩnh vực kế - kiếm hiện nay đang đần trở nên một trong những chủ đề được quan tâm sôi nỗi từ cấp đại học cho đến các công ty, doanh nghiệp đa quốc gia Một lĩnh vực đòi hỏi yếu tổ con người cao như kế toán - kiểm toán thì cũng không thê thiêu những sai sót, lỗ hông trong quá trình xử lý thông tin Vì thế việc áp dụng khai phá đữ liệu vảo lĩnh vực này sẽ tăng độ chính xác cũng như yếu tô trung thực đề đưa ra thông tin hữu ích nhất cho người sử dụng Để làm được điều đó, sự phát triển của các mô hình toán học và các giải thuật hiệu quả

là chia khóa quyết định Chúng em quyết định chọn đề tài: “ỨNG DỤNG KHOA

HOC DỮ LIỆU ĐÈ DỰ ĐOÁN CÁC CÔNG TY GIAN LẬN DỰA TRÊN CƠ SỞ PHAN TICH CAC YEU TO RUI RO KIEM TOÁN” làm đề tài nghiên cứu

IH Mục tiêu nghiên cứu

- _ Dựa trên việc nghiên cứu kiến thức của bộ môn Khoa học dữ liệu đề tiễn hành

khai phá bộ đữ liệu nhằm làm rõ vấn đề nghiên cứu

- Nghiên cứu các phương pháp cụ thể, đặc biệt là phương pháp phân lớp dữ liệu

- _ Xây dựng mô hình nghiên cứu dựa vào bộ dữ liệu có sẵn và lựa chọn mô hình phù hợp nhất đề tiền hành dự báo

- _ Dự báo tình trạng gian lận thông qua việc phân tích mức độ rủi ro kiểm toán dựa trên bộ dữ liệu huấn luyện được chọn

IV Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của đề tài là công ty để đánh giá mức độ rủi ro trong quá trình kiêm toán và từ đó đánh giá mức độ mức độ gian lận hoặc không gian lận

của các công ty trên Chính vì điều này, bộ dữ liệu của đề tài gồm 1200 mẫu (công

ty) với 27 cột (đặc tính) Bộ dữ liệu này được nhóm nghiên cứu thu thập dựa trên nguồn kaggle.com - đây là một trình đuyệt web cung cấp các bộ đữ liệu được chia sẻ bởi nhiều người dùng trên toản thể giới và chủ yếu liên quan tới các ngành khoa học

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 15

dữ liệu Vì vậy, số liệu trên nền tảng này có thể được xem lả đáng tin cậy, uy tín và

có thê áp dụng cho nhiều phần mềm phân tích khác nhau

Bên cạnh đó, phạm vị nghiên cứu của bài dựa trên số liệu thực thu thập từ

1200 công ty thuộc các lĩnh vực: Thủy lợi, Y tế công cộng, Lâm nghiệp, Nông nghiệp, Chăn nuôi, Thủy sản, Khoa học công nghệ đến từ các tỉnh và thành phố khác nhau của Ân Độ

V Phương pháp nghiên cứu

Phương pháp nghiên cứu của đề tài là sự kết hợp giữa phương pháp phân tích

- tông hợp và phương pháp mô hình hóa Cụ thế, nhóm nghiên cứu sẽ tiến hanh tim hiểu, thu thập và chắt lọc dữ liệu thông qua các trang thông tin chính thống, uy tín để rút ra được những luận điểm, luận cứ cho bải nghiên cứu Đồng thời, xây đựng mô hình nghiên cứu dựa trên lý thuyết từ đó có thê đưa ra những dự báo mang độ tin cậy cao cũng như kiểm định được tính chính xác của mô hình nghiên cứu

Đề thực hiện phân tích đữ liệu cũng như cho ra kết quả dự báo mô hình, nhóm nghiên cứu tiến hành sử dụng các phương pháp thống kê mô tả, phân tích đữ liệu, ứng dụng các mô hình nghiên cứu thông qua các phần mềm hỗ trợ: phần mềm Orange va Microsoft Excel (2010)

Từ đó, dựa trên kết quả mô hình dự báo, nhóm nghiên cứu tiến hành so sánh các đữ liệu kết quả với nhau đề chọn ra được mô hình nghiên cứu phù hợp nhất

VI Câu trúc của bài

Lời mở đầu

Chương 1: Giới thiệu

Chương 2: Tổng quan về chương trình sử dụng và các phương pháp sử dụng Cương 3: Ứng dụng phương pháp vảo bài toán thực tế

Chương 4: Kết quả của mô hình

Kết luận và hướng phát triển

Tài liệu tham khảo

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 16

CHUONG 2: TONG QUAN VẺ CHƯƠNG TRÌNH SỬ DUNG VA CAC

PHUONG PHAP SU DUNG

I Giới thiệu về phần mềm Orange

Khai phá dữ liệu (Data Minins) và học máy (Machine Learnine) là những lĩnh vực tốn nhiều công sức đề nghiên cứu và phát triển Đề phục vụ nhu cầu giúp cho người dùng tiếp cận các bải toán trong lĩnh vực khó nhắn này, nhiều phần mềm đã ra đời Một trong những phần mềm nỗi bật có thê kế đến là Orange

Orange là hệ điều hành nhân bản của Linux (Dòng Minimal X của OpenSUSE) Hệ điều hành nảy dựa trên kiến trúc x82 (32-bit) của Intel và chạy được dưới bộ vi x86 của Intel hay AMD Orange là một nền tảng được xây dựng để tạo các đường ông học máy trên quy trình làm việc giao điện đồ họa người ding (GUI) Phần mềm Orange được biết đến rộng rãi nhờ công dụng tích hợp các công cụ

khai phá đữ liệu mã nguồn mở, đơn giản; chính vì điều này, nó được ví như một “thư

viện” thu nhỏ Ngoài ra, nó còn có giao diện dễ dảng tương tác được dựa vào Python Nhờ sự đa đạng về tính năng, phần mềm nảy có thê dùng đề phân tích các dữ liệu từ đơn giản cho đến những đữ liệu dài và phức tạp, giúp việc khai thác đữ liệu trở nên phủ hợp hơn cho cả người mới và chuyên gia trong lĩnh vực khai pha dit liéu Orange

có thê coi là một môi trường phủ hợp đề viết kịch bản, tạo mẫu nhanh các thuật toán

và các đữ liệu gần đây nhất Đây là nhóm các mô-đun đựa tồn tại trong thư viện lõi

và được đựa trên Python, và cùng từ Python, phần mềm nảy triên khai các tính năng

mả thời gian thực hiện không cần thiết

Các công cụ (widgets) trong phần mềm cung cấp các chức năng cơ bản từ đọc

dữ liệu, hiến thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu cho đến huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quan hóa các phân tử đữ liệu trên nền tảng tập trung Chính vì điều này, Orange là một công cụ khá trực quan để nghiên cứu về các thuật toán Machine learning và thực hành Data minine Những người không có kỹ năng mã hóa có thê vận hành Orange một cách dễ dàng Người ta có thê thực hiện mọi nhiệm vụ ngay từ khi chuẩn bị dữ liệu đến đánh

giá mô hình mả không cần viết một đòng mã nảo

Orange cung cấp cho người ding tap cac toolbox tinh gọn nhất giúp người dùng bắt tay ngay vào phân tích dữ liệu gồm:

— Data dùng đề rút trích, biến đổi, và nạp dữ liệu (ETL process)

— Visualize ding dé biéu dién biéu dé (chart) giúp quan sát đữ liệu được tốt hơn

— Model gồm các ham machine learning phan lop dit liéu

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 17

— Evaluate: các phương pháp đánh giá mô hình mây học

— Unsupervised: gồm cac ham machine learning gom nhom dữ liệu

H Giới thiệu về các phương pháp sử dụng

1 Khai phá dữ liệu

Biết chọn lọc vả sử dụng thông tin hiệu quả có thê quyết định sự thành công trong phân tích đữ liệu Điều đó có nghĩa là phải tìm ra những giá trị tiềm ấn, các yếu tổ tác động và những xu hướng phát triển của các đữ liệu sẵn có ấy Quá trình đó được gọi

là quá trình phát hiện tri thức (Knowledge Discovery im Database — KDD) mả trong

đó khai phá dữ liệu là một kỹ thuật quan trọng cho phép ta thu được các tri thức mong muốn

1.2 Các tính năng chính

Data Mining được chia nhỏ thành một số tính năng chính như sau:

Dự báo nhiều mẫu dựa trên bộ đữ liệu đã được huấn luyện

Tính toán và dự đoán các kết quả

Tạo nhiều thông tin đề phản hồi và phân tích

Bộ dữ liệu khá lớn

Phân cụm đữ liệu một cách trực quan, sinh động

1.3 Quy trình khai phá dữ liệu

Quy trình khai phá dữ liệu bao gồm 7 bước như sau:

e Đước 1: Làm sạch đữ liệu Đây là bước đầu tiên trong quy trình khai phá đữ liệu Đây là bước quan trọng giúp loại bỏ dữ liệu nhiễu và sửa chữa dữ liệu không cần thiết

e Bude 2: Tích hợp đữ liệu Quá trình hợp nhất dữ liệu thành những kho dữ liệu

sau khi đã làm sạch và tiền xử lý Bước này giúp cải thiện về độ chính xác cũng như tốc độ của quá trình khai phá đữ liệu

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 18

e Đước 3: Trích chọn đữ liệu Ở bước nảy, dữ liệu được trích xuất từ cơ sở đữ liệu Giúp kích thước của dữ liệu có khối lượng nhỏ hơn nhưng vẫn đảm bảo

và duy trì về tính toàn vẹn

e Dước 4: Chuyển đổi dữ liệu Tại đây dữ liệu sẽ được chuyền đổi thành dạng

thích hợp với quá trình khai phá dữ liệu Dữ liệu được hợp nhất để quy trình

khai phá đữ liệu có thể hiệu quả hơn vả các mẫu dễ hiểu hơn, giúp dé dang thực hiện phân tích tóm tắt cũng như các hoạt động tổng hợp

e_ Bước 5: Khai phá đữ liệu Giai đoạn này sử dụng các kỹ thuật nhằm phát hiện

ra các tri thức tiềm ân trong dữ liệu bằng cach chat lọc, trích xuất dữ liệu hữu ích từ nhóm dữ liệu hiện có

e ước 6: Đánh giá mẫu Phân tích một số mẫu có trong đữ liệu, tiến hành xác định mẫu đại điện cho nhiều kiến thức dựa trên những thước đo, cho biết những kiến thức nảo là cần thiết, kiến thức nảo là dư thừa và sẽ bị loại bỏ Các phương pháp trực quan hóa vả tóm tắt đữ liệu được sử dụng đề người dùng có thể hiểu được bộ dữ liệu của mình

e Buéc 7: Biéu dién tri thức Dữ liệu được trình bày và điễn giải lại đưới các

báo cáo, hoặc các báo cáo dạng bảng, cây, biểu đồ, ma trận và sau đó gửi cho bên bộ phận xử lý thông tin này

Interpretation

-_ Evaluation

Data mining Transformation

Trong quá trình khai phá dữ liệu, có khá đa dạng các kĩ thuật, phương pháp khai phá

dữ liệu nhằm mô tả dữ liệu, phân tích dữ liệu và đưa ra kết luận Một số kĩ thuật cốt lối trong việc khai phá dữ liệu đó là:

10

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 19

Phân cụm (Clustering): Kỹ thuật nảy sẽ hỗ trợ cho việc phân cụm đữ liệu thành nhóm các déi tượng dữ liệu có thuộc tính tương tự nhau Từ đó, người phân tích có thê đễ dàng hơn trong việc mô tả, xác định các biến dữ liệu

Phân lớp (Classification): Đây là kĩ thuật nhằm phân lớp, phân loại dữ liệu vào một hay một số lớp có cùng thuộc tính Bên cạnh đó, kĩ thuật này có thé sir dung các thông tin hữu dụng từ các dữ liệu, siêu đữ liệu để phân tích

Dự báo (Prediction): Đây là một kĩ thuật được sử dụng đề phân tích xu hướng, phân loại, so sánh từ các đữ liệu cho trước từ quá khứ để đự đoán các thông số trong tương lai

Hồi quy (Regression): Các nhà nghiên cứu thường sử dụng kĩ thuật hồi quy nhăm phân tích mối quan hệ giữa các biến đề từ đó xác định được các giá trị của biến phụ thuộc

Phát hiện bất thường (Outlier Detection): Xác định những dữ liệu không

khớp với mẫu, phát hiện dữ liệu bị thiếu, bị nhiễu, không nhất quán

Kết hợp dữ liệu (Associadon Rule): Kỹ thuật giúp cho việc xác định mối quan hệ giữa các biến, khai phá các mẫu ấn trong bộ đữ liệu Từ đó, giúp cho người nghiên cứu có thé phân tích, dự báo được các hành vi, dit liéu

1.5 Ứng dụng trong đời sống và bài nghiên cứu

Sống trong một thời đại phát triển mạnh mẽ về các kỹ thuật công nghệ, chuyển đổi số, áp dụng dữ liệu, hệ thống thông tin vào đời sống, cuộc cách mạng công nghiệp lần thứ 4 đã mang lại một bước đột phá, một sự cải tiến với sự xuất hiện của các công nghệ AI, Vạn vật kết nối (IOT) điều nảy đã khiến cho công nghệ đần trở thành một phần luôn song hảnh trong cuộc sống hàng ngảy của chúng ta Chính vì vậy, sự ra đời của khai phá dữ liệu đã đem lại vô vàn những lợi ích trên nhiều lĩnh vực Điền hình trong lĩnh vực kinh tế: giúp cho các nhà quản trị thống kê, phân tích các chỉ số tải chính; dự đoán sự dao động trong giá cả cô phân; phát hiện rủi ro, gian lận về vấn đề kiếm toán; báo cáo, phân tích, dự đoán các xu hướng trong tiếp thị, kinh doanh Bên cạnh đó, khai phá đữ liệu còn được ứng dụng trong các ngành y học

như thống kê, phân tích dữ liệu của bệnh nhân; liên kết, phân tích mối quan hệ giữa

các triệu chứng từ đó chân đoán được căn bệnh và đưa ra hướng điều trị hop ly Trong bài nghiên cứu, nhóm nghiên cứu muốn hướng tới phân tích và dự báo mức độ rủi ro gian lận kiếm toán của các công ty; do đó, khai phá đữ liệu được áp dụng để tiền xử lý dữ liệu, phân lớp để tìm ra mô hình dự báo tốt nhất, dự báo được

dữ liệu rủi ro gian lận và từ đó nhóm nghiên cứu có thé phân tích, mô tả dữ liệu

II

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 20

thông qua các chỉ số, đưa ra những hạn chế và giải pháp cho bài nghiên cứu và đề ra hướng phát triển với mục đích mở rộng được đề tài cho những nghiên cứu sau

2 Phân lớp dữ liệu

2.1 Định nghĩa

Ky thuật phân lớp dữ liệu trong Khai Phá Dữ Liệu được đánh giá là một kĩ thuật khai phá đữ liệu được sử dụng rộng rãi nhất Thông qua một mô hình phân lớp thích hợp, một đối tượng dữ liệu được phân vào một hay nhiều lớp đã cho trước lả quá trình phân lớp đữ liệu Đề định nghĩa rõ hơn thì ta có thê nói một mô hình được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nảo) thì quá trình gán nhãn (thuộc lớp nảo) cho đối tượng dữ liệu gọi lả quá trình phân lớp đữ liệu 2.2 Quy trình phân lớp

Quá trình phân lớp dữ liệu gồm 2 bước chính: đầu tiên là xây dựng mô hình phân lớp (giai đoạn “học” hoặc “huấn luyện”), tiếp theo là kiếm tra, đánh giá tính đúng đắn của mô hỉnh và phân lớp dữ liệu mới

2.2.1 Xây dựng mô hình phân lớp (“học” hoặc “huấn luyện”)

Quá trình “học” hay “huấn luyện” là bước xây dựng mô hình nhằm mô tả thuộc tính

của một tập đữ liệu sẵn có Dữ liệu đầu vảo của quá trình nảy là tập đữ liệu mẫu đã

được gán nhãn vả tiền xử lý Và chúng sẽ được xử lý thông qua các thuật toán phân lớp: Cây quyết định (Decision Tree), hồi quy logistie (Logistic Repression), mạng lưới neural (Neural Network), vectơ hỗ tro (SVM - Support Vector Machine), Kết quả cuối củng của quá trình “học” hay “huấn luyện” nảy là một mô hình phân lớp đã

được huấn luyện hoản chỉnh (trình phân lớp)

12

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 21

Audit total risk

điểm kiểm toán rủi ro)

Hình 2 Quả trình phân lớp đữ liệu - Xây dựng mô hình

2.2.2 Đánh giá mồ hình và phân lớp dữ liệu mới

2.2.2.1 Đánh giá mô hình

Đây là quá trình đánh giá, kiếm tra độ chính xác của mô hình đã xây dựng ở bước I

Dữ liệu đầu vào của quá trình này là một tập dữ liệu mẫu khác đã được gán nhãn và

tiền xử lý Nhưng khác với bước I1, khi đưa dữ liệu đầu vào vào mô hình phân lớp thì

các thuộc tính được gán nhãn sẽ được “phớt lờ” Phương pháp đơn giản nhất để đánh giá mô hình đó là phương pháp Hold - out Bằng phương pháp này, dữ liệu đầu vảo

sẽ được tách thành hai mẫu đữ liệu độc lập với nhau theo tý lệ, độ chính xác của mô hình được xác định bằng cách so sánh các thuộc tính được gán nhãn của bộ dữ liệu

đầu vào với kết quả phân lớp của mô hình

13

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 22

Test Data

Audit total risk (Tong

diém kiêm toán rủi ro)

Hình 3 Quả trình phân lớp đữ liệu - Đánh giá mô hình

2.2.2.2 Phân lớp dữ liệu mới

Quá trình phân lớp đữ liệu mới có nguồn đữ liệu đầu vào là đữ liệu bị “khuyết” thuộc

tính cần được dự đoán lớp (nhãn) Các nhãn sẽ được mô hình xây dựng tự động phân lớp cho các đữ liệu bị “khuyết” phụ thuộc vào những điều được huấn luyện ở bước 1

14

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 23

Audit total risk (Téng | Risk (Rui ro)

điểm kiêm toán rủi ro)

Hình 4 Quả trình phân lớp đữ liệu - Phân lớp đữ liệu mới

2.3 Các phương pháp phân lớp dữ liệu

2.3.1 Hồi quy Logistic Regression

2.3.1.1 Định nghĩa

Hồi quy logistic là phương pháp với khả năng phân tích, quan sát dữ liệu và dự đoán giá trị của đữ liệu Hồi quy Logistic Regression là một thuật toán nỗi bật về tính đơn giản nhưng hiệu quả trong các bài toán phân loại Thuật toán này thường được đặt lên bản cân với các thuật toán phân loại khác để xem đâu là thuật toán phù hợp nhất

Mô hình xác suất được biểu điễn dưới dạng vector, dự đoán được giá trị đầu ra rời rạc từ một tập nhiều giá tri đầu vào

2.3.1.2, Mô tả

Thuật toán này dùng để đự đoán xác suất của các sự kiện, trong đó gồm việc xem xét mỗi quan hệ của các mẫu và đoán xác suất của các kết quả, ta sẽ có:

- Input: dir liéu input (ta sé coi cé hai nhãn là 0 và 1)

- _ Output: Xác suất dữ liệu input rơi vào nhãn 0 hoặc nhãn I

15

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 24

và đây là tệp đữ liệu cần được xử lý

Đầu ra dự đoán của logistic regression thường được viết chung dưới đạng:

f(x) = 9(wˆx)

2.3.1.3 Ung dung

- Du doan email nào được đưa vào mục spam

- _ Dự đoán công ty có thể tiếp tục kinh doanh được không

- _ Dự đoán cô phiếu của công ty có thể lên hay xuống

Trang 25

- _ Hỏi quy logistic thích hợp với tập đữ liệu có phân tách tuyến tính: Tập dữ liệu

có thê phân tách tuyến tính là tập có thế được tách thành hai lớp đữ liệu riêng biệt chỉ bằng một đường thăng Hồi quy logistic được sử dụng khi biến Y của bạn chỉ có thể nhận hai gia tri va nếu đữ liệu có thể phân tách tuyến tính, thì việc phân loại tập dữ liệu ra hai lớp riêng sẽ hiệu quả hơn

- Hi quy logistic khéng chi cé thê cho người dùng so sánh được mức liên quan của một biến độc lập, mà còn cho chúng ta thông tin về mỗi quan hệ đó đang theo hướng tích cực hay tiêu cực Mối quan hệ mang tính tích cực lả khi tăng gia tri của một biến số sẽ kéo theo gia tri cua biến số khác tăng Ví dụ: bạn học cảng nhiều thì điểm bạn sẽ được cải thiện Hồi quy logistic còn có thé cho người dùng thấy được mối tương quan thuận giữa thời tiết và số lượng sinh viên đi học, nhưng điều này không có nghĩa là sinh viên đi học hay không do hoàn cảnh thời tiết

2.3.1.5 Nhược điểm

- _ Hỏi quy logistic không dự đoán được kết quả liên tục Trong lĩnh vực y khoa, hồi quy logistic không được dùng với mục đích đoán nhịp tim của người bệnh thay đôi như thế nào Nguyên nhân dẫn đến việc này là do quy mô đo lường liên tục (thuật toán nảy hoạt động hiệu quả khi một trong hai biến phụ thuộc

và kết quả là lưỡng phân)

- Hi quy logistic nếu gặp kích thước mẫu quá nhỏ sẽ dẫn đến nhiều sai số Nếu kích thước mẫu không đáp ứng được yêu cầu, thì mô hình tạo ra bởi hồi quy logistic có lượng mẫu quan sát thực té nho Diéu nay co thé gay ra overfitting Đây là một lỗi mô hình hóa khi xảy ra trường hop quá khớp với một bộ dữ liệu vì thiếu đữ liệu đảo tạo Vì thế mô hình không thê dự đoán chính xác kết quả của một tập đữ liệu mới

2.3.2 Cây quyết định (Decision Tree)

- - Ví dụ: Các bạn quyết định có thế đi chơi hay không dựa vào yếu tố thời tiết Thời tiết như thế nào thì các bạn có thê đi chơi:

17

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 26

+ Troi dep thi cac ban sé di

+ Trời nắng nhưng độ âm cao thì các bạn sẽ không đi, độ âm bình thường thi sẽ tổ chức

+ Troi 4m u nhưng ít gió thi các bạn sẽ đi còn gió nhiều thì mọi người sẽ

- _ Không đòi hỏi việc chuân hóa dữ liệu

- _ Nhiều kiểu đữ liệu sẽ được cây quyết định phân lớp đễ dàng

- _ Một lượng lớn dữ liệu sẽ được phân lớp trong thời gian ngắn

Trang 27

- _ Chỉ phí để tạo ra mô hình dựa vào cây quyết định cao

2.3.3 Máy Vector hỗ trợ (Support Vector Machine)

2.3.3.1 Định nghĩa

SVM được viết là Support Vector Machines (Máy vector hỗ trợ), là một thuật toán có giám sát Support Vector Machine (SVM) là một mô hình phân loại hoạt động bằng việc xây dựng một siêu phẳng (hyperplane) có (n - 1) chiều trong không gian n chiều của dữ liệu sao cho siêu phẳng nảy phân lớp tối ưu nhất Ở không gian 2 chiều thì

siêu phăng nảy là 1 đường thắng phân cách chia mặt phăng không gian thành 2 phần

tương ứng 2 lớp với mỗi lớp nằm ở I phía của đường thăng

SUPPORT VECTOR MACHINE

Hình 7 Máy Vector hỗ trợ (SVM) SVM có nhiều biến thế phù hợp với các bải toán phân loại khác nhau Người dùng muốn ra kết quả tối ưu nhất cho việc phân lớp thì phải xác định được siêu phẳng có khoảng cách đến các điểm đữ liệu (margin) của tất cả các lớp xa nhất có thể Margin

là khoảng cách giữa siêu phăng đến 2 điểm đữ liệu gần nhất ứng với 2 phân lớp

19

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 28

Không chiếm nhiều bộ nhớ

Mang tính linh hoạt, có thê phân lớp tuyến tính và phi tuyến

Có thê giải quyết được trong không gian mả có nhiều hơn 2 chiều

nhân tạo Thuật toán nảy có thể thích ứng tốt với mọi thay đổi từ đữ liệu đầu vào Vì

20

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 29

thế, mọi kết quả có thê được đưa ra một cách tốt nhất mả người dùng không phải

điều chỉnh lại những chỉ tiêu đầu ra

2.3.4.2 Chỉ tiết mô hình khai phá về Neural Network

Neural Network thường có những đặc điểm đặc thù như: Mạng lưới nơron có cầu tạo như các nơ ron thần kinh trong bộ não con người, các nút mạng có những sự liên kết với nhau Các nút này được xem như một tập hợp tri giác có cầu tạo như hàm hồi quy tuyến tính và các nút này sẽ thu thập dữ liệu, phân loại dữ liệu và đưa được các đầu ra tương ứng

Mỗi một mạng lưới nơron chính là sự kết hợp giữa các tầng perceptron và thường có 3 kiểu tầng đặc trưng:

-_ Input Layer (tầng đầu vào): thường nằm bên trái của mạng lưới và đây cũng chính là đầu vào của mạng

- Output Layer (tầng đầu ra): thường là tầng bên phải của cấu trúc mạng và

là phần đầu ra của mạng

-_ Hidden Layer (tầng ẫn): thường nằm giữa tầng đầu vào và tầng đầu ra và nó thê hiện quá trình suy luận logic của mạng lưới

Hình 9 Cấu trúc một mang Neural Network

21

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 30

Điều đặc biệt là ở mỗi một mạng lưới Neural Network chỉ có đúng một tầng đầu vào và một tầng đầu ra Giữa các tầng lại có những sự liên kết với nhau hoặc sự liên kết của cái nút mạng trên cùng một tầng Hơn thế nữa, mỗi nút mạng trong một cầu trúc Neural Network đóng vai trò như một sigmoid nơron nhưng mỗi nút mạng ở đây lại có một hàm kích hoạt riêng biệt, không trùng lặp Số lượng nút mạng tại mỗi tầng có thê đa dạng tùy thuộc vào mỗi bải toán, điều nảy sẽ làm cho việc giải quyết bài toán trở nên thuận lợi hơn Trong một cầu trúc mạng Neural Network, các nút mang no ron co thê kết hợp đôi với nhau từ tầng đầu vảo tới tầng đầu ra Rõ hơn là, mỗi nút mạng ở một tầng là sẽ liên kết với đầu vào là những nút mạng ở tầng trước

đó và ngược lại Do đó, suy luận Neural Network là một dạng suy luận tiến hay còn được gọi là “feedforward”

Theo nhiều nhà nghiên cứu, tính ứng dụng của mô hình Neural Network là khá

phố biến tuy nhiên cách sử dụng mô hình nảy lại khá khó vả phức tạp Mô hình này

có thê được áp đụng như một hàm tủy ý học được từ bộ dữ liệu quan sát Nhóm nghiên cứu sẽ đưa ra một số lưu ý khi sử dụng mô hình Neural Network:

- Lựa chọn mô hình: Cần chú ý cách trình bảy đữ liệu và tính ứng đụng của

mô hình

- Thuật toán học: Cần năm rõ sự liên kết giữa các thuật toán học Mô hình Neural Network sẽ chính xác hơn nếu nó được chạy với những tham số chuẩn

để huấn luyện dữ liệu

- Mạnh mẽ: Khi ta lựa chọn một mô hình, thuật toán và phối hợp nhịp nhàng với các hàm số thì Neural Network sẽ cho ra kết quả vô cùng chuẩn 2.3.4.3 Ứng dụng

Mô hình Neural Network được ứng dụng khá phổ biến vào đa dạng khía cạnh của lĩnh vực kinh tế: tài chính, kinh doanh, quan tri rui ro, giao dịch thương mại, Cụ thé 1a, Neural Network duoc ap dụng để đánh giá, phân tích các chỉ số, dy báo xu hướng, ngoài ra, nó còn được áp dụng đề khai quật, phân tích đữ liệu đề tìm ra giải pháp từ bộ đữ liệu trong quá khứ Hơn thế nữa, Neural Network còn có khả năng xác định mỗi quan hệ phụ thuộc giữa các phi tuyến lẫn nhau của các đữ liệu đầu vảo

Chính vì vậy có thế khắng định, mô hình Neural Network là một công cụ khá có ích

trong việc phân tích, đữ báo đữ liệu của các khối ngành kinh tế

22

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 31

2.4 Các phương pháp đánh giá mô hình phân lớp

Đề đánh giá mức độ chính xác, tin cậy của mô hình phân lớp và lựa chọn ra phương pháp tốt nhất thì có thê sử dụng Ma trận nhằm lẫn (Confusion Matrix) và Holđ - out

vs K - fold cross validation

2.4.1 Ma trận nhằm lẫn (Confusion Matrix)

Phương pháp ma trận nhằm lẫn là một bảng các số liệu chỉ ra cho chúng ta thấy được rằng một lớp cụ thể chứa bao nhiêu điểm dữ liệu và các điểm dữ liệu đó sẽ được phán đoán thuộc lớp nào Bảng ma trận nhằm lẫn (Confision Matrix) có kích thước k

Ok (k: số lượng các lớp của đữ liệu)

Trong bảng ma trận sẽ có một số thuật nei sau:

Actual Values Positive (1) Negative (0)

Trang 32

+ Accuracy (tính chính xác): là tý lệ các dữ liệu được phân lớp chính xác trong tập dữ liệu Accuracy chỉ có thé cho người đọc biết được tỷ lệ các dữ liệu được phân lớp chính xác chứ không thể chỉ rõ các đữ liệu đó được phân loại như thể nảo, có thê phân lớp được dữ liệu nảo đúng nhiều nhất, vả loại đữ liệu nảo thường được phân loại sai nhiều nhất

=> Error rate = I — acc là độ lỗi của mô hình

24

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Trang 33

True Positiue Rate = PLE

Đường cong ROC

Trang 34

- AUC (Area Under the Curve): thé hién tinh hiéu qua cua đồ thị dựa vào phần diện tích nằm phía đưới đường cong ROC Gia tri cia AUC phải là một số dương vả nhỏ hơn hoặc bằng 1

- Hold - out: là phương pháp chia tách một tập đữ liệu đầu vảo thành hai tập đữ

liệu riêng biệt theo một tỷ lệ nhất định gồm tập dữ liệu huấn luyện và tập dữ

liệu dự báo Phương pháp này chỉ thích hợp với các tập dữ liệu có kích thước nhỏ nhưng nó có một nhược điểm đó là các mẫu trong tập dữ liệu đã tách không đại diện cho toàn bộ tập dữ liệu ban đầu (bị thiếu lớp trong tập đự báo) Sau khi sử dụng phương pháp Hold - out đề chia tách đữ liệu, chúng ta sẽ có 2 tập dữ liệu:

+ Training Set: dữ liệu huấn luyện được sử dụng để xây dựng mô hình,

sử dụng trong các thuật toán phân lớp, dùng đề huấn luyện mô hình + Test Set: dữ liệu dự báo được sử dụng để xem xét, đánh giá mức độ hoạt động hiệu quả của mô hình

26

Bédo cdo dé an hoc phan Khoa học đữ liệu (DS)

Ngày đăng: 10/08/2024, 16:08

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w