Khai phá dữ liệu là một tập hợp, một hệ thống các phương pháp tính toán, thuật toán được áp dụng cho các cơ sở dữ liệu lớn và phức tạp mục đích loại bỏ các chỉ tiết ngẫu nhiên, chi tiết
Trang 1DAI HOC HUE TRUONG DAI HOC KINH TE KHOA HE THONG THONG TIN KINH TE
Huế, 06/2022
Trang 2LOI CAM ON
Em xin chân thành cảm ơn thầy giáo Nguyễn Đình Hoa Cương — giảng viên phụ trách học phần Khai phá dữ liệu đã hướng dẫn và định hướng cho em cũng như
các bạn trong lớp K53 Tm học kinh tế những cách thực hiện để có một bài báo cáo kết
thúc học phần Với cá nhân em, từ sự hướng dẫn của thầy, em đã có được những định
hướng về một đề án kết thúc môn học và thực hiện tốt hơn các bước trong quy trình
làm bài báo cáo Qua đây, em muôn gửi lời cảm ơn đến thầy giáo Nguyễn Đình Hoa Cương và quý thầy cô trong Khoa Hệ Thống Thông Tin Quản Lí đã giúp đỡ, hướng
dẫn cho em trong suốt quá trình học tập và thực hiện hoàn thành bài báo cáo
Do kinh nghiệm làm đồ án, tiêu luận chưa nhiều nên trong quá trình làm bài
không tránh khỏi các lỗi sai và thiếu sót, em rất mong được nhận được nhiều hơn sự hướng dẫn, chỉ bảo từ giảng viên học phần Khai phá dữ liệu - thầy giáo Nguyễn Đình Hoa Cương cùng quý thầy cô trong khoa Qua bài báo cáo này, một lần nữa em xin chân thành gửi lời cảm ơn sâu sắc, lời chúc sức khỏe đến quý thầy cô Khoa Hệ Thống
Thông Tin Quản Lý, chúc thầy cô luôn đạt được nhiều thành tựu và luôn thành công
trong sự nghiệp giảng dạy của mình
Em xin chan thanh cam on !
Lê Chánh Nhẫn
Trang 3MUC LUC
LỜI CẢM ƠN Q20 21221211211121122112112112121121112121 re I MỤC LUỤC 52 22522122212211122122211212122112112121212121212222 ru II
DANH MUC HINH VE.ooo.c.cccccccccccccccccsccscsscsecseesescssesusseecsesuseesevssssevevensesevensetes IV DANH MỤC BÁNG BIỂU 5 S2 2111111 t7 11 HH1 nH HH gang re V DANH MỤC THUẬT NGỮ - - SE 2E 11211122 111121112 nguoi VỊ
CHƯƠNG I: CƠ SỞ LÝ THUYÊT -2- 2222 212211221221121112112212122.121 tre 1 1.1 Tong quan vé khai pha dit W@u o.oo ccc ccceccececcecsscesesesessessesvssceeevsseeveees 1 1.1.1 Khải niệm khai phá dữ liệu - 5 25c E2 cessess cess testessessesstessseseans 1 1,12 Quá trình phát hiện trì thức trong cơ sở Hữ HIỆM àà ào ào sec 1 1.1.3 Lợi ích của khai phá dữ liỆM Tnhh HH He 2 1.14 Thách thức của khai phá dữ liỆM ào nh Hee 3 1.2 Các phương pháp khai phá đữ liệu - C222 2221122 12221122 2 tre 4 1.2.1 Khai phá luật kẾt hợp 0S TH ye 4 1.2.2 Phân lớp dữ liỆu - 5 5n 2 E22 E1 2 12H 1g 5 Z8 7.1 nn he e.ốốă ố.ố.ố.ố.ố ằ.ằốắằắ 6 1.3 Các mô hình phân lớp được sử dụng trong tiểu luận - 5c 6 1.3.1 Mô hình Naive BHqVÉS nh ha nh Hà ki 6 1.3.2 Mô hình cây quyết định (J48) SH ye 7 1.3.3 Mô linh N — lẦH CẬNH ào Q TS nh HH HH HH Hà Ho ko 8 1.3.4 Mô hình kết hợp: Phương pháp Wuting ì co cccceeesierees 9 CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU ©2222: 2212221 21222222 10
Trang 42.1 Mô tả đữ liệu 52 2222251 2221112112221 1122 re 10
2.2 Phương pháp phân chia dữ liệu - L0 0 2212222222121 122221 HH key 10 2.2.1 Phương pháp HoÍ ~ 0UHÍ nhà hà hành há 10 2.2.2 Phương pháp Cross validation (10 — ƒoll cross validation) ll 2.2.3 Phân chía dữ liỆM LH Hà Hà HH tro il 2.3 Xây dựng mô hình G020 1211122112115 11511 15112111111 1111112111111 1 111k key 12 2.4 Đánh giá mô hình 2222112211221 1 152125111111 1551 5111111111115 tr 21 2.4.1 Phép đo PrecetioH - Ñe€CdÏÏ à ieene nites 22 Vy N5 nương n -ê(uag1Ắăă.ăă ăằ 23
2.5 Kết quả thực hành 2-1 ST SE 1121121121111 1211111111211 nen Hre 23 CHƯƠNG III: TỎNG KÉT THỰC HÀNH G5 SE E221 2E crrrt -25- 3.1 Kết luận 5 S1 TỰ H12 H11 21 1n ng te -25-
3.2 Hạn chế 5 s tc E11 112111111 1211012121111 111tr re -25-
DANH MỤC TÀI LIỆU THAM KHÁO 5-52 E11 E2 EEcrrxyey 26 KÉT QUÁ KIÊM TRA ĐẠO VĂN ch ue 28
IH
Trang 5DANH MUC HINH VE
Hinh 1: Minh hoa quy trinh phat hién tri thitc trong cơ sở dữ liệu (nguồn: f†a1lleuso.udn.VT)) ác 1211122112222 1111120151 11H15 1k HH KH kệ 2 Hình 2: Minh họa phân cụm (nguồn: bài giảng phân cụm — TS Nguyễn Đình Hoa 277 O EEE CEE CE ECE EE SEE C tie CEE tEaE Cnet cniatbeaaeeinaaaeess 6 Hinh 3: Minh hoa mé hinh Naive Bayes (nguon: https://sebastianraschka.com’) 7 Hinh 4: Minh hoa cay quyét dinh (J48) (nguon: viblo.asid) c.cccccccccscescscesceseeeeeseeee 8 Hinh 5: Minh hoa m6 hinh kNN (nguOn: viblo.dSid) .c.ccccccccscescssscsssssessessessessesseseveees 9 Hình 6: Quy trình phân Chia dữ ÏIỆU à các c LH kS HH TH TH tk ke 12
Hình 7:Minh họa cho một sơ đồ vẽ đường RÓC Q1 112112 1111 1211 xxx 21
Hình 8: Minh hoa phép do Precetion — Recall ccccccccccccccscceetetssteteetse tens sensseenaaes 22 Hinh 9: Duong ROC cua các mô hình với bộ dữ liệu Diabetes.arff (Nhan lop:
Trang 6DANH MUC BANG BIEU Bang 1: Các thuộc tinh cua cdc b6 dit LIỆU à à TL TS 1n HH net hưu 10
Bảng 2: Kết quả mô hình với bộ dữ liệu Diabetes.đffƒ sa sccntnnHhnnerrrei 23
Trang 7DANH MỤC THUẬT NGỮ
Số thứ tự Từ viết tắt Tên tiếng Anh/ Nghĩa tiếng Việt
databases)
2 ROC Receiver Operating Characteristic 3 Arff Attribute - Relation File Format Số thứ tự Tw tieng Anh Nghĩa tiếng Việt
4 Lazy learning Lười biếng 5 Weka Waikato Environment for Knowledge Analysis
VI
Trang 8
CHUONG I: CO SO LY THUYET
1.1 Tổng quan về khai phá dữ liệu
1.1.1 Khải niệm khai phá dữ liệu Khai phá dữ liệu [1] hay Data Mimmng là một khái niệm ra đời vào những năm cuối của thập kỷ 80 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin
có giá trị tiềm an trong các tập dữ liệu lớn (các kho dữ liệu)
Khai phá dữ liệu là một tập hợp, một hệ thống các phương pháp tính toán, thuật
toán được áp dụng cho các cơ sở dữ liệu lớn và phức tạp mục đích loại bỏ các chỉ tiết
ngẫu nhiên, chi tiết ngoại lệ, khám phá các mẫu, mô hình, quy luật tiềm ân, các thông
tin có giá trị trong bộ dữ liệu Khai phá dữ liệu là thành quả công nghệ tiên tiền ngày nay, là quá trình khám phá các kiến thức vô giá bằng cách phân tích khối lượng lớn dữ
liệu đồng thời lưu trữ chúng ở nhiều cơ sở dữ liệu khác nhau
1.1.2 Quả trình phát liện trì thức trong cơ sở đữ liệu Quá trình phát hiện trí thức (KDD) [2] là quá trình tìm ra những thông tin tiềm ân có giá trị mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác động lên chúng
Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần
giải quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải
thuật khai phá dữ liệu có thê hiểu được Bước tiếp theo là chọn thuật toán khai phá dữ
liệu thích hợp và thực hiện việc khai phá dữ liệu đề tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường được biểu diễn dưới
dạng các luật xếp loại, cây quyết định, luật sản xuất, biêu thức hồi quy )
Quá trình phát hiện tri thức bao gồm các bước: - Làm sạch đữ liệu (data cleaning): ở bước này các nhiễu và dữ liệu không nhất
quán sẽ được loại bỏ
- Tích hợp dữ liệu (data intergation): dữ liệu từ nhiều nguồn khác nhau có thê
được tổ hợp lại
Trang 9Lựa chọn dữ liệu (data selection): những dữ liệu thích hợp với nhiệm vụ phân
tích sẽ được trích rút ra từ cơ sở dữ liệu Chuyên đổi dữ liệu (data tranform): dữ liệu sau khi được chọn lọc sẽ được
chuyên đôi hay hợp nhất về dạng thích hợp cho việc khai phá Khai phá dữ liệu (data mining): đây là quá trình cốt lõi, tất yếu trong đó các phương pháp thông minh sẽ được áp dụng nhằm trích rút ra các mẫu đữ liệu Đánh giá mẫu (pattern evaluation): các nhà phân tích đữ liệu sẽ dựa trên một số
độ đo nào đó để xác định lợi ích thực sự, độ quan trọng của các mẫu biểu diễn
tri thức Biểu diễn trí thức (Knowledge presentation): ở giai đoạn này các kĩ thuật biêu
diễn và hiển thị tri thức sẽ được sử dụng để đưa tri thức đã lay ra dén người
dùng
Đánh giá luật Khai phá đữ liệu
Hinh 1: Minh hoa quy trình phat hiện trì thức trong cơ sở đữ liệu (nguôn: tailieuso.udn.vH)
1.1.3 Lợi ích của khai phá dữ liệu Xét về lợi ích trong quá trình phân chia dữ liệu:
Chon lọc, loại bỏ tất cả các đữ liệu không liên quan và dữ liệu trùng lớp trong tập dữ liệu
Xác định các mẫu dữ liệu, dữ liệu có liên quan và dùng các thuật toán phân
tích, tận dụng dữ liệu để dự báo kết quả đầu ra ví dụ như xu hướng, hành vi tiêu
dùng
Với khai phá dữ liệu, chúng ta có thê phân tích khối lượng lớn dữ liệu trong
thời gian ngắn và sau đó chuyển đổi dữ liệu thành thông tin, kiến thức có ý nghĩa
Trang 10Xét về lợi ích sau cùng của khai phá dữ liệu: Hỗ trợ ra quyết định tự động: Khai phá dữ liệu cho phép các tổ chức liên tục phân tích dữ liệu và tự động hóa các quyết định thông thường và quan trọng mà không bị trì hoãn bởi yếu tô con người Các mô hình tự động của khai phá dữ liệu có thê thu thập, phân tích và
xử lý dữ liệu một cách độc lập để hợp lý hóa việc ra quyết định và tăng năng
suất hoạt động, giảm thiểu thời gian giúp tăng lợi nhuận, quy trình làm việc,
sản xuất được tăng tốc Hỗ trợ đưa ra dự báo chính xác:
Khai phá dữ liệu tạo điều kiện lập kế hoạch và cung cấp cho các nhà quản lý dự báo đáng tin cậy dựa trên các xu hướng trong quá khứ và các điều kiện hiện tại Hỗ trợ giảm thiêu chi phi:
Khai phá dữ liệu cho phép sử dụng nguồn lực hiệu quả hơn, qua đó giúp các tô chức kiểm soát cấc hoạt động sản xuất, marketing, bán hàng và phân bổ nguồn lực hợp lý thông qua các công cụ phân tích tự động của khai phá dữ liệu đồng thời phát hiện và ngăn chặn kịp thời các rủi ro, sai sót, từ đó tránh lãng phí và giảm chi phí hiệu quả
Hỗ trợ khả năng thấu hiểu khách hàng:
Các công ty triển khai các mô hình khai phá đữ liệu chuyên biệt để phân tích
dữ liệu khách hàng nhằm khám phá các đặc điểm chính, các điểm khác biệt về
sở thích, thói quen, hành vi, của mỗi phân khúc khách hàng, xác định nhu
cầu mỗi khách hàng một cách chính xác nhất
1.1.4 Thách thức của khai phá dữ liệu Do khối lượng dữ liệu mà mỗi công ty, tô chức phải thu thập ngày nay cực kì lớn và phức tạp, đa dạng vô cùng, nhưng lại chứa đựng những thông tin hữu ích đem lại những giá trị tiềm năng Vì thế, thách thức trong việc đảm bảo sự hiệu quả trong quá
trình thu thập, xử lý và phân tích dữ liệu cho đến việc ứng dụng, triển khai các kết quả
đầu ra vào các giải pháp, chiến lược thực tế đối với dự án khai phá dữ liệu ngày một cao hơn
Trang 11Thách thức của Big Data: Các thách thức của Big Data xuất hiện trong mọi lĩnh
vực có nhu cầu thu thập, lưu trữ và phân tích dữ liệu và được đặc trưng bởi 4 tinh chat
cũng là 4 thách thức đối với khai phá dữ liệu|[3] và một hệ thông khai phá dữ liệu phải có khả năng đáp ứng các đặc trưng trên thì mới có thé khai thác được các giá trị dữ
liệu
- - Volume ƒCitation} (Khối lượng dữ liệu): mô tả thách thức của việc lưu trữ và xử lý số lượng dữ liệu không lồ được thu thập bởi các công ty
- Variety (Sw da dạng dữ liệu): mô tả thách thức bao gồm nhiều loại dữ liệu khác
nhau được thu thập và lưu trữ Công cụ khai phá dữ liệu đòi hỏi phải được trang bị, nâng cấp đề xử lý đồng thời một loạt các định dạng của dữ liệu - _ Veracity (Độ chính xác dữ liệu): mô tả thách thức về mức độ xác thực, độ chính
xác của dữ liệu bởi dữ liệu thu thập đa dạng từ nhiều nguồn khác nhau nên sẽ
có lúc đữ liệu không cung cấp thông tin chính xác, dữ liệu lộn xộn, không đầy
đủ Dữ liệu thu thập được cảng nhanh thì càng nhiều lỗi xuất hiện trong bộ dữ liệu Thách thức của tính chính xác chính là cân bằng số lượng dữ liệu với chất
lượng của nó nhằm đạt mục đích sau cùng của khai phá dữ liệu
- - Velocity (Tốc độ xử lý dữ liệu): mô tả thách thức về tốc độ xử lý ngày càng
tăng trong quá trình thu thập, lưu trữ và phân tích dữ liệu Do khối lượng dữ liệu lớn và đa dạng nên cần phải quan tâm đến tốc độ xử lý, nêu tốc độ xử lý chậm và công ty không tìm thấy giá trị từ dữ liệu trong thời gian hợp lý sẽ dẫn đến gia tăng chỉ phí, nguồn dữ liệu khai thác cũng không hiệu quả
1.2 Các phương pháp khai phá dữ liệu
1.2.1 Khai phá luật kết hợp
Khai phá luật kết hợp [4] là tìm ra các mẫu có tần suất cao hoặc rất cao, các mẫu kết hợp với nhau, liên quan hoặc các câu trúc tổn tại giữa các tập hợp đối tượng trong
cơ sở dữ liệu các giao dich, co sở dữ liệu quan hệ hoặc các kho chứa thông tin Có thé
duoc hiéu day là quá trình đi tìm tất cả các tập phô biến từ bên trong dữ liệu Luật kết hop[4] là mối quan hệ giữa các tập thuộc tính trong cơ sở dữ liệu Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết trong đữ liệu.
Trang 12Cho mét tap T= {t, tf, ., ta} la tap cac giao dich (transaction) voi n là số các giao dich co trong T (TCI), tap I = {i,, in, , in} 1a mdt tap gom m tập mục khác nhau Ta
có t¡C I Với X và Y là tập các mục Luật kết hợp có thể biểu diễn bởi công thức sau:
Một giao dịch T được gọi là chứa X khi và chỉ khi A T
D6 hé tro (support) [5] ctia một luật X Y là tỷ lệ phần trăm các giao dịch trong T mà chứa cá X và Y Giúp xác định mức độ phố biến của các giao dịch có chứa tập mục ( X Y) trong tổng số tất cả các giao dịch Công thức tính độ hỗ trợ (support):
support (XY) == P(X Y) (2) D6 tin cay (confidence) [5] của luật X Y la ty lệ phân trăm các giao dịch trong T chứa cả X và Y trên tổng số các giao dịch trong T chỉ chứa X Là đại lượng xác định khả năng dự đoán của luật Công thức tính độ tin cậy (confidence):
confidence (XY) ==P(X Y|X) (3) 1.2.2 Phân lớp dữ liệu
Phân lớp (classiñcation) là một trong những hình thức phân tích dữ liệu phố biến
được dùng để tạo các mô hình mô tả các phân lớp dữ liệu quan trọng Phân lớp còn được dùng đề dự đoán các nhãn phân lớp cho dữ liệu đầu vào tương ứng, giúp ta hiểu
về dữ liệu ở mức bao quát hơn
Ứng dụng của phân lớp: - Phân loại hồ sơ tín dụng là an toàn hay rủi ro
- — Lựa chọn phương thức điều trị A, B, hay C cho bệnh nhân - Dy doan sở thích của người nghe với một thể loại nhạc nhất định
- Dự đoán hành vi mua hàng của khách hàng Đặc trưng của phân lớp:
Các mô hình được xây dựng với mục tiêu hướng tới khả năng dự báo có độ
chính xác cao nhất, hay tin cậy nhất, hoặc nằm trong khoáng chấp nhận được Chính
vì vậy, dựa trên tập dữ liệu đầu vào người ta rút bớt một phần đề làm tập dữ liệu kiểm
thử
Trang 131.2.3 Phin cum Phan cum [6] la qua trinh tap hợp các dữ liệu vào các nhĩm hay các lớp mà ở đĩ những dữ liệu được xếp cùng nhĩm cĩ độ tương tự nhau cao và chúng khác biệt so với những dữ liệu được xếp vào nhĩm (hay lớp) khác Những khác biệt (dissimilarities) này được đánh giá dựa trên các giá trị thuộc tính dùng để mơ tả các đối tượng Thơng thường, các phép tính khoảng cách được sử dụng đề thực hiện phân cụm
Phân tích cụm (cluster analysis) được ứng dụng rộng rãi trong nhiều lĩnh vực như: nghiên cứu thị trường, nhận dạng mẫu, phân tích dữ liệu và xử lý anh
Tình 2: Minh họa phân cụm (nguơn: bài giảng phân cụm — TS Nguyễn Đình Hoa Cương)
1.3 Các mơ hình phân lớp được sử dụng trong tiểu luận 1.3.1 Mơ hình Naive Bayes
Trước khi đi đến mơ hình phân lớp Nạve Bayes [7] ta tìm hiểu khái niệm mơ
hình phân lớp, đĩ là một mơ hình Machine Leaming dùng đề phân loại các vật mẫu dựa trên các đặc tính đã xác định Mơ hình phân lớp Bayes là một thuật tốn phân lớp được mơ hình hĩa dựa trên định lý Bayes trong xác suất thống kê
Nguyên lý hoạt động của bộ phân lớp Naive Bayes: Cho D là tập dữ liệu huấn luyện cùng với các nhãn lớp tương ứng Mỗi bộ dữ
liệu trong D được mơ tả bởi n thuộc tính và được diễn đạt dưới dang vector n chiéu X
= (xl, x2, .,xn)
Trang 14Giả sử rằng cĩ m nhãn lớp khác nhau gồm C1, C2, Cm Cho một bộ dữ
liệu X, bộ phân lớp Nạve Bayes sẽ dự đốn bộ dữ liệu X thuộc về phân lớp cĩ xác suất hậu nghiệm cao nhất
P (Ci[X) > P(Cj|X) voi 1 <j <m,j #i
Do P(X) khơng đổi, nên ta chỉ cần cực đại hoa gia trị P (X] Ci).P (Ci)
Hình 3: Minh hoa mé hinh Naive Bayes (nguén: https://sebastianraschka.com’)
1.3.2 Mơ hình cây quyết định (J48)
Thuật tốn cây quyết định [8] cho ra kết quả là một tập luật của những dữ liệu huấn luyện cĩ thuộc tính Cây quyết định là một cầu trúc luồng dạng cây, là một cơng
cụ phố biến trong khai phá và phân lớp dữ liệu Đặc điểm của cây quyết định cĩ cầu
trúc: - Root (Géc): Là nút trên cùng của cây
Node trong: Nút trung gian trên một thuộc tính đơn (hình Oval) Nhánh: Biểu diễn các kết quả của kiểm tra trên nút
Node 1a: Biéu diễn lớp hay sự phân phối lớp (hình vuơng hoặc chữ nhật)
Cây quyết định [9] được sử dụng rất phơ biến bởi một số lí do sau:
- — Việc xây dựng cây quyết định khơng địi hỏi bất cứ kiến thức chuyên ngành
hay thiết lập tham số ban đầu nào cả Vì vậy, nĩ phù hợp với viêc khám phá tri thức
- _ Cây quyết định cĩ thé quan ly dữ liệu cĩ số chiều lớn.
Trang 15- Việc biểu đạt tri thức dưới dạng cây có thê được diễn đạt dé dàng
- — Quá trình học và phân lớp (sử dụng) của cây quyết định được thực hiện nhanh chóng
- Cây quyết định cho ra độ chính xác cao Tuy nhiên điều này còn phụ thuộc vào
dữ liệu của chúng ta
Tình 4: Minh họa cây quyết dinh (J48) (nguon: viblo.asia)
1.3.3 Mô hình N — lân cận K - lân cận (k - Nearest Neighbors) [10] là mô hình có độ giám sát đơn giản nhất được sử dụng nhiều trong khai phá dữ liệu và học máy Với ý tưởng thuật toán của mô
hình này, nó không học một điều gì từ tập dữ liệu học (nên k-Nearest Neighbors dugc xếp vào loại lazy learnmng), mọi tính toán được thực hiện khi nó cần dự đoán nhãn lớp
của dữ liệu mới Lớp (Nhãn) của một đối tượng dữ liệu mới có thể dự đoán từ các lớp
(nhãn) của các hàng xóm gần nó nhất
Trang 161.3.4 Mô hình kết hợp: Phương pháp Voting
Voting là phương pháp xây dựng một mô hình kết hợp trên nền tảng nhiều mô hình phân lớp cơ sở khác nhau Voting cung cấp cơ chế tổng hợp kết quả bỏ phiếu để ra quyết định cuối cùng Voting cung cấp cơ chế tông hợp kết quả bỏ phiêu đề ra quyết
định cuối cung dugc goi la combinationRule
Trang 17CHUONG II: PHƯƠNG PHÁP NGHIÊN CỨU
2.1 Mô tả dữ liệu
Bộ dữ liệu được sử dụng trong bài tiểu luận lần này là bộ dữ liệu
Diabetesƒ Citation} có gốc Arff được lấy từ trong kho dữ liệu của phần mềm Weka (Waikato Environment for Knowledge Analysis) Diabetes.arff được lấy từ cơ sở dữ liệu về bệnh tiểu duong cua Dai hoc Washington, St Louis, MO Dugc bién soạn bởi
Tiến sĩ Michael Kahn và được lưu trữ tại trang web UCI Machme Learnng
Repository Bộ dữ liệu mô tả về bệnh tiêu đường của người Pima Ân Độ, trong bộ dữ liệu có 768 mẫu, 9 thuộc tính và có 2 phân lớp là tested negative va tested postive
Thống kê các thuộc tính của bộ dữ liệu Diabetes.arff như sau:
Bảng 1: Các thuộc tính của các bộ dữ liệu
tính
2.2 Phương pháp phẫn chia dữ liệu 2.2.1 Phuong phap Hold - out
Phương phap Hold - out [11] là phương pháp phân chia ngẫu nhiên tập dữ liệu
thành 2 tập dữ liệu độc lập đó là tập dữ liệu huấn luyện và tập dữ liệu kiểm định mô
hình (tập dữ liệu kiểm thử) Tỉ lệ giữa training set và validation set được chọn tương ứng là 70% và 30%
Mục đích của phương pháp là kiểm tra độ hiệu quả của mô hình khi sử dụng các tập dữ liệu khác nhau Cụ thê trong phương pháp Hold — out sẽ có tập dữ liệu:
- Training set: dir liégu phục vụ xây dựng mô hình, xác định các thuật toán, biến dữ
liệu phù hợp
- - Test set: là dữ liệu được sử dụng dé đánh giá độ hiệu quả của mô hình, mức độ
chính xác trong việc phân loại dữ liệu
- Validation set: la dir ligu duoc xay dung dé danh giá hiệu suất của mô hình được
xây dựng trong giai đoạn huấn luyện, hỗ trợ thử nghiệm đề tính chính xác các mô
10