đề tài xây dựng mô hình phân lớp kết hợp dạng voting dựa trên mô hình phân lớp cơ sở naivebayes cây quyết định j48 và k lân cận để dự đoán trên tập dữ liệu

Khai phá dữ liệu là một tập hợp, một hệ thống các phương pháp tính toán, thuật toán được áp dụng cho các cơ sở dữ liệu lớn và phức tạp mục đích loại bỏ các chỉ tiết ngẫu nhiên, chi tiết

Trang 1

DAI HOC HUE TRUONG DAI HOC KINH TE KHOA HE THONG THONG TIN KINH TE

Huế, 06/2022

Trang 2

LOI CAM ON

Em xin chân thành cảm ơn thầy giáo Nguyễn Đình Hoa Cương — giảng viên phụ trách học phần Khai phá dữ liệu đã hướng dẫn và định hướng cho em cũng như

các bạn trong lớp K53 Tm học kinh tế những cách thực hiện để có một bài báo cáo kết

thúc học phần Với cá nhân em, từ sự hướng dẫn của thầy, em đã có được những định

hướng về một đề án kết thúc môn học và thực hiện tốt hơn các bước trong quy trình

làm bài báo cáo Qua đây, em muôn gửi lời cảm ơn đến thầy giáo Nguyễn Đình Hoa Cương và quý thầy cô trong Khoa Hệ Thống Thông Tin Quản Lí đã giúp đỡ, hướng

dẫn cho em trong suốt quá trình học tập và thực hiện hoàn thành bài báo cáo

Do kinh nghiệm làm đồ án, tiêu luận chưa nhiều nên trong quá trình làm bài

không tránh khỏi các lỗi sai và thiếu sót, em rất mong được nhận được nhiều hơn sự hướng dẫn, chỉ bảo từ giảng viên học phần Khai phá dữ liệu - thầy giáo Nguyễn Đình Hoa Cương cùng quý thầy cô trong khoa Qua bài báo cáo này, một lần nữa em xin chân thành gửi lời cảm ơn sâu sắc, lời chúc sức khỏe đến quý thầy cô Khoa Hệ Thống

Thông Tin Quản Lý, chúc thầy cô luôn đạt được nhiều thành tựu và luôn thành công

trong sự nghiệp giảng dạy của mình

Em xin chan thanh cam on !

Lê Chánh Nhẫn

Trang 3

MUC LUC

LỜI CẢM ƠN Q20 21221211211121122112112112121121112121 re I MỤC LUỤC 52 22522122212211122122211212122112112121212121212222 ru II

DANH MUC HINH VE.ooo.c.cccccccccccccccccsccscsscsecseesescssesusseecsesuseesevssssevevensesevensetes IV DANH MỤC BÁNG BIỂU 5 S2 2111111 t7 11 HH1 nH HH gang re V DANH MỤC THUẬT NGỮ - - SE 2E 11211122 111121112 nguoi VỊ

CHƯƠNG I: CƠ SỞ LÝ THUYÊT -2- 2222 212211221221121112112212122.121 tre 1 1.1 Tong quan vé khai pha dit W@u o.oo ccc ccceccececcecsscesesesessessesvssceeevsseeveees 1 1.1.1 Khải niệm khai phá dữ liệu - 5 25c E2 cessess cess testessessesstessseseans 1 1,12 Quá trình phát hiện trì thức trong cơ sở Hữ HIỆM àà ào ào sec 1 1.1.3 Lợi ích của khai phá dữ liỆM Tnhh HH He 2 1.14 Thách thức của khai phá dữ liỆM ào nh Hee 3 1.2 Các phương pháp khai phá đữ liệu - C222 2221122 12221122 2 tre 4 1.2.1 Khai phá luật kẾt hợp 0S TH ye 4 1.2.2 Phân lớp dữ liỆu - 5 5n 2 E22 E1 2 12H 1g 5 Z8 7.1 nn he e.ốốă ố.ố.ố.ố.ố ằ.ằốắằắ 6 1.3 Các mô hình phân lớp được sử dụng trong tiểu luận - 5c 6 1.3.1 Mô hình Naive BHqVÉS nh ha nh Hà ki 6 1.3.2 Mô hình cây quyết định (J48) SH ye 7 1.3.3 Mô linh N — lẦH CẬNH ào Q TS nh HH HH HH Hà Ho ko 8 1.3.4 Mô hình kết hợp: Phương pháp Wuting ì co cccceeesierees 9 CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU ©2222: 2212221 21222222 10

Trang 4

2.1 Mô tả đữ liệu 52 2222251 2221112112221 1122 re 10

2.2 Phương pháp phân chia dữ liệu - L0 0 2212222222121 122221 HH key 10 2.2.1 Phương pháp HoÍ ~ 0UHÍ nhà hà hành há 10 2.2.2 Phương pháp Cross validation (10 — ƒoll cross validation) ll 2.2.3 Phân chía dữ liỆM LH Hà Hà HH tro il 2.3 Xây dựng mô hình G020 1211122112115 11511 15112111111 1111112111111 1 111k key 12 2.4 Đánh giá mô hình 2222112211221 1 152125111111 1551 5111111111115 tr 21 2.4.1 Phép đo PrecetioH - Ñe€CdÏÏ à ieene nites 22 Vy N5 nương n -ê(uag1Ắăă.ăă ăằ 23

2.5 Kết quả thực hành 2-1 ST SE 1121121121111 1211111111211 nen Hre 23 CHƯƠNG III: TỎNG KÉT THỰC HÀNH G5 SE E221 2E crrrt -25- 3.1 Kết luận 5 S1 TỰ H12 H11 21 1n ng te -25-

3.2 Hạn chế 5 s tc E11 112111111 1211012121111 111tr re -25-

DANH MỤC TÀI LIỆU THAM KHÁO 5-52 E11 E2 EEcrrxyey 26 KÉT QUÁ KIÊM TRA ĐẠO VĂN ch ue 28

IH

Trang 5

DANH MUC HINH VE

Hinh 1: Minh hoa quy trinh phat hién tri thitc trong cơ sở dữ liệu (nguồn: f†a1lleuso.udn.VT)) ác 1211122112222 1111120151 11H15 1k HH KH kệ 2 Hình 2: Minh họa phân cụm (nguồn: bài giảng phân cụm — TS Nguyễn Đình Hoa 277 O EEE CEE CE ECE EE SEE C tie CEE tEaE Cnet cniatbeaaeeinaaaeess 6 Hinh 3: Minh hoa mé hinh Naive Bayes (nguon: https://sebastianraschka.com’) 7 Hinh 4: Minh hoa cay quyét dinh (J48) (nguon: viblo.asid) c.cccccccccscescscesceseeeeeseeee 8 Hinh 5: Minh hoa m6 hinh kNN (nguOn: viblo.dSid) .c.ccccccccscescssscsssssessessessessesseseveees 9 Hình 6: Quy trình phân Chia dữ ÏIỆU à các c LH kS HH TH TH tk ke 12

Hình 7:Minh họa cho một sơ đồ vẽ đường RÓC Q1 112112 1111 1211 xxx 21

Hình 8: Minh hoa phép do Precetion — Recall ccccccccccccccscceetetssteteetse tens sensseenaaes 22 Hinh 9: Duong ROC cua các mô hình với bộ dữ liệu Diabetes.arff (Nhan lop:

Trang 6

DANH MUC BANG BIEU Bang 1: Các thuộc tinh cua cdc b6 dit LIỆU à à TL TS 1n HH net hưu 10

Bảng 2: Kết quả mô hình với bộ dữ liệu Diabetes.đffƒ sa sccntnnHhnnerrrei 23

Trang 7

DANH MỤC THUẬT NGỮ

Số thứ tự Từ viết tắt Tên tiếng Anh/ Nghĩa tiếng Việt

databases)

2 ROC Receiver Operating Characteristic 3 Arff Attribute - Relation File Format Số thứ tự Tw tieng Anh Nghĩa tiếng Việt

4 Lazy learning Lười biếng 5 Weka Waikato Environment for Knowledge Analysis

VI

Trang 8

CHUONG I: CO SO LY THUYET

1.1 Tổng quan về khai phá dữ liệu

1.1.1 Khải niệm khai phá dữ liệu Khai phá dữ liệu [1] hay Data Mimmng là một khái niệm ra đời vào những năm cuối của thập kỷ 80 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin

có giá trị tiềm an trong các tập dữ liệu lớn (các kho dữ liệu)

Khai phá dữ liệu là một tập hợp, một hệ thống các phương pháp tính toán, thuật

toán được áp dụng cho các cơ sở dữ liệu lớn và phức tạp mục đích loại bỏ các chỉ tiết

ngẫu nhiên, chi tiết ngoại lệ, khám phá các mẫu, mô hình, quy luật tiềm ân, các thông

tin có giá trị trong bộ dữ liệu Khai phá dữ liệu là thành quả công nghệ tiên tiền ngày nay, là quá trình khám phá các kiến thức vô giá bằng cách phân tích khối lượng lớn dữ

liệu đồng thời lưu trữ chúng ở nhiều cơ sở dữ liệu khác nhau

1.1.2 Quả trình phát liện trì thức trong cơ sở đữ liệu Quá trình phát hiện trí thức (KDD) [2] là quá trình tìm ra những thông tin tiềm ân có giá trị mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác động lên chúng

Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần

giải quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải

thuật khai phá dữ liệu có thê hiểu được Bước tiếp theo là chọn thuật toán khai phá dữ

liệu thích hợp và thực hiện việc khai phá dữ liệu đề tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường được biểu diễn dưới

dạng các luật xếp loại, cây quyết định, luật sản xuất, biêu thức hồi quy )

Quá trình phát hiện tri thức bao gồm các bước: - Làm sạch đữ liệu (data cleaning): ở bước này các nhiễu và dữ liệu không nhất

quán sẽ được loại bỏ

- Tích hợp dữ liệu (data intergation): dữ liệu từ nhiều nguồn khác nhau có thê

được tổ hợp lại

Trang 9

Lựa chọn dữ liệu (data selection): những dữ liệu thích hợp với nhiệm vụ phân

tích sẽ được trích rút ra từ cơ sở dữ liệu Chuyên đổi dữ liệu (data tranform): dữ liệu sau khi được chọn lọc sẽ được

chuyên đôi hay hợp nhất về dạng thích hợp cho việc khai phá Khai phá dữ liệu (data mining): đây là quá trình cốt lõi, tất yếu trong đó các phương pháp thông minh sẽ được áp dụng nhằm trích rút ra các mẫu đữ liệu Đánh giá mẫu (pattern evaluation): các nhà phân tích đữ liệu sẽ dựa trên một số

độ đo nào đó để xác định lợi ích thực sự, độ quan trọng của các mẫu biểu diễn

tri thức Biểu diễn trí thức (Knowledge presentation): ở giai đoạn này các kĩ thuật biêu

diễn và hiển thị tri thức sẽ được sử dụng để đưa tri thức đã lay ra dén người

dùng

Đánh giá luật Khai phá đữ liệu

Hinh 1: Minh hoa quy trình phat hiện trì thức trong cơ sở đữ liệu (nguôn: tailieuso.udn.vH)

1.1.3 Lợi ích của khai phá dữ liệu Xét về lợi ích trong quá trình phân chia dữ liệu:

Chon lọc, loại bỏ tất cả các đữ liệu không liên quan và dữ liệu trùng lớp trong tập dữ liệu

Xác định các mẫu dữ liệu, dữ liệu có liên quan và dùng các thuật toán phân

tích, tận dụng dữ liệu để dự báo kết quả đầu ra ví dụ như xu hướng, hành vi tiêu

dùng

Với khai phá dữ liệu, chúng ta có thê phân tích khối lượng lớn dữ liệu trong

thời gian ngắn và sau đó chuyển đổi dữ liệu thành thông tin, kiến thức có ý nghĩa

Trang 10

Xét về lợi ích sau cùng của khai phá dữ liệu: Hỗ trợ ra quyết định tự động: Khai phá dữ liệu cho phép các tổ chức liên tục phân tích dữ liệu và tự động hóa các quyết định thông thường và quan trọng mà không bị trì hoãn bởi yếu tô con người Các mô hình tự động của khai phá dữ liệu có thê thu thập, phân tích và

xử lý dữ liệu một cách độc lập để hợp lý hóa việc ra quyết định và tăng năng

suất hoạt động, giảm thiểu thời gian giúp tăng lợi nhuận, quy trình làm việc,

sản xuất được tăng tốc Hỗ trợ đưa ra dự báo chính xác:

Khai phá dữ liệu tạo điều kiện lập kế hoạch và cung cấp cho các nhà quản lý dự báo đáng tin cậy dựa trên các xu hướng trong quá khứ và các điều kiện hiện tại Hỗ trợ giảm thiêu chi phi:

Khai phá dữ liệu cho phép sử dụng nguồn lực hiệu quả hơn, qua đó giúp các tô chức kiểm soát cấc hoạt động sản xuất, marketing, bán hàng và phân bổ nguồn lực hợp lý thông qua các công cụ phân tích tự động của khai phá dữ liệu đồng thời phát hiện và ngăn chặn kịp thời các rủi ro, sai sót, từ đó tránh lãng phí và giảm chi phí hiệu quả

Hỗ trợ khả năng thấu hiểu khách hàng:

Các công ty triển khai các mô hình khai phá đữ liệu chuyên biệt để phân tích

dữ liệu khách hàng nhằm khám phá các đặc điểm chính, các điểm khác biệt về

sở thích, thói quen, hành vi, của mỗi phân khúc khách hàng, xác định nhu

cầu mỗi khách hàng một cách chính xác nhất

1.1.4 Thách thức của khai phá dữ liệu Do khối lượng dữ liệu mà mỗi công ty, tô chức phải thu thập ngày nay cực kì lớn và phức tạp, đa dạng vô cùng, nhưng lại chứa đựng những thông tin hữu ích đem lại những giá trị tiềm năng Vì thế, thách thức trong việc đảm bảo sự hiệu quả trong quá

trình thu thập, xử lý và phân tích dữ liệu cho đến việc ứng dụng, triển khai các kết quả

đầu ra vào các giải pháp, chiến lược thực tế đối với dự án khai phá dữ liệu ngày một cao hơn

Trang 11

Thách thức của Big Data: Các thách thức của Big Data xuất hiện trong mọi lĩnh

vực có nhu cầu thu thập, lưu trữ và phân tích dữ liệu và được đặc trưng bởi 4 tinh chat

cũng là 4 thách thức đối với khai phá dữ liệu|[3] và một hệ thông khai phá dữ liệu phải có khả năng đáp ứng các đặc trưng trên thì mới có thé khai thác được các giá trị dữ

liệu

- - Volume ƒCitation} (Khối lượng dữ liệu): mô tả thách thức của việc lưu trữ và xử lý số lượng dữ liệu không lồ được thu thập bởi các công ty

- Variety (Sw da dạng dữ liệu): mô tả thách thức bao gồm nhiều loại dữ liệu khác

nhau được thu thập và lưu trữ Công cụ khai phá dữ liệu đòi hỏi phải được trang bị, nâng cấp đề xử lý đồng thời một loạt các định dạng của dữ liệu - _ Veracity (Độ chính xác dữ liệu): mô tả thách thức về mức độ xác thực, độ chính

xác của dữ liệu bởi dữ liệu thu thập đa dạng từ nhiều nguồn khác nhau nên sẽ

có lúc đữ liệu không cung cấp thông tin chính xác, dữ liệu lộn xộn, không đầy

đủ Dữ liệu thu thập được cảng nhanh thì càng nhiều lỗi xuất hiện trong bộ dữ liệu Thách thức của tính chính xác chính là cân bằng số lượng dữ liệu với chất

lượng của nó nhằm đạt mục đích sau cùng của khai phá dữ liệu

- - Velocity (Tốc độ xử lý dữ liệu): mô tả thách thức về tốc độ xử lý ngày càng

tăng trong quá trình thu thập, lưu trữ và phân tích dữ liệu Do khối lượng dữ liệu lớn và đa dạng nên cần phải quan tâm đến tốc độ xử lý, nêu tốc độ xử lý chậm và công ty không tìm thấy giá trị từ dữ liệu trong thời gian hợp lý sẽ dẫn đến gia tăng chỉ phí, nguồn dữ liệu khai thác cũng không hiệu quả

1.2 Các phương pháp khai phá dữ liệu

1.2.1 Khai phá luật kết hợp

Khai phá luật kết hợp [4] là tìm ra các mẫu có tần suất cao hoặc rất cao, các mẫu kết hợp với nhau, liên quan hoặc các câu trúc tổn tại giữa các tập hợp đối tượng trong

cơ sở dữ liệu các giao dich, co sở dữ liệu quan hệ hoặc các kho chứa thông tin Có thé

duoc hiéu day là quá trình đi tìm tất cả các tập phô biến từ bên trong dữ liệu Luật kết hop[4] là mối quan hệ giữa các tập thuộc tính trong cơ sở dữ liệu Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết trong đữ liệu.

Trang 12

Cho mét tap T= {t, tf, ., ta} la tap cac giao dich (transaction) voi n là số các giao dich co trong T (TCI), tap I = {i,, in, , in} 1a mdt tap gom m tập mục khác nhau Ta

có t¡C I Với X và Y là tập các mục Luật kết hợp có thể biểu diễn bởi công thức sau:

Một giao dịch T được gọi là chứa X khi và chỉ khi A T

D6 hé tro (support) [5] ctia một luật X Y là tỷ lệ phần trăm các giao dịch trong T mà chứa cá X và Y Giúp xác định mức độ phố biến của các giao dịch có chứa tập mục ( X Y) trong tổng số tất cả các giao dịch Công thức tính độ hỗ trợ (support):

support (XY) == P(X Y) (2) D6 tin cay (confidence) [5] của luật X Y la ty lệ phân trăm các giao dịch trong T chứa cả X và Y trên tổng số các giao dịch trong T chỉ chứa X Là đại lượng xác định khả năng dự đoán của luật Công thức tính độ tin cậy (confidence):

confidence (XY) ==P(X Y|X) (3) 1.2.2 Phân lớp dữ liệu

Phân lớp (classiñcation) là một trong những hình thức phân tích dữ liệu phố biến

được dùng để tạo các mô hình mô tả các phân lớp dữ liệu quan trọng Phân lớp còn được dùng đề dự đoán các nhãn phân lớp cho dữ liệu đầu vào tương ứng, giúp ta hiểu

về dữ liệu ở mức bao quát hơn

Ứng dụng của phân lớp: - Phân loại hồ sơ tín dụng là an toàn hay rủi ro

- — Lựa chọn phương thức điều trị A, B, hay C cho bệnh nhân - Dy doan sở thích của người nghe với một thể loại nhạc nhất định

- Dự đoán hành vi mua hàng của khách hàng Đặc trưng của phân lớp:

Các mô hình được xây dựng với mục tiêu hướng tới khả năng dự báo có độ

chính xác cao nhất, hay tin cậy nhất, hoặc nằm trong khoáng chấp nhận được Chính

vì vậy, dựa trên tập dữ liệu đầu vào người ta rút bớt một phần đề làm tập dữ liệu kiểm

thử

Trang 13

1.2.3 Phin cum Phan cum [6] la qua trinh tap hợp các dữ liệu vào các nhĩm hay các lớp mà ở đĩ những dữ liệu được xếp cùng nhĩm cĩ độ tương tự nhau cao và chúng khác biệt so với những dữ liệu được xếp vào nhĩm (hay lớp) khác Những khác biệt (dissimilarities) này được đánh giá dựa trên các giá trị thuộc tính dùng để mơ tả các đối tượng Thơng thường, các phép tính khoảng cách được sử dụng đề thực hiện phân cụm

Phân tích cụm (cluster analysis) được ứng dụng rộng rãi trong nhiều lĩnh vực như: nghiên cứu thị trường, nhận dạng mẫu, phân tích dữ liệu và xử lý anh

Tình 2: Minh họa phân cụm (nguơn: bài giảng phân cụm — TS Nguyễn Đình Hoa Cương)

1.3 Các mơ hình phân lớp được sử dụng trong tiểu luận 1.3.1 Mơ hình Naive Bayes

Trước khi đi đến mơ hình phân lớp Nạve Bayes [7] ta tìm hiểu khái niệm mơ

hình phân lớp, đĩ là một mơ hình Machine Leaming dùng đề phân loại các vật mẫu dựa trên các đặc tính đã xác định Mơ hình phân lớp Bayes là một thuật tốn phân lớp được mơ hình hĩa dựa trên định lý Bayes trong xác suất thống kê

Nguyên lý hoạt động của bộ phân lớp Naive Bayes: Cho D là tập dữ liệu huấn luyện cùng với các nhãn lớp tương ứng Mỗi bộ dữ

liệu trong D được mơ tả bởi n thuộc tính và được diễn đạt dưới dang vector n chiéu X

= (xl, x2, .,xn)

Trang 14

Giả sử rằng cĩ m nhãn lớp khác nhau gồm C1, C2, Cm Cho một bộ dữ

liệu X, bộ phân lớp Nạve Bayes sẽ dự đốn bộ dữ liệu X thuộc về phân lớp cĩ xác suất hậu nghiệm cao nhất

P (Ci[X) > P(Cj|X) voi 1 <j <m,j #i

Do P(X) khơng đổi, nên ta chỉ cần cực đại hoa gia trị P (X] Ci).P (Ci)

Hình 3: Minh hoa mé hinh Naive Bayes (nguén: https://sebastianraschka.com’)

1.3.2 Mơ hình cây quyết định (J48)

Thuật tốn cây quyết định [8] cho ra kết quả là một tập luật của những dữ liệu huấn luyện cĩ thuộc tính Cây quyết định là một cầu trúc luồng dạng cây, là một cơng

cụ phố biến trong khai phá và phân lớp dữ liệu Đặc điểm của cây quyết định cĩ cầu

trúc: - Root (Géc): Là nút trên cùng của cây

Node trong: Nút trung gian trên một thuộc tính đơn (hình Oval) Nhánh: Biểu diễn các kết quả của kiểm tra trên nút

Node 1a: Biéu diễn lớp hay sự phân phối lớp (hình vuơng hoặc chữ nhật)

Cây quyết định [9] được sử dụng rất phơ biến bởi một số lí do sau:

- — Việc xây dựng cây quyết định khơng địi hỏi bất cứ kiến thức chuyên ngành

hay thiết lập tham số ban đầu nào cả Vì vậy, nĩ phù hợp với viêc khám phá tri thức

- _ Cây quyết định cĩ thé quan ly dữ liệu cĩ số chiều lớn.

Trang 15

- Việc biểu đạt tri thức dưới dạng cây có thê được diễn đạt dé dàng

- — Quá trình học và phân lớp (sử dụng) của cây quyết định được thực hiện nhanh chóng

- Cây quyết định cho ra độ chính xác cao Tuy nhiên điều này còn phụ thuộc vào

dữ liệu của chúng ta

Tình 4: Minh họa cây quyết dinh (J48) (nguon: viblo.asia)

1.3.3 Mô hình N — lân cận K - lân cận (k - Nearest Neighbors) [10] là mô hình có độ giám sát đơn giản nhất được sử dụng nhiều trong khai phá dữ liệu và học máy Với ý tưởng thuật toán của mô

hình này, nó không học một điều gì từ tập dữ liệu học (nên k-Nearest Neighbors dugc xếp vào loại lazy learnmng), mọi tính toán được thực hiện khi nó cần dự đoán nhãn lớp

của dữ liệu mới Lớp (Nhãn) của một đối tượng dữ liệu mới có thể dự đoán từ các lớp

(nhãn) của các hàng xóm gần nó nhất

Trang 16

1.3.4 Mô hình kết hợp: Phương pháp Voting

Voting là phương pháp xây dựng một mô hình kết hợp trên nền tảng nhiều mô hình phân lớp cơ sở khác nhau Voting cung cấp cơ chế tổng hợp kết quả bỏ phiếu để ra quyết định cuối cùng Voting cung cấp cơ chế tông hợp kết quả bỏ phiêu đề ra quyết

định cuối cung dugc goi la combinationRule

Trang 17

CHUONG II: PHƯƠNG PHÁP NGHIÊN CỨU

2.1 Mô tả dữ liệu

Bộ dữ liệu được sử dụng trong bài tiểu luận lần này là bộ dữ liệu

Diabetesƒ Citation} có gốc Arff được lấy từ trong kho dữ liệu của phần mềm Weka (Waikato Environment for Knowledge Analysis) Diabetes.arff được lấy từ cơ sở dữ liệu về bệnh tiểu duong cua Dai hoc Washington, St Louis, MO Dugc bién soạn bởi

Tiến sĩ Michael Kahn và được lưu trữ tại trang web UCI Machme Learnng

Repository Bộ dữ liệu mô tả về bệnh tiêu đường của người Pima Ân Độ, trong bộ dữ liệu có 768 mẫu, 9 thuộc tính và có 2 phân lớp là tested negative va tested postive

Thống kê các thuộc tính của bộ dữ liệu Diabetes.arff như sau:

Bảng 1: Các thuộc tính của các bộ dữ liệu

tính

2.2 Phương pháp phẫn chia dữ liệu 2.2.1 Phuong phap Hold - out

Phương phap Hold - out [11] là phương pháp phân chia ngẫu nhiên tập dữ liệu

thành 2 tập dữ liệu độc lập đó là tập dữ liệu huấn luyện và tập dữ liệu kiểm định mô

hình (tập dữ liệu kiểm thử) Tỉ lệ giữa training set và validation set được chọn tương ứng là 70% và 30%

Mục đích của phương pháp là kiểm tra độ hiệu quả của mô hình khi sử dụng các tập dữ liệu khác nhau Cụ thê trong phương pháp Hold — out sẽ có tập dữ liệu:

- Training set: dir liégu phục vụ xây dựng mô hình, xác định các thuật toán, biến dữ

liệu phù hợp

- - Test set: là dữ liệu được sử dụng dé đánh giá độ hiệu quả của mô hình, mức độ

chính xác trong việc phân loại dữ liệu

- Validation set: la dir ligu duoc xay dung dé danh giá hiệu suất của mô hình được

xây dựng trong giai đoạn huấn luyện, hỗ trợ thử nghiệm đề tính chính xác các mô

10

Tiêu đề	Xây dựng mô hình phân lớp kết hợp dạng Voting dựa trên mô hình phân lớp cơ sở Naivebayes, Cây quyết định (J48) và K-Lân Cận để dự đoán trên tập dữ liệu
Tác giả	Le Chanh Nhan
Người hướng dẫn	TS. Nguyen Dinh Hoa Cuong
Trường học	Truong Dai Hoc Kinh Te
Chuyên ngành	Khai Pha Du Lieu
Thể loại	Do An Ket Thuc Hoc Phan
Năm xuất bản	2022
Thành phố	Hue

Định dạng
Số trang	34
Dung lượng	2,02 MB