0081 ứng dụng tóm tắt dữ liệu cho bài toán phân lớp và dự báo luận văn tốt nghiệp

66 0 0
0081 ứng dụng tóm tắt dữ liệu cho bài toán phân lớp và dự báo luận văn tốt nghiệp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘGIÁODỤCVÀĐÀOTẠO TRƯỜNGĐẠIHỌCQUYNHƠN TRẦNC Ơ N G S Ự ỨNGDỤNGTĨMTẮTDỮLIỆUCHO BÀITỐNPHÂNLỚPVÀDỰBÁO LUẬNVĂNTHẠCSĨKHOAHỌCMÁYTÍNH BìnhĐ ị n h - N ă m 2 TRẦNC Ơ N G S Ự ỨNGDỤNGTĨMTẮTDỮLIỆUCHO BÀITỐNPHÂNLỚPVÀDỰBÁO Chunn gành :Khoah ọcmá yt ính Mãs ố : Ngườihướngdẫn:TS.LÊXUÂNVIỆT BìnhĐ ị n h - N ă m 2 LỜICAM ĐOAN Tôi Trần Công Sự, học viên lớp cao học Khoa học máy tính K22 Tơixincamđoanrằngnhữngnghiênvớiđềtài"Ứngdụngtómtắtdữliệuchobàit o n p h â n l p v d ự b o " đ ợ c t r ì n h b y t r o n g l u ậ n v ă n n y l c ô n g trìnhn g h i ê n c ứ u c ủ a r i ê n g t ô i d i s ự h n g d ẫ n c ủ a t h ầ y g i o T S L ê XnV iệt,khơngsaochéplạicủangườikhác.Tấtcảcácnguồntàiliệuthamkhảo, cáccơngtrìnhnghiêncứuliênquanđềuđượctríchdẫncụthể Tơixinchịuhồntồntráchnhiệmnếu cóbấtkỳpháthiệnnàovềsự saoch épmàkhơngcótríchdẫntrongtàiliệuthamkhảo LỜICẢMƠN Luận văn hoàn thành hướng dẫn khoa học TS LêXuân Việt, Khoa CNTT - Trường Đại học Quy Nhơn Tác giả xin bày tỏlòngb i ế t n c h â n t h n h v s ự k í n h t r ọ n g s â u s ắ c n h ấ t đ ế n T h ầ y h n g dẫn; Thầy tận tình giúp đỡ truyền đạt cho tác giả kiến thứcqbáuvàkinhnghiệmtrongqtrìnhnghiêncứukhoahọc,đểtácgiảcóthể hồn thành luận văn cách tốt Tác giả xin chân thànhcảm ơn quý thầy cô khoa Công nghệ thông tin, phòng Sau đại học,Trường Đại học Quy Nhơn, quý thầy cô tham gia giảng dạy cho lớpCaoh ọ c K h o a h ọ c m y t í n h k h o 2 đ ã t o đ i ề u k i ệ n c h o t c g i ả t ro n g quátrìnhhọctậpvànghiêncứu.Nhânđâytácgiảcũngxincảmơngiađình, bạnbè quantâm, động viên giúp đỡ tác giả q trìnhhọctậpvàhồnthànhluậnvănnày Tác giả hy vọng luận văn đóng góp tài liệu tham khảo hữu íchcho bạn sinh viên, học viên cao học tìm tịi nghiên cứu bàitốntómtắtdữliệutrongdựbáo Mặc dù cố gắng hết sức, song điều kiện thời gian kinh nghiệmthực tế thân cịn ít, đề tài khơng thể tránh khỏi thiếu sót.Vì vậy, mong nhận đóng góp ý kiến q thầy cácbạn Tơixinchânthànhcảmơn! Mụcl ụ c Lờicamđoan i Lờic ả m n ii Danhmụcthuậtngữ,cáctừviếttắt v Danhsáchhìnhvẽ Danhsáchbảng Mởđầu vi vii 1 CÁCKIẾNTHỨCCƠSỞ 1.1 Khámphátrithứcvàkhaiphádữliệu 1.2 Quát r ì n h k h m p h t r i t h ứ c 1.3 Cácphươngpháp,kỹthuậtchínhtrongkhaiphádữliệu 1.3.1 Phânlớpvàdựđoán(Classification&Prediction) 1.3.2 MạngBayesian(Bayesian networks) 10 1.4 Bàitoándựbáo 11 1.4.1 Kháiniệmvềdựbáo 11 1.4.2 Đặcđiểmcủadựbáo .11 1.4.3 Chứcnăngvàvaitròcủadựbáo 12 1.5 Kếtl u ậ n C h n g .12 PHƯƠNG PHÁP DỰ BÁO SỬ DỤNG KỸ THUẬT PHÂNLỚPD ỮL IỆ U N A IV E B A Y ES 13 2.1 2.2 2.3 2.4 Tổngquanvềphânloạidữliệu 13 PhânloạidữliệuvớimạngBayesian 15 Cácbướcgiảibàitoándựbáo sử dụng kỹ thuật phân lớpNaiveBayes 20 Mộtsốvídụminhhọa 24 2.4.1 Trườngh ợ p m ẫ u d ự đ o n x u ấ t h i ệ n t r o n g d ữ l i ệ u huấnluyện .24 2.4.2 Trườnghợpmẫudựđốnkhơngxuấthiệntrongdữ liệuhuấnluyện .28 2.4.3 SửdụngkỹthuậtlàmmịndữliệuLaplaceSmoothing3 2.5 MộtsốưuđiểmcủaphươngphápNaiveBayes .36 2.6 Kếtl u ậ n C h n g .37 THỬ NGHIỆMVÀĐÁNHGIÁ 38 3.1 Mơtảbàitốn 39 3.1.1 Bàit o n 39 3.1.2 Làmsạch,tiềnxửlýdữliệu 39 3.2 Phântíchbàitốn 42 3.2.1 Tómtắt liệu 42 3.2.2 Phânlớpchodữliệu 46 3.2.3 Dựđoánkếtquả .46 3.3 Giaod i ệ n c h í n h c ủ a c h n g t r ì n h 47 3.4 Đánhgiákếtquả 47 3.5 Kếtl u ậ n C h n g .48 KẾTL U Ậ N 51 TÀILIỆUTHAMKHẢO 52 DANHMỤCTHUẬTNGỮ,CÁCTỪVIẾTTẮT STT TiếngA n h / V i ế t t ắ t TiếngV i ệ t / N g h ĩ a 10 11 12 13 14 15 16 17 THPT NB CSDL KPDL NBC M TX1 TX2 TX3 GK CK Trainingdata Testdata Noise Missingvalue Frequencytable Likehood TRUNGHỌCPHỔTHÔNG NaiveBayes Cơsởdữliệu Khaiphádữliệu NaiveBayes Classif ier Điểmm i ệng Điểmthườngxuyên1 Điểmthườngxuyên2 Điểmthườngxuyên3 Điểmgiữakỳ Điểmcuốikỳ Dữliệuđàotạo Dữliệukiểmtra Dữliệulỗi Giátrịthiếu Bảngtầnsố Khảnăngxảyra Danhsáchhìnhvẽ 1.1 Quátrìnhkhámphátrithức 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 Bướchọc/huấnluyện .14 Bướcphânloạidữliệu 14 Phânloạidữliệudạnghọccógiámsát .15 CSDLkháchhàngAllElectronicsdùngchobướchọc 16 Vídụvềdữliệuđầuvào 23 Sốlầnxuấthiệncủatừngtừtrongtừngemail 33 LớpSpamtrướcvàsauSmoothing 33 LớpNotSpamtrướcvàsauSmoothing .34 3.1 3.2 3.3 3.4 3.5 3.6 3.7 Dữliệuthôbảngđiểmhọcsinh 39 Dữliệusaukhitổnghợp 41 Dữliệusaukhiđãlàmsạch 42 Giaodiệnchínhcủaứngdụng 47 Giaodiệnnhậpliệuvàkếtquảdựbáo 48 KếtquảTest100bảnghidữliệu 49 KếtquảTest100bảnghidữliệu(tiếptheo) .50 Danhs c h b ả n g 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 Tầnsuấtđặctrưngbuys_computer 18 Tầnsuất đặctrưngage .18 Tầnsuấtđặctrưngincome .19 Tầnsuấtđặctrưngstudent 19 Tầnsuấtđặctrưngstudent 19 Kếtquảxéttuyểnvào10 24 Xácsuấtcácthuộctínhnơiở,điểmvào10,kinhtế,giớitính2 Dữliệuviệcđihọcmuộncủahọcsinh 28 Dữliệuviệcđihọcmuộncủahọcsinh 28 TầnsuấtđặctrưngSứckhỏe 29 TầnsuấtđặctrưngThờitiết .29 MỞĐ Ầ U Lý chọn đề tàiTrong trình hoạt động, người tạo nhiềudữ liệu nghiệp vụ Các tập liệu tích lũy có kích thước ngàycàng lớn, chứa nhiều thơng tin ẩn dạng quy luật chưađược khám phá Chính vậy, nhu cầu đặt cần tìm cách tríchrúttừtậpdữliệuđócác luật phân lớp liệu hay dự đốn nhữngxuhướngdữliệutươnglai.Nhữngquytắcnghiệpvụthơngminhđượctạo phụcvụđắclựcchocáchoạtđộngthựctiễn,cũngnhưphụcvụ đắc lực cho q trình nghiên cứu khoa học Cơng nghệ phân lớp vàdựđốndữliệurađờiđểđápứngmongmuốnđó[1] Cơng nghệ phân lớp liệu đã, phát triển mạnh mẽ trướcnhững khao khát tri thức người Trong năm qua, phânlớpd ữ l i ệ u đ ã t h u h ú t s ự q u a n t â m c c n h n g h i ê n c ứ u t r o n g n h i ề u lĩnh vực khác học máy (machine learning), hệ chuyên gia(expert systems), thống kê (statistics), Công nghệ ứng dụngtrongnhiềulĩnhvựcthựctế như: thương mại, nhà băng, maketing,nghiêncứuthịtrường,bảohiểm,ytế,giáodục [1] Có nhiều phương pháp dự báo khác Hiện nay, việc sử dụng cácphương pháp học máy ứng dụng cho tốn dự báo trở nên rấtphổbiến.Trongđó,dựbáosửdụngphânlớpBayesđượcứngdụn grất rộng rãi, công cụ dễ cài đặt, học nhanh, kết dễ hiểu Ví dụ,dựbáogiácảcácloạimặthàng,dự báotỉlệtăngdânsố, khibiết cácthơngtintrongqkhứvàmộtsốđiềukiệnchotrước[2] Luậnvănđãnghiêncứutổngquanvềkỹthuậtphânlớpdữliệutrong

Ngày đăng: 30/08/2023, 15:01

Tài liệu cùng người dùng

Tài liệu liên quan