0278 sử dụng thuật toán knn kết hợp với bài toán điểm biên cho khai phá dữ liệu lớn trong spark luận văn tốt nghiệp

57 1 0
0278 sử dụng thuật toán knn kết hợp với bài toán điểm biên cho khai phá dữ liệu lớn trong spark luận văn tốt nghiệp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘGIÁODỤCVÀĐÀOTẠO TRƢỜNGĐẠIHỌCQUYNHƠN NGUYỄNT H Ị L Ý P H Ƣ Ơ N G SỬDỤNGTHUẬTTOÁNKNN KẾT HỢP VỚI BÀI TOÁN ĐIỂM BIÊNCHOKHAIPHÁDỮLIỆULỚNTRONGSPARK Chuyên ngành: Khoa học máy tínhMãsố:8480101 Ngƣờihƣớngdẫn:TS.HồVănLâm LỜI CAMĐOAN Tơi xin cam đoan luận văn cơng trình nghiên cứu tơi, khơngsao chépởbấtkỳcơngtrìnhkhoahọcnàotrƣớcđây.Cáckếtquảnêutrongluận văn có nguồn gốc rõ ràng đƣợc trích dẫn đầy đủ Luận văn đƣợc hồnthànhtrongthờigiantơilàmHọcviênCaohọct i K h o a C n g n g h ệ T h ô n g tin, Trƣờng Đại học Quy Nhơn Tôi xin chịu hoàn toàn trách nhiệm luậnvăn QuyNhơn,ngày thángn ă m 2021 Học viênNguyễnThịLýPhƣ ơng LỜICẢMƠN Tôi xin chân thành cảm ơn thầy cô giáo Khoa Công nghệthông tin Trƣờng Đại học Quy Nhơn truyền đạt kiến thức bổ ích, đồng thờixincảmơn PhịngĐàoTạoSauđạihọcTrƣờngĐạihọcQ u y N h n đ ã t o điều kiện thuận lợi trình học tập thực luận văn tốtnghiệp Tôi xin gửi lời biết ơn chân thành đếnTS Hồ Văn Lâm, ngƣờiđãtậntìnhhƣớngdẫnvàgópýchotơitrongsuốtqtrìnhnghiêncứu,chot ơinhiềulờiđộngviêncũngnhƣnhữnghƣớngdẫnqbáuđểtơicóthểthựchiệntốt đƣợc đềtàinày Trong q trình thực đề tài, khơng thể khơng kể đến giúp đỡ,đóng góp ý kiến lời động viên từ phía gia đình, ngƣời thân, đồngnghiệp bạn bè xung quanh, điều thật động lực lớn giúp tơi hồnthành tốtđềtàinghiêncứu Xin chân thành cảmơn! Họcviên NguyễnThịLýPhƣơng MỤCLỤC LỜI CAM ĐOANLỜICẢM ƠN DANHMỤCCÁCCHỮVIẾTTẮT DANHMỤCHÌNHẢNH MỞĐẦU CHƢƠNG1 T Ổ N G Q U A N V Ề K H A I P H Á D Ữ L I Ệ U V À T H U Ậ T T O Á N KNNTRONGSPARK 1.1 TỔNGQUANVỀKHAIPHÁDỮLIỆU 1.1.1 Khái niệm 1.1.2 Quátrìnhkhaiphádữliệu 1.1.3 Cácbƣớctrongquátrìnhkhaiphádữliệu 1.1.4 Khái quátvề cáckỹthuậtKPDL 1.1.5 Ứng dụngcủa KPDL 10 1.1.6 Nhữngtháchthứctrongnghiêncứuvà ứng dụngcủa KPDL 12 1.2 THUẬTTOÁNKNNTRONGKHAIPHÁDỮ LIỆU 13 1.2.1 GiớithiệuchungvềKNN 13 1.2.2 Cơ sởtoánhọccủathuậttoánKNNchobàitoánphânlớp .14 1.2.3 Thuậttoán KNNchobàitoánphânlớp 15 1.2.4 Ứng dụngcủaKNN .15 1.2.5 TháchthứcvàƣuđiểmcủaKNN .16 1.3 TỔNGQUANVỀSPARK 16 1.3.1 GiớithiệuvềApacheSpark 17 1.3.2 ThànhphầncơbảncủaSpark 18 1.3.3 Những điểmnổi bậtcủaSparkvàmụctiêusửdụng 19 1.4 TIỂUKẾTCHƢƠNG1 20 CHƢƠNG2.THUẬTTOÁNKNNKẾTHỢPVỚIBÀITOÁNĐIỂMBIÊNTRO NGSPARKCHOBÀITOÁNDỮLIỆULỚN 21 MỤCLỤC 2.1 GIỚITHIỆUCHUNGVÀ PHÁTBIỂUBÀITOÁN 21 2.1.1 Giớithiệu 21 2.1.2 Phát biểubàitoán 22 2.2 THUẬNTOÁNKNNVÀBÀITOÁNĐIỂMBIÊNCHOD Ữ L I Ệ U LỚN 23 2.2.1 ÝtƣởngcủaKNN 24 2.2.2 ThuậttoánphânlớpKNN 24 2.2.3 Điểmbiênbàứngdụngtrongxửlýdữliệulớn 25 2.3 THUẬTTỐNKNNKẾTHỢPBÀITỐNĐIỂMBIÊNCHODỮLIỆULỚN 30 2.3.1 Thuậttốn KNNchodữliệulớn .30 2.3.2 KếthợpKNNvàbàitoánđiểmbiên chodữliệulớn 31 2.3.3 ÝtƣởngkếthợpKNNvàbàitoánđiểmbiênchodữliệulớn 31 2.3.4 PhƣơngphápkếthợpKNNvàbàitoánđiểmbiênchodữliệulớn 32 2.3.5 ThuậttoánkếthợpKNNvàbàitoánđiểmbiênchodữ liệulớn 33 2.4 TRIỂNKHAITHUẬTTOÁNKNNKẾTHỢPBÀITOÁNĐIỂMBIÊN CHODỮ LIỆULỚN TRONGSPARK 36 2.4.1 Giớithiệu 37 2.4.2 TổngquanvềKNNThamgiabằngMapReducedựatrênHadoop 38 2.4.3 Triển khaiKNNkếthợpvớibàitoánđiểmbiêndựatrênSpark 39 2.5 TIỂUKẾTCHƢƠNG2 41 CHƢƠNG3.C À I ĐẶTMÔPHỎNGTHỰCNGHIỆM 42 3.1 MÔITRƢỜNGVÀCÔNGCỤ 42 3.1.1 Phát biểubàitoàn 42 3.1.2 Mơitrƣờngvàngơnngữlậptrình .42 3.1.3 Côngcụvàthƣviện 43 3.1.4 Bộ liệu 43 3.2 CÀI ĐẶTMÔPHỎNG 43 3.2.1 Cài đặt 43 MỤCLỤC 3.2.2 Cácthamsốvà kếtquảđạtđƣợc .45 3.2.3 So sánhvàđánhgiákếtquảđạtđƣợc 46 KẾTLUẬN 48 TÀILIỆUTHAMKHẢO 49 DANHMỤCCÁCCHỮVIẾTTẮT Chữviếttắt Tênđầyđủ NghĩatiếngViệt KPDL Dataminining Kháiphádữliệu KDD KnowledgeDiscoveryin Pháthiệntrithứctrongcơsở Database dữliệu CSDL Database Cơ sởdữliệu KNN K-nearestneighbors K-Hàngxómgần RDD ResilientDistributed Cấu trúcdữliệucơbảncủa Datasets Spark PrincipalComponent Thuậttốnphântíchthành Analysis phần PCA DANHMỤC HÌNHẢNH Hình1.1.QtrìnhKPDL Hình1.2.CácbƣớctrongKPDL Hình 1.3 Một ví dụ cách tính khoảng cách d hai điểm liệu trongkhônggianhaichiều 14 Hình1.4.CácmốcthờigianpháttriểncủaSpark 17 Hình1.5.CácthànhphầncơbảncủaSpark 18 Hình2.1.Vídụvềđiểmranhgiớilàcácđiểmdữliệunằmởlềcủa(hoặccụm)dữliệuđ ƣợcphânphốidàyđặc 26 Hình 2.2 Khơng thể vẽ đƣờng thẳng để phân tách lớp khơnggianđặctrƣngnàymộtcáchhồnhảo.Badịngcóthểđƣợcvẽ,nh ƣngmỗidịngdẫnđếnmộtsốphânloạisai 27 Hình 2.3 Quyết định ranh giới theo 1-NN cho điểm liệu lớpkhácbiệtvớinhau 28 Hình2.4.Cácvùnglâncậngầnnhấtchotậpdữliệuhuấnluyệngồmhailớp,trongđócácmẫu huấnluyệncủamộtlớpđƣợchiểnthịvớidấu „*‟ màuđỏ, vùng lớp đƣợc hiển thị „◦‟ màu xanhlam 28 Hình2.5.Ranhgiớiquyếtđịnhvàcácvùngquyếtđịnhchobộphân1-NNchohailớp 29 Hình2.6.Cácvùnglâncậngầnnhấtchotậpdữliệuhuấnluyệngồmbalớp 29 Hình2.7.Ranhgiớiquyếtđịnhvàcácvùngquyếtđịnhchobộphânloạihàng xóm1-NNchobalớp 30 Hình 2.8 Tính khơng hiệu thƣớc đo khoảng cách đến trung tâm củacụmnhƣmộttiêuchíduy nhấtđểchọncụmthíchhợp 31 Hình2.9.ẢnhhƣởngcủamậtđộcụmđếnhiệusuấtcủathuậttốnKNN 33 Hình2.10.KNNkếthợpvớibàitốnđiểmbiênbằngSpark 41 MỞĐẦU Ngày nay, Big Data – liệu lớn trở thành thuật ngữ phổbiến thịnh hành nhiều lĩnh vực công nghiệp học thuật Nó đƣợc sửdụngđể mơtảmộtloạtcáckháiniệmtừkhảnăngcơngnghệđểlƣutrữ,tổnghợp xử lý liệu Việc xử lý lƣợng lớn liệu trở thành mộtnhiệmvụcầnthiếttrongmộtsốlƣợnglớncácứngdụngtrongthếgiớithực Khi nói đến việc đối phó với liệu lớn, tiêu chuẩn kỹthuật khai thác liệu thƣờng không giải đƣợc khối lƣợng nhƣ dođócácthuật tốntrởnênkémhiệuquả.KNNlàmộtphƣơngpháphọccógiám sát khai thác liệu đơn giản đƣợc sử dụng rộng rãi lĩnh vựchọc máy tính đơn giản nhƣng hiệu tiếng rộng rãi khai thác dữliệu.Khihuấnluyện,thuậttốnnàykhơng họcmột điều từ liệu huấnluyện, lý thuật toán đƣợc xếp vào loạilazy learning– máylƣờihọc,mọitínhtốnđƣợcthựchiệnkhinócầndựđốnkếtquảcủadữliệumới Một cách ngắngọn,KNNlàthuậttốnđitìmđầuracủamộtđiểmdữliệu cáchchỉdựa thông tin K điểm liệu tập liệuhuấnluyệngầnnó nhất(K-lâncận), khơng quan tâm đến việccómộtv i điểm liệu điểm gần nhiễu Có điều đáng lƣu ýlàKNNphảinhớtấtcảcácđiểmdữliệuhuấnluyện,việcnàykhơngđƣợclợivềcảbộnhớ vàthờigiantínhtốnđốivớidữliệulớn Ứng dụng thực tế mơ hình miền liệu lớn không khảthi hạn chế thời gian nhớ Một số giải pháp thay phân tán đãđƣợc đề xuất phép phƣơng pháp xử lý liệu quy mô lớn Tuynhiên, hiệu suất chúng đƣợc cải thiện với thiết kế mớiphù hợp với cơng nghệ phát sinh Ngồi giảhồnt hànhluận vănnày,đạidịch CO VI D1 diễnbiếnphứ c tạp, ra, thời gian tác nhà khoa học công bố cơng trình nghiên cứu khai thác liệu đãđƣợcpháttriểntrongđócómơmộtsốcơngtrìnhcósửdụngmơhìnhKNNđể đƣa racácgiảiphápnhằmdựbáovàđiềutrịgópphầngiúpthếgiớingănchặn đạidịch Với tầm quan trọng bàit o n t r o n g n g h i ê n c ứ u c ũ n g n h ƣ ứ n g d ụ n g , tơi chọn“Sử dụng thuật tốn KNN kết hợp với toán điểm biên cho khaiphádữliệulớntrong Spark”làmđềtài nghiêncứu cho luận văncủamình Luậnvănđƣợckiếntrúcthành03chƣơngchính Chƣơng 1Tổng quan khai phá liệu thuật toán KNN Spark.Chƣơng 2Thuật toán KNN kết hợp với tốn điểm biên Spark chobàitốndữliệulớn Chƣơng3Càiđặtmơphỏngthựcnghiệm Cuối chƣơng có phần Tiểu kết để tổng kết lại nội dung củachƣơng Ngồi chƣơng nêu trên, luận văn kết thúc với phần Kếtluậnvàhƣớngpháttriểnđểtómtắtnhữngkếtquảđạtđƣợc,nhữngvấnđềcịntồntạivàdự kiếnhƣớngphát triển tiếptheo củaluậnvăn

Ngày đăng: 30/08/2023, 21:27

Tài liệu cùng người dùng

Tài liệu liên quan