Đ IăH CăĐĨ N NG TR NGăĐ IăH CăS ăPH M NGUY NăTH ăBỊNHăMINH TểNăĐ ăTĨI LU NăVĔN: NGăD NGăKHAIăPHỄăD ăLI Uă XỂYăD NGăH H ăTR ăTUY NăSINHă T IăTR NGăĐ IăH CăPH MăVĔNăĐ NG Chuyên ngành: Hệ th ng thông tin Mư s : 8480104 LU NăVĔNăTH CăSƾ NG IH NG D N KHOA H C: PGS.TSKH.TR N QU C CHI N ĐƠăN ng -Nĕm2019 iii M CăL C L IăCAMăĐOAN i TịMăT TăĐ ăTĨI ii DANHăM CăT ăVI TăT T v DANHăM CăCỄCăB NG v DANHăM CăCỄCăHỊNH vi LỦ ch n đề tài M c tiêu n i dung nghiên c u Đ i t ợng phạm vi nghiên c u Ph ơng pháp nghiên c u ụ nghĩa đề tài nghiên c u .3 K t dự ki n .3 B c c luận văn .3 CH NGă1ăăT NGăQUANăV PHỄT HI N TRI TH C VĨăKHAIăPHỄăD ăLI U 1.1 Phát tri th c 1.2.Các b c phát tri th c 1.3 Các ng d ng c a phát tri th c .6 1.4 Khai phá liệu 1.5 Mơ hình khai phá liệu 1.6 Các ph ơng pháp khai phá liệu .9 1.7 K t luận Ch ơng CH NGă2ăăK ăTHU TăKHAIăPHỄăD ăLI UăVĨă NGăD NG 11 2.1 Cây quy t đ nh 11 2.2 Đánh giá quy t đ nh lĩnh vực khai phá liệu: 13 2.3 Thuật toán ID3 13 2.4 Thuật toán C4.5 19 2.5 Thuật toán Naive Bayes 28 2.6.Các giai đoạn c a trình khai phá liệu .29 2.7 Khai phá liệu giáo d c 30 2.8 Khai phá liệu sinh viên Tr ng Đại h c Phạm Văn Đồng 31 2.9 K t luận Ch ơng 32 CH NGă3ăă NGăD NGăKHAIăPHỄăD ăLI UăTRONGăPHỂNăTệCHăVĨăH ăTR ă H CăSINHăCH NăNGĨNHăH CăVĨOăTR NGăĐ IăH CăPH MăVĔNăĐ NG 33 iv 3.1 Gi i thiệu Tr ng Đại h c Phạm Văn Đồng 33 3.2 Gi i thiệu công c khai phá liệu .35 3.3 Mơ hình tốn xây dựng hệ hỗ trợ t v n tuyển sinh 37 3.4 Mô tả việc tổng hợp liệu cho toán 39 3.5 Chu n hoá liệu đ u vào cho thuật toán 40 3.6 Phân tích s liệu liệu 48 3.7 Khai phá liệu rút tri th c 51 3.8 Triển khai ch ơng trình 52 3.9 Hình ảnh trích từ ch ơng trình demo .53 K TăLU NăVĨăH NGăPHỄTăTRI N 55 K t luận 55 H ng phát triển 55 DANHăM CăTĨIăLI UăTHAMăKH O 57 Ti ng Việt 57 Ti ng Anh 57 Tài liệu internet 58 v DANH M C T CHXHCN UBND VI T T T C ng hòa xư h i ch nghĩa y ban nhân dân THPT Trung h c phổ thông KDD Knowledge Discovery in Databases ID3 Decision tree Sprint Scalable PaRallelization INduction of decisionTrees Weka Waikato Environment for Knowledge Analysis SQL Ngôn ngữ truy v n mang tính c u trúc(Structured Query Language) DANH M C CÁC B NG B ng Tênăb ng Trang Bảng 2.1 Bảng liệu sinh viên 17 Bảng 2.2 Bảng liệu hu n luyện 23 Bảng 2.3 Bảng liệu thu c tính TrinhDoCM 24 Bảng 2.4 Bảng liệu thu c tính LLChinhTri 24 Bảng 2.5 Bảng liệu thu c tính NgoaiNgu 24 Bảng 2.6 Bảng liệu thu c tính NgoaiNgu = yes 24 Bảng 2.7 Bảng liệu so sánh GainRatio 25 Bảng 3.1 Bảng c u trúc file excel liệu c a luận văn 42 Bảng 3.2 Bảng m c đ quan tr ng c a thu c tính 50 Bảng 3.3 Giải thuật c a hệ th ng 50 vi DANH M C CÁC HÌNH S ăhi uăcác cácăhìnhăv Trang Tên hìnhăv 1.1 Quá trình phát tri th c 2.1 Mơ hình quy t đ nh 13 2.2 K t quy t đ nh v i liệu 2.3 Nút g c c a quy t đ nh 25 2.4 Cây quy t đ nh v i nhánh NgoaiNgu = Yes 26 2.5 Cây quy t đ nh hoàn chỉnh 27 3.1 Tr 35 3.2 Giao diện ph n mềm Weka 38 3.3 Mơ hình giải pháp xây dựng hệ hỗ trợ tuyển sinh 38 3.4 Cơ s liệu tuyển sinh c a Tr Đồng ng Đại h c Phạm Văn 39 3.5 Cơ s liệu tuyển sinh c a Tr ng điểm h c lực THPT 40 3.6 Cơ s liệu tổng hợp ch a chu n hoá 41 3.7 Giao diện l c thu c tính c a Weka 43 3.8 Giao diện sau loại b thu c tính 44 3.9 Giao diện thi t lập thơng s r i rạc hố liệu 45 3.10 Giao diện r i rạc hoá liệu 46 3.11 K t liệu r i rạc hoá 46 3.12 Chuyển kiểu liệu cho thu c tính 47 3.13 Chuyển kiểu liệu cho thu c tính thành cơng 48 3.14 C u trúc file arff hoàn chỉnh 48 3.15 Giao diện x p hạng thu c tính 49 3.16 K t đánh giá mơ hình 51 3.17 bảng 2.1 ng Đại h c Phạm Văn Đồng ng d ng mơ hình cho tập liệu kiểm tra 18 52 3.18 Sơ đồ quan hệ s liệu c a hệ th ng 54 3.19 Giao diện c a hệ th ng 55 M ăĐ U Lýădoăch năđ ătƠi Hiện nay, v i bùng nổ c a công nghệ thông tin, ng i tr nên nh bé kho ki n th c khổng lồ, lựa ch n phù hợp cho thân Giữa kho đại d ơng tri th c, ng i mu n tìm tri th c c n thi t cho thân tr nên khó khăn đơi lúc ln có phân vân lựa ch n.Giải pháp khai phá liệu, đặc biệt quy t đ nh m t kỹ thuật tuyệt v i để giúp ng i đ a lựa ch n phù hợp v i thân Nghề nghiệp c a m t cá nhân có Ủ nghĩa h t s c quan tr ng đ i v i phát triển kinh t , xư h i c a qu c gia nói chung đ i v i cu c s ng c a cá nhân, gia đình nói riêng Giải quy t việc làm cho ng i lao đ ng, đặc biệt lao đ ng trẻ m t v n đề quan tâm hàng đ u c a xư h i Hiện nay, ch t l ợng c u lao đ ng Việt Nam cịn nhiều b t cập, tình trạng d cung c u thi u v n phổ bi n Mặc dù tình trạng h c v n c a lao đ ng không ngừng đ ợc cải thiện, hệ th ng văn đ ợc nâng cao m r ng nh ng tình trạng th t nghiệp v n ti p t c gia tăng L ợng sinh viên t t nghiệp từ tr ng đại h c,cao đẳng quy n c khơng có việc làm ngày nhiều, m t b phận sau t t nghiệp đại h c tr đảm nhận công việc không c n c p, t ợng sinh viên sau t t nghiệp làm công nhân, làm công việc khơng c n đ n trình đ đại h c d n khơng cịn xa lạ M t nguyên nhân d n đ n đ n th tr ng lao đ ng c a Việt Nam có nhiều b t cập nguồn nhân lực đ ợc đào tạo nh ng không đáp ng đ ợc u c u cơng việc Trong đó, ngun nhân ch y u h c sinh, sinh viên ch a có đ nh h ng việc làm t ơng lai, ch a hiểu thân nghề nghiệp ch n, ch a hiểu yêu c u nghề nghiệp c n Th ng ng i h c sinh, sinh viên ch n nghề theo cảm tính, theo bạn bè, đ nh h ng gia đình hay theo phong trào Và sau vào h c, h c sinh, sinh viên m i phát thân không phù hợp v i ngành nghề ch n, d n đ n tình trạng chán nản, b bê việc h c, h c v i t t ng h c để có t m bằng, tr ng tính ti p Và k t tr ng v i thành tích khơng cao, làm v i ngành nghề đào tạo không h ng th , không tập trung, d n đ n ch t l ợng công việc không đạt yêu c u, suy nghĩ tiêu cực cơng việc Vì vậy, ch n nghề nghiệp phù hợp cho thân ng i, đặc biệt h c sinh Trung h c phổ thông m t b c ngoặc quan tr ng c a đ i ng i Hiện nay, khu vực Quảng Ngưi ch a có ng d ng hỗ trợ h c sinh Trung h c phổ thông ch n nghề Và Tr ng Đại h c Phạm Văn Đồng ch a có ch ơng trình t v n tuyển sinh tự đ ng để t v n nghề phù hợp cho h c sinh tr c h c sinh ch n ngành đăng kỦ vào tr ng.V i tính c p thi t yêu c u việc thu hút h c sinh vào Tr ng Đại h c, Cao đẳng v n đề c n thi t s ng cịn c a đơn v Do đó, b phận t v n tuyển sinh r t quan tr ng V i Ủ t ng giúp em h c sinh ch n ngành h c cho để có đ nh h ng nghề nghiệp cho t ơng lai c a mình, kỹ thuật khai phá liệu, nghiên c u đề tài “ ngăd ngăkhai phá d ăli u xơyăd ngăh ăh ătr ătuy năsinhăt iăTr ngăĐ iăh căPh măVĕnăĐ ng” làm luận văn t t nghiệp c a M cătiêuăvƠăn iădungănghiênăc u 2.1 Mục tiêu đề tài - M c tiêu tổng quát: H ng đ n xây dựng ng d ng hỗ trợ tuyển sinh kỹ thuật khai phá liệu để hạn ch tình trạng ch n sai nghề c a h c sinh t ơng lai giảm tình trạng th t nghiệp làm trái nghề c a sinh viên Tr ng Phạm Văn Đồng sau tr ng - M c tiêu c thể: + Nghiên c u kỹ thuật khai phá liệu + ng d ng kỹ thuật khai phá liệu để tạo ng d ng hỗ trợ h c sinh ch n nghề phù hợp + ng d ng dễ sử d ng đ i v i ng i dùng cu i 2.2 Nội dung nghiên cứu - Tổng quan khai phá liệu, tập liệu m u, thuật toán ID3, thuật toán C4.5,thuật toán Naive Bayes quy t đ nh - Quy trình tuyển sinh c a tr Đ iăt ng: ngăvƠăph măviănghiênăc u 3.1 Đối tượng nghiên cứu đề tài + Kỹ thuật khai phá liệu c thể quy t đ nh thuật toán ID3, thuật toán C4.5 thuật toán Naive Bayes + H c sinh, thí sinh tự + Quy trình tuyển sinh quy ch xét tuyển 3.2 Phạm vi nghiên cứu + Kỹ thuật phân l p: quy t đ nh, thuật toán ID3,thuật toán C4.5 thuật tốn Naive Bayes + Cơng c khai phá liệu, SQL server ngơn ngữ lập trình Visual Studio Web + Công tác t v n tuyển sinh Tr ng Đại h c Phạm Văn Đồng Ph ngăphápănghiênăc u 4.1 Nghiên cứu lý thuyết - Nghiên c u khai phá liệu tài liệu liên quan - Nghiên c u thực trạng tuyển sinh tr ng Đại h c Phạm Văn Đồng, tìm hiểu nhu c u thực t c a ng i h c, m t s tiêu chí c a nhà tuyển d ng nhu c u việc làm xư h i 4.2 Nghiên cứu thực nghiệm - Ti n hành xây dựng giải pháp xây dựng ng d ng đánh giá - Phân tích thi t k s liệu tuyển sinh k t h c tập c a Sinh viên từ so sánh dự đốn k t h c tập c a ngành, xây dựng hệ th ng ch ơng trình ng d ng, triển khai xây dựng ch ơng trình ng d ng, kiểm tra, thử nghiệm đánh giá k t ụănghƿaăđ ătƠiănghiênăc u 5.1 Ý nghĩa khoa học - Tìm hiểu quy t đ nh khai phá liệu - Xây dựng m t hệ th ng t v n hỗ trợ t v n tuyển sinh c a tr ng 5.2 Ý nghĩa thực tiễn - Thu thập thi t k đ ợc kho s liệu ph c v cho trình t v n tuyển sinh - Góp ph n nâng cao hiệu tuyển sinh nh phát triển việc dạy h c c a tr ng K tăqu ăd ăki n - Xây dựng đ ợc hệ hỗ trợ tuyển sinh c a Tr liệu B ăc călu năvĕn L iăcamăđoan Tómăt tălu năvĕn M căl c Danhăm căt ăvi tăt t Danhăm căb ng Danhăm căhìnhăv M ăđ u ng dựa lỦ thuy t khai phá 53 Website chạy đ ợc trình duyệt nh internet explorer, firefox, chrome,ầ 3.8.2 Hướng dẫn sử dụng Để sử d ng đ ợc ng d ng, ng i dùng truy cập vào hệ th ng đ a c a trang web từ b t kỳ trình duyệt web Sau sử d ng ch c c a ng d ng nh : - Ch n khu vực theo h kh u c a ng i dùng - Ch n kh i thi phù hợp v i ngành mu n xét tuyển - Nhập tổng s điểm đạt đ ợc kỳ thi THPT qu c gia - Ch n ngành c n xét tuyển - B m ch n nút t v n - B m ch n lại để thực liệu đ u vào khác K t đạt đ ợc gồm: + K t mà ngành đư ch n nằm “k t t t nghiệp dự báo” + K t gợi Ủ thêm m t s ngành bảng gợi Ủ 3.9 Hình nh trích t ch ngătrìnhădemo 3.9.1 Giao diện thiết lập sở liệu Hình 3.18:ăS ăđ quan h c aăc ăs d li u h th ng 54 3.9.2 Giao diện chương trình tư vấn chọn ngành cho học sinh: Hình 3.19: Giao di n c a h th ng 55 K T LU NăVĨăH NG PHÁT TRI N K t lu n Trải qua th i gian dài nghiên c u thực luận văn, tác giả đư hoàn thành luận văn v i m c tiêu mà toán đặt ban đ u, luận văn đư k t hợp đ ợc công nghệ thông tin vào lĩnh vực giáo d c C thể luận văn đư đạt đ ợc k t sau: - K t đề tài xây dựng đ ợc hệ hỗ trợ t v n mang tính ch t c ng đồng Gi i thiệu ph ơng pháp tổng quát xây dựng quy t đ nh, trình bày c thể thuật tốn xây dựng quy t đ nh thuật toán C4.5 - - Xây dựng trang Web hỗ trợ t v n ch n ngành phù hợp lực ng - Xây dựng, l u trữ đ ợc tập luật s liệu điểm để t v n ch n i h c ngành - Tập liệu test hu n luyện kiểm thử có tỉ lệ chênh lệch không cao Luận văn đư giải quy t đ ợc v n đề đặt tốn bên cạnh có m t s v n đề ch a th a mưn đ ợc nh mong đợi c a tác giả: - tr + Nguồn liệu thu thập đ ợc ch a nhiều s l ợng tuyển sinh c a ng cịn + Việc r i rạc liệu đạt tỉ lệ đ xác ch a thật cao d n đ n k t ch a thật t t có có m t s luật thừa khơng mong mu n nhiên tác giả đư cắt b m t s luật thừa phát triển ng d ng Ngồi đề tài đ ợc phát triển để hỗ trợ nhanh t ơng đ i xác cho ng i c n tham khảo để ch n ngành m t s ngành c n gợi Ủ thêm H ng phát tri n Khai phá liệu lĩnh vực đ ợc nhiều ng i quan tâm nghiên c u, đ ợc ng d ng r ng rãi nhiều lĩnh vực nhiên để m r ng ng d ng đ a vào thực tiễn ta c n quan tâm đ n m t s c ng việc sau: - Tìm hiểu ph ơng pháp xây dựng quy t đ nh liệu nhiều phân l p - CSDL phải đ ợc thu thập v i s l ợng nhiều - Xử lỦ liệu t t để tăng hiệu su t thực thi ch ơng trình - C n hợp tác v i cán b đào tạo chuyên gia quản lỦ công nghệ thông tin c a tr ng 56 - C n ti p t c phát triển hồn thiện ng d ng để tích hợp v i website quản lỦ hệ th ng tr ng Đại h c - Tìm hiểu nhu c u thực t c a ng i h c để phát triển cải ti n toán theo thuật toán đư nghiên c u để phát triển thành ng d ng phổ bi n đáp ng nhu c u cho xư h i 57 DANH M C TÀI LI U THAM KH O Ti ng Vi t [1]Nguyễn Đ c C ng, “Slide giảng môn h cBI&DM:BussinessIntellegent and Data Mining”,2011-2012 [2]Nguyễn Th Thanh Th y, Nguyễn Tr n Qu c Vinh, ng d ng khai phá liệu xây dựng cơng c dự đốn k t h c tập c a sinh viên H i ngh sinh viên nghiên c u khoa h c l n th 8, Đại h c Đà Nẵng, 2012 [3]Nguyễn Chí Ngơn Nguyễn Thái Nghe 2010 Hệ chuyên gia hổ trợ sinh viênlậpk hoạch h c tập (dựa ph ơng pháp khai phá liệu - data mining) Đề tài NCKH c p tr ng Đại h c C n Thơ [4]Nguyễn Thái Nghe 2013a.Hệ th ng dự báo lực h c tập hỗ trợ sinhviênlựa ch n môn h c Đề tài NCKH c p tr ng Đại h c C n Thơ [5]Nguyễn Thái Nghe, Huỳnh Xuân Hiệp 2012 ng d ng kỹ thuật phân rã ma trận đaquan hệ xây dựng hệ trợ giảng thông minh, Kỷ y u H i thảo qu c gia l n th XV: M t s v n đề ch n l c c a CNTT&TT (@2012) Nhà xu t Khoa h c Kỹ thuật ISBN: 893-5048-931578 [6] TS Tr ơng Ng c Châu, Bài Giảng Khai phá liệu, Đại h c Bách Khoa, Đại h c Đà Nẵng [7] TS Tr ơng Ng c Châu, Bài Giảng Cơ s liệu, Đại h c Bách Khoa, Đại h c Đà Nẵng Ti ng Anh [8] J Han and Micheline Kamber Data Mining:Concepts and Techniques, 3rd Edition Morgan Kaufmann Publishers, 2011 [9] John Wiley & Sons (2003) - Data Mining-Concepts Models Methods And Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc [10] Jean – Marc Adamo (2001), Data Mining for Association Rules and Sequential Patterns, Sequential and Parallel Algorithms, Springer – VerlagNew York, Inc [11] John Shafer, RakeshAgrawal, ManishMehta “Sprint –A Scalable Classifier for Data mining” in Predeeings of the 22nd International Conference on very large database, India1996 [12] http://technet.microsoft.com/en-us/library/bb895174.aspx 58 [13] J Ross Quinlan C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, 1993 [14] Ming Li “Data mining Chepter 10 : Predictive Modeling”, Department of Computer Science and Technology Nanjing University,2011 Tài li u internet [15] http://bis.net.vn/forums/p/369/631.aspx truy cập ngày 11/05/2018 ... 3.3 Mơ hình giải pháp xây dựng hệ hỗ trợ tuyển sinh 38 3.4 Cơ s liệu tuyển sinh c a Tr Đồng ng Đại h c Phạm Văn 39 3.5 Cơ s liệu tuyển sinh c a Tr ng điểm h c lực THPT 40 3.6 Cơ s liệu tổng hợp... ngăquanv phátăhi nătriăth căvƠ khai? ?phá? ?d ăli u Trình bày tổng quan phát tri th c, khai phá liệu, m i liên hệ phát tri th c khai phá liệu Ch ơng tìm hiểu ph ơng pháp khai phá liệu, mơ hình khai phá liệu, ầ... i thiệu Tr ng Đại h c Phạm Văn Đồng 33 3.2 Gi i thiệu công c khai phá liệu .35 3.3 Mơ hình toán xây dựng hệ hỗ trợ t v n tuyển sinh 37 3.4 Mô tả việc tổng hợp liệu cho toán