Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ tuyển sinh tại trường đại học phạm văn đồng

74 19 0
Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ tuyển sinh tại trường đại học phạm văn đồng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đ IăH CăĐĨ N NG TR NGăĐ IăH CăS ăPH M NGUY NăTH ăBỊNHăMINH TểNăĐ ăTĨI LU NăVĔN: NGăD NGăKHAIăPHỄăD ăLI Uă XỂYăD NGăH H ăTR ăTUY NăSINHă T IăTR NGăĐ IăH CăPH MăVĔNăĐ NG Chuyên ngành: Hệ th ng thông tin Mư s : 8480104 LU NăVĔNăTH CăSƾ NG IH NG D N KHOA H C: PGS.TSKH.TR N QU C CHI N ĐƠăN ng -Nĕm2019 iii M CăL C L IăCAMăĐOAN i TịMăT TăĐ ăTĨI ii DANHăM CăT ăVI TăT T v DANHăM CăCỄCăB NG v DANHăM CăCỄCăHỊNH vi LỦ ch n đề tài M c tiêu n i dung nghiên c u Đ i t ợng phạm vi nghiên c u Ph ơng pháp nghiên c u ụ nghĩa đề tài nghiên c u .3 K t dự ki n .3 B c c luận văn .3 CH NGă1ăăT NGăQUANăV PHỄT HI N TRI TH C VĨăKHAIăPHỄăD ăLI U 1.1 Phát tri th c 1.2.Các b c phát tri th c 1.3 Các ng d ng c a phát tri th c .6 1.4 Khai phá liệu 1.5 Mơ hình khai phá liệu 1.6 Các ph ơng pháp khai phá liệu .9 1.7 K t luận Ch ơng CH NGă2ăăK ăTHU TăKHAIăPHỄăD ăLI UăVĨă NGăD NG 11 2.1 Cây quy t đ nh 11 2.2 Đánh giá quy t đ nh lĩnh vực khai phá liệu: 13 2.3 Thuật toán ID3 13 2.4 Thuật toán C4.5 19 2.5 Thuật toán Naive Bayes 28 2.6.Các giai đoạn c a trình khai phá liệu .29 2.7 Khai phá liệu giáo d c 30 2.8 Khai phá liệu sinh viên Tr ng Đại h c Phạm Văn Đồng 31 2.9 K t luận Ch ơng 32 CH NGă3ăă NGăD NGăKHAIăPHỄăD ăLI UăTRONGăPHỂNăTệCHăVĨăH ăTR ă H CăSINHăCH NăNGĨNHăH CăVĨOăTR NGăĐ IăH CăPH MăVĔNăĐ NG 33 iv 3.1 Gi i thiệu Tr ng Đại h c Phạm Văn Đồng 33 3.2 Gi i thiệu công c khai phá liệu .35 3.3 Mơ hình tốn xây dựng hệ hỗ trợ t v n tuyển sinh 37 3.4 Mô tả việc tổng hợp liệu cho toán 39 3.5 Chu n hoá liệu đ u vào cho thuật toán 40 3.6 Phân tích s liệu liệu 48 3.7 Khai phá liệu rút tri th c 51 3.8 Triển khai ch ơng trình 52 3.9 Hình ảnh trích từ ch ơng trình demo .53 K TăLU NăVĨăH NGăPHỄTăTRI N 55 K t luận 55 H ng phát triển 55 DANHăM CăTĨIăLI UăTHAMăKH O 57 Ti ng Việt 57 Ti ng Anh 57 Tài liệu internet 58 v DANH M C T CHXHCN UBND VI T T T C ng hòa xư h i ch nghĩa y ban nhân dân THPT Trung h c phổ thông KDD Knowledge Discovery in Databases ID3 Decision tree Sprint Scalable PaRallelization INduction of decisionTrees Weka Waikato Environment for Knowledge Analysis SQL Ngôn ngữ truy v n mang tính c u trúc(Structured Query Language) DANH M C CÁC B NG B ng Tênăb ng Trang Bảng 2.1 Bảng liệu sinh viên 17 Bảng 2.2 Bảng liệu hu n luyện 23 Bảng 2.3 Bảng liệu thu c tính TrinhDoCM 24 Bảng 2.4 Bảng liệu thu c tính LLChinhTri 24 Bảng 2.5 Bảng liệu thu c tính NgoaiNgu 24 Bảng 2.6 Bảng liệu thu c tính NgoaiNgu = yes 24 Bảng 2.7 Bảng liệu so sánh GainRatio 25 Bảng 3.1 Bảng c u trúc file excel liệu c a luận văn 42 Bảng 3.2 Bảng m c đ quan tr ng c a thu c tính 50 Bảng 3.3 Giải thuật c a hệ th ng 50 vi DANH M C CÁC HÌNH S ăhi uăcác cácăhìnhăv Trang Tên hìnhăv 1.1 Quá trình phát tri th c 2.1 Mơ hình quy t đ nh 13 2.2 K t quy t đ nh v i liệu 2.3 Nút g c c a quy t đ nh 25 2.4 Cây quy t đ nh v i nhánh NgoaiNgu = Yes 26 2.5 Cây quy t đ nh hoàn chỉnh 27 3.1 Tr 35 3.2 Giao diện ph n mềm Weka 38 3.3 Mơ hình giải pháp xây dựng hệ hỗ trợ tuyển sinh 38 3.4 Cơ s liệu tuyển sinh c a Tr Đồng ng Đại h c Phạm Văn 39 3.5 Cơ s liệu tuyển sinh c a Tr ng điểm h c lực THPT 40 3.6 Cơ s liệu tổng hợp ch a chu n hoá 41 3.7 Giao diện l c thu c tính c a Weka 43 3.8 Giao diện sau loại b thu c tính 44 3.9 Giao diện thi t lập thơng s r i rạc hố liệu 45 3.10 Giao diện r i rạc hoá liệu 46 3.11 K t liệu r i rạc hoá 46 3.12 Chuyển kiểu liệu cho thu c tính 47 3.13 Chuyển kiểu liệu cho thu c tính thành cơng 48 3.14 C u trúc file arff hoàn chỉnh 48 3.15 Giao diện x p hạng thu c tính 49 3.16 K t đánh giá mơ hình 51 3.17 bảng 2.1 ng Đại h c Phạm Văn Đồng ng d ng mơ hình cho tập liệu kiểm tra 18 52 3.18 Sơ đồ quan hệ s liệu c a hệ th ng 54 3.19 Giao diện c a hệ th ng 55 M ăĐ U Lýădoăch năđ ătƠi Hiện nay, v i bùng nổ c a công nghệ thông tin, ng i tr nên nh bé kho ki n th c khổng lồ, lựa ch n phù hợp cho thân Giữa kho đại d ơng tri th c, ng i mu n tìm tri th c c n thi t cho thân tr nên khó khăn đơi lúc ln có phân vân lựa ch n.Giải pháp khai phá liệu, đặc biệt quy t đ nh m t kỹ thuật tuyệt v i để giúp ng i đ a lựa ch n phù hợp v i thân Nghề nghiệp c a m t cá nhân có Ủ nghĩa h t s c quan tr ng đ i v i phát triển kinh t , xư h i c a qu c gia nói chung đ i v i cu c s ng c a cá nhân, gia đình nói riêng Giải quy t việc làm cho ng i lao đ ng, đặc biệt lao đ ng trẻ m t v n đề quan tâm hàng đ u c a xư h i Hiện nay, ch t l ợng c u lao đ ng Việt Nam cịn nhiều b t cập, tình trạng d cung c u thi u v n phổ bi n Mặc dù tình trạng h c v n c a lao đ ng không ngừng đ ợc cải thiện, hệ th ng văn đ ợc nâng cao m r ng nh ng tình trạng th t nghiệp v n ti p t c gia tăng L ợng sinh viên t t nghiệp từ tr ng đại h c,cao đẳng quy n c khơng có việc làm ngày nhiều, m t b phận sau t t nghiệp đại h c tr đảm nhận công việc không c n c p, t ợng sinh viên sau t t nghiệp làm công nhân, làm công việc khơng c n đ n trình đ đại h c d n khơng cịn xa lạ M t nguyên nhân d n đ n đ n th tr ng lao đ ng c a Việt Nam có nhiều b t cập nguồn nhân lực đ ợc đào tạo nh ng không đáp ng đ ợc u c u cơng việc Trong đó, ngun nhân ch y u h c sinh, sinh viên ch a có đ nh h ng việc làm t ơng lai, ch a hiểu thân nghề nghiệp ch n, ch a hiểu yêu c u nghề nghiệp c n Th ng ng i h c sinh, sinh viên ch n nghề theo cảm tính, theo bạn bè, đ nh h ng gia đình hay theo phong trào Và sau vào h c, h c sinh, sinh viên m i phát thân không phù hợp v i ngành nghề ch n, d n đ n tình trạng chán nản, b bê việc h c, h c v i t t ng h c để có t m bằng, tr ng tính ti p Và k t tr ng v i thành tích khơng cao, làm v i ngành nghề đào tạo không h ng th , không tập trung, d n đ n ch t l ợng công việc không đạt yêu c u, suy nghĩ tiêu cực cơng việc Vì vậy, ch n nghề nghiệp phù hợp cho thân ng i, đặc biệt h c sinh Trung h c phổ thông m t b c ngoặc quan tr ng c a đ i ng i Hiện nay, khu vực Quảng Ngưi ch a có ng d ng hỗ trợ h c sinh Trung h c phổ thông ch n nghề Và Tr ng Đại h c Phạm Văn Đồng ch a có ch ơng trình t v n tuyển sinh tự đ ng để t v n nghề phù hợp cho h c sinh tr c h c sinh ch n ngành đăng kỦ vào tr ng.V i tính c p thi t yêu c u việc thu hút h c sinh vào Tr ng Đại h c, Cao đẳng v n đề c n thi t s ng cịn c a đơn v Do đó, b phận t v n tuyển sinh r t quan tr ng V i Ủ t ng giúp em h c sinh ch n ngành h c cho để có đ nh h ng nghề nghiệp cho t ơng lai c a mình, kỹ thuật khai phá liệu, nghiên c u đề tài “ ngăd ngăkhai phá d ăli u xơyăd ngăh ăh ătr ătuy năsinhăt iăTr ngăĐ iăh căPh măVĕnăĐ ng” làm luận văn t t nghiệp c a M cătiêuăvƠăn iădungănghiênăc u 2.1 Mục tiêu đề tài - M c tiêu tổng quát: H ng đ n xây dựng ng d ng hỗ trợ tuyển sinh kỹ thuật khai phá liệu để hạn ch tình trạng ch n sai nghề c a h c sinh t ơng lai giảm tình trạng th t nghiệp làm trái nghề c a sinh viên Tr ng Phạm Văn Đồng sau tr ng - M c tiêu c thể: + Nghiên c u kỹ thuật khai phá liệu + ng d ng kỹ thuật khai phá liệu để tạo ng d ng hỗ trợ h c sinh ch n nghề phù hợp + ng d ng dễ sử d ng đ i v i ng i dùng cu i 2.2 Nội dung nghiên cứu - Tổng quan khai phá liệu, tập liệu m u, thuật toán ID3, thuật toán C4.5,thuật toán Naive Bayes quy t đ nh - Quy trình tuyển sinh c a tr Đ iăt ng: ngăvƠăph măviănghiênăc u 3.1 Đối tượng nghiên cứu đề tài + Kỹ thuật khai phá liệu c thể quy t đ nh thuật toán ID3, thuật toán C4.5 thuật toán Naive Bayes + H c sinh, thí sinh tự + Quy trình tuyển sinh quy ch xét tuyển 3.2 Phạm vi nghiên cứu + Kỹ thuật phân l p: quy t đ nh, thuật toán ID3,thuật toán C4.5 thuật tốn Naive Bayes + Cơng c khai phá liệu, SQL server ngơn ngữ lập trình Visual Studio Web + Công tác t v n tuyển sinh Tr ng Đại h c Phạm Văn Đồng Ph ngăphápănghiênăc u 4.1 Nghiên cứu lý thuyết - Nghiên c u khai phá liệu tài liệu liên quan - Nghiên c u thực trạng tuyển sinh tr ng Đại h c Phạm Văn Đồng, tìm hiểu nhu c u thực t c a ng i h c, m t s tiêu chí c a nhà tuyển d ng nhu c u việc làm xư h i 4.2 Nghiên cứu thực nghiệm - Ti n hành xây dựng giải pháp xây dựng ng d ng đánh giá - Phân tích thi t k s liệu tuyển sinh k t h c tập c a Sinh viên từ so sánh dự đốn k t h c tập c a ngành, xây dựng hệ th ng ch ơng trình ng d ng, triển khai xây dựng ch ơng trình ng d ng, kiểm tra, thử nghiệm đánh giá k t ụănghƿaăđ ătƠiănghiênăc u 5.1 Ý nghĩa khoa học - Tìm hiểu quy t đ nh khai phá liệu - Xây dựng m t hệ th ng t v n hỗ trợ t v n tuyển sinh c a tr ng 5.2 Ý nghĩa thực tiễn - Thu thập thi t k đ ợc kho s liệu ph c v cho trình t v n tuyển sinh - Góp ph n nâng cao hiệu tuyển sinh nh phát triển việc dạy h c c a tr ng K tăqu ăd ăki n - Xây dựng đ ợc hệ hỗ trợ tuyển sinh c a Tr liệu B ăc călu năvĕn L iăcamăđoan Tómăt tălu năvĕn M căl c Danhăm căt ăvi tăt t Danhăm căb ng Danhăm căhìnhăv M ăđ u ng dựa lỦ thuy t khai phá 53 Website chạy đ ợc trình duyệt nh internet explorer, firefox, chrome,ầ 3.8.2 Hướng dẫn sử dụng Để sử d ng đ ợc ng d ng, ng i dùng truy cập vào hệ th ng đ a c a trang web từ b t kỳ trình duyệt web Sau sử d ng ch c c a ng d ng nh : - Ch n khu vực theo h kh u c a ng i dùng - Ch n kh i thi phù hợp v i ngành mu n xét tuyển - Nhập tổng s điểm đạt đ ợc kỳ thi THPT qu c gia - Ch n ngành c n xét tuyển - B m ch n nút t v n - B m ch n lại để thực liệu đ u vào khác K t đạt đ ợc gồm: + K t mà ngành đư ch n nằm “k t t t nghiệp dự báo” + K t gợi Ủ thêm m t s ngành bảng gợi Ủ 3.9 Hình nh trích t ch ngătrìnhădemo 3.9.1 Giao diện thiết lập sở liệu Hình 3.18:ăS ăđ quan h c aăc ăs d li u h th ng 54 3.9.2 Giao diện chương trình tư vấn chọn ngành cho học sinh: Hình 3.19: Giao di n c a h th ng 55 K T LU NăVĨăH NG PHÁT TRI N K t lu n Trải qua th i gian dài nghiên c u thực luận văn, tác giả đư hoàn thành luận văn v i m c tiêu mà toán đặt ban đ u, luận văn đư k t hợp đ ợc công nghệ thông tin vào lĩnh vực giáo d c C thể luận văn đư đạt đ ợc k t sau: - K t đề tài xây dựng đ ợc hệ hỗ trợ t v n mang tính ch t c ng đồng Gi i thiệu ph ơng pháp tổng quát xây dựng quy t đ nh, trình bày c thể thuật tốn xây dựng quy t đ nh thuật toán C4.5 - - Xây dựng trang Web hỗ trợ t v n ch n ngành phù hợp lực ng - Xây dựng, l u trữ đ ợc tập luật s liệu điểm để t v n ch n i h c ngành - Tập liệu test hu n luyện kiểm thử có tỉ lệ chênh lệch không cao Luận văn đư giải quy t đ ợc v n đề đặt tốn bên cạnh có m t s v n đề ch a th a mưn đ ợc nh mong đợi c a tác giả: - tr + Nguồn liệu thu thập đ ợc ch a nhiều s l ợng tuyển sinh c a ng cịn + Việc r i rạc liệu đạt tỉ lệ đ xác ch a thật cao d n đ n k t ch a thật t t có có m t s luật thừa khơng mong mu n nhiên tác giả đư cắt b m t s luật thừa phát triển ng d ng Ngồi đề tài đ ợc phát triển để hỗ trợ nhanh t ơng đ i xác cho ng i c n tham khảo để ch n ngành m t s ngành c n gợi Ủ thêm H ng phát tri n Khai phá liệu lĩnh vực đ ợc nhiều ng i quan tâm nghiên c u, đ ợc ng d ng r ng rãi nhiều lĩnh vực nhiên để m r ng ng d ng đ a vào thực tiễn ta c n quan tâm đ n m t s c ng việc sau: - Tìm hiểu ph ơng pháp xây dựng quy t đ nh liệu nhiều phân l p - CSDL phải đ ợc thu thập v i s l ợng nhiều - Xử lỦ liệu t t để tăng hiệu su t thực thi ch ơng trình - C n hợp tác v i cán b đào tạo chuyên gia quản lỦ công nghệ thông tin c a tr ng 56 - C n ti p t c phát triển hồn thiện ng d ng để tích hợp v i website quản lỦ hệ th ng tr ng Đại h c - Tìm hiểu nhu c u thực t c a ng i h c để phát triển cải ti n toán theo thuật toán đư nghiên c u để phát triển thành ng d ng phổ bi n đáp ng nhu c u cho xư h i 57 DANH M C TÀI LI U THAM KH O Ti ng Vi t [1]Nguyễn Đ c C ng, “Slide giảng môn h cBI&DM:BussinessIntellegent and Data Mining”,2011-2012 [2]Nguyễn Th Thanh Th y, Nguyễn Tr n Qu c Vinh, ng d ng khai phá liệu xây dựng cơng c dự đốn k t h c tập c a sinh viên H i ngh sinh viên nghiên c u khoa h c l n th 8, Đại h c Đà Nẵng, 2012 [3]Nguyễn Chí Ngơn Nguyễn Thái Nghe 2010 Hệ chuyên gia hổ trợ sinh viênlậpk hoạch h c tập (dựa ph ơng pháp khai phá liệu - data mining) Đề tài NCKH c p tr ng Đại h c C n Thơ [4]Nguyễn Thái Nghe 2013a.Hệ th ng dự báo lực h c tập hỗ trợ sinhviênlựa ch n môn h c Đề tài NCKH c p tr ng Đại h c C n Thơ [5]Nguyễn Thái Nghe, Huỳnh Xuân Hiệp 2012 ng d ng kỹ thuật phân rã ma trận đaquan hệ xây dựng hệ trợ giảng thông minh, Kỷ y u H i thảo qu c gia l n th XV: M t s v n đề ch n l c c a CNTT&TT (@2012) Nhà xu t Khoa h c Kỹ thuật ISBN: 893-5048-931578 [6] TS Tr ơng Ng c Châu, Bài Giảng Khai phá liệu, Đại h c Bách Khoa, Đại h c Đà Nẵng [7] TS Tr ơng Ng c Châu, Bài Giảng Cơ s liệu, Đại h c Bách Khoa, Đại h c Đà Nẵng Ti ng Anh [8] J Han and Micheline Kamber Data Mining:Concepts and Techniques, 3rd Edition Morgan Kaufmann Publishers, 2011 [9] John Wiley & Sons (2003) - Data Mining-Concepts Models Methods And Algorithms, Copyright © 2003 The Institute of Electrical and Electronics Engineers, Inc [10] Jean – Marc Adamo (2001), Data Mining for Association Rules and Sequential Patterns, Sequential and Parallel Algorithms, Springer – VerlagNew York, Inc [11] John Shafer, RakeshAgrawal, ManishMehta “Sprint –A Scalable Classifier for Data mining” in Predeeings of the 22nd International Conference on very large database, India1996 [12] http://technet.microsoft.com/en-us/library/bb895174.aspx 58 [13] J Ross Quinlan C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, 1993 [14] Ming Li “Data mining Chepter 10 : Predictive Modeling”, Department of Computer Science and Technology Nanjing University,2011 Tài li u internet [15] http://bis.net.vn/forums/p/369/631.aspx truy cập ngày 11/05/2018 ... 3.3 Mơ hình giải pháp xây dựng hệ hỗ trợ tuyển sinh 38 3.4 Cơ s liệu tuyển sinh c a Tr Đồng ng Đại h c Phạm Văn 39 3.5 Cơ s liệu tuyển sinh c a Tr ng điểm h c lực THPT 40 3.6 Cơ s liệu tổng hợp... ngăquanv phátăhi nătriăth căvƠ khai? ?phá? ?d ăli u Trình bày tổng quan phát tri th c, khai phá liệu, m i liên hệ phát tri th c khai phá liệu Ch ơng tìm hiểu ph ơng pháp khai phá liệu, mơ hình khai phá liệu, ầ... i thiệu Tr ng Đại h c Phạm Văn Đồng 33 3.2 Gi i thiệu công c khai phá liệu .35 3.3 Mơ hình toán xây dựng hệ hỗ trợ t v n tuyển sinh 37 3.4 Mô tả việc tổng hợp liệu cho toán

Ngày đăng: 07/05/2021, 14:16

Từ khóa liên quan

Mục lục

  • LỜI CAM ĐOAN

  • TÓM TẮT ĐỀ TÀI

  • DANH MỤC TỪ VIẾT TẮT

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH

    • 1. Lý do chọn đề tài

    • 2. Mục tiêu và nội dung nghiên cứu

      • 2.1. Mục tiêu của đề tài

      • 2.2. Nội dung nghiên cứu

      • 3. Đối tượng và phạm vi nghiên cứu

        • 3.1. Đối tượng nghiên cứu của đề tài

        • 3.2. Phạm vi nghiên cứu

        • 4. Phương pháp nghiên cứu

          • 4.1. Nghiên cứu lý thuyết

          • 4.2. Nghiên cứu thực nghiệm

          • 5. Ý nghĩa đề tài nghiên cứu

            • 5.1. Ý nghĩa khoa học

            • 5.2. Ý nghĩa thực tiễn

            • 6. Kết quả dự kiến

            • 7. Bố cục luận văn

            • CHƯƠNG 1 TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀKHAI PHÁ DỮ LIỆU

              • 1.1. Phát hiện tri thức

              • 1.2.Các bước trong phát hiện tri thức

              • 1.3. Các ứng dụng của phát hiện tri thức

              • 1.4. Khai phá dữ liệu

              • 1.5. Mô hình khai phá dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan