Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 91 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
91
Dung lượng
6,63 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC SƢ PHẠM - ĐÀO THỊ MỸ VÂN NGHIÊN CỨU KỸ THUẬT CÂY QUYẾT ĐỊNH VÀ XÂY DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG THPT VÕ NGUYÊN GIÁP CHỌN NGHỀ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TSKH TRẦN QUỐC CHIẾN Đà Nẵng – Năm 2019 MỤC LỤC LỜI CAM ĐOAN I LỜI CẢM ƠN II KẾT QUẢ NGHIÊN CỨU LUẬN VĂN III CÁC LOẠI DANH MỤC VII MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nghiên cứu Đối tƣợng nghiên cứu Phƣơng pháp nghiên cứu Ý nghĩa khoa học thực tiễn luận văn .2 Cấu trúc luận văn CHƢƠNG 1: KHÁI QUÁT PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Phát tri thức (Knowledge Discovery in Databases – PHTT) .4 1.1.1 Một số khái niệm: 1.1.2 Tổ chức khai thác thông tin truyền thống .5 1.1.3 Phát tri thức 1.1.4 Quá trình PHTT KPDL .13 1.2 Khai phá liệu 14 1.2.1 Khái niệm KPDL 14 1.2.2 Lịch sử KPDL 14 1.2.2.1 Sự hình thành ngành khoa học thống kê 14 1.2.2.2 Phân tích thống kê đại: Thế hệ thứ 15 1.2.2.3 Phân tích thống kê đại: Thế hệ thứ hai 15 1.2.2.4 Phương pháp học máy: Thế hệ thứ ba .16 1.2.2.5 Học thuyết thống kê: Tổng quan thứ tư 16 1.2.2.6 Lịch sử phát triển KPDL 16 1.2.3 Quá trình KPDL 16 1.2.4 Khái quát kỹ thuật KPDL 17 1.2.4.1 Khai thác t p phổ biến u t kết h p .17 1.2.4.2 Phân p d iệu 18 1.2.4.3 Gom cụm 18 1.3 Kỹ thuật khai phá liệu sử dụng định 19 1.3.1 Cây định: 19 1.3.1.1 Gi i thiệu định: 19 1.3.1.2 Cấu trúc định: 19 1.3.2 Kỹ thuật KPDL sử dụng định 20 1.3.2.1 Gi i thiệu kỹ thu t KPDL sử dụng định: 20 1.3.2.2 Xây dựng định 20 1.3.2.3 Các vấn đề KPDL sử dụng định 21 1.3.3.Thuật toán sử dụng xây dựng định 21 1.3.3.1 Thu t toán CLS (Concept Learning System) 21 1.3.3.2 Thu t toán ID3 23 1.3.3.3 Thu t toán C4.5 28 1.3.4.Cắt tỉa định 31 1.3.4.1 Tiền cắt tỉa (Prepruning) 31 1.3.4.2 H u cắt tỉa (Postpruning) 31 1.4 Công cụ: 31 1.4.1.Công cụ mã nguồn mở: .31 1.4.2.Mã nguồn thƣơng mại: 31 1.5 KPDL lĩnh vực giáo dục 32 1.6 Những lĩnh vực liên quan đến KPDL 32 1.7 Những thách thức ứng dụng nghiên cứu kỹ thuật KPDL 32 1.8 Kết luận 33 CHƢƠNG 2: CÂY QUYẾT ĐỊNH TRONG CHỌN NGHỀ 34 2.1 Tìm hiểu tốn chọn nghề 34 2.1.1.Khái niệm ngành nghề .34 2.1.2.Phƣơng pháp chọn nghề 36 2.2 Phân tích toán chọn nghề: 40 2.3 Mơ hình hệ thống chọn nghề cho trƣờng THPT Võ Nguyên Giáp 42 2.4 Kết luận 44 CHƢƠNG 3: XÂY DỰNG HỆ THỐNG 45 3.1 Xây dựng CSDL liệu 45 3.1.1.Xác định thực thể CSDL 45 3.1.2.Mối liên kết thực thể 53 3.2 Tiền xử lý liệu: 53 3.3 Chuyển đổi liệu: 54 3.4 Khai phá liệu 55 3.4.1.Giới thiệu công cụ khai phá liệu 55 3.4.2.Dữ liệu thử nghiệm 55 3.4.3.Khai phá liệu 57 3.4.4.Tập luật 58 3.5 Lập trình định 58 3.6 Thử nghiệm hệ thống chọn nghề 60 3.7 Kết luận 61 KẾT LUẬN 63 TÀI LIỆU THAM KHẢO 64 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ ―NGHIÊN CỨU KỸ THUẬT CÂY QUYẾT ĐỊNH VÀ XÂY DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG THPT VÕ NGUYÊN GIÁP CHỌN NGHỀ‖ cơng trình nghiên cứu riêng tơi Các số liệu tài liệu luận án trung thực chƣa đƣợc công bố cơng trình nghiên cứu Tất tham khảo kế thừa đƣợc trích dẫn tham chiếu đầy đủ ii LỜI CẢM ƠN Luận án khơng thể hồn thành thiếu hƣớng dẫn, cổ vũ động viên hỗ trợ nhiều cá nhân tổ chức Trƣớc tiên, xin bày tỏ kính trọng lịng biết ơn sâu sắc tới PGS.TSKH Trần Quốc Chiến hƣớng dẫn, động viên giúp đỡ, định hƣớng đƣa đánh giá, nhận xét tơi q trình nghiên cứu viết luận án Những nhận xét đánh giá Thầy, đặc biệt gợi ý hƣớng giải vấn đề suốt trình nghiên cứu, thực bƣớc ngoặt quý giá q trình viết luận án Tơi xin chân thành cảm ơn tập thể giảng viên Khoa Tin học trƣờng Đại học Sƣ phạm Đà Nẵng, Thầy Cô giúp đỡ, góp ý tạo điều kiện tốt cho tơi q trình nghiên cứu viết luận án Tơi xin cảm ơn bạn bè, đồng nghiệp, gia đình bạn học động viên hỗ trợ nhiều mặt thời gian, lời góp ý, cung cấp liệu, xử lý liệu, quan tâm giúp đỡ thời gian hoàn thành luận văn Tác giả Đào Thị Mỹ Vân iii KẾT QUẢ NGHIÊN CỨU LUẬN VĂN Tên đề tài: NGHIÊN CỨU KỸ THUẬT CÂY QUYẾT ĐỊNH VÀ XÂY DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG THPT VÕ NGUYÊN GIÁP CHỌN NGHỀ Ngành: Hệ thống thông tin Họ tên học viên: Đào Thị Mỹ Vân Ngƣời hƣớng dẫn khoa học: PGS.TSKH TRẦN QUỐC CHIẾN Cơ sở đào tạo: Trƣờng Đại học Sƣ phạm – Đại học Đà Nẵng Tóm tắt: Phát tri thức tiến trình gồm nhiều giai đoạn, nhằm xác định mẫu tiềm ẩn có tính hợp lệ, lạ, có ích hiểu đƣợc liệu Phát tri thức liên quan đến việc phân tích liệu sử dụng kỹ thuật đặc biệt để tìm mẫu đặc trƣng tập liệu khổng lồ Khai phá liệu khâu trình phát tri thức Khai phá liệu thƣờng bao gồm việc thử tìm mơ hình phù hợp với tập liệu tìm kiếm mẫu từ tập liệu theo mơ hình Kỹ thuật khai phá liệu đời giúp ngƣời khai thác tri thức để phát huy tiềm tri thức, đem lại lợi ích mặt kinh tế, quản lý, y tế, giáo dục, Phân lớp liệu hƣớng nghiên cứu khai phá liệu Phân lớp liệu có vai trị quan trọng tiến trình dự báo khuynh hƣớng quy luật phát triển Trong kỹ thuật phân lớp, định đƣợc coi cơng cụ mạnh, phổ biến đặc biệt thích hợp với ứng dụng khai phá liệu Qua tìm hiểu chức khai phá liệu, luận văn tập trung vào nghiên cứu kỹ thuật phân lớp định Cây định dạng đặc biệt cấu trúc cây, đƣợc dùng để hỗ trợ trình định Hiểu đƣợc thuật tốn định gần đây, từ nắm đƣợc điểm cần quan tâm giải kỹ thuật khai phá liệu định sở liệu khảo sát lựa chọn ngành học Các thuật toán sử dụng định gồm thuật toán CLS, thuật toán ID3, thuật toán C4.5,… Trong thuật tốn C4.5 có độ xác cao, chạy nhanh dễ hiểu ngƣời dùng Thuật toán C4.5 thuật toán đƣợc cải tiến từ thuật toán ID3 với việc cho phép xử lý tập liệu có thuộc tính số làm việc đƣợc với tập liệu bị thiếu nhiễu nhƣng tập liệu có nhiều thuộc tính định thu đƣợc khó hiểu; Luận văn ―NGHIÊN CỨU KỸ THUẬT CÂY QUYẾT ĐỊNH VÀ XÂY DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG THPT VÕ NGUYÊN iv GIÁP CHỌN NGHỀ‖ sử dụng thuật toán C4.5, thuật tốn cho mơ hình phân lớp tập luật dƣới dạng đơn giản dễ hiểu, có độ xác cao thời gian chạy chấp nhận đƣợc Ứng dụng hỗ trợ chọn nghề cho học sinh áp dụng thuật toán C4.5 giúp học sinh có lựa chọn nghề phù hợp với thân Từ khóa: Phát tri thức, Khai phá liệu, Cây định, C4.5, Chọn nghề v Name of thesis: RESEARCH INTO METHODS OF DECISION TREE, AND BUILDING APPLICATIONS FOR SUPPORTING VO NGUYEN GIAP HIGH SCHOOL IN CAREER CHOICE Major: Information System Full name of Master student: Dao Thi My Van Supervisors: Tran Quoc Chien, Assoc Prof D.Sc Training institution: University of Science and Education - The University of Da Nang Abstract: Knowledge discovery in databases is a process that forms in stages It is used to discover samples which are potential, valid, useful, unheard-of and understandable in data Knowledge discovery in databases links to data analysis and use of special techniques to find typical samples in a big data Data mining is a part of Knowledge discovery in databases It includes appropriate sampling that matches data file, and finding samples from data file in the model The invention of data mining allows people to make exploitation of knowledge, so that the potential of knowledge can be taken full advantage, and brought the benefits in economy, management, health and education, etc Classification is one of the main research directions of data mining It plays an important role in forecast of development In the classification model has been proposed, decision trees are considered powerful tool, common and suitable particularly for data mining applications During study of functions of data mining, this thesis focuses on researching into methods of data classification by using decision tree Decision tree is a special type of tree structure, which is used to support decision process By studying decision tree algorithms recently, it can, base on survey data collection of career choice, find out main issue that needs resolving in data exploitation by using decision tree Algorithms used in decision tree include CLS, ID3, C4.5, etc Among them, C4.5 algorithm produces high performance with high precision and understandability to users C4.5 algorithm is the renovation version of ID3 algorithm which allows users to process data files that has numeric attributes and can be used to work with missing and complicated data files But if the data files contains multiple attributes, this can cause complication to decision tree; The thesis ―RESEARCH INTO METHODS OF DECISION TREE, AND BUILDING APPLICATIONS FOR SUPPORTING VO NGUYEN GIAP HIGH SCHOOL IN CAREER CHOICE‖ using C4.5 algorithm whose resulting vi classification models are set of classification rules in the form of trees which are very simple and easy to understand, with pretty high accuracy and acceptable run time This application which applied C4.5 algorithm provided support for pupils in career choice, so that they can have a right devision on future career Key words: Knowledge Discovery in Databases, Data Mining, Decision Tree, C4.5, Career Choice Supervior’s confirmation Student PL PHỤ LỤC PHỤ LỤC 1: THÔNG TIN TUYỂN SINH ĐH SƢ PHẠM ĐÀ NẴNG Tên ngành Tổ hợp điểm xét tuyển 7140202 Giáo dục Tiểu học Toán + Ngữ văn + Tiếng Anh 7140205 Giáo dục Chính trị Ngữ văn + Lịch sử + Địa lý Mã ngành Ngữ văn + GDCD + Địa lý Ngữ văn + Tiếng Anh + GDCD 7140209 Sƣ phạm Toán học Tốn + Vật lý + Hóa học Toán + Vật Lý + Tiếng Anh 7140210 Sƣ phạm Tin học Tốn + Vật lý + Hóa học Toán + Vật Lý + Tiếng Anh 7140211 Sƣ phạm Vật lý Vật lý + Tốn + Hóa học Vật lý + Toán + Tiếng Anh Vật lý + Toán + Sinh học 7140212 Sƣ phạm Hố học Hóa học + Tốn + Vật lý Hóa học + Tốn + Tiếng Anh Hóa học + Toán + Sinh học 7140213 Sƣ phạm Sinh học Sinh học + Tốn + Hóa học Sinh học + Toán + Tiếng Anh 7140217 Sƣ phạm Ngữ văn Ngữ văn + Lịch sử + Địa lý Ngữ văn + GDCD + Toán Ngữ văn + GDCD + Tiếng Anh 7140218 Sƣ phạm Lịch sử Lịch sử + Ngữ văn + Địa lý Lịch sử + Ngữ Văn + GDCD 7140219 Sƣ phạm Địa lý Đ ịa lý + Ngữ văn + Lịch sử Địa lý + Ngữ văn + Tiếng Anh 7140201 Giáo dục Mầm non Năng khiếu + Tốn + Ngữ văn 7420201 Cơng nghệ sinh học Sinh học + Hóa học + Tốn Sinh học + Toán + Tiếng Anh Toán + Vật lý + Hóa học 7440102 Vật lý học (Chuyên ngành: Điện tử-Cơng nghệ Viễn thơng) Vật lý + Tốn + Hóa học PL 2 Vật lý + Tốn + Tiếng Anh Vật lý + Toán + Sinh học 7440112 Hóa học, gồm chuyên ngành: Hóa học + Tốn + Vật lý Hóa Dƣợc; Hóa học + Tốn + Tiếng Anh Hóa Dƣợc (tăngcƣờng Tiếng Anh); Hóa học + Tốn + Sinh học Hóa phân tích mơi trƣờng 7440112 CLC Hóa học Hóa học + Tốn + Vật lý Hóa Dƣợc chất lƣợng cao; Hóa học + Tốn + Tiếng Anh Hóa học + Tốn + Sinh học 7440301 Khoa học mơi trƣờng Hóa học + Tốn + Vật lý Hóa học + Tốn + Tiếng Anh Hóa học + Tốn + Sinh học 57460112 Toán ứng dụng, gồm: Toán ứng dụng; Tốn + Vật lý + Hóa học Tốn + Vật Lý + Tiếng Anh Toán ứng dụng (tăng cƣờng tiếng Anh) 7480201 Cơng nghệ thơng tin Tốn + Vật lý + Hóa học Tốn + Vật lý + Tiếng Anh 7480201 CLC Công nghệ thông tin (chất lƣợng cao) Tốn + Vật Lý + Hóa học Toán + Vật lý + Tiếng Anh 7220330 Văn học Ngữ văn + Địa lý + Tiếng Anh Ngữ văn + GDCD + Toán Ngữ văn + GDCD + Tiếng Anh 7220310 Lịch sử Lịch sử + Ngữ văn + Địa lý Lịch sử + Ngữ văn + GDCD Lịch sử + Ngữ văn + Tiếng Anh 7310501 Địa lý học (Chuyên ngành Địa lý du lịch) Địa lý + Ngữ văn + Lịch sử Địa lý + Ngữ văn + Tiếng Anh 7220113 Việt Nam học Ngữ văn + Địa lý + Lịch Sử Ngữ văn + Địa lý + Tiếng Anh PL 3 Ngữ văn + Lịch sử + Tiếng Anh 7220113 CLC Việt Nam học (chất lƣợng cao) Ngữ văn + Địa lý + Lịch Sử Ngữ văn + Địa lý + Tiếng Anh Ngữ văn + Lịch sử + Tiếng Anh 7220340 Văn hoá học Ngữ văn + Địa lý + Tiếng Anh Ngữ văn + GDCD + Toán Ngữ văn + GDCD + Tiếng Anh 7310401 Tâm lý học Sinh học + Tốn + Hóa học Ngữ văn + Địa lý + Lịch Sử Ngữ văn + Tiếng Anh + Toán 7310401 CLC Tâm lý học (chất lƣợng cao) Sinh học + Tốn + Hóa học Ngữ văn + Địa lý + Lịch Sử Ngữ văn + Tiếng Anh + Tốn 7760101 Cơng tác xã hội Ngữ văn + Địa lý + Lịch Sử Ngữ văn + Tiếng Anh + Tốn 7320101 Báo chí Ngữ văn + Địa lý + Tiếng Anh Ngữ văn + GDCD + Toán Ngữ văn + GDCD + Tiếng Anh 7320101 CLC Báo chí (chất lƣợng cao) Ngữ văn + Địa lý + Tiếng Anh Ngữ văn + GDCD + Toán Ngữ văn + GDCD + Tiếng Anh 7850101 Quản lý tài nguyên môi Sinh học + Tốn + Hóa học trƣờng Sinh học + Tốn + Tiếng Anh Hóa học + Tốn + Vật lý 7850101 CLC Quản lý tài nguyên mơi trƣờng (chất lƣợng cao) Sinh học + Tốn + Hóa học Sinh học + Tốn + Tiếng Anh Hóa học + Tốn + Vật lý 7480201 Cơng nghệ thơng tin (đặc ĐT thù) Tốn + Vật lý + Hóa học Tốn + Vật lý + Tiếng Anh PL PHỤ LỤC 2: PHIẾU ĐIỀU TRA BẢNG B (I, Investigate, nghiên cứu) SỐ ĐIỂM Tôi có tìm hiểu khám phá nhiều vấn đề Tơi có khả phân tích vấn đề Tơi biết suy nghĩ mạch lạc, chặt chẽ Tơi thích thực thí nghiệm hay nghiên cứu Tơi có khả tổng hợp, khái qt, suy đốn vấn đề Tơi thích hoạt động điều tra, phân loại, kiểm tra, đánh giá Tơi tự tổ chức cơng việc phải làm Tơi thích suy nghĩ vấn đề phức tạp, làm cơng việc phức tạp Tơi có khả giải vấn đề BẢNG C (A, Artisic, nghệ sĩ, nghệ thuật, thẩm mỹ) Tôi ngƣời dễ xúc động SỐ ĐIỂM PL Tơi có óc tƣởng tƣợng phong phú Tơi thích tự do, khơng theo quy định, quy tắc Tơi có khả thuyết trình, diễn xuất Tơi chụp hình vẽ tranh, trang trí, điêu khắc Tơi có khiếu âm nhạc Tơi có khả viết, trình bày ý tƣởng Tơi thích làm cơng việc mới, cơng việc địi hỏi sang tạo Tơi thoải mái bộc lộ ý thích Tơi ngƣời thân thiện hay giúp đỡ ngƣời khác Tơi thích gặp gỡ làm việc với ngƣời Tôi ngƣời lịch sự, tử tế Tơi thích khun bảo, huấn luyện giảng giải cho ngƣời khác Tơi ngƣời biết lắng nghe Tơi thích hoạt động chăm sóc sức khỏe thân ngƣời khác Tơi thích hoạt động mục tiêu chung cộng đồng, xã hội Tôi mong muốn đóng góp để xã hội tốt đẹp Tơi có khả hịa giải, giải việc mâu thuẫn Tơi ngƣời có tính phiêu lƣu mạo hiểm Tơi có tính đốn Tơi ngƣời ngƣời động Tơi có khả diễn đạt, tranh luận thuyết phục ngƣời khác Tơi thích công việc quản lý, đánh giá Tôi thƣờng đặt mục tiêu, kế hoạch sống Tơi thích gây ảnh hƣởng đến ngƣời khác Tơi ngƣời thích cạnh tranh muốn phải giỏi ngƣời khác Tơi muốn ngƣời khác phải kính trọng, nể phục tơi BẢNG D (S, Social, tính xã hội) Tơi ngƣời thân thiện hay giúp đỡ ngƣời khác Tơi thích gặp gỡ làm việc với ngƣời Tôi ngƣời lịch sự, tử tế Tơi thích khun bảo, huấn luyện giảng giải cho ngƣời khác SỐ ĐIỂM PL Tôi ngƣời biết lắng nghe Tơi thích hoạt động chăm sóc sức khỏe thân ngƣời khác Tơi thích hoạt động mục tiêu chung cộng đồng, xã hội Tơi mong muốn đóng góp để xã hội tốt đẹp Tơi có khả hòa giải, giải việc mâu thuẫn BẢNG E (E, Enterprise, kinh doanh, dám nghĩ dám làm) SỐ ĐIỂM Tơi ngƣời có tính phiêu lƣu mạo hiểm Tơi có tính đốn Tơi ngƣời ngƣời động Tơi có khả diễn đạt, tranh luận thuyết phục ngƣời khác Tơi thích cơng việc quản lý, đánh giá Tôi thƣờng đặt mục tiêu, kế hoạch sống Tơi thích gây ảnh hƣởng đến ngƣời khác Tơi ngƣời thích cạnh tranh muốn phải giỏi ngƣời khác Tơi muốn ngƣời khác phải kính trọng, nể phục tơi BẢNG F (C, Conventional, cơng chức) SỐ ĐIỂM Tơi có đầu óc xếp, có tổ chức Tơi có tính cẩn thận Tơi chu đáo, xác đáng tin cậy Tơi thích cơng việc tính tốn, sổ sách, ghi chép tài liệu Tơi thích cơng việc lƣu trữ, phân loại, cập nhật thông tin Tôi thƣờng đặt mục tiêu, kế hoạch sống Tơi thích dự kiến khoản thu, chi Tơi thích lập thời khóa biểu, xếp lịch làm việc Tơi thích làm việc với số, làm việc theo hƣớng dẫn, quy trình Xem kết ... DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG THPT VÕ NGUYÊN GIÁP CHỌN NGHỀ” nghiên cứu kỹ thuật định C4.5 ứng dụng vào toán chọn nghề để hỗ trợ học sinh lựa chọn nghề phù hợp Mục tiêu nghiên cứu - Mục tiêu... KẾT QUẢ NGHIÊN CỨU LUẬN VĂN Tên đề tài: NGHIÊN CỨU KỸ THUẬT CÂY QUYẾT ĐỊNH VÀ XÂY DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG THPT VÕ NGUYÊN GIÁP CHỌN NGHỀ Ngành: Hệ thống thông tin Họ tên học viên:... xin cam đoan luận văn thạc sĩ ―NGHIÊN CỨU KỸ THUẬT CÂY QUYẾT ĐỊNH VÀ XÂY DỰNG ỨNG DỤNG HỖ TRỢ HỌC SINH TRƢỜNG THPT VÕ NGUYÊN GIÁP CHỌN NGHỀ‖ cơng trình nghiên cứu riêng tơi Các số liệu tài liệu