Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
1,19 MB
Nội dung
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI VIỆN CÔNG NGHỆ THƠNG TIN TRẦN THỊ THÙY LINH TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG HƯỚNG NGHIỆP KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Sư phạm Tin học Người hướng dẫn khoa học ThS Đỗ Thị Lan Anh HÀ NỘI, 2019 LỜI CẢM ƠN Em xin chân thành cảm ơn cô giáo ThS Đỗ Thị Lan Anh, giảng viên Viện Công nghệ thông tin, trường Đại học Sư phạm Hà Nội 2, người trực tiếp hướng dẫn em suốt thời gian qua để em hồn thành khóa luận Em xin gửi lời cảm ơn tới thầy, cô giáo Viện Công nghệ thông tin, bạn lớp K41 – Sư Phạm tin học tạo điều kiện, động viên khích lệ em suốt q trình học tập nghiên cứu Do thời gian nghiên cứu hạn chế nên vấn đề mà em trình bày khóa luận khơng tránh khỏi thiếu xót Em kính mong nhận ý kiến đóng góp từ thầy bạn để khóa luận em hoàn thiện Em xin trân thành cảm ơn! Hà Nội, ngày tháng năm 2019 Sinh viên Trần Thị Thùy Linh LỜI CAM ĐOAN Tôi xin cam đoan khóa luận hồn thành cố gắng thân, hướng dẫn tận tình giáo ThS Đỗ Thị Lan Anh tham khảo số tài liệu ghi rõ nguồn Khóa luận hồn tồn khơng chép từ tài liệu có sẵn Kết nghiên cứu khơng trùng lặp với tác giả khác Nếu sai, xin hoàn toàn chịu trách nhiệm! Hà Nội, ngày tháng năm 2019 Sinh viên Trần Thị Thùy Linh DANH MỤC CÁC HÌNH Hình 2.1: Cây định xây dựng theo thuật tốn CLS 11 Hình 2.2: Mở rộng nhánh bên trái định 12 Hình 2.3: Mở rộng nhánh bên phải định 13 Hình 2.4: Phân chia theo giá trị thuộc tính 32 Hình 2.5: Cây định có ngưỡng cho phép tách 34 Hình 2.6: Kết sử dụng thuật tốn C4.5 35 Hình 3.1: Đăng nhập 39 Hình 3.2: Đăng ký 39 Hình 3.3: Làm trắc nghiệm 40 Hình 3.4: Kết 40 Hình 3.5: Kết 41 Hình 3.6: Lưu trữ thông tin 41 DANH MỤC CÁC BẢNG Bảng 2.1 Tập liệu huấn luyện định Picnic 11 Bảng 2.2 Thống kê mối quan hệ mức độ thực phẩm cần cung cấp độ tuổi 29 Bảng 2.3 Minh họa tìm ngưỡng 33 MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỞ ĐẦU 1 Lý chọn đề tài Mục đích nhiệm vụ nghiên cứu Phương pháp nghiên cứu Nội dung đề tài CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm 1.2 Các bước khai phá liệu 1.2.1 Tìm hiểu tốn 1.2.2 Thu thập xử lý liệu 1.2.3 Khai phá liệu lựa chọn giải thuật phù hợp 1.2.4 Phân tích đánh giá 1.2.5 Sử dụng kết 1.3 Một số kỹ thuật khai phá liệu 1.3.1 Phân lớp liệu 1.3.2 Phân cụm liệu 1.3.3 Sử dụng luật kết hợp 1.3.4 Sử dụng định CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 2.1 Kỹ thuật khai phá liệu sử dụng định 2.1.1 Các kiểu định 2.1.2 Đánh giá định lĩnh vực khai phá liệu 2.1.3 Xây dựng định 2.2 Các thuật toán sử dụng định 2.2.1 Thuật toán CLS 2.2.2 Thuật toán ID3 13 2.2.3 Thuật toán C4.5 25 2.3 Cắt tỉa định 35 2.4 Đánh giá thuật toán 36 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG 38 3.1 Lựa chọn thuật toán 38 3.2 Lựa chọn ngơn ngữ lập trình 38 3.3 Chương trình 38 3.3.1 Phát biểu toán 38 3.3.2 Yêu cầu toán 38 3.3.3 Giao diện chương trình 39 3.3.4 Đánh giá kết chương trình 41 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 43 TÀI LIỆU THAM KHẢO 44 MỞ ĐẦU Lý chọn đề tài Ngày nay, với phát triển mặt đời sống từ văn hóa, giáo dục công nghệ đặc biệt lĩnh vực cơng nghệ thơng tin có bước phát triển chóng mặt Cùng với phát triển lượng liệu thu thập ngày nhiều, lượng thông tin lưu trữ thiết bị ngày tăng lên Để tìm thơng tin hữu ích lượng liệu khổng lồ ngày khó Chính mà phát triển kỹ thuật nhằm tìm thơng tin hữu ích khai phá liệu Nghề nghiệp vấn đề quan trọng người, có nhiều bạn băn khoăn việc lựa chọn nghề nghiệp cho thân mình, đặc biệt học sinh lớp 12 Do việc hướng nghiệp cho học sinh trung học phổ thông cần thiết Trước thực tế đó, tơi chọn đề tài: “Tìm hiểu khai phá liệu định ứng dụng hướng nghiệp” cho khóa luận tốt nghiệp Mục đích nhiệm vụ nghiên cứu - Mục đích: Từ việc nghiên cứu phương pháp khai phá liệu định để xây dựng mơ hình phân tích kết học tập đưa tư vấn nghề nghiệp cho học sinh - Nhiệm vụ nghiên cứu: + Tìm hiểu kỹ thuật khai phá liệu, thuật toán áp dụng cho kỹ thuật + Áp dụng thuật toán định để phân tích kết học tập học sinh Phương pháp nghiên cứu - Phương pháp nghiên cứu lí thuyết: Tìm hiểu lựa chọn phương pháp khai phá liệu cho phù hợp - Phương pháp nghiên cứu thu thập thơng tin, phân tích số liệu: Thu thập thống kê số liệu từ khảo sát sinh viên, phân tích liệu, tham khảo tài liệu chuyên gia hướng nghiệp cho học sinh để có kinh nghiệm Nội dung đề tài Ngoài phần mở đầu, kết luận, tài liệu tham khảo, phụ lục luận văn bao gồm chương CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu [6] Các tên gọi khác như: Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (phân tích liệu/mẫu), data archaeoloogy (khảo cổ liệu), datadredging (nạo vét liệu), 1.2 Các bước khai phá liệu 1.2.1 Tìm hiểu toán Đây bước đầu khai phá liệu nhằm xác định tri thức lĩnh vực, mục đích tốn xây dựng toán cụ thể giúp định hướng cho giai đoạn khai phá liệu 1.2.2 Thu thập xử lý liệu Đây giai đoạn quan trọng q trình khai phá thơng tin thu thập chưa đầy đủ, xác cần phải xử lý, chọn lọc không dẫn đến kết không mong muốn khai phá liệu 1.2.3 Khai phá liệu lựa chọn giải thuật phù hợp Sau liệu thu thập, xử lý bắt đầu lựa chọn phương pháp khai phá phù hợp với liệu có 1.2.4 Phân tích đánh giá Dựa số tiêu chí tiến hành kiểm tra chọn lọc nguồn tri thức thu 1.2.5 Sử dụng kết Sau trình chắt lọc, tìm kiếm tri thức tìm đem vảo sử dụng Các kết trình phát tri thức đưa ứng dụng lĩnh vực khác Sữa N1 [1,4,6,7] Gạo Ngô N2 N3 [2,3,8] [5,9] Hình 2.4: Phân chia theo giá trị thuộc tính Xét nút N1 nhánh bên trái (Thực phẩm = Sữa) hình 2.4 mẫu khơng lớp, chọn thuộc tính Tuổi để mở rộng Xét nút Tuổi: Gọi tập liệu mẫu nút T = TTuổi = Sữa Tuổi có giá trị 19, 22, 42, 63 G i S ố Tổng số mẫu: |T| = 4, đó: mẫu có giá trị Cao (+) mẫu có giá trị Thấp (-) Ký hiệu: T = [2+, 2-], ta có: Entropy(T) = Entropy([2+,2-]) = Thuộc tính tuổi thuộc tính số, tìm ngưỡng cho phép tách: G i S ố [ c T H = (vS ố [ c 2 [1;0] [0 ;1 ≤ > [ ≤ > ≤ [ 2 [ [1;2] [ [ [2 [ ;1 Bảng 2.3 Minh họa tìm ngưỡng Xét ngưỡng v = 20.5 tập liệu nút phân thành tập T1, T2 T1 = {vj | vj ≤ 20.5 }; T2 = { vj | vj > 20.5}; |� �| Gain(Tv=20.5, T)= Entropy(T) - ∑ �∈{(≤20.5), = (>20.5)} Entropy(T) - Entropy(T ) -1 |�| Entropy(Ti) Entropy(T ) = 0.311 1 Entropy(T1) = Entropy(T tuổi ≤ 20.5) = Entropy ([1+, 0- ]) = - log2 = Entropy(T2) = Entropy(T tuổi > 20.5) = Entropy ([1+, 2- ]) = 13 log2 - 2log = 0.918 3 |� �| SplitInfo(Tv=20.5,T) = - ∑ �∈{(≤20.5),(>20.5)} log |Tv≤20.5| = - log × |�| |Ti| |�| |�| |Tv20.5| |�| |�| log × | T v > | | � | =- 3 log2 - log = 0.811 4 Gain(Tv=20.5,T) GainRatio(Tv=20.5,T) = SplitInfo(Tv=20.5, = 0.383 T) Tương tự xét ngưỡng v = 32 v = 52.5 ta có: GainRatio(Tv=32,T) = Gain(Tv=32,T) = SplitInfo(Tv=32,T) Gain(Tv=52.5,T) GainRatio(Tv=52.5,T) = SplitInfo(Tv=52.5, = 0.383 T) Sau ki tính tốn ta có được: Thực phẩm T p [1, 4, N [ N [5 ,9 32 [4,7] Hình 2.5: Cây định có ngưỡng cho phép tách Xét nút nút Tuổi: - Lớp cao: mẫu [1,6] => Nút có tập mẫu [1,6] nút có nhãn cao - Lớp thấp: mẫu [4,7] => Nút có tập mẫu [4,7] nút có nhãn thấp Với nút lại ta làm tương tự, có được: - Với nút N2: Các mẫu [2,3,8] thuộc lớp Cao => N2 nút có nhãn Cao - Với nút N3: Các mẫu [5,9] thuộc lớp Thấp => N2 nút có nhãn Thấp Sau tính tốn ta có cây: Thực phẩm Sữa Gạo Tuổi [1,4,6,7] 32 Thấp [4,7] Hình 2.6: Kết sử dụng thuật tốn C4.5 2.3 Cắt tỉa định Ở thuật toán xây dựng định, để xây dựng định cách phát triển đầy đủ theo chiều sâu để phân lớp hoàn toàn mẫu huấn luyện Thường gặp khó khăn trường hợp liệu bị thiếu, bị nhiễu với thuật toán CLS ID3 Nếu ta phát triển dựa thuật tốn ta dẫn đến “Over fitting” định Over fitting vấn đề khó khăn việc nghiên cứu ứng dụng định Để giải vấn đề người ta sử dụng phương pháp cắt tỉa định Có hai phương pháp cắt tỉa định: Tiền cắt tỉa hậu cắt tỉa - Tiền cắt tỉa: Tiền cắt tỉa dừng sớm việc phát triển trước vươn đến điểm mà việc phân lớp mẫu huấn luyện hồn thành Hay q trình xây dựng cây, nút khơng tách thêm bước kết phép tách rơi vào ngưỡng gần chắn Nút trở thành nút gán nhãn nhãn lớp phổ biến tập mẫu nút - Hậu cắt tỉa: Với hậu cắt tỉa, phát triển đầy đủ sau thực cắt tỉa Các nhánh khơng hợp lý cắt bỏ Nếu nút mà có bị cắt trở thành nút nhãn gán nhãn lớp phổ biến trước So với tiền cắt tỉa hậu cắt tỉa mạng lại thành công Hậu cắt tỉa tiến hành thơng qua việc tính tốn lỗi sau: Giả sử ta gọi: E(S) lỗi tĩnh nút S; BackUpError(s) lỗi từ nút S (Back up Error); Error(s) lỗi nút S Các giá trị tính sau: Error(S) = Min(E(S), BackUpError(S)) E(S)= (N – n+1)/ (N+2) Trong đó: N tổng số mẫu nút S, n số mẫu lớp phổ biến S Trong trường hợp tổng qt, thuộc tính lớp có K giá trị (K lớp) thì: E(S) = (N – n + K – 1)/ (N+K) BackUpError(S) = ∑� Pi Error(Si) Trong đó: Si nút S, Pi tỷ lệ số mẫu Si số mẫu S Từ ta thấy nút có lỗi Error(Si) = E(Si) nút khơng có nút dẫn đến khơng có lỗi BackUpError Nếu BackUpError(S) ≥ E(S) chiến thuật hậu cắt tỉa định cắt nút S Như vậy, mục đích việc cắt tỉa định tối ưu hóa kết Tối ưu kích thước độ xác việc phân lớp cách cắt bỏ nhánh khơng phù hợp Có số thuật toán dùng cho việc cắt tỉa cây: - Thuật toán CART: Sử dụng tập hợp tách rời mẫu học để đánh giá hữu dụng việc hậu cắt tỉa nút trng Thuật tốn gọi cắt tỉa chi phí phức tạp - Cắt tỉa bi quan: Kỹ thuật áp dụng phương pháp thống kê để đánh giá việc mở rộng hay để cắt bỏ nhánh có độ tin cậy Các xây dựng theo thuật toán ID3, C4.5 thường dùng kỹ thuật để cắt tỉa - Kỹ thuật mô tả độ dài tối thiểu MDL: Với kỹ thuật khơng cần thiết phải kiểm tra mẫu 2.4 Đánh giá thuật toán 36 - Ra đời sớm thuật toán CLS, Chỉ sở liệu có thuộc tính dạng phân loại rời rạc, thuộc tính nhỏ áp dụng Còn sở liệu có thuộc tính phân loại liên tục, thuộc tính lớn khơng mang lại hiệu cao thuật tốn Với tập liệu đầu vào có kết khác Bởi thuật tốn chưa có tiêu chí để lựa chọn thuộc tính q trình xây dựng Ngồi điều nêu trên, thuật tốn CLS có ưu điểm chưa kể đến đơn giản, dễ cài đặt, thích hợp với nhiệm vụ đơn giản - Ngay sau thuật toán CLS thuật toán ID3 Thuật toán ID3 cải tiến so với thuật toán CLS Khi áp dụng thuật toán ID3 với tập liệu đầu vào nhận tập kết Bởi trình xây dựng tiến hành cách tỷ mỉ Nhưng bên cạnh đó, thuộc tính số nhược điểm như: Chưa giải vấn đề thuộc tính số, thuộc tính liên lục giải hạn chế với vấn đề liệu bị thiếu, bị nhiễu - Cuối thuật toán C4.5: Thuật toán C4.5 khắc phục nhược điểm thuật toán ID3 vấn đề thuộc tính số, thuộc tính liên lục giải hạn chế với vấn đề liệu bị thiếu, bị nhiễu Với thuật toán C4.5 thực việc phân ngưỡng với thuộc tính số phép tách nhị phân đưa vào đại lượng GainRatio thay cho đại lượng Gain thuật tốn ID3 Thuật tốn C4.5 có ưu điểm có bước cắt tỉa nhánh khơng phù hợp Nhược điểm thuật toán làm việc không hiệu với sở liệu lớn chưa giải vấn đề nhớ 37 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG 3.1 Lựa chọn thuật toán Cây định phân cấp dùng để phân lớp đối tượng dựa vào dãy luật Với thuật toán phân lớp ID3, C4.5 … đề tài lựa chọn ID3 số lý sau: - ID3 giải thuật đơn giản nhiều lĩnh vực lại thành công giải thuật tiềm sử lý liệu bị nhiễu, tiếp cận việc quản lý tính phức tạp - ID3 biểu diễn khái niệm dạng định Biểu diễn cho phép xác định phân loại đối tượng cách kiểm tra giá trị số thuộc tính Vì vậy, thực thuật toán ID3 đạt hiệu cao 3.2 Lựa chọn ngơn ngữ lập trình Đề tài lựa chọn ngơn ngữ lập trình PHP số lí sau: - PHP ngôn ngữ đơn giản, dễ dàng sử dụng với tất người - PHP có tốc độ hoạt động nhanh, mang lại hiệu cao - Thư viện PHP phong phú - PHP sử dụng nhiều hệ điều hành khác 3.3 Chương trình 3.3.1 Phát biểu tốn Xây dựng ứng dụng tư vấn hướng nghiệp chọn ngành học phù hợp với học sinh hỗ trợ phần khó khăn, vướng mắc việc chọn ngành học 3.3.2 u cầu tốn - Mục đích: Xây dựng chương trình hướng nghiệp cho học sinh - Input: Thông tin học sinh, học sinh trả lời câu hỏi trắc nghiệm hướng nghiệp John L.Holland - Output: Ngành học phù hợp với học sinh 38 3.3.3 Giao diện chương trình Người dùng sử dụn Internet, đăng nhập vào trang web với địa sau: http://thuylinh.cf:82 a) Form đăng nhập Hình 3.1: Đăng nhập b) Form đăng ký Hình 3.2: Đăng ký c) Form trắc nghiệm 39 Hình 3.3: Làm trắc nghiệm d) Form kết Hình 3.4: Kết Hình 3.5: Kết e) Form lưu trữ thơng tin Hình 3.6: Lưu trữ thơng tin 3.3.4 Đánh giá kết chương trình + Ưu điểm: - Chương trình chạy nên web - Chương trình truyền đạt nội dung thuật toán, khai phá thông tin lựa chọn ngành học học sinh, hỗ trợ em lựa chọn ngành học phù hợp với thân - Chương trình dễ hiểu, giao diện thân thiện + Hạn chế: - Chương trình chưa bao quát hết tất ngành học - Chưa có phương pháp tối ưu hóa liệu thực liệu lớn KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt - Khóa luận trình bày tổng quan khai phá liệu, phương pháp khai phá liệu đinh - Đã ứng dụng kỹ thuật phân lớp liệu vào tư vấn chọn ngành cho học sinh Trung học Phổ Thông - Với mục tiêu ban đầu đặt ra, chương trình khai phá thơng tin giúp học sinh lựa chọn ngành phù hợp với thân Hướng phát triển luận văn - Nghiên cứu sâu để phát triển thêm chức tư vấn cho học sinh - Đưa thêm chức tư vấn - Thiết kế giao diện đễ dùng, đẹp - Xây dựng hệ thống tư vấn cho tất ngành học TÀI LIỆU THAM KHẢO [1] B.K Baradwaj, S.Pal Mining Educational Data to Analyze Student’Performance International Jounal of Advanced Computer - Science and Aplications [2] Cây định - Đại Học Sư Phạm Huế [3] Giáo trình Khai phá liệu - Ts Lê Văn Phùng - Ths Quách Xuân Trường, Nhà xuất Thông tin truyền thông [4] Ho Tu Bao, Chapper 3: Data mining with Decision Tree [5] Lynda Jean Allen, The Appropriateness of Holland’s intersest code typology for South African field guides, Faculty of Health Sciences at the Nelson Mandela Matropolitan University [6] Tổng quan khai phá liệu - Hoàng Nguyễn https://www.academia.edu/6240257/Ch%C6%B0%C6%A1ng_1._T%E1%BB%94NG_QUAN_V%E1%B B%80_KHAI_PH%C3%81_D%E1%BB%AE_LI%E1%BB%86U_WEB [ 7] Ứng dụng khai phá liệu chọn ngành nghề học sinh THPT - Nguyễn Đặng Thế Vinh ... PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm. .. gốc Cây định sử dụng để xây dựng kế hoạch nhằm đạt mục tiêu mong muốn Cây định nhằm hỗ trợ trình định CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 2.1 Kỹ thuật khai phá liệu. .. cụm liệu 1.3.3 Sử dụng luật kết hợp 1.3.4 Sử dụng định CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 2.1 Kỹ thuật khai phá liệu sử dụng