Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
1,42 MB
Nội dung
Tài liu lun s phm of 63 TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI VIỆN CÔNG NGHỆ THƠNG TIN TRẦN THỊ THÙY LINH TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG HƯỚNG NGHIỆP KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành: Sư phạm Tin học Người hướng dẫn khoa học ThS Đỗ Thị Lan Anh HÀ NỘI, 2019 Footer Page of 63 Tài liu lun s phm of 63 LỜI CẢM ƠN Em xin chân thành cảm ơn cô giáo ThS Đỗ Thị Lan Anh, giảng viên Viện Công nghệ thông tin, trường Đại học Sư phạm Hà Nội 2, người trực tiếp hướng dẫn em suốt thời gian qua để em hồn thành khóa luận Em xin gửi lời cảm ơn tới thầy, cô giáo Viện Công nghệ thông tin, bạn lớp K41 – Sư Phạm tin học tạo điều kiện, động viên khích lệ em suốt trình học tập nghiên cứu Do thời gian nghiên cứu hạn chế nên vấn đề mà em trình bày khóa luận khơng tránh khỏi thiếu xót Em kính mong nhận ý kiến đóng góp từ thầy bạn để khóa luận em hồn thiện Em xin trân thành cảm ơn! Hà Nội, ngày tháng năm 2019 Sinh viên Trần Thị Thùy Linh Footer Page of 63 Tài liu lun s phm of 63 LỜI CAM ĐOAN Tôi xin cam đoan khóa luận hồn thành cố gắng thân, hướng dẫn tận tình cô giáo ThS Đỗ Thị Lan Anh tham khảo số tài liệu ghi rõ nguồn Khóa luận hồn tồn khơng chép từ tài liệu có sẵn Kết nghiên cứu khơng trùng lặp với tác giả khác Nếu sai, tơi xin hồn toàn chịu trách nhiệm! Hà Nội, ngày tháng năm 2019 Sinh viên Trần Thị Thùy Linh Footer Page of 63 Tài liu lun s phm of 63 DANH MỤC CÁC HÌNH Hình 2.1: Cây định xây dựng theo thuật toán CLS 11 Hình 2.2: Mở rộng nhánh bên trái định 12 Hình 2.3: Mở rộng nhánh bên phải định 13 Hình 2.4: Phân chia theo giá trị thuộc tính 32 Hình 2.5: Cây định có ngưỡng cho phép tách 34 Hình 2.6: Kết sử dụng thuật toán C4.5 35 Hình 3.1: Đăng nhập 39 Hình 3.2: Đăng ký 39 Hình 3.3: Làm trắc nghiệm 40 Hình 3.4: Kết 40 Hình 3.5: Kết 41 Hình 3.6: Lưu trữ thơng tin 41 Footer Page of 63 Tài liu lun s phm of 63 DANH MỤC CÁC BẢNG Bảng 2.1 Tập liệu huấn luyện định Picnic 11 Bảng 2.2 Thống kê mối quan hệ mức độ thực phẩm cần cung cấp độ tuổi 29 Bảng 2.3 Minh họa tìm ngưỡng 33 Footer Page of 63 Tài liu lun s phm of 63 MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỞ ĐẦU 1 Lý chọn đề tài Mục đích nhiệm vụ nghiên cứu Phương pháp nghiên cứu Nội dung đề tài CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm 1.2 Các bước khai phá liệu 1.2.1 Tìm hiểu toán 1.2.2 Thu thập xử lý liệu 1.2.3 Khai phá liệu lựa chọn giải thuật phù hợp 1.2.4 Phân tích đánh giá 1.2.5 Sử dụng kết 1.3 Một số kỹ thuật khai phá liệu 1.3.1 Phân lớp liệu 1.3.2 Phân cụm liệu 1.3.3 Sử dụng luật kết hợp 1.3.4 Sử dụng định CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 2.1 Kỹ thuật khai phá liệu sử dụng định 2.1.1 Các kiểu định 2.1.2 Đánh giá định lĩnh vực khai phá liệu 2.1.3 Xây dựng định 2.2 Các thuật toán sử dụng định Footer Page of 63 Tài liu lun s phm of 63 2.2.1 Thuật toán CLS 2.2.2 Thuật toán ID3 13 2.2.3 Thuật toán C4.5 25 2.3 Cắt tỉa định 35 2.4 Đánh giá thuật toán 36 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG 38 3.1 Lựa chọn thuật toán 38 3.2 Lựa chọn ngơn ngữ lập trình 38 3.3 Chương trình 38 3.3.1 Phát biểu toán 38 3.3.2 Yêu cầu toán 38 3.3.3 Giao diện chương trình 39 3.3.4 Đánh giá kết chương trình 41 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 43 TÀI LIỆU THAM KHẢO 44 Footer Page of 63 Tài liu lun s phm of 63 MỞ ĐẦU Lý chọn đề tài Ngày nay, với phát triển mặt đời sống từ văn hóa, giáo dục cơng nghệ đặc biệt lĩnh vực cơng nghệ thơng tin có bước phát triển chóng mặt Cùng với phát triển lượng liệu thu thập ngày nhiều, lượng thông tin lưu trữ thiết bị ngày tăng lên Để tìm thơng tin hữu ích lượng liệu khổng lồ ngày khó Chính mà phát triển kỹ thuật nhằm tìm thơng tin hữu ích khai phá liệu Nghề nghiệp vấn đề quan trọng người, có nhiều bạn băn khoăn việc lựa chọn nghề nghiệp cho thân mình, đặc biệt học sinh lớp 12 Do việc hướng nghiệp cho học sinh trung học phổ thông cần thiết Trước thực tế đó, tơi chọn đề tài: “Tìm hiểu khai phá liệu định ứng dụng hướng nghiệp” cho khóa luận tốt nghiệp Mục đích nhiệm vụ nghiên cứu - Mục đích: Từ việc nghiên cứu phương pháp khai phá liệu định để xây dựng mơ hình phân tích kết học tập đưa tư vấn nghề nghiệp cho học sinh - Nhiệm vụ nghiên cứu: + Tìm hiểu kỹ thuật khai phá liệu, thuật toán áp dụng cho kỹ thuật + Áp dụng thuật toán định để phân tích kết học tập học sinh Phương pháp nghiên cứu - Phương pháp nghiên cứu lí thuyết: Tìm hiểu lựa chọn phương pháp khai phá liệu cho phù hợp - Phương pháp nghiên cứu thu thập thơng tin, phân tích số liệu: Footer Page of 63 Tài liu lun s phm of 63 Thu thập thống kê số liệu từ khảo sát sinh viên, phân tích liệu, tham khảo tài liệu chuyên gia hướng nghiệp cho học sinh để có kinh nghiệm Nội dung đề tài Ngồi phần mở đầu, kết luận, tài liệu tham khảo, phụ lục luận văn bao gồm chương CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG Footer Page of 63 Tài liu lun s phm 10 of 63 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu [6] Các tên gọi khác như: Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (phân tích liệu/mẫu), data archaeoloogy (khảo cổ liệu), datadredging (nạo vét liệu), 1.2 Các bước khai phá liệu 1.2.1 Tìm hiểu tốn Đây bước đầu khai phá liệu nhằm xác định tri thức lĩnh vực, mục đích toán xây dựng toán cụ thể giúp định hướng cho giai đoạn khai phá liệu 1.2.2 Thu thập xử lý liệu Đây giai đoạn quan trọng trình khai phá thơng tin thu thập chưa đầy đủ, xác cần phải xử lý, chọn lọc không dẫn đến kết không mong muốn khai phá liệu 1.2.3 Khai phá liệu lựa chọn giải thuật phù hợp Sau liệu thu thập, xử lý bắt đầu lựa chọn phương pháp khai phá phù hợp với liệu có 1.2.4 Phân tích đánh giá Dựa số tiêu chí tiến hành kiểm tra chọn lọc nguồn tri thức thu 1.2.5 Sử dụng kết Sau trình chắt lọc, tìm kiếm tri thức tìm đem vảo sử dụng Các kết q trình phát tri thức đưa ứng dụng lĩnh vực khác Footer Page 10 of 63 Tài liu lun s phm 37 of 63 Chọn thuộc tính: + Tuổi: Có giá trị 17, 19, 22, 31, 42, 63 Giá trị tuổi 17 19 22 31 42 63 Số lượng 1 [ cao, thấp ] [1;0] [1;0] [1;0] [1;1] [1;2] [0;1] Khi a = 17 ta có: 1 1 1 1 1 1 1 1 2 2 1 2 3 3 1 1 Entropy (Ttuổi = 17) = Entroy([1+,0-]) = - log = Khi a = 19 ta có: Entropy (Ttuổi = 19) = Entroy([1+,0-]) = - log = Khi a = 22 ta có: Entropy (Ttuổi = 22) = Entroy([1+,0-]) = - log = Khi a = 31 ta có: Entropy (Ttuổi = 31) = Entroy([1+,1-]) = - log - log = Khi a = 42 ta có: Entropy (Ttuổi = 42) = Entroy([1+,2-]) = - log - log = 0.918 Khi a = 63 ta có: Entropy (Ttuổi = 63) = Entroy([0+,1-]) = - log = Gain( Tuổi, T) = Entropy(T) - ∑𝑖 ∊{ 17,19,22,31,42,63} |𝑇𝑖| |𝑇| Entropy (Ti) 1 9 9 = Entropy(T) - Entropy (Ttuổi = 17) - Entropy (Ttuổi = 19) - Entropy (Ttuổi = 22) 9 Entropy (Ttuổi = 31) - Entropy (Ttuổi = 42) - Entropy (Ttuổi = 63) = 0.991 - – – - – 0.306 -0 = 0.463 Tính SplitInfo (T, Tuổi) ta có: SplitInfo (X, Tuổi) = ∑𝑖 ∊𝑉𝑎𝑙𝑢𝑒 (𝑋) |𝑇𝑖| |𝑇| log2 Trong đó: 30 Footer Page 37 of 63 |𝑇𝑖| |𝑇| Tài liu lun s phm 38 of 63 Value (X) tập giá trị thuộc X Ti tập T ứng với thuộc tính X = giá trị Vi |𝑇𝑖| SplitInfo (Tuổi, T) = - ∑𝑖 ∊{ 17,19,22,31,42,63} =- |𝑇𝑡𝑢ổ𝑖=17 | |𝑇| Log2 - × Log2 |𝑇𝑡𝑢ổ𝑖=22 | |𝑇| |𝑇𝑡𝑢ổ𝑖=64 | |𝑇| - |𝑇𝑡𝑢ổ𝑖=17 | - |𝑇| |𝑇𝑡𝑢ổ𝑖=31 | |𝑇| |𝑇𝑡𝑢ổ𝑖=19 | |𝑇| × Log2 Entropy (Ti) |𝑇| × Log2 |𝑇𝑡𝑢ổ𝑖=31 | |𝑇| - |𝑇𝑡𝑢ổ𝑖=19 | |𝑇| |𝑇𝑡𝑢ổ𝑖=43 | |𝑇| - |𝑇𝑡𝑢ổ𝑖=22 | |𝑇| × Log2 |𝑇𝑡𝑢ổ𝑖=43| |𝑇| |𝑇𝑡𝑢ổ𝑖=64| × Log2 |𝑇| 1 1 1 2 3 1 9 9 9 9 9 9 = - log2 - log2 - log2 - log2 - log2 - log2 = 2.419 Tính GainRatio (Tuổi, T), ta có: GainRatio (X, T) = - 𝐺𝑎𝑖𝑛 (𝑋,𝑇) 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑋,𝑇) GainRatio (Tuổi, T) = - 𝐺𝑎𝑖𝑛 (𝑇𝑢ổ𝑖,𝑇) 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑇𝑢ổ𝑖,𝑇) = 0.463 2.419 = 0.191 * Xét thuộc tính Thực phẩm: Sữa, gạo, ngơ Giá trị Thực phẩm Sữa Gạo Ngô Số lượng [ cao, thấp] [2;2] [3;0] [0;2] Khi Thực phẩm = Sữa có: Entropy(TThực phẩm = Sữa) = Entropy ([2+;2-]) 2 2 4 4 = - log2 - log2 = Khi Thực phẩm = Gạo có: Entropy(TThực phẩm = Gạo) = Entropy ([3+;0-]) 3 3 = - log2 = Khi Thực phẩm = Ngơ có: Entropy(TThực phẩm = Ngơ) = Entropy ([0+;2-]) 2 2 = - log2 =0 31 Footer Page 38 of 63 × Tài liu lun s phm 39 of 63 Từ kết ta tính : Gain(Thực phẩm, T) = Entropy(T) - ∑𝑖 ∊{ 𝑆ữ𝑎,𝑔ạ𝑜,𝑛𝑔ô} 9 |𝑇𝑖| |𝑇| Entropy(Ti) = Entropy(T) - Entropy(TThực phẩm = Sữa) - Entropy(TThực phẩm = Gạo) Entropy(TThực phẩm = Ngơ) = 0.547 Tính SplitInfo (Thực phẩm, T) ta có: SplitInfo (Thực phẩm, T) = - ∑𝑖 ∊{𝑆ữ𝑎,𝐺ạ𝑜,𝑁𝑔ơ} =- |𝑇𝑇ℎự𝑐 𝑝ℎẩ𝑚=𝑆ữ𝑎 | |𝑇| × Log2 |𝑇 𝑇ℎự𝑐 𝑝ℎẩ𝑚=𝑔ạ𝑜| |𝑇| 4 3 2 9 9 9 = - log2 - log2 - log2 |𝑇𝑖| |𝑇| log2 |𝑇𝑇ℎự𝑐 𝑝ℎẩ𝑚=𝑆ữ𝑎 | |𝑇| - |𝑇𝑖| |𝑇| - |𝑇𝑇ℎự𝑐 𝑝ℎẩ𝑚=𝑁𝑔ô | |𝑇| |𝑇𝑇ℎự𝑐 𝑝ℎẩ𝑚=𝐺ạ𝑜 | |𝑇| × Log2 × Log2 |𝑇𝑇ℎự𝑐 𝑝ℎẩ𝑚=𝑁𝑔ơ| |𝑇| = 1.531 Tính GainRatio (Thực phẩm, T): Ta có: GainRatio (Thực phẩm, T) = 𝐺𝑎𝑖𝑛 (𝑇ℎự𝑐 𝑝ℎẩ𝑚,𝑇) 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝑇ℎự𝑐 𝑝ℎẩ𝑚,𝑇) = 0.547 1.531 = 0.352 Ta thấy GainRatio (Thực phẩm, T) > GainRatio (Tuổi, T) Chọn thuộc tính Thực phẩm Phân chia theo giá trị thuộc tính Thực phẩm ta có = {Sữa, Gạo, Ngơ} ta có: Thực phẩm Sữa N1 [1,4,6,7] Gạo Ngô N2 N3 [2,3,8] [5,9] Hình 2.4: Phân chia theo giá trị thuộc tính Xét nút N1 nhánh bên trái (Thực phẩm = Sữa) hình 2.4 mẫu khơng lớp, chọn thuộc tính Tuổi để mở rộng 32 Footer Page 39 of 63 Tài liu lun s phm 40 of 63 Xét nút Tuổi: Gọi tập liệu mẫu nút T = TTuổi = Sữa Tuổi có giá trị 19, 22, 42, 63 Giá trị tuổi 19 22 42 63 Số lượng 1 1 Tổng số mẫu: |T| = 4, đó: mẫu có giá trị Cao (+) mẫu có giá trị Thấp (-) Ký hiệu: T = [2+, 2-], ta có: Entropy(T) = Entropy([2+,2-]) = Thuộc tính tuổi thuộc tính số, tìm ngưỡng cho phép tách: Giá trị tuổi 19 22 42 63 Số lượng 1 1 [cao, thấp] [1;0] [0;1] [1;0] [1;0] TH = (v1+v2+1)/2 20.5 32 52.5 ≤ > ≤ > ≤ > Số lượng 2 [cao, thấp] [1;0] [1;2] [2;0] [0;2] [2;1] [0;1] Bảng 2.3 Minh họa tìm ngưỡng Xét ngưỡng v = 20.5 tập liệu nút phân thành tập T1, T2 T1 = {vj | vj ≤ 20.5 }; T2 = { vj | vj > 20.5}; Gain(Tv=20.5, T)= Entropy(T) - ∑𝑖∈{(≤20.5),(>20.5)} 4 |𝑇 𝑖| |𝑇| Entropy(Ti) = Entropy(T) - Entropy(T1) - Entropy(T2) = 0.311 1 1 Entropy(T1) = Entropy(T tuổi ≤ 20.5) = Entropy ([1+, 0- ]) = - log2 = 1 2 3 3 Entropy(T2) = Entropy(T tuổi > 20.5) = Entropy ([1+, 2- ]) = - log2 - log2 = 0.918 SplitInfo(Tv=20.5,T) = - ∑𝑖∈{(≤20.5),(>20.5)} |Tv≤20.5| = - |𝑇| × log2 |Tv20.5| |𝑇| × log2 |𝑇 𝑖| |𝑇| |Tv>20.5| 33 Footer Page 40 of 63 log2 |𝑇| |Ti| |𝑇| Tài liu lun s phm 41 of 63 =- 3 4 log2 - log2 = 0.811 GainRatio(Tv=20.5,T) = Gain(Tv=20.5,T) SplitInfo(Tv=20.5,T) = 0.383 Tương tự xét ngưỡng v = 32 v = 52.5 ta có: GainRatio(Tv=32,T) = Gain(Tv=32,T) SplitInfo(Tv=32,T) GainRatio(Tv=52.5,T) = =1 Gain(Tv=52.5,T) SplitInfo(Tv=52.5,T) = 0.383 Sau ki tính tốn ta có được: Thực phẩm Thực phẩm N2 [1,4,6,7][N4,N5,N6,N10,N14] 32 [4,7] Hình 2.5: Cây định có ngưỡng cho phép tách Xét nút nút Tuổi: - Lớp cao: mẫu [1,6] => Nút có tập mẫu [1,6] nút có nhãn cao - Lớp thấp: mẫu [4,7] => Nút có tập mẫu [4,7] nút có nhãn thấp Với nút lại ta làm tương tự, có được: - Với nút N2: Các mẫu [2,3,8] thuộc lớp Cao => N2 nút có nhãn Cao - Với nút N3: Các mẫu [5,9] thuộc lớp Thấp => N2 nút có nhãn Thấp Sau tính tốn ta có cây: 34 Footer Page 41 of 63 Tài liu lun s phm 42 of 63 Thực phẩm Sữa Gạo Tuổi [1,4,6,7] 32 Thấp [4,7] Hình 2.6: Kết sử dụng thuật toán C4.5 2.3 Cắt tỉa định Ở thuật toán xây dựng định, để xây dựng định cách phát triển đầy đủ theo chiều sâu để phân lớp hồn tồn mẫu huấn luyện Thường gặp khó khăn trường hợp liệu bị thiếu, bị nhiễu với thuật toán CLS ID3 Nếu ta phát triển dựa thuật tốn ta dẫn đến “Over fitting” định Over fitting vấn đề khó khăn việc nghiên cứu ứng dụng định Để giải vấn đề người ta sử dụng phương pháp cắt tỉa định Có hai phương pháp cắt tỉa định: Tiền cắt tỉa hậu cắt tỉa - Tiền cắt tỉa: Tiền cắt tỉa dừng sớm việc phát triển trước vươn đến điểm mà việc phân lớp mẫu huấn luyện hồn thành Hay q trình xây dựng cây, nút khơng tách thêm bước kết phép tách rơi vào ngưỡng gần chắn Nút trở thành nút gán nhãn nhãn lớp phổ biến tập mẫu nút - Hậu cắt tỉa: Với hậu cắt tỉa, phát triển đầy đủ sau thực cắt tỉa Các nhánh không hợp lý cắt bỏ Nếu nút mà có bị 35 Footer Page 42 of 63 Tài liu lun s phm 43 of 63 cắt trở thành nút nhãn gán nhãn lớp phổ biến trước So với tiền cắt tỉa hậu cắt tỉa mạng lại thành cơng Hậu cắt tỉa tiến hành thơng qua việc tính toán lỗi sau: Giả sử ta gọi: E(S) lỗi tĩnh nút S; BackUpError(s) lỗi từ nút S (Back up Error); Error(s) lỗi nút S Các giá trị tính sau: Error(S) = Min(E(S), BackUpError(S)) E(S)= (N – n+1)/ (N+2) Trong đó: N tổng số mẫu nút S, n số mẫu lớp phổ biến S Trong trường hợp tổng quát, thuộc tính lớp có K giá trị (K lớp) thì: E(S) = (N – n + K – 1)/ (N+K) BackUpError(S) = ∑𝑖 Pi Error(Si) Trong đó: Si nút S, Pi tỷ lệ số mẫu Si số mẫu S Từ ta thấy nút có lỗi Error(Si) = E(Si) nút khơng có nút dẫn đến khơng có lỗi BackUpError Nếu BackUpError(S) ≥ E(S) chiến thuật hậu cắt tỉa định cắt nút S Như vậy, mục đích việc cắt tỉa định tối ưu hóa kết Tối ưu kích thước độ xác việc phân lớp cách cắt bỏ nhánh không phù hợp Có số thuật tốn dùng cho việc cắt tỉa cây: - Thuật toán CART: Sử dụng tập hợp tách rời mẫu học để đánh giá hữu dụng việc hậu cắt tỉa nút trng Thuật toán gọi cắt tỉa chi phí phức tạp - Cắt tỉa bi quan: Kỹ thuật áp dụng phương pháp thống kê để đánh giá việc mở rộng hay để cắt bỏ nhánh có độ tin cậy Các xây dựng theo thuật toán ID3, C4.5 thường dùng kỹ thuật để cắt tỉa - Kỹ thuật mô tả độ dài tối thiểu MDL: Với kỹ thuật khơng cần thiết phải kiểm tra mẫu 2.4 Đánh giá thuật toán 36 Footer Page 43 of 63 Tài liu lun s phm 44 of 63 - Ra đời sớm thuật toán CLS, Chỉ sở liệu có thuộc tính dạng phân loại rời rạc, thuộc tính nhỏ áp dụng Còn sở liệu có thuộc tính phân loại liên tục, thuộc tính lớn khơng mang lại hiệu cao thuật toán Với tập liệu đầu vào có kết khác Bởi thuật tốn chưa có tiêu chí để lựa chọn thuộc tính q trình xây dựng Ngồi điều nêu trên, thuật tốn CLS có ưu điểm chưa kể đến đơn giản, dễ cài đặt, thích hợp với nhiệm vụ đơn giản - Ngay sau thuật toán CLS thuật toán ID3 Thuật toán ID3 cải tiến so với thuật toán CLS Khi áp dụng thuật toán ID3 với tập liệu đầu vào nhận tập kết Bởi trình xây dựng tiến hành cách tỷ mỉ Nhưng bên cạnh đó, thuộc tính số nhược điểm như: Chưa giải vấn đề thuộc tính số, thuộc tính liên lục giải hạn chế với vấn đề liệu bị thiếu, bị nhiễu - Cuối thuật toán C4.5: Thuật toán C4.5 khắc phục nhược điểm thuật tốn ID3 vấn đề thuộc tính số, thuộc tính liên lục giải hạn chế với vấn đề liệu bị thiếu, bị nhiễu Với thuật toán C4.5 thực việc phân ngưỡng với thuộc tính số phép tách nhị phân đưa vào đại lượng GainRatio thay cho đại lượng Gain thuật tốn ID3 Thuật tốn C4.5 có ưu điểm có bước cắt tỉa nhánh khơng phù hợp Nhược điểm thuật tốn làm việc khơng hiệu với sở liệu lớn chưa giải vấn đề nhớ 37 Footer Page 44 of 63 Tài liu lun s phm 45 of 63 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG 3.1 Lựa chọn thuật toán Cây định phân cấp dùng để phân lớp đối tượng dựa vào dãy luật Với thuật toán phân lớp ID3, C4.5 … đề tài lựa chọn ID3 số lý sau: - ID3 giải thuật đơn giản nhiều lĩnh vực lại thành cơng giải thuật tiềm sử lý liệu bị nhiễu, tiếp cận việc quản lý tính phức tạp - ID3 biểu diễn khái niệm dạng định Biểu diễn cho phép xác định phân loại đối tượng cách kiểm tra giá trị số thuộc tính Vì vậy, thực thuật toán ID3 đạt hiệu cao 3.2 Lựa chọn ngơn ngữ lập trình Đề tài lựa chọn ngơn ngữ lập trình PHP số lí sau: - PHP ngơn ngữ đơn giản, dễ dàng sử dụng với tất người - PHP có tốc độ hoạt động nhanh, mang lại hiệu cao - Thư viện PHP phong phú - PHP sử dụng nhiều hệ điều hành khác 3.3 Chương trình 3.3.1 Phát biểu toán Xây dựng ứng dụng tư vấn hướng nghiệp chọn ngành học phù hợp với học sinh hỗ trợ phần khó khăn, vướng mắc việc chọn ngành học 3.3.2 Yêu cầu toán - Mục đích: Xây dựng chương trình hướng nghiệp cho học sinh - Input: Thông tin học sinh, học sinh trả lời câu hỏi trắc nghiệm hướng nghiệp John L.Holland - Output: Ngành học phù hợp với học sinh 38 Footer Page 45 of 63 Tài liu lun s phm 46 of 63 3.3.3 Giao diện chương trình Người dùng sử dụn Internet, đăng nhập vào trang web với địa sau: http://thuylinh.cf:82 a) Form đăng nhập Hình 3.1: Đăng nhập b) Form đăng ký Hình 3.2: Đăng ký c) Form trắc nghiệm 39 Footer Page 46 of 63 Tài liu lun s phm 47 of 63 Hình 3.3: Làm trắc nghiệm d) Form kết Hình 3.4: Kết 40 Footer Page 47 of 63 Tài liu lun s phm 48 of 63 Hình 3.5: Kết e) Form lưu trữ thơng tin Hình 3.6: Lưu trữ thơng tin 3.3.4 Đánh giá kết chương trình + Ưu điểm: - Chương trình chạy nên web - Chương trình truyền đạt nội dung thuật toán, khai phá thông tin lựa chọn ngành học học sinh, hỗ trợ em lựa chọn ngành học phù hợp với thân - Chương trình dễ hiểu, giao diện thân thiện 41 Footer Page 48 of 63 Tài liu lun s phm 49 of 63 + Hạn chế: - Chương trình chưa bao quát hết tất ngành học - Chưa có phương pháp tối ưu hóa liệu thực liệu lớn 42 Footer Page 49 of 63 Tài liu lun s phm 50 of 63 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt - Khóa luận trình bày tổng quan khai phá liệu, phương pháp khai phá liệu đinh - Đã ứng dụng kỹ thuật phân lớp liệu vào tư vấn chọn ngành cho học sinh Trung học Phổ Thông - Với mục tiêu ban đầu đặt ra, chương trình khai phá thơng tin giúp học sinh lựa chọn ngành phù hợp với thân Hướng phát triển luận văn - Nghiên cứu sâu để phát triển thêm chức tư vấn cho học sinh - Đưa thêm chức tư vấn - Thiết kế giao diện đễ dùng, đẹp - Xây dựng hệ thống tư vấn cho tất ngành học 43 Footer Page 50 of 63 Tài liu lun s phm 51 of 63 TÀI LIỆU THAM KHẢO [1] B.K Baradwaj, S.Pal Mining Educational Data to Analyze Student’Performance International Jounal of Advanced Computer - Science and Aplications [2] Cây định - Đại Học Sư Phạm Huế [3] Giáo trình Khai phá liệu - Ts Lê Văn Phùng - Ths Quách Xuân Trường, Nhà xuất Thông tin truyền thông [4] Ho Tu Bao, Chapper 3: Data mining with Decision Tree [5] Lynda Jean Allen, The Appropriateness of Holland’s intersest code typology for South African field guides, Faculty of Health Sciences at the Nelson Mandela Matropolitan University [6] Tổng quan khai phá liệu - Hoàng Nguyễn https://www.academia.edu/6240257/Ch%C6%B0%C6%A1ng_1._T%E1%BB%94NG_QUAN_V%E1%B B%80_KHAI_PH%C3%81_D%E1%BB%AE_LI%E1%BB%86U_WEB [ 7] Ứng dụng khai phá liệu chọn ngành nghề học sinh THPT - Nguyễn Đặng Thế Vinh 44 Footer Page 51 of 63 ... QUAN VỀ KHAI PHÁ DỮ LIỆU CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG Footer Page of 63 Tài liu lun s phm 10 of 63 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ... cụm liệu 1.3.3 Sử dụng luật kết hợp 1.3.4 Sử dụng định CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 2.1 Kỹ thuật khai phá liệu sử dụng. .. nghiệp cho thân mình, đặc biệt học sinh lớp 12 Do việc hướng nghiệp cho học sinh trung học phổ thông cần thiết Trước thực tế đó, tơi chọn đề tài: Tìm hiểu khai phá liệu định ứng dụng hướng nghiệp