Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,59 MB
Nội dung
ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THƠNG TIN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC Đề tài: TÌM HIỂU VỀ PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG Sinh viên thực hiện: PHẠM THỊ THÚY SANG Khóa: K40- Hệ quy Huế, tháng – năm 2020 ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CƠNG NGHỆ THƠNG TIN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH CƠNG NGHỆ THƠNG TIN Đề tài: TÌM HIỂU VỀ PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG Sinh viên thực hiện: PHẠM THỊ THÚY SANG Khóa: K40- Hệ quy Giáo viên hướng dẫn: TS LÊ VĂN TƢỜNG LÂN Huế, tháng – năm 2020 Khoá Luận Tốt Nghiệp Đại Học GVHD: TS Lê Văn Tường Lân LỜI CẢM ƠN Để hồn thành khóa luận tốt nghiệp này, em xin chân thành cảm ơn quý Thầy giáo, Cô giáo Khoa Công nghệ thông tin, Trường Đại học Khoa học, Đại học Huế truyền đạt cho em kiến thức quý báu bổ ích suốt 04 năm học vừa qua Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo TS Lê Văn Tường Lân, người trực tiếp hướng dẫn em suốt q trình thực đề tài khóa luận Em xin gửi lời cảm ơn đến gia đình, bạn bè, người nhiệt tình ủng hộ tạo động lực cho em hoàn thành tốt đề tài Tuy hoàn thành đề tài, song hạn chế mặt kiến thức số lý khách quan khác nên đề tài không tránh khỏi thiếu sót Vây, em mong thơng cảm nhận đóng góp ý kiến q thầy giáo tồn thể bạn để khóa luận đạt kết tốt Em xin chân thành cảm ơn Huế, tháng 06 năm 2020 Sinh viên thực Phạm Thị Thúy Sang i Khoá Luận Tốt Nghiệp Đại Học GVHD: TS Lê Văn Tường Lân DANH MỤC HÌNH ẢNH Hình 1.1: Các bước khai phá liệu Hình 2.1: Mơ hình định sau xét xong nút 40 Hình 2.2: Cây định xây dựng thuật toán C4.5 41 Hình 3.1: Trang chủ download phần mềm weka 47 Hình 3.2: Giao diện phần mềm weka 47 Hình 3.3 Chọn tùy chọn Explore phần mềm weka 48 Hình 3.4 Chọn tùy chọn preprocess 48 Hình 3.5 Chọn tùy chọn Open file 48 Hình 3.6 Chọn file lưu trữ liệu cần dùng 49 Hình 3.7: Đưa thuộc tính dạng numericToNomial 50 Hình 3.8: Chọn lớp cần xuất biểu đồ 51 Hình 3.9: Chọn J48 51 Hình 3.10: Chọn giá trị chạy thuật toán 52 Hình 3.11: Bảng kết xác suất phân lớp liệu chuẩn đốn bệnh tim 52 Hình 3.12: Cây định phân lớp liệu theo Target 53 Hình 3.13: Dạng xml 54 Hình 3.14: Code chạy javascript truy vấn trình duyệt 55 Hình 3.15: Chạy dịng lệnh py -m http.server 55 Hình 3.16: Ứng dụng dạng html 56 Hình 3.17: Bảng kết chạy ứng dụng 56 Hình 3.18: Biểu đồ kết phân lớp theo độ tuổi 57 Hình 3.19: Biểu đồ phân lớp theo giới tính 57 Hình 3.20: Biểu đồ phân lớp theo hình thái đường ST 58 ii Khoá Luận Tốt Nghiệp Đại Học GVHD: TS Lê Văn Tường Lân DANH MỤC BẢNG BIỂU Bảng 2.1: Tập huấn luyện mô tả mức độ nguy hiểm lái xe 36 Bảng 2.2: Giá trị Node sau khởi tạo, bảng thứ tự theo Age 37 Bảng 2.3: Phân tích giá trị thuộc tính Age 38 Bảng 2.4: Phân tích giá trị thuộc tính CarType 38 Bảng 2.5: Nội dung sau xét xong nút 39 Bảng 2.6: Giá trị Node sau xét xong nút 40 Bảng 3.1: Mơ tả database có UCI 44 Bảng 3.2: Mô tả ý nghĩa thuộc tính liệu 45 iii Khoá Luận Tốt Nghiệp Đại Học GVHD: TS Lê Văn Tường Lân MỤC LỤC LỜI CẢM ƠN i DANH MỤC HÌNH ẢNH ii DANH MỤC BẢNG BIỂU iii MỤC LỤC iv LỜI MỞ ĐẦU Chƣơng TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Động thúc đẩy khám phá tri thức khai phá liệu 1.2 Các giai đoạn phát triển sở liệu 1.3 Tiến trình khám phá tri thức sở liệu khai phá liệu 1.4 Chức luận khai phá liệu loại mẫu khai phá 1.5 Những lợi thách thức khai phá liệu 10 1.5.1 Những lợi 10 1.5.2 Những thách thức khai phá liệu 11 Kết chƣơng 14 Chƣơng MỘT SỐ PHƢƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 15 2.1 Bài toán phân lớp 15 2.1.1 Khái niệm phân lớp 15 2.1.2 Tiến trình phân lớp 16 2.2 Phân lớp phương pháp Naive Bayes 17 2.1.1 Các công thức xác suất quan trọng 17 2.2.2 Lý thuyết Bayes 18 2.2.3 Phân lớp Naive Bayes 18 2.2.4 Ưu, nhược điểm thuật toán Naive Bayes 20 iv Khoá Luận Tốt Nghiệp Đại Học GVHD: TS Lê Văn Tường Lân 2.3 Phân lớp thuật toán K – Láng giềng gần (K-Nearest Neighbors) 20 2.3.1 Giới thiệu thuật toán K-Nearest Neighbors 20 2.3.2 Đầu vào đầu 21 2.3.3 Quy trình làm việc thuật tốn KNN 21 2.3.4 Một vài ví dụ thực tế 21 2.3.5 Ưu điểm nhược điểm thuật toán KNN 22 2.4 Phân lớp mạng lan truyền ngược (mạng nơron) 22 2.4.1 Tổng quan mạng nơron 22 2.4.2 Phân lớp mạng lan truyền ngược (Back-Propagation) 24 2.5 Phân lớp phương pháp định 25 2.5.1 Phát biểu toán phân lớp liệu định 25 2.5.2 Các kiểu định 27 2.5.3 Thuật toán phân lớp liệu định 28 2.5.4 Ưu điểm định 29 2.5.5 Nhược điểm định 30 2.5.6 Ứng dụng định 30 2.5.7 Giới thiệu số thuật toán xây dựng định 31 2.5.8 Vấn đề “Quá khớp” (Overfitting) việc phân lớp cách xử lý overfitting 41 Kết chƣơng 43 Chƣơng ỨNG DỤNG MƠ HÌNH CÂY QUYẾT ĐỊNH TRONG CƠNG TÁC DỰ ĐOÁN BỆNH NHÂN MẮC BỆNH TIM 44 3.1 Đặt vấn đề 44 3.2 Mô tả liệu cho toán 44 3.3 Công cụ xây dựng 46 3.4 Mô phỏng, đánh giá kết 47 3.4.1 Hướng dẫn cài đặt phần mềm Weka 47 3.4.2 Hướng dẫn dùng phần mềm Weka 47 3.4.3 Bảng kết 52 v Khoá Luận Tốt Nghiệp Đại Học GVHD: TS Lê Văn Tường Lân 3.4.4 Ứng dụng file xml để truy vấn 53 3.4.5 Đánh giá kết quả, kết luận 56 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 59 TÀI LIỆU THAM KHẢO 61 vi Khoá Luận Tốt Nghiệp Đại Học GVHD: TS Lê Văn Tường Lân LỜI MỞ ĐẦU Con người sở hữu kho liệu phong phú, đa dạng khổng lồ Đặc biệt phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực làm kho liệu tích lũy ngày nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng khoảng từ 5% đến 10% liệu ln phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Một vấn đề đặt làm sử dụng cách hữu hiệu kho liệu khổng lồ đó? Mặt khác, mơi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Do vậy, năm gần đây, phát triển tin học không đơn phát triển công nghệ phần cứng, hệ phần mềm ứng dụng lớn mà phát triển hệ phần mềm thông minh, hệ chuyên gia… Những hệ phần mềm không giúp cho người sử dụng thực việc biến đổi xử lý liệu sở liệu lớn vào thời điểm bùng nổ thông tin mà giúp người sử dụng tìm kiếm hiểu biết tri thức sở liệu đó, chí tri thức mà người sử dụng chưa biết trước Đó kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Khai phá liệu sử dụng khả tính tốn hiệu giá rẻ để tự động kết xuất thơng tin có cấu trúc, tri thức cần thiết ẩn chứa khối lượng lớn liệu lưu trữ Các kỹ thuật phát tri thức khai phá liệu thực qua nhiều giai Khoá Luận Tốt Nghiệp Đại Học GVHD: TS Lê Văn Tường Lân đoạn sử dụng nhiều kỹ thuật, bao gồm hoạt động như: phân lớp (classification), phân nhóm (clustering), phân tích tương tự (similarity analysis), tổng hợp (sumamarization), phát luật kết hợp (association rule) mẫu (sequential pattern),… Khai phá liệu để phát thông tin bổ ích tiềm ẩn bên trong, tức tri thức, nhằm phục vụ cho hoạt động ngày trở nên quan trọng Do có nhiều phương pháp, kỹ thuật tập trung nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới Tại Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Với mong muốn tìm hiểu, nghiên cứu lĩnh vực mẻ này, chọn đề tài Nội dung luận văn gồm có phần mở đầu, kết luận, tài liệu tham khảo ba chương Nội dung chương sau: Chƣơng Tổng quan khai phá liệu: Tìm hiểu cách tổng quan khai phá liệu, bao gồm động thúc đẩy khám phá tri thức khai phá dữu liệu, giai đoạn phát triển khai phá liệu, tiến trình khám phá liệu, chức khai phá liệu Từ đưa lợi thách thức khai phá liệu Chƣơng Các phƣơng pháp phân lớp khai phá liệu: Trong chương này, luận văn tìm hiểu cách tổng quát tốn phân lớp tìm hiểu rõ số phương pháp phân lớp sâu tìm hiểu thuật tốn C4.5 Từ đưa ưu, nhược điểm phương pháp phân lớp khai phá liệu, đồng thời áp dụng thuật toán C4.5 để áp dụng cho ứng dụng chương 3, Chƣơng Ứng dụng mơ hình định cơng tác dự đoán bệnh nhân mắc bệnh tim: Từ phương pháp định, áp dụng vào toán dự đoán bệnh nhân mắc bệnh tim phần mềm Weka chương trình chạy ngơn ngữ Python, từ đưa nhận xét đánh giá cho toán