Mục lục Chương 1 Tổng quan khai phá dữ liệu, tiền xử lý dữ liệu 6 1.1 Đặt vấn đề 6 1.2 Tổng quan về khai phá dữ liệu 6 1.2.1 Khái niệm 6 1.2.2 Quy trình khai phá tri thức 7 1.2.3 Lợi ích của khai phá dữ liệu 8 1.2.4 Ứng dụng của khai phá dữ liệu 8 1.3. Tiền xử lý dữ liệu 9 1.3.1 Khái niệm 9 1.3.2 Làm sạch dữ liệu (data cleaning) 10 1.3.3 Tích hợp dữ liệu (data integration) 10 1.3.4 Biến đổi dữ liệu (data transformation) 10 1.3.5 Thu giảm dữ liệu (data reduction) 11 Chương 2 Khái quát các thuật toán được sử dụng để khai phá dữ liệu 12 2.1 Phân lớp dữ liệu 12 2.1.1 Khái niệm 12 2.1.2 Các thuật toán phân lớp dữ liệu 12 2.2 Khai phá, kết hợp 12 2.3 Phân cụm 12 2.3.1 Khái niệm 12 2.3.2 Các thuật toán phân cụm 13 2.4 Sử dụng thuật toán phân lớp Naïve Bayes để dự đoán bệnh viêm gan và nhận biết nấm ăn được hay không. 13 2.4.1 Khái niệm thuật toán phân lớp Naïve Bayes 13 2.4.2 Ưu điểm của thuật toán Naïve Bayes 14 2.4.3 Nhược điểm của thuật toán Naïve Bayes 15 Chương 3 Thử nghiệm, kết quả 16 3.1 Các bước thử nghiệm 16 3.2 Kết quả thử nghiệm 18 3.2.1 Kết quả chạy thử nghiệm dự đoán bệnh viêm gan bằng thuật toán Naïve Bayes 18 3.2.2 Kết quả chạy thử nghiệm để nhận biết nấm có ăn được hay không bằng thuật toán Naïve Bayes 21 LỜI CẢM ƠN Nhóm chúng em xin chân thành cảm ơn các thầy, cô giáo trong Khoa Công nghệ thông tin, trường Đại học Điện Lực, đã tạo điều kiện cho em thực hiện đề tài này. Để có thể hoàn thành báo cáo đề tài “Khai phá dữ liệu sử dụng thuật toán phân lớp nhị phân để dự đoán bệnh viêm gan và nhận biết nấm ăn được hay không”, nhóm em xin gửi lời cảm ơn chân thành nhất tới thầy VŨ VĂN ĐỊNH, đã truyền đạt, giảng dạy cho chúng em những kiến thức, những kinh nghiệm qúy báu trong thời gian học tập và rèn luyện, tận tình hướng dẫn chúng em trong quá trình làm báo cáo này. Nhóm em cũng gửi lời cảm ơn tới bạn bè đã đóng góp những ý kiến quý báu để nhóm em có thể hoàn thành báo cáo tốt hơn. Tuy nhiên, do thời gian và trình độ có hạn nên báo cáo này chắc chắn không tránh khỏi những thiếu sót, nhóm em rất mong được sự đóng góp ý kiến của các thầy và toàn thể các bạn.
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN ĐỀ CƯƠNG CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU SỬ DỤNG THUẬT TOÁN PHÂN LỚP NẠVE BAYES ĐỂ CHUẨN ĐỐN BỆNH VIÊM GAN VÀ NHẬN BIẾT NẤM ĂN ĐƯỢC Giảng viên hướng dẫn : VŨ VĂN ĐỊNH Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : HTTMĐT Lớp : D13HTTMDT2 Khóa : 2018 – 2023 Hà Nội, tháng năm 2021 PHIẾU CHẤM ĐIỂM STT Họ tên giảng viên Nội dung thực Điểm Chữ ký Chương 1: Tổng quan khai phá liệu, tiền xử lý liệu Chương 2: Khái quát thuật toán sử dụng để khai phá liệu Chữ ký Giảng viên chấm 1: Giảng viên chấm 2: Ghi Mục lục Chương Tổng quan khai phá liệu, tiền xử lý liệu 1.1 Đặt vấn đề 1.2 Tổng quan khai phá liệu .6 1.2.1 Khái niệm 1.2.2 Quy trình khai phá tri thức 1.2.3 Lợi ích khai phá liệu 1.2.4 Ứng dụng khai phá liệu 1.3 Tiền xử lý liệu .9 1.3.1 Khái niệm 1.3.2 Làm liệu (data cleaning) 10 1.3.3 Tích hợp liệu (data integration) 10 1.3.4 Biến đổi liệu (data transformation) .10 1.3.5 Thu giảm liệu (data reduction) 11 Chương Khái quát thuật toán sử dụng để khai phá liệu 12 2.1 Phân lớp liệu 12 2.1.1 Khái niệm 12 2.1.2 Các thuật toán phân lớp liệu .12 2.2 Khai phá, kết hợp 12 2.3 Phân cụm 12 2.3.1 Khái niệm 12 2.3.2 Các thuật toán phân cụm 13 2.4 Sử dụng thuật toán phân lớp Nạve Bayes để dự đốn bệnh viêm gan nhận biết nấm ăn hay không 13 2.4.1 Khái niệm thuật tốn phân lớp Nạve Bayes 13 2.4.2 Ưu điểm thuật tốn Nạve Bayes 14 2.4.3 Nhược điểm thuật tốn Nạve Bayes 15 Chương Thử nghiệm, kết 16 3.1 Các bước thử nghiệm 16 3.2 Kết thử nghiệm 18 3.2.1 Kết chạy thử nghiệm dự đoán bệnh viêm gan thuật tốn Nạve Bayes 18 3.2.2 Kết chạy thử nghiệm để nhận biết nấm có ăn hay khơng thuật tốn Nạve Bayes 21 LỜI CẢM ƠN Nhóm chúng em xin chân thành cảm ơn thầy, cô giáo Khoa Công nghệ thông tin, trường Đại học Điện Lực, tạo điều kiện cho em thực đề tài Để hồn thành báo cáo đề tài “Khai phá liệu sử dụng thuật toán phân lớp nhị phân để dự đoán bệnh viêm gan nhận biết nấm ăn hay khơng”, nhóm em xin gửi lời cảm ơn chân thành tới thầy VŨ VĂN ĐỊNH, truyền đạt, giảng dạy cho chúng em kiến thức, kinh nghiệm qúy báu thời gian học tập rèn luyện, tận tình hướng dẫn chúng em q trình làm báo cáo Nhóm em gửi lời cảm ơn tới bạn bè đóng góp ý kiến quý báu để nhóm em hồn thành báo cáo tốt Tuy nhiên, thời gian trình độ có hạn nên báo cáo chắn khơng tránh khỏi thiếu sót, nhóm em mong đóng góp ý kiến thầy tồn thể bạn Nhóm sinh viên thực Chương Tổng quan khai phá liệu, tiền xử lý liệu 1.1 Đặt vấn đề Ứng dụng công nghệ thông tin vào việc lưu trữ xử lý thông tin ngày áp dụng hầu hết lĩnh vực, điều tạo lượng lớn liệu lưu trữ với kích thước tăng lên khơng ngừng Đây điều kiện tốt cho việc khai thác kho liệu để đem lại tri thức có ích với cơng cụ truy vấn, lập việc khai thác kho liệu để đem lại tri thức có ích với cơng cụ truy vấn, lập bẳng biểu khai phá liệu Khai phá liệu kỹ thuật dựa tảng nhiều lý thuyết xác xuất, thống kê, máy học nhằm tìm kiếm tri thức tiềm ẩn kho liệu có kích thước lớn mà người dùng khó nhận biết kỹ thuật thông thường Nguồn liệu y khoa lớn, áp dụng khai phá liệu lĩnh vực mang lại nhiều ý nghĩa cho ngành y tế Nó cung cấp nững thơng tin q giá nhằm hỗ trợ việc chuẩn đoán điều trị sớm giúp bệnh nhân thoát nhiều bệnh hiểm nghèo Ứng dụng thuật tốn Nạve Bayes vào thực tiễn nhóm em định làm để tài khai phá liệu sử dụng thuật tốn phân lớp Nạve Bayes để dự đoán bệnh viêm gan nhận biết nấm ăn hay không 1.2 Tổng quan khai phá liệu 1.2.1 Khái niệm Khai phá liệu ( Data Mining ) qui trình mà doanh nghiệp sử dụng để biến liệu thô thành thơng tin hữu ích Bằng cách dùng phần mềm để tìm mẫu hình tập liệu, doanh nghiệp hiểu khách hàng họ phát triển chiến lược marketing hiệu quả, giúp tăng doanh thu giảm chi phí 1.2.2 Quy trình khai phá tri thức - Tìm hiểu lĩnh vực tốn (ứng dụng): Các mục đích tốn,các tri thức cụ thể lĩnh vực - Tạo nên (thu thập) tập liệu phù hợp - Làm tiền xử lý liệu - Giảm kích thước liệu, chuyển đổi liệu: Xác định thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến - Lựa chọn chức khai phá liệu: Phân loại, gom cụm, dự báo, sinh luật kết hợp - Lựa chọn/ Phát triển (các) giải thuật khai phá liệu phù hợp - Tiến hành khai phá liệu - Đánh giá mẫu thu biểu diễn tri thức: Hiển thị hóa, chuyển đổi, bỏ mẫu dư thừa,… - Sử dụng tri thức khai phá Quá trình khám phá tri thức chuỗi lặp gồm bước: - Data cleaning (làm liệu) - Data integration (tích hợp liệu) - Data selection (chọn lựa liệu) - Data transformation (biến đổi liệu) - Data mining (khai phá liệu) - Pattern evaluation (đánh giá mẫu) - Knowledge presentation (biểu diễn tri thức) 1.2.3 Lợi ích khai phá liệu Lợi ích q trình phân tích liệu - Chọn lọc, loại bỏ tất liệu không liên quan liệu bị trùng - Xác định mẫu liệu, liệu có liên quan liệu trùng lặp tập liệu - Với data mining, phân tích khối lượng lớn liệu thời gian ngắn sau chuyển đổi liệu thành thơng tin, kiến thức Lợi ích sau Data mining - Hỗ trợ định tự động - Hỗ trợ đưa dự báo xác - Hỗ trợ giảm thiểu chi phí - Hỗ trợ khả thấu hiểu khách hàng 1.2.4 Ứng dụng khai phá liệu Kinh tế -ứng dụng kinh doanh, tài chính, tiếp thị bán hàng, bảo hiểm, thương mại, ngân hàng, … Đưa báo cáo giàu thơng tin; phân tích rủi ro trước đưa chiến lược kinh doanh, sản xuất; phân loại khách hàng từ phân định thị trường, thị phần; … Khoa học: Thiên văn học – dự đoán đường thiên thể, hành tinh, Công nghệ sinh học – tìm gen mới, giống mới… Web: cơng cụ tìm kiếm 1.3 Tiền xử lý liệu 1.3.1 Khái niệm Quá trình xử lý liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng liệu (quality of the data) từ cải thiện chất lượng kết khai phá Chất lượng liệu (data quality) - Tính xác (accuracy): giá trị ghi nhận với giá trị thực - Tính hành (currency/timeliness): giá trị ghi nhận khơng bị lỗi thời - Tính tồn vẹn (completeness): tất giá trị dành cho biến/thuộc tính ghi nhận - Tính quán (consistency): tất giá trị liệu biểu diễn tất trường hợp Các kỹ thuật tiền xử lý liệu - Làm liệu (data cleaning/cleansing) - Tích hợp liệu (data integration) - Biến đổi liệu (data transformation) - Thu giảm liệu(data reduction) 1.3.2 Làm liệu (data cleaning) Data cleaning hay làm liệu quy trình chuẩn bị liệu trước phân tích thơng qua xử lý hay loại bỏ liệu khơng xác, không đầy đủ, không phù hợp định dạng, bị trùng lặp, khơng có giá trị, khơng đủ thơng tin, khơng liên quan,…những liệu ảnh hưởng đến kết phân tích sau 1.3.3 Tích hợp liệu (data integration) Là trình trộn liệu từ nguồn khác vào kho liệu sẵn sàng cho trình khai phá liệu 1.3.4 Biến đổi liệu (data transformation) Là trình biến đổi hay kết hợp liệu vào dạng thích hợp cho trình khai phá liệu Làm trơn liệu (smoothing) Kết hợp liệu (aggregation) Tổng quát hố (generalization) Xây dựng thuộc tính/đặc tính (attribute/feature construction) Chuẩn hoá (normalization) 10 1.3.5 Thu giảm liệu (data reduction) Tập liệu biến đổi đảm bảo toàn vẹn, nhỏ/ít nhiều số lượng so với ban đầu Các chiến lược thu giảm: Kết hợp khối liệu (data cube aggregation) Chọn số thuộc tính (attribute subset selection) Thu giảm chiều (dimensionality reduction) Thu giảm lượng (numerosity reduction) Rời rạc hóa (discretization) Tạo phân cấp ý niệm (concept hierarchy generation) 11 Chương Khái quát thuật toán sử dụng để khai phá liệu 2.1 Phân lớp liệu 2.1.1 Khái niệm Là dạng phân tích liệu nhằm rút trích mơ hình mơ tả lớp liệu dự đốn xu hướng liệu Quá trình gồm hai bước: Bước học (giai đoạn huấn luyện): xây dựng phân lớp (classifier) việc phân tích/học tập huấn luyện Bước phân lớp (classification): phân lớp liệu/đối tượng độ xác phân lớp đánh giá chấp nhận (acceptable) 2.1.2 Các thuật tốn phân lớp liệu a) Phân lớp với định (decision tree) b) Phân lớp với Naive Bayesian c) Phân lớp với k phần tử gần (k-nearest neighbor) d) Phân loại liệu với mạng neural e) Phân loại liệu với SVM… 2.2 Khai phá, kết hợp Là trình khám phá tập giá trị thuộc tính xuất phổ biến đối tượng liệu Từ tập phổ biến tạo luật kết hợp giá trị thuộc tính tập đối tượng 2.3 Phân cụm 2.3.1 Khái niệm Phân cụm liệu tốn gom nhóm đối tượng liệu vào thánh cụm (cluster) cho đối tượng cụm có tương đồng theo tiêu chí 12 2.3.2 Các thuật toán phân cụm a) Phân hoạch(partitioning): phân hoạch tạo đánh giá theo tiêu chí b) Phân cấp(hierarchical): phân rã tập liệu/đối tượng có thứ tự phân cấp theo tiêu chí c) Dựa cấp độ (density-based): dựa connectivity and density functions d) Dựa lưới (grid-based): dựa multiple-level granularity structure e) Dựa mơ hình (model-based): mơ hình giả thuyết tạo cho cụm; sau hiệu chỉnh thơng số để mơ hình phù hợp với cụm liệu/đối tượng nhất…… 2.4 Sử dụng thuật tốn phân lớp Nạve Bayes để dự đoán bệnh viêm gan nhận biết nấm ăn hay khơng 2.4.1 Khái niệm thuật tốn phân lớp Nạve Bayes Naive Bayes thuật tốn phân lớp mơ hình hố dựa định lý Bayes xác suất thống kê: 13 đó: P(y|X) gọi posterior probability: xác suất mục tiêu y với điều kiện có đặc trưng X P(X|y) gọi likelihood: xác suất đặc trưng X biết mục tiêu y P(y) gọi prior probability mục tiêu y P(X) gọi prior probability đặc trưng X X vector đặc trưng, viết dạng: Khi đó, đẳng thức Bayes trở thành: Trong mơ hình Naive Bayes, có hai giả thiết đặt ra: Các đặc trưng đưa vào mô hình độc lập với Tức thay đổi giá trị đặc trưng không ảnh hưởng đến đặc trưng lại Các đặc trưng đưa vào mơ hình có ảnh hưởng ngang đầu mục tiêu Khi đó, kết mục tiêu y để P(y|X) đạt cực đại trở thành: 2.4.2 Ưu điểm thuật tốn Nạve Bayes Giả định độc lập: hoạt động tốt cho nhiều toán/miền sữ liệu ứng dụng Đơn giản đủ tốt để giải nhiều toán phân lớp văn bản, lọc spam, 14 Cho phép kết hợp tri thức tiền nghiệm (prior knowledge) liệu quan sát (obserwed data) Tốt có chệnh lệch số lượng lớp phân loại Huấn luyện mơ hình (ước lượng tham số) dễ nhanh 2.4.3 Nhược điểm thuật toán Nạve Bayes Giả định độc lập (ưu điểm nhược điểm) hầu hết trường hợp thực tế có thuộc tính đối tượng thường phụ thuộc lẫn Vấn đề zero (đã nêu cách giải phía trên) Mơ hình khơng huẩn luyện phượng pháp tối ưu mạnh chặt chẽ Tham số mủa mơ hình ước lượng xác suất điều kiện đơn lẻ Khơng tính đến tương tác ước lượng 15 Chương Thử nghiệm, kết 3.1 Các bước thử nghiệm B1 Cài đặt weka tải file liệu Dữ liệu bệnh viêm gan Dữ liệu loại nấm B2 Tìm đến file liệu cần chạy thử nghiệm mở file ứng dụng weka 16 B3 Sau mở file chọn mục classity chọn thuật toán để thử nghiệm 17 B4 Ấn chọn start để chạy file 3.2 Kết thử nghiệm 3.2.1 Kết chạy thử nghiệm dự đoán bệnh viêm gan thuật toán Nạve Bayes Chạy thơng tin: 18 Phân loại lớp: 19 Kết 20 3.2.2 Kết chạy thử nghiệm để nhận biết nấm có ăn hay khơng thuật tốn Nạve Bayes Chạy thơng tin: 21 Phân loại lớp 22 23 Kết 24 ... Bayes vào thực tiễn nhóm em định làm để tài khai phá liệu sử dụng thuật tốn phân lớp Nạve Bayes để dự đoán bệnh viêm gan nhận biết nấm ăn hay không 1. 2 Tổng quan khai phá liệu 1. 2 .1 Khái niệm Khai. .. .10 1. 3.5 Thu giảm liệu (data reduction) 11 Chương Khái quát thuật toán sử dụng để khai phá liệu 12 2 .1 Phân lớp liệu 12 2 .1. 1 Khái niệm 12 2 .1. 2 Các thuật toán phân. .. tài Để hồn thành báo cáo đề tài ? ?Khai phá liệu sử dụng thuật toán phân lớp nhị phân để dự đoán bệnh viêm gan nhận biết nấm ăn hay khơng”, nhóm em xin gửi lời cảm ơn chân thành tới thầy VŨ VĂN