Đề tài khai phá dữ liệu sử dụng kỹ thuật học máy logistic regression để dự đoán sống chết sau thảm họa titanic

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU Đề tài: KHAI PHÁ DỮ LIỆU SỬ DỤNG KỸ THUẬT HỌC MÁY LOGISTIC REGRESSION ĐỂ DỰ ĐOÁN SỐNG CHẾT SAU THẢM HỌA TITANIC Sinh viên thực hiện: NGUYỄN HUY HOÀNG THÁI VĂN HÀ ĐẶNG PHƯƠNG DUNG Giáo viên hướng dẫn: VŨ VĂN ĐỊNH Lớp: D14HTTMDT1 Khoa: CÔNG NGHỆ THÔNG TIN Chuyên ngành: HỆ THỐNG THƯƠNG MẠI ĐỆN TỬ Khóa: 2019 – 2024 Hà Nội, tháng năm 2021 PHIẾU CHẤM ĐIỂM Họ tên Chữ ký Ghi Nguyễn Huy Hoàng 19810340106 Đặng Phương Dung 19810340542 Thái Văn Hà 18810310659 Giảng viên chấm: Họ tên Giảng viên chấm 1: Giảng viên chấm 2: Chữ ký Ghi MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Diễn giải 1.1.2 Các phương pháp khai thác liệu 1.1.3 Một số tính bật khai phá liệu 1.1.4 Quy trình khai phá liệu .4 1.1.5 Ứng dụng khai phá liệu .5 1.1.6 Các công cụ khai phá liệu 1.2 TIỀN XỬ LÝ 1.2.1 Dữ liệu 1.2.2 Làm liệu (data cleaning) 1.2.2.1Các vấn đề liệu 1.2.2.2Nguồn gốc/lý liệu không 1.2.2.3 Giải pháp thiếu giá trị thuộc tính .9 1.2.2.4Giải pháp liệu chứa nhiễu/lỗi .9 1.2.3 Tích hợp liệu (data integration) 10 1.2.4 Biến đổi liệu (data transformation) 10 1.2.5 Thu giảm liệu (data reduction) 11 CHƯƠNG TỔNG QUAN VỀ HỌC MÁY VÀ KỸ THUẬT LOGISTIC REGRESSION 12 1.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 12 1.2 PHÂN NHĨM CÁC THUẬT TỐN HỌC MÁY 12 1.2.1 Học có giám sát (Supervised Learning) 12 1.2.2 Học phi giám sát (Unsupervised Learning)-UL 13 1.2.3 Học tăng cường (Reinforcement Learning) 16 1.2.4 Học bán giám sát (semi-Supervised Learning) 16 1.3 ỨNG DỤNG CỦA HỌC MÁY 17 1.4 MƠ HÌNH HỌC MÁY LOGISTIC 20 1.4.1 Giới thiệu 20 1.4.2 Các loại hồi quy Logistic 20 1.4.3 Sai số dự đoán .20 1.4.4 Hàm mát 21 1.4.5 Hàm đánh giá 21 1.4.6 Ưu điểm – Nhược điểm 21 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 23 3.1 BÀI TOÁN DỰ ĐOÁN SỐNG CHẾT SAU THẢM HỌA TITANIC 23 3.1.1 Phát biển toán 23 3.1.2 Chuẩn bị liệu 23 3.1.3 Xử lý liệu 24 3.1.4.1 Code .25 3.1.4.2 Chạy liệu 26 3.1.4.3 Hình ảnh minh họa 27 KẾT LUẬN .28 TÀI LIỆU THAM KHẢO 29 LỜI MỞ ĐẦU Trong lời báo cáo “Khai phá liệu sử dụng kỹ thuật học máy logistic regression để dự đoán sống chết sau thảm họa titanic”, nhóm chúng em muốn gửi lời cảm ơn biết ơn chân thành tới tất người hỗ trợ, giúp đỡ chúng em kiến thức tinh thần trình thực làm Chúng em xin chân thành gửi lời cảm ơn tới thầy, giáo Trường Đại Học Điện Lực nói chung thầy cô giáo Khoa Công nghệ thông tin nói riêng tận tình giảng dạy, truyền đạt cho chúng em kiến thức kinh nghiệm quý báu suốt trình học tập Đặc biệt, chúng em xin gửi lời cảm ơn đến Giảng viên hướng dẫn Vũ Văn Định, giảng viên Khoa Công nghệ thông tin - Trường Đại Học Điện Lực Thầy tận tình theo sát giúp đỡ, trực tiếp bảo, hướng dẫn suốt trình nghiên cứu học tập chúng em Trong thời gian học tập với thầy, chúng em tiếp thu thêm nhiều kiến thức bổ ích mà cịn học tập tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Đây điều cần thiết cho chúng em q trình học tập cơng tác sau Do thời gian thực có hạn kiến thức cịn nhiều hạn chế nên làm nhóm chúng em chắn khơng tránh khỏi thiếu sót định Chúng em mong nhận ý kiến đóng góp thầy, giáo bạn để nhóm em có thêm kinh nghiệm tiếp tục hồn thiện báo cáo Chúng em xin chân thành cảm ơn! CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá liệu Khai phá liệu (data mining): Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính… Mục tiêu tổng thể q trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp Ngoài bước phân tích thơ, cịn liên quan tới sở liệu khía cạnh quản lý liệu, xử lý liệu trước, suy xét mơ hình suy luận thống kê, thước đo thú vị, cân nhắc phức tạp, xuất kết cấu trúc phát hiện, hình hóa cập nhật trực tuyến Khai thác liệu bước phân tích q trình "khám phá kiến thức sở liệu" KDD 1.1.1 Diễn giải Khai phá liệu bước trình khai thác tri thức (Knowledge Discovery Process), bao gồm: -Xác định vấn đề không gian liệu để giải vấn đề (Problem understanding and data understanding) -Chuẩn bị liệu (Data preparation), bao gồm trình làm liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation) -Khai thác liệu (Data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thô -Đánh giá (Evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu -Triển khai (Deployment) -Quá trình khai thác tri thức khơng q trình từ bước đến bước cuối mà q trình lặp có quay trở lại bước qua 1.1.2 Các phương pháp khai thác liệu Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại đối tượng vào lớp cho trước Hồi qui (Regression): Khám phá chức học dự đoán, ánh xạ mục liệu thành biến dự đốn giá trị thực Phân nhóm (Clustering): Một nhiệm vụ mơ tả phổ biến người ta tìm cách xác định tập hợp hữu hạn cụm để mô tả liệu Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp cho việc tìm kiếm mơ tả nhỏ gọn cho (hoặc tập hợp con) liệu Mơ hình ràng buộc (Dependency modeling): Tìm mơ hình cục mô tả phụ thuộc đáng kể biến giá trị tính tập liệu phần tập liệu Dị tìm biến đổi độ lệch (Change and Deviation Dectection): Khám phá thay đổi quan trọng liệu 1.1.3 Một số tính bật khai phá liệu Dự đoán mẫu dựa xu hướng liệu - Tính tốn dự đốn kết - Tạo thơng tin phản hồi để phân tích - Tập trung vào sở liệu lớn - Phân cụm liệu trực quan 1.1.4 Quy trình khai phá liệu Các bước quan trọng khai phá liệu bao gồm: Bước 1: Tiền xử lý, làm liệu – Trong bước này, liệu làm cho khơng có tạp âm hay bất thường liệu Bước 2: Tích hợp liệu – Trong trình tích hợp liệu, nhiều nguồn liệu kết hợp lại thành Bước 3: Lựa chọn liệu – Trong bước này, liệu trích xuất từ sở liệu Bước 4: Chuyển đổi liệu – Trong bước này, liệu chuyển đổi để thực phân tích tóm tắt hoạt động tổng hợp Bước 5: Khai phá liệu – Trong bước này, trích xuất liệu hữu ích từ nhóm liệu có Bước 6: Đánh giá mẫu – Chúng ta phân tích số mẫu có liệu Bước 7: Trình bày thông tin – Trong bước cuối cùng, thông tin thể dạng cây, bảng, biểu đồ ma trận Quá trình thực qua bước: 1- Tìm hiểu lĩnh vực tốn (ứng dụng): Các mục đích tốn, tri thức cụ thể lĩnh vực 2- Tạo nên (thu thập) tập liệu phù hợp 3- Làm tiền xử lý liệu 4- Giảm kích thức liệu, chuyển đổi liệu: Xác định thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến 5- Lựa chọn chức khai phá liệu: Phân loại, gom cụm, dự báo, sinh luật kết hợp 6- Lựa chọn/ Phát triển (các) giải thuật khai phá liệu phù hợp 7- Tiến hành khai phá liệu 8- Đánh giá mẫu thu biểu diễn tri thức: Hiển thị hóa, chuyển đổi, bỏ mẫu dư thừa,… - Sử dụng tri thức khai phá Hình 1.1 Quy trình khai phá liệu 1.1.5 Ứng dụng khai phá liệu Có nhiều ứng dụng khai phá liệu thường thấy như: - Phân tích thị trường chứng khốn - Phát gian lận - Quản lý rủi ro phân tích doanh nghiệp… 1.1.6 Các cơng cụ khai phá liệu RapidMiner: Công cụ phải kể tới RapidMiner Đây cơng cụ khai phá liệu phổ biến Được viết tảng JAVA khơng u cầu mã hóa để vận hành Ngồi ra, cịn cung cấp chức khai thác liệu khác tiền xử lý liệu, biểu diễn liệu, lọc, phân cụm Weka: Công cụ cho đời Đại học Wichita phần mềm khai thác liệu mã nguồn mở Tương tự RapidMiner, công cụ không yêu cầu mã hóa sử dụng GUI đơn giản Sử dụng Weka, người dùng gọi trực tiếp thuật toán học máy nhập chúng mã Java Weka trang bị đa dạng chức trực quan hóa, tiền xử lý, phân loại, phân cụm Knime: Với khả hoạt động vô mạnh mẽ tích hợp nhiều thành phần khác học máy khai phá liệu để cung cấp tảng KNime hỗ trợ người dùng nhiều việc xử lý phân tích liệu, trích xuất, chuyển đổi tải liệu Apache Mahout: Từ tảng Big Data Hadoop, người ta cho cho đời thêm Apache Mahout với mục đích giải nhu cầu ngày tăng khai phá liệu hoạt động phân tích Hadoop Nó trang bị nhiều chức học máy khác phân loại, hồi quy, phân cụm Oracle Data Mining: Khi sử dụng Oracle Data Mining cho phép người dùng thực khai phá liệu sở liệu SQL để trích xuất khung hình biểu đồ Các phân tích hiển thị cách trực quan giúp người dùng dễ dàng đưa dự đoán cho kế hoạch tương lai TeraData: TeraData cung cấp dịch vụ kho chứa công cụ khai phá liệu Nhờ khả thông minh trang bị, công cụ dựa tần suất sử dụng liệu người dùng thực việc cho phép truy cập nhanh hay chậm Với liệu bạn thường xuyên cần sử dụng, TeraData cho phép truy cập nhanh liệu sử dụng Đối với liệu, nhập kho yêu cầu cần thiết Orange: Cơng cụ lập trình Python với giao diện trực quan tương tác dễ dàng Phần mềm Orange biết đến việc tích hợp công cụ khai phá liệu học máy thơng minh, đơn giản 1.2 Tiền xử lý Q trình tiền xử lý liệu, phải nắm dạng liệu, thuộc tính, mơ tả liệu thao tác Sau tiếp hành giai đoạn chính: làm sạch, tích hợp, biến đổi, thu giảm liệu Hình 1.2.3 Sự khác biệt mơ hình SL UL Học có giám sát: Là cách huấn luyện mơ hình liệu học có đầu vào đầu tương ứng đầu vào Mơ hình huấn luyện cách giảm thiểu sai số lỗi (loss) dự đốn vịng lặp huấn luyện Sau q trình huấn luyện mơ hình có khả đưa dự đốn đầu với đầu vào gặp (khơng có liệu học) Nếu không gian đầu biểu diễn dứới dạng rời rạc, ta gọi tốn phân loại (classification) Nếu khơng gian đầu biểu diễn dạng liên tục, ta gọi tốn hồi quy (regression) Học khơng giám sát: Là cách huấn luyện mơ hình liệu học bao gồm đầu vào mà khơng có đầu Mơ hình huấn luyện cách để tìm cấu trúc mối quan hệ đầu vào Một phương pháp học không giám sát quan trọng phân cụm (clustering): Tạo cụm khác với cụm biểu diễn đặc trưng liệu phân đầu vào vào cụm theo đặc trưng đầu vào Các phương pháp học khơng giám sát khác kể đến như: phát điểm bất thường (anomaly detection), Singular-value decomposition, 1.2.3 Học tăng cường (Reinforcement Learning) Phương pháp học tăng cường tập trung vào việc tác tử môi trường hành động cho lấy phần thưởng nhiều Khác với học có giám sát khơng có cặp liệu gán nhãn trước làm đầu vào khơng có đánh giá hành động hay sai Hình 1.2.4 Học tăng cường 1.2.4 Học bán giám sát (semi-Supervised Learning) Các tốn có lượng lớn liệu X phần chúng gán nhãn gọi Semi-Supervised Learning Những tốn thuộc nhóm nằm hai nhóm nêu bên Một ví dụ điển hình nhóm có phần ảnh văn gán nhãn (ví dụ ảnh người, động vật văn khoa học, trị) phần lớn ảnh/văn khác chưa gán nhãn thu thập từ internet Thực tế cho thấy nhiều tốn Machine Learning thuộc vào nhóm việc thu thập liệu có nhãn tốn nhiều thời gian có chi phí cao Rất 16