Khai phá dữ liệu sử dụng kỹ thuật học máylogistic regression để dự đoán sống chết sau thảm họa titanic

33 12 0
Khai phá dữ liệu sử dụng kỹ thuật học máylogistic regression để dự đoán sống chết sau thảm họa titanic

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

lOMoARcPSD|15978022 TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU Đề tài: KHAI PHÁ DỮ LIỆU SỬ DỤNG KỸ THUẬT HỌC MÁY LOGISTIC REGRESSION ĐỂ DỰ ĐOÁN SỐNG CHẾT SAU THẢM HỌA TITANIC Sinh viên thực hiện: NGUYỄN HUY HOÀNG THÁI VĂN HÀ ĐẶNG PHƯƠNG DUNG Giáo viên hướng dẫn: VŨ VĂN ĐỊNH Lớp: D14HTTMDT1 Khoa: CÔNG NGHỆ THÔNG TIN Chuyên ngành: HỆ THỐNG THƯƠNG MẠI ĐỆN TỬ Khóa: 2019 – 2024 Hà Nội, tháng năm 2021 lOMoARcPSD|15978022 PHIẾU CHẤM ĐIỂM Họ tên Chữ ký Ghi Chữ ký Ghi Nguyễn Huy Hoàng 19810340106 Đặng Phương Dung 19810340542 Thái Văn Hà 18810310659 Giảng viên chấm: Họ tên Giảng viên chấm 1: Giảng viên chấm 2: lOMoARcPSD|15978022 MỤC LỤC LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Diễn giải 1.1.2 Các phương pháp khai thác liệu 1.1.3 Một số tính bật khai phá liệu .3 1.1.4 Quy trình khai phá liệu .4 1.1.5 Ứng dụng khai phá liệu .5 1.1.6 Các công cụ khai phá liệu 1.2 TIỀN XỬ LÝ .6 1.2.1 Dữ liệu 1.2.2 Làm liệu (data cleaning) 1.2.2.1Các vấn đề liệu .8 1.2.2.2Nguồn gốc/lý liệu không 1.2.2.3 Giải pháp thiếu giá trị thuộc tính 1.2.2.4Giải pháp liệu chứa nhiễu/lỗi 1.2.3 Tích hợp liệu (data integration) 10 1.2.4 Biến đổi liệu (data transformation) 10 1.2.5 Thu giảm liệu (data reduction) 11 CHƯƠNG TỔNG QUAN VỀ HỌC MÁY VÀ KỸ THUẬT LOGISTIC REGRESSION .12 1.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU .12 1.2 PHÂN NHÓM CÁC THUẬT TOÁN HỌC MÁY 12 1.2.1 Học có giám sát (Supervised Learning) .12 1.2.2 Học phi giám sát (Unsupervised Learning)-UL 13 1.2.3 Học tăng cường (Reinforcement Learning) .16 1.2.4 Học bán giám sát (semi-Supervised Learning) 16 1.3 ỨNG DỤNG CỦA HỌC MÁY 17 1.4 MƠ HÌNH HỌC MÁY LOGISTIC .20 1.4.1 Giới thiệu .20 1.4.2 Các loại hồi quy Logistic 20 1.4.3 Sai số dự đoán .20 1.4.4 Hàm mát 21 lOMoARcPSD|15978022 1.4.5 Hàm đánh giá 21 1.4.6 Ưu điểm – Nhược điểm 21 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 23 3.1 BÀI TOÁN DỰ ĐOÁN SỐNG CHẾT SAU THẢM HỌA TITANIC 23 3.1.1 Phát biển toán 23 3.1.2 Chuẩn bị liệu 23 3.1.3 Xử lý liệu 24 3.1.4.1 Code 25 3.1.4.2 Chạy liệu 26 3.1.4.3 Hình ảnh minh họa 27 KẾT LUẬN 28 TÀI LIỆU THAM KHẢO 29 lOMoARcPSD|15978022 LỜI MỞ ĐẦU Trong lời báo cáo “Khai phá liệu sử dụng kỹ thuật học máy logistic regression để dự đoán sống chết sau thảm họa titanic”, nhóm chúng em muốn gửi lời cảm ơn biết ơn chân thành tới tất người hỗ trợ, giúp đỡ chúng em kiến thức tinh thần trình thực làm Chúng em xin chân thành gửi lời cảm ơn tới thầy, cô giáo Trường Đại Học Điện Lực nói chung thầy giáo Khoa Cơng nghệ thơng tin nói riêng tận tình giảng dạy, truyền đạt cho chúng em kiến thức kinh nghiệm quý báu suốt trình học tập Đặc biệt, chúng em xin gửi lời cảm ơn đến Giảng viên hướng dẫn Vũ Văn Định, giảng viên Khoa Công nghệ thông tin - Trường Đại Học Điện Lực Thầy tận tình theo sát giúp đỡ, trực tiếp bảo, hướng dẫn suốt trình nghiên cứu học tập chúng em Trong thời gian học tập với thầy, chúng em tiếp thu thêm nhiều kiến thức bổ ích mà cịn học tập tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Đây điều cần thiết cho chúng em trình học tập công tác sau Do thời gian thực có hạn kiến thức cịn nhiều hạn chế nên làm nhóm chúng em chắn khơng tránh khỏi thiếu sót định Chúng em mong nhận ý kiến đóng góp thầy, giáo bạn để nhóm em có thêm kinh nghiệm tiếp tục hồn thiện báo cáo Chúng em xin chân thành cảm ơn! lOMoARcPSD|15978022 CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá liệu Khai phá liệu (data mining): Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính… Mục tiêu tổng thể trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp Ngồi bước phân tích thơ, liên quan tới sở liệu khía cạnh quản lý liệu, xử lý liệu trước, suy xét mơ hình suy luận thống kê, thước đo thú vị, cân nhắc phức tạp, xuất kết cấu trúc phát hiện, hình hóa cập nhật trực tuyến Khai thác liệu bước phân tích q trình "khám phá kiến thức sở liệu" KDD 1.1.1 Diễn giải Khai phá liệu bước trình khai thác tri thức (Knowledge Discovery Process), bao gồm: -Xác định vấn đề không gian liệu để giải vấn đề (Problem understanding and data understanding) -Chuẩn bị liệu (Data preparation), bao gồm q trình làm liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation) -Khai thác liệu (Data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thô -Đánh giá (Evaluation): dựa số tiêu chí tiến hành kiểm tra lọc nguồn tri thức thu -Triển khai (Deployment) lOMoARcPSD|15978022 -Q trình khai thác tri thức khơng trình từ bước đến bước cuối mà trình lặp có quay trở lại bước qua 1.1.2 Các phương pháp khai thác liệu Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại đối tượng vào lớp cho trước Hồi qui (Regression): Khám phá chức học dự đoán, ánh xạ mục liệu thành biến dự đoán giá trị thực Phân nhóm (Clustering): Một nhiệm vụ mơ tả phổ biến người ta tìm cách xác định tập hợp hữu hạn cụm để mô tả liệu Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp cho việc tìm kiếm mơ tả nhỏ gọn cho (hoặc tập hợp con) liệu Mơ hình ràng buộc (Dependency modeling): Tìm mơ hình cục mơ tả phụ thuộc đáng kể biến giá trị tính tập liệu phần tập liệu Dò tìm biến đổi độ lệch (Change and Deviation Dectection): Khám phá thay đổi quan trọng liệu 1.1.3 Một số tính bật khai phá liệu - Dự đoán mẫu dựa xu hướng liệu - Tính tốn dự đốn kết - Tạo thơng tin phản hồi để phân tích - Tập trung vào sở liệu lớn - Phân cụm liệu trực quan lOMoARcPSD|15978022 1.1.4 Quy trình khai phá liệu Các bước quan trọng khai phá liệu bao gồm: Bước 1: Tiền xử lý, làm liệu – Trong bước này, liệu làm cho tạp âm hay bất thường liệu Bước 2: Tích hợp liệu – Trong q trình tích hợp liệu, nhiều nguồn liệu kết hợp lại thành Bước 3: Lựa chọn liệu – Trong bước này, liệu trích xuất từ sở liệu Bước 4: Chuyển đổi liệu – Trong bước này, liệu chuyển đổi để thực phân tích tóm tắt hoạt động tổng hợp Bước 5: Khai phá liệu – Trong bước này, trích xuất liệu hữu ích từ nhóm liệu có Bước 6: Đánh giá mẫu – Chúng ta phân tích số mẫu có liệu Bước 7: Trình bày thơng tin – Trong bước cuối cùng, thông tin thể dạng cây, bảng, biểu đồ ma trận Quá trình thực qua bước: 1- Tìm hiểu lĩnh vực toán (ứng dụng): Các mục đích tốn, tri thức cụ thể lĩnh vực 2- Tạo nên (thu thập) tập liệu phù hợp 3- Làm tiền xử lý liệu 4- Giảm kích thức liệu, chuyển đổi liệu: Xác định thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến 5- Lựa chọn chức khai phá liệu: Phân loại, gom cụm, dự báo, sinh luật kết hợp 6- Lựa chọn/ Phát triển (các) giải thuật khai phá liệu phù hợp 7- Tiến hành khai phá liệu 8- Đánh giá mẫu thu biểu diễn tri thức: Hiển thị hóa, chuyển đổi, bỏ mẫu dư thừa,… lOMoARcPSD|15978022 - Sử dụng tri thức khai phá Hình 1.1 Quy trình khai phá liệu 1.1.5 Ứng dụng khai phá liệu Có nhiều ứng dụng khai phá liệu thường thấy như: - Phân tích thị trường chứng khốn - Phát gian lận - Quản lý rủi ro phân tích doanh nghiệp… 1.1.6 Các cơng cụ khai phá liệu RapidMiner: Cơng cụ phải kể tới RapidMiner Đây công cụ khai phá liệu phổ biến Được viết tảng JAVA khơng u cầu mã hóa để vận hành Ngồi ra, cịn cung cấp chức khai thác liệu khác tiền xử lý liệu, biểu diễn liệu, lọc, phân cụm Weka: Công cụ cho đời Đại học Wichita phần mềm khai thác liệu mã nguồn mở Tương tự RapidMiner, công cụ không yêu cầu mã hóa sử dụng GUI đơn giản lOMoARcPSD|15978022 Sử dụng Weka, người dùng gọi trực tiếp thuật toán học máy nhập chúng mã Java Weka trang bị đa dạng chức trực quan hóa, tiền xử lý, phân loại, phân cụm Knime: Với khả hoạt động vô mạnh mẽ tích hợp nhiều thành phần khác học máy khai phá liệu để cung cấp tảng KNime hỗ trợ người dùng nhiều việc xử lý phân tích liệu, trích xuất, chuyển đổi tải liệu Apache Mahout: Từ tảng Big Data Hadoop, người ta cho cho đời thêm Apache Mahout với mục đích giải nhu cầu ngày tăng khai phá liệu hoạt động phân tích Hadoop Nó trang bị nhiều chức học máy khác phân loại, hồi quy, phân cụm Oracle Data Mining: Khi sử dụng Oracle Data Mining cho phép người dùng thực khai phá liệu sở liệu SQL để trích xuất khung hình biểu đồ Các phân tích hiển thị cách trực quan giúp người dùng dễ dàng đưa dự đoán cho kế hoạch tương lai TeraData: TeraData cung cấp dịch vụ kho chứa công cụ khai phá liệu Nhờ khả thông minh trang bị, công cụ dựa tần suất sử dụng liệu người dùng thực việc cho phép truy cập nhanh hay chậm Với liệu bạn thường xuyên cần sử dụng, TeraData cho phép truy cập nhanh liệu sử dụng Đối với liệu, nhập kho yêu cầu cần thiết Orange: Cơng cụ lập trình Python với giao diện trực quan tương tác dễ dàng Phần mềm Orange biết đến việc tích hợp công cụ khai phá liệu học máy thơng minh, đơn giản 1.2 Tiền xử lý Q trình tiền xử lý liệu, phải nắm dạng liệu, thuộc tính, mơ tả liệu thao tác Sau tiếp hành giai đoạn chính: làm sạch, tích hợp, biến đổi, thu giảm liệu lOMoARcPSD|15978022 Hình 1.2.3 Sự khác biệt mơ hình SL UL Học có giám sát: Là cách huấn luyện mơ hình liệu học có đầu vào đầu tương ứng đầu vào Mơ hình huấn luyện cách giảm thiểu sai số lỗi (loss) dự đoán vịng lặp huấn luyện Sau q trình huấn luyện mơ hình có khả đưa dự đốn đầu với đầu vào gặp (khơng có liệu học) Nếu không gian đầu biểu diễn dứới dạng rời rạc, ta gọi tốn phân loại (classification) Nếu khơng gian đầu biểu diễn dạng liên tục, ta gọi tốn hồi quy (regression) Học khơng giám sát: Là cách huấn luyện mơ hình liệu học bao gồm đầu vào mà khơng có đầu Mơ hình huấn luyện cách để tìm cấu trúc mối quan hệ đầu vào Một phương pháp học không giám sát quan trọng phân cụm (clustering): Tạo cụm khác với cụm biểu diễn đặc trưng liệu phân đầu vào vào cụm theo đặc trưng đầu vào Các phương pháp học khơng giám sát khác kể đến như: phát điểm bất thường (anomaly detection), Singular-value decomposition, 15 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 1.2.3 Học tăng cường (Reinforcement Learning) Phương pháp học tăng cường tập trung vào việc tác tử mơi trường hành động cho lấy phần thưởng nhiều Khác với học có giám sát khơng có cặp liệu gán nhãn trước làm đầu vào khơng có đánh giá hành động hay sai Hình 1.2.4 Học tăng cường 1.2.4 Học bán giám sát (semi-Supervised Learning) Các toán có lượng lớn liệu X phần chúng gán nhãn gọi Semi-Supervised Learning Những tốn thuộc nhóm nằm hai nhóm nêu bên Một ví dụ điển hình nhóm có phần ảnh văn gán nhãn (ví dụ ảnh người, động vật văn khoa học, trị) phần lớn ảnh/văn khác chưa gán nhãn thu thập từ internet Thực tế cho thấy nhiều toán Machine Learning thuộc vào nhóm việc thu thập liệu có nhãn tốn nhiều thời gian có chi phí cao Rất 16 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 nhiều loại liệu chí cần phải có chun gia gán nhãn (ảnh y học chẳng hạn) Ngược lại, liệu chưa có nhãn thu thập với chi phí thấp từ internet Hình 1.2.5 Học bán giám sát 1.3 Ứng dụng học máy Nhiều hoạt động hàng ngày trợ giúp thuật toán machine learning, bao gồm:  Phát gian lận  Các kết tìm kiếm web  Quảng cáo theo thời gian thực trang web thiết bị di động  Phân tích tình cảm dựa văn  Điểm số tín dụng lời mời chào tốt  Dự đoán hư hỏng thiết bị  Những mơ hình định giá Phát xâm nhập mạng 17 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022  Nhận dạng qua pattern (mẫu) hình ảnh  Lọc bỏ email spam Những lĩnh vực áp dụng Machine learning nay:  Các dịch vụ tài Ngân hàng doanh nghiệp hoạt động lĩnh vực tài sử dụng cơng nghệ Machine Learning với mục đích chính: xác định insights liệu ngăn chặn lừa đảo Insights biết hội đầu tư thông báo đến nhà đầu tư thời điểm giao dịch hợp lý Data mining tìm khách hàng có hồ sơ rủi ro cao sử dụng giám sát mạng để rõ tín hiệu lừa đảo  Chính phủ Các tổ chức phủ hoạt động an ninh cộng đồng tiện ích xã hội sở hữu nhiều nguồn liệu khai thác insights Ví dụ, phân tích liệu cảm biến, phủ tăng mức độ hiệu dịch vụ tiết kiệm chi phí Machine learning cịn hỗ trợ phát gian lận giảm thiểu khả trộm cắp danh tính  Chăm sóc sức khỏe Machine learning xu hướng phát triển nhanh chóng ngành chăm sóc sức khỏe, nhờ vào đời thiết bị máy cảm ứng đeo sử dụng liệu để đánh giá tình hình sức khỏe bệnh nhân thời gian thực (realtime) Công nghệ Machine Learning giúp chuyên gia y tế xác định xu hướng tín hiệu để cải thiện khả điều trị, chẩn đoán bệnh  Marketing sales 18 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Dựa hành vi mua hàng trước đây, trang web sử dụng Machine Learning phân tích lịch sử mua hàng, từ giới thiệu vật dụng mà bạn quan tâm yêu thích Khả tiếp nhận liệu, phân tích sử dụng liệu để cá nhân hóa trải nghiệm mua sắm (hoặc thực chiến dịch Marketing) tương tai ngành bán lẻ  Dầu khí Tìm kiếm nguồn ngun liệu Phân tích mỏ dầu đất Dự đốn tình trạng thất bại cảm biến lọc dầu Sắp xếp kênh phân phối để đạt hiệu tiết kiệm chi phí Có thể nói, số lượng trường hợp sử dụng Machine Learning ngành cơng nghiệp lớn ngày mở rộng  Vận tải Phân tích liệu để xác định patterns & xu hướng trọng tâm ngành vận tải ngành phụ thuộc vào khả tận dụng hiệu tuyến đường dự đoán vấn đề tiềm tàng để gia tăng lợi nhuận Các chức phân tích liệu modeling Machine learning đóng vai trị quan trọng với doanh nghiệp vận chuyện, vận tải công cộng tổ chức vận chuyển khác 19 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 1.4 Mơ hình học máy Logistic 1.4.1 Giới thiệu - Kỹ thuật phân loại phần quan trọng ứng dụng học máy khai thác liệu Khoảng 70% vấn đề Khoa học Dữ liệu vấn đề phân loại Có nhiều vấn đề phân loại hồi quy hậu cần phương pháp hồi quy phổ biến hữu ích để giải vấn đề phân loại nhị phân Một loại phân loại khác Phân loại đa thức, xử lý vấn đề nhiều lớp có mặt biến đích - Hồi quy logistic thuật toán Học máy đơn giản sử dụng phổ biến để phân loại hai lớp Nó dễ thực sử dụng làm sở cho vấn đề phân loại nhị phân Các khái niệm cơ hữu ích việc học sâu Hồi quy logistic mơ tả ước tính mối quan hệ biến nhị phân phụ thuộc biến độc lập - Hồi quy logistic phương pháp thống kê để dự đoán lớp nhị phân Biến kết biến mục tiêu có chất phân đơi, phân đơi có nghĩa có hai lớp ví dụ, sử dụng cho vấn đề phát ung thư Nó tính tốn xác suất kiện xảy - Đây trường hợp đặc biệt hồi quy tuyến tính biến mục tiêu có chất phân loại Nó sử dụng nhật ký tỷ lệ cược làm biến phụ thuộc Hồi quy logistic dự đoán xác suất xuất kiện nhị phân cách sử dụng hàm logit 1.4.2 Các loại hồi quy Logistic - Multinomial Logistic Regression: Biến mục tiêu có ba nhiều danh mục danh nghĩa dự đoán loại Rượu - Hồi quy Logistic thứ tự: biến mục tiêu có ba nhiều danh mục thứ tự xếp hạng nhà hàng sản phẩm từ đến - Hồi quy logistic nhị phân: Biến mục tiêu có hai kết xảy ra, chẳng hạn Spam Khơng phải Spam, Ung thư Khơng có Ung thư 1.4.3 Sai số dự đoán Sai số dự đoán tính cơng thức sau: 20 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Trong đó, e sai số dự đoán, y giá trị thực giá trị dự đốn (hay cịn gọi y_pred) Hàm bình phương để tránh phương trình kết âm e sai số, nên giá trị nhỏ tốt 1.4.4 Hàm mát 1.4.5 Hàm đánh giá  Accuracy : (ACC) Cách đơn giản hay sử dụng accuracy (độ xác) Cách đánh giá đơn giản tính tỉ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử: Trong TP, TN dự đoán FP, FN dự đoán sai - Precision - lấy - Recall - lấy 1.4.6 Ưu điểm – Nhược điểm - Ưu điểm: Do tính chất đơn giản hiệu quả, khơng địi hỏi sức mạnh tính tốn cao, dễ thực hiện, dễ diễn giải, sử dụng rộng rãi nhà phân tích 21 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 liệu nhà khoa học Cũng không yêu cầu mở rộng tính Hồi quy logistic cung cấp điểm xác suất cho quan sát - Nhược điểm: Hồi quy logistic xử lý số lượng lớn tính / biến phân loại Nó dễ bị trang bị q mức Ngồi ra, khơng thể giải vấn đề phi tuyến tính với hồi quy logistic, lý yêu cầu chuyển đổi đối tượng phi tuyến tính hồi quy logistic không hoạt động tốt với biến độc lập không tương quan với biến mục tiêu giống tương quan với 22 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Bài toán dự đoán sống chết sau thảm họa titanic 3.1.1 Phát biển toán Bài toán đoán sống chết sau thảm họa titanic đưa tất thơng tin chuyến tàu titanic để từ làm dự đoán sống chết sau thảm họa titanic thời điểm thời điểm sau 3.1.2 Chuẩn bị liệu Hình 3.1 Dữ liệu dự chuẩn đoán sống chết sau thảm họa Titanic 23 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Bộ liệu gồm cột với: Dữ liệu đầu vào X gồm: Pclass (hạng khách hàng) Name (tên khách hàng) Sex (giới tính) Age (tuổi) SibSp (số anh, chị, em, vợ, chồng tàu) Parch (Số lượng cha me/ cái) Fare (giá vé) Embarked (điểm bắt đầu) Dữ liệu đầu y gồm: Survived y khả sống sót, với y = sống, ngược lại y = chết 3.1.3 Xử lý liệu Ở chúng em sử dụng logistic regression liệu lấy từ Excel(file csv) ,visual studio,python ,command prompt để hỗ trợ trình training Về python tích hợp nhiều thuật toán khác nhau, dễ dàng sử dụng, giúp giảm thời gian xây dựng hệ thống deep learning Đồng thời kết hợp với pandas numpy để phân tích, xử lý cấu trúc data, matplotlib dùng để đồ thị 24 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 3.1.4 Code xử lý liệu 3.1.4.1 Code 25 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 3.1.4.2 Chạy liệu 26 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 3.1.4.3 Hình ảnh minh họa 27 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 KẾT LUẬN Báo cáo đề cập đến nội dung kho liệu ứng dụng lưu trữ khai phá tri thức kho liệu nhằm hỗ trợ định Về mặt lý thuyết, khai phá liệu bao gồm bước: Hình thành, xác định định nghĩa toán, thu thập tiền xử lý liệu, khai phá liệu, rút tri thức, sử dụng tri thức phát Phương pháp khai phá liệu là: phân lớp, định, suy diễn… Các phương pháp áp dụng liệu thơng thường Về thuật tốn khai phá liệu, báo cáo trình bày số thuật tốn minh họa thuật toán kinh điển phát tập báo phổ biến khai phá luật kết hợp Về mặt cài đặt thử nghiệm, báo cáo giới thiệu kỹ thuật khai phá liệu theo thuật toán hồi quy tuyến tính áp dụng vào tốn dự điểm sinh viên Trong trình thực báo cáo, chúng em cố gắng tập trung tìm hiểu tham khảo tài liệu liên quan Tuy nhiên, với thời gian trình độ có hạn nên khơng tránh khỏi hạn chế thiếu sót Chúng em mong nhận nhận xét góp ý thầy giáo bạn bè để hồn thiện kết nghiên cứu 28 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 TÀI LIỆU THAM KHẢO [1] Trang web: machinelearningcoban.com [2] Giáo trình khai phá liệu [3] Bài giảng khai phá liệu 29 Downloaded by Quang Quang (khoa31141020806@gmail.com) ... toán dự đoán sống chết sau thảm họa titanic 3.1.1 Phát biển toán Bài toán đoán sống chết sau thảm họa titanic đưa tất thông tin chuyến tàu titanic để từ làm dự đoán sống chết sau thảm họa titanic. .. thức, sử dụng tri thức phát Phương pháp khai phá liệu là: phân lớp, định, suy diễn… Các phương pháp áp dụng liệu thơng thường Về thuật tốn khai phá liệu, báo cáo trình bày số thuật toán minh họa thuật. .. lOMoARcPSD|15978022 - Sử dụng tri thức khai phá Hình 1.1 Quy trình khai phá liệu 1.1.5 Ứng dụng khai phá liệu Có nhiều ứng dụng khai phá liệu thường thấy như: - Phân tích thị trường chứng khốn - Phát gian

Ngày đăng: 10/01/2023, 23:17

Tài liệu cùng người dùng

Tài liệu liên quan