Phân tích khám phá dữ liệu trong khoa học dữ liệu

45 1 0
Phân tích khám phá dữ liệu trong khoa học dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

lOMoARcPSD|15978022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN Tên đề tài: PHÂN TÍCH KHÁM PHÁ DỮ LIỆU TRONG KHOA HỌC DỮ LIỆU Mã số đề tài: S2021.702.03 Lĩnh vực nghiên cứu: Khoa học tự nhiên (Chun ngành Tốn Thống kê) Bình Định, 5/2022 lOMoARcPSD|15978022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN Tên đề tài: PHÂN TÍCH KHÁM PHÁ DỮ LIỆU TRONG KHOA HỌC DỮ LIỆU Mã số đề tài: S2021.702.03 Lĩnh vực nghiên cứu: Khoa học tự nhiên (Chuyên ngành Toán Thống kê) Sinh viên thực : Huỳnh Đăng Tiến Dân tộc : Kinh Lớp : Toán ứng dụng K43 Khoa : Khoa Toán Thống kê Ngành học : Toán ứng dụng Người hướng dẫn : Thái Trung Hiếu Đơn vị công tác : Khoa Toán Thống kê Nam, Nữ: Nam Năm thứ: Học vị: Tiến sĩ Bình Định, 5/2022 Số năm đào tạo: lOMoARcPSD|15978022 Mục lục Thông tin kết nghiên cứu đề tài Lời cảm ơn Lý thuyết 1.1 Hiểu biết khoa học liệu 1.2 Tầm quan trọng EDA 1.3 Các giai đoạn EDA 1.4 Ý nghĩa liệu 1.4.1 Dữ liệu số (Numerical data): 1.4.2 Dữ liệu phân loại (Categorical data): 1.4.3 Quy mô đo (Measurement scales): 1.5 So sánh phân tích khám phá liệu với phân tích liệu cổ điển phân tích liệu suy luận Bayes: 1.6 Thống kê mô tả 1.6.1 Đo lường xu hướng trung tâm (Measures of central tendency) 1.6.2 Thước đo phân tán (Meansures of dispersion) 14 15 15 19 Thực hành 2.1 Chuẩn bị liệu 2.2 Đặt câu hỏi 2.3 Phân tích theo khách hàng 2.3.1 Phương diện mua hàng 2.3.2 Thu nhập khách hàng 2.3.3 Độ tuổi khách hàng 2.4 Phân tích theo chuỗi thời gian 2.4.1 Doanh thu số đơn đặt hàng trung bình theo tháng năm 2.4.2 Những sản phẩm xe đạp, phụ kiện bán chạy qua năm 2.4.3 Phân tích việc bán hàng xe đạp theo mùa 2.5 Phân tích theo khu vực địa lý 2.6 Phân tích theo khuyến 2.7 Kết luận 23 23 23 25 25 25 27 27 27 30 31 36 38 42 8 10 10 11 11 12 13 lOMoARcPSD|15978022 THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI 1.Thơng tin chung: • Tên đề tài: Phân tích khám phá liệu khoa học liệu • Mã số: S2021.702.03 • Nhóm sinh viên thực hiện: - Đặng Hồ Minh Huy - Huỳnh Đăng Tiến - Hoàng Viết Vũ - Lê Đào Tuấn • Lớp, Khố, Khoa: Lớp Tốn Ứng Dụng, Khóa K43, Khoa Tốn Thống Kê • Giáo viên hướng dẫn: TS Thái Trung Hiếu 2.Mục tiêu đề tài: • Thành thạo số kĩ thuật EDA Từ khơng đưa nhiều phân tích có giá trị liệu mà giúp thực lựa chọn đặc trưng quan trọng liệu để xây dựng mơ hình học máy giúp dự đốn phải xử lí liệu tương lai • Đây đề tài nghiên cứu khoa học sinh viên khoa Toán Thống kê chủ đề EDA Đề tài tài liệu có giá trị giúp sinh viên ngành Toán ứng dụng tiếp cận kĩ thuật quan trọng phân tích liệu Tính sáng tạo: • Áp dụng phân tích khám phá liệu để phân tích liệu khách hàng cửa hàng bách hóa lớn như: Big C, Co.opmart Quy Nhơn, từ biết thông tin cần thiết trường hợp mua hàng khác hiểu rõ để đưa chiến lược cho hành động tương lai Kết nghiên cứu: • Nhóm thành cơng áp dụng phân tích khám phá liệu vào liệu khách hàng doanh nghiệp chuyên đồ thể thao mạo hiểm tồn cầu Phân tích tình hình mua hàng khách hàng, số khách hàng mới, đề xuất ý tưởng nhằm tăng doanh thu cho doanh nghiệp Đóng góp mặt kinh tế - xã hội, giáo dục đào tạo, an ninh, quốc phòng khả áp dụng đề tài: lOMoARcPSD|15978022 • Đề tài hồn thành tài liệu tham khảo hữu ích cho muốn tìm hiểu rõ tập liệu, đưa đánh giá chất lượng, tính hữu ích tính đầy đủ, dựa vào để có câu trả lời cần thiết trước đưa giả định tập liệu Hơn nữa, đề tài cịn bổ sung thêm kiến thức tốn thống kê Nhận xét người hướng dẫn đóng góp khoa học sinh viên thực đề tài: • Nhóm sinh viên thực đề tài dành nhiều thời gian công sức để tìm đọc tài liệu chuyên ngành tiếng Anh Phân tích liệu khám phám (Explanatory Data Analysis) Bên cạnh đó, nhóm phải tự học số kiến thức kế tốn tài để hiểu bối cảnh liệu kinh doanh Trong trình thực đề tài, nhóm chủ động kết nối với anh chị chuyên gia phân tích liệu để trao đổi, học hỏi thêm nhiều kiến thức, kĩ kinh nghiệm • Sau thời gian làm quen với kiến thức bản, nhóm mạnh dạn thử sức số liệu khó phức tạp Những kết mà nhóm đạt đáng khích lệ Tơi đánh giá cao tinh thần chủ động tích cực nhóm Nhóm hoàn thành xuất sắc vấn đề mà người hướng dẫn đặt Ngày tháng năm 2022 Trưởng khoa Người hướng dẫn PGS.TS Lê Cơng Trình TS Thái Trung Hiếu lOMoARcPSD|15978022 THÔNG TIN VỀ SINH VIÊN CHỊU TRÁCH NHIỆM CHÍNH THỰC HIỆN ĐỀ TÀI I SƠ LƯỢC VỀ SINH VIÊN: Họ tên: Huỳnh Đăng Tiến Sinh ngày: 25 tháng năm 2002 Nơi sinh: Quy Nhơn Lớp: Toán ứng dụng Khoa: Toán Thống kê Khóa: 43 Địa liên hệ: Tổ 7, Khu vực 8, phường Nhơn Phú Điện thoại: 0984753469 Email: huynhdangtien259@gmail.com II QUÁ TRÌNH HỌC TẬP: * Năm thứ 1: Ngành học: Toán ứng dụng Khoa: Toán Thống kê Kết xếp loại học tập: Khá Sơ lược thành tích: Giải khuyến khích thi Data GotTalent Ngày tháng năm 2022 Trưởng khoa Sinh viên chịu trách nhiệm PGS.TS Lê Cơng Trình Huỳnh Đăng Tiến lOMoARcPSD|15978022 Lời cảm ơn Để hoàn thành báo cáo nghiên cứu khoa học này, trước tiên chúng em xin gửi đến quý thầy, cô giáo trường Đại học Quy Nhơn nói chung khoa Tốn Thống kê nói riêng lời cảm ơn chân thành sâu sắc Đặc biệt, chúng em xin gửi đến TS.Thái Trung Hiếu - người tận tình hướng dẫn, giúp đỡ nhóm em hoàn thành báo cáo đề tài nghiên cứu khoa học lời cảm ơn sâu sắc Mặc dù nhóm chúng em có nhiều cố gắng qua trình thực đề tài, bên cạnh cịn có mặt hạn chế, thiếu sót nội dung khiến người đọc cảm giác khó hiểu Chúng em kính mong q thầy cơ, chun gia, người quan tâm đề tài, anh chị bạn bè tiếp tục có ý kiến đóng góp, giúp đỡ cho đề tài hoàn thiện Một lần chúng em xin chân thành cảm ơn! Quy Nhơn, ngày tháng năm 2022 Trưởng nhóm Huỳnh Đăng Tiến lOMoARcPSD|15978022 Mở đầu Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài: Phân tích khám phá liệu (EDA) bước thiết yếu phân tích nghiên cứu Mục đích phân tích khám phá kiểm tra liệu phân bố, giá trị ngoại lai điểm bất thường để định hướng việc kiểm tra cụ thể giả thuyết bạn Nó cung cấp công cụ để tạo giả thuyết cách trực quan hóa hiểu liệu thường thơng qua biểu đồ Cuối cùng, kỹ thuật lựa chọn đặc trưng thường rơi vào EDA Kể từ cơng trình Tukey vào năm 1977, EDA thu lượng lớn người theo dõi phương pháp tiêu chuẩn vàng để phân tích tập liệu Theo Howard Seltman (Đại học Carnegie Mellon), “nói cách lỏng lẻo, phương pháp xem xét liệu không bao gồm mơ hình thống kê thức suy luận thuộc thuật ngữ phân tích liệu khám phá” Lý chọn đề tài: Phân tích khám phá liệu (Exploratory Data Analysis) có giá trị to lớn dự án khoa học liệu đảm bảo kết dự đốn tương lai chắn hợp lệ, diễn giải cách xác áp dụng cho bối cảnh kinh doanh mà nhà kinh doanh mong muốn Mức độ chắn đạt sau liệu thô xác thực kiểm tra điểm bất thường, đảm bảo tập liệu thu thập khơng có lỗi EDA giúp tìm nhiều thơng tin doanh nghiệp cụ thể Tuy nhiên với có nhiều thơng tin khơng rõ ràng khơng đáng để bên liên quan điều tra EDA thực để xác định tinh chỉnh việc lựa chọn biến đặc trưng sử dụng cho học máy Khi nhà khoa học liệu quen với tập liệu, họ thường phải quay lại bước kỹ thuật xây dựng đặc trưng đặc trưng ban đầu khơng phục vụ mục đích dự kiến họ Sau giai đoạn EDA hoàn tất, nhà khoa học liệu có đặc trưng chắn mà họ cần cho học máy giám sát học máy không giám sát Mục tiêu đề tài: Thành thạo số kĩ thuật EDA Từ khơng đưa nhiều phân tích có giá trị liệu mà cịn giúp thực lựa chọn đặc trưng quan trọng liệu để xây dựng mơ hình học máy giúp dự đốn phải xử lí liệu tương lai lOMoARcPSD|15978022 Đây đề tài nghiên cứu khoa học sinh viên khoa Toán Thống kê chủ đề EDA Đề tài tài liệu có giá trị giúp sinh viên ngành Toán ứng dụng tiếp cận kĩ thuật quan trọng phân tích liệu Phương pháp nghiên cứu: Tìm hiểu sở lý thuyết kỹ thuật tài liệu chuyên ngành Tham khảo nguồn tài liệu liệu mở để triển khai áp dụng kỹ thuật phân tích khám phá liệu tốn thực tế Đối tượng phạm vi nghiên cứu: Đối tượng nghiên cứu: kỹ thuật phân tích khám phá liệu Phạm vi nghiên cứu: nghiên cứu lý thuyết triển khai kỹ thuật, nghiên cứu lí thuyết thực hành liệu thực tế lOMoARcPSD|15978022 Chương Lý thuyết 1.1 Hiểu biết khoa học liệu • Khoa học liệu đỉnh cao cường điệu kỹ xử lý liệu nhà khoa học thay đổi Giờ đây, nhà khoa học liệu không yêu cầu xây dựng điều cần thiết mà họ phải giải thích kết thu sử dụng kết cho kinh doanh thơng minh • Khoa học liệu liên quan đến kiến thức đa ngành từ khoa học máy tính, liệu, thống kê tốn học Có số giai đoạn phân tích liệu, bao gồm yêu cầu liệu, thu thập liệu, xử lý liệu, làm liệu, phân tích liệu khám phá, mơ hình hóa thuật tốn sản phẩm liệu liên lạc Các giai đoạn tương tự Quy trình tiêu chuẩn cơng nghiệp CROSS liệu khung khai thác (CRISP) khai thác liệu • Bài học rút giai đoạn EDA, khía cạnh quan trọng phân tích liệu khai thác liệu • Các giai đoạn Phân tích liệu: – Yêu cầu liệu (Data requirements): Thu thập liệu định nghĩa quy trình thu thập, đo lường phân tích hiểu biết xác cho nghiên cứu cách sử dụng kỹ thuật xác thực tiêu chuẩn Một nhà nghiên cứu đánh giá giả thuyết họ sở liệu thu thập Trong hầu hết trường hợp, thu thập liệu bước quan trọng để nghiên cứu, không phân biệt lĩnh vực nghiên cứu Cách tiếp cận thu thập liệu khác lĩnh vực nghiên cứu khác nhau, tùy thuộc vào thông tin yêu cầu – Thu thập liệu (Data collection): Xử lý liệu xảy liệu thu thập chuyển thành thơng tin sử dụng Thường thực nhà khoa học liệu nhóm nhà khoa học liệu, điều quan trọng việc xử lý liệu phải thực xác để khơng ảnh hưởng tiêu cực đến sản phẩm cuối đầu liệu lOMoARcPSD|15978022 Figure 2.7: Số đơn hàng trung bình theo tháng năm 29 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 2.4.2 Những sản phẩm xe đạp, phụ kiện bán chạy qua năm Figure 2.8: Số lượng bán loại xe đạp qua năm • Về số lượng dịng Xe đạp đường bộ(Road Bikes) bán chạy Nhưng xu hướng cho thấy dịng Xe đạp leo núi(Mountain Bikes) có khả đem lại lợi nhuận lớn • Vì ta nên đẩy mạnh việc bán mẫu xe thuộc dòng Xe đạp leo núi(Mountain Bikes) • Lốp săm xe đạp(Tires and Tubes) bán chạy đồng thời mang lại lợi nhuận lớn dịng phụ kiện • Ngồi ra, Mũ bảo hiểm(Helmets) có biên lợi nhuận rịng lớn Cần thúc đẩy nhiều • Nhìn chung, mặt hàng phụ kiến bán nhiều sản phẩm Nhưng lợi nhuận mang lại không đáng kể so với việc bán xe đạp • Vì vậy, cần ưu tiên tập trung vào mảng bán xe đạp 30 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Figure 2.9: Lợi nhuận ròng loại xe đạp qua năm 2.4.3 Phân tích việc bán hàng xe đạp theo mùa • Giai đoạn trước tháng năm 2018, sản lượng lợi nhuận chủ yếu đến từ dòng Xe đạp đường (Road Bikes) • Nhưng sau năm 2020, lợi nhuận đến từ dòng Xe đạp leo núi(Mountain Bikes) có xu hướng tăng mạnh, cuối năm 2019, lợi nhuận đến từ dòng Mountain Bikes gấp gần lần so với Xe đạp đường bộ(Road Bikes) • Ngồi ra, Xe đạp du lịch(Touring Bikes) dòng xe tiềm năng, đem lại biên lợi nhuận ròng lớn Dù bán cuối năm 2018 có xu hướng phát triển nhanh 31 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Figure 2.10: Số lượng bán loại phụ kiện qua năm 32 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Figure 2.11: Lợi nhuận ròng loại phụ kiện qua năm 33 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Figure 2.12: Số lượng bán loại xe đạp qua tháng 34 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Figure 2.13: Lợi nhuận loại xe đạp qua tháng 35 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 2.5 Phân tích theo khu vực địa lý Figure 2.14: Tổng doanh thu bán hàng quốc gia • Doanh thu Hoa Kỳ cao (hơn 20 nghìn đơn hàng bán ra) • Các nước Châu Âu có doanh thu thấp so với Hoa Kỳ Úc • Canada có doanh thu thấp quốc gia • Ở Úc, Xe đạp đường bộ(Road Bikes) có số lượng bán vượt trội so với Xe đạp leo núi(Mountain Bikes) • Ở Úc, loại Xe đạp leo núi(Mountain Bikes) Xe đạp du lịch(Touring Bikes) thấp Hoa Kỳ dịng xe đạp đương bộ(Road Bikes) lại cao • Những khách hàng Úc nằm trình độ Cử nhân chiếm số lượng lớn 36 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Figure 2.15: Số lượng xe đạp bán quốc gia Figure 2.16: Trình độ giáo dục khách hàng quốc gia 37 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Figure 2.17: Số lượng phần trăm đơn hàng chiến dịch khuyến 2.6 Phân tích theo khuyến • Khách hàng mua hàng khơng có khuyến chiếm số lượng nhiều với tổng số đơn hàng 58247, chiếm đến 96.4% tổng số đơn hàng Các chiến dịch lại có số lượng đơn hàng Volume Discount 11 to 14, Touring -3000 Promotion Touring -1000 Promotion, chiếm chưa tới 4% Figure 2.18: Doanh thu phần trăm doanh thu chiến dịch khuyến 38 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 • Chiến dịch Volume Discount 11 to 14 mang lại doanh thu nhiều số chiến dịch khuyến chiếm tới 98% tổng số chiến dịch Figure 2.19: Doanh thu trung bình sản phẩm • Tuy doanh thu trung bình sản phẩm chiến dịch Touring -1000 Promotion lại cao Figure 2.20: Chiến dịch Volume Discount 11 to 14 • Trong chiến dịch Volume Discount 11 to 14, sản phẩm mua nhiều Săm lốp xe đạp(Tires and Tubes), Xe đạp leo núi(Mountain Bikes) Xe đạp đường bộ(Road Bikes) 39 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Figure 2.21: Doanh thu trung bình doanh thu sản phẩm • Đối với doanh thu trung bình doanh thu sản phẩm chiến dịch Volume Discount 11 to 14,Xe đạp leo núi(Mountain Bikes),xe đạp đường bộ(Road Bikes) Xe đạp du lịch(Touring Bikes) mang lại nhiều Figure 2.22: Phần trăm doanh thu chiến dịch khuyến • Tuy khuyến chiến dịch lại đóng góp nhỏ tổng số doanh thu, chiếm chưa tới 3% • Đối với chiến dịch Touring -1000 Promotion Touring -3000 Promotion, thời gian khuyến kéo dài tháng từ cuối tháng 12/2018 đến cuối tháng 3/2019, khách hàng lại mua Xe đạp du lịch(Touring Bikes) thời gian từ cuối tháng 12/2018 đến cuối tháng 12/2019 40 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Figure 2.23: Các đơn hàng Touring Bikes đặt theo thời gian Figure 2.24: Bảng thông tin chiến dịch khuyến 41 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 • Cịn chiến dịch Volume Discount 11 to 14, thời gian khuyến kéo dài phần trăm giảm giá thấp, không đủ để thu hút khách hàng mua sản phẩm có khuyến 2.7 Kết luận • Khách hàng chủ yếu đến từ độ tuổi từ 34 – 70, có thu nhập trung bình • Nên tập trung vào việc bán xe đạp • Cần đẩy mạnh mẫu xe đạp thuộc dòng xe leo núi (Mountain Bikes), xe đạp du lịch (Touring Bikes) • Nên tổ chức khuyến marketing vào tháng tháng 12 • Nên đẩy mạnh bán hàng Hoa Kỳ • Nên tập trung bán dịng xe đạp đường (Road Bikes) Úc • Ở Úc, nên đẩy mạnh bán hàng khách hàng có trình độ giáo dục Cử nhân • Doanh thu đến từ việc khuyến cịn thấp • Hai chiến dịch khuyến sản phẩm nên đặt vào tháng cuối năm có doanh thu bán hàng cao 42 Downloaded by Quang Quang (khoa31141020806@gmail.com) lOMoARcPSD|15978022 Tài liệu tham khảo [1] AdventureWorks sample databases [2] Practical Statistics for Data Scientists, Peter Bruce, Andrew Bruce, 2017 [3] Exploratory Data Analysis Matthieu Komorowski, Dominic C Marshall, Justin D Salciccioli Yves Crutain, 2016 [4] Hands-On Exploratory Data Analysis with Python, Suresh Kumar Mukhiya, Usman Ahmed, 2020 43 Downloaded by Quang Quang (khoa31141020806@gmail.com)

Ngày đăng: 27/04/2023, 11:23

Tài liệu cùng người dùng

Tài liệu liên quan