Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
4,94 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN Tên đề tài: PHÂN TÍCH KHÁM PHÁ DỮ LIỆU TRONG KHOA HỌC DỮ LIỆU Mã số đề tài: S2021.702.03 Lĩnh vực nghiên cứu: Khoa học tự nhiên (Chun ngành Tốn Thống kê) Bình Định, 5/2022 Mục lục Thông tin kết nghiên cứu đề tài Lời cảm ơn Lý thuyết 1.1 Hiểu biết khoa học liệu 1.2 Tầm quan trọng EDA 1.3 Các giai đoạn EDA 1.4 Ý nghĩa liệu 1.4.1 Dữ liệu số (Numerical data): 1.4.2 Dữ liệu phân loại (Categorical data): 1.4.3 Quy mô đo (Measurement scales): 1.5 So sánh phân tích khám phá liệu với phân tích liệu cổ điển phân tích liệu suy luận Bayes: 1.6 Thống kê mô tả 1.6.1 Đo lường xu hướng trung tâm (Measures of central tendency) 1.6.2 Thước đo phân tán (Meansures of dispersion) 8 10 10 11 11 12 13 Thực hành 2.1 Chuẩn bị liệu 2.2 Đặt câu hỏi 2.3 Phân tích theo khách hàng 2.3.1 Phương diện mua hàng 2.3.2 Thu nhập khách hàng 2.3.3 Độ tuổi khách hàng 2.4 Phân tích theo chuỗi thời gian 2.4.1 Doanh thu số đơn đặt hàng trung bình theo tháng năm 2.4.2 Những sản phẩm xe đạp, phụ kiện bán chạy qua năm 2.4.3 Phân tích việc bán hàng xe đạp theo mùa 2.5 Phân tích theo khu vực địa lý 2.6 Phân tích theo khuyến 2.7 Kết luận 23 23 23 25 25 25 27 27 27 30 31 36 38 42 14 15 15 19 THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI 1.Thơng tin chung: • Tên đề tài: Phân tích khám phá liệu khoa học liệu • Mã số: S2021.702.03 • Nhóm sinh viên thực hiện: - Đặng Hồ Minh Huy - Huỳnh Đăng Tiến - Hoàng Viết Vũ - Lê Đào Tuấn • Lớp, Khố, Khoa: Lớp Tốn Ứng Dụng, Khóa K43, Khoa Tốn Thống Kê • Giáo viên hướng dẫn: TS Thái Trung Hiếu 2.Mục tiêu đề tài: • Thành thạo số kĩ thuật EDA Từ khơng đưa nhiều phân tích có giá trị liệu mà giúp thực lựa chọn đặc trưng quan trọng liệu để xây dựng mơ hình học máy giúp dự đốn phải xử lí liệu tương lai • Đây đề tài nghiên cứu khoa học sinh viên khoa Toán Thống kê chủ đề EDA Đề tài tài liệu có giá trị giúp sinh viên ngành Toán ứng dụng tiếp cận kĩ thuật quan trọng phân tích liệu Tính sáng tạo: • Áp dụng phân tích khám phá liệu để phân tích liệu khách hàng cửa hàng bách hóa lớn như: Big C, Co.opmart Quy Nhơn, từ biết thơng tin cần thiết trường hợp mua hàng khác hiểu rõ để đưa chiến lược cho hành động tương lai Kết nghiên cứu: • Nhóm thành cơng áp dụng phân tích khám phá liệu vào liệu khách hàng doanh nghiệp chuyên đồ thể thao mạo hiểm toàn cầu Phân tích tình hình mua hàng khách hàng, số khách hàng mới, đề xuất ý tưởng nhằm tăng doanh thu cho doanh nghiệp Đóng góp mặt kinh tế - xã hội, giáo dục đào tạo, an ninh, quốc phòng khả áp dụng đề tài: • Đề tài hồn thành tài liệu tham khảo hữu ích cho muốn tìm hiểu rõ tập liệu, đưa đánh giá chất lượng, tính hữu ích tính đầy đủ, dựa vào để có câu trả lời cần thiết trước đưa giả định tập liệu Hơn nữa, đề tài bổ sung thêm kiến thức toán thống kê Nhận xét người hướng dẫn đóng góp khoa học sinh viên thực đề tài: • Nhóm sinh viên thực đề tài dành nhiều thời gian cơng sức để tìm đọc tài liệu chun ngành tiếng Anh Phân tích liệu khám phám (Explanatory Data Analysis) Bên cạnh đó, nhóm phải tự học số kiến thức kế toán tài để hiểu bối cảnh liệu kinh doanh Trong trình thực đề tài, nhóm chủ động kết nối với anh chị chuyên gia phân tích liệu để trao đổi, học hỏi thêm nhiều kiến thức, kĩ kinh nghiệm • Sau thời gian làm quen với kiến thức bản, nhóm mạnh dạn thử sức số liệu khó phức tạp Những kết mà nhóm đạt đáng khích lệ Tơi đánh giá cao tinh thần chủ động tích cực nhóm Nhóm hồn thành xuất sắc vấn đề mà người hướng dẫn đặt Ngày tháng năm 2022 Trưởng khoa Người hướng dẫn PGS.TS Lê Cơng Trình TS Thái Trung Hiếu THƠNG TIN VỀ SINH VIÊN CHỊU TRÁCH NHIỆM CHÍNH THỰC HIỆN ĐỀ TÀI I SƠ LƯỢC VỀ SINH VIÊN: Họ tên: Huỳnh Đăng Tiến Sinh ngày: 25 tháng năm 2002 Nơi sinh: Quy Nhơn Lớp: Toán ứng dụng Khoa: Toán Thống kê Khóa: 43 Địa liên hệ: Tổ 7, Khu vực 8, phường Nhơn Phú Điện thoại: 0984753469 Email: huynhdangtien259@gmail.com II QUÁ TRÌNH HỌC TẬP: * Năm thứ 1: Ngành học: Toán ứng dụng Khoa: Toán Thống kê Kết xếp loại học tập: Khá Sơ lược thành tích: Giải khuyến khích thi Data GotTalent Ngày tháng năm 2022 Trưởng khoa Sinh viên chịu trách nhiệm PGS.TS Lê Cơng Trình Huỳnh Đăng Tiến Lời cảm ơn Để hoàn thành báo cáo nghiên cứu khoa học này, trước tiên chúng em xin gửi đến quý thầy, cô giáo trường Đại học Quy Nhơn nói chung khoa Tốn Thống kê nói riêng lời cảm ơn chân thành sâu sắc Đặc biệt, chúng em xin gửi đến TS.Thái Trung Hiếu - người tận tình hướng dẫn, giúp đỡ nhóm em hoàn thành báo cáo đề tài nghiên cứu khoa học lời cảm ơn sâu sắc Mặc dù nhóm chúng em có nhiều cố gắng qua trình thực đề tài, bên cạnh cịn có mặt hạn chế, thiếu sót nội dung khiến người đọc cảm giác khó hiểu Chúng em kính mong q thầy cơ, chun gia, người quan tâm đề tài, anh chị bạn bè tiếp tục có ý kiến đóng góp, giúp đỡ cho đề tài hoàn thiện Một lần chúng em xin chân thành cảm ơn! Quy Nhơn, ngày tháng năm 2022 Trưởng nhóm Huỳnh Đăng Tiến Mở đầu Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài: Phân tích khám phá liệu (EDA) bước thiết yếu phân tích nghiên cứu Mục đích phân tích khám phá kiểm tra liệu phân bố, giá trị ngoại lai điểm bất thường để định hướng việc kiểm tra cụ thể giả thuyết bạn Nó cung cấp công cụ để tạo giả thuyết cách trực quan hóa hiểu liệu thường thơng qua biểu đồ Cuối cùng, kỹ thuật lựa chọn đặc trưng thường rơi vào EDA Kể từ cơng trình Tukey vào năm 1977, EDA thu lượng lớn người theo dõi phương pháp tiêu chuẩn vàng để phân tích tập liệu Theo Howard Seltman (Đại học Carnegie Mellon), “nói cách lỏng lẻo, phương pháp xem xét liệu không bao gồm mơ hình thống kê thức suy luận thuộc thuật ngữ phân tích liệu khám phá” Lý chọn đề tài: Phân tích khám phá liệu (Exploratory Data Analysis) có giá trị to lớn dự án khoa học liệu đảm bảo kết dự đốn tương lai chắn hợp lệ, diễn giải cách xác áp dụng cho bối cảnh kinh doanh mà nhà kinh doanh mong muốn Mức độ chắn đạt sau liệu thô xác thực kiểm tra điểm bất thường, đảm bảo tập liệu thu thập khơng có lỗi EDA giúp tìm nhiều thơng tin doanh nghiệp cụ thể Tuy nhiên với có nhiều thơng tin khơng rõ ràng khơng đáng để bên liên quan điều tra EDA thực để xác định tinh chỉnh việc lựa chọn biến đặc trưng sử dụng cho học máy Khi nhà khoa học liệu quen với tập liệu, họ thường phải quay lại bước kỹ thuật xây dựng đặc trưng đặc trưng ban đầu khơng phục vụ mục đích dự kiến họ Sau giai đoạn EDA hoàn tất, nhà khoa học liệu có đặc trưng chắn mà họ cần cho học máy giám sát học máy không giám sát Mục tiêu đề tài: Thành thạo số kĩ thuật EDA Từ khơng đưa nhiều phân tích có giá trị liệu mà cịn giúp thực lựa chọn đặc trưng quan trọng liệu để xây dựng mơ hình học máy giúp dự đốn phải xử lí liệu tương lai Đây đề tài nghiên cứu khoa học sinh viên khoa Toán Thống kê chủ đề EDA Đề tài tài liệu có giá trị giúp sinh viên ngành Toán ứng dụng tiếp cận kĩ thuật quan trọng phân tích liệu Phương pháp nghiên cứu: Tìm hiểu sở lý thuyết kỹ thuật tài liệu chuyên ngành Tham khảo nguồn tài liệu liệu mở để triển khai áp dụng kỹ thuật phân tích khám phá liệu tốn thực tế Đối tượng phạm vi nghiên cứu: Đối tượng nghiên cứu: kỹ thuật phân tích khám phá liệu Phạm vi nghiên cứu: nghiên cứu lý thuyết triển khai kỹ thuật, nghiên cứu lí thuyết thực hành liệu thực tế Chương Lý thuyết 1.1 Hiểu biết khoa học liệu • Khoa học liệu đỉnh cao cường điệu kỹ xử lý liệu nhà khoa học thay đổi Giờ đây, nhà khoa học liệu không yêu cầu xây dựng điều cần thiết mà họ phải giải thích kết thu sử dụng kết cho kinh doanh thơng minh • Khoa học liệu liên quan đến kiến thức đa ngành từ khoa học máy tính, liệu, thống kê tốn học Có số giai đoạn phân tích liệu, bao gồm yêu cầu liệu, thu thập liệu, xử lý liệu, làm liệu, phân tích liệu khám phá, mơ hình hóa thuật tốn sản phẩm liệu liên lạc Các giai đoạn tương tự Quy trình tiêu chuẩn cơng nghiệp CROSS liệu khung khai thác (CRISP) khai thác liệu • Bài học rút giai đoạn EDA, khía cạnh quan trọng phân tích liệu khai thác liệu • Các giai đoạn Phân tích liệu: – Yêu cầu liệu (Data requirements): Thu thập liệu định nghĩa quy trình thu thập, đo lường phân tích hiểu biết xác cho nghiên cứu cách sử dụng kỹ thuật xác thực tiêu chuẩn Một nhà nghiên cứu đánh giá giả thuyết họ sở liệu thu thập Trong hầu hết trường hợp, thu thập liệu bước quan trọng để nghiên cứu, khơng phân biệt lĩnh vực nghiên cứu Cách tiếp cận thu thập liệu khác lĩnh vực nghiên cứu khác nhau, tùy thuộc vào thông tin yêu cầu – Thu thập liệu (Data collection): Xử lý liệu xảy liệu thu thập chuyển thành thơng tin sử dụng Thường thực nhà khoa học liệu nhóm nhà khoa học liệu, điều quan trọng việc xử lý liệu phải thực xác để khơng ảnh hưởng tiêu cực đến sản phẩm cuối đầu liệu Quá trình xử lý liệu bắt đầu với liệu dạng thơ chuyển thành định dạng dễ đọc (đồ thị, tài liệu, v.v.), tạo cho dạng ngữ cảnh cần thiết để máy tính diễn giải nhân viên tổ chức sử dụng – Xử lý liệu (Data processing): Xử lý liệu xảy liệu thu thập chuyển thành thơng tin sử dụng Thường thực nhà khoa học liệu nhóm nhà khoa học liệu, điều quan trọng việc xử lý liệu phải thực xác để khơng ảnh hưởng tiêu cực đến sản phẩm cuối đầu liệu Quá trình xử lý liệu bắt đầu với liệu dạng thơ chuyển thành định dạng dễ đọc (đồ thị, tài liệu, v.v.), tạo cho dạng ngữ cảnh cần thiết để máy tính diễn giải nhân viên tổ chức sử dụng – Làm liệu (Data cleaning): Dữ liệu xử lý trước chưa sẵn sàng để phân tích chi tiết Làm liệu q trình sửa chữa xóa liệu khơng xác, bị hỏng, định dạng khơng xác, trùng lặp không đầy đủ tập liệu Khi kết hợp nhiều nguồn liệu, có nhiều hội để liệu bị trùng lặp gắn nhãn sai Nếu liệu khơng xác, kết thuật tốn khơng đáng tin cậy, chúng Khơng có cách tuyệt đối để quy định bước xác quy trình làm liệu quy trình khác tập liệu Nhưng điều quan trọng phải thiết lập khn mẫu cho quy trình làm liệu bạn để bạn biết làm cách lúc – Phân tích liệu khám phá (EDA - Exploratory Data Analysis): Như đề cập trước đây, phân tích giữ liệu khám phá giai đoạn mà thực bắt đầu hiểu thơng điệp có liệu Cần lưu ý số loại kỹ thuật chuyển đổi liệu u cầu q trình thăm dò Phần yêu cầu kiến thức sâu thống kê đặc biệt thống kê mô tả – Mô hình hóa thuật tốn (Modeling and algorithm): Từ quan điểm khoa học liệu, mơ hình tổng qt cơng thức tốn học biểu diễn thể mối quan hệ các biến, chẳng hạn mối tương quan quan hệ nhân Các mơ hình phương trình liên quan đến nhiều biến phụ thuộc vào biến khác để gây kiện – Sản phẩm liệu (Data Product): Bất kỳ phần mềm máy tính sử dụng liệu làm đầu vào, sản xuất đầu cung cấp phản hồi dựa kết đầu để kiểm sốt mơi trường gọi sản phẩm liệu Một sản phẩm liệu thường dựa mơ hình phát triển q trình phân tích liệu – Truyền thơng (Communication): Giai đoạn giải việc phổ biến kết để kết thúc bên liên quan sử dụng kết cho hoạt động kinh doanh thông minh Một điều đáng ý giai đoạn trực quan hóa liệu Hình ảnh hóa liên quan đến thông tin chuyển tiếp kỹ thuật bảng, biểu đồ, sơ đồ tóm tắt biểu đồ để hiển thị kết phân tích Figure 2.7: Số đơn hàng trung bình theo tháng năm 29 2.4.2 Những sản phẩm xe đạp, phụ kiện bán chạy qua năm Figure 2.8: Số lượng bán loại xe đạp qua năm • Về số lượng dịng Xe đạp đường bộ(Road Bikes) bán chạy Nhưng xu hướng cho thấy dịng Xe đạp leo núi(Mountain Bikes) có khả đem lại lợi nhuận lớn • Vì ta nên đẩy mạnh việc bán mẫu xe thuộc dòng Xe đạp leo núi(Mountain Bikes) • Lốp săm xe đạp(Tires and Tubes) bán chạy đồng thời mang lại lợi nhuận lớn dịng phụ kiện • Ngồi ra, Mũ bảo hiểm(Helmets) có biên lợi nhuận rịng lớn Cần thúc đẩy nhiều • Nhìn chung, mặt hàng phụ kiến bán nhiều sản phẩm Nhưng lợi nhuận mang lại không đáng kể so với việc bán xe đạp • Vì vậy, cần ưu tiên tập trung vào mảng bán xe đạp 30 Figure 2.9: Lợi nhuận ròng loại xe đạp qua năm 2.4.3 Phân tích việc bán hàng xe đạp theo mùa • Giai đoạn trước tháng năm 2018, sản lượng lợi nhuận chủ yếu đến từ dòng Xe đạp đường (Road Bikes) • Nhưng sau năm 2020, lợi nhuận đến từ dịng Xe đạp leo núi(Mountain Bikes) có xu hướng tăng mạnh, cuối năm 2019, lợi nhuận đến từ dòng Mountain Bikes gấp gần lần so với Xe đạp đường bộ(Road Bikes) • Ngồi ra, Xe đạp du lịch(Touring Bikes) dòng xe tiềm năng, đem lại biên lợi nhuận ròng lớn Dù bán cuối năm 2018 có xu hướng phát triển nhanh 31 Figure 2.10: Số lượng bán loại phụ kiện qua năm 32 Figure 2.11: Lợi nhuận ròng loại phụ kiện qua năm 33 Figure 2.12: Số lượng bán loại xe đạp qua tháng 34 Figure 2.13: Lợi nhuận loại xe đạp qua tháng 35 2.5 Phân tích theo khu vực địa lý Figure 2.14: Tổng doanh thu bán hàng quốc gia • Doanh thu Hoa Kỳ cao (hơn 20 nghìn đơn hàng bán ra) • Các nước Châu Âu có doanh thu thấp so với Hoa Kỳ Úc • Canada có doanh thu thấp quốc gia • Ở Úc, Xe đạp đường bộ(Road Bikes) có số lượng bán vượt trội so với Xe đạp leo núi(Mountain Bikes) • Ở Úc, loại Xe đạp leo núi(Mountain Bikes) Xe đạp du lịch(Touring Bikes) thấp Hoa Kỳ dòng xe đạp đương bộ(Road Bikes) lại cao • Những khách hàng Úc nằm trình độ Cử nhân chiếm số lượng lớn 36 Figure 2.15: Số lượng xe đạp bán quốc gia Figure 2.16: Trình độ giáo dục khách hàng quốc gia 37 Figure 2.17: Số lượng phần trăm đơn hàng chiến dịch khuyến 2.6 Phân tích theo khuyến • Khách hàng mua hàng khơng có khuyến chiếm số lượng nhiều với tổng số đơn hàng 58247, chiếm đến 96.4% tổng số đơn hàng Các chiến dịch cịn lại có số lượng đơn hàng Volume Discount 11 to 14, Touring -3000 Promotion Touring -1000 Promotion, chiếm chưa tới 4% Figure 2.18: Doanh thu phần trăm doanh thu chiến dịch khuyến 38 • Chiến dịch Volume Discount 11 to 14 mang lại doanh thu nhiều số chiến dịch khuyến chiếm tới 98% tổng số chiến dịch Figure 2.19: Doanh thu trung bình sản phẩm • Tuy doanh thu trung bình sản phẩm chiến dịch Touring -1000 Promotion lại cao Figure 2.20: Chiến dịch Volume Discount 11 to 14 • Trong chiến dịch Volume Discount 11 to 14, sản phẩm mua nhiều Săm lốp xe đạp(Tires and Tubes), Xe đạp leo núi(Mountain Bikes) Xe đạp đường bộ(Road Bikes) 39 Figure 2.21: Doanh thu trung bình doanh thu sản phẩm • Đối với doanh thu trung bình doanh thu sản phẩm chiến dịch Volume Discount 11 to 14,Xe đạp leo núi(Mountain Bikes),xe đạp đường bộ(Road Bikes) Xe đạp du lịch(Touring Bikes) mang lại nhiều Figure 2.22: Phần trăm doanh thu chiến dịch khuyến • Tuy khuyến chiến dịch lại đóng góp nhỏ tổng số doanh thu, chiếm chưa tới 3% • Đối với chiến dịch Touring -1000 Promotion Touring -3000 Promotion, thời gian khuyến kéo dài tháng từ cuối tháng 12/2018 đến cuối tháng 3/2019, khách hàng lại mua Xe đạp du lịch(Touring Bikes) thời gian từ cuối tháng 12/2018 đến cuối tháng 12/2019 40 Figure 2.23: Các đơn hàng Touring Bikes đặt theo thời gian Figure 2.24: Bảng thông tin chiến dịch khuyến 41 • Cịn chiến dịch Volume Discount 11 to 14, thời gian khuyến kéo dài phần trăm giảm giá thấp, không đủ để thu hút khách hàng mua sản phẩm có khuyến 2.7 Kết luận • Khách hàng chủ yếu đến từ độ tuổi từ 34 – 70, có thu nhập trung bình • Nên tập trung vào việc bán xe đạp • Cần đẩy mạnh mẫu xe đạp thuộc dòng xe leo núi (Mountain Bikes), xe đạp du lịch (Touring Bikes) • Nên tổ chức khuyến marketing vào tháng tháng 12 • Nên đẩy mạnh bán hàng Hoa Kỳ • Nên tập trung bán dòng xe đạp đường (Road Bikes) Úc • Ở Úc, nên đẩy mạnh bán hàng khách hàng có trình độ giáo dục Cử nhân • Doanh thu đến từ việc khuyến cịn thấp • Hai chiến dịch khuyến sản phẩm nên đặt vào tháng cuối năm có doanh thu bán hàng cao 42 Tài liệu tham khảo [1] AdventureWorks sample databases [2] Practical Statistics for Data Scientists, Peter Bruce, Andrew Bruce, 2017 [3] Exploratory Data Analysis Matthieu Komorowski, Dominic C Marshall, Justin D Salciccioli Yves Crutain, 2016 [4] Hands-On Exploratory Data Analysis with Python, Suresh Kumar Mukhiya, Usman Ahmed, 2020 43 ... từ khoa học máy tính, liệu, thống kê tốn học Có số giai đoạn phân tích liệu, bao gồm yêu cầu liệu, thu thập liệu, xử lý liệu, làm liệu, phân tích liệu khám phá, mơ hình hóa thuật tốn sản phẩm liệu. .. chất lượng trải nghiệm, 1.5 So sánh phân tích khám phá liệu với phân tích liệu cổ điển phân tích liệu suy luận Bayes: Figure 1.2: So sánh phân tích khám phá liệu với cổ điển suy luận Bayes 14... tình hình nghiên cứu thuộc lĩnh vực đề tài: Phân tích khám phá liệu (EDA) bước thiết yếu phân tích nghiên cứu Mục đích phân tích khám phá kiểm tra liệu phân bố, giá trị ngoại lai điểm bất thường