BÁO CÁO ĐỒ ÁN XÂY DỰNG VÀ PHÂN TÍCH DỮ LIỆU BÁN LẺ CỦA SIÊU THỊ TOÀN CẦU TỪ NĂM 2011 ĐẾN 2014 Môn học Kho dữ liệu và Olap Lớp IS217 L11 Giảng viên Ths Đỗ Thị Minh Phụng Nhóm thực hiện Nguyễn Đức Tuấn 16521546 Nguyễn Văn Trí 16521287 Đính kèm Link nộp email: vantri1010@gmail.com
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN BÁO CÁO ĐỒ ÁN XÂY DỰNG VÀ PHÂN TÍCH DỮ LIỆU BÁN LẺ CỦA SIÊU THỊ TOÀN CẦU TỪ NĂM 2011 ĐẾN 2014 Môn học: Kho liệu Olap Lớp: IS217.L11 Giảng viên: Ths Đỗ Thị Minh Phụng Nhóm thực hiện: Nguyễn Đức Tuấn - 16521546 Nguyễn Văn Trí - 16521287 Mục Lục Giới thiệu đề tài 1.1 Giới thiệu 1.2 Nguồn gốc liệu Quá trình xây dựng kho liệu (SSIS): 2.1 Diagram DataWarehouse 2.2 Mô tả 2.2.1 Bảng DIM_CUSTOMER 2.2.2 Bảng Dim_PRODUCT 2.2.3 Bảng DIM_GEOGRAPHY 2.2.4 Bảng DIM_SHIP_MODE 2.2.5 Bảng DIM_ORDER_PRIORITY 2.2.6 Bảng Dim_SHIP_TIME 2.2.7 Bảng Dim_ORDER_TIME 2.2.8 Bảng FACT 2.3 Đổ liệu 2.3.1 Kết nối sở liệu 10 11 11 2.3.1.1 Tạo Project 11 2.3.1.2 Tạo Flat File Connection chứa liệu file csv 12 2.3.1.3 Tạo OLE DB Destination thiết lập kết nối xuống SQL Server 14 2.3.2 Tạo bảng DIM_GEOGRAPHY 15 2.3.3 Tạo bảng DIM_CUSTOMER 18 2.3.4 Tạo bảng DIM_ORDER_PRIORITY 20 2.3.5 Tạo bảng DIM_PRODUCT 22 2.3.6 Tạo bảng DIM_ORDER_TIME 24 2.3.7 Tạo bảng DIM_SHIP_MODE 26 2.3.8 Tạo bảng DIM_SHIP_TIME 28 2.3.9 Tạo bảng FACT 29 2.4 Thực thi tồn q trình SSIS Truy vấn liệu (SSAS): 31 32 3.1 Tạo khối liệu 32 3.2 Tạo Data Source 32 3.3 Tạo cube 36 3.4 Deploy and process 56 3.5 Truy vấn liệu 57 3.5.1 Chọn n khách hàng có lợi nhuận cao 57 3.5.2 Chọn 30 sản phẩm có số lượng mua cao 58 3.5.3 Tìm region có shipping cost lớn 80000 market EU 59 3.5.4 Tìm 20 nước có tỉ lệ giảm giá dần trừ 10 nước cao với loại sản phẩm Furniture 59 3.5.5 Số lượng bán Sub-category theo quý năm 61 3.5.6 Thống kê số lượng giảm giá, lợi nhuận, sales, phí ship loại sản phẩm 62 3.5.7 Thống kê số lượng loại sản phẩm nhỏ bán theo tuần 62 3.5.8 Tính sales tăng trưởng quý so với quý trước 63 3.5.9 Tính tổng sales từ đầu tới ngày cụ thể 63 3.5.10 Số lượng sản phẩm bán năm gần so sánh tăng giảm 64 3.5.11 Thêm vào KPI câu 3.5.10 thực lại 65 3.5.12 Thống kê sales quốc gia theo quý-năm sub-category 66 3.5.13 Tính top sản phẩm bán chạy, đánh thứ hạng so sánh thứ hạng với năm 2013 67 3.5.14 Tính Sales năm 2013 loại sản phẩm Funiture năm 2014 loại sản phẩm Technology 68 3.5.15 Thống kê sales theo tháng hai nước có tổng sales cao loại sản phẩm Furniture, Office Suplies, Technology 68 REPORT 4.1 Tạo report sử dụng công cụ SSRS 69 4.1.1 Khởi tạo project 69 4.1.2 Kết nối với Project SSAS để tạo nội dung report 70 4.1.3 Báo cáo định lượng hàng hóa khách hàng chợ 71 4.1.4 Lợi nhuận mặt hàng theo khu vực 74 4.1.5 Thống kê doanh số loại sản phẩm bán quý năm 2014 76 4.1.6 Doanh số mặt hàng cho phân khúc 79 4.2 69 Tạo report sử dụng Power BI 82 4.2.1 Tạo kết nối với SQL Server Analysis với Power BI 82 4.2.2 Số lượng đặt hàng nơi bán sản phẩm qua năm 83 4.2.3 Thống kê lợi nhuận theo mơ hình ship độ ưu tiên 84 4.2.4 Giá ship theo năm nơi bán sản phẩm 84 Data Mining 85 5.1 Tạo Mining Structure sử dụng nguồn Data warehouse Cube 85 5.2 Chọn mơ hình khai phá liệu phù hợp với liệu yêu cầu 85 5.3 Chọn Dimension 86 5.4 Chọn thuộc tính Dimension cần so sánh gom cụm measure bảng Fact làm thuộc tính vector trọng số 86 5.5 Do sử dụng thuật toán gom cụm nên đặt phần trăm liệu test 87 5.6 Cài đặt tham số cho giải thuật: đặt số lượng cụm để thuật toán tự động xác định số lượng cụm phù hợp với liệu thay mặc định 10 cụm 88 5.7 Sau phân cụm hoàn tất nhận sơ đồ liên kết cụm phân bổ giá trị cụm theo độ phổ biến, theo thuộc tính đầu vào chọn 88 88 5.8 Thuộc tính cụm cho thấy diện thành phố cụm Ví dụ: Cụm số với tổng doanh số 1091$ có tập trung chủ yếu Market EU 89 5.9 Tab đặc điểm cụm cho thấy thông tin chi tiết cụm với độ phổ biến theo giá trị doanh số diện Market cụm 89 Giới thiệu đề tài 1.1 Giới thiệu Ngành bán lẻ không ngừng phát triển, với siêu thị, cửa hàng hay chợ việc thống kê hay kiểm tra doanh số, lợi nhuận bán hàng điều tất yếu Từ việc thu thập liệu nhà kinh doanh phân tích đánh giá sản phẩm tiềm hay mặt hàng phù hợp với khoảng thời gian định Vì vậy, nhóm chúng tơi định lựa chọn liệu doanh số bán lẻ siêu thị tồn cầu để phân tích dự đốn, đưa số đánh giá giúp phát triển siêu thị 1.2 Nguồn gốc liệu Dữ liệu số liệu bán lẻ siêu thị toàn cầu năm từ đầu năm 2011 tới cuối năm 2014, bao gồm 24 thuộc tính 51290 dịng liệu thông tin sản phẩm bán Link liệu: https://www.kaggle.com/jr2ngb/superstore-data Mô tả liệu: Dữ liệu phân chia đặt lại theo tên kiểu liệu STT Thuộc tính Kiểu liệu Mơ tả Row ID int Số thứ tự đơn hàng Order ID varchar Mã định danh đơn hàng Order Date datetime Ngày đặt hàng Ship Date datetime Ngày giao hàng Ship Mode varchar Hình thức giao hàng Customer ID varchar Mã định danh khách hàng Customer Name nvarchar Tên khách hàng Segment varchar Phân khúc khách hàng City varchar Thành phố State varchar Bang 10 Country varchar Quốc gia 11 Postal Code varchar Mã bưu điện 12 Market varchar Nơi bán sản phẩm 13 Region varchar Khu vực giao dịch 14 Product ID varchar Mã sản phẩm 15 Product Name nvarchar Tên sản phẩm 16 Category varchar Phân loại sản phẩm 17 Sub-Category varchar Tiểu mục loại sản phẩm 18 Sales float Giá thành sản phẩm 19 Quantity int Số lượng mua 20 Discount float Tỉ lệ giảm giá đơn hàng 21 Profit float Lợi nhuận thu 22 Shipping Cost float Phí giao hàng 23 Order Priority varchar Độ ưu tiên đặt hàng Quá trình xây dựng kho liệu (SSIS): 2.1 Diagram DataWarehouse 2.2 Mô tả 2.2.1 Bảng DIM_CUSTOMER STT Tên trường Mơ tả Customer ID Khóa bảng, mã định danh khách hàng Customer Name Tên khách hàng Segment Phân khúc khách hàng 2.2.2 Bảng Dim_PRODUCT STT Tên trường Mơ tả Product_ID Khóa bảng, mã sản phẩm Product Name Tên sản phẩm Sub-Category Tiểu mục loại sản phẩm Category Phân loại sản phẩm 2.2.3 Bảng DIM_GEOGRAPHY STT Tên trường Mơ tả geoID Khóa bảng City Thành phố State Bang Country Quốc gia Region Khu vực giao dịch Market Nơi bán sản phẩm 2.2.4 Bảng DIM_SHIP_MODE STT Tên trường Mơ tả Ship_Mode_ID Khóa bảng Ship Mode Hình thức giao hàng 2.2.5 Bảng DIM_ORDER_PRIORITY STT Tên trường Order_priority_id Khóa bảng Order Priority Độ ưu tiên đặt hàng 2.2.6 Bảng Dim_SHIP_TIME STT Tên trường Mơ tả Mơ tả Ship_Date Khóa bảng Ship_day Ngày giao hàng Ship_month Tháng giao hàng Ship_year Năm giao hàng Quarter_ship Quý giao hàng Week_ship Tuần giao hàng 2.2.7 Bảng Dim_ORDER_TIME STT Tên trường Mơ tả Order_Date Khóa bảng order_day Ngày đặt hàng order_month Tháng đặt hàng order_year Năm đặt hàng quarter_order Quý đặt hàng week_order Tuần đặt hàng 2.2.8 Bảng FACT STT Tên trường Mô tả Row ID Số thứ tự đơn hàng Order ID Mã định danh đơn hàng Quantity Số lượng mua Discount Tỉ lệ giảm giá đơn hàng Profit Lợi nhuận thu Sales Giá thành phẩm Customer ID Khóa bảng khách hàng, liên kết tới bảng Dim_Customer geoID Khóa, liên kết tới bảng Dim_Geography 2.3 Order_priority_id Khóa liên kết với bảng Dim_Order_Priority 10 Product_ID Khóa liên kết với bảng Dim_Product Đổ liệu 2.3.1 Kết nối sở liệu 2.3.1.1 Tạo Project 10 4.1.5 Thống kê doanh số loại sản phẩm bán quý năm 2014 76 77 78 4.1.6 Doanh số mặt hàng cho phân khúc 79 80 81 4.2 Tạo report sử dụng Power BI 4.2.1 Tạo kết nối với SQL Server Analysis với Power BI 82 4.2.2 Số lượng đặt hàng nơi bán sản phẩm qua năm 83 4.2.3 Thống kê lợi nhuận theo mơ hình ship độ ưu tiên 4.2.4 Giá ship theo năm nơi bán sản phẩm 84 Data Mining 5.1 Tạo Mining Structure sử dụng nguồn Data warehouse Cube 5.2 Chọn mơ hình khai phá liệu phù hợp với liệu yêu cầu 85 5.3 Chọn Dimension 5.4 Chọn thuộc tính Dimension cần so sánh gom cụm measure bảng Fact làm thuộc tính vector trọng số 86 5.5 Do sử dụng thuật toán gom cụm nên đặt phần trăm liệu test 87 5.6 Cài đặt tham số cho giải thuật: đặt số lượng cụm để thuật toán tự động xác định số lượng cụm phù hợp với liệu thay mặc định 10 cụm 5.7 Sau phân cụm hoàn tất nhận sơ đồ liên kết cụm phân bổ giá trị cụm theo độ phổ biến, theo thuộc tính đầu vào chọn 88 5.8 Thuộc tính cụm cho thấy diện Market cụm Ví dụ: Cụm số với tổng doanh số 1091$ có tập trung chủ yếu Market EU 5.9 Tab đặc điểm cụm cho thấy thông tin chi tiết cụm với độ phổ biến theo giá trị doanh số diện Market cụm TÀI LIỆU THAM KHẢO 89 https://www.kaggle.com/jr2ngb/superstore-data LINK SOURCE VÀ VIDEO: https://drive.google.com/drive/u/0/folders/105VcSnUwydjWd_bgCH-6J254urrenMp8 90 ... kho? ??ng thời gian định Vì vậy, nhóm chúng tơi định lựa chọn liệu doanh số bán lẻ siêu thị toàn cầu để phân tích dự đốn, đưa số đánh giá giúp phát triển siêu thị 1.2 Nguồn gốc liệu Dữ liệu số liệu. .. phẩm bán năm gần so sánh tăng giảm 64 3.5.11 Thêm vào KPI câu 3.5.10 thực lại 65 3.5.12 Thống kê sales quốc gia theo quý-năm sub-category 66 3.5.13 Tính top sản phẩm bán chạy, đánh thứ hạng so sánh... liệu bán lẻ siêu thị toàn cầu năm từ đầu năm 2011 tới cuối năm 2014, bao gồm 24 thuộc tính 51290 dịng liệu thơng tin sản phẩm bán Link liệu: https://www.kaggle.com/jr2ngb/superstore-data Mô tả liệu: