Báo cáo Đồ án kho dữ liệu Đề tài xây dựng kho dữ liệu quản lý bán hàng

Sự cần thiết của đề tài: Trong thời đại kinh doanh số, dữ liệu chính là tài sản vô giá của doanh nghiệp.Việc XÂY DỰNG KHO DỮ LIỆU BÁN HÀNG toàn diện không chỉ là một lựa chọn mà còn là m

GIỚI THIỆU CHUNG VỀ ĐỀ TÀI

Lý do hình thành dự án

Xây dựng kho dữ liệu quản lý bán hàng là một chiến lược quan trọng mà nhiều doanh nghiệp áp dụng Sở hữu kho dữ liệu bán hàng hiệu quả không chỉ nâng cao hiệu quả hoạt động mà còn giúp doanh nghiệp đưa ra quyết định kinh doanh chính xác hơn.

Dự án xây dựng kho dữ liệu quản lý bán hàng mang lại nhiều lợi ích nhưng cũng đối mặt với một số thách thức cần giải quyết Những vấn đề thường gặp trong quá trình triển khai bao gồm việc đảm bảo tính chính xác của dữ liệu, tích hợp hệ thống hiệu quả, và đào tạo nhân viên sử dụng công nghệ mới.

Dữ liệu không chính xác và không đồng nhất từ các nguồn khác nhau có thể có định dạng và đơn vị đo khác nhau, điều này gây khó khăn trong việc tích hợp và phân tích thông tin.

 Dữ liệu thiếu sót: Thiếu thông tin quan trọng hoặc dữ liệu bị trùng lặp.

 Dữ liệu lỗi thời: Dữ liệu không được cập nhật thường xuyên dẫn đến quyết định dựa trên thông tin không chính xác.

Thiết kế kho dữ liệu:

 Mô hình dữ liệu không phù hợp: Mô hình dữ liệu không đáp ứng được yêu cầu phân tích và báo cáo của doanh nghiệp.

 Thiếu linh hoạt: Kho dữ liệu khó mở rộng và điều chỉnh khi có thay đổi trong quy trình kinh doanh.

 Thời gian thực hiện lâu: Quá trình trích xuất, chuyển đổi và tải dữ liệu (ETL) tốn nhiều thời gian, ảnh hưởng đến hiệu suất của hệ thống.

 Sai sót trong quá trình chuyển đổi: Dữ liệu bị mất mát hoặc biến đổi trong quá trình chuyển đổi.

 Thiếu nhân lực: Thiếu chuyên gia về kho dữ liệu, phân tích dữ liệu và công nghệ thông tin.

 Ngân sách hạn hẹp: Chi phí đầu tư cho phần cứng, phần mềm và nhân lực có thể vượt quá ngân sách dự kiến.

 Kháng cự từ người dùng: Nhân viên khó thích nghi với hệ thống mới và cách làm việc mới.

 Thiếu sự hỗ trợ từ ban lãnh đạo: Thiếu sự quan tâm và hỗ trợ từ ban lãnh đạo trong quá trình triển khai dự án.

1.1.2 Giải pháp Để giải quyết các vấn đề trên, doanh nghiệp cần:

 Đảm bảo chất lượng dữ liệu: Xây dựng quy trình quản lý dữ liệu chặt chẽ, thực hiện làm sạch dữ liệu định kỳ.

 Thiết kế kho dữ liệu khoa học: Lựa chọn mô hình dữ liệu phù hợp, đảm bảo tính linh hoạt và mở rộng.

 Tối ưu hóa quá trình ETL: Sử dụng các công cụ ETL chuyên dụng, tự động hóa các quy trình.

 Chọn công cụ và phần mềm phù hợp: Đánh giá kỹ các giải pháp có sẵn trên thị trường.

 Đầu tư vào nguồn lực: Đào tạo nhân sự, xây dựng đội ngũ chuyên nghiệp.

 Quản lý thay đổi hiệu quả: Tổ chức các buổi đào tạo, truyền thông để người dùng hiểu rõ về lợi ích của hệ thống mới.

 Đảm bảo bảo mật: Áp dụng các biện pháp bảo mật thông tin mạnh mẽ.

1.1.3 Mục tiêu và ý nghĩa của dự án

Dự án xây dựng kho dữ liệu quản lý bán hàng là một khoản đầu tư dài hạn quan trọng, mang lại nhiều lợi ích cho doanh nghiệp Sở hữu một kho dữ liệu chất lượng không chỉ giúp doanh nghiệp trở nên hiện đại và chuyên nghiệp mà còn tăng cường khả năng cạnh tranh trên thị trường.

Mục tiêu chính của dự án này là tập trung và phân tích dữ liệu bán hàng từ nhiều nguồn khác nhau, nhằm cung cấp thông tin chính xác và kịp thời hỗ trợ quá trình ra quyết định cho doanh nghiệp.

Các mục tiêu cụ thể của dự án bao gồm:

Tích hợp dữ liệu là quá trình thu thập, kết hợp và thống nhất thông tin từ nhiều nguồn khác nhau, bao gồm hệ thống POS, CRM, ERP và bảng tính Excel, nhằm tạo ra một kho dữ liệu trung tâm.

Cải thiện chất lượng báo cáo là yếu tố quan trọng, giúp tạo ra các báo cáo phân tích chi tiết và đa chiều về doanh số, khách hàng và sản phẩm Điều này giúp lãnh đạo doanh nghiệp có cái nhìn tổng quan và sâu sắc về hoạt động kinh doanh, từ đó đưa ra quyết định chiến lược hiệu quả hơn.

Hỗ trợ ra quyết định trong kinh doanh là việc cung cấp thông tin hữu ích để đưa ra các quyết định chính xác và kịp thời Việc dự báo doanh số dựa trên dữ liệu lịch sử giúp doanh nghiệp lên kế hoạch sản xuất và kinh doanh hiệu quả Phân tích hành vi mua sắm của khách hàng cho phép doanh nghiệp hiểu rõ hơn về khách hàng và xây dựng các chương trình khuyến mãi, marketing phù hợp Quản lý tồn kho giúp tối ưu hóa lượng hàng tồn, giảm chi phí lưu kho và tránh tình trạng thừa hoặc thiếu hàng Cuối cùng, đánh giá hiệu quả của các chiến dịch marketing thông qua việc đo lường tác động đến doanh số giúp tối ưu hóa ngân sách marketing.

 Nâng cao hiệu quả hoạt động: Tự động hóa các quy trình, giảm thiểu lỗi sai, tăng năng suất làm việc.

Tăng cường khả năng cạnh tranh cho doanh nghiệp nhờ vào việc sử dụng kho dữ liệu, giúp họ nhanh chóng thích ứng với sự thay đổi của thị trường và nắm bắt các cơ hội kinh doanh mới.

1.1.3.2 Ý nghĩa Ý nghĩa của dự án:

 Tối ưu hóa nguồn lực: Giúp doanh nghiệp sử dụng hiệu quả các nguồn lực như nhân lực, tài chính, vật liệu.

 Giảm thiểu rủi ro: Hỗ trợ doanh nghiệp đưa ra các quyết định kinh doanh an toàn, giảm thiểu rủi ro thất bại.

 Tăng trưởng doanh thu: Nhờ hiểu rõ khách hàng và thị trường, doanh nghiệp có thể tăng doanh thu và lợi nhuận.

 Nâng cao uy tín của doanh nghiệp: Một doanh nghiệp sử dụng dữ liệu để ra quyết định sẽ được khách hàng và đối tác đánh giá cao.

Giới thiệu tổng quan Dataset

Dataset là một tập hợp dữ liệu được tổ chức và cấu trúc cụ thể, thường phục vụ cho phân tích, đào tạo mô hình máy học hoặc các ứng dụng khác Nói một cách đơn giản, dataset giống như một bảng với nhiều hàng (records) và cột (fields), trong đó mỗi hàng đại diện cho một quan sát hoặc đối tượng, còn mỗi cột thể hiện một thuộc tính của đối tượng đó.

Các loại Dataset dựa trên cấu trúc:

Dựa trên nguồn gốc và cách thức thu thập, dataset có thể được chia thành nhiều loại khác nhau:

Dataset có cấu trúc là dữ liệu được tổ chức trong định dạng cố định, giúp dễ dàng hiểu và xử lý, như bảng tính Excel và cơ sở dữ liệu quan hệ Trong đó, bảng là một dạng tổ chức dữ liệu với các hàng và cột, mỗi hàng đại diện cho một quan sát và mỗi cột đại diện cho một thuộc tính Cơ sở dữ liệu quan hệ cho phép các bảng liên kết với nhau thông qua các khóa ngoại.

Dữ liệu không cấu trúc là loại dữ liệu không có cấu trúc rõ ràng, bao gồm nhiều định dạng khác nhau như văn bản, hình ảnh, âm thanh và video Trong đó, văn bản có thể là bài viết, email hay đánh giá sản phẩm; hình ảnh có thể là ảnh chụp, ảnh y tế hoặc ảnh vệ tinh; âm thanh bao gồm bài hát, tiếng nói và âm thanh môi trường; còn video có thể là phim, clip hoặc video giám sát.

Dataset bán cấu trúc là loại dữ liệu có cấu trúc nhất định nhưng không hoàn toàn rõ ràng, chẳng hạn như dữ liệu XML và JSON XML, hay ngôn ngữ đánh dấu mở rộng, cho phép định nghĩa các thẻ và thuộc tính để tổ chức thông tin, trong khi JSON là định dạng trao đổi dữ liệu nhẹ, dễ đọc và dễ sử dụng trong các ứng dụng web.

Các loại Dataset dựa trên mục đích sử dụng:

 Dataset huấn luyện: Dùng để huấn luyện các mô hình máy học.

 Dataset kiểm tra: Dùng để đánh giá hiệu suất của mô hình đã được huấn luyện.

 Dataset thử nghiệm: Dùng để kiểm tra mô hình trong môi trường thực tế.

Các thành phần chính của một Dataset:

 Các thuộc tính (features): Mỗi cột trong dataset đại diện cho một thuộc tính hoặc đặc trưng của đối tượng.

 Các quan sát (observations): Mỗi hàng trong dataset đại diện cho một quan sát hoặc một đối tượng cụ thể.

 Các nhãn (labels): Trong các bài toán học có giám sát, nhãn là giá trị cần dự đoán.

Các ứng dụng của Dataset:

 Phân tích dữ liệu: Tìm hiểu xu hướng, mối quan hệ giữa các biến.

 Học máy: Dùng để huấn luyện các mô hình máy học, ví dụ như phân loại, hồi quy, clustering.

 Trí tuệ nhân tạo: Dùng để phát triển các ứng dụng AI như nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên.

 Nghiên cứu khoa học: Dùng để khám phá các hiện tượng tự nhiên, xã hội.

Các vấn đề thường gặp khi làm việc với Dataset:

 Chất lượng dữ liệu: Dữ liệu thiếu, sai sót, không nhất quán, nhiễu và trùng lặp

 Kích thước dữ liệu: Dataset quá lớn hoặc quá nhỏ.

 Độ phức tạp của dữ liệu: Dữ liệu có nhiều loại khác nhau, khó xử lý.

 Quyền riêng tư: Dữ liệu cá nhân cần được bảo mật. Để làm việc hiệu quả với dataset, bạn cần:

 Hiểu rõ về dữ liệu: Tìm hiểu về nguồn gốc, cấu trúc, ý nghĩa của từng thuộc tính.

 Làm sạch dữ liệu: Xử lý các vấn đề về chất lượng dữ liệu như thiếu giá trị, outliers.

 Trực quan hóa dữ liệu: Sử dụng các biểu đồ, đồ thị để hiểu rõ hơn về dữ liệu.

 Chọn các mô hình phù hợp: Lựa chọn các thuật toán học máy phù hợp với loại dữ liệu và bài toán.

Các công cụ và thư viện xử lý Dataset:

 Pandas: Thư viện Python mạnh mẽ để làm việc với dữ liệu có cấu trúc.

 Numpy: Thư viện Python để tính toán khoa học.

 Scikit-learn: Thư viện Python cho học máy.

 TensorFlow, PyTorch: Các thư viện Python cho học sâu.

Các kho dữ liệu phổ biến:

 Kaggle: Nền tảng cung cấp nhiều dataset miễn phí cho các cuộc thi và dự án.

 UCI Machine Learning Repository: Kho lưu trữ các dataset phổ biến trong nghiên cứu học máy.

 Google Dataset Search: Công cụ tìm kiếm các dataset trên internet.

Các khái niệm liên quan:

 Feature engineering: Kỹ thuật tạo ra các đặc trưng mới từ dữ liệu ban đầu để cải thiện hiệu suất của mô hình.

 Overfitting: Mô hình học quá khít với dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu kiểm tra.

 Underfitting: Mô hình không học được các đặc trưng quan trọng của dữ liệu, dẫn đến hiệu suất kém.

 Dataset về khách hàng: Chứa thông tin về các khách hàng như tên, tuổi, giới tính, địa chỉ, lịch sử mua hàng.

 Dataset về hình ảnh: Chứa các hình ảnh và nhãn tương ứng (ví dụ: hình ảnh mèo, chó, xe hơi).

 Dataset về văn bản: Chứa các đoạn văn bản, bài báo, email.

1.2.1 Nguồn dữ liệu sử dụng

( https://www.kaggle.com/datasets )

Kaggle là một cộng đồng trực tuyến dành cho những người đam mê khoa học dữ liệu và học máy, nổi bật với kho dữ liệu phong phú Nguồn tài nguyên này cực kỳ quý giá cho các nhà khoa học dữ liệu, kỹ sư dữ liệu và những ai muốn khám phá sâu về thế giới dữ liệu.

Kaggle là một kho dữ liệu phong phú với hàng trăm nghìn dataset miễn phí, bao gồm nhiều lĩnh vực đa dạng như kinh tế, y tế, khoa học xã hội, tài chính và nhiều lĩnh vực khác.

Các dataset trên Kaggle thường có chất lượng cao, được làm sạch và chuẩn hóa, giúp người dùng dễ dàng áp dụng cho các dự án học máy và phân tích dữ liệu.

 Cộng đồng đóng góp: Bất kỳ ai cũng có thể tải lên và chia sẻ dataset của mình trên Kaggle, tạo nên một cộng đồng đóng góp tích cực.

Các loại Dataset phổ biến trên Kaggle:

 Dữ liệu kinh tế: Dữ liệu về GDP, chỉ số giá tiêu dùng, tỷ lệ thất nghiệp, ……

 Dữ liệu y tế: Dữ liệu về bệnh tật, gen, hình ảnh y tế, ……

 Dữ liệu tài chính: Dữ liệu về chứng khoán, tiền tệ, giao dịch, ……

 Dữ liệu xã hội: Dữ liệu về dân số, tội phạm, giáo dục, ……

 Dữ liệu hình ảnh: Hình ảnh về các đối tượng khác nhau (ví dụ: khuôn mặt, vật thể, cảnh vật).

 Dữ liệu văn bản: Văn bản tin tức, đánh giá sản phẩm, bài viết blog, … 1.2.2 Mô tả chi tiết dữ liệu

Tên Dataset: Retail Sales and Customer Behavior Analysis

Nguồn dữ liệu: Nguồn dữ liệu mà dataset sẽ kết nối (Excel)

1.2.2.2 Dữ liệu sau khi được trích xuất

Thực hiện trích dữ liệu từ bảng Retail Sales and Customer Behavior

Bài viết này trình bày việc thu thập 1.000.000 dòng dữ liệu với 78 cột, bao gồm thông tin khách hàng, dữ liệu giao dịch, chi tiết sản phẩm, thông tin khuyến mại và số liệu về hành vi khách hàng Dữ liệu này được sử dụng để dự đoán tổng doanh số thông qua hồi quy và tỷ lệ khách hàng rời bỏ thông qua phân loại.

1.2.2.3 Mô tả chi tiết các thuộc tính trong Dataset

 customer_id: Mã khách hàng duy nhất.

 age: Tuổi của khách hàng.

 gender: Giới tính của khách hàng (Nam, Nữ, Khác).

 income_bracket: Khoảng thu nhập của khách hàng (Thấp, Trung bình, Cao).

 loyalty_program: Khách hàng có tham gia chương trình khách hàng thân thiết hay không (Có/Không).

 membership_years: Số năm khách hàng là thành viên.

 churned: Khách hàng đã ngừng sử dụng dịch vụ hay chưa (Có/Không) - Mục tiêu phân loại.

 marital_status: Tình trạng hôn nhân của khách hàng.

 number_of_children: Số con của khách hàng.

 education_level: Trình độ học vấn của khách hàng (Trung học, Cử nhân, Thạc sĩ).

 occupation: Nghề nghiệp của khách hàng.

 transaction_id: Mã giao dịch duy nhất.

 transaction_date: Ngày giao dịch.

 product_id: Mã sản phẩm duy nhất.

 product_category: Danh mục sản phẩm (Điện tử, Thời trang, Hàng tạp hóa).

 quantity: Số lượng sản phẩm mua.

 unit_price: Giá đơn vị của sản phẩm.

 discount_applied: Giảm giá áp dụng cho giao dịch.

 payment_method: Phương thức thanh toán (Thẻ tín dụng, Thẻ ghi nợ, Tiền mặt).

 store_location: Địa điểm cửa hàng nơi mua hàng.

Thống kê hành vi khách hàng:

 avg_purchase_value: Giá trị trung bình của các giao dịch của khách hàng.

 purchase_frequency: Tần suất mua hàng (Hàng ngày, Hàng tuần, Hàng tháng,

 last_purchase_date: Ngày mua hàng gần nhất của khách hàng.

 avg_discount_used: Tỷ lệ giảm giá trung bình được sử dụng bởi khách hàng.

 preferred_store: Địa điểm cửa hàng được khách hàng ghé thăm thường xuyên nhất.

 online_purchases: Số lần mua hàng trực tuyến của khách hàng.

 in_store_purchases: Số lần mua hàng tại cửa hàng của khách hàng.

 avg_items_per_transaction: Số lượng mặt hàng trung bình mỗi giao dịch.

 avg_transaction_value: Giá trị trung bình mỗi giao dịch.

 total_returned_items: Tổng số mặt hàng được trả lại bởi khách hàng.

 total_returned_value: Tổng giá trị của các mặt hàng được trả lại.

 total_sales: Tổng doanh thu của mỗi khách hàng trong năm qua - Mục tiêu cho hồi quy.

 total_transactions: Tổng số giao dịch của mỗi khách hàng.

 total_items_purchased: Tổng số mặt hàng được mua bởi mỗi khách hàng.

 total_discounts_received: Tổng số giảm giá nhận được bởi mỗi khách hàng.

 avg_spent_per_category: Trung bình số tiền chi tiêu cho mỗi danh mục sản phẩm.

 max_single_purchase_value: Giá trị tối đa của một giao dịch đơn lẻ.

 min_single_purchase_value: Giá trị tối thiểu của một giao dịch đơn lẻ.

 product_name: Tên sản phẩm.

 product_brand: Thương hiệu sản phẩm.

 product_rating: Xếp hạng của khách hàng đối với sản phẩm.

 product_review_count: Số lượng đánh giá cho sản phẩm.

 product_stock: Tình trạng tồn kho của sản phẩm.

 product_return_rate: Tỷ lệ trả hàng của sản phẩm.

 product_size: Kích thước sản phẩm (nếu có).

 product_weight: Trọng lượng sản phẩm (nếu có).

 product_color: Màu sắc sản phẩm (nếu có).

 product_material: Chất liệu của sản phẩm (nếu có).

 product_manufacture_date: Ngày sản xuất của sản phẩm.

 product_expiry_date: Ngày hết hạn của sản phẩm (nếu có).

 product_shelf_life: Thời gian bảo quản của sản phẩm (nếu có).

• promotion_id: Mã định danh duy nhất cho mỗi chương trình khuyến mãi.

• promotion_type: Loại hình khuyến mãi (ví dụ: Mua 1 Tặng 1, Giảm 20%).

• promotion_start_date: Ngày bắt đầu của chương trình khuyến mãi.

• promotion_end_date: Ngày kết thúc của chương trình khuyến mãi.

• promotion_effectiveness: Hiệu quả của chương trình khuyến mãi (ví dụ: Cao,

• promotion_channel: Kênh quảng bá chương trình khuyến mãi (ví dụ: Trực tuyến, Tại cửa hàng, Mạng xã hội).

• promotion_target_audience: Đối tượng mục tiêu của chương trình khuyến mãi (ví dụ: Khách hàng mới, Khách hàng cũ).

• customer_zip_code: Mã vùng của nơi cư trú của khách hàng.

• customer_city: Thành phố nơi cư trú của khách hàng.

• customer_state: Bang/tỉnh nơi cư trú của khách hàng.

• store_zip_code: Mã vùng của cửa hàng.

• store_city: Thành phố nơi cửa hàng tọa lạc.

• store_state: Bang/tỉnh nơi cửa hàng tọa lạc.

• distance_to_store: Khoảng cách từ nơi cư trú của khách hàng đến cửa hàng.

Dữ liệu mùa vụ và thời gian:

• holiday_season: Giao dịch có diễn ra trong mùa lễ hội hay không (Có/Không).

• season: Mùa trong năm (ví dụ: Đông, Xuân, Hè, Thu).

• weekend: Giao dịch có diễn ra vào cuối tuần hay không (Có/Không).

Dữ liệu tương tác với khách hàng:

• customer_support_calls: Số cuộc gọi tới bộ phận hỗ trợ khách hàng.

• email_subscriptions: Khách hàng có đăng ký nhận email quảng cáo hay không

• app_usage: Tần suất sử dụng ứng dụng di động của cửa hàng.

• website_visits: Số lượt truy cập vào trang web của cửa hàng.

• social_media_engagement: Mức độ tương tác với cửa hàng trên mạng xã hội

(ví dụ: Thích, Bình luận, Chia sẻ).

Các đặc tính dẫn xuất (từ các cột hiện có):

• days_since_last_purchase: Số ngày kể từ lần mua hàng cuối cùng của khách hàng.

• avg_purchase_interval: Số ngày trung bình giữa các lần mua hàng.

• customer_lifetime_value: Giá trị dự đoán của khách hàng trong suốt vòng đời.

Điểm số trung thành (loyalty_score) là chỉ số phản ánh mức độ trung thành của khách hàng, được xác định dựa trên nhiều yếu tố khác nhau như số năm tham gia làm thành viên và giá trị mua hàng trung bình.

Điểm số rủi ro khách hàng rời bỏ (churn_risk_score) là chỉ số quan trọng, phản ánh khả năng khách hàng sẽ ngừng mua sắm Điểm số này được xác định dựa trên tần suất mua hàng, thời gian gần đây của lần mua cuối cùng và tổng doanh thu từ khách hàng.

Dataset là một yếu tố thiết yếu trong SSRS, giúp kết nối báo cáo với nguồn dữ liệu một cách hiệu quả, đồng thời đảm bảo tính chính xác và linh hoạt cho các báo cáo.

Giới thiệu về các công cụ

SQL Server là một hệ quản trị cơ sở dữ liệu quan hệ (Relational Database

Hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) do Microsoft phát triển, được sử dụng phổ biến để lưu trữ, quản lý và truy xuất dữ liệu một cách hiệu quả và an toàn SQL Server là một phần quan trọng trong nhiều ứng dụng kinh doanh, từ các ứng dụng nhỏ đến các hệ thống doanh nghiệp quy mô lớn.

Các tính năng chính của SQL Server:

SQL Server cung cấp các công cụ mạnh mẽ cho việc lưu trữ dữ liệu, cho phép người dùng tạo, quản lý và bảo trì các cơ sở dữ liệu, bảng, cùng với các đối tượng dữ liệu khác một cách hiệu quả.

 Truy vấn dữ liệu: Ngôn ngữ truy vấn cấu trúc (SQL) được sử dụng để truy xuất, cập nhật, xóa và thêm dữ liệu vào cơ sở dữ liệu.

SQL Server cung cấp các tính năng bảo mật mạnh mẽ nhằm bảo vệ dữ liệu khỏi truy cập trái phép, đồng thời đảm bảo tính toàn vẹn và an toàn cho thông tin.

 Sao lưu và phục hồi: SQL Server cho phép bạn sao lưu cơ sở dữ liệu để phục hồi dữ liệu trong trường hợp xảy ra sự cố

 Báo cáo: SQL Server cung cấp các công cụ để tạo các báo cáo trực quan từ dữ liệu

SQL Server có khả năng tích hợp linh hoạt với nhiều ứng dụng và hệ thống khác nhau, bao gồm các ứng dụng Microsoft Office, ứng dụng web và hệ thống doanh nghiệp, giúp tối ưu hóa quy trình làm việc và nâng cao hiệu quả quản lý dữ liệu.

Tại sao nên sử dụng SQL Server?

 Hiệu suất cao : SQL Server được tối ưu hóa để xử lý các khối lượng dữ liệu lớn và các truy vấn phức tạp một cách hiệu quả.

 Độ tin cậy cao: SQL Server cung cấp các tính năng để đảm bảo tính sẵn sàng và độ tin cậy của dữ liệu.

 An toàn: SQL Server cung cấp các tính năng bảo mật mạnh mẽ để bảo vệ dữ liệu của bạn.

 Dễ sử dụng: SQL Server cung cấp một giao diện người dùng thân thiện và các công cụ quản lý mạnh mẽ.

 Hỗ trợ đa nền tảng: SQL Server có thể chạy trên nhiều hệ điều hành khác nhau, bao gồm Windows, Linux và macOS.

Các thành phần chính của SQL Server:

 SQL Server Database Engine: Đây là thành phần cốt lõi của SQL Server, chịu trách nhiệm lưu trữ và quản lý dữ liệu.

 SQL Server Management Studio: Một công cụ đồ họa để quản lý các đối tượng cơ sở dữ liệu, viết các câu lệnh SQL và tạo các báo cáo.

 Analysis Services: Cung cấp các dịch vụ phân tích dữ liệu, bao gồm OLAP

(Online Analytical Processing) và data mining.

 Integration Services: Cung cấp các công cụ để tích hợp dữ liệu từ các nguồn khác nhau.

 Reporting Services: Cung cấp các công cụ để tạo các báo cáo chuyên nghiệp. Ứng dụng của SQL Server:

SQL Server được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau, bao gồm:

 Ngân hàng: Quản lý thông tin khách hàng, giao dịch và tài khoản.

 Bán lẻ: Quản lý hàng tồn kho, bán hàng và khách hàng.

 Sản xuất: Quản lý sản xuất, chuỗi cung ứng và quản lý chất lượng.

 Chính phủ: Quản lý thông tin dân cư, thuế và các dịch vụ công cộng.

 Y tế: Quản lý hồ sơ bệnh án và thông tin y tế.

SQL Server là công cụ quan trọng trong việc xây dựng kho dữ liệu quản lý bán hàng, cung cấp nền tảng vững chắc cho việc lưu trữ, quản lý và phân tích dữ liệu Nhờ đó, doanh nghiệp có thể đưa ra quyết định kinh doanh chính xác và hiệu quả.

Visual Studio Code (VS Code) là một trình soạn thảo mã nguồn mở miễn phí do Microsoft phát triển Công cụ này đã nhanh chóng chiếm được cảm tình của lập trình viên toàn cầu nhờ giao diện thân thiện, tính năng mạnh mẽ và khả năng tùy biến cao.

Tại sao VS Code lại phổ biến?

 Miễn phí và mã nguồn mở: Bạn có thể tùy chỉnh và mở rộng VS Code theo ý muốn.

 Đa nền tảng: VS Code hoạt động trên Windows, macOS và Linux.

 Giao diện thân thiện : Giao diện trực quan, dễ sử dụng, giúp bạn tập trung vào việc viết mã.

 Hỗ trợ nhiều ngôn ngữ lập trình: Từ các ngôn ngữ phổ biến như JavaScript,

Python, C++, Java đến các ngôn ngữ chuyên dụng khác.

 Tính năng IntelliSense: Tự động hoàn thành mã, gợi ý các hàm, biến, giúp bạn viết mã nhanh hơn và chính xác hơn.

 Tích hợp Git: Quản lý phiên bản mã nguồn trực tiếp trong VS Code.

 Khả năng mở rộng: Hàng ngàn extension giúp bạn tùy chỉnh VS Code để phù hợp với nhu cầu làm việc của mình.

 Debug: Gỡ lỗi trực tiếp trong VS Code, giúp bạn tìm và sửa lỗi nhanh chóng.

Các tính năng nổi bật của VS Code:

VS Code hỗ trợ hàng trăm ngôn ngữ lập trình, mang đến các tính năng như tô màu cú pháp, tự động định dạng và hỗ trợ debugging, giúp lập trình viên làm việc hiệu quả hơn.

 Tích hợp terminal: Bạn có thể mở một terminal ngay trong VS Code để chạy các lệnh.

 MarketPlace: Kho extension khổng lồ, cho phép bạn tùy chỉnh VS Code theo ý muốn.

 Live Share: Chia sẻ mã nguồn và cùng nhau làm việc với các lập trình viên khác trong thời gian thực.

 Remote Development: Phát triển ứng dụng trên các máy từ xa mà không cần cài đặt môi trường phát triển cục bộ.

Các extension phổ biến cho VS Code:

 Linter: Kiểm tra lỗi cú pháp và phong cách viết code.

 Formatter: Tự động định dạng code theo một quy tắc nhất định.

 Theme: Thay đổi giao diện của VS Code.

 Debugger: Cung cấp các tính năng debug nâng cao.

 Language support: Hỗ trợ thêm các ngôn ngữ lập trình.

 Git extension: Mở rộng các tính năng của Git tích hợp.

Cách chọn theme cho VS Code:

 Mục đích: Chọn theme phù hợp với sở thích cá nhân và giúp bạn tập trung vào code.

 Màu sắc: Chọn màu sắc phù hợp với mắt, tránh gây mỏi mắt.

 Độ tương phản: Chọn độ tương phản phù hợp để phân biệt các phần tử trên giao diện.

 Font: Chọn font chữ dễ đọc và phù hợp với kích thước màn hình.

Mẹo sử dụng VS Code hiệu quả:

 Tùy chỉnh phím tắt: Tạo các phím tắt tùy chỉnh để thực hiện các tác vụ thường xuyên.

 Sử dụng workspace: Tổ chức các dự án của bạn vào các workspace khác nhau.

 Tìm hiểu các lệnh: Sử dụng bảng lệnh (Command Palette) để tìm hiểu và thực hiện các lệnh.

 Tham gia cộng đồng: Tham gia các diễn đàn, nhóm để học hỏi kinh nghiệm từ những người khác.

So sánh VS Code với các trình soạn thảo khác:

 VS Code: Miễn phí, mã nguồn mở, đa nền tảng, nhiều tính năng, cộng đồng lớn.

 Sublime Text: Trình soạn thảo nhẹ, nhanh, nhưng có tính phí.

 Atom: Tương tự VS Code, nhưng có giao diện hơi khác.

 Vim: Trình soạn thảo dòng lệnh, rất mạnh mẽ nhưng có độ dốc học cao.

Visual Studio Code là công cụ quan trọng trong việc xây dựng kho dữ liệu quản lý bán hàng, mang lại sức mạnh và sự linh hoạt cho lập trình viên Với giao diện thân thiện, tính năng đa dạng và cộng đồng người dùng đông đảo, VS Code là lựa chọn lý tưởng cho những ai muốn bắt đầu hoặc cải thiện kỹ năng lập trình.

PHÂN TÍCH VÀ THIẾT KẾ KHO DỮ LIỆU

Xử lý dữ liệu

2.1.1 Trích chọn những thuộc tín cần thiết cho bảng fact chính

Customer_id Mã khách hàng

Customer_city Thành phố nơi cư trú của khách hàngCustomer_state Bang/tỉnh nơi cư trú của khách hàng

Store_id Mã cửa hàng

Store_city Thành phố nơi cửa hàng tọa lạc Store_state Bang/tỉnh nơi cửa hàng tọa lạc

Product_id Mã sản phẩm

Product_category Danh mục sản phẩm

Product_name Tên sản phẩm

Product_brand Thương hiệu sản phẩm

The product color is specified (if applicable), and the product size is also noted (if available) The quantity of the purchased items is indicated, along with the unit price of each product Any discounts applied to the transaction are mentioned, and the payment method used for the purchase is specified.

Time_id Mã thời gian transaction_id Mã giao dịch

Transaction_date Ngày giao dịch

Day_of_week Ngày trong tuần

Week_of_year Tuần trong năm

Month_of_year Tháng trong năm

Promotion_id Mã khuyến mãi

Promotion_type Loại hình khuyến mãi

The promotion starts on the specified date and concludes on the designated end date, utilizing various promotional channels to reach the target audience effectively Each customer can purchase a total number of items, receiving significant discounts throughout the campaign The total transactions reflect the engagement level of customers, while the total returned items and their corresponding value indicate the effectiveness and satisfaction of the promotion.

Mô hình hoá vật lý

DimCustomer Thông tin về khách hàng

Customer_id int Primary Key

DimTime Thông tin về thời gian

Time_id int Primary Key

DimProduct Thông tin về sản phẩm

Product_id int Primary Key

DimStore Thông tin về cửa hàng

Store_id int Primary Key

DimPromotion Thông tin về các chương trình khuyến mãi

Promotion_id int Primary Key

FactTransactions Lưu thông tin chi tiết về các giao dịch transaction_id varchar(50) transaction_date varchar(50) quantity varchar(50) unit_price varchar(50) discount_applied varchar(50) payment_method varchar(50)

Customer_id int Foreign Key

Product_id int Foreign Key

Promotion_id int Foreign Key

Store_id int Foreign Key

FactOrder_By_Date Lưu thông tin về đơn hàng

Promotion_id int Foreign Key

Store_id int Foreign Key

Time_id int Foreign Key

FactCustomerReturn Lưu thông tin về các giao dịch trả hàng

Product_id int Foreign Key

Customer_id int Foreign Key

Time_id int Foreign Key

DayReturn int total_returned_items varchar(50) total_returned_value varchar(50)

TÍCH HỢP DỮ LIỆU VÀO KHO

Quá trình SSIS

SSIS, công cụ mạnh mẽ của SQL Server, được sử dụng phổ biến để thực hiện các tác vụ ETL (Trích xuất, Biến đổi, Tải) Nó cho phép tự động hóa quá trình chuyển đổi dữ liệu từ nhiều nguồn khác nhau vào kho dữ liệu đích.

Quá trình SSIS thường bao gồm các bước sau:

 Mở SSIS Designer: Đây là môi trường làm việc chính để thiết kế và xây dựng các gói SSIS.

Kéo thả các tác vụ trong gói bao gồm: Dataflow, dùng để thực hiện các hoạt động trích xuất, biến đổi và tải dữ liệu; Control Flow, giúp điều khiển luồng thực hiện của gói với các điều kiện, vòng lặp và tác vụ khác; và Event Handler, xử lý các sự kiện xảy ra trong quá trình thực thi gói.

 Kết nối các tác vụ: Thiết lập kết nối giữa các tác vụ để xác định thứ tự thực hiện.

 Xác định nguồn dữ liệu: Chỉ định nguồn dữ liệu cần trích xuất (ví dụ: bảng trong SQL Server, file Excel, file flat).

Để tối ưu hóa dữ liệu, bạn cần thực hiện các biến đổi quan trọng như sắp xếp dữ liệu theo một cột cụ thể, lọc dữ liệu dựa trên các điều kiện nhất định, kết hợp dữ liệu từ nhiều nguồn khác nhau và thực hiện các phép tính cần thiết trên dữ liệu.

 Định nghĩa đích: Chỉ định đích để tải dữ liệu vào (ví dụ: bảng trong SQL

Server, file Excel, file flat).

 Xác định luồng thực hiện: Sử dụng các điều kiện, vòng lặp để kiểm soát luồng thực hiện của gói.

 Xử lý lỗi: Xử lý các lỗi có thể xảy ra trong quá trình thực thi.

 Gửi email: Gửi email thông báo khi gói hoàn thành hoặc xảy ra lỗi.

4 Triển khai và chạy gói:

 Triển khai: Đặt gói SSIS vào một thư mục hoặc một máy chủ SSIS

 Lập lịch: Lập lịch để gói được thực thi tự động theo định kỳ

 Theo dõi: Theo dõi quá trình thực thi của gói và xử lý các lỗi nếu có.

Các thành phần chính của một gói SSIS:

 Control Flow: Điều khiển luồng thực hiện của gói.

 Data Flow: Thực hiện các hoạt động trích xuất, biến đổi và tải dữ liệu.

 Event Handlers: Xử lý các sự kiện xảy ra trong quá trình thực thi gói.

 Variables: Lưu trữ các giá trị được sử dụng trong gói.

 Parameters: Đưa ra các tham số để tùy chỉnh việc thực thi gói. Ưu điểm của SSIS:

 Tự động hóa: Tự động hóa các tác vụ ETL, tiết kiệm thời gian và công sức.

 Linh hoạt: Hỗ trợ nhiều nguồn dữ liệu và đích dữ liệu khác nhau.

 Mạnh mẽ: Có thể thực hiện các biến đổi dữ liệu phức tạp.

 Dễ sử dụng: Cung cấp giao diện đồ họa trực quan để thiết kế các gói.

 Khó khăn trong việc debug: Tự động hóa các tác vụ ETL, tiết kiệm thời gian và công sức.

 Cộng đồng: Cộng đồng người dùng SSIS không lớn bằng một số công cụ ETL khác.

 Trích xuất dữ liệu từ các hệ thống khác nhau: Trích xuất dữ liệu từ các hệ thống ERP, CRM, các file log, và đưa vào kho dữ liệu.

 Làm sạch và chuẩn hóa dữ liệu: Loại bỏ dữ liệu trùng lặp, sửa lỗi dữ liệu, đảm bảo tính nhất quán của dữ liệu.

 Tải dữ liệu vào kho dữ liệu: Tải dữ liệu đã được xử lý vào kho dữ liệu để phục vụ cho việc phân tích và báo cáo.

 Tạo các báo cáo: Tạo các báo cáo trực quan dựa trên dữ liệu trong kho dữ liệu.

- Import flat file to Sql Server

- Tạo luồng dữ liệu cho bảng Dimension

- Tạo luồng dữ liệu cho bảng Fact Table

DELETE FOREIGN KEY FactOrder_By_Date

Create Foreign Key FactOrder_By_Date

Quá trình SSAS

SSAS, một công cụ mạnh mẽ của SQL Server, được sử dụng để xây dựng kho dữ liệu đa chiều (OLAP) và mô hình dữ liệu phục vụ phân tích dữ liệu doanh nghiệp Khác với SSIS, vốn tập trung vào việc trích xuất và biến đổi dữ liệu, SSAS chú trọng vào việc lưu trữ và phân tích dữ liệu nhằm hỗ trợ quá trình ra quyết định.

Quá trình xây dựng một kho dữ liệu đa chiều với SSAS thường bao gồm các bước sau:

1 Thiết kế mô hình dữ liệu:

Để tối ưu hóa quy trình kinh doanh, cần xác định các chiều như thời gian, sản phẩm và khách hàng, đồng thời thiết lập các biện pháp như doanh số và lợi nhuận để đánh giá hiệu quả hoạt động.

 Xây dựng cấu trúc sao hoặc bông tuyết: Chọn cấu trúc phù hợp cho mô hình dữ liệu, tùy thuộc vào yêu cầu phân tích.

 Xây dựng các mối quan hệ: Thiết lập các mối quan hệ giữa các chiều và các biện pháp.

2 Xây dựng kho dữ liệu:

 Tạo một kho dữ liệu mới: Sử dụng SSAS để tạo một kho dữ liệu đa chiều mới.

 Import dữ liệu: Nhập dữ liệu từ các nguồn dữ liệu khác nhau vào kho dữ liệu.

 Xây dựng các đối tượng: Xây dựng các đối tượng như cubes, dimensions, measures, và hierarchies.

 Tạo các cube: Tạo các cube để cung cấp một giao diện trực quan cho người dùng truy vấn dữ liệu.

 Xây dựng các phép tính: Xây dựng các phép tính phức tạp để phân tích dữ liệu.

4 Triển khai và sử dụng

 Triển khai kho dữ liệu: Triển khai kho dữ liệu vào môi trường sản xuất.

 Cung cấp cho người dùng: Cung cấp cho người dùng các công cụ để truy vấn và phân tích dữ liệu, chẳng hạn như Excel, Power BI.

Các thành phần chính của một gói SSIS:

 Data Flow Task: Thành phần chính để thực hiện các hoạt động ETL trên dữ liệu.

 Control Flow Task: Điều khiển luồng thực hiện của gói, bao gồm các điều kiện, vòng lặp, các tác vụ khác.

 Event Handlers: Xử lý các sự kiện xảy ra trong quá trình thực thi gói.

 Variables: Lưu trữ các giá trị được sử dụng trong gói.

 Parameters: Đưa ra các tham số để tùy chỉnh việc thực thi gói.

 Foreach Loop Container: Lặp lại một tập các tác vụ nhiều lần.

 Sequence Container: Nhóm các tác vụ thành một nhóm logic.

Các trường hợp sử dụng phổ biến của SSIS:

 Tích hợp dữ liệu từ nhiều nguồn: Kết hợp dữ liệu từ các cơ sở dữ liệu khác nhau, các file phẳng, các ứng dụng.

 Làm sạch và chuẩn hóa dữ liệu: Loại bỏ dữ liệu trùng lặp, sửa lỗi dữ liệu, đảm bảo tính nhất quán của dữ liệu.

 Tải dữ liệu vào kho dữ liệu: Tải dữ liệu đã được xử lý vào kho dữ liệu để phục vụ cho việc phân tích và báo cáo.

 Tạo các báo cáo: Tạo các báo cáo trực quan dựa trên dữ liệu trong kho dữ liệu.

 Truyền dữ liệu giữa các hệ thống: Truyền dữ liệu giữa các hệ thống khác nhau. Ưu điểm của SSAS:

 Hiệu suất cao: SSAS được tối ưu hóa để thực hiện các truy vấn phức tạp trên các khối lượng dữ liệu lớn.

 Trực quan: Cung cấp giao diện trực quan để phân tích dữ liệu.

 Linh hoạt: Hỗ trợ nhiều loại phân tích khác nhau.

 Tích hợp: Tích hợp tốt với các công cụ BI khác của Microsoft.

 Khó khăn trong việc debug: Việc tìm và sửa lỗi trong các mô hình SSAS có thể phức tạp.

SSAS có thể gặp khó khăn trong việc xử lý và trả về kết quả truy vấn nhanh chóng khi phải đối mặt với khối lượng dữ liệu cực lớn.

 Bản quyền SQL Server: Để sử dụng SSAS, bạn cần phải có bản quyền SQL

 Ngành bán lẻ: Trích xuất dữ liệu bán hàng từ hệ thống POS, làm sạch dữ liệu, tải vào kho dữ liệu và tạo báo cáo doanh số.

 Ngành ngân hàng: Trích xuất dữ liệu giao dịch từ các hệ thống ngân hàng, tính toán các chỉ số tài chính, và tạo các báo cáo phân tích.

 Ngành sản xuất: Trích xuất dữ liệu sản xuất từ các hệ thống ERP, tính toán hiệu suất sản xuất, và tạo các báo cáo chất lượng.

Quá trình SSRS

SSRS là công cụ mạnh mẽ trong SQL Server, cho phép người dùng tạo, quản lý và phân phối báo cáo từ nhiều nguồn dữ liệu khác nhau Với giao diện trực quan, SSRS hỗ trợ thiết kế báo cáo phức tạp, bao gồm các biểu đồ và đối tượng trực quan đa dạng.

Quá trình tạo một báo cáo SSRS thường bao gồm các bước sau:

1 Thiết kế nguồn dữ liệu:

 Kết nối với nguồn dữ liệu: Kết nối với các nguồn dữ liệu khác nhau như SQL

 Định nghĩa dataset: Xác định các dataset (tập dữ liệu) sẽ được sử dụng trong báo cáo.

 Chọn layout: Chọn layout cho báo cáo (ví dụ: bảng, biểu đồ, map).

 Thêm các đối tượng: Thêm các đối tượng như text box, hình ảnh, biểu đồ vào báo cáo.

 Kết nối với dataset: Kết nối các đối tượng với dataset để hiển thị dữ liệu.

 Định dạng: Định dạng báo cáo để tạo ra một giao diện chuyên nghiệp.

3 Xem trước và xuất bản:

 Xem trước: Xem trước báo cáo để kiểm tra kết quả.

 Xuất bản: Xuất bản báo cáo lên máy chủ báo cáo SSRS.

 Lập lịch: Lập lịch để báo cáo được tự động tạo và phân phối.

 Phân phối: Phân phối báo cáo qua email, in ấn, hoặc các kênh khác.

Các thành phần chính của SSRS:

 Report Builder: Công cụ để tạo và thiết kế các báo cáo.

 Report Server: Máy chủ lưu trữ và quản lý các báo cáo.

 Report Manager: Công cụ quản lý các báo cáo trên máy chủ báo cáo.

 Data Sources: Các nguồn dữ liệu kết nối với báo cáo.

 Datasets: Các tập dữ liệu được định nghĩa trong báo cáo.

 Report Parameters: Các tham số cho phép người dùng tương tác với báo cáo.

Các tính năng nổi bật của SSRS:

 Tạo các báo cáo phức tạp: Tạo các báo cáo đa dạng với nhiều loại biểu đồ, biểu đồ, và các đối tượng trực quan khác.

 Tùy chỉnh báo cáo: Tùy chỉnh giao diện và nội dung của báo cáo để phù hợp với nhu cầu của người dùng.

 Phân phối báo cáo: Phân phối báo cáo qua nhiều kênh khác nhau.

 Tích hợp với các công cụ khác: Tích hợp với các công cụ BI khác như Power

BI. Ưu điểm của SSRS:

SSRS sở hữu nhiều tính năng phong phú, cho phép người dùng tạo ra các báo cáo phức tạp, từ những báo cáo đơn giản đến các dashboard tương tác.

SSRS tích hợp chặt chẽ với SQL Server, giúp người dùng dễ dàng truy cập và quản lý dữ liệu từ các cơ sở dữ liệu SQL Server.

 Khả năng tùy chỉnh cao: SSRS cho phép người dùng tùy chỉnh giao diện và nội dung của báo cáo một cách linh hoạt.

 Cộng đồng lớn: SSRS có một cộng đồng người dùng lớn, giúp dễ dàng tìm kiếm tài liệu và hỗ trợ khi cần.

 Độ phức tạp: Để tạo các báo cáo phức tạp, người dùng cần có kiến thức nhất định về SQL, MDX và các khái niệm báo cáo.

 Hiệu suất: Với các báo cáo phức tạp và lượng dữ liệu lớn, hiệu suất của SSRS có thể bị ảnh hưởng.

 Giao diện người dùng: Giao diện người dùng của Report Builder có thể không trực quan bằng một số công cụ báo cáo khác.

 Khả năng mở rộng: Việc mở rộng các chức năng của SSRS có thể đòi hỏi kiến thức chuyên sâu về lập trình.

 Ngành bán lẻ: Tạo các báo cáo doanh số, báo cáo tồn kho.

 Ngành ngân hàng: Tạo các báo cáo tài chính, báo cáo khách hàng.

 Ngành sản xuất: Tạo các báo cáo chất lượng, báo cáo hiệu suất sản xuất.

Quá trình đổ dữ liệu vào kho

Quá trình đổ dữ liệu vào kho (hay còn gọi là ETL - Extract, Transform,

Load là quy trình chuyển dữ liệu từ nhiều nguồn khác nhau vào một kho dữ liệu tập trung, phục vụ cho phân tích, báo cáo và hỗ trợ ra quyết định trong doanh nghiệp.

Các giai đoạn chính trong quá trình ETL:

 Xác định nguồn dữ liệu: Excel

 Thiết lập kết nối: Thiết lập kết nối với các nguồn dữ liệu này.

 Trích xuất dữ liệu: Lấy dữ liệu từ các nguồn và đưa vào một vùng đệm tạm thời.

 Làm sạch dữ liệu: Loại bỏ các dữ liệu trùng lặp, thiếu sót, sai sót hoặc không nhất quán.

 Kiểu dữ liệu: Chuyển đổi các kiểu dữ liệu sang dạng phù hợp với kho dữ liệu.

 Tính toán: Thực hiện các phép tính, tổng hợp dữ liệu để tạo ra các trường mới.

 Tích hợp: Kết hợp dữ liệu từ nhiều nguồn khác nhau.

 Tải dữ liệu vào kho: Chuyển dữ liệu đã được biến đổi vào các bảng trong kho dữ liệu.

 Cập nhật metadata: Cập nhật thông tin về cấu trúc dữ liệu trong kho.

Tiêu đề	Xây Dựng Kho Dữ Liệu Quản Lý Bán Hàng
Tác giả	Hồ Văn Dân, Huỳnh Thị Minh Thư, Nguyễn Quang Anh, Huỳnh Văn Hạ Huyền
Người hướng dẫn	ThS. Trần Thanh Liêm
Trường học	Trường Đại Học Công Nghệ Thông Tin Và Truyền Thông Việt - Hàn
Thể loại	báo cáo đồ án
Năm xuất bản	2024
Thành phố	Đà Nẵng

Định dạng
Số trang	56
Dung lượng	4,98 MB