1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo Đồ án kho dữ liệu Đề tài xây dựng kho dữ liệu quản lý bán hàng

56 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 4,98 MB

Nội dung

Sự cần thiết của đề tài: Trong thời đại kinh doanh số, dữ liệu chính là tài sản vô giá của doanh nghiệp.Việc XÂY DỰNG KHO DỮ LIỆU BÁN HÀNG toàn diện không chỉ là một lựa chọn mà còn là m

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

VÀ TRUYỀN THÔNG VIỆT - HÀN

KHOA KHOA HỌC MÁY TÍNH

BÁO CÁO ĐỒ ÁN KHO DỮ LIỆU

ĐỀ TÀI : XÂY DỰNG KHO DỮ LIỆU QUẢN LÝ

BÁN HÀNG

Sinh viên thực hiện: HỒ VĂN DÂN – 22IT.B027

HUỲNH THỊ MINH THƯ – 22IT.B208 NGUYỄN QUANG ANH – 22IT.B005 HUỲNH VĂN HẠ HUYÊN – 22IT.B096 Giảng viên hướng dẫn: ThS TRẦN THANH LIÊM

Đà Nẵng, tháng 11 năm 2024

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

VÀ TRUYỀN THÔNG VIỆT - HÀN

KHOA KHOA HỌC MÁY TÍNH

BÁO CÁO ĐỒ ÁN KHO DỮ LIỆU

ĐỀ TÀI : XÂY DỰNG KHO DỮ LIỆU QUẢN LÝ

BÁN HÀNG

Sinh viên thực hiện: HỒ VĂN DÂN – 22IT.B027

HUỲNH THỊ MINH THƯ – 22IT.B208 NGUYỄN QUANG ANH – 22IT.B HUỲNH VĂN HẠ HUYÊN – 22IT.B Giảng viên hướng dẫn: ThS TRẦN THANH LIÊM

Đà Nẵng, tháng 11 năm 2024

Trang 3

LỜI CẢM ƠN

Nhóm chúng em xin trân trọng gửi lời cảm ơn đến thầy giáo ThS Trần Thanh

Liêm - giảng viên Trường Đại học Công nghệ Thông tin và Truyền thông Việt - Hàn

đã tận tình hướng dẫn và giúp đỡ chúng em trong suốt quá trình làm đồ án, giúp chúng

em có thêm nhiều kiến thức bổ ích, và hiểu rõ hơn vấn đề đề tài của nhóm

Xuất phát từ mục đích học tập, tìm hiểu sâu hơn các kiến thưc về kho dữ liệucũng như tìm hiểu kỹ về quy trình nghiên cứu nghiệp vụ lên ý tưởng, xây dựng mộtkho dữ liệu Nhóm chúng em đã thực hiện đồ án “XÂY DỰNG KHO DỮ LIỆUQUẢN LÝ BÁN HÀNG”

Dưới đây là kết quả của quá trình tìm hiểu và nghiên cứu mà chúng em đã đạtđược trong học kỳ vừa qua Tuy có nhiều cố gắng học hỏi trau dồi để nâng cao kiếnthức nhưng không thể tránh khỏi những sai sót Em rất mong được những sự góp ý quýbáu của thầy để đồ án của chúng em được hoàn thiện hơn

Nhóm chúng em xin chân thành cảm ơn!

Trang 4

NHẬN XÉT

(Của giảng viên hướng dẫn)

Đà Nẵng, ngày … tháng … năm 2024

Giảng viên hướng dẫn

ThS Trần Thanh Liêm

Trang 5

MỤC LỤC

DANH MỤC CÁC BẢNG i

DANH MỤC HÌNH VẼ ii

DANH MỤC CỤM TỪ VIẾT TẮT iii

CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ ĐỀ TÀI 3

1.1.Lý do hình thành dự án: 3

1.1.1.Vấn đề nhận thấy: 13

1.1.2.Giải pháp: 13

1.1.3 Mục tiêu và ý nghĩa của dự án: 13

1.2.Giới thiệu tổng quan Dataset: 3

1.2.1.Nguồn dữ liệu sử dụng: 13

1.2.2.Mô tả chi tiết dữ liệu: 13

1.3.Giới thiệu về các công cụ: 3

1.3.1.Visual Studio 13

1.3.2.SQL Server: 13

CHƯƠNG 2: PHÂN TÍCH VÀ THIẾT KẾ KHO DỮ LIỆU 6

2.1 Xử lý dữ liệu 6

2.1.1 Trích chọn những thuộc tính cần thiết cho bảng fact chính 13

2.1.2.Các bảng Dimension 13

2.1.3.Các bảng fact 13

2.2 Mô hình hoá vật lý 6

2.2.1.Các bảng Dimension 13

2.2.2.Các bảng Fact 13

2.2.3.Mô hình vật lý 13

CHƯƠNG 3: TÍCH HỢP DỮ LIỆU VÀO KHO 8

3.1 Quá trình SSIS 8

3.2 Quá trình SSAS 8

3.3 Quá trình SSRS 8

3.4 Quá trình đổ dữ liệu vào kho 8

Trang 6

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 25

Kết luận 25

Hướng phát triển 26

TÀI LIỆU THAM KHẢO 25

Trang 7

DANH MỤC CÁC BẢNG

Bảng 1 16

Bảng 2 19

Bảng 3 19

Bảng 4 20

Bảng 5 21

Bảng 6 24

Bảng 7 25

Bảng 8 25

Bảng 9 26

Bảng 10 26

Trang 8

DANH MỤC CỤM TỪ VIẾT TẮT

1 SSIS SQL Server Integration Services

2 SSAS SQL Server Analysis Services

3 SSRS SQL Server Reporting Services

4 BI Business Intelligence

Trang 9

<Xây dựng kho dữ liệu quản lý bán hàng>

PHẦN MỞ ĐẦU

1 Sự cần thiết của đề tài:

Trong thời đại kinh doanh số, dữ liệu chính là tài sản vô giá của doanh nghiệp.Việc XÂY DỰNG KHO DỮ LIỆU BÁN HÀNG toàn diện không chỉ là một lựa chọn

mà còn là một yêu cầu cấp thiết để đảm bảo sự thành công và bền vững Qua kho dữliệu, doanh nghiệp có thể thu thập, lưu trữ và phân tích một lượng lớn thông tin vềkhách hàng, sản phẩm, đơn hàng, và các hoạt động kinh doanh khác

2 Mục đích nghiên cứu:

- Hiểu rõ hành vi mua sắm của khách hàng: Phân tích dữ liệu để tìm ra xu hướng,

sở thích của khách hàng, từ đó đưa ra các chiến lược marketing cá nhân hóa, tăngcường trải nghiệm mua sắm và thúc đẩy doanh số

- Quản lý hàng tồn kho hiệu quả: Dự báo chính xác nhu cầu của thị trường, tối ưu

hóa việc nhập hàng, giảm thiểu tình trạng tồn kho quá nhiều hoặc thiếu hàng, giúp tiếtkiệm chi phí và tăng lợi nhuận

- Đánh giá hiệu quả của các chiến dịch marketing: Đo lường tác động của từng

chiến dịch, từ đó tối ưu hóa ngân sách quảng cáo và nâng cao hiệu quả đầu tư

- Tìm kiếm cơ hội kinh doanh mới: Phân tích dữ liệu để phát hiện những thị trường

mới, những phân khúc khách hàng chưa được khai thác, và những sản phẩm mới cótiềm năng

- Cải thiện quy trình làm việc: Tự động hóa các công việc lặp đi lặp lại, giảm thiểu

lỗi sai, tăng năng suất lao động và tiết kiệm thời gian cho nhân viên

- Đưa ra quyết định kinh doanh chính xác: Dựa trên những số liệu thực tế và phân

tích sâu sắc, doanh nghiệp có thể đưa ra những quyết định kinh doanh sáng suốt, giảmthiểu rủi ro và tăng khả năng cạnh tranh

3 Phương pháp nghiên cứu:

a Phân tích yêu cầu

- Xác định mục tiêu: Xác định rõ mục tiêu mà doanh nghiệp muốn đạt được khi xây

dựng kho dữ liệu (ví dụ: tăng doanh thu, cải thiện dịch vụ khách hàng, tối ưu hóa quytrình kinh doanh)

- Nhận diện các đối tượng: Xác định các đối tượng sẽ sử dụng kho dữ liệu (ví dụ:

nhân viên bán hàng, quản lý, marketing) và nhu cầu thông tin của từng đối tượng

- Phân tích quy trình hiện tại: Đánh giá các quy trình kinh doanh hiện tại để xác định

các điểm yếu, các nguồn dữ liệu hiện có và cách thức chúng được thu thập, lưu trữ và

sử dụng

b Thiết kế cơ sở dữ liệu.

Trang 10

<Xây dựng kho dữ liệu quản lý bán hàng>

- Lựa chọn công cụ: Chọn phần mềm quản lý cơ sở dữ liệu phù hợp (ví dụ: SQL

Server, MySQL, …) dựa trên quy mô, tính phức tạp của dữ liệu và yêu cầu của doanhnghiệp

- Xây dựng mô hình: Thiết kế mô hình dữ liệu, bao gồm các bảng, trường, mối quan

hệ giữa các bảng để đảm bảo dữ liệu được tổ chức một cách hợp lý và dễ truy xuất

- Xác định các chỉ số KPI: Xác định các chỉ số đo lường hiệu quả kinh doanh (KPI)

để theo dõi và đánh giá hiệu quả của kho dữ liệu

c Thu thập và Làm sạch dữ liệu

- Thu thập dữ liệu: Thu thập dữ liệu từ các nguồn khác nhau như hệ thống bán hàng,

hệ thống quản lý kho, hệ thống CRM, các file Excel, v.v

- Làm sạch dữ liệu: Kiểm tra, sửa chữa và loại bỏ các dữ liệu sai sót, trùng lặp, không

nhất quán để đảm bảo chất lượng dữ liệu

- Truy xuất dữ liệu: Xây dựng các truy vấn để truy xuất dữ liệu từ các nguồn khác

nhau và đưa vào kho dữ liệu

d Phân tích dữ liệu

- Xây dựng báo cáo: Tạo các báo cáo tổng hợp, báo cáo phân tích để cung cấp thông

tin cho người dùng

- Sử dụng các công cụ BI: Sử dụng các công cụ BI như Power BI, Tableau để trực

quan hóa dữ liệu, tạo các dashboard và khám phá dữ liệu

- Phân tích dự đoán: Áp dụng các kỹ thuật phân tích dự đoán để dự báo doanh số, xu

hướng thị trường, hành vi khách hàng

e Triển khai và Đánh giá

- Triển khai hệ thống: Triển khai kho dữ liệu vào môi trường sản xuất và đào tạo

người dùng

- Đánh giá hiệu quả: Đánh giá hiệu quả của kho dữ liệu bằng cách so sánh các chỉ số

KPI trước và sau khi triển khai

- Điều chỉnh và cải tiến: Tiếp tục điều chỉnh và cải tiến kho dữ liệu để đáp ứng nhu

cầu thay đổi của doanh nghiệp

4 Phạm vi nghiên cứu:

Phạm vi nghiên cứu của đề tài XÂY DỰNG KHO DỮ LIỆU BÁN HÀNG có thể rất

đa dạng, tùy thuộc vào mục tiêu cụ thể của nghiên cứu và quy mô của doanh nghiệp.Tuy nhiên, một số phạm vi nghiên cứu điển hình bao gồm:

- Nghiên cứu so sánh các công cụ xây dựng kho dữ liệu: So sánh ưu nhược

điểm của các phần mềm quản lý cơ sở dữ liệu và các công cụ BI khác nhau

- Nghiên cứu về bảo mật dữ liệu: Đảm bảo an toàn cho dữ liệu trong kho dữ

liệu

- Nghiên cứu về hiệu năng của kho dữ liệu: Đánh giá hiệu suất của kho dữ liệu

khi xử lý lượng lớn dữ liệu

Trang 11

<Xây dựng kho dữ liệu quản lý bán hàng>

- Nghiên cứu về việc tích hợp kho dữ liệu với các hệ thống khác: Tích hợp

kho dữ liệu với các hệ thống hiện có của doanh nghiệp

5 Nội dung nghiên cứu:

Báo cáo đồ án bao gồm các nội dung chính sau:

Chương 1: Giới thiệu chung về đề tài

Chương 2: Phân tích và thiết kế kho dữ liệu

Chương 3: Tích hợp dữ liệu vào kho

Trên đây là phần mở đầu của báo cáo đồ án với đề tài xây dựng kho dữ liệu quản lý bán hàng Hy vọng báo cáo này sẽ góp phần vào việc nâng cao chất lượng dịch vụ và hiệu quả kinh doanh của doanh nghiệp.

Trang 12

<Xây dựng kho dữ liệu quản lý bán hàng>

1.1 Lý do hình thành dự án

Xây dựng kho dữ liệu quản lý bán hàng là một bước đi chiến lược mà nhiều

doanh nghiệp đang thực hiện Việc sở hữu một kho dữ liệu bán hàng hiệu quả mang lạinhiều lợi ích quan trọng, giúp doanh nghiệp nâng cao hiệu quả hoạt động và đưa ra cácquyết định kinh doanh chính xác hơn

1.1.1 Vấn đề nhận thấy

Dự án Xây dựng kho dữ liệu quản lý bán hàng, dù mang lại nhiều lợi ích, vẫntiềm ẩn một số thách thức và vấn đề cần được giải quyết Dưới đây là một số vấn đềthường gặp:

Chất lượng dữ liệu:

Dữ liệu không chính xác, không đồng nhất: Dữ liệu từ các nguồn khác nhau

thường có định dạng, đơn vị đo khác nhau, gây khó khăn trong việc tích hợp vàphân tích

Dữ liệu thiếu sót: Thiếu thông tin quan trọng hoặc dữ liệu bị trùng lặp.

Dữ liệu lỗi thời: Dữ liệu không được cập nhật thường xuyên dẫn đến quyết

định dựa trên thông tin không chính xác

Thiết kế kho dữ liệu:

Mô hình dữ liệu không phù hợp: Mô hình dữ liệu không đáp ứng được yêu

cầu phân tích và báo cáo của doanh nghiệp

Thiếu linh hoạt: Kho dữ liệu khó mở rộng và điều chỉnh khi có thay đổi trong

quy trình kinh doanh

Quá trình ETL:

Thời gian thực hiện lâu: Quá trình trích xuất, chuyển đổi và tải dữ liệu (ETL)

tốn nhiều thời gian, ảnh hưởng đến hiệu suất của hệ thống

Sai sót trong quá trình chuyển đổi: Dữ liệu bị mất mát hoặc biến đổi trong quá

trình chuyển đổi

Nguồn lực:

Thiếu nhân lực: Thiếu chuyên gia về kho dữ liệu, phân tích dữ liệu và công

nghệ thông tin

Trang 13

<Xây dựng kho dữ liệu quản lý bán hàng>

Ngân sách hạn hẹp: Chi phí đầu tư cho phần cứng, phần mềm và nhân lực có

thể vượt quá ngân sách dự kiến

Quản lý thay đổi:

Kháng cự từ người dùng: Nhân viên khó thích nghi với hệ thống mới và cách

làm việc mới

Thiếu sự hỗ trợ từ ban lãnh đạo: Thiếu sự quan tâm và hỗ trợ từ ban lãnh đạo

trong quá trình triển khai dự án

1.1.2 Giải pháp

Để giải quyết các vấn đề trên, doanh nghiệp cần:

Đảm bảo chất lượng dữ liệu: Xây dựng quy trình quản lý dữ liệu chặt chẽ,

Đầu tư vào nguồn lực: Đào tạo nhân sự, xây dựng đội ngũ chuyên nghiệp.

Quản lý thay đổi hiệu quả: Tổ chức các buổi đào tạo, truyền thông để người

dùng hiểu rõ về lợi ích của hệ thống mới

Đảm bảo bảo mật: Áp dụng các biện pháp bảo mật thông tin mạnh mẽ 1.1.3 Mục tiêu và ý nghĩa của dự án

Dự án Xây dựng kho dữ liệu quản lý bán hàng là một đầu tư dài hạn, mang lạinhiều lợi ích cho doanh nghiệp Việc sở hữu một kho dữ liệu chất lượng giúp doanhnghiệp trở nên hiện đại, chuyên nghiệp và cạnh tranh hơn trên thị trường

1.1.3.1 Mục tiêu

Mục tiêu chính của dự án này là tập trung, thống nhất và phân tích dữ liệu bánhàng từ nhiều nguồn khác nhau, nhằm cung cấp thông tin chính xác, kịp thời để

hỗ trợ quá trình ra quyết định của doanh nghiệp

Các mục tiêu cụ thể của dự án bao gồm:

Trang 14

<Xây dựng kho dữ liệu quản lý bán hàng>

Tích hợp dữ liệu: Thu thập, kết hợp và thống nhất dữ liệu từ các nguồn khác

nhau như hệ thống POS, CRM, ERP, bảng tính Excel vào một kho dữ liệutrung tâm

Cải thiện chất lượng báo cáo: Tạo ra các báo cáo phân tích chi tiết, đa chiều về

doanh số, khách hàng, sản phẩm, giúp lãnh đạo doanh nghiệp có cái nhìn tổngquan và sâu sắc về hoạt động kinh doanh

Hỗ trợ ra quyết định: Cung cấp thông tin hữu ích để đưa ra các quyết định kinh

doanh chính xác, kịp thời, như:

o Dự báo doanh số: Dựa vào dữ liệu lịch sử để dự đoán doanh số trong

tương lai, giúp doanh nghiệp lên kế hoạch sản xuất, kinh doanh hiệu quả

o Phân tích khách hàng: Hiểu rõ hành vi mua sắm của khách hàng, phân

khúc khách hàng để xây dựng các chương trình khuyến mãi, marketingphù hợp

o Quản lý tồn kho: Tối ưu hóa lượng hàng tồn kho, giảm chi phí lưu kho

và tránh tình trạng hàng tồn quá nhiều hoặc thiếu hàng

o Đánh giá hiệu quả của các chiến dịch marketing: Đo lường tác động

của các chiến dịch marketing đến doanh số, từ đó tối ưu hóa ngân sáchmarketing

Nâng cao hiệu quả hoạt động: Tự động hóa các quy trình, giảm thiểu lỗi sai,

tăng năng suất làm việc

Tăng cường khả năng cạnh tranh: Nhờ có kho dữ liệu, doanh nghiệp có thể

nhanh chóng thích ứng với sự thay đổi của thị trường, nắm bắt cơ hội kinhdoanh mới

1.1.3.2 Ý nghĩa

Ý nghĩa của dự án:

Tối ưu hóa nguồn lực: Giúp doanh nghiệp sử dụng hiệu quả các nguồn lực như

nhân lực, tài chính, vật liệu

Giảm thiểu rủi ro: Hỗ trợ doanh nghiệp đưa ra các quyết định kinh doanh an

toàn, giảm thiểu rủi ro thất bại

Tăng trưởng doanh thu: Nhờ hiểu rõ khách hàng và thị trường, doanh nghiệp

có thể tăng doanh thu và lợi nhuận

Nâng cao uy tín của doanh nghiệp: Một doanh nghiệp sử dụng dữ liệu để ra

quyết định sẽ được khách hàng và đối tác đánh giá cao

Trang 15

<Xây dựng kho dữ liệu quản lý bán hàng>

1.2 Giới thiệu tổng quan Dataset

Dataset (tập dữ liệu) là một tập hợp các dữ liệu được tổ chức và cấu trúc theo một

cách cụ thể, thường được sử dụng để phân tích, đào tạo mô hình máy học hoặc các ứngdụng khác Nghĩa đơn giản, dataset là một bảng chứa nhiều hàng (records) và cột(fields), mỗi hàng đại diện cho một quan sát hoặc một đối tượng, mỗi cột đại diện chomột thuộc tính của đối tượng đó

Các loại Dataset dựa trên cấu trúc:

Dựa trên nguồn gốc và cách thức thu thập, dataset có thể được chia thành nhiềuloại khác nhau:

Dataset có cấu trúc: Dữ liệu được tổ chức trong một định dạng cố định, dễ

dàng hiểu và xử lý, ví dụ như bảng tính Excel, cơ sở dữ liệu quan hệ

o Bảng: Dữ liệu được tổ chức trong các hàng và cột, mỗi hàng đại diện

cho một quan sát, mỗi cột đại diện cho một thuộc tính

o Cơ sở dữ liệu quan hệ: Các bảng được liên kết với nhau thông qua các

khóa ngoại

Dataset không cấu trúc: Dữ liệu không có cấu trúc rõ ràng, thường là văn bản,

hình ảnh, video, âm thanh

o Văn bản: Bài viết, email, đánh giá sản phẩm.

o Hình ảnh: Ảnh chụp, ảnh y tế, ảnh vệ tinh.

o Âm thanh: Bài hát, tiếng nói, âm thanh môi trường.

o Video: Phim, clip, video giám sát.

Dataset bán cấu trúc: Dữ liệu có một số cấu trúc nhất định nhưng không hoàn

toàn rõ ràng, ví dụ như dữ liệu XML, JSON

o XML: Ngôn ngữ đánh dấu mở rộng

o Video: Định dạng trao đổi dữ liệu nhẹ

Các loại Dataset dựa trên mục đích sử dụng:

Dataset huấn luyện: Dùng để huấn luyện các mô hình máy học.

Dataset kiểm tra: Dùng để đánh giá hiệu suất của mô hình đã được huấn luyện.

Dataset thử nghiệm: Dùng để kiểm tra mô hình trong môi trường thực tế.

Các thành phần chính của một Dataset:

Trang 16

<Xây dựng kho dữ liệu quản lý bán hàng>

Các thuộc tính (features): Mỗi cột trong dataset đại diện cho một thuộc tính

hoặc đặc trưng của đối tượng

Các quan sát (observations): Mỗi hàng trong dataset đại diện cho một quan sát

hoặc một đối tượng cụ thể

Các nhãn (labels): Trong các bài toán học có giám sát, nhãn là giá trị cần dự

đoán

Các ứng dụng của Dataset:

Phân tích dữ liệu: Tìm hiểu xu hướng, mối quan hệ giữa các biến.

Học máy: Dùng để huấn luyện các mô hình máy học, ví dụ như phân loại, hồi

quy, clustering

Trí tuệ nhân tạo: Dùng để phát triển các ứng dụng AI như nhận dạng hình ảnh,

xử lý ngôn ngữ tự nhiên

Nghiên cứu khoa học: Dùng để khám phá các hiện tượng tự nhiên, xã hội.

Các vấn đề thường gặp khi làm việc với Dataset:

Chất lượng dữ liệu: Dữ liệu thiếu, sai sót, không nhất quán, nhiễu và trùng lặp

Kích thước dữ liệu: Dataset quá lớn hoặc quá nhỏ.

Độ phức tạp của dữ liệu: Dữ liệu có nhiều loại khác nhau, khó xử lý.

Quyền riêng tư: Dữ liệu cá nhân cần được bảo mật.

Để làm việc hiệu quả với dataset, bạn cần:

Hiểu rõ về dữ liệu: Tìm hiểu về nguồn gốc, cấu trúc, ý nghĩa của từng thuộc

tính

Làm sạch dữ liệu: Xử lý các vấn đề về chất lượng dữ liệu như thiếu giá trị,

outliers

Trực quan hóa dữ liệu: Sử dụng các biểu đồ, đồ thị để hiểu rõ hơn về dữ liệu.

Chọn các mô hình phù hợp: Lựa chọn các thuật toán học máy phù hợp với loại

dữ liệu và bài toán

Các công cụ và thư viện xử lý Dataset:

Pandas: Thư viện Python mạnh mẽ để làm việc với dữ liệu có cấu trúc.

Numpy: Thư viện Python để tính toán khoa học.

Scikit-learn: Thư viện Python cho học máy.

Trang 17

<Xây dựng kho dữ liệu quản lý bán hàng>

TensorFlow, PyTorch: Các thư viện Python cho học sâu.

Các kho dữ liệu phổ biến:

Kaggle: Nền tảng cung cấp nhiều dataset miễn phí cho các cuộc thi và dự án.

UCI Machine Learning Repository: Kho lưu trữ các dataset phổ biến trong

nghiên cứu học máy

Google Dataset Search: Công cụ tìm kiếm các dataset trên internet.

Các khái niệm liên quan:

Feature engineering: Kỹ thuật tạo ra các đặc trưng mới từ dữ liệu ban đầu để

cải thiện hiệu suất của mô hình

Overfitting: Mô hình học quá khít với dữ liệu huấn luyện, dẫn đến hiệu suất

kém trên dữ liệu kiểm tra

Underfitting: Mô hình không học được các đặc trưng quan trọng của dữ liệu,

Kaggle là một cộng đồng trực tuyến dành cho những người quan tâm đến khoa học

dữ liệu và học máy Một trong những tính năng nổi bật của Kaggle là kho dữ liệukhổng lồ, cung cấp một nguồn tài nguyên vô giá cho các nhà khoa học dữ liệu, kỹ sư

dữ liệu và những người muốn khám phá thế giới dữ liệu

Kho tang dữ liệu đa dạng: Kaggle cung cấp hàng trăm nghìn dataset miễn phí,

bao gồm các lĩnh vực đa dạng như kinh tế, y tế, khoa học xã hội, tài chính, vànhiều hơn nữa

Chất lượng cao: Các dataset trên Kaggle thường được làm sạch, chuẩn hóa và

sẵn sàng để sử dụng cho các dự án học máy và phân tích dữ liệu

Trang 18

<Xây dựng kho dữ liệu quản lý bán hàng>

Cộng đồng đóng góp: Bất kỳ ai cũng có thể tải lên và chia sẻ dataset của mình

trên Kaggle, tạo nên một cộng đồng đóng góp tích cực

Các loại Dataset phổ biến trên Kaggle:

Dữ liệu kinh tế: Dữ liệu về GDP, chỉ số giá tiêu dùng, tỷ lệ thất nghiệp, ……

Dữ liệu y tế: Dữ liệu về bệnh tật, gen, hình ảnh y tế, ……

Dữ liệu tài chính: Dữ liệu về chứng khoán, tiền tệ, giao dịch, ……

Dữ liệu xã hội: Dữ liệu về dân số, tội phạm, giáo dục, ……

Dữ liệu hình ảnh: Hình ảnh về các đối tượng khác nhau (ví dụ: khuôn mặt, vật

thể, cảnh vật)

Dữ liệu văn bản: Văn bản tin tức, đánh giá sản phẩm, bài viết blog, … 1.2.2 Mô tả chi tiết dữ liệu

1.2.2.1 Thông số Dataset

Tên Dataset: Retail Sales and Customer Behavior Analysis

Nguồn dữ liệu: Nguồn dữ liệu mà dataset sẽ kết nối (Excel)

1.2.2.2 Dữ liệu sau khi được trích xuất

Thực hiện trích dữ liệu từ bảng Retail Sales and Customer Behavior Analysis:

Lấy ra 1 000 000 (dòng) * 78 (cột) Bao gồm thông tin khách hàng, dữ liệu giaodịch, chi tiết sản phẩm, thông tin khuyến mại và số liệu về hành vi của khách hàng Nóbao gồm dữ liệu để dự đoán tổng doanh số (hồi quy) và tỷ lệ khách hàng rời bỏ (phânloại)

Trang 19

<Xây dựng kho dữ liệu quản lý bán hàng>

Trang 20

<Xây dựng kho dữ liệu quản lý bán hàng>

1.2.2.3 Mô tả chi tiết các thuộc tính trong Dataset

Thông tin khách hàng:

customer_id: Mã khách hàng duy nhất.

age: Tuổi của khách hàng.

gender: Giới tính của khách hàng (Nam, Nữ, Khác).

income_bracket: Khoảng thu nhập của khách hàng (Thấp, Trung bình, Cao).

loyalty_program: Khách hàng có tham gia chương trình khách hàng thân thiết

hay không (Có/Không)

membership_years: Số năm khách hàng là thành viên.

churned: Khách hàng đã ngừng sử dụng dịch vụ hay chưa (Có/Không) - Mục

tiêu phân loại

marital_status: Tình trạng hôn nhân của khách hàng.

number_of_children: Số con của khách hàng.

education_level: Trình độ học vấn của khách hàng (Trung học, Cử nhân, Thạc

sĩ)

occupation: Nghề nghiệp của khách hàng.

Dữ liệu giao dịch:

transaction_id: Mã giao dịch duy nhất.

transaction_date: Ngày giao dịch.

product_id: Mã sản phẩm duy nhất.

product_category: Danh mục sản phẩm (Điện tử, Thời trang, Hàng tạp hóa).

quantity: Số lượng sản phẩm mua.

unit_price: Giá đơn vị của sản phẩm.

discount_applied: Giảm giá áp dụng cho giao dịch.

payment_method: Phương thức thanh toán (Thẻ tín dụng, Thẻ ghi nợ, Tiền

Trang 21

<Xây dựng kho dữ liệu quản lý bán hàng>

purchase_frequency: Tần suất mua hàng (Hàng ngày, Hàng tuần, Hàng tháng,

Hàng năm)

last_purchase_date: Ngày mua hàng gần nhất của khách hàng.

avg_discount_used: Tỷ lệ giảm giá trung bình được sử dụng bởi khách hàng.

preferred_store: Địa điểm cửa hàng được khách hàng ghé thăm thường xuyên

nhất

online_purchases: Số lần mua hàng trực tuyến của khách hàng.

in_store_purchases: Số lần mua hàng tại cửa hàng của khách hàng.

avg_items_per_transaction: Số lượng mặt hàng trung bình mỗi giao dịch.

avg_transaction_value: Giá trị trung bình mỗi giao dịch.

total_returned_items: Tổng số mặt hàng được trả lại bởi khách hàng.

total_returned_value: Tổng giá trị của các mặt hàng được trả lại.

Dữ liệu bán hàng:

total_sales: Tổng doanh thu của mỗi khách hàng trong năm qua - Mục tiêu cho

hồi quy

total_transactions: Tổng số giao dịch của mỗi khách hàng.

total_items_purchased: Tổng số mặt hàng được mua bởi mỗi khách hàng.

total_discounts_received: Tổng số giảm giá nhận được bởi mỗi khách hàng.

avg_spent_per_category: Trung bình số tiền chi tiêu cho mỗi danh mục sản

phẩm

max_single_purchase_value: Giá trị tối đa của một giao dịch đơn lẻ.

min_single_purchase_value: Giá trị tối thiểu của một giao dịch đơn lẻ.

Thông tin sản phẩm:

product_name: Tên sản phẩm.

product_brand: Thương hiệu sản phẩm.

product_rating: Xếp hạng của khách hàng đối với sản phẩm.

product_review_count: Số lượng đánh giá cho sản phẩm.

product_stock: Tình trạng tồn kho của sản phẩm.

product_return_rate: Tỷ lệ trả hàng của sản phẩm.

Trang 22

<Xây dựng kho dữ liệu quản lý bán hàng>

product_size: Kích thước sản phẩm (nếu có).

product_weight: Trọng lượng sản phẩm (nếu có).

product_color: Màu sắc sản phẩm (nếu có).

product_material: Chất liệu của sản phẩm (nếu có).

product_manufacture_date: Ngày sản xuất của sản phẩm.

product_expiry_date: Ngày hết hạn của sản phẩm (nếu có).

product_shelf_life: Thời gian bảo quản của sản phẩm (nếu có).

Dữ liệu khuyến mãi:

promotion_id: Mã định danh duy nhất cho mỗi chương trình khuyến mãi.

promotion_type: Loại hình khuyến mãi (ví dụ: Mua 1 Tặng 1, Giảm 20%).

promotion_start_date: Ngày bắt đầu của chương trình khuyến mãi.

promotion_end_date: Ngày kết thúc của chương trình khuyến mãi.

promotion_effectiveness: Hiệu quả của chương trình khuyến mãi (ví dụ: Cao,

Trung bình, Thấp)

promotion_channel: Kênh quảng bá chương trình khuyến mãi (ví dụ: Trực

tuyến, Tại cửa hàng, Mạng xã hội)

promotion_target_audience: Đối tượng mục tiêu của chương trình khuyến

mãi (ví dụ: Khách hàng mới, Khách hàng cũ)

Dữ liệu địa lý:

customer_zip_code: Mã vùng của nơi cư trú của khách hàng.

customer_city: Thành phố nơi cư trú của khách hàng.

customer_state: Bang/tỉnh nơi cư trú của khách hàng.

store_zip_code: Mã vùng của cửa hàng.

store_city: Thành phố nơi cửa hàng tọa lạc.

store_state: Bang/tỉnh nơi cửa hàng tọa lạc.

distance_to_store: Khoảng cách từ nơi cư trú của khách hàng đến cửa hàng.

Dữ liệu mùa vụ và thời gian:

holiday_season: Giao dịch có diễn ra trong mùa lễ hội hay không (Có/Không).

season: Mùa trong năm (ví dụ: Đông, Xuân, Hè, Thu).

weekend: Giao dịch có diễn ra vào cuối tuần hay không (Có/Không).

Dữ liệu tương tác với khách hàng:

customer_support_calls: Số cuộc gọi tới bộ phận hỗ trợ khách hàng.

Trang 23

<Xây dựng kho dữ liệu quản lý bán hàng>

email_subscriptions: Khách hàng có đăng ký nhận email quảng cáo hay không

(Có/Không)

app_usage: Tần suất sử dụng ứng dụng di động của cửa hàng.

website_visits: Số lượt truy cập vào trang web của cửa hàng.

social_media_engagement: Mức độ tương tác với cửa hàng trên mạng xã hội

(ví dụ: Thích, Bình luận, Chia sẻ)

Các đặc tính dẫn xuất (từ các cột hiện có):

days_since_last_purchase: Số ngày kể từ lần mua hàng cuối cùng của khách

hàng

avg_purchase_interval: Số ngày trung bình giữa các lần mua hàng.

customer_lifetime_value: Giá trị dự đoán của khách hàng trong suốt vòng đời.

loyalty_score: Điểm số thể hiện mức độ trung thành của khách hàng dựa trên

các yếu tố khác nhau (ví dụ: số năm làm thành viên, giá trị mua hàng trungbình)

churn_risk_score: Điểm số thể hiện rủi ro khách hàng rời bỏ dựa trên tần suất

mua hàng, mức độ gần đây của lần mua hàng cuối và tổng doanh số

Dataset là một khái niệm quan trọng trong SSRS, nó cung cấp một cách hiệu quả

để kết nối báo cáo với nguồn dữ liệu và đảm bảo tính chính xác và linh hoạt của báo cáo.

1.3 Giới thiệu về các công cụ

1.3.1 SQL Server

SQL Server là một hệ quản trị cơ sở dữ liệu quan hệ (Relational Database

Management System - RDBMS) do Microsoft phát triển Nó được sử dụng rộng rãi đểlưu trữ, quản lý và truy xuất dữ liệu một cách hiệu quả và an toàn SQL Server đóngvai trò quan trọng trong nhiều ứng dụng kinh doanh, từ các ứng dụng nhỏ đến các hệthống doanh nghiệp lớn

Trang 24

<Xây dựng kho dữ liệu quản lý bán hàng>

Các tính năng chính của SQL Server:

Lưu trữ dữ liệu: SQL Server cung cấp các công cụ để tạo, quản lý và bảo trì

các cơ sở dữ liệu, bảng, và các đối tượng dữ liệu khác

Truy vấn dữ liệu: Ngôn ngữ truy vấn cấu trúc (SQL) được sử dụng để truy

xuất, cập nhật, xóa và thêm dữ liệu vào cơ sở dữ liệu

Bảo mật dữ liệu: SQL Server cung cấp các tính năng bảo mật mạnh mẽ để bảo

vệ dữ liệu khỏi truy cập trái phép, đảm bảo tính toàn vẹn và bảo mật của dữliệu

Sao lưu và phục hồi: SQL Server cho phép bạn sao lưu cơ sở dữ liệu để phục

hồi dữ liệu trong trường hợp xảy ra sự cố

Báo cáo: SQL Server cung cấp các công cụ để tạo các báo cáo trực quan từ dữ

liệu

Tích hợp: SQL Server có thể tích hợp với các ứng dụng và hệ thống khác,

chẳng hạn như các ứng dụng Microsoft Office, các ứng dụng web và các hệthống doanh nghiệp

Tại sao nên sử dụng SQL Server?

Hiệu suất cao: SQL Server được tối ưu hóa để xử lý các khối lượng dữ liệu lớn

và các truy vấn phức tạp một cách hiệu quả

Trang 25

<Xây dựng kho dữ liệu quản lý bán hàng>

Độ tin cậy cao: SQL Server cung cấp các tính năng để đảm bảo tính sẵn sàng

và độ tin cậy của dữ liệu

An toàn: SQL Server cung cấp các tính năng bảo mật mạnh mẽ để bảo vệ dữ

liệu của bạn

Dễ sử dụng: SQL Server cung cấp một giao diện người dùng thân thiện và các

công cụ quản lý mạnh mẽ

Hỗ trợ đa nền tảng: SQL Server có thể chạy trên nhiều hệ điều hành khác

nhau, bao gồm Windows, Linux và macOS

Các thành phần chính của SQL Server:

SQL Server Database Engine: Đây là thành phần cốt lõi của SQL Server, chịu

trách nhiệm lưu trữ và quản lý dữ liệu

SQL Server Management Studio: Một công cụ đồ họa để quản lý các đối tượng

cơ sở dữ liệu, viết các câu lệnh SQL và tạo các báo cáo

Analysis Services: Cung cấp các dịch vụ phân tích dữ liệu, bao gồm OLAP

(Online Analytical Processing) và data mining

Integration Services: Cung cấp các công cụ để tích hợp dữ liệu từ các nguồn

khác nhau

Reporting Services: Cung cấp các công cụ để tạo các báo cáo chuyên nghiệp.

Ứng dụng của SQL Server:

SQL Server được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau, bao gồm:

Ngân hàng: Quản lý thông tin khách hàng, giao dịch và tài khoản.

Bán lẻ: Quản lý hàng tồn kho, bán hàng và khách hàng.

Sản xuất: Quản lý sản xuất, chuỗi cung ứng và quản lý chất lượng.

Chính phủ: Quản lý thông tin dân cư, thuế và các dịch vụ công cộng.

Y tế: Quản lý hồ sơ bệnh án và thông tin y tế.

SQL Server là một công cụ không thể thiếu trong việc Xây dựng kho dữ liệu quản

lý bán hàng Nó cung cấp một nền tảng vững chắc để lưu trữ, quản lý và phân tích dữ

liệu, giúp doanh nghiệp đưa ra các quyết định kinh doanh chính xác và hiệu quả.

1.3.2 Visual Studio Code

Visual Studio Code (VS Code) là một trình soạn thảo mã nguồn mở, miễn phí,

được phát triển bởi Microsoft Nó nhanh chóng trở thành một trong những công cụ

Trang 26

<Xây dựng kho dữ liệu quản lý bán hàng>

được các lập trình viên trên toàn thế giới yêu thích nhờ giao diện thân thiện, tính năngmạnh mẽ và khả năng tùy biến cao

Tại sao VS Code lại phổ biến?

Miễn phí và mã nguồn mở: Bạn có thể tùy chỉnh và mở rộng VS Code theo ý

muốn

Đa nền tảng: VS Code hoạt động trên Windows, macOS và Linux.

Giao diện thân thiện: Giao diện trực quan, dễ sử dụng, giúp bạn tập trung vào

việc viết mã

Hỗ trợ nhiều ngôn ngữ lập trình: Từ các ngôn ngữ phổ biến như JavaScript,

Python, C++, Java đến các ngôn ngữ chuyên dụng khác

Tính năng IntelliSense: Tự động hoàn thành mã, gợi ý các hàm, biến, giúp bạn

viết mã nhanh hơn và chính xác hơn

Tích hợp Git: Quản lý phiên bản mã nguồn trực tiếp trong VS Code.

Khả năng mở rộng: Hàng ngàn extension giúp bạn tùy chỉnh VS Code để phù

hợp với nhu cầu làm việc của mình

Debug: Gỡ lỗi trực tiếp trong VS Code, giúp bạn tìm và sửa lỗi nhanh chóng.

Các tính năng nổi bật của VS Code:

Hỗ trợ đa ngôn ngữ: VS Code hỗ trợ hàng trăm ngôn ngữ lập trình, với các

tính năng như tô màu cú pháp, tự động định dạng, và hỗ trợ debugging

Tích hợp terminal: Bạn có thể mở một terminal ngay trong VS Code để chạy

các lệnh

Trang 27

<Xây dựng kho dữ liệu quản lý bán hàng>

MarketPlace: Kho extension khổng lồ, cho phép bạn tùy chỉnh VS Code theo ý

muốn

Live Share: Chia sẻ mã nguồn và cùng nhau làm việc với các lập trình viên

khác trong thời gian thực

Remote Development: Phát triển ứng dụng trên các máy từ xa mà không cần

cài đặt môi trường phát triển cục bộ

Các extension phổ biến cho VS Code:

Linter: Kiểm tra lỗi cú pháp và phong cách viết code.

Formatter: Tự động định dạng code theo một quy tắc nhất định.

Theme: Thay đổi giao diện của VS Code.

Debugger: Cung cấp các tính năng debug nâng cao.

Language support: Hỗ trợ thêm các ngôn ngữ lập trình.

Git extension: Mở rộng các tính năng của Git tích hợp.

Cách chọn theme cho VS Code:

Mục đích: Chọn theme phù hợp với sở thích cá nhân và giúp bạn tập trung vào

code

Màu sắc: Chọn màu sắc phù hợp với mắt, tránh gây mỏi mắt.

Độ tương phản: Chọn độ tương phản phù hợp để phân biệt các phần tử trên

giao diện

Font: Chọn font chữ dễ đọc và phù hợp với kích thước màn hình.

Mẹo sử dụng VS Code hiệu quả:

Tùy chỉnh phím tắt: Tạo các phím tắt tùy chỉnh để thực hiện các tác vụ thường

xuyên

Sử dụng workspace: Tổ chức các dự án của bạn vào các workspace khác nhau.

Tìm hiểu các lệnh: Sử dụng bảng lệnh (Command Palette) để tìm hiểu và thực

Trang 28

<Xây dựng kho dữ liệu quản lý bán hàng>

VS Code: Miễn phí, mã nguồn mở, đa nền tảng, nhiều tính năng, cộng đồng

lớn

Sublime Text: Trình soạn thảo nhẹ, nhanh, nhưng có tính phí.

Atom: Tương tự VS Code, nhưng có giao diện hơi khác.

Vim: Trình soạn thảo dòng lệnh, rất mạnh mẽ nhưng có độ dốc học cao.

Visual Studio Code là một công cụ không thể thiếu thiếu trong việc Xây dựng kho

dữ liệu quản lý bán hàng và vô cùng mạnh mẽ và linh hoạt cho các lập trình viên Với

giao diện thân thiện, tính năng phong phú và cộng đồng người dùng lớn, VS Code là lựa chọn tuyệt vời cho bất kỳ ai muốn bắt đầu hoặc nâng cao kỹ năng lập trình của mình.

Ngày đăng: 23/12/2024, 12:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN