GIỚI THIỆU1.1 Mục tiêu của bài báo cáo.Phân tích và trực quan hóa dữ liệu từ chuỗi cung ứng, bao gồm thông tin về sảnphẩm, giá cả, mức độ sẵn có, số lượng sản phẩm bán ra, doanh thu, và
GIỚI THIỆU
Mục tiêu của bài báo cáo
Phân tích và trực quan hóa dữ liệu từ chuỗi cung ứng, bao gồm thông tin về sản phẩm, giá cả, mức độ sẵn có, số lượng sản phẩm bán ra, doanh thu, và các yếu tố khác.
Làm sáng tỏ các thông tin quan trọng và hỗ trợ quá trình ra quyết định dựa trên dữ liệu.
Tính cấp thiết
Trong thời đại kỹ thuật số, khả năng xử lý và phân tích dữ liệu từ chuỗi cung ứng trở nên vô cùng quan trọng Các tổ chức hiện đại cần hiểu rõ các yếu tố ảnh hưởng đến sản xuất, vận chuyển và bán hàng để tồn tại và phát triển trong môi trường cạnh tranh khốc liệt.
Khả năng trích xuất, xử lý và trực quan hóa dữ liệu một cách hiệu quả không chỉ giúp các tổ chức duy trì hoạt động mà còn tạo ra lợi thế cạnh tranh đáng kể Bằng cách nắm bắt được các xu hướng và mẫu hình từ dữ liệu, các doanh nghiệp có thể tối ưu hóa quy trình, giảm thiểu chi phí, và đưa ra những quyết định chiến lược sáng suốt hơn Điều này không chỉ nâng cao hiệu suất kinh doanh mà còn góp phần vào sự phát triển bền vững và lâu dài của tổ chức.
Giới thiệu về trực quan hóa dữ liệu
1.3.1 Khái niệm về trực quan hóa dữ liệu
Trực quan hóa dữ liệu là quá trình sử dụng các yếu tố hình ảnh như đồ thị, biểu đồ hoặc bản đồ để trình bày dữ liệu Quá trình này chuyển đổi dữ liệu phức tạp, có dung lượng lớn hoặc dữ liệu số thành hình ảnh trình bày trực quan có thể xử lý dễ dàng hơn Các công cụ trực quan hóa dữ liệu cải thiện và tự động hóa quá trình giao tiếp bằng hình ảnh nhằm đảm bảo độ chính xác và chi tiết.
1.3.2 Tầm quan trọng của trực quan hóa dữ liệu
Trực quan hóa dữ liệu đóng vai trò vô cùng quan trọng trong quản lý doanh nghiệp hiện đại Nó không chỉ cung cấp cái nhìn tổng quan về tình hình kinh doanh mà còn giúp phát hiện những thông tin sâu sắc ẩn chứa trong dữ liệu, hỗ trợ quá trình ra quyết định chính xác và nhanh chóng Dưới đây là những điểm nổi bật về tầm quan trọng của trực quan hóa dữ liệu:
- Cung cấp cái nhìn toàn cảnh: Giúp quản lý và nắm bắt thông tin quan trọng một cách nhanh chóng.
- Phát hiện insights sâu sắc: Giúp nhận diện các mẫu, xu hướng và mối quan hệ mà dữ liệu thô không thể hiện rõ.
- Phát hiện sai sót và vấn đề: Nhanh chóng xác định các vấn đề và sai sót trong dữ liệu, tối ưu hóa hiệu suất hoạt động.
- Hỗ trợ tiếp thu dữ liệu trực quan: Biến các bảng số liệu phức tạp thành hình ảnh trực quan, dễ hiểu.
- Phân tích dữ liệu nhanh hơn: Tận dụng các mô hình và thuật toán để khai thác dữ liệu lớn một cách hiệu quả.
- Hiểu hành vi khách hàng: Giúp phân tích và hiểu rõ hơn về hành vi và nhu cầu của khách hàng, từ đó cải thiện chiến lược marketing và phát triển mối quan hệ khách hàng.
- Nghiên cứu thị trường: Xác định xu hướng và nhu cầu của thị trường, hỗ trợ các chiến lược kinh doanh dựa trên dữ liệu lịch sử.
Trực quan hóa dữ liệu giúp doanh nghiệp khai thác tối đa giá trị từ dữ liệu của mình, từ đó tạo ra những quyết định thông minh và chiến lược kinh doanh hiệu quả.
TRỰC QUAN HÓA DỮ LIỆU
Tìm kiếm và chọn lựa dataset
Các tiêu chí chọn dataset
Khi chọn một dataset để phân tích và trực quan hóa dữ liệu, cần xem xét các tiêu chí sau đây:
- Số lượng dòng và cột đủ lớn để phân tích: Dataset cần có đủ số lượng dòng (quan sát) và cột (biến) để đảm bảo rằng các phân tích thực hiện sẽ có ý nghĩa và có thể đưa ra những kết luận đáng tin cậy.
- Độ đa dạng của các biến: Dataset nên chứa các biến đa dạng bao gồm cả biến định tính và định lượng Điều này giúp cho quá trình phân tích và trực quan hóa dữ liệu phong phú hơn.
- Nguồn dữ liệu uy tín: Dataset nên được lấy từ các nguồn uy tín như các trang web học thuật, cơ quan chính phủ, hoặc các nền tảng dữ liệu lớn như Kaggle, để đảm bảo tính chính xác và độ tin cậy của dữ liệu.
- Tính khả dụng và độ tin cậy của dữ liệu: Dataset cần có tính khả dụng cao, tức là dữ liệu phải dễ dàng truy cập và sử dụng Độ tin cậy của dữ liệu cũng rất quan trọng, tức là dữ liệu không có nhiều sai sót, missing values, và phải được thu thập một cách khoa học.
Mô tả nguồn dataset được chọn
Nguồn gốc dataset: Dataset được sử dụng trong báo cáo này được lấy từ Kaggle, một trong những nền tảng dữ liệu lớn và uy tín nhất hiện nay, nơi cung cấp rất nhiều bộ dữ liệu chất lượng cao cho các nhà phân tích dữ liệu và các nhà khoa học dữ liệu.
Lý do chọn dataset này: Dataset đáp ứng đầy đủ các tiêu chí đã nêu trên Cụ thể, dataset có số lượng dòng và cột đủ lớn để thực hiện các phân tích đa dạng Các biến trong dataset bao gồm cả biến định tính và định lượng, tạo điều kiện thuận lợi cho việc phân tích và trực quan hóa dữ liệu Bên cạnh đó, nguồn gốc từ Kaggle đảm bảo tính uy tín và độ tin cậy của dữ liệu, giúp kết quả phân tích và trực quan hóa có giá trị cao.
Đọc dataset vào Rstudio
Để đọc được dataset được chọn, nhóm đã sử dụng các thư viện hỗ trợ đọc dữ liệu sau:
- readr: Thư viện này hỗ trợ đọc các tập tin dữ liệu (như CSV, TSV) một cách nhanh chóng và hiệu quả Hàm read_csv của thư viện này đặc biệt hữu ích để đọc các tập tin CSV.
- dplyr: Thư viện này cung cấp các hàm mạnh mẽ để xử lý và thao tác dữ liệu.
Các hàm của dplyr giúp dễ dàng thực hiện các thao tác như chọn lọc, sắp xếp, tổng hợp và biến đổi dữ liệu.
- ggplot2: Đây là một trong những thư viện phổ biến nhất để trực quan hóa dữ liệu trong R ggplot2 cho phép tạo ra các biểu đồ chất lượng cao với cú pháp đơn giản và linh hoạt.
Hình 2 1 Đoạn mã đọc/load dataset
- Đoạn mã này nhằm đọc dữ liệu từ một tệp CSV và lưu trữ nó trong một biến tên là d.
- Hàm read.csv trong R được sử dụng để đọc dữ liệu từ một tệp CSV Đường dẫn đến tệp CSV cần được chỉ định bên trong dấu ngoặc kép.
- "C:/Users/ADMIN/Downloads/chuyênđề1/ supply_chain_data_with_errors.csv:Đây là đường dẫn tuyệt đối đến tệp CSV trên máy tính của bạn Đường dẫn này chỉ định vị trí cụ thể của tệp supply_chain_data_with_errors.csv trong thư mục chuyende trên màn hình của người dùng win.
Sau khi thực hiện đoạn mã thì ta có thể xem được bảng dữ liệu như sau:
Hình 2 2 Kết quả đọc dataset
Nhìn bảng dữ liệu ta biết được đây là dữ liệu về chuỗi cung ứng của một công ty cung cấp sản phẩm Cụ thể hơn về các thông tin của dữ liệu ở các bước phân tích tiếp theo.
Hiểu rõ các biến trong dataset là một bước quan trọng và không thể thiếu trong quá trình phân tích dữ liệu Đầu tiên, việc nắm vững ý nghĩa của từng biến giúp chúng ta có cái nhìn toàn diện và sâu sắc về bản chất của dữ liệu Đây là nền tảng để xác định chính xác vấn đề cần giải quyết và định hướng cho các phân tích tiếp theo.
Tiếp theo, hiểu rõ các biến cho phép chúng ta thực hiện tiền xử lý dữ liệu một cách hiệu quả Mỗi biến có thể yêu cầu các kỹ thuật xử lý khác nhau, từ việc làm sạch dữ liệu, chuẩn hóa, mã hóa đến loại bỏ những biến không cần thiết Nếu không hiểu rõ các biến, chúng ta có thể gặp phải những sai sót nghiêm trọng, chẳng hạn như bỏ qua những biến quan trọng hoặc sử dụng sai biến.
Trong phân tích thống kê, các biến khác nhau đòi hỏi các phương pháp phân tích khác nhau Việc hiểu rõ bản chất của các biến giúp chọn lựa phương pháp phù hợp, từ đó đưa ra kết quả chính xác hơn Điều này đặc biệt quan trọng khi xây dựng mô hình, vì nó giúp chúng ta chọn lựa mô hình phù hợp và thiết lập các tham số một cách hiệu quả, tránh được các vấn đề như overfitting hoặc underfitting.
Hiểu rõ các biến cũng giúp tối ưu hóa hiệu suất của các mô hình và hệ thống, cải thiện độ chính xác của các dự đoán và quyết định Ngoài ra, việc giải thích kết quả phân tích và mô hình sẽ trở nên dễ dàng và chính xác hơn khi chúng ta hiểu rõ các biến Điều này đặc biệt quan trọng khi trình bày kết quả cho các bên liên quan không có nền tảng kỹ thuật.
Như vậy, việc hiểu rõ các biến trong dataset không chỉ giúp chúng ta thực hiện phân tích dữ liệu một cách chính xác và hiệu quả, mà còn đóng vai trò quan trọng trong việc đưa ra các quyết định dựa trên dữ liệu Đây là bước nền tảng giúp đảm bảo chất lượng và độ tin cậy của toàn bộ quá trình phân tích dữ liệu.
Bảng chi tiết từng biến trong dataset sẽ cung cấp một cái nhìn tổng quan, giúp hiểu rõ ý nghĩa và vai trò của từng biến trong quá trình phân tích dữ liệu.
Bảng 2 1 Giải thích chi tiết từng biến trong dataset
Tên biến Mô tả Ý nghĩa
Product type Loại sản phẩm Phân loại các sản phẩm trong dataset SKU Mã số sản phẩm Định danh duy nhất từng sản phẩm Price Giá của sản phẩm Giá bán của sản phẩm
Availability Tình trạng còn hàng Xác định sản phẩm có còn hàng hay không
Số lượng sản phẩm đã bán Đo lường doanh số bán hàng
Doanh thu từ sản phẩm Tổng doanh thu thu được từ việc bán sản phẩm
Thông tin nhân khẩu học về giới tính của khách hàng Đánh giá các đặc điểm nhân khẩu học của khách hàng, giúp hiểu rõ hơn về các đối tượng khách hàng đang tiếp cận.
Stock levels Mức độ tồn kho Đánh giá lượng hàng tồn kho
Lead times Thời gian từ khi đặt hàng đến khi nhận hàng Đo lường thời gian chờ đợi cho đơn hàng
Số lượng đơn hàng Đo lường số lượng sản phẩm trong mỗi đơn hàng
Shipping times Thời gian vận chuyển Thời gian từ khi sản phẩm được gửi đến khi nhận được
Shipping carriers Đơn vị vận chuyển Đơn vị vận chuyển chịu trách nhiệm giao hàng
Shipping costs Chi phí vận chuyển Chi phí liên quan đến việc vận chuyển sản phẩm Supplier name Tên nhà cung cấp Tên của nhà cung cấp sản phẩm
Location Địa điểm của nhà cung cấp Địa điểm địa lý liên quan đến nhà cung cấp
Lead time Thời gian dẫn Thời gian từ khi đặt hàng đến khi được giao cho khách hàng
Khối lượng sản xuất Số lượng sản phẩm được sản xuất trong một khoảng thời gian nhất định
Thời gian sản xuất Thời gian tính từ lúc khách đặt hàng cho đến lúc hàng hóa đã sẵn sàng để vận chuyển đến tay khách.
Chi phí sản xuất Tổng chi phí sản xuất một sản phẩm
Inspection Kết quả kiểm tra Kết quả của quá trình kiểm tra chất results lượng sản phẩm
Defect rates Tỷ lệ lỗi Tỷ lệ sản phẩm bị lỗi so với tổng số sản phẩm sản xuất
Phương thức vận chuyển Phương tiện hoặc cách thức vận chuyển hàng hóa
Routes Tuyến đường vận chuyển
Tuyến đường cụ thể được sử dụng để vận chuyển hàng hóa
Costs Chi phí tổng thể Tổng chi phí liên quan đến việc sản xuất và vận chuyển sản phẩm
Total cost Chi phí tổng cộng Tổng chi phí bao gồm tất cả các chi phí liên quan đến sản xuất và vận chuyển
Thông Tin Dataset
Hiển thị và hiểu các thông tin cơ bản của dataset là bước đầu tiên và rất quan trọng trong quá trình phân tích dữ liệu Điều này giúp nắm bắt cấu trúc, kiểu dữ liệu, và phân phối của các biến, từ đó xác định các phương pháp xử lý và phân tích phù hợp. Đầu tiên, chúng ta cần quan sát trực tiếp dữ liệu bằng cách hiển thị một số hàng đầu tiên và cuối cùng của dataset Tiếp theo, thông tin tổng quan về dataset sẽ cung cấp cái nhìn toàn diện về số lượng mẫu, số lượng biến, và kiểu dữ liệu của từng biến…
Hiển thị tên các biến của dataset bằng ‘ Colnames (d) ’
Hình 2 3 Đoạn mã hiển thị tên các biến
Kết quả của hàm này là tên của tất cả các cột trong d, giúp bạn dễ dàng quản lý và thao tác dữ liệu.
Hình 2 4 Kết quả hiển thị các biến
Hiển thị 5 hàng đầu tiên bằng ‘ head(d, 5) ’ và 5 hàng cuối cùng bằng ‘ tail(d, 5)’
Hình 2 5 Đoạn mã hiển thị 5 hàng đầu tiên
Hiển thị 5 hàng đầu tiên và 5 hàng cuối cùng của một dataset d giúp kiểm tra nhanh cấu trúc và nội dung dữ liệu, xác minh quá trình tải dữ liệu, hiểu rõ hơn về các biến và kiểu dữ liệu, và phát hiện các vấn đề tiềm ẩn như giá trị bị thiếu hoặc lỗi định dạng.
Hình 2 6 Kết quả hiển thị 5 hàng đầu tiên của dataset
Hình 2 7 Kết quả hiển thị 5 hàng cuối cùng của dataset
Hiển thị thông tin tổng quan ‘ str(d) ’
Hình 2 8 Đoạn mã hiển thị thông tin tổng quan
Hàm str(d) có ý nghĩa là hiển thị cấu trúc của đối tượng dữ liệu d Kết quả của str(d) sẽ cho bạn biết thông tin về các biến trong dataset d, bao gồm tên biến, kiểu dữ liệu của từng biến, và một vài giá trị mẫu đầu tiên.
Hình 2 9 Kết quả hiển thị thông tin tổng quan
Hiển thị các thống kê cơ bản ‘summary(d) ’
Hàm summary(d) có ý nghĩa là cung cấp một tóm tắt thống kê cơ bản về dataset d
Hình 2 10 Đoạn mã hiển thị thống kê cơ bản
Kết quả sẽ hiển thị ra màn hình thông tin thống kê cơ bản về các biến số trong dataset d Kết quả cho biết thông tin tổng quan về các biến số trong dataset, bao gồm các chỉ số như giá trị trung bình, median, min, max và trung vị.
Hình 2 11 Kết quả hiển thị các thống kê cơ bản
Hiển thị kích thước ‘ dim(d) ’
Hàm dim(d) có ý nghĩa là trả về kích thước của đối tượng dữ liệu d, tức là số hàng (số lượng mẫu) và số cột (số biến) trong dataset d
Hình 2 12 Đoạn mã hiển thị kích thước
Kết quả sẽ trả về chứa hai giá trị là số hàng và số cột của dataset
Hình 2 13 Kết quả kết quả dataset
Trong trường hợp này, dataset d có 100 hàng (số lượng mẫu) và 25 cột (biến số).
Kiểm Tra Và Xử Lý Missing Values
Trong một dữ liệu khi gặp vấn đề là missing values thì việc xử lý chúng là hết sức quan trọng Việc xử lý missing values giúp:
- Bảo đảm tính chính xác của dữ liệu: khi một dữ liệu bị missing values sẽ gây ảnh hưởng rất nhiều đến những các phép tính toán thống kê như trung bình, phương sai nếu không được xử lý đúng cách.
- Phòng ngừa sai sót trong phân tích dữ liệu: khi có dữ liệu missing values mà không xử lý, những phân tích dữ liệu sau này có thể đưa ra kết quả sai lệch và khó hiểu Xử lý thiếu sót giúp giảm thiểu sai sót trong quá trình phân tích.
- Giảm thiểu sự chênh lệch trong kết quả: missing values có thể dẫn đến sự chênh lệch trong dữ liệu Xử lý các giá trị thiếu giúp giảm thiểu sự chênh lệch này.
- Cải thiện khả năng diễn dãi và báo cáo: khi dữ liệu được xử lý missing values thì các kết quả và báo cáo có thể dễ dàng hơn để diễn giải và làm rõ.
- Đáp ứng yêu cầu của các thuật toán và công cụ: có nhiều thuật toán và công cụ phân tích dữ liệu yêu cầu dữ liệu đầy đủ để hoạt động Xử lý missing values giúp đảm bảo dữ liệu đáp ứng yêu cầu này.
Việc xử lý missing values rất quan trọng bởi đây không chỉ là bức tiền đề quan trọng trong xử lý dữ liệu mà còn ảnh hưởng trực tiếp đến tính chính xác và hiệu quả của phân tích dữ liệu.
Thông thường có 2 phương pháp để xử lý dữ liệu bị missing value đó chính là:
- Phương pháp 1: Loại bỏ missing values ( sử dụng phương pháp này trong trường hợp missing values đó không quan trọng đối với dữ liệu dataset hoặc là số lượng missing values quá ít - tỉ lệ phần trăm chiếm ở khoảng dưới 3 % đối với tổng số quan sát trong 1 biến nhất định).
- Phương pháp 2: Thay thế missing values bằng một giá trị khác Giá trị Missing values bị thay sẽ dựa vào việc bản chất của missing values trong những trường hợp đó là gì.
+ Với trường hợp biến có missing values là biến categorical thì có thể tiến hành nhóm missing values vào 1 nhóm, đặt tên là Missing
+ Trường hợp có biến missing values là biến số - numeric thì có thể thay thế missing values bằng những giá trị 0, median, mean tùy vào từng trường hợp nhất định.
Code và mô tả: Đoạn code “missing_values