Liệt kê các cộtBài phân tích cda Superstore gồm tất cả 21 cột, trong đó chúng tôi sử dnng 10 cột chính để phân tích, bao gồm các cột: Sale, profit, category, sub-category, city, state, r
Trang 1TRƯỜNG ĐẠI HỌC VĂN LANG KHOA THƯƠNG MẠI – NGÀNH MARKETING
BÁO CÁO CUỐI KÌ
Mã lớp học: 212_DCO0450_03 Môn: Khai Thác Và Phân Tích Dữ Liệu Giảng viên hướng dẫn: Lương Thái Hà Nhóm thực hiện: READY
Trang 2Tên Thành Viên MSSV Đánh Giá
Nguyễễn Hiễếu Đăng 207MA37357 100%
Hồồ Ng c Lan Anhọ 207MA20981 100%
Tr nh Nhiễu L cị ộ 207MA21432 100%
Thái Kim Ng cọ 207MA58062 100%
Nguyễễn Ng c Quỳnh Vyọ 207MA46470 100%
Nguyễễn Huỳnh Th o Trâmả 207MA63639 100%
Nguyễễn Phương Nh Quỳnhư 207TM38297 100%
L c B i Ngânụ ộ 207MA46155 100%
Phan Th Thùy Trangị 207MA63636 100%
Ph m Quỳnh Anhạ 207MA37268 100%
Trang 3Mục Lục
1) Giới thiệu về tập dữ liệu 4
1.1 Dataset này thể hiện dữ liệu của ngành công nghiệp nào? 4
1.2 Giới thiệu sơ lược về ngành công nghiệp đó, ở nơi mà tập dữ liệu này được tạo ra 4
1.3 Cấu trúc dataset này như thế nào? (mấy cột dữ liệu số (numeric), mấy cột dữ liệu chữ (text), mấy cột dữ liệu tọa độ,…) Nếu dataset có da số các cột là dạng số, thì liệt kê những cột có định dạng khác (non-numeric variables) 6
1.4 Có cột nào có chứa missing values không? Nếu có thì bao nhiêu % số dòng thuộc cột đó chứa missing values? 7
1.5 Có xử lý missing values không? Làm cách nào? 7
2) Phân tích dữ liệu 7
2.1 Bao nhiêu cột được sử dụng trong bài phân tích? Liệt kê các cột 7
2.2 Nêu sơ lược các nội dung muốn truyền tải đến người đọc thông qua bài phân tích 7
2.3 Nêu ra các cột/biến (variables) tham gia trong từng mục (theo 2.2) 8
2.4 Nếu mục nào có tạo biến mới thì kê khai biến đó ra Và nếu biến mới được tạo ra bởi hàm/syntax (theo 2.2) thì kê khai hàm /câu lệnh ra, hoặc nêu cách tạo biến mới 8
3) DATA VISUALIZATION 10
3.1 Trình bày các Figures (hình ảnh) ứng với thứ tự đã kê khai trong 2.2 10
3.2 Giải thích insight ứng với các Figures trong 3.1 15
4) Kết luận 18
4.1 Nhận định chung về tình hình kinh doanh của Superstore đã quan sát được từ tập dữ liệu: 18
4.2 Đưa ra suggestions: 18
Trang 41) Giới thiệu về tập dữ liệu
1.1 Dataset này thể hiện dữ liệu của ngành công nghiệp nào?
Dataset thể hiện dữ liệu bán hàng tại Superstore với 3 ngành hàng chính là Furniture ( Đồ nội
thất), Office supplies (Văn phòng phẩm), Technology (Công nghệ) ở khắp các bang tại Hoa Kỳ
1.2 Giới thiệu sơ lược về ngành công nghiệp đó, ở nơi mà tập dữ liệu này được tạo ra
Tham khảo: https://vista.gov.vn/vn-uploads/science-technology-world/2020_06/khcntg2011.pdf
Ngành hàng Technology:
Hoa Kỳ vẫn là cưVng quXc đZng đ[u th\ giới v] khoa học, công nghệ và đ^i mới sáng tạo QuXc
gia này b` cách rất xa các nước còn lại v] chi tiêu cho NC&PT Năm 2007, mZc chi tiêu này cda
Hoa Kỳ là 369 tf USD, so với 338 tf USD cda toàn bộ khu vực châu i, 263 tf USD cda khu vực
EU (27 nước EU) Năm 2008, đ[u tư cho NC&PT trên GDP cda nước này đạt 2,8% và mZc đ[u
tư cho NC&PT theo đ[u ngưVi đạt 1307 USD, mZc cao thZ 4 trong sX các nước OECD Trong
t^ng đ[u tư cho NC&PT năm 2008, thk khu vực chính phd chi\m 27%, còn lại là tl khu vực tư
nhân Chi tiêu cho NC&PT cda doanh nghiệp ở khu vực dmch vn giảm tl 41% năm 2002 xuXng
còn 30% năm 2006 Năm 2008, tf trọng vXn đ[u tư mạo hiểm đạt 0,12% GDP, cao hơn mZc
trung bknh cda OECD
nguồn tham khảo :https://www.statista.com/statistics/305566/us-expenditure-on-furniture/
:
http://nhanhieuviet.gov.vn/vn/tin-tuc-xnk/xuat-khau-cac-mat-hang-noi-that-sang-hoa-ky-chiem-247-55764.phtml
:https://www.statista.com/outlook/cmo/furniture/united-states#global-comparison
Trang 5Mặt hàng nội thất tại Hoa Kỳ phát triển mạnh mẽ trong giai đoạn 2014 - 2017 Nhu c[u v] mặt
hàng đồ nội thất cda Hoa Kỳ có xu hướng tăng trưởng mạnh tl năm 2014 Bởi cùng năm đó, Hoa
Kỳ là đXi tác đZng đ[u v] nhập khẩu mặt hàng nội thất tại Việt Nam NgưVi tiêu dùng Hoa Kỳ có
xu hướng chi tiêu vào mặt hàng nội thất MZc chi tiêu trung bknh cda hộ gia đknh tại Hoa Kỳ cho
đồ nội thất khoảng 386,74 đô la vào năm 2014 và 515,46 đô la vào năm 2017
Trang 6Nội thất trong phòng khách ( gh\, bàn, ) chi\m ph[n lớn doanh thu và nội thất văn phòng có sX
doanh thu thấp nhất trong tất cả các mặt hàng tại Hoa Kỳ
Ngành hàng office supplies như là appliansces, binders, storage nằm trong khoảng top đ[u lượt
mua
1.3 Cấu trúc dataset này như thế nào? (mấy cột dữ liệu số (numeric), mấy cột dữ liệu chữ
(text), mấy cột dữ liệu tọa độ,…) Nếu dataset có da số các cột là dạng số, thì liệt kê những cột
có định dạng khác (non-numeric variables)
Cấu trúc dataset bao gồm: 6 cột dữ liệu sX ( Row ID, Postal code, Sales, Quantity, Discount,
Profit), 9 cột dữ liệu chữ (Ship mode, Customer name, Segment, Country, City, State, Region,
Category, Sub-category) và 6 cột dữ liệu có đmnh dạng khác (Order Date, Ship Date, Order ID,
Customer ID, Product ID, Product Name)
Trang 71.4 Có cột nào có chứa missing values không? Nếu có thì bao nhiêu % số dòng thuộc cột đó
chứa missing values?
Dataset không có cột nào có chZa missing values
1.5 Có xử lý missing values không? Làm cách nào?
Không có xử lý missing values
2) Phân tích dữ liệu
2.1 Bao nhiêu cột được sử dụng trong bài phân tích? Liệt kê các cột
Bài phân tích cda Superstore gồm tất cả 21 cột, trong đó chúng tôi sử dnng 10 cột chính để phân
tích, bao gồm các cột: Sale, profit, category, sub-category, city, state, region, order date, ship
date, ship mode
2.2 Nêu sơ lược các nội dung muốn truyền tải đến người đọc thông qua bài phân tích
Qua bài phân tích v] Superstore, chúng tôi muXn truy]n tải nội dung v] doanh thu và lợi nhuận
cda tlng bang, thành phX, vùng mi]n và các ngành hàng theo tháng và tf suất lợi nhuận theo
tlng năm Bên cạnh đó là x\p hạng mZc độ doanh thu và lợi nhuận để cho thấy được sự tăng
trưởng, suy giảm cda doanh thu và lợi nhuận cda các khu vực và ngành hàng Ngoài ra, khu vực,
ngành hàng nào doanh thu chưa tXt, tl đó đưa ra các phương án, chi\n lược cải thiện phù hợp
cho tlng khu vực và ngành hàng Cùng với đó đưa ra các phương án k\ hoạch duy trk sự phát
triển cda các khu vực ngành hàng đang có hướng phát triển ti]m năng trong tương lai
Bài phân tích nêu lên các nội dung chính như sau: (1) ThXng kê doanh thu và lợi nhuận cda tlng
thành phX; (2) ThXng kê lợi nhuận, doanh thu cda tlng ngành hàng trong tlng khu vực (3) ThXng
kê doanh thu cda Superstore tlng năm theo tháng; (4) Bảng đi]u khiển cho thấy t^ng quan doanh
thu và lợi nhuận cda các mnc (1), (2),
(3) cda Superstore; (5) Đo lưVng doanh thu và lợi nhuận cda tlng mặt hàng theo tháng; (6) Đo
lưVng doanh thu, lợi nhuận trong trong tlng ngành hàng cda các bang; (7) Tf suất lợi nhuận cda
Trang 8tlng năm; (8) So sáng t^ng doanh thu ngành hàng theo tlng khu vực; (9) ThXng kê doanh thu
ngành hàng chi\m bao nhiêu ph[n trăm cda tlng vùng; (10) X\p hạng cấp độ ph[n tr[m tf suất
lợi nhuận cda tlng mặt hàng; (11) X\p hạng mZc độ tăng trưởng doanh thu cda tlng khu vực
theo năm 2017; (12) Tf lệ tknh trạng ship hàng
2.3 Nêu ra các cột/biến (variables) tham gia trong từng mục (theo 2.2)
1 = cột City + cột Profit + cột Sale
2 = cột Category + cột Sub-Category + cột Sale + cột Profit + cột Region
3 = cột Sale + cột Order Date
4 = mnc (1) + mnc (2) + mnc (3)
5 = cột Sale + cột Profit + cột Sub-Category + cột Order Date
6 = cột Sale + cột Profit + cột Category + cột State
7 = cột Sale + cột Profit + cột Profit Ratio + cột Order Date + cột Measure Name
8 = cột Sale + cột Category + cột Region
9 = cột Sale + cột Category + cột Region
10 = cột Progit level + cột Profit Ratio + cột Sub-Category
11 = cột Sale + cột Order Date + cột Region
12 = cột Order (count) + cột Ship Status
2.4 Nếu mục nào có tạo biến mới thì kê khai biến đó ra Và nếu biến mới được tạo ra bởi
hàm/syntax (theo 2.2) thì kê khai hàm /câu lệnh ra, hoặc nêu cách tạo biến mới
Hknh (7) có 2 bi\n mới, một là Profit Ratio (không có trong dataset gXc), hai là Measure Name
(có sẵn trong tableau)
Vậy bi\n mới Profit Ratio được tạo ra bằng hàm:
Profit Ratio = SUM([Profit])/SUM([Sales])
Bi\n mới Measure Name gồm: Profit, Sales
Hknh (10) có 2 bi\n mới, một là Profit level (không có trong dataset gXc), hai là
Profit Ratio (không có trong dataset gXc)
Trang 9Vậy bi\n mới Profit Ratio được tạo ra bằng hàm:
Profit Ratio = SUM([Profit])/SUM([Sales])
Bi\n mới Profit level được tạo bằng hàm:
Profit level = IF [profit Ratio]>0.3 THEN "Hight profit"
ELSEIF [profit Ratio]>=0.15 THEN "Meidum profit"
ELSEIF [profit Ratio] >=0 THEN "Low profit"
ELSE "Lost profit"
END
Hknh (11) có 2 bi\n mới, một là bi\n Order (count) (có sẵn trong tableua), hai là bi\n Ship Status
(không có trong dataset gXc)
Vậy bi\n mới Order (count) gồm: t^ng sX Order trong file excel
Bi\n mới Ship Status được tạo bằng hàm:
1 Days to ship schedules = CASE [Ship Mode]
WHEN "Same Day" THEN 0 WHEN "First Class" THEN 1 WHEN "Second Class" THEN 3 WHEN "Standard Class" THEN 6 END
1 Day to ship Actual = DATEDIFF('day',[Order Date],[Ship Date])
Tl (1) và (2), bi\n mới Ship Status được tạo bằng hàm:
Ship Status = IF [Day to ship Actual] > [Days to ship schedules] then "Shipped late"
ELSEIF [Day to ship Actual]= [Days to ship schedules]then "Shipped on time"
ELSE "Shipped Early"
END
Trang 103) DATA VISUALIZATION
3.1 Trình bày các Figures (hình ảnh) ứng với thứ tự đã kê khai trong 2.2
1 ThXng kê doanh thu, lợi nhuận theo cda tlng thành phX
2 ThXng kê doanh thu, lợi nhuận cda tlng ngành hàng theo khu vực( Central, East, West,
South)
Trang 113 ThXng kê doanh thu theo tlng năm cda doanh nghiệp theo tháng tl 2014 đ\n 2017
4 Bảng Dashboard thXng kê doanh thu, lợi nhuận cda doanh nghiệp
Trang 125 Bảng thXng kê đo lưVng doanh thu, lợi nhuận cda tlng ngành hàng theo tháng
6 Biểu đồ thXng kê doanh thu những ngành hàng cda các bang
Trang 137 Biểu đồ thXng kê tf suất lợi nhuận theo tlng năm tl 2014 đ\n 2017
8 Biểu đồ so sánh t^ng doanh thu tlng ngành hàng theo vùng mi]n
Trang 149 Biểu đồ ph[n trăm doanh thu theo vùng
10 Biểu đồ tf lệ cda doanh thu và ngành hàng theo tlng vùng
Trang 1511 Biểu đồ cột ph[n trăm lợi nhuận cda tất cả mặt hàng
12 tf lệ tknh trạng ship hàng cda tất cả order cda doanh nghiệp
3.2 Giải thích insight ứng với các Figures trong 3.1
1 Thống kê doanh thu, lợi nhuận theo từng thành phố của từng bang
Doanh thu thể hiện qua size cda các chấm tròn qua đó có thể thấy có 4 bang có doanh thu cao n^i bật là pennsyIvania, đZng thZ hai là california, washington và cuXi cùng là lllinois V] lợi nhuận dựa theo màu sắc đậm nhạt, có màu vàng là lợi nhuận âm vậy có thể thấy pennsyIvania có lợi nhuận cao nhất, IIIinois tuy có cao v] doanh thu nhưng lợi nhuận là âm
2 Thống kê doanh thu, lợi nhuận của từng ngành hàng và vùng miền ( Central, East,
West, South)
Theo biểu đồ thXng kê doanh thu, lợi nhuận tlng ngành theo 4 vùng mi]n thk ta thấy phía Đông và phía Tây có doanh thu và lợi nhuận cao đXi với 3 ngành hàng hơn 2 vùng phía Nam và Trung Tâm, trong đó đồ nội thất và công nghệ chi\m tỉ lệ cao hơn so với văn
Trang 16phòng phẩm, như vậy ta có thể tập trung nguồn nhân lực phát triển hơn vào 2 khu vực phía đông và phía tây với ngành hàng đồ nội thất và công nghệ
3 Thống kê doanh thu theo từng năm của doanh nghiệp từ 2014 đến 2017
Doanh thu cda các năm 2014,2015,2016 không có ti\n triển mấy phát triển chậm, đ\n tháng 8 năm 2017 có đà tăng trưởng d[n lên nhưng vẫn chưa phát triển nhi]u
4 Bảng Dashboard thống kê doanh thu, lợi nhuận của doanh nghiệp
Bảng Dashboard t^ng hợp tóm tắt thông tin và trknh bày một cái nhkn dễ hiểu v] hiệu suất kinh doanh để giúp doanh nghiệp thuận tiện cho việc lên k\ hoạch cho hướng ti\p theo, cải thiện năng suất cda doanh nghiệp
5 Bảng thống kê đo lường doanh thu, lợi nhuận của từng ngành hàng theo tháng
Doanh thu thể hiện qua size cda các chấm tròn qua đó có thể thấy tháng 9,10,11,12 các mặt hàng như đồ phn tùng, bàn, gh\, điện thoại có doanh thu cao hơn các tháng còn lại
V] lợi nhuận dựa theo màu sắc đậm nhạt, có màu vàng là lợi nhuận âm vậy có thể thấy gh\ và điện thoại có lợi nhuận cao nhất nằm ở tháng 11,12 và bàn có lợi nhuận âm cả năm
6 Biểu đồ thống kê doanh thu những ngành hàng của các bang
Các ngành hàng thể hiện qua 3 màu xanh, đ`, cam qua đó có thể thấy doanh thu ngành hàng ở các bang khá đồng đ]u không có sự chênh lệch lớn, ngọai trl North Dakota chỉ bán ngành hàng văn phòng phẩm, Wyoming bán đồ nội thất nên biểu đồ chỉ thể hiện doanh thu cda một ngành hàng Lợi nhuận cda biểu đồ thể hiện qua hai màu hồng và xám, hồng chỉ mZc lợi nhuận âm và mZc độ tl nhẹ đ\n đậm cda màu xám sẽ chỉ lợi nhuận tl thấp đ\n cao, qua đó ta thấy ph[n lớn các Bang ở phía Nam và Trung Tâm các ngành hành có lợi nhuận nằm ở mZc âm
7 Biểu đồ thống kê tỷ suất lợi nhuận theo từng năm từ 2014 đến 2017
biểu đồ cho thấy tf suất lợi nhuận đang có đà tăng trưởng tl năm 2014, đặt biệt tăng trưởng mạnh vào những tháng 11 trong năm chZng t` khách hàng đặc biệt chi nhi]u ti]n
Trang 17vào chi tiêu hơn vào tháng 11 có những ngày lễ quan trong như lễ phnc sinh, lễ tạ ơn và
lễ giáng sinh
8 Biểu đồ so sánh tổng doanh thu từng ngành hàng theo vùng miền
Biểu đồ cho thấy mặt hàng công nghệ là mặt hàng được ưa chuộng hơn 2 ngành hàng còn lại là văn phòng phẩm và đồ nội thất và đặc biệt được tiêu thn nhi]u ở 2 vùng đông và tây
9 Biểu đồ phần trăm doanh thu theo vùng
biểu đồ cho thấy 2 vùng đông và tây có 1 lượng khách hàng dồi dào đ\n tl những thành phX lớn và đông đúc như New York và Los Angeles những khách hàng ở 2 vùng này có mZc tiêu thn nhi]u hơn và sẵn sàng trả nhi]u hơn cho những ngành hàng cda doanh nghiệp
10 Biểu đồ tỷ lệ của doanh thu và ngành hàng theo từng vùng
ngành hàng mang lại nhi]u doanh thu nhất là Công nghệ và đồ nội thất, sau đó mới đ\n văn phòng phẩm cho thấy khách hàng có hZng thú nhi]u hơn với những mặt hàng thuộc ngành công nghệ mà doanh nghiệp đang bán
11 Biểu đồ cột phần trăm lợi nhuận của tất cả mặt hàng
cột x\p hạng cho thấy dù là ngành hàng được ưa chuộng nhưng những sản phẩm thuộc ngành hàng văn phòng phẩm mới là những mặt hàng mang lại ph[n trăm lợi nhuận cao
và vla, những sản phẩm công nghệ do mất nhi]u chi phí để nhập hàng và bảo quản nên
tf lệ ph[n trăm lợi nhuận chỉ nằm ở mZc thấp Đặc biệt do khách hàng không có nhu c[u thay đ^i đồ gia dnng liên tnc nên những sản phẩm như bàn gh\ đã khi\n doanh nghiệp chmu lỗ
12 Tỷ lệ tình trạng ship hàng của tất cả order của doanh nghiệp
tknh trạng vận chuyển hàng cda doanh nghiệp có ½ là đơn sẽ đ\n sớm hơn dự đoán, ¼ đ\n đúng ngày đây là 1 dấu hiệu tXt, cơ quan vận chuyển làm việc có hiệu quả nhưng vẫn còn đ\n ¼ các đơn hàng bm giao chậm, tZc là cơ quan vận chuyển vẫn còn sai sót và doanh nghiệp c[n có k\ hoạch để khi\n cho con sX giao hàng trễ giảm đi
Trang 184) Kết luận
4.1 Nhận định chung về tình hình kinh doanh của Superstore đã quan sát được từ tập dữ
liệu:
Nhkn chung tl tập dữ liệu ta thấy được doanh thu cda Superstore đạt cao nhất vào năm 2017
(tính tl 2014 đ\n 2017) Bên cạnh đó, lợi nhuận cda các mặt hàng tables, bookcase, supplies
giảm so với các mặt hàng khác, và bang IIIinois tuy có doanh thu tương đXi cao nhưng lợi nhuận
là âm Ngoài ra, tknh trạng ship hàng còn chậm trễ Mặc dù có một sX sự suy giảm nhưng cũng có
những sự phát triển nhất đmnh như doanh thu cda Superstore ở ngành hàng Technology được bán
cao nhất, chd y\u được tiêu thn ở khu vực phía Tây Song, mặt hàng mang lại doanh thu và lợi
nhuận nhi]u nhất là phones và chairs, hai mặt hàng này được bán nhi]u nhất vào cuXi năm Đây
là một điểm mạnh và thành công để Superstore ti\p tnc duy trk và phát triển cắc mặt hàng này
trong tương lai (tháng 9, 11 và 12)
4.2 Đưa ra suggestions:
Tl những tknh hknh kinh doang sau khi quan sát tl tập dữ liệu, chúng tôi đưa ra một sX giải pháp
như sau:
Đ[u tiên là xem xét, kiểm tra và giảm sát chi phí đ[u ra và đ[u vào cda cửa hàng tại bang IIIinois
để đưa ra chi phí, ngân sách phù hợp với cửa hàng, giảm thiểu các vấn để phát sinh hay chi phí
sửa chữa nhằm cải thiện hoạt động kinh doanh tại bang Illinois để có thể vla đạt doanh thu cao
nhưng vẫn nhận v] lợi nhuận dương Ti\p đ\n, tập trung nguồn nhân lực và mở rộng thm ph[n
vào 2 khu vực phía đông và phía tây với ngành hàng đồ nội thất và công nghệ để có thể phát
triển và đạt doanh thu cao hơn trong tương lai Bên cạnh đó là tăng cưVng các mặt hàng v] đồ
phn tùng, gia dnng, gh\ và điện thoại để đáp Zng nhu c[u vào các tháng cuXi năm nhằm ti\p tnc
tăng doanh thu Đặc biệt là tháng 11 và 12, khách hàng sẽ chi nhi]u ti]n hơn khi có nhi]u ngày lễ
lớn Ngoài ra, tập trung các mặt hàng công nghệ vào vùng phía Đông và tây Với việc 2 vùng này
cũng là những vùng có lượng ngưVi tiêu dùng cao do có 2 thành phX lớn ở mỗi phía, New York ở
phía Đông và Los Angeles ở phía Tây và đặc biệt khách hàng rất ưa chuộng mặt hàng công nghệ
cao mà doanh nghiệp đang bán Song, đi kèm với đó là vẫn tập trung các mặt hàng văn phòng
phẩm do có chi phí nhập hàng và bảo quản thấp, rất phù hợp để doanh nghiệp ti\p tnc duy trk và
phát triển CuXi cùng là cải thiện hơn v] vấn đ] giao hàng, mặc dù việc giao hàng vẫn đạt tỉ lệ