1. Trang chủ
  2. » Luận Văn - Báo Cáo

khai thác và phân tích dữ liệu

19 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 2,79 MB

Nội dung

Liệt kê các cộtBài phân tích cda Superstore gồm tất cả 21 cột, trong đó chúng tôi sử dnng 10 cột chính để phân tích, bao gồm các cột: Sale, profit, category, sub-category, city, state, r

Trang 1

TRƯỜNG ĐẠI HỌC VĂN LANG KHOA THƯƠNG MẠI – NGÀNH MARKETING

BÁO CÁO CUỐI KÌ

Mã lớp học: 212_DCO0450_03 Môn: Khai Thác Và Phân Tích Dữ Liệu Giảng viên hướng dẫn: Lương Thái Hà Nhóm thực hiện: READY

Trang 2

Tên Thành Viên MSSV Đánh Giá

Nguyễễn Hiễếu Đăng 207MA37357 100%

Hồồ Ng c Lan Anhọ 207MA20981 100%

Tr nh Nhiễu L cị ộ 207MA21432 100%

Thái Kim Ng cọ 207MA58062 100%

Nguyễễn Ng c Quỳnh Vyọ 207MA46470 100%

Nguyễễn Huỳnh Th o Trâmả 207MA63639 100%

Nguyễễn Phương Nh Quỳnhư 207TM38297 100%

L c B i Ngânụ ộ 207MA46155 100%

Phan Th Thùy Trangị 207MA63636 100%

Ph m Quỳnh Anhạ 207MA37268 100%

Trang 3

Mục Lục

1) Giới thiệu về tập dữ liệu 4

1.1 Dataset này thể hiện dữ liệu của ngành công nghiệp nào? 4

1.2 Giới thiệu sơ lược về ngành công nghiệp đó, ở nơi mà tập dữ liệu này được tạo ra 4

1.3 Cấu trúc dataset này như thế nào? (mấy cột dữ liệu số (numeric), mấy cột dữ liệu chữ (text), mấy cột dữ liệu tọa độ,…) Nếu dataset có da số các cột là dạng số, thì liệt kê những cột có định dạng khác (non-numeric variables) 6

1.4 Có cột nào có chứa missing values không? Nếu có thì bao nhiêu % số dòng thuộc cột đó chứa missing values? 7

1.5 Có xử lý missing values không? Làm cách nào? 7

2) Phân tích dữ liệu 7

2.1 Bao nhiêu cột được sử dụng trong bài phân tích? Liệt kê các cột 7

2.2 Nêu sơ lược các nội dung muốn truyền tải đến người đọc thông qua bài phân tích 7

2.3 Nêu ra các cột/biến (variables) tham gia trong từng mục (theo 2.2) 8

2.4 Nếu mục nào có tạo biến mới thì kê khai biến đó ra Và nếu biến mới được tạo ra bởi hàm/syntax (theo 2.2) thì kê khai hàm /câu lệnh ra, hoặc nêu cách tạo biến mới 8

3) DATA VISUALIZATION 10

3.1 Trình bày các Figures (hình ảnh) ứng với thứ tự đã kê khai trong 2.2 10

3.2 Giải thích insight ứng với các Figures trong 3.1 15

4) Kết luận 18

4.1 Nhận định chung về tình hình kinh doanh của Superstore đã quan sát được từ tập dữ liệu: 18

4.2 Đưa ra suggestions: 18

Trang 4

1) Giới thiệu về tập dữ liệu

1.1 Dataset này thể hiện dữ liệu của ngành công nghiệp nào?

Dataset thể hiện dữ liệu bán hàng tại Superstore với 3 ngành hàng chính là Furniture ( Đồ nội

thất), Office supplies (Văn phòng phẩm), Technology (Công nghệ) ở khắp các bang tại Hoa Kỳ

1.2 Giới thiệu sơ lược về ngành công nghiệp đó, ở nơi mà tập dữ liệu này được tạo ra

Tham khảo: https://vista.gov.vn/vn-uploads/science-technology-world/2020_06/khcntg2011.pdf

Ngành hàng Technology:

Hoa Kỳ vẫn là cưVng quXc đZng đ[u th\ giới v] khoa học, công nghệ và đ^i mới sáng tạo QuXc

gia này b` cách rất xa các nước còn lại v] chi tiêu cho NC&PT Năm 2007, mZc chi tiêu này cda

Hoa Kỳ là 369 tf USD, so với 338 tf USD cda toàn bộ khu vực châu i, 263 tf USD cda khu vực

EU (27 nước EU) Năm 2008, đ[u tư cho NC&PT trên GDP cda nước này đạt 2,8% và mZc đ[u

tư cho NC&PT theo đ[u ngưVi đạt 1307 USD, mZc cao thZ 4 trong sX các nước OECD Trong

t^ng đ[u tư cho NC&PT năm 2008, thk khu vực chính phd chi\m 27%, còn lại là tl khu vực tư

nhân Chi tiêu cho NC&PT cda doanh nghiệp ở khu vực dmch vn giảm tl 41% năm 2002 xuXng

còn 30% năm 2006 Năm 2008, tf trọng vXn đ[u tư mạo hiểm đạt 0,12% GDP, cao hơn mZc

trung bknh cda OECD

nguồn tham khảo :https://www.statista.com/statistics/305566/us-expenditure-on-furniture/

:

http://nhanhieuviet.gov.vn/vn/tin-tuc-xnk/xuat-khau-cac-mat-hang-noi-that-sang-hoa-ky-chiem-247-55764.phtml

:https://www.statista.com/outlook/cmo/furniture/united-states#global-comparison

Trang 5

Mặt hàng nội thất tại Hoa Kỳ phát triển mạnh mẽ trong giai đoạn 2014 - 2017 Nhu c[u v] mặt

hàng đồ nội thất cda Hoa Kỳ có xu hướng tăng trưởng mạnh tl năm 2014 Bởi cùng năm đó, Hoa

Kỳ là đXi tác đZng đ[u v] nhập khẩu mặt hàng nội thất tại Việt Nam NgưVi tiêu dùng Hoa Kỳ có

xu hướng chi tiêu vào mặt hàng nội thất MZc chi tiêu trung bknh cda hộ gia đknh tại Hoa Kỳ cho

đồ nội thất khoảng 386,74 đô la vào năm 2014 và 515,46 đô la vào năm 2017

Trang 6

Nội thất trong phòng khách ( gh\, bàn, ) chi\m ph[n lớn doanh thu và nội thất văn phòng có sX

doanh thu thấp nhất trong tất cả các mặt hàng tại Hoa Kỳ

Ngành hàng office supplies như là appliansces, binders, storage nằm trong khoảng top đ[u lượt

mua

1.3 Cấu trúc dataset này như thế nào? (mấy cột dữ liệu số (numeric), mấy cột dữ liệu chữ

(text), mấy cột dữ liệu tọa độ,…) Nếu dataset có da số các cột là dạng số, thì liệt kê những cột

có định dạng khác (non-numeric variables)

Cấu trúc dataset bao gồm: 6 cột dữ liệu sX ( Row ID, Postal code, Sales, Quantity, Discount,

Profit), 9 cột dữ liệu chữ (Ship mode, Customer name, Segment, Country, City, State, Region,

Category, Sub-category) và 6 cột dữ liệu có đmnh dạng khác (Order Date, Ship Date, Order ID,

Customer ID, Product ID, Product Name)

Trang 7

1.4 Có cột nào có chứa missing values không? Nếu có thì bao nhiêu % số dòng thuộc cột đó

chứa missing values?

Dataset không có cột nào có chZa missing values

1.5 Có xử lý missing values không? Làm cách nào?

Không có xử lý missing values

2) Phân tích dữ liệu

2.1 Bao nhiêu cột được sử dụng trong bài phân tích? Liệt kê các cột

Bài phân tích cda Superstore gồm tất cả 21 cột, trong đó chúng tôi sử dnng 10 cột chính để phân

tích, bao gồm các cột: Sale, profit, category, sub-category, city, state, region, order date, ship

date, ship mode

2.2 Nêu sơ lược các nội dung muốn truyền tải đến người đọc thông qua bài phân tích

Qua bài phân tích v] Superstore, chúng tôi muXn truy]n tải nội dung v] doanh thu và lợi nhuận

cda tlng bang, thành phX, vùng mi]n và các ngành hàng theo tháng và tf suất lợi nhuận theo

tlng năm Bên cạnh đó là x\p hạng mZc độ doanh thu và lợi nhuận để cho thấy được sự tăng

trưởng, suy giảm cda doanh thu và lợi nhuận cda các khu vực và ngành hàng Ngoài ra, khu vực,

ngành hàng nào doanh thu chưa tXt, tl đó đưa ra các phương án, chi\n lược cải thiện phù hợp

cho tlng khu vực và ngành hàng Cùng với đó đưa ra các phương án k\ hoạch duy trk sự phát

triển cda các khu vực ngành hàng đang có hướng phát triển ti]m năng trong tương lai

Bài phân tích nêu lên các nội dung chính như sau: (1) ThXng kê doanh thu và lợi nhuận cda tlng

thành phX; (2) ThXng kê lợi nhuận, doanh thu cda tlng ngành hàng trong tlng khu vực (3) ThXng

kê doanh thu cda Superstore tlng năm theo tháng; (4) Bảng đi]u khiển cho thấy t^ng quan doanh

thu và lợi nhuận cda các mnc (1), (2),

(3) cda Superstore; (5) Đo lưVng doanh thu và lợi nhuận cda tlng mặt hàng theo tháng; (6) Đo

lưVng doanh thu, lợi nhuận trong trong tlng ngành hàng cda các bang; (7) Tf suất lợi nhuận cda

Trang 8

tlng năm; (8) So sáng t^ng doanh thu ngành hàng theo tlng khu vực; (9) ThXng kê doanh thu

ngành hàng chi\m bao nhiêu ph[n trăm cda tlng vùng; (10) X\p hạng cấp độ ph[n tr[m tf suất

lợi nhuận cda tlng mặt hàng; (11) X\p hạng mZc độ tăng trưởng doanh thu cda tlng khu vực

theo năm 2017; (12) Tf lệ tknh trạng ship hàng

2.3 Nêu ra các cột/biến (variables) tham gia trong từng mục (theo 2.2)

1 = cột City + cột Profit + cột Sale

2 = cột Category + cột Sub-Category + cột Sale + cột Profit + cột Region

3 = cột Sale + cột Order Date

4 = mnc (1) + mnc (2) + mnc (3)

5 = cột Sale + cột Profit + cột Sub-Category + cột Order Date

6 = cột Sale + cột Profit + cột Category + cột State

7 = cột Sale + cột Profit + cột Profit Ratio + cột Order Date + cột Measure Name

8 = cột Sale + cột Category + cột Region

9 = cột Sale + cột Category + cột Region

10 = cột Progit level + cột Profit Ratio + cột Sub-Category

11 = cột Sale + cột Order Date + cột Region

12 = cột Order (count) + cột Ship Status

2.4 Nếu mục nào có tạo biến mới thì kê khai biến đó ra Và nếu biến mới được tạo ra bởi

hàm/syntax (theo 2.2) thì kê khai hàm /câu lệnh ra, hoặc nêu cách tạo biến mới

Hknh (7) có 2 bi\n mới, một là Profit Ratio (không có trong dataset gXc), hai là Measure Name

(có sẵn trong tableau)

Vậy bi\n mới Profit Ratio được tạo ra bằng hàm:

Profit Ratio = SUM([Profit])/SUM([Sales])

Bi\n mới Measure Name gồm: Profit, Sales

Hknh (10) có 2 bi\n mới, một là Profit level (không có trong dataset gXc), hai là

Profit Ratio (không có trong dataset gXc)

Trang 9

Vậy bi\n mới Profit Ratio được tạo ra bằng hàm:

Profit Ratio = SUM([Profit])/SUM([Sales])

Bi\n mới Profit level được tạo bằng hàm:

Profit level = IF [profit Ratio]>0.3 THEN "Hight profit"

ELSEIF [profit Ratio]>=0.15 THEN "Meidum profit"

ELSEIF [profit Ratio] >=0 THEN "Low profit"

ELSE "Lost profit"

END

Hknh (11) có 2 bi\n mới, một là bi\n Order (count) (có sẵn trong tableua), hai là bi\n Ship Status

(không có trong dataset gXc)

Vậy bi\n mới Order (count) gồm: t^ng sX Order trong file excel

Bi\n mới Ship Status được tạo bằng hàm:

1 Days to ship schedules = CASE [Ship Mode]

WHEN "Same Day" THEN 0 WHEN "First Class" THEN 1 WHEN "Second Class" THEN 3 WHEN "Standard Class" THEN 6 END

1 Day to ship Actual = DATEDIFF('day',[Order Date],[Ship Date])

Tl (1) và (2), bi\n mới Ship Status được tạo bằng hàm:

Ship Status = IF [Day to ship Actual] > [Days to ship schedules] then "Shipped late"

ELSEIF [Day to ship Actual]= [Days to ship schedules]then "Shipped on time"

ELSE "Shipped Early"

END

Trang 10

3) DATA VISUALIZATION

3.1 Trình bày các Figures (hình ảnh) ứng với thứ tự đã kê khai trong 2.2

1 ThXng kê doanh thu, lợi nhuận theo cda tlng thành phX

2 ThXng kê doanh thu, lợi nhuận cda tlng ngành hàng theo khu vực( Central, East, West,

South)

Trang 11

3 ThXng kê doanh thu theo tlng năm cda doanh nghiệp theo tháng tl 2014 đ\n 2017

4 Bảng Dashboard thXng kê doanh thu, lợi nhuận cda doanh nghiệp

Trang 12

5 Bảng thXng kê đo lưVng doanh thu, lợi nhuận cda tlng ngành hàng theo tháng

6 Biểu đồ thXng kê doanh thu những ngành hàng cda các bang

Trang 13

7 Biểu đồ thXng kê tf suất lợi nhuận theo tlng năm tl 2014 đ\n 2017

8 Biểu đồ so sánh t^ng doanh thu tlng ngành hàng theo vùng mi]n

Trang 14

9 Biểu đồ ph[n trăm doanh thu theo vùng

10 Biểu đồ tf lệ cda doanh thu và ngành hàng theo tlng vùng

Trang 15

11 Biểu đồ cột ph[n trăm lợi nhuận cda tất cả mặt hàng

12 tf lệ tknh trạng ship hàng cda tất cả order cda doanh nghiệp

3.2 Giải thích insight ứng với các Figures trong 3.1

1 Thống kê doanh thu, lợi nhuận theo từng thành phố của từng bang

Doanh thu thể hiện qua size cda các chấm tròn qua đó có thể thấy có 4 bang có doanh thu cao n^i bật là pennsyIvania, đZng thZ hai là california, washington và cuXi cùng là lllinois V] lợi nhuận dựa theo màu sắc đậm nhạt, có màu vàng là lợi nhuận âm vậy có thể thấy pennsyIvania có lợi nhuận cao nhất, IIIinois tuy có cao v] doanh thu nhưng lợi nhuận là âm

2 Thống kê doanh thu, lợi nhuận của từng ngành hàng và vùng miền ( Central, East,

West, South)

Theo biểu đồ thXng kê doanh thu, lợi nhuận tlng ngành theo 4 vùng mi]n thk ta thấy phía Đông và phía Tây có doanh thu và lợi nhuận cao đXi với 3 ngành hàng hơn 2 vùng phía Nam và Trung Tâm, trong đó đồ nội thất và công nghệ chi\m tỉ lệ cao hơn so với văn

Trang 16

phòng phẩm, như vậy ta có thể tập trung nguồn nhân lực phát triển hơn vào 2 khu vực phía đông và phía tây với ngành hàng đồ nội thất và công nghệ

3 Thống kê doanh thu theo từng năm của doanh nghiệp từ 2014 đến 2017

Doanh thu cda các năm 2014,2015,2016 không có ti\n triển mấy phát triển chậm, đ\n tháng 8 năm 2017 có đà tăng trưởng d[n lên nhưng vẫn chưa phát triển nhi]u

4 Bảng Dashboard thống kê doanh thu, lợi nhuận của doanh nghiệp

Bảng Dashboard t^ng hợp tóm tắt thông tin và trknh bày một cái nhkn dễ hiểu v] hiệu suất kinh doanh để giúp doanh nghiệp thuận tiện cho việc lên k\ hoạch cho hướng ti\p theo, cải thiện năng suất cda doanh nghiệp

5 Bảng thống kê đo lường doanh thu, lợi nhuận của từng ngành hàng theo tháng

Doanh thu thể hiện qua size cda các chấm tròn qua đó có thể thấy tháng 9,10,11,12 các mặt hàng như đồ phn tùng, bàn, gh\, điện thoại có doanh thu cao hơn các tháng còn lại

V] lợi nhuận dựa theo màu sắc đậm nhạt, có màu vàng là lợi nhuận âm vậy có thể thấy gh\ và điện thoại có lợi nhuận cao nhất nằm ở tháng 11,12 và bàn có lợi nhuận âm cả năm

6 Biểu đồ thống kê doanh thu những ngành hàng của các bang

Các ngành hàng thể hiện qua 3 màu xanh, đ`, cam qua đó có thể thấy doanh thu ngành hàng ở các bang khá đồng đ]u không có sự chênh lệch lớn, ngọai trl North Dakota chỉ bán ngành hàng văn phòng phẩm, Wyoming bán đồ nội thất nên biểu đồ chỉ thể hiện doanh thu cda một ngành hàng Lợi nhuận cda biểu đồ thể hiện qua hai màu hồng và xám, hồng chỉ mZc lợi nhuận âm và mZc độ tl nhẹ đ\n đậm cda màu xám sẽ chỉ lợi nhuận tl thấp đ\n cao, qua đó ta thấy ph[n lớn các Bang ở phía Nam và Trung Tâm các ngành hành có lợi nhuận nằm ở mZc âm

7 Biểu đồ thống kê tỷ suất lợi nhuận theo từng năm từ 2014 đến 2017

biểu đồ cho thấy tf suất lợi nhuận đang có đà tăng trưởng tl năm 2014, đặt biệt tăng trưởng mạnh vào những tháng 11 trong năm chZng t` khách hàng đặc biệt chi nhi]u ti]n

Trang 17

vào chi tiêu hơn vào tháng 11 có những ngày lễ quan trong như lễ phnc sinh, lễ tạ ơn và

lễ giáng sinh

8 Biểu đồ so sánh tổng doanh thu từng ngành hàng theo vùng miền

Biểu đồ cho thấy mặt hàng công nghệ là mặt hàng được ưa chuộng hơn 2 ngành hàng còn lại là văn phòng phẩm và đồ nội thất và đặc biệt được tiêu thn nhi]u ở 2 vùng đông và tây

9 Biểu đồ phần trăm doanh thu theo vùng

biểu đồ cho thấy 2 vùng đông và tây có 1 lượng khách hàng dồi dào đ\n tl những thành phX lớn và đông đúc như New York và Los Angeles những khách hàng ở 2 vùng này có mZc tiêu thn nhi]u hơn và sẵn sàng trả nhi]u hơn cho những ngành hàng cda doanh nghiệp

10 Biểu đồ tỷ lệ của doanh thu và ngành hàng theo từng vùng

ngành hàng mang lại nhi]u doanh thu nhất là Công nghệ và đồ nội thất, sau đó mới đ\n văn phòng phẩm cho thấy khách hàng có hZng thú nhi]u hơn với những mặt hàng thuộc ngành công nghệ mà doanh nghiệp đang bán

11 Biểu đồ cột phần trăm lợi nhuận của tất cả mặt hàng

cột x\p hạng cho thấy dù là ngành hàng được ưa chuộng nhưng những sản phẩm thuộc ngành hàng văn phòng phẩm mới là những mặt hàng mang lại ph[n trăm lợi nhuận cao

và vla, những sản phẩm công nghệ do mất nhi]u chi phí để nhập hàng và bảo quản nên

tf lệ ph[n trăm lợi nhuận chỉ nằm ở mZc thấp Đặc biệt do khách hàng không có nhu c[u thay đ^i đồ gia dnng liên tnc nên những sản phẩm như bàn gh\ đã khi\n doanh nghiệp chmu lỗ

12 Tỷ lệ tình trạng ship hàng của tất cả order của doanh nghiệp

tknh trạng vận chuyển hàng cda doanh nghiệp có ½ là đơn sẽ đ\n sớm hơn dự đoán, ¼ đ\n đúng ngày đây là 1 dấu hiệu tXt, cơ quan vận chuyển làm việc có hiệu quả nhưng vẫn còn đ\n ¼ các đơn hàng bm giao chậm, tZc là cơ quan vận chuyển vẫn còn sai sót và doanh nghiệp c[n có k\ hoạch để khi\n cho con sX giao hàng trễ giảm đi

Trang 18

4) Kết luận

4.1 Nhận định chung về tình hình kinh doanh của Superstore đã quan sát được từ tập dữ

liệu:

Nhkn chung tl tập dữ liệu ta thấy được doanh thu cda Superstore đạt cao nhất vào năm 2017

(tính tl 2014 đ\n 2017) Bên cạnh đó, lợi nhuận cda các mặt hàng tables, bookcase, supplies

giảm so với các mặt hàng khác, và bang IIIinois tuy có doanh thu tương đXi cao nhưng lợi nhuận

là âm Ngoài ra, tknh trạng ship hàng còn chậm trễ Mặc dù có một sX sự suy giảm nhưng cũng có

những sự phát triển nhất đmnh như doanh thu cda Superstore ở ngành hàng Technology được bán

cao nhất, chd y\u được tiêu thn ở khu vực phía Tây Song, mặt hàng mang lại doanh thu và lợi

nhuận nhi]u nhất là phones và chairs, hai mặt hàng này được bán nhi]u nhất vào cuXi năm Đây

là một điểm mạnh và thành công để Superstore ti\p tnc duy trk và phát triển cắc mặt hàng này

trong tương lai (tháng 9, 11 và 12)

4.2 Đưa ra suggestions:

Tl những tknh hknh kinh doang sau khi quan sát tl tập dữ liệu, chúng tôi đưa ra một sX giải pháp

như sau:

Đ[u tiên là xem xét, kiểm tra và giảm sát chi phí đ[u ra và đ[u vào cda cửa hàng tại bang IIIinois

để đưa ra chi phí, ngân sách phù hợp với cửa hàng, giảm thiểu các vấn để phát sinh hay chi phí

sửa chữa nhằm cải thiện hoạt động kinh doanh tại bang Illinois để có thể vla đạt doanh thu cao

nhưng vẫn nhận v] lợi nhuận dương Ti\p đ\n, tập trung nguồn nhân lực và mở rộng thm ph[n

vào 2 khu vực phía đông và phía tây với ngành hàng đồ nội thất và công nghệ để có thể phát

triển và đạt doanh thu cao hơn trong tương lai Bên cạnh đó là tăng cưVng các mặt hàng v] đồ

phn tùng, gia dnng, gh\ và điện thoại để đáp Zng nhu c[u vào các tháng cuXi năm nhằm ti\p tnc

tăng doanh thu Đặc biệt là tháng 11 và 12, khách hàng sẽ chi nhi]u ti]n hơn khi có nhi]u ngày lễ

lớn Ngoài ra, tập trung các mặt hàng công nghệ vào vùng phía Đông và tây Với việc 2 vùng này

cũng là những vùng có lượng ngưVi tiêu dùng cao do có 2 thành phX lớn ở mỗi phía, New York ở

phía Đông và Los Angeles ở phía Tây và đặc biệt khách hàng rất ưa chuộng mặt hàng công nghệ

cao mà doanh nghiệp đang bán Song, đi kèm với đó là vẫn tập trung các mặt hàng văn phòng

phẩm do có chi phí nhập hàng và bảo quản thấp, rất phù hợp để doanh nghiệp ti\p tnc duy trk và

phát triển CuXi cùng là cải thiện hơn v] vấn đ] giao hàng, mặc dù việc giao hàng vẫn đạt tỉ lệ

Ngày đăng: 08/05/2024, 10:47

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w