1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài phân tích và trực quan hoá dữ liệu thực tế tối ưu hoá hậu cần và chuỗi cung ứng

48 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 3,85 MB

Nội dung

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung Biểu đồ Phân bố các phương thức thanh toán Biểu đồ phân bồ các loại khách hàng Biểu đồ phân bồ đ

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THONG TIN VA TRUYEN THONG VIET - HAN

KHOA KINH TE SO & THUONG MAI DIEN TU

-000 -

LẦU,

HỌC PHẢN: KHAI PHÁ VÀ LƯU TRỮ DỰ LIỆU E-LOGISTICS

ĐÈ TÀI: PHÂN TÍCH VÀ TRUC QUAN HOA DU LIEU THUC TE:

TOI UU HOA HAU CAN VA CHUOI CUNG UNG

Sinh viên thực hiện: Nhóm 15

Hồng Thuy Vy - 21EL080

Lé Thi Thuy Hang -21EL013

H6 Thi Nhat Doan - 21EL006

Nguyén Thi Nhi - 21EL045

Da Nang, thang 11 nam 2024

Trang 2

TRƯỜNG ĐẠI HỌC CONG NGHE THONG TIN VA TRUYEN THONG VIET - HAN

KHOA KINH TE SO & THUONG MAI DIEN TU

-000 -

| GED

HOC PHAN: KHAI PHA VA LUU TRU DU LIEU E-LOGISTICS

DE TAI: PHAN TICH VA TRUC QUAN HOA DU LIEU THUC TE:

TOI UU HOA HAU CAN VA CHUOI CUNG UNG

Sinh viên thực hiện: Nhóm 15

Hồng Thuy Vy - 21EL080

Lé Thi Thuy Hang - 21EL013

H6 Thi Nhat Doan - 21EL006

Nguyén Thi Nhi - 21EL045

Da Nang, thang 11 năm 2024

Trang 3

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

LOI CAM ON

Đầu tiên, nhóm chúng em xin gửi lời chào và lời cảm ơn chân thành đến Trường Đại học Công nghệ Thông tin và Truyền thông Việt - Hàn đã đưa học phần “Khai phá và lưu trữ đữ liệu E-Logistics” vào chương trình giảng dạy Đặc biệt, chúng em xin gửi lời cảm ơn sâu sắc đến giảng viên TS Nguyễn Thanh đã truyền đạt những kiến thức quý báu cho chủng em trong suốt thời gian học tập vừa qua

Học phân Khai pha và lưu trữ đữ liệu E-Logistics la m6t mon hoc thú vị, vô cùng

bồ ích và có tính thực tế cao, đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên Là một môn chuyên ngành, nó luôn đòi hỏi sự khắt khe và chính xác nhất co thé, bởi đây đều là những kiến thức trọng tâm giúp chúng em có thể nâng cao kiên thức sau này Tuy nhiên, do vốn kiến thức nhóm chúng em vẫn còn nhiều hạn hẹp và khả năng tiếp thu thực tê còn nhiều bỡ ngỡ nên bài báo cáo khó có thê tránh khỏi những thiếu sót và nhiều chỗ còn chưa chính xác, kính mong thầy/cô xem xét và góp ý đề bài tiểu luận

của chúng em được hoàn thiện hơn

Em cũng mong nhận được sự chia sẻ và ý kiến tư vẫn của quý thầy cô giáo cùng các độc giả quan tâm về đề tài này

Xin chân thành cảm ơn!

Sinh viên thực hiện Hồng Thuy Vy

Lé Thi Thuy Hang

Hồ Thị Nhật Đoan

Nguyễn Thị Nhị

Trang 4

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

MUC LUC

U89 9 09a 2

, 1090090 2 3

DANH MỤC CHỮ VIẾT TẮTT -222:22S22+222221222233112221111271111221111 212L 6 DANH MỤC BẢNG, BIÊU ĐÔ -252-2222222222211122221112122111212111120.1 te 7 008 (907.1000018 8

1 _ Lý do chọn đề tài 5c ST HE HE HH re re 9 2 _ Đối tượng nghiên cứu -:- 5c tt 2111121121111 2.112 Enr Hee 9 Shin 9

4 Phương pháp nghiên cỨU: 2 2121212121111 11101211 1118 1k ryu 10 CHƯƠNG l1: CƠ SỞ LÝ THUYÉT KHAI PHÁ VÀ LƯU TRỮ DỮ LIỆU lãi 1.1.Khai phá đữ liệu là gì? - 2 2 1221112111111 11E1 111111711111 11kg ty II 1.2 Cách thức hoạt động của Khai pha đữ liệu 5 5-2 222cc sesse ll 1.3 Ứng dụng của Data Mining 5s tt TT E11 E111 x1 eo 13 1.4 Các kỹ thuật để khai phá đữ liệu 5 5c SE SE E25 rên 14 1.4.1 Kỹ thuật phân tích phân loại (Classification Analys13) 14

1.4.2 Kỹ thuật khai phá đữ liệu (Association Rule Learning) 14

1.4.3 Kỹ thuật phát hiện bat thường (Anomaly or Outlier Detection) 15

1.4.4 Kỹ thuật phân tích theo cụm (Clustering Analys§1s) 15 1.4.5.Kỹ thuật phân tích hồi quy (regression analysis) 5c ccc sec 15 1.4.6 Kỹ thuật dự báo (predIiction) -c c1 2212212222 225222 tre ren 15 CHUONG 2: PHAN TICH VA TRUC QUAN HOA DU LIEU THUC TE: TOI

ƯU HÓA HẬU CÂN VÀ CHUÔI CUNG ƯNG 2 t1 2 112122 1 ae 17

2.1 Giới thiệu về data set ST TH ng nga 17

2.2 Giải thích các biến trong đata set - - ch HH HH HH yêu 17

2.3 Các bước tiền xử lý đữ liệu 5 c1 19211212 1 112 He reu 19

2.3.1 Missing vaÌUe - c2 2201122111212 115511511111 151251 1115k rrg 19 2.3.2 Kiểm tra và xử lý giá trị ngoại Ìai - -sc St eEEnxrgrrgryg 22

2.3.3 Xóa các biên/cột không cần thiẾt - 5-5 SE E12 1t errrrg 23 2.3.4 Chuyên đổi kiêu dữ liệu - 5-5 SE E1 1211211212221 ra 24

Trang 5

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

2.3.5 Chuẩn hóa đữ liệu -2::222212222112221122211.22 2111.11.12 re 25

2.3.6 Tạo CỘT TỚI Q09 90100 5111k TT TT T01 1k KT ng 27

2.4 Câu hỏi nghiên cứu c1 2122011221112 1121115511511 111118 111gr Hy ey 28

2.4.1 Phân bô các phương thức thanh toán - 52-5 t x xen 28 2.4.2 Phân bô các loại khách hàng 5 5c S3 SE SE ngư 28 2.4.3 Phân bồ đơn hàng theo khu vực lớn 5c né SE test 29 2.4.4 Phân bồ đơn hàng theo khu vực nhỏ chen errờn 30

2.4.5 Số lượng đơn hàng theo trạng thái đơn hàng 55c sec: 31 2.4.6 Phân bồ đơn hàng theo phương thức vận chuyên - 5-5255: 32 2.4.7 Số lượng sản phẩm thuộc từng danh mục khác nhau trên thị trường 32

2.4.8 Phân bồ lợi nhuận trên mỗi đơn hàng 5c SE EEE sz2 35

2.4.9 Phân phối doanh thu trên mỗi khách hàng - 52 Scccxccsec: 36 2.4.10 Số lượng đơn hàng phân bố theo mã đanh mục sản phâm 37

2.4.11 Số lượng đơn hàng phân bố theo mã bộ phận eee 38

2.4.12 Phạm vi giá sản phâm theo từng danh mục 2s: sec 39 2.4.13 Doanh số của từng danh mục sản phẩm ¿2s sec 4]

2.4.14 Phan bé phân khúc khách hàng theo khu vực đặt hàng 42

2.4.15 Phân bố các phương thức vận chuyên theo khu vực đặt hàng 44

2.4.16 Phân bồ trạng thái đơn hàng theo đối tượng khách hàng 45

2.4.17 Sản phâm đắt nhất trong mỗi danh mục 2 2S xe ri 46

2.4.18 Tổng doanh số mỗi danh mục ST S251 E51 51211555281 trey 47

2.4.19 Mối quan hệ giữa giá sản phâm và đoanh sô 2 cà: 49

1H

Trang 6

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

DANH MUC CHU VIET TAT

Ý nghĩa: Hệ thông hoạch định nguồn lực doanh nghiệp

Ý nghĩa: Quản lý quan hệ khách hàng

JUPYTER từ ghép đại diện cho ba ngôn ngữ lập trình chính được hỗ trợ ban đầu:

Julia, Python, va R

Trang 7

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

Biểu đồ Phân bố các phương thức thanh toán

Biểu đồ phân bồ các loại khách hàng

Biểu đồ phân bồ đơn hàng theo khu vực lớn

Biểu đồ phân bồ đơn hàng theo khu vực nhỏ

Biểu đồ phân bồ số lượng đơn hàng theo trạng thái đơn hàng Biều đồ phân bố đơn hàng theo phương thức vận chuyên

Biểu đồ số lượng sản phẩm theo từng danh mục

Biểu đồ phân bồ lợi nhuận trên mỗi đơn hàng

: Biểu đồ số lượng đơn hàng theo mã đanh mục sản phâm

: Biêu đồ số lượng đơn hàng phân bồ theo mã bộ phận

Biểu đồ Phạm vi giá sản phẩm theo từng danh mục

doanh số của từng danh mục sản phâm

Biêu đồ phân bồ phân khúc khách hàng theo khu vực đặt hàng

Biểu đồ phân bô các phương thức vận chuyền theo khu vực đặt hàng

Biểu đồ phân bồ trạng thái đơn hàng theo đối tượng khách hàng

Biểu đồ Tông doanh số mỗi danh mục

Biêu đồ Môi quan hệ giữa giá sản phẩm và doanh sô

Bang 2.1: Bang cac bién trong dataset

Bang 2.2: Bang san pham dat nhất trong mỗi danh mục

Trang 8

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

hiệu quả đề tối ưu hóa hoạt động Phân tích và trực quan hóa đữ liệu chính là chìa khóa dé

giải quyết những thách thức này

Bằng cách thu thập và phân tích dữ liệu từ nhiều nguồn khác nhau, như hệ thống ERP, CRM, IoT và các nguồn đữ liệu bên ngoài, các doanh nghiệp có thê khám phá ra những mối quan hệ phức tạp, dự báo xu hướng tương lai và đưa ra các quyết định kinh

doanh sáng suốt hơn Các kỹ thuật phân tích dữ liệu hiện đại, kết hợp với các công cụ trực

quan hóa mạnh mẽ, giúp biến những khối lượng đữ liệu lớn thành những thông tin hữu ích, đễ hiểu Nhờ đó, doanh nghiệp có thê tôi ưu hóa quy trình, giảm thiêu chỉ phí, tăng hiệu quả hoạt động và nâng cao sự hài lòng của khách hàng

Phân tích dữ liệu đóng vai trò quan trọng trong việc dự báo nhu cau, quan ly ton kho, lập kế hoạch sản xuất, tôi ưu hóa lộ trình vận chuyên và đánh giá hiệu suất nhà cung cấp Bằng cách phân tích dữ liệu lịch sử và dữ liệu thời gian thực, doanh nghiệp có thê xây dựng các mô hình dự báo chính xác, giúp giảm thiểu tình trạng hàng tồn quá nhiều hoặc thiếu hàng, đồng thời tối ưu hóa việc sử đụng các nguồn lực

Trực quan hóa dữ liệu giúp các nhà quản lý và nhà phân tích để dàng hiểu va nam bắt thông tin phức tạp Các biểu đồ, đồ thị và bản đồ tương tác trực quan hóa cho phép người dùng khám phá dữ liệu một cách trực quan, phát hiện các xu hướng và bất thường,

và đưa ra các quyết định nhanh chóng

vi

Trang 9

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

1 Ly do chon dé tai

Trong thời đại số, đữ liệu đã trở thành tài sản vô giá của doanh nghiệp Đặc biệt trong lĩnh vực hậu cần và chuỗi cung ứng, việc thu thập, phân tích và trực quan hóa đữ liệu đóng vai trò quan trọng trong việc tối ưu hóa hoạt động, giảm chi phí và nâng cao năng suất Bằng cách phân tích đữ liệu lịch sử bán hàng, doanh nghiệp có thể dự báo chính xác nhu cầu của khách hàng, từ đó điều chỉnh sản xuất và phân phối một cách hợp

lý, tránh tình trạng tồn kho quá nhiều hoặc thiếu hàng Việc phân tích và trực quan hóa đữ liệu này giúp đoanh nghiệp xây đựng các mô hình đự báo chính xác, từ đó tối ưu hóa việc quản lý tồn kho, giảm thiêu tình trạng hàng tồn quá nhiều hoặc thiếu hàng, và nâng cao khả năng đáp ứng nhu cầu của khách hàng

Nhóm em lựa chọn đề tài "Phân tích và trực quan hóa đữ liệu thực tế: Tối ưu hóa

hậu cần và chuỗi cung ứng" vì nhận thấy sự cấp thiết trong việc nâng cao hiệu quả hoạt động của doanh nghiệp trong bối cảnh cạnh tranh ngày càng khốc liệt Qua quá trình học tập, nhóm em nhận ra rằng việc phân tích dữ liệu có thể cung cấp những thông tin giá trị

đề hỗ trợ quá trình ra quyết định Đồng thời, nhóm em cũng bị thu hút bởi tiềm năng phát triển của lĩnh vực này Nhóm em tin rằng nghiên cứu của mình sẽ góp phần làm rõ hơn vai trò của phân tích dữ liệu trong việc tối ưu hóa chuỗi cung ứng và đưa ra các giải pháp thực tiễn cho các đoanh nghiệp Việt Nam."

2 Đối tượng nghiên cứu

Phân tích và trực quan hoá dữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ứng

3 Mục tiêu nghiên cứu

® Đánh giá hiện trạng: Đánh giá cách thức các doanh nghiệp đang thu thập, lưu trữ và sử dụng dữ liệu trong quản lý chuỗi cung ứng

e Xác định các điểm nghẽn: Nhận diện những hạn chế và khó khăn trong việc

áp dụng phân tích đữ liệu vào thực tiễn

® Đềxuất giải pháp: Đề xuất các giải pháp cụ thể đề tôi ưu hóa quy trình phân tích và trực quan hóa đữ liệu, nhằm nâng cao hiệu quả của chuỗi cung ứng

4 Phương pháp nghiên cứu:

>» Phuong pháp phân tích dữ liệu:

© - Phân tích định lượng: Sử dụng các công cụ thông kê đề phân tích dữ liệu só

Vil

Trang 10

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

¢ Phan tich định tính: Phân tích dữ liệu văn bản, phỏng vấn đề tìm hiểu sâu hơn

về quan điểm và nhận thức của người tham gia

> Phương pháp trực quan hóa: Sử dụng các phần mềm chuyên dụng như PYTHON, JUPYTER Notebook để trực quan hóa đữ liệu, giúp người đọc đễ dàng hiểu và nắm bắt thông tin

Vill

Trang 11

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

CHUONG 1: CO SO LY THUYET KHAI PHA VA LUU TRU DU LIEU

1.1.Khai phá dữ liệu là gì?

Khai phá dữ liệu ( Data Minmg ) là một quá trình được các doanh nghiệp sử dụng

đề biến các dữ liệu thô thành những thông tin hữu ích Bằng cách sử dụng những phan mềm công nghệ đề tìm kiếm các mẫu hình (pattern) trong một lượng dữ liệu lớn, doanh nghiệp có thê tìm hiệu thêm về khách hàng của mình và phát triển những chiến lược tiếp thị hiệu quả hơn, tăng doanh số bán hàng và giảm thiểu tối ưu chỉ phí Khai phá đữ liệu phụ thuộc vào khả năng thu thập dữ liệu, lưu trữ và xử lý máy tính hiệu quả

Khai phá đữ liệu có những tính năng đặc biệt như:

© - Tính toán, xử lý những kết quả đã được phân tích

® - Đưa ra các thông tin được phản hồi đề phân tích

® - Phân tích, xử lý dữ liệu lớn

© Những mẫu dự đoán theo xu hướng trong hàng loạt đữ liệu được thể hiện

Tð ràng

e Phan chia, sap xếp các cụm đữ liệu một cách khoa học

1.2 Cách thức hoạt động của Khai phá đữ liệu

Khai phá dữ liệu bao gồm các hoạt động khám phá và phân tích các khối thông tin lớn đề tìm ra các mẫu hình (patten) và xu hướng có ý nghĩa Nó có thể được sử dụng theo

nhiều cách khác nhau như quản lý rủi ro tín dụng, phát hiện gian lận, lọc email rác, hoặc

thậm chí để nhận dạng cảm xúc hoặc ý kiến của người dùng

Data Miming là một trong 4 bước của quá trình Khai thác tri thức và 4 bước gồm:

Thu thập dữ liệu

Chuẩn bị dữ liệu

Khai phá đữ liệu

Phân tích và giải thích các dữ liệu

Bước 1: Thu thập đữ liệu

Trang 12

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

Dữ liệu liên quan cho một ứng dụng phân tích được xác định và tập hợp Dữ liệu

có thể được đặt trong các hệ thong nguồn khác nhau, một kho đữ liệu hoặc một bê chứa

đỡ liệu

Một kho lưu trữ ngày càng phô biến trong môi trường dữ liệu lớn chứa hỗn hợp dữ liệu có cầu trúc và không có cấu trúc Nguồn dữ liệu bên ngoài cũng có thê được sử dụng

Bất cứ dữ liệu từ nơi nào đến, một nhà khoa học đữ liệu thường chuyên nó đến một kho

đữ liệu chính cho các bước còn lại trong quy trình

Bước 2 Chuẩn bị dữ liệu

Giai đoạn này bao gồm một loạt các bước đề chuân bị khai phá dữ liệu Nó bắt đầu

với việc thăm do, lap hồ sơ và xử lý trước đữ liệu, sau đó là công việc làm sạch đữ liệu dé sửa lỗi và các vấn đề kiêm tra chất lượng đữ liệu khác Việc chuyển đổi dữ liệu cũng được thực hiện để làm cho các tập đữ liệu nhất quán, trừ khi một nhà khoa học đữ liệu đang tim cách phân tích dữ liệu thô chưa được lọc cho một ứng dụng cụ thể

Bước 3: Khai phá dữ liệu — Data Mining

Sau khi dữ liệu được chuẩn bị, các nhà khoa học đữ liệu chọn kỹ thuật data mining thích hợp và sau đó triển khai một hoặc nhiều thuật toán dé thực hiện khai thác

Trong các ứng dụng học máy, các thuật toán thường phải được đào tạo trên các tập

dữ liệu mẫu đề tìm kiếm thông tin đang được tìm kiếm trước khi chúng chạy trên toàn bộ tập đữ liệu

Bước 4: Phân tích va giai thích dữ liệu

Kết quả của data mining được sử dụng đề tạo ra các mô hình phân tích có thê giúp thúc đây quá trình ra quyết định và các hành động kinh doanh khác Nhà khoa học đữ liệu hoặc một trong những thành viên khác của nhóm khoa học đữ liệu cũng phải truyền đạt kết quả cho các giám đốc điều hành doanh nghiệp và người dùng, thường thông qua trực quan hoa đữ liệu và sử dụng các kỹ thuật kê chuyện dữ liệu (data storytelling)

Khai phá dữ liệu bao gồm các hoạt động khám phá và phân tích các khối thông tin lớn đề tìm ra các mẫu hình (patten) và xu hướng có ý nghĩa Nó có thể được sử dụng theo

Trang 2

Trang 13

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung nhiéu cach khac nhau nhu quản lý rủi ro tín dụng, phát hiện gian lận, lọc email rác, hoặc

thậm chí đề nhận đạng cảm xúc hoặc ý kiến của người dùng

1.3 Ứng dụng của Data Mining

Các kỹ thuật khai phá đữ liệu được áp dụng rộng rãi trong các nhóm phân tích dữ liệu và kinh đoanh Dưới đây là một số lĩnh vực ứng dụng phổ biến của Data Mining: Bán hàng và Marketing

Các công ty thu thập một lượng lớn dữ liệu về khách hàng và khách hàng tiềm

năng của họ bằng cách quan sát nhân khâu học của người tiêu dùng và hành vi của khách mua hàng trực tuyến, qua đó họ có thể sử dụng dữ liệu đề tối ưu hóa các chiến địch tiếp thị của họ, cải thiện phân khúc, ưu đãi bán kèm và các chương trỉnh trung thành của

khách hàng, mang lại ROI (Tỷ suất hoàn vốn) cao hơn

và các hệ thống chồng gian lận thông minh để phân tích các giao dịch, giao dịch thẻ, mô

hình mua hàng va đữ liệu tài chính của khách hàng

Y tế — Chăm sóc sức khỏe

Khai phá đữ liệu giúp cho quá trình chân đoán nhanh chóng và chính xác hơn Có

tất cả thông tin của bệnh nhân chăng hạn như hồ sơ y tế, khám sức khỏe và cách điều trị

Trang 14

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

Nó cũng cho phép quản lý hiệu quả và tiết kiệm chỉ phí các nguồn lực y tế bằng cách xác

định rủi ro, dự đoán bệnh tật ở một số bộ phận dân số nhất định hoặc dự báo thời gian

nhập viện Phát hiện gian lận và bất thường cũng như tăng cường mối quan hệ với bệnh nhân với kiến thức nâng cao về nhu cầu của họ cũng là những lợi thế của việc sử dụng khai thác đữ liệu trong y học

1.4 Các kỹ thuật để khai phá dữ liệu

Kỹ thuật khai phá dữ liệu hiện khá phô biến Về cơ bản, Data mining hay khai phá

dữ liệu và việc xử lý, nhận biết các xu hướng từ thông tin đữ liệu, từ đó đưa ra các quyết

định hoặc đánh giá Có 6 kỹ thuật cốt lõi được sử dụng nhiều trong việc khai phá đữ liệu

1.4.1 Kỹ thuật phan tich phan loai (Classification Analysis)

Một kỹ thuật khai phá dữ liệu đầu tiên là kỹ thuật phân tích phân loại Đây là một

kỹ thuật cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước Có thể ứng dụng kỹ thuật này bằng cách mô tả nhiều thuộc tính giúp phân loại các đối tượng vào một lớp cụ thê Kỹ thuật khai thác đữ liệu nhằm lấy được những thông tin quan trọng từ dữ liệu và siêu đữ liệu Do đó, trong quá trình phân tích, phân loại, chúng ta cần áp dụng các thuật toán khác nhau sao cho phù hợp với mục tiêu sử dụng

1.4.2 Kỹ thuật khai phá dir liéu (Association Rule Leaming)

Kỹ thuật Association Rule Learning la m6t k¥ thuat khai pha dir ligu được sử dụng nhằm xác định mối quan hệ giữa các biến khác nhau trong cơ sở đữ liệu Ngoài ra, kỹ thuật này còn được ứng dụng nhằm “giải nén: các mẫu ân trong đữ liệu Association Rule Learning rất hữu ích trong quá trình kiểm tra, dự đoán về các hành vi Cùng với đó, các

doanh nghiệp khi sử dụng kỹ thuật này còn có thể xác định được hành vi mua sắm của

người tiêu dùng Hỗ trợ phân tích đữ liệu trong giỏ hàng của khách hàng tiềm năng 1.4.3 Kỹ thuật phát hiện bất thường (Anomaly or Outlier Detection)

Về cơ bản, kỹ thuật khai phá đữ liệu phát hiện bất thường được sử dụng đề nhắn

mạnh việc quan sát các mục đữ liệu trong bộ dữ liệu Để từ đó tìm ra các tập đữ liệu

không khớp với mẫu dự kiến Sự bất thường ở đây có thể là độ lệch, sự khác thường, các

nhiều loạn và ngoại lệ khác

Trang 4

Trang 15

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

Những sự bất thường được đánh giá là khá quan trọng, bởi nó có thể cung cấp một

số thông tin cần thiết Nó như một dữ liệu khác biệt so với mức trung bình chung trong

một tập dữ liệu Có thê thấy, một cái gì đó khác thường đã xảy ra, và các nhà phân tích đữ liệu cần chú ý Kỹ thuật này được ứng dụng trong đa đạng lĩnh vực khác nhau Chăng hạn như theo đối sức khỏe, phát hiện các xâm nhập

1.4.4 Kỹ thuật phan tich theo cum (Clustering Analysis)

“Cụm” được hiểu với nghĩa là một nhóm các đối tượng đữ liệu Các đối tượng có

sự tương đồng nhau sẽ nằm trong cùng một cụm Kết quả là các đối tượng tương đồng sẽ cùng trong một nhóm đữ liệu Kỹ thuật phân tích theo cụm này thường được ứng dung dé tạo hỗ sơ khách hàng Hay được ứng dụng trong phân chia phân khác các đối tượng khách hàng trong lĩnh vực Marketing

1.4.5.Kỹ thuật phân tích hồi quy (regression analysis)

Phân tích hồi quy nhằm giúp xác định và phân tích mối quan hệ giữa các biến Do

đó kỹ thuật phân tích hồi quy sẽ giúp bạn hiểu được những giá trị đặc trưng của sự thay

đổi ở các biến phụ thuộc

1.4.6 Kỹ thuật dự báo (prediction)

Trong các kỹ thuật khai phá dữ liệu, kỹ thuật dự báo được ứng dụng trong một số các trường hợp đặc biệt Kỹ thuật này được sử dụng nhằm khám phá các mối quan hệ giữa các biến độc lập và phụ thuộc Có thể ứng dụng kỹ thuật dự báo trong việc bán hàng, nhằm dự báo lợi nhuận trong tương lai Nếu bán hàng là một biến độc lập, thì lợi nhuận có thể là một biến phụ thuộc Khi đó chúng ta có thê vẽ đường cong quy hồi để dự

đoán lợi nhuận hiệu quả

Trang 16

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

CHUONG 2: PHAN TICH VA TRUC QUAN HOA DU LIEU THUC TE:

TOI UU HOA HAU CAN VA CHUOI CUNG UNG

2.1 Giới thiệu vé data set

Tén data set: Real-World Insights Optimizing Logistics and Supply Chain Data Tính chất: Đây là một bộ dữ liệu có cấu trúc (structured data), nghĩa là đữ liệu được tô chức trong các bảng với các cột và hàng rõ ràng

Nội dung: Bộ đữ liệu chứa thông tin về các đơn hàng, bao gồm cả thông tin về sản phâm, khách hàng, địa điểm giao hàng, thời gian giao hàng dự kiến và thực tế, cũng như các thông tin liên quan đến quá trình vận chuyền

Mục đích: Bộ dữ liệu này được sử dụng dé xây dựng các mô hình dự đoán nhằm

xác định những đơn hàng có khả năng bị giao hàng chậm trễ

2.2 Giải thích các biến trong data set

Bang 2.1; Bang cac bién trong dataset

hiện mua hàng Cusfomer_counfry categorical nude én mua hang gia Nol khách hàng thực

Các loại khách hàng Người tiêu

tai nha

Tiêu bang nơi cửa hàng nơi

thuộc về

Trang 6

Trang 17

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

LATAM, Châu A Thai Binh Duong, USCA

Gia tri chiết khâu của mặt hàng

dat hang

order _item_product_price numerical Gia san pham chua giam gia

đặt hàng

Số lượng sản phẩm trên mỗi đơn

order item total amount numerical Tổng số tiền mỗi đơn hàng

order proft per order numerical Lợi nhuận đặt hàng trên moi

Khu vực trên thê giới nơi đơn hàng được giao: Đông Nam Á, Nam Á, Châu Đại Dương, Đông

Á, Tây Á, Tây Hoa Kỳ, Trung

tam Hoa Ky, Tay Phi, Trung

Phi, Bắc Phi, Tây Âu, Bắc,

Phi, Nam Âu, Đông Hoa Kỳ,

Canada, Nam Phi, Trung A, Chau Au, Trung My, Déng Au, Nam Hoa Ky

order_state categorical Bang của khu vực nơi đơn hàng duoc giao

Trang 18

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

Trang thai don hang: HOAN

DANG DONG, DANG CHO

DANG XU LY, NGHI NGO

GIAN LẬN, ĐANG GIỮ, XEM

XÉT THANH TOÁN

Các phương thức vận chuyên sau đây được trình bày: Hạng

hai, Cùng ngày

Kết quả giao hang: -1 đến sớm,

df Day là một DataFrame trong thư viện Pandas, dai dién cho mét bang đữ liệu

.isnull(): Phương thức này được áp dụng lên toàn bộ DataFrame Nó sẽ trả về một DataFrame mới có cùng kích thước với dẾ nhưng các giá trị trong DataFrame mới sẽ là True néu giá trị tương ứng trong df là NaN (Not a Number) hoặc null (biểu thị giá trị thiếu), và là False nếu không Nói cách khác, nó tạo ra một "mặt nạ” (mask) chỉ ra vị trí của các giá trị bị thiếu trong DataFrame gốc

Trang 8

Trang 19

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

v= : Kết quả của phép kiểm tra đfisnull() được gán cho biến v Biến v này cũng

là một DataFrame, nhưng chứa các giá trị Boolean (True hoặc False) chỉ ra vị trí của các gia tri thiéu trong df

print(v):Lénh nay sé in ra man hinh n6i dung cua bién v, tire la DataFrame chira

cac gia tri True va False thể hiện vị trí của các gia tri thiéu trong DataFrame goc

category_name

profit_per_order False False False False False False customer_city

sales_per_customer False False False False False False

customer_country cu

category_id False False False False False False

stomer_id \

False False False False

order status product card id product_category_id product_name

> Dém gia tri missing value trong các cột:

Code:

Trang 20

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

missing count = dfisnull().sum()

print (missing count)

Phân tích các bước:

dfisnull():

df: Day la một DataFrame trong thu vién Pandas, đại dién cho mét bang dir liéu

.isnullQ: Phương thức này được áp dụng lên toàn bộ DataFrame Nó sẽ trả về một DataFrame mới có cùng kích thước với dẾ nhưng các giá trị trong DataFrame mới sẽ là True néu giá trị tương ứng trong df là NaN (Not a Number) hoặc null (biểu thị giá trị thiếu), và là False nêu không

sum():

Phương thức này được áp dụng lên DataFrame tạo ra ở bước 1 Nó sẽ tính tổng các giá trị True theo từng cột Vì True được coi la 1 va False là 0, nên kết quả sẽ là số lượng giá trị thiểu trong mỗi cột

missing count:

Biến missing_count sẽ lưu trữ kết quả của phép tính trên Nó sẽ là một Series (một loại cấu trúc dữ liệu một chiều trong Pandas) mà mỗi index la tén cla một cột trong DataFrame df va giá trị tương ứng là số lượng giá trị thiếu trong cột đó

print(missing count):

Lénh nay sé in ra man hinh Series missing count, cho phép xem số lượng giả tri thiếu trong từng cột của DataFrame

Trang 10

Trang 21

Kết quả:

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

product_price order_country 2duc

shipping date shipping_mode

label

order_customer_id

order_date

payment_type 9 order_item_cardprod_id 9 profit_per_order 9 order_item_discount 9 sales_per_customer 9 order_ item discount_rate 9 category_id 9 order_item_id 9 category_name 9 order_item_product_price 9 customer_city 9 order_item_profit_ratio 9

2.3.2 Kiểm tra và xử lý giá trị ngoại lai

Thực hiện việc phát hiện và loại bỏ các giá trị ngoại lai (outlier) trong cột 'sales của một DataFrame bằng phuong phap IQR (Interquartile Range)

# Logi bo cac gia tri ngoai khoang

df = df[(df['sales'] >= lower_bound) & (df['sales'] <= upper_bound) }

Phân tích các bước:

Trang 22

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

Tinh IQR:

Ql = dff'sales'].quantile(0.25): Tinh quartile thir nhat (Q1) cua cét ‘sales’ Q1 là giá trị phân chia 25% dữ liệu nhỏ nhất và 75% đữ liệu còn lại

O3 = dff'sales'].quantile(0.75): Tính quartile thứ ba (Q3) của cột 'sales' Q3 la gia

trị phân chia 75% đữ liệu nhỏ nhất và 25% đữ liệu còn lại

IOR = Q3 - QI: Tinh IQR (Interquartile Range), la khoang cach gitra Q3 va QI, đại điện cho khoảng biến thiên của 50% đữ liệu ở giữa

Xác định giới hạn trên và dưới:

lower_bound = Q1 - 1.5 *IQR: Tính giới hạn dưới Bắt kỳ giá trị nào nhỏ hơn giới hạn dưới đều được coi là ngoại lai Hệ số 1.5 là một quy ước thường dùng

upper bound = Q3 + 1.5 * IQR: Tính giới hạn trên Bat ky giá trị nào lớn hơn giới

hạn trên đều được coi là ngoại lai

Loại bỏ các giá trị ngoại lai:

df = dƒJ(df]salesj >= lower bound) & (dff'sales'] <= upper _bound)]: Lọc DataFrame, chỉ giữ lại các hàng có giá trị 'sales' nằm trong khoảng giữa giới hạn dưới và giới hạn trên Các hàng có giá trị 'sales' nằm ngoài khoảng này (ngoại lai) sẽ bị loại bỏ

2.3.3 Xóa các biến/cột không cần thiết

Ở đây có thể thấy các bién: customer id, customer zipcode, order customer ¡d, order ¡d, product card ¡d là không cần thiết cho việc phân tích đữ liệu nên sẽ tiền hành xóa các biến này

Trang 23

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

.drop(): Dây là một phương thức của DataFrame, được sử dụng đề loại bỏ các hàng

hoặc cột khỏi DataFrame

labels=[‘customer_id', ‘customer zipcode’, .]: Day la danh sách các nhãn (tên cột)

mà bạn muốn loại bỏ khỏi DataFrame Trong trường hợp này, chúng ta muốn xóa các cột

có tên 'customer Id, 'customer zipcode, 'order customer id’, 'order lử, va

‘product_card_id'

axis=1: Déi sé nay chi dinh rang chung ta muốn xóa theo trục cột Nếu axis=0,

chúng ta sẽ xóa theo trục hàng

2.3.4 Chuyên đối kiêu đữ liệu

Thực hiện việc chuyên đổi kiểu đữ liệu của các cột 'shipping date' và 'order date' trong DataFrame đf thành kiểu datetime (ngày giờ) và đồng thời quy đôi về múi giờ UTC Code:

df['shipping date'] = pd.to_datetime(df['shipping date' ],utc=True) df{'order_date'] = pd.to_datetime(df['order_date' ],utc=True)

Giải thích các bước:

dff'shipping date'] = pd.to_datetime(df['shipping date'], utc=True):

đfị shipping dafe'J: Truy cập vao cét 'shipping date’ trong DataFrame df pd.to_datetime(): Day 1a mét ham trong thư viện Pandas dùng để chuyển đối một

chuỗi hoặc một series thành kiêu đữ liệu datetime

dff'shipping date']: Déi s6 dau tién truyền vào hàm, chí ra cột cần chuyển đôi ufc=1rue: Đôi số này chỉ định rằng các giá trị thời gian sẽ được chuyên đối về múi gig UTC (Coordinated Universal Time)

dff'order_date'] = pd.to_datetime(df['order_date'], utc=True):

Cú pháp tương tự như dòng lệnh trên, nhung ap dung cho cét 'order_date’

2.3.5 Chuan hóa dữ liệu

> Chuân hóa dữ liệu cho các cột sô:

Trang 24

Đề tài: Phân tích và trực quan hoá đữ liệu thực tế: Tối ưu hoá hậu cần và chuỗi cung ung

Thực hiện việc chuẩn hóa (scaling) các cột số trong một DataFrame bằng phương phap Standardization

from sklearn preprocessing import StandardScaler:

Nhập thư viện Dòng nay import lớp StandardScaler từ thư viện sklearn.preprocessing Lớp này cung cấp chức năng đề chuẩn hóa dữ liệu theo phân phối chuẩn

Danh sách các cột: Tạo một danh sách các cột số cần chuẩn hóa Các cột này sẽ

được chuyền đôi đề có trung bình bằng 0 và độ lệch chuẩn bằng l

dffnumeric_cols] = soalerfi_transform(df]numeric colsj):

Chuan hóa dữ liệu:

df{numeric_cols]: Chon các cột sô trong DataFrame

scalerfit_transform(): Áp đụng phương pháp chuân hóa cho các cột đã chọn

fit: Tinh toán trung bình và độ lệch chuẩn của các cột

transform: Chuân hóa dữ liệu dựa trên trung bình và độ lệch chuẩn đã tính được

> Mã hóa biến danh mục:

Trang 14

Ngày đăng: 19/12/2024, 14:26