báo cáo cuối kỳ kỹ thuật ra quyết định trong kinh doanh dự báo tồn kho nước hoa của doanh nghiệp bằng mô hình cây quyết định

Nghiên cứu này đề xuất phương pháp khai thác dữ liệu bằng mô hình cây quyết định, được triển khai bằng ứng dụng RapidMiner nhằm dự đoán mức tồn kho nước hoa của doanh nghiệp.. Trong đó,

Trang 1

TRƯỜNG ĐẠI HỌC VĂN LANG KHOA THƯƠNG MẠI

VANLANG

UNIVERSITY Gs

4 BÁO CÁO CUỐI KỲ MÔN: KỸ THUẬT RA QUYẾT ĐỊNH TRONG KINH

DOANH

DU BAO TON KHO NUOC HOA

CUA DOANH NGHIEP BANG MO

HINH CAY QUYET DINH

NHOM: GVHD: ThS Lý Đức Minh

Trang 2

TP Hồ Chí Minh - năm 2024

DANH SÁCH THÀNH VIÊN

ĐÓNG

Trang 3

DANH MUC CAC TU VIET TAT

Từ viết tat Ý nghĩa KDD Knowledge Discovery in Databases

YALE Yet Another Learning Environment

AGPL GNU Affero General Public License

ID3 Iterative Dichotomiser 3

Trang 4

lI MỞ ĐẦU

1 Tóm tắt: Đối với các doanh nghiệp trong ngành công nghiệp nước hoa, dự

báo hàng tồn kho chính xác là điều cần thiết để giảm thiểu chi phi lưu giữ và duy trì mức tồn kho tối ưu đủ đáp ứng nhu cầu của

khách hàng Nghiên cứu này đề xuất phương pháp khai thác dữ

liệu bằng mô hình cây quyết định, được triển khai bằng ứng dụng

RapidMiner nhằm dự đoán mức tồn kho nước hoa của doanh nghiệp Bằng cách tận dụng dữ liệu lịch sử bán hàng, xu hướng thị trường và các biến số liên quan khác để dự đoán nhu cầu tồn kho trong tương lai Với cấu trúc mô hình cây quyết định (DecisionTree Regression), nghiên cứu nhằm mục đích tìm ra các

yếu tố chính ảnh hưởng đến mức tồn kho của dòng sản phẩm

nước hoa và tạo điều kiện thuận lợi cho quá trình ra quyết định các chiến lược cạnh tranh Kết quả nghiên cứu này cũng cung cấp

những thông tin có giá trị cho các doanh nghiệp nước hoa để cải

thiện chuỗi cung ứng, phương pháp quản lý hàng tồn kho và hiệu quả kinh doanh trong bối cảnh thị trường cạnh tranh không ngừng

2 Keyword: RapidMiner, mô hình cây quyết định (DecisionTree Regression), dự báo tồn kho nước hoa, khai thác dữ liệu

Trang 5

II TONG QUAN VE DE TÀI

1 Gidi thiéu:

1.1 Giới thiệu đối tượng:

Hiện nay, cạnh tranh trong các lĩnh vực kinh tế đang là vấn đề quan trọng của xu hướng toàn cầu hóa và hội nhập kinh tế quốc

tế Trong đó, lĩnh vực mỹ phẩm ngày càng phát triển nhận được

sự hưởng ứng to lớn đến từ khách hàng, tốc độ phát triển của Internet đã mở ra một xu hướng mới khi các doanh nghiệp dần chuyển từ kinh doanh bán hàng truyền thống sang kinh doanh bán hàng hiện đại Do đó việc nâng cao năng lực cạnh tranh của mình trên thị trường thông qua các chính sách đổi mới về giá, sản

phẩm, là điều tất yếu mà các doanh nghiệp phải quan tâm

Trong ngành công nghiệp nước hoa, thị trường luôn biến động và sở thích của khách hàng thường xuyên thay đổi, quản lý tồn kho đóng vai trò then chốt trong việc cạnh tranh và đảm bảo hiệu suất kinh doanh của doanh nghiệp Việc kiểm soát tồn kho đòi hỏi sự chính xác và linh hoạt nhằm dự đoán nhu cầu sản phẩm, điều chỉnh sản xuất và duy trì mức tồn kho tối ưu Tuy nhiên, các

phương pháp dự báo truyền thống thường không nắm bắt được

các mối quan hệ và mô hình phức tạp vốn có trong dữ liệu bán

nước hoa Do đó, nhu cầu về kỹ thuật khai thác dữ liệu ngày càng tăng để có thể rút ra những thông tin từ bộ dữ liệu và thúc đẩy

quá trình ra quyết định Nghiên cứu này tập trung sử dụng ứng dụng RapidMiner để dự

báo tồn kho nước hoa của doanh nghiệp thông qua việc triển khai

các kỹ thuật khai thác dữ liệu, cụ thể là mô hình cây quyết định Bằng các dữ liệu đã thu thập được, RapidMiner cung cấp một nền tảng toàn diện giúp đẩy nhanh quá trình xử lý dữ liệu, phát triển và triển khai mô hình Mô hình cây quyết định mang đến một cái

nhìn sâu hơn về các yếu tố ảnh hưởng đến biến động hàng tồn

kho, giúp doanh nghiệp tối ưu hóa các hoạt động quản lý và ra quyết định về hàng tồn kho

Thông qua nghiên cứu này, nhóm chúng em mong muốn mang tính hiệu quả của RapidMiner đến các doanh nghiệp để triển khai các kỹ thuật khai thác dữ liệu trong bối cảnh đầy tính cạnh tranh của ngành công nghiệp nước hoa Những phát hiện nghiên cứu này cung cấp thông tin cho các doanh nghiệp nhằm mục đích

Trang 6

nâng cao hiệu quả chuỗi cung ứng, tối ưu hóa trong quá trình ra quyết định và thúc đẩy hiệu quả kinh doanh

Nhà cung Đầu vào Bị) À 010 Đầu ra

(Supplier)

Nha san Lọc và xử Mô hình Sử dụng

Sử dụng Thông tin doanh

thông qua phan mềm Rapid | Miner dé phan tich va danh gia

1.3 Big Data: 1.4 Phương thức thu thập dữ liệu: Step 1: Mỗi khi nhận hàng hóa từ nhà sản xuất, cung cấp nước hoa nhân viên sẽ tiến hành nhập mã thời gian nhập kho và ghi nhận dán nhãn thông tin về sản phẩm như dòng nước hoa, giá cả, thông tin kỹ thuật, nhà sản xuất, số lượng và các thông tin khác Step 2: Mỗi khi sản phẩm được bán ra, nhân viên tiến hành ghi nhận các thông tin đến từ hệ thống bán hàng và thanh toán nhưữ số lượng sản phẩm bán ra, thông tin chiết khấu, giá trị hóa đơn,

doanh số bán hàng để hiểu rõ hơn về mức độ tiêu thụ sản phẩm

nước hoa và xu hướng mua hàng của khách hàng

Trang 7

Step 3: Nhân viên theo dõi, thống kê và cập nhật số liệu biến

động của hàng hóa còn trong kho theo ngày, tuần tháng để kiểm

soát tồn kho 1.5 Mục tiêu nghiên cứu:

thống bán hàng và thanh toán khi có

lứa nhận thông tin chi tiết đên từ hệ

theo đợt về mức tồn kho nước hoa 1.6 Phương pháp nghiên cứu:

Trang 8

II CƠ SỞ LÝ THUYẾT VÀ CƠ SỞ PHƯƠNG PHÁP 1 Cơ sở lý thuyết:

1.1 Khai thác dữ liệu:

Khai thác dữ liệu là hoạt động tìm kiếm các mẫu từ lượng lớn dữ

liệu Dữ liệu có thể được lưu trữ trong cơ sở dữ liệu, kho dữ liệu hoặc nơi lưu trữ thông tin khác Khai thác dữ liệu có liên quan đến các lĩnh vực khoa học như hệ thống cơ sở dữ liệu, lưu trữ dữ liệu, thống kê, machine learning, truy xuất thông tin và tính toán cấp cao Ngoài ra, khai thác dữ liệu còn được hỗ trợ bởi các ngành khoa học khác như mạng nơ ron nhân tạo, nhận dạng mẫu, phân tích không gian, cơ sở dữ liệu hình ảnh và xử lí tín hiệu (Han, 2006) Khai thác dữ liệu còn được gọi là khám phá tri thức trong cơ sở dữ liệu (KDD) Đây là một hoạt động bao gồm thu thập và sử dụng lịch sử dữ liệu để tìm ra tính quy luật, mẫu hoặc mối quan hệ trong các tập dữ liệu (Santosa, 2007) Ngoài ra, khai thác dữ liệu là sự kết hợp logic giữa kiến thức dữ liệu và phân tích thống kê được phát triển trong kiến thức kinh doanh hoặc một quy trình sử dụng các kỹ thuật thống kê, trí tuệ nhân tạo, toán học, mô phỏng và học máy (Machine Learning) nhằm trích xuất và xác định thông tin hữu ích cho lĩnh vực liên quan từ nhiều tệp dữ liệu khác nhau (Therling K, 2006)

Trang 9

Hình 1 là một chuỗi các quy trình, khai thác dữ liệu được chia thành nhiều gia đoạn Các giai đoạn này bao gồm: làm sạch dữ liệu, tích hợp, lựa chọn và chuyển đổi dữ liệu, quy trình khai thác, đánh giá mẫu và trình bày kiến thức có tính tương tác

1.2 RapidMiner: RapidMIiner là một ứng dụng dùng để phân tích khai thác dữ liệu và dự đoán RapidMiner cung cấp cái nhìn sâu sắc cho người dùng

thông qua kỹ thuật mô tả và dự đoán khác nhau để họ có thể đưa

ra quyết định tốt nhất Rapid Miner được viết bằng cách sử dụng

ngôn ngữ java để nó có thể hoạt động trên tất cả các hệ điều

hành Trước đây, Rapid Miner được gọi là YALE, nơi phiên bản ban

đầu bắt đầu được phát triển vào năm 2001 bởi Ralf Klinkenberg,

Ingo Mierswa và Simon Fischer tại Đơn vị Trí tuệ Nhân tạo của Đại học Dortmund Rapid Miner được phân phối theo giấy phép AGPL phiên bản 3 Cho đến nay, hàng ngàn ứng dụng đã được phát triển bằng Rapid Miner tại hơn 40 quốc gia

1.3 Cây quyết định (Decision tree): Cây quyết định là một mô hình supervised learning, có thể được áp dụng vào cả hai bài toán classification và regression Cây quyết định sử dụng biểu đồ giống như cây với các hậu quả, kết

Trang 10

quả, chỉ phí, sự kiện và tiện ích có thể xảy ra Cây quyết định

được sử dụng rộng rãi trong nghiên cứu hoạt động, phân tích tiếp thị, xu hướng tài chính cụ thể trong việc ra quyết định, để xác định chiến lược giúp đạt được mục tiêu Cây quyết định tương tự như sơ đồ trong đó nút nội bộ đại diện cho một thử nghiệm trên

một thuộc tính/trường/tham số như việc tung đồng xu sẽ dẫn đến đầu hay đuôi, sau đó các nhánh mô tả kết quả của thử nghiệm và nhãn lớp được biểu thị bằng các nút lá Các quy tắc phân loại được điều chỉnh bởi các đường dẫn từ nút gốc đến các nút lá

Trong quá trình ra quyết định, cây quyết định được sử dụng như một công cụ trực quan và phân tích, để dự đoán các giá trị mục tiêu

Mô hình cây quyết định

Number of "Big cđata” papers per year 120

rạc và không có thứ tự Ví dụ, mưa, nắng hay xanh, đỏ, Cây

quyết định cũng làm việc với dữ liệu có vector đặc trưng bao gồm cả thuộc tính dạng categorical và liên tục (numeric) Một điểm đáng lưu ý nữa là decision tree ít yêu cầu việc chuẩn hoá dữ liệu 1.4 Dữ liệu lớn (Big Data):

Thuật ngữ “Dữ liệu lớn” được giới thiệu lần đầu tiên vào năm 2005 từ công ty O“Reilly Media nhằm xác định một lượng lớn dữ liệu mà kỹ thuật quản lý dữ liệu truyền thống không thể phụ trách do sự phức tạp và kích thước của dữ liệu này Một nghiên cứu về sự phát triển của dữ liệu lớn “The Evolution of Big Data as a Research and

Trang 11

Scientific Topic” cho thay rằng thuật ngữ “Dữ liệu lớn” đã có mặt

trong nghiên cứu từ những năm 1970 và được đưa vào các ấn

phẩm năm 2008 (J Skyt, 2003) Timeline của Bigdata

Theo MIKE 2.0, dữ liệu lớn được xác định bởi kích thước của nó, là một tập hợp các bộ dữ liệu độc lập có khả năng tương tác, dữ liệu lớn bao gồm một khối lượng lớn và phức tạp Ngoài ra, một khía cạnh quan trọng của dữ liệu lớn là không thể xử lý bằng kỹ thuật quản lý dữ liệu tiêu chuẩn do sự không nhất quán và khó đoán

trước các sự kết hợp có thể xảy ra (J F Roddick, 2002)

sử dụng rộng rãi trong thuật toán cây quyết định Cây quyết định

sử dụng nhiều thuật toán để quyết định chia một nút thành hai hoặc nhiều nút con, việc tạo nút này tăng tính đồng nhất của các

nút con kết quả Cây quyết định chia các nút dựa trên tất cả các

biến có sẵn và sau đó chọn phân nhánh dẫn đến các nút con đồng nhất Thuật toán ID3 là một thuật toán được sử dụng trong cây quyết định, xây dựng cây quyết định bằng cách sử dụng phương pháp tìm kiếm từ trên xuống thông qua không quay lui

Thuật toán ID3 sử dụng hàm số Entropy làm cơ sở đo nồng độ đồng nhất của tập dữ liệu:

Hip==Š P,l0g(P;|

Trong ID3, tổng có trọng số của entropy tại các lá sau khi xây dựng cây quyết định được coi là hàm mất mát của cây quyết định đó Các trọng số ở đây tỉ lệ với số điểm dữ liệu được phân vào mỗi

Trang 12

nút Công việc của ID3 là tìm các cách phân chia hợp lý sao cho hàm mất mát cuối cùng đạt giá trị càng nhỏ càng tốt Bài toán xây dựng một cây quyết định bằng ID3 có thể chia thành các bài toán nhỏ, trong mỗi bài toán, ta chỉ cần chọn ra thuộc tính giúp cho việc phân chia đạt kết quả tốt nhất Mỗi bài toán nhỏ này tương ứng với việc phân chia dữ liệu trong một nút không có lá Chúng ta sẽ xây dựng phương pháp tính toán dựa trên mỗi nút này

Trang 13

IV KẾT QUẢ NGHIÊN CỨU

1 Thực nghiệm:

2 Kết luận:

Trang 14

Nguồn:

$1877050916306019

https://iopscience.iop.org/article/10.1088/1742- 6596/1997/1/012012/meta

Tiêu đề	Dự Báo Tồn Kho Nước Hoa Của Doanh Nghiệp Bằng Mô Hình Cây Quyết Định
Tác giả	Chung Khải Nghiệp, Vo Lé T6 Nhu
Người hướng dẫn	ThS. Lý Đức Minh
Trường học	Trường Đại học Văn Lang
Chuyên ngành	Kỹ Thuật Ra Quyết Định Trong Kinh Doanh
Thể loại	Báo cáo cuối kỳ
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	14
Dung lượng	920,83 KB