Nghiên cứu này đề xuất phương pháp khai thác dữ liệu bằng mô hình cây quyết định, được triển khai bằng ứng dụng RapidMiner nhằm dự đoán mức tồn kho nước hoa của doanh nghiệp.. Trong đó,
Trang 1TRƯỜNG ĐẠI HỌC VĂN LANG KHOA THƯƠNG MẠI
VANLANG
UNIVERSITY Gs
4 BÁO CÁO CUỐI KỲ MÔN: KỸ THUẬT RA QUYẾT ĐỊNH TRONG KINH
DOANH
DU BAO TON KHO NUOC HOA
CUA DOANH NGHIEP BANG MO
HINH CAY QUYET DINH
NHOM: GVHD: ThS Lý Đức Minh
Trang 2TP Hồ Chí Minh - năm 2024
DANH SÁCH THÀNH VIÊN
ĐÓNG
Trang 3DANH MUC CAC TU VIET TAT
Từ viết tat Ý nghĩa KDD Knowledge Discovery in Databases
YALE Yet Another Learning Environment
AGPL GNU Affero General Public License
ID3 Iterative Dichotomiser 3
Trang 4lI MỞ ĐẦU
1 Tóm tắt: Đối với các doanh nghiệp trong ngành công nghiệp nước hoa, dự
báo hàng tồn kho chính xác là điều cần thiết để giảm thiểu chi phi lưu giữ và duy trì mức tồn kho tối ưu đủ đáp ứng nhu cầu của
khách hàng Nghiên cứu này đề xuất phương pháp khai thác dữ
liệu bằng mô hình cây quyết định, được triển khai bằng ứng dụng
RapidMiner nhằm dự đoán mức tồn kho nước hoa của doanh nghiệp Bằng cách tận dụng dữ liệu lịch sử bán hàng, xu hướng thị trường và các biến số liên quan khác để dự đoán nhu cầu tồn kho trong tương lai Với cấu trúc mô hình cây quyết định (DecisionTree Regression), nghiên cứu nhằm mục đích tìm ra các
yếu tố chính ảnh hưởng đến mức tồn kho của dòng sản phẩm
nước hoa và tạo điều kiện thuận lợi cho quá trình ra quyết định các chiến lược cạnh tranh Kết quả nghiên cứu này cũng cung cấp
những thông tin có giá trị cho các doanh nghiệp nước hoa để cải
thiện chuỗi cung ứng, phương pháp quản lý hàng tồn kho và hiệu quả kinh doanh trong bối cảnh thị trường cạnh tranh không ngừng
2 Keyword: RapidMiner, mô hình cây quyết định (DecisionTree Regression), dự báo tồn kho nước hoa, khai thác dữ liệu
Trang 5II TONG QUAN VE DE TÀI
1 Gidi thiéu:
1.1 Giới thiệu đối tượng:
Hiện nay, cạnh tranh trong các lĩnh vực kinh tế đang là vấn đề quan trọng của xu hướng toàn cầu hóa và hội nhập kinh tế quốc
tế Trong đó, lĩnh vực mỹ phẩm ngày càng phát triển nhận được
sự hưởng ứng to lớn đến từ khách hàng, tốc độ phát triển của Internet đã mở ra một xu hướng mới khi các doanh nghiệp dần chuyển từ kinh doanh bán hàng truyền thống sang kinh doanh bán hàng hiện đại Do đó việc nâng cao năng lực cạnh tranh của mình trên thị trường thông qua các chính sách đổi mới về giá, sản
phẩm, là điều tất yếu mà các doanh nghiệp phải quan tâm
Trong ngành công nghiệp nước hoa, thị trường luôn biến động và sở thích của khách hàng thường xuyên thay đổi, quản lý tồn kho đóng vai trò then chốt trong việc cạnh tranh và đảm bảo hiệu suất kinh doanh của doanh nghiệp Việc kiểm soát tồn kho đòi hỏi sự chính xác và linh hoạt nhằm dự đoán nhu cầu sản phẩm, điều chỉnh sản xuất và duy trì mức tồn kho tối ưu Tuy nhiên, các
phương pháp dự báo truyền thống thường không nắm bắt được
các mối quan hệ và mô hình phức tạp vốn có trong dữ liệu bán
nước hoa Do đó, nhu cầu về kỹ thuật khai thác dữ liệu ngày càng tăng để có thể rút ra những thông tin từ bộ dữ liệu và thúc đẩy
quá trình ra quyết định Nghiên cứu này tập trung sử dụng ứng dụng RapidMiner để dự
báo tồn kho nước hoa của doanh nghiệp thông qua việc triển khai
các kỹ thuật khai thác dữ liệu, cụ thể là mô hình cây quyết định Bằng các dữ liệu đã thu thập được, RapidMiner cung cấp một nền tảng toàn diện giúp đẩy nhanh quá trình xử lý dữ liệu, phát triển và triển khai mô hình Mô hình cây quyết định mang đến một cái
nhìn sâu hơn về các yếu tố ảnh hưởng đến biến động hàng tồn
kho, giúp doanh nghiệp tối ưu hóa các hoạt động quản lý và ra quyết định về hàng tồn kho
Thông qua nghiên cứu này, nhóm chúng em mong muốn mang tính hiệu quả của RapidMiner đến các doanh nghiệp để triển khai các kỹ thuật khai thác dữ liệu trong bối cảnh đầy tính cạnh tranh của ngành công nghiệp nước hoa Những phát hiện nghiên cứu này cung cấp thông tin cho các doanh nghiệp nhằm mục đích
Trang 6nâng cao hiệu quả chuỗi cung ứng, tối ưu hóa trong quá trình ra quyết định và thúc đẩy hiệu quả kinh doanh
Nhà cung Đầu vào Bị) À 010 Đầu ra
(Supplier)
Nha san Lọc và xử Mô hình Sử dụng
Sử dụng Thông tin doanh
thông qua phan mềm Rapid | Miner dé phan tich va danh gia
1.3 Big Data: 1.4 Phương thức thu thập dữ liệu: Step 1: Mỗi khi nhận hàng hóa từ nhà sản xuất, cung cấp nước hoa nhân viên sẽ tiến hành nhập mã thời gian nhập kho và ghi nhận dán nhãn thông tin về sản phẩm như dòng nước hoa, giá cả, thông tin kỹ thuật, nhà sản xuất, số lượng và các thông tin khác Step 2: Mỗi khi sản phẩm được bán ra, nhân viên tiến hành ghi nhận các thông tin đến từ hệ thống bán hàng và thanh toán nhưữ số lượng sản phẩm bán ra, thông tin chiết khấu, giá trị hóa đơn,
doanh số bán hàng để hiểu rõ hơn về mức độ tiêu thụ sản phẩm
nước hoa và xu hướng mua hàng của khách hàng
Trang 7Step 3: Nhân viên theo dõi, thống kê và cập nhật số liệu biến
động của hàng hóa còn trong kho theo ngày, tuần tháng để kiểm
soát tồn kho 1.5 Mục tiêu nghiên cứu:
thống bán hàng và thanh toán khi có
lứa nhận thông tin chi tiết đên từ hệ
theo đợt về mức tồn kho nước hoa 1.6 Phương pháp nghiên cứu:
Trang 8II CƠ SỞ LÝ THUYẾT VÀ CƠ SỞ PHƯƠNG PHÁP 1 Cơ sở lý thuyết:
1.1 Khai thác dữ liệu:
Khai thác dữ liệu là hoạt động tìm kiếm các mẫu từ lượng lớn dữ
liệu Dữ liệu có thể được lưu trữ trong cơ sở dữ liệu, kho dữ liệu hoặc nơi lưu trữ thông tin khác Khai thác dữ liệu có liên quan đến các lĩnh vực khoa học như hệ thống cơ sở dữ liệu, lưu trữ dữ liệu, thống kê, machine learning, truy xuất thông tin và tính toán cấp cao Ngoài ra, khai thác dữ liệu còn được hỗ trợ bởi các ngành khoa học khác như mạng nơ ron nhân tạo, nhận dạng mẫu, phân tích không gian, cơ sở dữ liệu hình ảnh và xử lí tín hiệu (Han, 2006) Khai thác dữ liệu còn được gọi là khám phá tri thức trong cơ sở dữ liệu (KDD) Đây là một hoạt động bao gồm thu thập và sử dụng lịch sử dữ liệu để tìm ra tính quy luật, mẫu hoặc mối quan hệ trong các tập dữ liệu (Santosa, 2007) Ngoài ra, khai thác dữ liệu là sự kết hợp logic giữa kiến thức dữ liệu và phân tích thống kê được phát triển trong kiến thức kinh doanh hoặc một quy trình sử dụng các kỹ thuật thống kê, trí tuệ nhân tạo, toán học, mô phỏng và học máy (Machine Learning) nhằm trích xuất và xác định thông tin hữu ích cho lĩnh vực liên quan từ nhiều tệp dữ liệu khác nhau (Therling K, 2006)
Trang 9Hình 1 là một chuỗi các quy trình, khai thác dữ liệu được chia thành nhiều gia đoạn Các giai đoạn này bao gồm: làm sạch dữ liệu, tích hợp, lựa chọn và chuyển đổi dữ liệu, quy trình khai thác, đánh giá mẫu và trình bày kiến thức có tính tương tác
1.2 RapidMiner: RapidMIiner là một ứng dụng dùng để phân tích khai thác dữ liệu và dự đoán RapidMiner cung cấp cái nhìn sâu sắc cho người dùng
thông qua kỹ thuật mô tả và dự đoán khác nhau để họ có thể đưa
ra quyết định tốt nhất Rapid Miner được viết bằng cách sử dụng
ngôn ngữ java để nó có thể hoạt động trên tất cả các hệ điều
hành Trước đây, Rapid Miner được gọi là YALE, nơi phiên bản ban
đầu bắt đầu được phát triển vào năm 2001 bởi Ralf Klinkenberg,
Ingo Mierswa và Simon Fischer tại Đơn vị Trí tuệ Nhân tạo của Đại học Dortmund Rapid Miner được phân phối theo giấy phép AGPL phiên bản 3 Cho đến nay, hàng ngàn ứng dụng đã được phát triển bằng Rapid Miner tại hơn 40 quốc gia
1.3 Cây quyết định (Decision tree): Cây quyết định là một mô hình supervised learning, có thể được áp dụng vào cả hai bài toán classification và regression Cây quyết định sử dụng biểu đồ giống như cây với các hậu quả, kết
Trang 10quả, chỉ phí, sự kiện và tiện ích có thể xảy ra Cây quyết định
được sử dụng rộng rãi trong nghiên cứu hoạt động, phân tích tiếp thị, xu hướng tài chính cụ thể trong việc ra quyết định, để xác định chiến lược giúp đạt được mục tiêu Cây quyết định tương tự như sơ đồ trong đó nút nội bộ đại diện cho một thử nghiệm trên
một thuộc tính/trường/tham số như việc tung đồng xu sẽ dẫn đến đầu hay đuôi, sau đó các nhánh mô tả kết quả của thử nghiệm và nhãn lớp được biểu thị bằng các nút lá Các quy tắc phân loại được điều chỉnh bởi các đường dẫn từ nút gốc đến các nút lá
Trong quá trình ra quyết định, cây quyết định được sử dụng như một công cụ trực quan và phân tích, để dự đoán các giá trị mục tiêu
Mô hình cây quyết định
Number of "Big cđata” papers per year 120
rạc và không có thứ tự Ví dụ, mưa, nắng hay xanh, đỏ, Cây
quyết định cũng làm việc với dữ liệu có vector đặc trưng bao gồm cả thuộc tính dạng categorical và liên tục (numeric) Một điểm đáng lưu ý nữa là decision tree ít yêu cầu việc chuẩn hoá dữ liệu 1.4 Dữ liệu lớn (Big Data):
Thuật ngữ “Dữ liệu lớn” được giới thiệu lần đầu tiên vào năm 2005 từ công ty O“Reilly Media nhằm xác định một lượng lớn dữ liệu mà kỹ thuật quản lý dữ liệu truyền thống không thể phụ trách do sự phức tạp và kích thước của dữ liệu này Một nghiên cứu về sự phát triển của dữ liệu lớn “The Evolution of Big Data as a Research and
Trang 11Scientific Topic” cho thay rằng thuật ngữ “Dữ liệu lớn” đã có mặt
trong nghiên cứu từ những năm 1970 và được đưa vào các ấn
phẩm năm 2008 (J Skyt, 2003) Timeline của Bigdata
Theo MIKE 2.0, dữ liệu lớn được xác định bởi kích thước của nó, là một tập hợp các bộ dữ liệu độc lập có khả năng tương tác, dữ liệu lớn bao gồm một khối lượng lớn và phức tạp Ngoài ra, một khía cạnh quan trọng của dữ liệu lớn là không thể xử lý bằng kỹ thuật quản lý dữ liệu tiêu chuẩn do sự không nhất quán và khó đoán
trước các sự kết hợp có thể xảy ra (J F Roddick, 2002)
sử dụng rộng rãi trong thuật toán cây quyết định Cây quyết định
sử dụng nhiều thuật toán để quyết định chia một nút thành hai hoặc nhiều nút con, việc tạo nút này tăng tính đồng nhất của các
nút con kết quả Cây quyết định chia các nút dựa trên tất cả các
biến có sẵn và sau đó chọn phân nhánh dẫn đến các nút con đồng nhất Thuật toán ID3 là một thuật toán được sử dụng trong cây quyết định, xây dựng cây quyết định bằng cách sử dụng phương pháp tìm kiếm từ trên xuống thông qua không quay lui
Thuật toán ID3 sử dụng hàm số Entropy làm cơ sở đo nồng độ đồng nhất của tập dữ liệu:
Hip==Š P,l0g(P;|
Trong ID3, tổng có trọng số của entropy tại các lá sau khi xây dựng cây quyết định được coi là hàm mất mát của cây quyết định đó Các trọng số ở đây tỉ lệ với số điểm dữ liệu được phân vào mỗi
Trang 12nút Công việc của ID3 là tìm các cách phân chia hợp lý sao cho hàm mất mát cuối cùng đạt giá trị càng nhỏ càng tốt Bài toán xây dựng một cây quyết định bằng ID3 có thể chia thành các bài toán nhỏ, trong mỗi bài toán, ta chỉ cần chọn ra thuộc tính giúp cho việc phân chia đạt kết quả tốt nhất Mỗi bài toán nhỏ này tương ứng với việc phân chia dữ liệu trong một nút không có lá Chúng ta sẽ xây dựng phương pháp tính toán dựa trên mỗi nút này
Trang 13IV KẾT QUẢ NGHIÊN CỨU
1 Thực nghiệm:
2 Kết luận:
Trang 14Nguồn:
$1877050916306019
https://iopscience.iop.org/article/10.1088/1742- 6596/1997/1/012012/meta