Kết quả phân tích mô tảSau khi thực hiện chuỗi các câu lệnh sẽ thu được kết quả là một bảng thống kê, cung cấpthông tin về phân bố và tính biến động của các biến số dạng số trong tập dữ
Trang 2DANH SÁCH THÀNH VIÊN
Trang 3MỤC LỤC
CHƯƠNG 1: TỔNG QUAN DỰ ÁN 5
1.1 Mục tiêu nghiên cứu dự án 5
1.2 Lý do chọn đề tài: 5
1.3 Dữ liệu và phương pháp nghiên cứu: 5
CHƯƠNG 2: TIẾN HÀNH PHÂN TÍCH DỮ LIỆU 7
2.1 Mô tả và làm sạch dữ liệu 7
2.1.1 Chuẩn bị dữ liệu 7
2.1.2 Phân tích mô tả 12
2.2 Phân tích dữ liệu 14
2.2.1 Mô hình Linear Regression (Hồi quy tuyến tính) 14
2.2.2 Mô hình Random Forest 15
CHƯƠNG 3: KẾT LUẬN 20
3.1 Kết luận 20
3.2 Những thành công và hạn chế 20
3.2.1 Những hạn chế: 20
3.2.2 Những thành công: 20
3.3 Hàm ý chính sách 20
TÀI LIỆU THAM KHẢO 21
Trang 4Tóm tắt: Phân tích dữ liệu trong lĩnh vực Mỹ phẩm và Làm đẹp, bao gồm chi tiết sản
phẩm, số liệu bán hàng, nhân khẩu học khách hàng và thông tin hậu cần để đánh giá toàndiện ngành Mỹ phẩm và Làm đẹp hiện nay Trong nghiên cứu này sử dụng dữ liệu từnghiên cứu của Mozhgan Assari (tháng 4/2024) và các mô hình học máy, cùng với cáccông cụ phân tích dữ liệu, nhằm cung cấp thông tin hữu ích cho các nhà quản lý và ngườitiêu dùng trong việc đưa ra các quyết định sáng suốt và có trách nhiệm, từ xu hướng bánhàng và sở thích của khách hàng đến tối ưu hóa chuỗi cung ứng và hiệu quả tiếp thị, giúpcác doanh nghiệp phát triển và đạt được lợi thế cạnh tranh
Abstract: Analyze data in the Cosmetics and Beauty sector, including product details,
sales figures, customer demographics and logistics information to comprehensivelyevaluate today's Cosmetics and Beauty industry In this study, data from MozhganAssari's research (April 2024) and machine learning models are used, along with dataanalysis tools, to provide useful information for managers and consumers in makinginformed and responsible decisions, from sales trends and customer preferences to supplychain optimization and marketing effectiveness, helping businesses grow and achievecompetitive advantage
Trang 5CHƯƠNG 1: TỔNG QUAN DỰ ÁN 1.1 Mục tiêu nghiên cứu dự án
Nhóm nghiên cứu dự án này nhằm mục tiêu khám phá và hiểu rõ hơn về các xu hướng,
mô hình và hành vi tiêu dùng, và những yếu tố ảnh hưởng trong lĩnh vực Mỹ phẩm vàLàm đẹp Sau đó, nhóm sẽ đi vào phân tích dữ liệu và các mô hình nhằm đánh giá sâuhơn Lĩnh vực này trong thời đại hiện nay
1.2 Lý do chọn đề tài:
Lĩnh vực Mỹ phẩm và Làm đẹp là một ngành công nghiệp có sức ảnh hưởng lớn đối vớivăn hoá xã hội và kinh tế toàn cầu Xu hướng Mỹ phẩm và làm đẹp đang ngày càng thayđổi liên tục, đòi hỏi sự nghiên cứu và cập nhật liên tục để hiểu rõ hơn về những biến đổinày Ngày càng có nhiều sự quan tâm đến các vấn đề bền vững và trách nhiệm xã hộitrong ngành Mỹ phẩm và làm đẹp, làm nổi bật sự cần thiết của các nghiên cứu liên quan
Dự án nghiên cứu này không chỉ đóng góp vào việc hiểu biết sâu sắc hơn về ngành Mỹphẩm và làm đẹp mà còn cung cấp các thông tin hữu ích cho các nhà quản lý, nhà thiết
kế, và người tiêu dùng trong việc đưa ra các quyết định sáng suốt và có trách nhiệm nênnhóm đã quyết định thực hiện dự án nghiên cứu này
1.3 Dữ liệu và phương pháp nghiên cứu:
Sau khi tìm hiểu nhóm đi vào phân tích dữ liệu và mô hình từ xu hướng bán hàng và sởthích của khách hàng đến tối ưu hóa chuỗi cung ứng và hiệu quả tiếp thị, hoạt động khámphá của nhóm nhằm mục đích tìm kiếm và phân tích những hiểu biết sâu sắc có giá trị cóthể thúc đẩy tăng trưởng kinh doanh và lợi thế cạnh tranh trong lĩnh vực này Để đạt đượccác mục tiêu đã đề ra nhóm đã sử dụng dữ liệu và các phương pháp nghiên cứu sau:Nguồn dữ liệu: Analysis of fashion and beauty dataset - Author: Mozhgan Assari - April2024
Nghiên cứu tài liệu: Tổng hợp và phân tích các tài liệu, báo cáo, và bài viết liên quan đếnlĩnh vực Mỹ phẩm và làm đẹp, thu thập dữ liệu về hành vi và sở thích tiêu dùng
Trang 6Phân tích dữ liệu: Sử dụng các công cụ phân tích dữ liệu để xử lý và phân tích các dữ liệuthu thập được từ dữ liệu thứ cấp và các bảng dữ liệu.
Trang 7CHƯƠNG 2: TIẾN HÀNH PHÂN TÍCH DỮ LIỆU 2.1 Mô tả và làm sạch dữ liệu
2.1.1 Chuẩn bị dữ liệu
Trước khi phân tích dữ liệu, việc làm sạch và xử lý sơ bộ là rất cần thiết để đảm bảo độchính xác và độ tin cậy của kết quả Quá trình làm sạch và xử lý bao gồm xử lý các giá trị
bị thiếu bằng cách gán giá trị hoặc xóa, loại bỏ các bản sao để đảm bảo tính thống nhất,
và kiểm tra định dạng dữ liệu để đảm bảo tính tương thích cho các phép tính toán học
Hình 2.1 Kết quả nhập và kiểm tra sơ bộ dữ liệu
Đoạn mã trên giúp nhập dữ liệu chuỗi cung ứng đã được đọc từ file CSV
"supply_chain_data.csv", kiểm tra sơ bộ để nắm bắt thông tin cơ bản của dữ liệu
Trang 8Hình 2.2 Các bước làm sạch dữ liệu
Đồng thời làm sạch dữ liệu bằng cách loại bỏ các hàng trống, hàng trùng lặp và chuẩnhóa tên cột Ngoài ra, đoạn mã còn xác định số lượng giá trị bị thiếu và kiểu dữ liệu củamỗi cột, giúp hiểu rõ hơn về chất lượng dữ liệu, cũng như kiểm tra xem tất cả các "SKU"
có duy nhất hay không, đảm bảo tính chính xác của dữ liệu
Trang 9Hình 2.3 Kết quả kiểm tra sơ bộ
Kiểm tra sơ bộ cho thấy tập dữ liệu bao gồm 100 quan sát với 22 biến, không có biến nào
có giá trị trống, mỗi biến được mô tả chi tiết về kiểu dữ liệu ở bảng 2.1
Trang 10STT Tên biến Ý nghĩa Kiểu dữ liệu
7 Inspection results Kết quả kiểm tra object
8 Transportation
modes
Phương tiện vậnchuyển
object
Trang 11products sold
Số lượng sảnphẩm đã bán
int64
17 Stock levels
Mức tồn kho (sốlượng sản phẩmtrong kho)
int64
19 Order quantities Số lượng đơn
Trang 1221 Lead time
Thời gian từ khiđặt hàng đến khigiao hàng
int64
volumes
Khối lượng sảnxuất
int64
23 Manufacturing
lead time Thời gian sản xuất
int64
Bảng 2.1 Các biến và mô tả biến
2.1.2 Phân tích mô tả
Để hiểu rõ hơn về tập dữ liệu, cần thực hiện thống kê, phân tích dữ liệu nhằm tóm tắt cácđặc điểm chính Qua đó, có cái nhìn tổng quan ban đầu về dữ liệu và nắm bắt được cáctính năng quan trọng Bằng cách tính toán các biện pháp xu hướng trung tâm như trungbình, trung vị, mode và các biện pháp biến động như độ lệch chuẩn, phạm vi cho các biến
số, từ đó có được những hiểu biết sâu sắc về các giá trị điển hình và mức độ biến độngcủa dữ liệu
Trang 13Hình 2.4 Các bước thực hiện phân tích mô tả
Hình 2.5 Kết quả phân tích mô tả
Sau khi thực hiện chuỗi các câu lệnh sẽ thu được kết quả là một bảng thống kê, cung cấpthông tin về phân bố và tính biến động của các biến số dạng số trong tập dữ liệu như trên
Từ đó, có thể dựa vào dữ liệu này để phân tích mối quan hệ giữa các biến, cũng như đánh
Trang 14giá các chiến lược kinh doanh cho phù hợp với xu hướng giá của thị trường, tinh chỉnh lạithời gian và chi phí để tối ưu hóa hiệu suất kinh doanh.
2.2 Phân tích dữ liệu
2.2.1 Mô hình Linear Regression (Hồi quy tuyến tính)
Linear Regression (hồi quy tuyến tính) là một loại thuật toán học máy có giám sát đượcdùng để tính toán mối quan hệ tuyến tính giữa biến phụ thuộc và một (hoặc nhiều) biếnđộc lập bằng cách khớp phương trình tuyến tính với dữ liệu được quan sát (GeekforGeek,2024)
Để đánh giá mức độ phù hợp của một mô hình hồi quy tuyến tính, các thước đo phổ biếnnhất là:
- MSE (Sai số bình phương trung bình): đánh giá mức trung bình của chênh lệchbình phương giữa giá trị thực tế và giá trị dự đoán cho tất cả các điểm dữ liệu Chỉ
số MSE càng thấp thì mô hình có hiệu suất cao hơn trong việc thực hiện các dựđoán
- Chỉ số R-square: cho biết mức độ biến đổi mà mô hình có thể giải thích được.R-square luôn nằm trong khoảng từ 0 đến 1 Nói chung, mô hình càng khớp với dữliệu thì số R-square càng lớn
Sau đây là kết quả phân tích mức độ phù hợp của mô hình:
Trang 15Hình 2.6 Kết quả phân tích mức độ phù hợp của mô hình Linear Regression
Có thể thấy, chỉ số MSE (Sai số bình phương trung bình) của mô hình là 16184218.25(hơn 16 triệu) là một con số lớn, chứng tỏ sai số bình phương trung bình của mô hình làcao Hơn nữa chỉ số R-square chỉ ở mức -1.01, là một kết quả không phù hợp Do đó,nhóm đã tiến hành thực hiện phân tích (Random forest)
2.2.2 Mô hình Random Forest
Random Forest (mô hình rừng cây) là một phương pháp thống kê được mô hình hóa bằngmáy nhằm mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựngnhiều cây quyết định (Decision tree) Random Forest có khả năng tìm ra thuộc tính nàoquan trọng hơn so với những thuộc tính khác (Phạm Minh Hải & Nguyễn NgọcQuang, 2019)
Để đánh giá mức độ phù hợp của một mô hình hồi quy tuyến tính, các thước đo phổ biếnnhất cũng là: MSE (Sai số bình phương trung bình) và chỉ số R-square
Trang 16Hình 2.7 Kết quả đánh giá hiệu suất mô hình Random Forest
Kết quả đánh giá hiệu suất cho thấy mô hình Random Forest vượt trội so với mô hình hồiquy tuyến tính trong việc dự đoán dữ liệu MSE (Sai số bình phương trung bình) của môhình Random Forest thấp hơn nhiều, chỉ 25.25, trong khi điểm số R-square đạt 0.7339,cho thấy mô hình giải thích được 73.39% biến thiên của dữ liệu Điều này trái ngược vớiđiểm số R-square âm của mô hình hồi quy tuyến tính, chứng tỏ Random Forest có khảnăng dự đoán chính xác hơn
Do đó, nhóm quyết định sử dụng mô hình Random Forest để đo lường các yếu tố ảnhhưởng đến doanh thu trong kinh doanh ngành mỹ phẩm Và ảnh bên dưới chính là kếtquả phân tích mức độ quan trọng của các nhân tố trong việc quyết định doanh thu trongkinh doanh ngành mỹ phẩm và làm đẹp
Trang 17Hình 2.8 Kết quả đánh giá hiệu suất mô hình Random Forest
Kết quả đánh giá hiệu suất cho thấy mô hình Random Forest vượt trội so với mô hình hồiquy tuyến tính trong việc dự đoán dữ liệu MSE (Sai số bình phương trung bình) của môhình Random Forest thấp hơn nhiều, chỉ 25.25, trong khi điểm số R-square đạt 0.7339,cho thấy mô hình giải thích được 73.39% biến thiên của dữ liệu Điều này trái ngược vớiđiểm số R-square âm của mô hình hồi quy tuyến tính, chứng tỏ Random Forest có khảnăng dự đoán chính xác hơn
Do đó, nhóm quyết định sử dụng mô hình Random Forest để đo lường các yếu tố ảnhhưởng đến doanh thu trong kinh doanh ngành mỹ phẩm Và ảnh bên dưới chính là kếtquả phân tích mức độ quan trọng của các nhân tố trong việc quyết định doanh thu trongkinh doanh ngành mỹ phẩm và làm đẹp
Trang 18Hình 2.9 Kết quả phân tích mức độ quan trọng của các nhân tố trong việc quyết
định doanh thu (Xếp theo thứ tự mức độ quan trọng giảm dần)
Từ kết quả phân tích, yếu tố có tầm quan trọng nhất là Chi phí sản xuất(manufacturing_costs) tiếp theo lần lượt là Tỷ lệ lỗi (defect_rates), Mức tồn kho(stock_levels), Sản lượng sản xuất (production_volumes), Khả năng cung ứng(availability) Các yếu tố khác như Thời gian từ khi đặt hàng đến khi giao hàng(lead_time), Chi phí vận chuyển (shipping_costs), Thời gian sản xuất(manufacturing_lead_time), Chi phí (costs), và Số lượng sản phẩm bán ra(number_of_products_sold) cũng nằm trong số các yếu tố quan trọng hàng đầu
Cũng có nhiều bài nghiên cứu đưa ra kết quả cũng như khuyến nghị tương tự Sản phẩm
mỹ phẩm là những sản phẩm tiêu dùng quan trọng, thiết yếu trong cuộc sống của mỗingười Các công ty mỹ phẩm phải liên tục cải thiện sản phẩm của mình để tồn tại trongthị trường cạnh tranh cao, nơi người tiêu dùng mong đợi nhiều sự lựa chọn và hiệu quảngày càng tăng (Bom và cộng sự, 2019; Secchi và cộng sự, 2016) Sự cạnh tranh caokhuyến khích các công ty mỹ phẩm châu Âu liên tục sản xuất các sản phẩm mới và đượccải thiện hoặc thay đổi danh mục sản phẩm để đáp ứng kỳ vọng của người tiêu dùng(Manteghi, 2017; Yaramenko-Gasiuk & Lukovets, 2021) Do đó, không sớm thì muộn,quy trình sản xuất của các công ty sẽ gặp khó khăn khi kết quả kinh doanh không còn
Trang 19thỏa mãn nhu cầu của người tiêu dùng Khi đó, việc cải tiến quy trình sản xuất trở nênquan trọng hơn bao giờ hết, và một trong những chiến lược chính là giảm thiểu chi phísản xuất nhằm tăng năng suất, cải thiện chất lượng sản phẩm (Afteni & Frumuşanu,2017).
Như vậy, giá sản xuất đóng vai trò then chốt trong việc cung cấp cho các công ty mỹphẩm lợi thế cạnh tranh trong thị trường đầy biến động hiện nay Các doanh nghiệp có thểcải thiện năng suất, chất lượng sản phẩm và giảm giá thành bằng cách tối ưu hóa chi phísản xuất, khiến họ có thể thu hút nhiều khách hàng hơn và tăng doanh thu Từ đó, giúpcác doanh nghiệp mỹ phẩm duy trì vị thế cạnh tranh, đáp ứng nhu cầu của khách hàngngày càng tăng và kiếm được lợi nhuận bền vững
Trang 20CHƯƠNG 3: KẾT LUẬN 3.1 Kết luận
Phân tích các yếu tố ảnh hưởng đến doanh thu trong kinh doanh ngành Mỹ phẩm và Làmđẹp một cách chính xác, nhanh chóng bằng các phương pháp học máy sẽ là bước đẩyquan trọng giúp cho các doanh nghiệp tự chủ trong mọi hành động, đưa ra những quyếtđịnh đúng đắn nhằm tránh những rủi ro xấu trong kinh doanh Qua kết quả nghiên cứu,các yếu tố quan trọng mà các chủ doanh nghiệp cần xem xét khi kinh doanh trong ngành
Mỹ phẩm và Làm đẹp bao gồm Chi phí sản xuất, Tỷ lệ lỗi, Mức tồn kho, Sản lượng sảnxuất, Khả năng cung ứng
3.2 Những thành công và hạn chế
3.2.1 Những hạn chế:
Một số biến độc lập như: các SKU (sku) và Đường đi (routes) trong mô hình chưa thực
sự phù hợp, đã làm tăng độ phức tạp, giảm tốc độ phân tích dữ liệu và giảm độ chính xáccủa mô hình
Mô hình Random Forest do nhóm lựa chọn để phân tích tuy đã có những cải thiện so với
mô hình Linear Regression nhưng vẫn có thể được cải thiện hơn trong tương lai để phùhợp với các chiến lược kinh doanh và điều kiện thị trường cụ thể
3.2.2 Những thành công:
Tuy có một số hạn chế, bài phân tích của nhóm cũng đã đưa ra những đặc trưng cơ bảncủa bộ dữ liệu thu thập được, đồng thời thử nghiệm 2 mô hình và chọn được mô hìnhhiệu quả hơn và đưa ra được mức độ quan trọng của những yếu tố ảnh hưởng đến doanhthu kinh doanh trong ngành mỹ phẩm và làm đẹp
- Giảm tỷ lệ lỗi sản phẩm: bằng cách tập trung vào việc kiểm tra chất lượng sảnphẩm, cải tiến quy trình kiểm soát chất lượng, và đào tạo nhân viên
- Quản lý tồn kho hiệu quả: việc quản lý tồn kho hiệu quả là cần thiết Sử dụng hệthống quản lý tồn kho tự động và dự báo nhu cầu chính xác để duy trì mức tồn khohợp lý, giảm thiểu tình trạng thiếu hụt hoặc dư thừa hàng tồn kho
Trang 21TÀI LIỆU THAM KHẢO
1 Afteni, C., & Frumuşanu, G (2017) A review on optimization of manufacturing
process performance International Journal of Modeling and Optimization, 7(3),
139-144
2 BBom, S., Jorge, J., Ribeiro, H M., & Marto, J (2019) A step forward on
sustainability in the cosmetics industry: A review Journal of Cleaner Production,
225, 270–290.
3 GeekforGeek (2024) “Linear Regression in Machine learning”
4 Hải, P M., & Quang, N N (2019) Khái niệm về phương pháp random foresttrong cuộc cách mạng machine learning và định hướng ứng dụng trong lĩnh vực
viễn thám Tạp chí Khoa học Đo đạc và Bản đồ, (39), 15-19.
5 Manteghi, M (2017) European cosmetics industry: Main aspects and regulation
SSRN Electronic Journal.
6 Secchi, M., Castellani, V., Collina, E., Mirabella, N., & Sala, S (2016) Assessingeco-innovations in green chemistry: Life Cycle Assessment (LCA) of a cosmetic
product with a biobased ingredient Journal of Cleaner Production, 129, 269– 281.
7 Yaramenko-Gasiuk, O., & Lukovets, T (2021) Some geographical aspects of
world’s perfume and cosmetic industry In International Scientific and Practical
Conference Geography and local history (pp 179–187) Oslo Interconf.