- Đối tượng nghiên cứu: Từ việc thu thập bộ dữ liệu đơn hàng sử dụng kỹ thuật khai phá dữ liệu bằng luật kết hợp và phân lớp dữ liệu để dự đoán tình trạng đơn hàng trên sàn TMĐT Shopee c
TỔNG QUAN CHUNG
Tổng quan chung về Công ty cổ phần và thương mại TTP Việt Nam
Công ty Cổ phần và Thương mại TTP Việt Nam, được thành lập vào năm 2018, có ba chi nhánh tại Hà Nội, TP Hồ Chí Minh và Đà Nẵng, với trụ sở chính tại số 49, TT28, Khu đô thị Văn Phú, phường Phú La, quận Hà Đông, Hà Nội Chuyên cung cấp và kinh doanh các mặt hàng gia dụng, TTP Việt Nam nhằm đáp ứng nhu cầu thiết thực của mọi gia đình Việt Công ty cung cấp đa dạng sản phẩm như máy lọc nước mini, cân điện tử, đồ gia dụng và bể bơi, với phương châm phục vụ khách hàng tận tâm.
- Tâm Tốt Phúc - Giá cả cạnh tranh, TTP cam kết sẽ cung cấp những sản phẩm chất lượng đến với gia đình Việt
1.1.2 Mô hình hóa tổ chức
Công ty cổ phần và thương mại TTP hoạt động dựa trên phương châm “Ai cũng quan trọng - không ai quan trọng hơn ai” Mỗi thành viên đều thể hiện thái độ làm việc tự chủ và trách nhiệm, góp phần vào sự phát triển bền vững của công ty.
Sơ đồ tổ chức quản trị của công ty là sơ đồ cấu trúc theo kiểu trực tuyến chức năng:
Hình 1: Sơ đồ cơ cấu tổ chức của Công ty CN&TM TTP Việt Nam
- Chức năng nghiệp vụ của các bộ phận trong công ty:
Giám đốc và Phó Giám đốc là những người đứng đầu, quản lý và điều hành tất cả các hoạt động kinh doanh hàng ngày của công ty, được bổ nhiệm bởi Hội đồng quản trị Họ có trách nhiệm cá nhân về nhiệm vụ của mình trước Giám đốc và Hội đồng quản trị.
Phòng Nhân sự đóng vai trò quan trọng trong công ty với nhiệm vụ tuyển dụng, đào tạo và phát triển nhân viên Ngoài ra, phòng còn quản lý các chính sách nhân sự và đảm bảo tuân thủ luật lao động cùng các quy định an toàn lao động Một trong những trách nhiệm chính của Phòng Nhân sự là duy trì mối quan hệ tốt giữa các bộ phận trong công ty.
Phòng Kế toán có nhiệm vụ chính là ghi nhận, theo dõi, phân tích và báo cáo các giao dịch tài chính của công ty, đảm bảo tính chính xác và minh bạch trong quản lý tài chính.
Kế toán cần tuân thủ các quy định pháp luật về kế toán và thuế, đồng thời chuẩn bị các tài liệu liên quan đến kiểm toán và thanh tra tài chính để đảm bảo tính minh bạch và hợp pháp trong hoạt động tài chính.
Phòng marketing đóng vai trò quan trọng trong việc phân tích thị trường và nhu cầu khách hàng, từ đó phát triển các chiến lược tiếp thị hiệu quả cho sản phẩm và dịch vụ của công ty Công việc của phòng marketing bao gồm nghiên cứu thị trường, phát triển sản phẩm mới, tìm kiếm khách hàng tiềm năng, xây dựng thương hiệu, quảng bá sản phẩm và đánh giá hiệu quả các chiến dịch tiếp thị.
Phòng Kinh doanh là bộ phận hỗ trợ Tổng giám đốc trong việc xây dựng chiến lược bán hàng và nghiên cứu sản phẩm nhằm tăng doanh thu Để đạt được mục tiêu này, phòng Kinh doanh thực hiện các hoạt động như nghiên cứu thị trường, lập kế hoạch kinh doanh, tìm kiếm khách hàng mới, xử lý đơn hàng, thực hiện bán hàng và đánh giá hiệu quả hoạt động kinh doanh.
Chi nhánh Thành phố Hồ Chí Minh có trách nhiệm triển khai hoạt động bán hàng nhằm đạt doanh thu theo mục tiêu của Ban Giám Đốc Đồng thời, chi nhánh cũng thực hiện kiểm tra, giám sát và đánh giá công việc của nhân viên trong bộ phận, từ đó đưa ra quyết định về khen thưởng và kỷ luật phù hợp.
Quản lý kho hàng tại bộ phận miền Bắc – TP Hà Nội là một công việc quan trọng, giúp cân bằng hoạt động mua và bán của công ty Để tối ưu hóa doanh thu và giảm thiểu chi phí, người quản lý kho cần có chiến lược rõ ràng Nếu quản lý kho không hiệu quả, sẽ dẫn đến tình trạng thiếu hụt hàng hóa hoặc tồn kho quá nhiều, ảnh hưởng tiêu cực đến hoạt động kinh doanh và các sản phẩm dịch vụ của doanh nghiệp.
Hiện tại công ty đang sở hữu nhiều gian hàng trên Lazada, Shopee, Tiki để kinh doanh nhiều mặt hàng của nhiều nhãn hiệu khác nhau
4759 Bán lẻ đồ điện gia dụng, giường tủ, bàn, ghế và đồ nội thất tương tự, đèn và bộ đèn điện, đồ dùng gia đình khác
4610 Đại lý, Môi giới, Đấu giá
4649 Bán buôn đồ dùng khác cho ga đình
4719 Bán lẻ khác trong các cửa hàng kinh doanh tổng hợp
4791 Bán lẻ theo yêu cầu đặt hàng qua bưu điện hoặc Internet
4799 Bán lẻ hình thức khác chưa được phân vào đâu
4659 Bán buôn máy móc, thiết bị và phụ tùng máy khác
Công ty CN&TM TTP Việt Nam cung cấp đa dạng các sản phẩm nhằm đáp ứng nhu cầu tiêu dùng của khách hàng ở nhiều độ tuổi khác nhau Bảng 1 liệt kê các ngành hàng chính của công ty, thể hiện sự linh hoạt trong việc nắm bắt thị hiếu và nhu cầu của thị trường.
- Đồ dùng nhà bếp: Cân điện tử, Ấm đun nước siêu tốc, Máy hút chân không,…
- Đồ chơi: Bể bơi, Bóng nhựa, Mô hình robot,…
- Dụng cụ và thiết bị tiện ích: Kìm, vòi nước, máy bơm, máy dò khí ga,…
- Dụng cụ thể thao: Giày trượt patin, ống nhòm, thảm tập yoga,
Python trong Data mining
Vào năm 1991, Guido Van Rossum cùng các cộng sự đã phát triển ngôn ngữ lập trình Python, nổi bật với cú pháp đơn giản và ngắn gọn Python được ưa chuộng bởi những người mới học lập trình nhờ vào cấu trúc mã lệnh dễ đọc và viết hơn so với các ngôn ngữ khác Là một ngôn ngữ lập trình đa nền tảng, Python có khả năng chạy trên hầu hết các hệ điều hành như Windows, MacOS và Linux Ngôn ngữ này được sử dụng rộng rãi trong nhiều lĩnh vực, bao gồm khoa học dữ liệu, học máy và phát triển web.
Một số đặc điểm nổi bật của ngôn ngữ Python: (About Python, 1996)
Python dễ học và sử dụng nhờ cú pháp đơn giản và dễ đọc, sử dụng khoảng trống để phân biệt các khối lệnh thay vì dấu ngoặc, giúp mã nguồn ngắn gọn hơn Hơn nữa, Python tương thích với nhiều nền tảng như Windows, MacOS và Linux, cho phép các nhà phát triển dễ dàng tạo ra các ứng dụng có tính tương thích cao trên nhiều hệ điều hành khác nhau.
Ngôn ngữ Python nổi bật với khả năng thông dịch cao cấp, cho phép lập trình viên không phải lo lắng về các vấn đề như tràn bộ nhớ hay quản lý bộ nhớ Hệ thống quản lý bộ nhớ tự động của Python giúp dọn dẹp và giải phóng bộ nhớ khi chương trình hoàn tất, cho phép người lập trình tập trung vào việc giải quyết các vấn đề của chương trình mà không phải bận tâm về những rắc rối liên quan đến bộ nhớ hay dữ liệu không cần thiết.
Python sở hữu một thư viện phong phú và đa dạng, bao gồm nhiều thư viện phục vụ cho khoa học dữ liệu, trí tuệ nhân tạo, đồ họa và phát triển web Điều này cho phép các nhà phát triển dễ dàng và nhanh chóng xây dựng các ứng dụng phức tạp.
1.2.2 Python trong khai phá dữ liệu
Python là ngôn ngữ lập trình hàng đầu trong khai thác dữ liệu, nhờ vào các thư viện mạnh mẽ hỗ trợ xử lý dữ liệu, tính toán số học và thống kê, cũng như trực quan hóa dữ liệu hiệu quả.
Các thư viện phổ biến nhất trong Python để khai phá dữ liệu bao gồm: (About Python, 1996)
Pandas là thư viện Python phổ biến cho phân tích dữ liệu, khoa học dữ liệu và học máy, giúp xử lý hiệu quả các dữ liệu dạng bảng.
Numpy là một thư viện mạnh mẽ trong Python, giúp thực hiện các phép toán khoa học cùng với các phép toán trên mảng đơn giản và phức tạp Thư viện này hỗ trợ người dùng làm việc hiệu quả với mảng và ma trận, nâng cao khả năng tính toán trong các ứng dụng khoa học.
SciKit-Learn là thư viện học máy phổ biến trong Python, cung cấp các công cụ mạnh mẽ cho việc áp dụng máy học và mô hình thống kê Thư viện này hỗ trợ nhiều phương pháp như phân loại, hồi quy, phân cụm và giảm kích thước dữ liệu, giúp người dùng dễ dàng thực hiện các tác vụ phân tích và dự đoán.
Matplotlib là một thư viện trực quan hóa dữ liệu mạnh mẽ, hỗ trợ tạo ra các sơ đồ và đồ thị hai chiều như biểu đồ phân tán và biểu đồ tọa độ không phải Descartes Thư viện này rất hữu ích cho các dự án khoa học dữ liệu, nhờ vào API hướng đối tượng cho phép tích hợp biểu đồ một cách linh hoạt vào chương trình.
Seaborn là một công cụ mạnh mẽ để trực quan hóa các mô hình thống kê, bao gồm bản đồ nhiệt và nhiều hình thức trực quan hóa khác, giúp tóm tắt dữ liệu hiệu quả và minh họa các phân phối tổng thể một cách rõ ràng.
Plotly là một công cụ trực quan hóa dữ liệu trực tuyến, cung cấp nhiều hình ảnh trực quan hữu ích có sẵn trên trang web của nó.
Anaconda là một bộ công cụ mã nguồn mở và miễn phí, giúp người dùng dễ dàng quản lý, cài đặt và sử dụng các thư viện cũng như công cụ khoa học dữ liệu cho Python.
Anaconda cung cấp giao diện dòng lệnh và giao diện đồ họa, giúp người dùng dễ dàng cài đặt và quản lý thư viện cũng như môi trường Python Một số ưu điểm nổi bật của Anaconda bao gồm tính tiện lợi và khả năng hỗ trợ quản lý các gói phần mềm hiệu quả.
- Anaconda cung cấp hơn 1.500 gói khoa học dữ liệu và phát triển cho Python, bao gồm các gói như NumPy, Pandas, Matplotlib, Scikit-learn và TensorFlow
- Anaconda cung cấp một giao diện đồ họa cho phép người dùng cài đặt và quản lý các gói và môi trường Python một cách dễ dàng
Anaconda là một công cụ mạnh mẽ giúp người dùng quản lý gói Python và các phiên bản khác nhau của chúng Bên cạnh đó, Anaconda còn cung cấp trình quản lý môi trường, cho phép tạo ra các môi trường Python độc lập với các gói khác nhau, giúp tối ưu hóa quy trình phát triển và thử nghiệm.
Anaconda đi kèm với Jupyter Notebook, một công cụ mã nguồn mở cho phép người dùng tạo tài liệu tương tác bao gồm mã, văn bản và hình ảnh Jupyter Notebook được ưa chuộng trong cộng đồng khoa học dữ liệu và phát triển Python.
KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP VÀ PHÂN LỚP DỮ LIỆU
Tổng quan về khai phá dữ liệu
2.1.1 Tại sao phải khai phá dữ liệu
Chúng ta đang sống trong một thế giới dữ liệu bùng nổ, với lượng thông tin trên các thiết bị điện tử ngày càng gia tăng Dữ liệu có thể được thu thập dễ dàng thông qua các công cụ tự động, hệ thống cơ sở dữ liệu và mạng xã hội Dự báo rằng sau khoảng hai năm, lượng thông tin toàn cầu sẽ tăng gấp đôi Mặc dù lượng dữ liệu lớn mang đến nhiều sự lựa chọn, nhưng cũng tạo ra không ít thách thức Do đó, việc khai thác triệt để các nguồn dữ liệu quý giá trở thành vấn đề cần giải quyết Khai phá dữ liệu đã ra đời như một giải pháp, giúp tự động phân tích các tập dữ liệu lớn để khám phá tri thức mới.
2.1.2 Định nghĩa khai phá dữ liệu
Trong nhiều thập kỷ qua, con người đã khai thác các địa điểm để khám phá những bí ẩn, và khai phá dữ liệu (Data Mining) được định nghĩa là quá trình sàng lọc dữ liệu nhằm phát hiện các mối quan hệ tiềm ẩn và dự đoán xu hướng tương lai Thuật ngữ này xuất hiện vào những năm 1990, kết hợp từ trí tuệ nhân tạo, học máy và thống kê Khai phá dữ liệu giống như việc tìm kiếm đá quý trong một ngọn núi, yêu cầu phải xử lý một khối lượng lớn thông tin để tìm ra giá trị tiềm ẩn Lợi ích của khai phá dữ liệu là rất lớn, giúp con người tiếp cận nhiều nguồn tri thức quý giá hơn Theo J Han và M Kamber (2011), khai phá dữ liệu bao gồm các kỹ thuật tự động để khai thác và tìm ra các mối quan hệ cũng như mẫu tiềm ẩn trong các tập dữ liệu phức tạp.
2.1.3 Những nhóm bài toán của khai phá dữ liệu
Phân lớp là một trong những bài toán phổ biến trong khai phá dữ liệu, nhằm chia dữ liệu thành các lớp đã được xác định trước Kỹ thuật này dựa trên các thuộc tính của dữ liệu để xác định lớp mà mỗi bản ghi thuộc về Mục tiêu chính của phân lớp là sắp xếp dữ liệu vào các lớp đã định, thường liên quan đến việc dự đoán một biến mục tiêu có thể nhận nhiều giá trị khác nhau.
(Ví dụ: trời mưa/ trời không mưa; giỏi/ khá/ trung bình) với một hoặc nhiều biến đầu vào được gọi là dự đoán
Một số thuật toán hay dùng trong phân cụm như: cây quyết định, mạng nơron, Naitive Bayes,…
Phân cụm là kỹ thuật nhóm các mục liên quan trong cơ sở dữ liệu thành các cụm dựa trên sự tương đồng Khác với phân loại, nơi các biến được gán vào các nhãn đã biết, phân cụm xác định các cụm trong tập dữ liệu trước, sau đó nhóm chúng dựa trên các đặc điểm chung.
2.1.3.3 Luật kết hợp (Association rules)
Luật kết hợp là một kỹ thuật quan trọng trong việc khám phá mối liên hệ giữa các thuộc tính Nó thường được áp dụng trong phân tích giỏ hàng để xác định các mối quan hệ giữa sản phẩm, chẳng hạn như sự kết hợp giữa xúc xích và bánh mì, khi khách hàng có xu hướng mua cả hai sản phẩm này cùng nhau Đôi khi, những mối quan hệ này rất khó phát hiện, do đó cần sử dụng các kỹ thuật khai phá dữ liệu như luật kết hợp để phát hiện ra chúng.
Bài toán hồi quy tương tự như bài toán phân loại, nhưng khác biệt ở chỗ hồi quy áp dụng cho dữ liệu liên tục, trong khi phân loại dùng cho dữ liệu rời rạc Hồi quy thường được sử dụng để lập mô hình và lên kế hoạch, chẳng hạn như dự đoán tuổi của khách hàng dựa trên lịch sử mua sắm của họ.
Phân tích chuỗi là một kỹ thuật khai phá dữ liệu giúp phát hiện các mối quan hệ có ý nghĩa giữa các lần xuất hiện của sự kiện Kỹ thuật này cho phép chúng ta xác định sự phụ thuộc giữa các sự kiện dựa trên thứ tự thời gian của chúng Ví dụ, khi nghiên cứu tác dụng của một loại thuốc hoặc phương pháp điều trị đối với bệnh nhân ung thư, phân tích chuỗi cung cấp yếu tố thời gian quan trọng để hiểu rõ hơn về hiệu quả điều trị.
Kỹ thuật khai phá dữ liệu phân tích độ lệch và phát hiện bất thường giúp xác định các giá trị ngoại lai vượt ngưỡng định mức Phương pháp này được áp dụng rộng rãi trong việc phát hiện gian lận và xâm nhập trái phép, đặc biệt trong các lĩnh vực tín dụng và mạng máy tính.
2.1.4 Ứng dụng khai phá dữ liệu
Khai phá dữ liệu có rất nhiều ứng dụng trong thực thế như: (Bharati M Ramageri,
Khai phá dữ liệu trong lĩnh vực chăm sóc sức khỏe đóng vai trò quan trọng trong việc dự đoán khả năng nhiễm bệnh và đề xuất phương pháp điều trị phù hợp Các công nghệ như học máy, trực quan hóa dữ liệu và thống kê giúp xác định số lượng bệnh nhân và cải thiện quy trình chăm sóc, đảm bảo bệnh nhân nhận được sự hỗ trợ kịp thời Bên cạnh đó, việc phát hiện các mẫu bất thường trong yêu cầu y tế và đơn thuốc cũng góp phần quan trọng trong việc theo dõi và ngăn chặn hành vi gian lận.
Dự đoán xu hướng và hành vi của khách hàng trong ngành bảo hiểm là một thách thức lớn Nhờ vào khai phá dữ liệu, các công ty bảo hiểm có thể hiểu rõ hơn về hành vi mua sắm của khách hàng và dự đoán các hợp đồng bảo hiểm mà họ có khả năng chọn trong tương lai Phân tích bảo hiểm cũng giúp giải quyết hiệu quả các vấn đề như gian lận, quản lý rủi ro và tuân thủ quy định Sự phát triển của kỹ thuật và công cụ khai phá dữ liệu cho phép các công ty tối ưu hóa sản phẩm và triển khai các chiến lược mới, từ đó cung cấp sản phẩm cạnh tranh hơn.
Để nâng cao tính cạnh tranh trong ngành bán lẻ, người bán cần hiểu rõ khách hàng và sản phẩm của mình Sử dụng phân tích dữ liệu giỏ hàng giúp nhận diện mối quan hệ giữa các sản phẩm, từ đó xác định các sản phẩm bán kèm, tần suất mua hàng và quản lý kho hiệu quả hơn Hiểu biết này không chỉ cải thiện chất lượng phục vụ mà còn tăng doanh số bán hàng.
Trong ngành giáo dục, một thách thức lớn là nắm bắt tình trạng của từng sinh viên Khai phá dữ liệu đóng vai trò quan trọng trong việc hiểu rõ quá trình học tập của sinh viên, giúp nhà trường dự đoán điểm số, xác định cơ hội và theo dõi hiệu suất giảng dạy Bên cạnh đó, khai phá dữ liệu còn hỗ trợ tìm ra phương pháp giảng dạy hiệu quả và những điểm cần cải thiện để nâng cao chất lượng giáo dục.
Lọc ứng viên là một trong những giai đoạn tốn thời gian nhất trong quy trình tuyển dụng Tuy nhiên, nhờ vào ứng dụng khai phá dữ liệu, nhà tuyển dụng có thể nhanh chóng lọc ra những ứng viên phù hợp, giúp tiết kiệm thời gian và tăng hiệu quả trong việc tìm kiếm nhân sự.
Ngành tài chính ngân hàng đang phát triển mạnh mẽ, dẫn đến khối lượng giao dịch hàng ngày gia tăng nhanh chóng Để tối ưu hóa quy trình kinh doanh, các ngân hàng cần khai thác hiệu quả nguồn dữ liệu này Nhận thức được tầm quan trọng của việc này, nhiều ngân hàng đã chuyển sang sử dụng khai phá dữ liệu thay vì các phương pháp phân tích truyền thống, nhằm phục vụ cho việc phân khúc khách hàng, tối ưu hóa lợi nhuận, đánh giá tín dụng và phát hiện gian lận.
Bằng cách thu thập dữ liệu về độ ẩm và nhiệt độ, kết hợp với các kỹ thuật khai phá dữ liệu, chúng ta có thể xây dựng các mô hình dự báo thời tiết, mực nước và hạn hán Khai phá dữ liệu giúp dự đoán các cơn bão và thiên tai sắp xảy ra, từ đó cho phép đưa ra các biện pháp ứng phó kịp thời, nhằm giảm thiểu thiệt hại về người và tài sản.
Luật kết hợp (Association rules)
Luật kết hợp là một nhiệm vụ quan trọng trong khai phá dữ liệu, nhằm xác định các yếu tố thường xuất hiện cùng nhau Một ví dụ điển hình là việc phát hiện các mặt hàng được mua chung trong một giỏ hàng tại siêu thị Do đó, nhiệm vụ này còn được gọi là phân tích giỏ hàng (Ian H Witten, Eibe Frank, và Marker Hall, 2011).
Khai phá luật kết hợp là quá trình phát hiện các mẫu liên quan thường xuyên giữa các mục hoặc đối tượng trong cơ sở dữ liệu giao tác, cơ sở dữ liệu quan hệ, và các kho thông tin khác.
2.2.2 Các khái niệm cơ bản
- Phân loại luật kết hợp:
+ Các luật có thể giải thích được
Luật có giá trị cao thường dễ dàng giải thích và có nguyên do hình thành rõ ràng Khi phát hiện một luật mẫu, việc xây dựng kịch bản giải thích phù hợp yêu cầu người phân tích hiểu rõ tâm lý khách hàng, điều này cũng quyết định giá trị của luật đó.
Luật kết hợp tầm thường dễ nhận biết bởi những người có chuyên môn, và khi chúng xuất hiện với tần suất cao, cần xem xét lại chất lượng dữ liệu tìm kiếm Những luật này chỉ mang lại tri thức phổ biến, gây lãng phí công sức khi áp dụng các kỹ thuật phân tích phức tạp.
+ Các luật không thể giải thích được
Một luật kết hợp được xem là không thể giải thích khi không có kịch bản nào để làm rõ hành động của khách hàng Những dạng luật này mang tính ngẫu nhiên và không phổ biến, do đó, không nên sử dụng các luật không thể giải thích.
- Một số khái niệm và độ đo
1 Item (Mục) Là một đối tượng hoặc một thuộc tính có thể xuất hiện trong một tập dữ liệu
Một giao dịch là một tập hợp các mục
Tần số của một mục là số lần xuất hiện của nó trong tập dữ liệu
(Tập phần tử phổ biến)
Là tập phần tử có độ support thỏa mãn sup(X,D)> minsup
Là tỷ lệ của số lượng giao dịch chứa cả sản phẩm X và
Y so với tổng số lượng giao dịch sup (X → Y, D) = 𝑠𝑢𝑝(𝑋 ∪ 𝑌, 𝐷)
Là tỷ lệ của số lượng giao dịch chứa cả sản phẩm X và sản phẩm Y so với số lượng giao dịch chỉ chứa sản phẩm X
Bảng 2: Một số độ đo trong luật kết hợp
Thuật toán FP-Growth, do Jiawei Han phát triển, là một phương pháp khai thác mẫu dựa trên cấu trúc cây, chuyên tìm kiếm các mẫu phổ biến trong tập dữ liệu Với khả năng xử lý hiệu quả các tập dữ liệu lớn, FP-Growth đã trở thành một công cụ quan trọng trong lĩnh vực khai phá dữ liệu và học máy.
Trong quá trình khai thác mẫu dữ liệu, thuật toán FP-Growth áp dụng phương pháp "chia để trị" để phân chia tập dữ liệu thành các tập con nhỏ hơn và đệ quy khai thác từng tập con FP-Growth xây dựng cây FP-Tree và sử dụng nó để liệt kê tất cả các mẫu tần suất trong dữ liệu Một trong những ưu điểm nổi bật của FP-Growth là không cần tạo ra tất cả các tập phổ biến như các thuật toán khác như Apriori, giúp tiết kiệm thời gian và không gian lưu trữ FP-Growth cũng có khả năng xử lý các tập dữ liệu lớn hơn một cách hiệu quả hơn so với Apriori Thuật toán này được thực hiện qua hai giai đoạn: xây dựng cây FP-Tree và khai thác các mục phổ biến từ cây FP-Tree.
- Thiết kế và xây dựng cây FP-Tree
Cây FP-Tree là một cấu trúc dữ liệu quan trọng trong thuật toán FP-Growth, giúp đại diện cho tập dữ liệu và tìm kiếm các mục phổ biến (frequent itemsets) Cây này được xây dựng từ các giao dịch trong tập dữ liệu, với mỗi nút biểu thị một mục và số lần xuất hiện của nó Các nút con của nút cha thể hiện các mục cùng xuất hiện trong các giao dịch, tạo thành một cấu trúc cây liên kết FP-Tree cho phép tìm kiếm tập mục phổ biến một cách nhanh chóng và hiệu quả, giảm thiểu thời gian duyệt qua toàn bộ dữ liệu để đếm số lần xuất hiện Quá trình xây dựng cây FP-Tree diễn ra qua hai bước.
Duyệt qua cơ sở dữ liệu để xác định các tập item phổ biến F và tính toán độ phổ biến của chúng Sau đó, sắp xếp các item trong F theo thứ tự giảm dần của độ phổ biến để thu được kết quả.
Hình 2: Xây dựng cây FP-Tree (1)
B2: Tạo nút gốc cho cây T, tên của nút gốc sẽ là Null Sau đó duyệt CSDL lần thứ hai
- Khai thác tập phổ biến từ FP-Tree
Sau khi xây dựng cây FP-Tree, việc khai thác tập phổ biến từ cây có thể thực hiện bằng cách duyệt lại cây một lần nữa Các itemset phổ biến được tìm thấy từ các nhánh con của cây, bắt đầu từ các item có hỗ trợ đơn vị đến các itemset lớn hơn Để xác định các itemset phổ biến, ta tiến hành duyệt từ dưới lên, bắt đầu từ các nhánh con của itemset đơn có hỗ trợ lớn hơn hoặc bằng min_sup Tại mỗi nhánh con, hỗ trợ của itemset được tính bằng cách nhân hỗ trợ của các nút trên đường đi từ gốc cây đến nhánh con đó Sau đó, kiểm tra xem itemset có phải là frequent itemset hay không và nếu có, thêm vào danh sách các frequent itemset đã tìm thấy, tiếp tục duyệt đến các nhánh con khác để tìm kiếm thêm các frequent itemset.
Thủ tục FP-Growth (FP Growth Algorithm in Data Mining, 2015)
Hình 3: Xây dựng cây FP-Tree (2)
Hình 4: Thủ tục FP-Growth
Quá trình tìm kiếm các frequent itemset trở nên dễ dàng hơn nhờ vào việc sắp xếp chúng theo thứ tự hỗ trợ giảm dần Điều này cũng đồng nghĩa với việc các itemset con sẽ được sắp xếp tương tự, giúp tăng tốc độ và hiệu quả trong việc xác định các frequent itemset so với phương pháp duyệt toàn bộ itemset.
2.2.3.1 Ưu điểm và nhược điểm của thuật toán FP-Growth
Trong bài viết này, tôi đã chọn thuật toán FP-Growth để khai phá luật kết hợp, vì thuật toán này có những ưu điểm vượt trội hơn so với Apriori.
FP-Growth không yêu cầu tạo ra tất cả các tập phổ biến, mà chỉ xây dựng các cây FP-Tree để đại diện cho dữ liệu, từ đó khai thác các mục phổ biến trực tiếp Điều này giúp giảm đáng kể thời gian tính toán Đặc biệt, độ phức tạp của FP-Growth thường thấp hơn so với Apriori, vì nó chỉ cần quét dữ liệu hai lần và không cần tạo bảng tần số, từ đó giảm thiểu độ phức tạp tính toán và lưu trữ, đặc biệt hiệu quả khi làm việc với tập dữ liệu lớn và số lượng mục phong phú.
Sử dụng FP-Tree để lưu trữ dữ liệu mang lại lợi ích lớn trong việc giảm thiểu thời gian tính toán và truy xuất dữ liệu so với phương pháp lưu trữ dưới dạng bảng như trong Apriori Việc xây dựng cấu trúc cây FP-Tree không chỉ tiết kiệm thời gian mà còn nâng cao hiệu suất của thuật toán.
Mặc dù FP-Growth là một thuật toán khai thác dữ liệu rất hiệu quả, nhưng nó cũng có một số hạn chế:
Chi phí bộ nhớ là một yếu tố quan trọng khi so sánh FP-Growth và Apriori Mặc dù FP-Growth tiết kiệm bộ nhớ hơn vì không cần lưu trữ bảng tần số của các mục mà chỉ sử dụng FP-Tree, nhưng trong quá trình xây dựng FP-Tree, nó có thể tiêu tốn nhiều bộ nhớ hơn, đặc biệt là với các tập dữ liệu lớn Điều này có thể khiến FP-Growth chạy chậm hơn và tốn nhiều bộ nhớ hơn so với Apriori trong một số trường hợp.
Phân lớp dữ liệu (Classification)
Ngày nay, phân lớp dữ liệu trở thành một trong những lĩnh vực nghiên cứu quan trọng trong khai phá dữ liệu, giúp rút ra những đánh giá kinh doanh thông minh từ các cơ sở dữ liệu chứa thông tin ẩn Quá trình này bao gồm việc tìm hiểu, phân loại và đánh giá các đối tượng trong bộ dữ liệu thành các nhóm riêng biệt Mục tiêu chính của phân loại dữ liệu là khám phá các quy tắc và mẫu trong dữ liệu để xây dựng mô hình phân loại, từ đó dự đoán nhãn hoặc lớp của các mục mới Ví dụ điển hình của phân lớp dữ liệu là phân loại email thành “spam” hoặc “không spam” và phân loại hình ảnh thành các lớp như “nhà”, “xe”, “cây”.
Phân lớp dữ liệu là một kỹ thuật quan trọng trong nhiều lĩnh vực như khoa học dữ liệu, học máy, nhận dạng hình ảnh và âm thanh Các thuật toán phân lớp phổ biến bao gồm cây quyết định, SVM, Naive Bayes, KNN, Random Forest và Neural Network, giúp cải thiện hiệu quả trong việc phân loại và xử lý dữ liệu.
2.3.2 Quy trình thực hiện bài toán phân lớp
Quy trình phân lớp bao gồm hai bước chính: huấn luyện và phân loại Đầu tiên, tập dữ liệu được chia thành hai phần, thường theo tỷ lệ 80% cho tập huấn luyện và 20% cho tập kiểm tra Tập huấn luyện được sử dụng để xây dựng mô hình, trong khi tập kiểm tra giúp đánh giá độ chính xác của mô hình.
Bước huấn luyện trong học máy nhằm xây dựng mô hình để mô tả các lớp dữ liệu hoặc khái niệm đã định trước Để thực hiện điều này, cần một tập dữ liệu có cấu trúc, được mô tả bằng các thuộc tính và tạo thành từ các bộ giá trị của những thuộc tính này Mỗi bộ giá trị, hay còn gọi là phần tử dữ liệu, có thể là mẫu, đối tượng hoặc bản ghi, và được giả định thuộc về một lớp đã định trước, xác định bởi giá trị của thuộc tính gán nhãn lớp Kết quả của quá trình học máy thường là các quy tắc phân lớp như luật if-then, cây quyết định, công thức logic hoặc mạng nơron, được áp dụng để phân lớp các phần tử dữ liệu mới dựa trên đặc tính của chúng Các quy tắc này được tạo ra thông qua việc phân tích dữ liệu huấn luyện nhằm tìm ra mô hình phù hợp nhất cho việc phân loại Trong quá trình này, việc chọn thuật toán học máy phù hợp và tối ưu hóa các tham số của thuật toán là rất quan trọng.
Việc chọn lựa và tiền xử lý các đặc trưng dữ liệu là rất quan trọng để đảm bảo tính độc lập và độ tương quan thấp giữa các thuộc tính Quá trình này thường được thực hiện nhiều lần nhằm tìm ra mô hình tối ưu nhất cho bài toán.
Hình 12: Quá trình phân lớp dữ liệu - Bước xây dựng mô hình phân lớp (J.Han and M.Kamber, 2011)
Bước thứ hai trong quá trình phân lớp là áp dụng mô hình đã xây dựng để phân loại dữ liệu mới Để đánh giá chất lượng mô hình, cần ước tính độ chính xác trong việc dự đoán nhãn lớp cho dữ liệu kiểm tra Phương pháp Holdout là một cách đơn giản và phổ biến để thực hiện điều này, với tập kiểm tra là dữ liệu độc lập và đã được gán nhãn lớp Sau khi mô hình phân loại các mẫu trong tập kiểm tra, ta so sánh kết quả với nhãn lớp thực tế để tính toán độ chính xác Nếu mô hình đạt độ chính xác đáng tin cậy, nó có thể được sử dụng để phân loại dữ liệu mới hoặc dữ liệu có thuộc tính phân lớp chưa biết.
Để đảm bảo tính chính xác và hiệu quả trong quá trình phân lớp, việc thường xuyên đánh giá và cải tiến mô hình là rất cần thiết Điều này có thể thực hiện thông qua việc tăng cường dữ liệu đào tạo, tối ưu hóa tham số mô hình, áp dụng các thuật toán mới hoặc cải tiến thuật toán hiện có, cũng như thay đổi phương pháp chọn thuộc tính và xử lý dữ liệu Quá trình này sẽ góp phần nâng cao độ chính xác và độ tin cậy của quá trình phân lớp.
Sau đây là hình ảnh minh họa bước sử dụng mô hình trong quá trình phân lớp:
Hình 13: Quá trình phân lớp dữ liệu - Ước lượng độ chính xác của mô hình( (J.Han and M.Kamber, 2011)
Hình 14: Quá trình phân lớp dữ liệu - Phân lớp dữ liệu mới (J.Han and M.Kamber,
Mô hình có độ chính xác cao không đảm bảo không xảy ra sai lầm nghiêm trọng, đặc biệt khi phần trăm nhỏ còn lại dự đoán sai mà lớp đó lại mang ý nghĩa quan trọng Để đánh giá độ chính xác của mô hình phân lớp với hai lớp Yes và No, cần xác định các giá trị trong ma trận nhầm lẫn (Nguyễn Thị Thùy Linh, 2005).
Nội dung Positive (Hủy) Negative (Hoàn thành)
Negative (Hoàn thành) FP TN
Bảng 6: Ma trận nhầm lẫn
• TP (true positive): Các trường hợp được dự đoán Hủy và thực tế là Hủy
• TN (true negative): Các trường hợp được dự đoán là Hoàn thành và thực tế là Hoàn thành
• FP (False positive): Các trường hợp dự đoán là Hủy nhưng thực tế là Hoàn thành – Sai lầm loại 1
• FN (False negative): Các trường hợp dự đoán là Hoàn thành nhưng thực tế là Hủy
• Sai lầm loại 1: Bác bỏ giả thuyết đúng
• Sai lầm loại 2: Không bác bỏ giả thuyết khi giả thuyết sai
Ngoài ra có các chỉ số để đánh giá mô hình như:
Chỉ số Công thức Ý nghĩa
Tỷ lệ dự đoán đúng của mô hình trên tất cả các dự đoán
Tỷ lệ mô hình dự đoán đúng lớp Hủy trên tổng số dự đoán là Hủy
Tỷ lệ mô hình dự đoán đúng là Hủy tổng số thực tế là Hủy
Tỷ lệ mô hình dự đoán đúng lớp Hoàn thành trên tổng số dự đoán là Hoàn thành
Bảng 7: Các chỉ số đánh giá mô hình phân lớp
2.3.3 Phân lớp dữ liệu bằng cây quyết định sử dụng thuật toán C4.5
2.3.3.1 Tổng quan về cây quyết định
Cây quyết định là phương pháp phổ biến trong học máy, được ứng dụng rộng rãi trong các lĩnh vực như kinh doanh, y tế và khoa học dữ liệu.
Cây quyết định là mô hình máy học dạng cây, giúp phân loại và dự đoán giá trị biến mục tiêu dựa trên các đặc trưng của dữ liệu Quy trình ra quyết định diễn ra từ nút gốc đến nút lá thông qua các quy tắc dựa trên giá trị đặc trưng Mỗi quy tắc tương ứng với một đường dẫn duy nhất, cho phép điểm dữ liệu di chuyển từ nút gốc đến nút lá phù hợp Giá trị biến mục tiêu được dự đoán dựa trên giá trị của nút lá Cây quyết định không chỉ dễ hiểu mà còn giúp giải thích lý do cho các quyết định, làm cho nó trở thành công cụ hữu ích trong việc trình bày kết quả cho các bên liên quan.
Hình 15:Ví dụ minh họa cây quyết định
Cây quyết định là một cấu trúc cây dạng cây nhị phân gồm các thành phần sau:
- Nút gốc (root node): Đây là nút đầu tiên của cây, không có cha và là điểm khởi đầu của quá trình phân tách dữ liệu
Nút trong (internal node) trong cây quyết định đại diện cho các thuộc tính được chọn để phân tách dữ liệu Mỗi nút trong có nhiều nhánh tương ứng với các giá trị của thuộc tính, giúp xác định cách thức phân loại dữ liệu một cách hiệu quả.
Nút lá (leaf node) trong cây quyết định thể hiện các kết luận hoặc quyết định được đưa ra dựa trên các thuộc tính và giá trị của chúng Mỗi nút lá đóng vai trò là một phân lớp hoặc một kết quả cuối cùng trong quá trình phân tích dữ liệu.
Các nhánh trong cây quyết định kết nối các nút với nhau và với các nút lá, phản ánh giá trị của thuộc tính được chọn để phân tách dữ liệu một cách hiệu quả.
- Thuộc tính (attribute): Các thuộc tính là các đặc trưng của dữ liệu được sử dụng để phân tách dữ liệu
- Giá trị thuộc tính (attribute value): Các giá trị thuộc tính là các giá trị của các thuộc tính được sử dụng để phân tách dữ liệu
2.3.3.2 Ưu điểm và nhược điểm cây quyết định
So với các phương pháp phân lớp dữ liệu khác, cây quyết định có các ưu điểm như:
Cây quyết định cung cấp các quyết định dựa trên quy tắc rõ ràng, giúp người sử dụng dễ dàng hiểu và giải thích các quyết định được đưa ra.
Cây quyết định mang lại tính linh hoạt cao, cho phép giải quyết nhiều vấn đề đa dạng trong các lĩnh vực khác nhau, từ phân loại đến dự đoán.
ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP VÀ PHÂN LỚP DỮ LIỆU ĐỂ DỰ ĐOÁN TÌNH TRẠNG ĐƠN HÀNG
Mô tả bài toán
Trong quá trình kinh doanh trên sàn thương mại điện tử, Công ty cổ phần công nghệ và thương mại TTP Việt Nam đã gặp khó khăn trong việc xử lý đơn hàng hủy, với 25% tổng số đơn đặt hàng bị hủy trong tháng 2/2023 Việc hủy đơn hàng không chỉ giảm doanh thu và tăng chi phí, mà còn ảnh hưởng đến uy tín doanh nghiệp Để khắc phục tình trạng này, doanh nghiệp có thể áp dụng các kỹ thuật dự đoán tình trạng đơn hàng Bằng cách dự đoán các đơn hàng có nguy cơ bị hủy, doanh nghiệp có thể thực hiện các biện pháp kịp thời Việc kết hợp luật với phân lớp dữ liệu có thể nâng cao khả năng dự đoán, trong đó các thuật toán phân lớp học từ dữ liệu lịch sử về đơn hàng hủy và các đặc tính của chúng, giúp cải thiện độ chính xác trong việc dự đoán tình trạng các đơn hàng tiếp theo.
Bộ dữ liệu đơn đặt hàng trên sàn thương mại điện tử Shopee trong tháng 2 năm 2023 bao gồm các trường thông tin quan trọng như ngày đặt hàng, trạng thái đơn hàng, đơn vị vận chuyển, ngày giao hàng dự kiến và tên sản phẩm.
Dữ liệu đầu ra (Output): Các luật dự đoán tình trạng đơn hàng.
Quy trình thực hiện
Chúng tôi đã thu thập bộ dữ liệu từ các đơn đặt hàng trên sàn thương mại điện tử Shopee của công ty TTP Việt Nam Bộ dữ liệu thực nghiệm bao gồm 591 bản ghi, chứa thông tin chi tiết về 591 đơn hàng trên Shopee, được lưu trữ dưới dạng file Excel.
Hình 18: Bộ dữ liệu thực nghiệm
Dữ liệu được thu thập từ bộ phận quản lý đơn hàng của Công ty TTP trong tháng 2 năm 2023 Tôi đã chọn ra 12 trường dữ liệu quan trọng ảnh hưởng đến dự đoán tình trạng đơn hàng Dưới đây là bảng mô tả chi tiết về các trường dữ liệu này.
STT Tên trường Kiểu dữ liệu Mô tả
1 Mã đơn hàng Character Mã đơn đặt hàng
2 Ngày đặt hàng Date Ngày khách hàng đặt đơn hàng
3 Trạng thái đơn hàng Character
Trạng thái đơn hàng của khách: Hủy, Hoàn thành
4 Đơn vị vận chuyển Character Tên đơn vị vận chuyển
5 Ngày giao dự kiến Date
Ngày dự kiến khách hàng nhận được đơn hàng
6 Tên sản phẩm Character Tên sản phẩm khách hàng đặt
7 Giá sản phẩm Numeric Giá của 1 đơn vị sản phẩm
8 Số lượng Numeric Số lượng đặt hàng mỗi sản phẩm
9 Mã giảm giá của Shop Numeric
Số tiền khách hàng được giảm khi sử dụng mã giảm giá của gian hàng
Số tiền khách hàng được giảm khi sử dụng mã giảm giá của Shopee
11 Phí vận chuyển mà người mua trả Numeric Số tiền vận chuyển mà khách hàng phải trả
12 Phương thức thanh toán Character
Phương thức khách hàng thanh toán cho đơn hàng như: thanh toán khi nhận hàng, ShopeePay, thẻ tín dụng/ ghi nợ,
Bảng 9: Bảng mô tả các thuộc tính của bộ dữ liệu thực nghiệm
3.2.2 Tiền xử lý dữ liệu
- Xử lý cột Ngày đặt hàng và Ngày giao dự kiến
Trong bộ dữ liệu thực nghiệm, hai thuộc tính Ngày đặt hàng và Ngày giao dự kiến không mang lại nhiều ý nghĩa cho quá trình phân tích Do đó, tôi đã thay thế chúng bằng cột Số ngày giao dự kiến, thể hiện số ngày mà khách hàng dự kiến nhận được đơn hàng kể từ ngày đặt hàng.
- Xử lý giá trị khuyết thiếu
Khuyết thiếu dữ liệu xảy ra khi tập dữ liệu chứa các bản ghi thiếu thông tin về một số thuộc tính Nguyên nhân có thể là do quá trình thu thập dữ liệu không được cập nhật đầy đủ hoặc sai sót trong nhập liệu Việc xử lý giá trị khuyết thiếu là bước quan trọng trong tiền xử lý dữ liệu, vì nó có thể ảnh hưởng đến kết quả phân tích và các mô hình dự đoán.
Có nhiều phương pháp để xử lý giá trị khuyết thiếu trong dữ liệu Một trong những cách là loại bỏ các bản ghi bị khuyết thiếu khi chúng không quan trọng và chiếm dưới 3% tổng số quan sát của biến Ngoài ra, giá trị khuyết thiếu cũng có thể được thay thế bằng các giá trị khác như trung vị hoặc trung bình.
Hình 20: Kiểm tra số giá trị khuyết thiếu ở từng cột
Với bộ dữ liệu trên có 86 giá trị khuyết thiếu thuộc trường số ngày giao dự kiến,
Hình 19 :Thêm cột số ngày giao dự kiến
Hình 21: Thay thế giá trị khuyết thiếu bằng giá trị trung bình
Những giá trị khuyết thiếu ở cột số ngày giao dự kiến đã được thay thế bằng giá trị trung bình của cột và được làm tròn
- Xử lý giá trị trùng lặp
Khi tập dữ liệu chứa các bản ghi giống nhau, tình trạng trùng lặp dữ liệu sẽ xảy ra, thường do lỗi trong quá trình thu thập hoặc nhập liệu không chính xác Sự lặp lại này có thể dẫn đến sai lệch trong kết quả phân tích dữ liệu Để khắc phục vấn đề này, chúng ta có thể loại bỏ các bản ghi trùng lặp hoặc kết hợp chúng lại với nhau.
Hình 22: Kiểm tra và loại bỏ giá trị trùng lặp
Kiểm tra cho thấy không có bản ghi nào bị trùng lặp Sau đó, chúng ta tiến hành loại bỏ các bản ghi trùng lặp nếu có Khi kiểm tra lại, không còn sự xuất hiện của bản ghi trùng lặp, chứng tỏ rằng các bản ghi này đã được xóa thành công.
- Rời rạc hóa dữ liệu
Trong quá trình phân tích dữ liệu, một số kỹ thuật không phù hợp với các giá trị liên tục, do đó cần thực hiện rời rạc hóa dữ liệu Rời rạc hóa là quá trình chuyển đổi các thuộc tính liên tục thành các khoảng và giá trị rời rạc Việc sử dụng các thuộc tính liên tục có thể làm giảm khả năng hiểu suất, vì vậy chuyển đổi dữ liệu sang dạng rời rạc giúp giảm số lượng giá trị và tăng tốc độ tính toán.
Trong nghiên cứu này, tôi đã thực hiện phân tích dữ liệu thực nghiệm bằng cách rời rạc hóa các thuộc tính như Giá sản phẩm, Mã giảm giá của Shop, Mã giảm giá của Shopee và Phí vận chuyển mà người mua phải trả.
Thuộc tính Giá trị Giá trị rời rạc
+ từ 100 đến 200 nghìn + Trên 200 nghìn
Mã giảm giá Shop + Số tiền được giảm =0
+ Số tiền được giảm khác 0
+ Không MGG Shop + Có MGG Shop
Mã giảm giá Shopee + Số tiền được giảm =0
+ Số tiền được giảm khác 0
+ Không MGG Shopee + Có MGG Shopee
Phí vận chuyển người mua trả
+Số tiền trả = 0 + Số tiền trả khác 0
+ Không chịu pvc + Chịu pvc
Bảng 10: Rời rạc hóa dữ liệu
Trong quá trình sử dụng thuật toán phân tích dữ liệu và học máy, dữ liệu thường xuất hiện dưới nhiều dạng như chuỗi, ngày tháng và các giá trị định danh Để sử dụng hiệu quả các giá trị này, cần thực hiện quá trình mã hóa dữ liệu Các phương pháp mã hóa phổ biến bao gồm One-Hot Encoding, Label Encoding và Ordinal Encoding Việc chọn loại mã hóa phù hợp phụ thuộc vào mục đích sử dụng của từng bài toán cụ thể.
Hình 23: Rời rạc hoá dữ liệu thuộc tính như Trạng thái đơn hàng, Đơn vị vận chuyển, Tên sản phẩm, Giá sản phẩm,
Mã giảm giá của Shop chưa ở dạng số, vì vậy chúng ta cần mã hóa dữ liệu này bằng phương pháp LabelEncoder để áp dụng trong quá trình phân lớp.
Ngoài ra, em còn tiến hành mã hóa dữ liệu sang dạng nhị phân để sử dụng cho các thuật toán luật kết hợp
Hình 25: Mã hóa dữ liệu về dạng nhị phân
3.2.3 Trực quan hóa dữ liệu
Hình 24: Mã hoá dữ liệu về dạng số
Trực quan hóa dữ liệu là quá trình sử dụng đồ thị, biểu đồ và hình ảnh để biểu diễn dữ liệu, giúp người dùng dễ dàng hiểu và phân tích thông tin Phương pháp này không chỉ làm rõ ràng và dễ hiểu hơn mà còn giúp nhận diện nhanh chóng các mẫu và xu hướng trong dữ liệu Bên cạnh đó, trực quan hóa dữ liệu còn tiết kiệm thời gian và chi phí trong phân tích, cho phép người dùng nhanh chóng xác định vấn đề và tìm kiếm giải pháp hiệu quả.
Dựa vào biểu đồ có thể thầy tỷ lệ đơn hàng hoàn thành (86,8%) cao hơn tình trạng đơn hàng bị hủy (25.27) khoảng 3 lần
Biểu đồ 2: Số lượng bán ra của mỗi sản phẩm
Biểu đồ 1: Biểu đồ tình trạng đơn hàng
Biểu đồ cho thấy sự phân bố không đồng đều trong số lượng bán ra của các sản phẩm Máy sấy tóc dẫn đầu về doanh số, tiếp theo là máy hút ẩm không khí Ngược lại, các sản phẩm như Bếp lẩu, Chảo gang, Cân điện tử và Ấm thủy tinh có doanh số bán rất thấp Dựa vào dữ liệu từ biểu đồ, người bán có thể phát triển chiến lược để tăng cường doanh số cho các sản phẩm ít bán, đồng thời duy trì doanh thu cho các sản phẩm đang bán chạy.
3.2.4 Sử dụng kết hợp luật kết hợp và phân lớp dữ liệu để dự đoán tình trạng đơn hàng
3.2.4.1 Khai phá dữ liệu bằng luật kết hợp sử dụng thuật toán FP- Growth
Sử dụng thuật toán FP-Growth với đầu vào:
+ Bộ dữ liệu thực nghiệm đã tiền xử lý
+ Lựa chọn độ do Lift với min_threshold = 1
Bộ dữ liệu đã được thu thập trong một tháng, với mục tiêu hiển thị các luật cho những đơn hàng có chỉ số xuất hiện ít nhất 5 đơn hàng mỗi ngày, tương đương với 150 đơn hàng trong một tháng Do đó, tôi đã chọn min_support là 150/591, trong đó 591 là tổng số bản ghi của bộ dữ liệu.
Với tham số min_support = 150/591 và min_threshold = 1, thuật toán FP-Growth đã sinh ra 4126 luật Tuy nhiên, không phải tất cả các luật đều có giá trị ứng dụng cho bài toán của chúng ta Chúng ta chỉ tập trung vào những luật có hậu quả liên quan đến tình trạng đơn hàng.