Phân tích doanh nghiệp bằng khai phá dữ liệu: ứng dụng phần mềm Orange trong dịch vụ bán hàng tại siêu thị Lotte Mart

MỤC LỤC

DẪN NHẬP

CƠ SỞ LÝ THUYẾT

    - Phõn tớch doanh nghiệp: Khai phỏ dữ liệu cú thể giỳp doanh nghiệp hiểu rừ hơn về hoạt động của mình, đưa ra quyết định dựa trên cơ sở dữ liệu và thực hiện các chiến lược phù hợp để phát triển doanh nghiệp. - Cải thiện hiệu quả hoạt động: Khai phá dữ liệu có thể được sử dụng để xác định sự thiếu hiệu quả trong hoạt động kinh doanh, chẳng hạn như tắc nghẽn trong sản xuất hoặc các vấn đề về chuỗi cung ứng. - Dự đoán xu hướng và mẫu: Khai phá dữ liệu có thể được sử dụng để xác định các mẫu và xu hướng trong dữ liệu thị trường, cho phép doanh nghiệp đưa ra dự đoán chính xác hơn về xu hướng trong tương lai và hành vi của người tiêu dùng.

    - Đánh giá rủi ro: Khai phá dữ liệu có thể được sử dụng để phân tích dữ liệu liên quan đến giao dịch tài chính, yêu cầu bảo hiểm và các lĩnh vực khác nhằm xác định rủi ro tiềm ẩn và ngăn chặn hoạt động giả mạo. Túm lại, khai phỏ dữ liệu cú thể là một cụng cụ cú giỏ trị để cỏc doanh nghiệp hiểu rừ hơn về hoạt động kinh doanh và khách hàng của họ, từ đó xác định các cơ hội cải tiến và đưa ra các quyết định sáng suốt hơn. Kho dữ liệu là 1 hệ thống lưu trữ các thông tin kết hợp từ một hay nhiều nguồn khác nhau, nó được thiết kế chuyên để phân tích; báo cáo và giúp giảm bớt quá trình phân tích thống kê của một hệ thống cho của một tổ chức lớn.

    BI làm tăng khả năng kiểm soát thông tin của doanh nghiệp một cách chính xác, hiệu quả từ đó có thể phân tích, khai phá tri thức giúp doanh nghiệp có thể dự đoán về xu hướng của giá cả dịch vụ, hành vi khách hàng, phát hiện khách hàng tiềm năng để đề ra các chiến lược kinh doanh phù hợp nhằm tăng khả năng cạnh tranh doanh nghiệp. Hay nói cách khác, từ dữ liệu được đào tạo đưa vào, hệ thống sẽ phân dữ liệu đó thành nhiều danh mục khác nhau, sau đó khi có dữ liệu mới, hệ thống cũ sẽ dựa vào đào tạo đã xây dựng từ trước, sắp xếp dữ liệu mới vào các danh mục. - Dữ liệu phõn loại rừ ràng sẽ giỳp cho cỏc doanh nghiệp và tổ chức dựa vào đú để thiết lập các hệ thống phân quyền truy cập cho cá nhân, từ đấy sẽ tạo ra được hiệu quả trong việc sử dụng các dữ liệu.

    Trong quá trình phân tích các dữ liệu để đưa ra được quyết định chính xác thì cây quyết định và sơ đồ ảnh hưởng có một quan hệ chặt chẽ với nhau và được tận dụng như một công cụ trực quan, trong đó giá trị kỳ vọng của các lựa chọn thay thế cạnh tranh được tình toán một các cụ thể. Mục tiêu chính của phương pháp chính là tạo ra một mô hình tiêu chuẩn, dự đoán, dự báo một biến mục tiêu hoặc xác định phân loại của mục tiêu, bằng cách phân tích các quy tắc quyết định đơn giản, được suy luận từ nhiều tính năng của dữ liệu mà doanh nghiệp tổng hợp nên. Phương pháp này chủ yếu cung cấp mô hình quyết định và các hệ số suy ra được từ dữ liệu thu thập có thể xảy ra, bao gồm cả những kết quả có lợi nhất cho doanh nghiệp, đến kết quả mang lại rủi ro cao nhất, cùng chi phí thực hiện và tiện ích của từng kết quả đưa ra.

    Orange được phát triển bởi một nhóm các nhà khoa học dữ liệu ở đại học Slovenia, Orange cung cấp một giao diện đồ họa trực quan, nó cho phép người dùng thực hiện các tác vụ phân tích dữ liệu phức tạp một cách dễ dàng mà không cần kiến thức lập trình. Bộ công cụ này cho phép người dùng thực hiện các thao tác như lọc dữ liệu, sắp xếp, gộp, chia dữ liệu, tạo các biến mới từ dữ liệu hiện có, và áp dụng các chức năng toán học và thống kê vào dữ liệu. Với bộ công cụ này, người dùng có thể cấu hình các tham số cho thuật toán Apriori như độ tin cậy (confidence), hỗ trợ (support), số lượng mục tối đa trong các tập hợp (maximum itemsets),… Kết quả trả về của bộ công cụ này là danh sách các tập hợp phổ biến và hàm hỗ trợ (support) của chúng trong tập dữ liệu.

    Hình 2.4 Cấu trúc kho dữ liệu
    Hình 2.4 Cấu trúc kho dữ liệu

    ỨNG DỤNG PHẦN MỀM ORANGE

      Mục tiêu là đánh giá các khách hàng mua sản phẩm của Lotte Mart theo tiêu chí nhằm tìm ra nhóm khách hàng quan trọng, hoặc chưa mua nhiều để phát triển Lotte Mart, hỗ trợ các khách hàng nhiều hơn. Kết quả: Đối với các khách hàng màu xanh, thu nhập nhiều nhưng chi tiêu ít, từ đây ta nhận thấy đây là khách hàng tiềm năng, ta cần khảo sát tìm hiểu lý do vì sao nhóm khách hàng này có xu hướng mua ít ở Lotte Mart: vì giá cả?. Siêu thị có thể khảo sát thêm để tăng sức mua nhóm khách này, tuy nhiên, nhóm khách hàng màu cam không có nhiều tiềm năng tương tự nhóm khách hàng màu xanh, vì vậy ta có thể xem xét, tạm gác qua nhóm khách hàng này, tập trung triển khai tăng sức mua ở các nhóm hàng khác.

      Dựa vào dữ liệu thông tin hóa đơn của khách hàng đã mua ở siêu thị, bài toán đặt ra ở đây là sẽ phân tích dữ liệu để tìm ra các mối quan hệ kết hợp giữa các sản phẩm mà khách hàng thường mua cùng nhau. Bằng cách phân tích các hóa đơn của khách hàng, có thể tìm ra các luật kết hợp giữa các sản phẩm và sử dụng chúng để thực hiện các chiến dịch tiếp thị, quảng cáo, hoặc định hướng lại các bố trí của các loại sản phẩm trong siêu thị. Bằng cách phân tích dữ liệu các hóa đơn của khách hàng, có thể tìm ra các mối quan hệ kết hợp như sau: Nếu khách hàng mua bột giặt và nước xả vải cùng lúc thì khả năng cao họ cũng sẽ mua bàn chải giặt đồ, hoặc nếu khách hàng mua bột giặt thì khả năng cao họ cũng sẽ mua nước xả vải.

      Để áp dụng bộ dữ liệu này vào thực hiện thuật toán kết hợp thì chúng em đã tìm hiểu và nhận thấy có một vài thuộc tính có thể dùng để thực hiện luật kết hợp như: Invoce No (Số hóa đơn), Product Name (Tên sản phẩm). - Loại bỏ một số thuộc tính không cần thiết trong luật kết hợp: Ở đây, thuật toán kết hợp nhóm em chỉ chọn 2 thuật toán đó là, Invoce No (Số hóa đơn) và Product Name (Tên sản phẩm), nên những cột thuộc tính còn lại sẽ loại bỏ hết bằng cách chuột phải và cột muốn xóa  chọn Delete. - Selected examples = 215 có nghĩa là trong quá trình phân tích dữ liệu, phần mềm Orange đã chọn ra 215 mẫu từ tập dữ liệu ban đầu để sử dụng trong các tính toán và phân tích.

      Các mẫu được chọn có thể được lựa chọn dựa trên các tiêu chí khác nhau, chẳng hạn như độ quan trọng của chúng trong mô hình hoặc độ tương đồng với các mẫu khác trong tập dữ liệu. Nhận xét: Tập hợp các sản phẩm có trong các đơn hàng thường xuất hiện cùng nhau trong tập dữ liệu, ở đây sẽ dựa trên một ngưỡng hỗ trợ (Support Threshold) cho trước cụ thể là 50% sẽ cho ra kết quả là danh sách các tập hợp trong danh sách này sẽ bao. Điều này cho phép phân loại và xác định các mặt hàng phù hợp với tiêu chí mua hàng và liệt kê ra các luật phù hợp với dữ liệu khi chạy thuật toán kết hợp, cung cấp cho người dùng cái nhìn về các sản phẩm thường được mua kèm theo.

      Độ tin cậy của thuật toán này đạt 85,6% và độ hỗ trợ là 52,4%, từ kết quả của luật kết hợp này có thể giúp siêu thị dễ dàng nắm bắt các sản phẩm thường được mua kèm nhau và tăng cơ hội bán hàng. Từ cỏc luật kết hợp trờn, cú thể giỳp siờu thị Lotte Mart hiểu rừ hơn về nhu cầu mua hàng của khách hàng và từ đó siêu thị sẽ dễ dàng nắm bắt được các loại sản phẩm thường được mua kèm với nhau, dựa vào đó có thể phối hợp giữa các sản phẩm để tạo ra các chương trình khuyến mãi hấp dẫn, tăng doanh số bán hàng và đồng thời cải thiện trải nghiệm mua sắm của khách hàng. Bên cạnh đó, những thông tin về sự tương tác giữa các sản phẩm cũng giúp cho siêu thị đưa ra quyết định đúng đắn về việc bố trí sản phẩm trên kệ hàng và quản lý hàng tồn kho một cách hiệu quả.

      Hình 3.1 Loại bỏ cột không liên quan, ảnh hưởng đến yếu tố ra quyết định
      Hình 3.1 Loại bỏ cột không liên quan, ảnh hưởng đến yếu tố ra quyết định