Sử dụng các phương pháp này, các chuyên gia dữ liệu có thể phân tích và tìm ra những mối quan hệ và thông tin tiềm năng trong các tập dữ liệulớn, đưa ra những quyết định thông minh và hi
CƠ SỞ LÝ THUYẾT
GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU
Khai phá dữ liệu là một thuật ngữ rất thông dụng và được áp dụng phổ biến cho tất cả mọi lĩnh vực từ xử lý, thu thập, trích xuất, thống kê và phân tích dữ liệu từ đó giúp cho việc đưa ra một quyết định nào đó của người đứng đầu doanh nghiệp trở nên dễ dàng hơn
Khai phá dữ liệu là quá trình tìm kiếm các mẫu từ tập dữ liệu lớn và phân tích dữ liệu từ những quan điểm khác nhau Khai phá dữ liệu còn được gọi với cái tên khác là data mining Bên cạnh đó, phần mềm data mining được biết đến là một phần mềm hữu ích và tổng thể trong việc trích xuất các thông tin dữ liệu quan trọng và chuyển đổi chúng ở dạng mà người quản trị có thể đọc được.
Tóm lại, khai phá dữ liệu là một quá trình dài hạn chuyển biến dữ liệu thu thập được thành các thông tin có giá trị và tương quan mật thiết với nguồn dữ liệu lớn của doanh nghiệp Từ đó doanh nghiệp sẽ chủ động hơn trong việc tìm kiếm những khách hàng tiềm năng, đưa ra được các chính sách marketing phù hợp với xu hướng thị trường cũng như các kế hoạch phát triển kinh doanh phù hợp với cơ cấu doanh nghiệp.
2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh
Trong bối cảnh kinh doanh, khai phá dữ liệu có thể là một công cụ mạnh mẽ để đạt được lợi thế cạnh tranh và nâng cao hiệu quả hoạt động Sau đây là một số vai trò của khai phá dữ liệu trong kinh doanh:
- Xác định hành vi của khách hàng: Khai phá dữ liệu có thể được sử dụng để phân tích hành vi của khách hàng, chẳng hạn như lịch sử mua hàng, sở thích và nhân khẩu học của họ Thông tin này có thể được sử dụng để phát triển các chiến dịch tiếp thị với mục tiêu là cải thiện được hành vi mua hàng của khách hàng.
- Phân tích và quản lý thị trường: Trong thị trường cạnh tranh gay gắt hiện nay, việc phân tích và quản lý thị trường là rất quan trọng đối với các doanh nghiệp để đưa ra các quyết định kinh doanh chính xác và hiệu quả.
- Phân tích doanh nghiệp: Khai phá dữ liệu có thể giúp doanh nghiệp hiểu rõ hơn về hoạt động của mình, đưa ra quyết định dựa trên cơ sở dữ liệu và thực hiện các chiến lược phù hợp để phát triển doanh nghiệp.
- Cải thiện hiệu quả hoạt động: Khai phá dữ liệu có thể được sử dụng để xác định sự thiếu hiệu quả trong hoạt động kinh doanh, chẳng hạn như tắc nghẽn trong sản xuất hoặc các vấn đề về chuỗi cung ứng Bằng cách giải quyết những vấn đề này, doanh nghiệp có thể giảm chi phí và nâng cao hiệu quả.
- Dự đoán xu hướng và mẫu: Khai phá dữ liệu có thể được sử dụng để xác định các mẫu và xu hướng trong dữ liệu thị trường, cho phép doanh nghiệp đưa ra dự đoán chính xác hơn về xu hướng trong tương lai và hành vi của người tiêu dùng.
- Đánh giá rủi ro: Khai phá dữ liệu có thể được sử dụng để phân tích dữ liệu liên quan đến giao dịch tài chính, yêu cầu bảo hiểm và các lĩnh vực khác nhằm xác định rủi ro tiềm ẩn và ngăn chặn hoạt động giả mạo.
- Cá nhân hóa: Khai phá dữ liệu có thể được sử dụng để cá nhân hóa trải nghiệm của khách hàng bằng cách phân tích dữ liệu khách hàng để cung cấp các đề xuất, ưu đãi và trải nghiệm tùy chỉnh.
Tóm lại, khai phá dữ liệu có thể là một công cụ có giá trị để các doanh nghiệp hiểu rõ hơn về hoạt động kinh doanh và khách hàng của họ, từ đó xác định các cơ hội cải tiến và đưa ra các quyết định sáng suốt hơn.
2.1.3 Quy trình khai phá dữ liệu
Xác định vấn đề: Bước đầu tiên là xác định rõ ràng vấn đề hoặc câu hỏi mà bạn muốn trả lời Điều này liên quan đến việc hiểu bối cảnh kinh doanh và xác định các nguồn dữ liệu có sẵn.
Thu thập dữ liệu: Khi bạn đã xác định vấn đề, bạn cần thu thập dữ liệu mà bạn sẽ sử dụng để trả lời câu hỏi Điều này có thể liên quan đến việc thu thập dữ liệu từ các nguồn và định dạng khác nhau, làm sạch dữ liệu để loại bỏ lỗi và sự không nhất quán cũng như chuyển đổi dữ liệu để sẵn sàng phân tích.
Khám phá dữ liệu: Bước tiếp theo là khám phá dữ liệu để hiểu rõ hơn về cấu trúc và đặc điểm của nó Điều này liên quan đến việc trực quan hóa dữ liệu, xác định các mẫu và xu hướng cũng như tìm kiếm các điểm bất thường hoặc ngoại lệ.
KHO DỮ LIỆU
2.2.1 Kiến trúc luồng dữ liệu
Kiến trúc một tầng không được sử dụng định kỳ trong thực tế Mục đích của nó là giảm thiểu lượng dữ liệu được lưu trữ để đạt được mục tiêu này nó phải loại bỏ dư thừa dữ liệu.
Hình 2.1 cho thấy lớp duy nhất có sẵn về mặt vật lý là lớp nguồn Trong phương pháp này, kho dữ liệu là ảo Điều này có nghĩa là kho dữ liệu được thực hiện dưới dạng một cái nhìn đa chiều về dữ liệu hoạt động được tạo bởi phần mềm trung gian cụ thể hoặc một lớp xử lý trung gian.
Lỗ hổng của kiến trúc này nằm ở chỗ nó không đáp ứng được yêu cầu tách biệt giữa xử lý phân tích và giao dịch Các truy vấn phân tích được đồng ý với dữ liệu hoạt động sau khi phần mềm trung gian giải thích chúng Theo cách này, các truy vấn ảnh hưởng đến khối lượng công việc giao dịch.
Hình 2.1 Cấu trúc kiến trúc một tầng
Yêu cầu phân tách đóng một vai trò thiết yếu trong việc xác định kiến trúc hai tầng cho hệ thống kho dữ liệu, như thể hiện trong hình:
- Lớp nguồn: Một hệ thống kho dữ liệu sử dụng một nguồn dữ liệu không đồng nhất Dữ liệu đó ban đầu được lưu trữ vào cơ sở dữ liệu quan hệ của công ty hoặc cơ sở dữ liệu kế thừa, hoặc nó có thể đến từ một hệ thống thông tin bên ngoài các bức tường của công ty.
- Giai đoạn dữ liệu: Dữ liệu được lưu trữ vào nguồn phải được trích xuất, làm sạch để loại bỏ sự mâu thuẫn và lấp đầy khoảng trống, đồng thời tích hợp để hợp nhất các nguồn không đồng nhất thành một lược đồ tiêu chuẩn Công cụ trích xuất, chuyển đổi và tải (ETL) có tên như vậy có thể kết hợp các Schemata không đồng nhất, trích xuất, chuyển đổi, làm sạch, xác thực, lọc và tải dữ liệu nguồn vào kho dữ liệu.
- Lớp kho dữ liệu: Thông tin được lưu vào một kho lưu trữ riêng lẻ tập trung hợp lý - kho dữ liệu Các kho dữ liệu có thể được truy cập trực tiếp, nhưng nó cũng có thể được sử dụng như một nguồn để tạo các Data Mart, một phần sao chép nội dung kho dữ liệu và được thiết kế cho các bộ phận doanh nghiệp cụ thể
Kho lưu trữ siêu dữ liệu lưu trữ thông tin về nguồn, thủ tục truy cập, tổ chức dữ liệu, người dùng, lược đồ trung tâm dữ liệu,
- Phân tích: Trong lớp này, dữ liệu tích hợp được truy cập hiệu quả và linh hoạt để đưa ra báo cáo, phân tích động thông tin và mô phỏng các tình huống kinh doanh giả định Nó phải có tính năng điều hướng thông tin tổng hợp, trình tối ưu hóa truy vấn phức tạp và GUI thân thiện với khách hàng.
Hình 2.2 Cấu trúc kiến trúc hai tầng
Kiến trúc ba tầng bao gồm lớp nguồn (chứa nhiều hệ thống nguồn), lớp đối chiếu và lớp kho dữ liệu (chứa cả kho dữ liệu và ổ chứa dữ liệu) Lớp đối chiếu nằm giữa dữ liệu nguồn và kho dữ liệu. Ưu điểm chính của lớp đối chiếu là nó tạo ra một mô hình dữ liệu tham chiếu tiêu chuẩn cho toàn bộ doanh nghiệp Đồng thời, nó tách biệt các vấn đề khai thác và tích hợp dữ liệu nguồn với các vấn đề của tổng thể kho dữ liệu Trong một số trường hợp, lớp đối chiếu cũng được sử dụng trực tiếp để hoàn thành tốt hơn một số nhiệm vụ hoạt động, chẳng hạn như tạo báo cáo hàng ngày mà không thể chuẩn bị thỏa đáng bằng cách sử dụng các ứng dụng của công ty hoặc tạo luồng dữ liệu để cung cấp các quy trình bên ngoài theo định kỳ để hưởng lợi từ việc làm sạch và tích hợp.
Kiến trúc này đặc biệt hữu ích cho các hệ thống mở rộng, toàn doanh nghiệp Một nhược điểm của cấu trúc này là không gian lưu trữ tệp bổ sung được sử dụng thông qua lớp điều hòa dư thừa Nó cũng làm cho các công cụ phân tích xa hơn một chút so với thời gian thực.
Hình 2.3 Cấu trúc kiến trúc ba tầng
2.2.2 Kho dữ liệu và phân tích dữ liệu trong BI
Kho dữ liệu ban đầu được định nghĩa là một tập dữ liệu được dùng để hỗ trợ quy trình ra quyết định Theo quá trình phát triển, kho dữ liệu được định nghĩa là một môi trường thông tin (Information Environment) từ môi trường thông tin thể hiện nó không phải là một sản phẩm (Product) Đối với ngành nghề Analysis Information thì Data Warehouse là kim chỉ nam Kho dữ liệu là 1 hệ thống lưu trữ các thông tin kết hợp từ một hay nhiều nguồn khác nhau, nó được thiết kế chuyên để phân tích; báo cáo và giúp giảm bớt quá trình phân tích thống kê của một hệ thống cho của một tổ chức lớn.
Kho dữ liệu được xây dựng từ những dữ liệu thô như: Excel, ERP, tài liệu giấy, file thông tin, cloud,… tiếp theo sẽ trải qua các quá trình lọc và trích xuất Sau đó sắp xếp dữ liệu đã được kiểm tra này vào Data Warehouse.
Hình 2.4 Cấu trúc kho dữ liệu
Khai phá dữ liệu trong BI
Khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân tích dữ liệu Các MCU khai phá dữ liệu cho phép các doanh nghiệp có thể dự đoán được xu hướng tương lai.
Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán Hơn nữa, Data Mining không chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu.
BI làm tăng khả năng kiểm soát thông tin của doanh nghiệp một cách chính xác, hiệu quả từ đó có thể phân tích, khai phá tri thức giúp doanh nghiệp có thể dự đoán về xu hướng của giá cả dịch vụ, hành vi khách hàng, phát hiện khách hàng tiềm năng để đề ra các chiến lược kinh doanh phù hợp nhằm tăng khả năng cạnh tranh doanh nghiệp
BI giúp cho các doanh nghiệp sử dụng thông tin một cách hiệu quả, chính xác để thích ứng với môi trường thay đổi liên tục và cạnh tranh khốc liệt trong kinh doanh Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như quy tắc kết hợp, phân loại, phân cụm và dự báo Một số tính năng chính của Data Mining:
- Dự đoán các mẫu dựa trên xu hướng trong dữ liệu- Tính toán dự đoán kết quả
- Tạo thông tin phản hồi để phân tích- Tập trung vào cơ sở dữ liệu lớn hơn- Phân cụm dữ liệu trực quan
CÁC PHƯƠNG PHÁP TRONG KHAI PHÁ DỮ LIỆU
Phương pháp phân lớp (Classification) là một kỹ thuật khai thác dữ liệu phức tạp đào tạo thuật toán Machine Learning (ML), để sắp xếp các dữ liệu đó thành các danh mục riêng biệt Đây là một quá trình tìm kiếm một mô hình mô tả và nhận biết các lớp trong dữ liệu và khái niệm dữ liệu Phương pháp phân lớp là đi tìm, xác định một hoặc tập thể những danh mục Sau đó, khi có dữ liệu mới thêm vào, sẽ xác định dữ liệu đó thuộc một-nhiều loại nào, bằng cách dựa trên cơ sở một tập dữ liệu đã xây dựng trước đó Hay nói cách khác, từ dữ liệu được đào tạo đưa vào, hệ thống sẽ phân dữ liệu đó thành nhiều danh mục khác nhau, sau đó khi có dữ liệu mới, hệ thống cũ sẽ dựa vào đào tạo đã xây dựng từ trước, sắp xếp dữ liệu mới vào các danh mục.
Kỹ thuật này sử dụng các phương pháp thống kê như cây quyết định và thuật toán láng giềng (K-nearest neighbor algorithm) gần nhất để xác định danh mục Trong tất cả những phương pháp này, thuật toán được lập trình trước bằng các mục phân loại dữ liệu đã biết để đoán loại phần tử dữ liệu mới.
Một vài lợi ích khi sử dụng phương pháp phân lớp:
- Dữ liệu phân loại rõ ràng sẽ giúp cho các doanh nghiệp và tổ chức dựa vào đó để thiết lập các hệ thống phân quyền truy cập cho cá nhân, từ đấy sẽ tạo ra được hiệu quả trong việc sử dụng các dữ liệu.
- Việc tiến hành phân loại dữ liệu sẽ thể hiện được sự chuyên nghiệp của tổ chức, doanh nghiệp trong việc bảo vệ hệ thống tài nguyên dữ liệu có giá trị của khách hàng và ngay cả chính doanh nghiệp.
- Tự động hóa quá trình phân loại, dữ liệu được tự động hóa giúp tiết kiệm thời gian và công sức so với việc thực hiện bằng tay.
- Phân tích được thông tin ẩn sẽ giúp chúng ta phân tích và tìm ra các thông tin ẩn trong dữ liệu, giúp tăng hiệu quả của quá trình phân loại và giúp chúng ta
Ví dụ 1: Các nhà phân tích đào tạo phần mềm khai thác dữ liệu sử dụng những hình ảnh quả táo và quả xoài được gắn nhãn Từ đó, khi có hình ảnh mới được thêm vào, phần mềm sẽ tự xác định, dự đoán xem đó là quả táo hay xoài hay là một loại quả mới.
Ví dụ 2: Hệ thống nhận được một cơ sở dữ liệu bất kì, đây là dữ liệu về đồ ăn, rất nhiều thông tin đồ ăn ở tình trạng khác nhau được đưa vào Từ đây, các nhà phân tích sẽ chia ra đâu là đồ ăn nhanh, bánh ngọt, bánh mặn, đồ nướng, đồ ăn có vẻ là còn ăn được, đồ ăn có vẻ là bị hỏng, đồ ăn món Ý, đồ ăn thuộc nước Việt Nam,… Tùy vào xây dựng của nhà phân tích Sau đó, khi có dữ liệu đồ ăn mới được thêm vào, hệ thống sẽ tự phân tích theo “kiến thức” được lập trình từ trước Phân loại dữ liệu mới đó vô đồ ăn nhanh hay bánh mặn hoặc vừa là bánh ngọt vừa là đồ ăn món Ý, hoặc, có thể là không thuộc một danh mục nào cả.
Cây quyết định (Decision Trees) được sử dụng để xây dựng một kế hoạch của tổ chức nhằm đạt được những mục tiêu mong muốn Trong quá trình phân tích các dữ liệu để đưa ra được quyết định chính xác thì cây quyết định và sơ đồ ảnh hưởng có một quan hệ chặt chẽ với nhau và được tận dụng như một công cụ trực quan, trong đó giá trị kỳ vọng của các lựa chọn thay thế cạnh tranh được tình toán một các cụ thể Đây là phương pháp học tập (do hệ thống học tập) có giám sát phi tham số, được sử dụng nhằm phân loại và hồi quy các dữ liệu mà doanh nghiệp thu thập Mục tiêu chính của phương pháp chính là tạo ra một mô hình tiêu chuẩn, dự đoán, dự báo một biến mục tiêu hoặc xác định phân loại của mục tiêu, bằng cách phân tích các quy tắc quyết định đơn giản, được suy luận từ nhiều tính năng của dữ liệu mà doanh nghiệp tổng hợp nên.
Ngoài ra, cây quyết định còn là một công cụ hỗ trợ ra quyết định cho các ban lãnh đạo trong tổ chức Phương pháp này chủ yếu cung cấp mô hình quyết định và các hệ số suy ra được từ dữ liệu thu thập có thể xảy ra, bao gồm cả những kết quả có lợi nhất cho doanh nghiệp, đến kết quả mang lại rủi ro cao nhất, cùng chi phí thực hiện và tiện ích của từng kết quả đưa ra.
Cây có cấp độ càng cao chứng tỏ độ chính xác càng chuẩn Tuy nhiên, không bao giờ là chuẩn 100%
Xử lý tốt dữ liệu lớn trong một thời gian ngắn.
Tùy vào người sử dụng, thiết kế cây quyết định có thể dẫn đến thực hiện một cây phức tạp, chứa nhiều dữ liệu nhưng vẫn không bao quát được nội dung.
Có thể thay thế bằng các phương pháp hiện đại hiện nay khác, cho ra những dự đoán tốt hơn so với kết quả mà cây quyết định đưa ra.
Cây quyết định thường dùng để:
- Dự báo: Dự báo trước một kết quả khi đưa dữ liệu vào
- Hỗ trợ ra quyết định: Từ dự báo đó, hệ thống sẽ đưa ra kết quả của một quá trình hoặc dữ liệu Từ đây, người dùng xem xét, tham khảo đưa ra quyết định cuối cùng.
Phân cụm (Clustering) là quá trình nhóm nhiều điểm dữ liệu lại với nhau dựa trên những điểm tương đồng giữa chúng Phân cụm khác phân lớp - phân cụm không thể phân biệt dữ liệu theo danh mục cụ thể nhưng có thể tìm thấy kiểu mẫu trong các điểm tương đồng của chúng Khai thác dữ liệu tạo ra một tập hợp cụm, trong đó mỗi tập hợp sẽ khác biệt với các nhóm khác nhưng đối tượng trong mỗi cụm sẽ phần nào đó có điểm tương đồng.
Ví dụ: Phân tích cụm có thể giúp nghiên cứu thị trường khi làm việc với dữ liệu đa biến từ các cuộc khảo sát Các nhà nghiên cứu thị trường sử dụng phân tích cụm để chia người tiêu dùng thành nhiều phân khúc thị trường và hiểu rõ hơn về mối quan hệ giữa các nhóm khác nhau.
2.3.3 Phương pháp luật kết hợp
Phương pháp luật kết hợp (Association rule mining) là quy trình tìm kiếm mối quan hệ giữa hai tập dữ liệu khác nhau, dường như không liên quan đến nhau Câu lệnh if-then lường độ chính xác của kết quả bằng các tiêu chí hỗ trợ và độ tin cậy Các tiêu chí hỗ trợ đo lường tần suất xuất hiện của những phần tử liên quan trong tập dữ liệu, trong khi đó các tiêu chí độ tin cậy cho biết số lần câu lệnh if-then được thực hiện chính xác.
GIỚI THIỆU PHẦN MỀM ORANGE
2.4.1 Tổng quan về phần mềm Orange
Orange là một phần mềm mã nguồn mở và miễn phí được sử dụng cho khai phá dữ liệu và phân tích dữ liệu Orange được phát triển bởi một nhóm các nhà khoa học dữ liệu ở đại học Slovenia, Orange cung cấp một giao diện đồ họa trực quan, nó cho phép người dùng thực hiện các tác vụ phân tích dữ liệu phức tạp một cách dễ dàng mà không cần kiến thức lập trình Orange cung cấp các công cụ cho phép người dùng tạo ra các luật kết hợp, mô hình học máy, phân tích độ phức tạp và khai thác dữ liệu Nó cũng cung cấp các công cụ cho phép người dùng trực quan hóa và hiển thị dữ liệu bằng cách sử dụng đồ thị và biểu đồ.
Orange hỗ trợ nhiều ngôn ngữ lập trình như Python và C++ Ngoài ra, Orange còn hỗ trợ các công cụ và thư viện phân tích dữ liệu và học máy phổ biến khác như Scikit- learn, Pandas, NumPy, TensorFlow, Nó hỗ trợ một loạt các định dạng tệp khác nhau như: txt, xlsx, csv, sql, Orange cho phép người dùng nhập và xuất dữ liệu từ các nguồn dữ liệu khác nhau Orange được sử dụng rộng rãi trong nhiều lĩnh vực như kinh doanh, y tế, khoa học xã hội và nghiên cứu khoa học.
Phần mềm Orange là một công cụ phân tích dữ liệu mã nguồn mở có nhiều ưu điểm, sau đây là một số ưu điểm của Orange:
- Dễ sử dụng: Orange có giao diện đồ họa thân thiện, giúp người dùng dễ dàng truy cập các tính năng phân tích dữ liệu.
- Đa dạng trong tính năng: Orange cung cấp nhiều loại phương pháp phân tích dữ liệu, bao gồm khai phá dữ liệu, phân tích hình ảnh, phân tích văn bản, phân tích mạng xã hội, và nhiều tính năng khác.
- Mã nguồn mở: Orange là một phần mềm mã nguồn mở, cho phép người dùng tự do chỉnh sửa và phát triển tiếp các tính năng mới.
- Hỗ trợ ngôn ngữ Python: Orange cho phép người dùng sử dụng ngôn ngữ lập trình Python để tùy chỉnh và mở rộng các tính năng phân tích dữ liệu.
- Có nhiều tài liệu và hướng dẫn: Orange cung cấp nhiều tài liệu và hướng dẫn chi tiết, giúp người dùng có thể sử dụng và tận dụng tối đa các tính năng của phần mềm.
- Có tính tương thích cao: Orange có thể tương thích với nhiều định dạng tập tin dữ liệu khác nhau, bao gồm cả các định dạng phổ biến như CSV, Excel, SQL,
- Hỗ trợ đa nền tảng: Orange có thể chạy trên nhiều nền tảng khác nhau, bao gồm Windows, MacOS và Linux, giúp người dùng có thể sử dụng phần mềm trên nhiều thiết bị khác nhau.
Ngoài những ưu điểm thì Orange cũng tồn tại một số hạn chế như sau:
- Khả năng xử lý dữ liệu lớn hạn chế: Orange được thiết kế để làm việc với các tập dữ liệu nhỏ hoặc trung bình Do đó, nếu bạn cần phân tích dữ liệu lớn, nó có thể bị lag và có thể phải tìm kiếm các phương pháp khác.
- Hạn chế về độ phức tạp của mô hình: Orange cung cấp một số công cụ phân tích dữ liệu nhưng không thể thực hiện tất cả các phương pháp phân tích dữ liệu phức tạp
- Hạn chế về tùy chỉnh: Orange cung cấp một số công cụ để tùy chỉnh giao diện và hành vi của các mô-đun Tuy nhiên, các tùy chỉnh này có hạn chế về tính linh hoạt và độ phức tạp.
- Chỉ hỗ trợ Python 2: Hiện tại, Orange chỉ hỗ trợ phiên bản Python 2.7, trong khi phiên bản Python 3.x đang trở thành chuẩn trong cộng đồng lập trình.
- Giao diện người dùng không trực quan: Mặc dù Orange cung cấp giao diện người dùng đồ họa, nhưng giao diện này không phải là rất trực quan và thân thiện đối với người mới bắt đầu sử dụng.
2.4.2 Cách sử dụng phần mềm
2.4.2.1 Giới thiệu giao diện của Orange
Orange cung cấp cho người dùng bộ công cụ tối giản nhất để bắt đầu quá trình phân tích dữ liệu ngay lập tức mà không cần qua các bước chuyển đổi khác, Orange bao gồm các bộ công cụ sau:
- Data: Là một tập hợp các tính năng và chức năng được thiết kế để giúp người dùng quản lý, xử lý và làm việc với dữ liệu trong quá trình phân tích Bao gồm các tính năng như:
File: Cho phép nhập dữ liệu từ nhiều nguồn khác nhau như tệp CSV, Excel, SQL,
Save Data: Cho phép lưu dữ liệu sau khi xử lý.
Datasets: Là bộ dữ liệu mẫu có sẵn trong phần mềm để người dùng có thể sử dụng và thực hành phân tích dữ liệu
Feature: Cho phép thao tác và lựa chọn tính năng để giảm chiều dữ liệu và tăng hiệu quả tính toán.
Edit Domain: Là quá trình thay đổi và tùy chỉnh các thuộc tính, đặc tính của một tập dữ liệu Khi một tập dữ liệu được nhập vào, các thuộc tính và đặc tính của nó được định nghĩa dựa trên định dạng dữ liệu của tập dữ liệu đó
Hình 2.5 Bộ công cụ Data trong Orange
- Transform: Cung cấp cho người dùng các công cụ để biến đổi và chuyển đổi dữ liệu trong tập dữ liệu Bộ công cụ này cho phép người dùng thực hiện các thao tác như lọc dữ liệu, sắp xếp, gộp, chia dữ liệu, tạo các biến mới từ dữ liệu hiện có, và áp dụng các chức năng toán học và thống kê vào dữ liệu Các công cụ cơ bản trong Transform của Orange bao gồm:
Select Columns: Cho phép người dùng chọn các cột dữ liệu cần sử dụng để thực hiện phân tích.
Select Rows: Cho phép người dùng chọn các dòng dữ liệu cần sử dụng để thực hiện phân tích.
Merge Data: Cho phép người dùng ghép nối hai tập dữ liệu với nhau dựa trên một hoặc nhiều cột chung.
Pivot Table: Cho phép người dùng xoay dữ liệu từ dạng dài sang dạng rộng hoặc ngược lại.
ỨNG DỤNG PHẦN MỀM ORANGE
THUẬT TOÁN CÂY RA QUYẾT ĐỊNH ( TREE VIEWER)
3.1.1 Mô tả bài toán Ở data giao hàng này, Mỗi đơn hàng tương ứng với một khách hàng duy nhất tại cửa hàng Không khách hàng có đơn hàng bị trùng và dữ liệu khách hàng bị lặp lại Vì vậy, từ đây, ta sẽ xây dựng cây ra quyết định xem, những yếu tố nào dẫn dắt khách hàng trả bằng chuyển khoản, thẻ ghi nợ, ghi séc hoặc tiền mặt.
Bảng 3.1 Bộ dữ liệu 1 dùng cho thuật toán cây ra quyết định
STT Tên dữ liệu Tên tiếng Việt Tập giá trị
1 Customer ID Mã khách hàng Có giá trị từ 1 đến 5000
Order ID Mã đơn đặt hàng Có giá trị từ 10001 đến
Gender Giới tính Male (Nam), Female (Nữ)
4 Customer Country Quốc gia khách hàng Puerto Rico, EE UU.
5 Customer Segment Phân khúc khách hàng Consumer (Người tiêu dùng), Home Office (Văn phòng tại nhà), Corporate (Công ty)
Age Tuổi Có giá trị từ 18 đến 55
7 Annual Income Thu nhập hàng năm Có giá trị từ 300 đến
8 Spending Score Điểm chi tiêu Có giá trị từ 1 đến 100
Profession Nghề nghiệp Healthcare (Chăm sóc sức khỏe), Engineer (Kỹ sư), Lawyer (Luật sư), Artist (Nghệ sĩ), Executive (Người điều hành), Doctor (Bác sĩ), Homemaker (Nội trợ), Marketing (Tiếp thị)
Work Experience Kinh nghiệm làm việc Có giá trị từ 0 đến 17
Family Size Quy mô gia đình Có giá trị từ 1 đến 9
Shipping Mode Kiểu vận chuyển Same Day (Cùng ngày),
Second Class (Lớp thứ hai), Standard Class (Lớp tiêu chuẩn), First Class (Lớp đầu tiên)
Type Kiểu thanh toán Payment (Thanh toán),
Debit (Ghi nợ), Cash (Tiền mặt), Transfer (Chuyển khoản)
3.1.2 Tiền xử lý dữ liệu
Loại bỏ các cột “Gender”, “Age”, “Annul Income”, “Spending Score”, “Professtion”,
“Work Experience” và “Family Size”.
Hình 3.1 Loại bỏ cột không liên quan, ảnh hưởng đến yếu tố ra quyết định
3.1.3 Quá trình chạy thuật toán
Lựa chọn “file” để tải data lên
Xây dựng cây với mục tiêu là “Type” kiểu trả tiền của khách hàng thì sẽ loại bỏ cột không liên quan như CustomerID và OrderID, chuyển “Type” xuống phần “Target”.
Hình 3.3 Giao diện Select cho Tree Điều chỉnh tỉ lệ cây như sau: Không xây dựng cây có các giá trị ở nhánh ít nhất là 7 giá trị, không rẻ nhánh lớn hơn 7 và dừng khi đạt độ chính xác chiểm 90%.
Hình 3.4 Cài đặt yêu cầu cây
Hình 3.5 Tổng quan xây dựng cây
3.1.4 Kết luận của thuật toán cây ra quyết định
Hình 3.6 Kết quả ra cây
Trong kết quả cây ra quyết định của Orange, thuộc tính “Type” có 4 giá trị tương ứng với 4 màu sắc: Debit – màu đỏ, Payment – xanh lá cây, Cash – Xanh dương, Transfer – cam
Bắt đầu từ kết quả gốc của của cây: Thanh toán bằng ghi nợ (Debit) chiếm 46,4% các giao dịch khi thanh toán giao hàng của khách hàng trong tổng 5000 dòng dữ liệu.
Trong đó, nếu phân tích kĩ hơn 5000 dòng dữ liệu thì ta sẽ thấy, nếu Loại khách hàng là “Home Office” có 784 phần tử, trong đó:
- Thuộc nước EE, UU chọn kiểu giao hàng “Standard Class” thì có tới 34,1% là trả tiền bằng hình thức Transfer (chuyển khoản) Tuy 34,1% là con số nhỏ nhưng nó chiếm tỉ lệ cao nhất ở nhóm khách hàng thuộc nước EE, UU, giao hàng loại “Standard Class” này.
- Thuộc nước EE, UU chọn kiểu giao hàng “Second Class” có 33.3% chọn kiểu thanh toán “Debit” Tuy nhiên, loại khách hàng này chiếm 5/15 người và đạt 33.3% nghĩa là có 15 người, 3 kiểu thanh toán khác nhau chia đều cho 15 người Vì vậy kết quả phần nhánh này cho thấy khả năng bằng nhau của nhóm khách thuộc nước EE, UU chọn kiểu giao hàng “Second Class” thì khả năng trả bằng hình thức “Payment”, “Transfer” hoặc “Debit” bằng nhau.
- Thuộc nước Puerto Rico thì có đến hơn 90% là có xu hướng trả bằng
Nếu khách hàng thuộc nhóm “Consumer” (Người tiêu thụ) hoặc “Corporate” thì có xu hướng là trả tiền bằng “Debit”, tuy nhiên nếu nhìn kĩ hơn 4216 người này, ta sẽ thấy:
- Thuộc nhóm “Comsumer” hoặc “Corperate” và chọn hình thức ship là “Second class” hoặc “Standard Class” thì có xu hướng trả bằng “Debit” (59,8%), trong đó:
Chọn hình thức vận chuyển “Standard class” và thuộc thành viên nước EE, UU có xu hướng trả bằng thẻ ghi nợ (Debit) đến 58,8%
Chọn hình thức vận chuyển “Standard class” và thuộc thành viên nước Puerto Rico có xu hướng chuyển khoản để thanh toán (77,9%)
Chọn hình thức vận chuyển “Second Class” và thuộc nhóm khách hàng
“Corporate” thì có 56,4% là trả bằng tiền mặt
Chọn hình thức vận chuyển “Second Class” và thuộc nhóm khách hàng
“Corporate” thì có 56,4% là trả bằng tiền mặt
Chọn hình thức vận chuyển “Second Class” và thuộc nhóm khách hàng
“Consumer” thì thường sẽ trả bằng thẻ ghi nợ (Debit) - Thuộc nhóm “Comsumer” hoặc “Corperate” và chọn hình thức ship là “First class” hoặc “Same Day” thì có xu hướng trả bằng “Cash” (76.2%) khá cao, trong đó:
Là nhóm khách hàng thuộc nước EE, UU và là khách hàng thuộc loại
“Corporate” đa số sẽ trả bằng “Debit” Tỉ lệ 32,4% tuy không nhiều, nhưng là chiếm phần lớn trong các hình thức trả khác Vì chiếm đại đa số nên ta sẽ không xét chi tiết đến các trường hợp hình thức giao hàng nữa.
Là nhóm khách hàng thuộc nước EE, UU và là khách hàng thuộc loại
“Consumer” đa số sẽ trả bằng “Debit”
Là nhóm khách hàng thuộc nước Puerto Rico và là nhóm khách hàng
“Corporate” sẽ trả bằng tiền mặt
Là nhóm khách hàng thuộc nước Puerto Rico và là nhóm khách hàng
“Consumer” thì có xu hướng trả bằng “Debit” (32,1%)
THUẬT TOÁN PHÂN CỤM ( SCATTER PLOT )
3.2.1 Mô tả bài toán Ở bài phân cụm data chuyển phát hàng, ta sẽ phân tích từng khách hàng trong dữ liệu
Vì ở data này, mỗi khách hàng là một đơn hàng khác nhau nên ta không lo bị trùng dữ liệu khách hàng Mục tiêu là đánh giá các khách hàng mua sản phẩm của Lotte Mart theo tiêu chí nhằm tìm ra nhóm khách hàng quan trọng, hoặc chưa mua nhiều để phát triển Lotte Mart, hỗ trợ các khách hàng nhiều hơn Ta sẽ dựa vào 2 thuộc tính
“Spending Scores” (Điểm chi tiêu) làm cột x, “Annual Income” (thu nhập) làm cột y, các thuộc tính “Gender”, “Age”, “Profession”, “Work Experience”,”Famili Size” làm thuộc tính hỗ trợ.
Bảng 3.2 Bộ dữ liệu 1 dùng cho thuật toán gom cụm
STT Tên dữ liệu Tên tiếng Việt Tập giá trị
1 Customer ID Mã khách hàng Có giá trị từ 1 đến 5000
Order ID Mã đơn đặt hàng Có giá trị từ 10001 đến
Gender Giới tính Male (Nam), Female (Nữ)
4 Customer Country Quốc gia khách hàng Puerto Rico, EE UU.
5 Customer Segment Phân khúc khách hàng Consumer (Người tiêu phòng tại nhà), Corporate (Công ty)
Age Tuổi Có giá trị từ 18 đến 55
7 Annual Income Thu nhập hàng năm Có giá trị từ 300 đến
8 Spending Score Điểm chi tiêu Có giá trị từ 1 đến 100
Profession Nghề nghiệp Healthcare (Chăm sóc sức khỏe), Engineer (Kỹ sư), Lawyer (Luật sư), Artist (Nghệ sĩ), Executive (Người điều hành), Doctor (Bác sĩ), Homemaker (Nội trợ), Marketing (Tiếp thị)
Work Experience Kinh nghiệm làm việc Có giá trị từ 0 đến 17
Family Size Quy mô gia đình Có giá trị từ 1 đến 9
Shipping Mode Kiểu vận chuyển Same Day (Cùng ngày),
Second Class (Lớp thứ hai), Standard Class (Lớp tiêu chuẩn), First Class (Lớp đầu tiên)
Type Kiểu thanh toán Payment (Thanh toán),
Debit (Ghi nợ), Cash (Tiền mặt), Transfer (Chuyển khoản)
3.2.2 Tiền xử lý dữ liệu
Loại bỏ các thuộc tính không tham gia phân cụm như: “Customer Country”,
“Customer Segment”, “Shipping Mode” và “Type” Chuyển đổi file “Bodulieugoc1” từ csv sang Excel để dễ dàng loại bỏ cột và ta sẽ lấy số lượng dữ liệu là 2000 khác hàng đầu tiên.
Hình 3.7 Loại bỏ những cột không phù hợp và không tham gia vào quá trình phân cụm
Lấy dữ liệu thì dòng A1 đến I2001, vì dòng đầu tiên là tên cột Sau đó “cut”, chuyển qua một file dữ liệu excel mới, lưu dưới dạng csv mang tên “Xuly_Clustering”.
3.2.3 Quá trình chạy thuật toán
Tải file data “Xuly_Clustering” lên thông qua “File” Chúng ta sẽ xét 3 thuộc tính: thu nhập, điểm chi tiêu và giới tính.
Vì vậy ta chọn “Choice Clumns” để loại các cột không cần thiết một lần nữa, giúp thuật toán K-mean chỉ tập trung phân cụm 3 thuộc tính trên.
Hình 3.9 Cửa sổ lấy thuộc tính
Sau đó nối với thuật toán K-means, điều chỉnh giới hạn cụm từ 2 đếm 4 cụm Và chọn số cụm có chỉ số Sillihouette cao thứ 2 vì ta có thêm cột “gender” bổ sung nên giờ đây điểm cao nhất Sillhouette chưa phải là điểm đúng nhất.
Hình 3.10 Cửa sổ điểu chỉnh K-means
Sau đó nối với icon “Scatter Plot” để nhìn thấy kết quả.
Hình 3.11 Kết nối Scatter Plot
3.2.4 Kết luận của thuật toán gom cụm
Phân tích: Tại đây, cụm K phân thành 4 cụm Màu xanh nước là những gia đình thu nhập cao nhưng chi tiêu thấp hoặc trung bình Màu đỏ là những gia đình thu nhập vừa đủ nhưng chi tiêu cao Màu xanh lá cây là những gia đình thu nhập cực cao, chi tiêu cao Nhóm màu cam là thu nhập thấp, chi tiêu trung bình, vài phần tử là thu nhập cực thấp, chi tiêu trung bình Các ký tự mang dấu x là người mua mang giới tính “Nữ”, hình tròn là người mua giới tính “Nam”.
Kết quả: Đối với các khách hàng màu xanh, thu nhập nhiều nhưng chi tiêu ít, từ đây ta nhận thấy đây là khách hàng tiềm năng, ta cần khảo sát tìm hiểu lý do vì sao nhóm khách hàng này có xu hướng mua ít ở Lotte Mart: vì giá cả? Sản phẩm hoặc vì lý do khác? Như vậy, ta sẽ đánh mạnh vào yếu tố còn thiếu để đẩy mạnh chi tiêu của nhóm khách hàng này đối với Lotte Mart.
Với nhóm khách hàng xanh lá cây, đây là nhóm khách hàng chi tiêu nhiều và thu nhập mua hàng ở Lotte Mart Nhìn vào sơ đồ, ta nhận thấy nhóm khách hàng màu xanh lá phần đông là hình tròn – nữ giới Vì vậy ta đoán rằng đây là nhóm khách hàng nội trợ, những người chăm sóc gia đình hoặc nữ giới quan tâm đến sản phẩm chăm sóc sắc đẹp ở Lotte Để chắc chắn hơn, cần khảo sát, phân tích thêm nhóm đối tượng này để giữ chân để khách hàng tiếp tục mua hàng ở hệ thống Lotte Mart.
Tương tự với nhóm khách hàng màu đỏ, dù có mức thu nhập thấp – trung bình nhưng điểm chi tiêu lại vô cùng cao Ta cần hỗ trợ nhóm khách hàng này để tiếp tục mua hàng ở Lotte Mart, có thể nhóm này thu hút ở các mặt hàng giảm giá, chương trình khuyến mãi ở Lotte Hoặc đây là nhóm khách hàng lâu năm, trung thành của siêu thị, cần chăm sóc nhóm khách hàng này để tiếp tục quay lại mua hàng ở Lotte Mart Tuy nhiên vì thu nhập thấp, sức mua không nhiều nên mức độ quan tâm nhóm này đứng thứ 3 trong nhóm.
Nhóm cuối cùng màu cam, sức mua ít, vừa và thu nhập ở mức thấp đến trung bình Đây có thể là nhóm khách hàng mới, mua không đều Siêu thị có thể khảo sát thêm để tăng sức mua nhóm khách này, tuy nhiên, nhóm khách hàng màu cam không có nhiều tiềm năng tương tự nhóm khách hàng màu xanh, vì vậy ta có thể xem xét, tạm gác qua nhóm khách hàng này, tập trung triển khai tăng sức mua ở các nhóm hàng khác.
THUẬT TOÁN KẾT HỢP (ASSOCIATION RULES)
Dựa vào dữ liệu thông tin hóa đơn của khách hàng đã mua ở siêu thị, bài toán đặt ra ở đây là sẽ phân tích dữ liệu để tìm ra các mối quan hệ kết hợp giữa các sản phẩm mà khách hàng thường mua cùng nhau Bằng cách phân tích các hóa đơn của khách hàng, có thể tìm ra các luật kết hợp giữa các sản phẩm và sử dụng chúng để thực hiện các chiến dịch tiếp thị, quảng cáo, hoặc định hướng lại các bố trí của các loại sản phẩm trong siêu thị.
Ví dụ trong siêu thị có thể bán các sản phẩm như bột giặt, nước xả vải, chất tẩy, bàn chải giặt đồ Bằng cách phân tích dữ liệu các hóa đơn của khách hàng, có thể tìm ra các mối quan hệ kết hợp như sau: Nếu khách hàng mua bột giặt và nước xả vải cùng lúc thì khả năng cao họ cũng sẽ mua bàn chải giặt đồ, hoặc nếu khách hàng mua bột giặt thì khả năng cao họ cũng sẽ mua nước xả vải Từ đó, dựa trên các luật kết hợp này, siêu thị có thể đưa ra các gợi ý cho khách hàng, như giảm giá cho những sản phẩm kết hợp cùng nhau hoặc đặt các sản phẩm kết hợp cùng nhau ở cạnh nhau để thu hút khách hàng mua nhiều hơn.
Bộ dữ liệu dùng để thực hiện thuật toán kết hợp là file BoDuLieu2, bộ dữ liệu này bao gồm các thông tin và thuộc tính về hoạt động mua bán tại siêu thị Tuy nhiên, đa phần khách hàng ở đây là những khách hàng lẻ và họ thường mua hàng với số lượng nhỏ hoặc vừa. Đây là dữ liệu bán hàng của siêu thị Lotte Mart, dữ liệu này là dữ liệu hóa đơn của khách hàng và được xuất tại quầy, đây là bộ dữ liệu bằng tiếng anh Bộ dữ liệu bao gồm các thuộc tính như: Invoce No (Số hóa đơn), Stock Code (Mã kho), Product Name (Tên sản phẩm), Quantity (Số lượng), Invoice Date (Ngày hóa đơn), Unit Price (Đơn giá), Country (Đất nước) Để áp dụng bộ dữ liệu này vào thực hiện thuật toán kết hợp thì chúng em đã tìm hiểu và nhận thấy có một vài thuộc tính có thể dùng để thực hiện luật kết hợp như: Invoce No (Số hóa đơn), Product Name (Tên sản phẩm) Dựa vào 2 thuộc tính này có thể thực hiện luật kết hợp để biết rằng khách hàng của siêu thị sẽ có xu hướng mua kèm những sản phẩm nào với nhau
Dữ liệu gồm có 7 thuộc tính và 3941 dòng dữ liệu.
Bảng 3.3 Bộ dữ liệu 1 dùng cho thuật toán kết hợp
STT Tên dữ liệu Tên tiếng Việt Tập giá trị
Invoce No Số hóa đơn Có giá trị từ 536365 đến
Stock Code Mã kho Có giá trị từ 851231 đến
Product Name Tên sản phẩm Wash – Tub (Thau giặt đồ), Clothes Brush (Bàn chải giặt đồ), Toilet Paper
(Giấy vệ sinh), Deodorant (Chất khử mùi), Fabric Softener (Nước xả), Clothes Hanger (Móc phơi đồ), Soap Dish (Đồ đựng xà phòng), Towel Bar (Giá treo khăn), Bleach (Chất tẩy), Sponge (Bông tắm),
Toilet Brush (Cọ chà nhà vệ sinh), Laundry Bag (Túi giặt), Toothpaste (Kem đánh răng), Lotion (Kem dưỡng ẩm), Bath Mat (Thảm chùi chân), Soap (Xà phòng), Water Ladle (Ca múc nước), Mouthwash (Nước xúc miệng), Detergent Powder (Bột giặt), Shaving Cream (Kem cạo râu)
Quantity Số lượng Có giá trị từ 5 đến 50
5 Invoice Date Ngày hóa đơn
Unit Price Đơn giá Có giá trị từ 1 đến 8000
Country Đất nước United Kingdom (Vương quốc Anh), France (Pháp), Australia (Úc),
Netherlands (Hà Lan), Germany (Đức), Norway (Na Uy), EIRE (EIRE)Sau đây là dữ liệu gốc
Hình 3.13 Dữ liệu gốc của thuật toán kết hợp
3.3.2 Tiền xử lý dữ liệu
Các bước xử lý dữ liệu thô thành dữ liệu để tiến hành thuật toán kết hợp như sau:
- Loại bỏ các ô trống và ký tự đặc biệt: Chuột phải và cột muốn xóa chọn Delete.
Hình 3.14 Loại bỏ các ô trống và ký tự đặc biệt trong Excel
- Loại bỏ một số thuộc tính không cần thiết trong luật kết hợp: Ở đây, thuật toán kết hợp nhóm em chỉ chọn 2 thuật toán đó là, Invoce No (Số hóa đơn) và Product Name (Tên sản phẩm), nên những cột thuộc tính còn lại sẽ loại bỏ hết bằng cách chuột phải và cột muốn xóa chọn Delete.
- Lọc các mã hóa đơn trùng nhau: Dùng dòng lệnh này trong Excel
“=UNIQUE(A2:A3941)”, lệnh này sẽ lọc các giá trị mã hóa đơn trùng nhau.
Hình 3.15 Lọc các mã hóa đơn trùng nhau trong Excel
- Đưa các sản phẩm có mã hóa đơn về cùng một dòng: Dùng dòng lệnh này trong Excel “=IF(A2:A25S6365,TEXTJOIN(",","TRUE", B2:B25), " ")”, lệnh này giúp chúng ta đưa những sản phẩm có cùng mã hóa đơn về một dòng Ở lệnh này sẽ lấy từ dòng A2 đến dòng A25 của mã hóa đơn nếu chúng có giá trị mã hóa đơn bằng “536365” thì sẽ nối tất cả các giá trị trong cột tên sản phẩm từ C2 đến C25 với ký tự phân cách là dấu phẩy, tương tự với các dòng còn lại.
Hình 3.16 Đưa các sản phẩm có mã hóa đơn về cùng một dòng trong Excel
- Chuyển đổi dữ liệu: Bước này sẽ làm thủ công, lấy mã hóa đơn vừa lọc khi nãy và các sản phẩm có trong mã hóa đơn đó cũng vừa lọc ở bên trên Nếu sản phẩm đó có trong đơn hàng sẽ mang giá trị “1” ngược lại nếu sản phẩm đó không có trong đơn hàng sẽ bỏ trống.
Sau đây là bộ dữ liệu sau khi tiền xử lý: Bộ dữ liệu gồm 2 thuộc tính là Invoce No (Số hóa đơn) và Product Name (Tên sản phẩm), dữ liệu gồm 20 sản phẩm và 250 mã hóa đơn tương ứng với 250 dòng.
3.3.3 Quá trình chạy thuật toán
Phần Data, chọn File, upload file data “DataSauTienXuLy_Association” lên.
Hình 3.18 Chọn File trong Orange
Hình 3.19 Nhấn chọn Open file
Hình 3.20 Chọn file data trong ổ đĩa
Phần “Columns”, ở đây sẽ hiển thị tất cả các thuộc tính có trong bộ dữ liệu.
- Name là tên thuộc tính - Type là kiểu của thuộc tính đó - Role là vai trò của thuộc tính đó Ở đây, thuật toán kết hợp không cần dùng thuộc tính “Invoice No” cho nên chúng ta sẽ chọn “skip” để bỏ qua thuộc tính đó.
- Values là giá trị của thuộc tính Ở đây, nếu thuộc tính sản phẩm có trong mã hóa đơn đó sẽ mang giá trị “1” ngược lại nếu sản phẩm đó không có trong đơn hàng sẽ không mang giá trị nào.
Hình 3.21 Điều chỉnh các thuộc tính có trong bộ dữ liệu Ở phần Data chọn Data Table
Nối “File” lại với “Data Table”.
Hình 3.23 Nối File lại với Data Table
Nhấn double chuột vào “Data Table” để xem dữ liệu mẫu Ở trong bảng này sẽ có 21 thuộc tính và 250 dòng Trong hình nếu sản phẩm có trong mã hóa đơn đó thì sẽ hiển thị giá trị “1” ngược lại nếu không có trong hóa đơn đó sẽ hiển thị “?” Ví dụ ở đây, trong hóa đơn 536365 sẽ có bàn chải giặt đồ, giấy vệ sinh, chất khử mùi, nước xả, khay đựng xà phòng.
Hình 3.24 Xem dữ liệu mẫu trong Orange Ở phần Associate chọn Association Rules và Frequent Itemsets.
Hình 3.25 Chọn Association Rules và Frequent Itemsets
Nối Datasets với Association Rules và Frequent Itemsets.
Hình 3.26 Nối Datasets với Association Rules và Frequent Itemsets
Nhấn đúp vào “Frequent Itemsets” để tìm các tập hợp phổ biến của các mặt hàng có trong dữ liệu. Ở mục “Find itemsets” điều chỉnh “Minimal support” = 50% và “Max number of itemsets” = 10000.
Nhấn chọn button “Find Itemsets” Nhấn chuột vào dòng “Detergent Powder” và quan sát ở phía tay trái mục “Info” sẽ bao gồm các thông số sau:
- Number of itemsets ở hình dưới là 1013 tập hợp con.
- Selected itemsets ở hình dưới là 1
- Selected examples ở hình dưới là 215 mẫu dữ liệu. Ý nghĩa những thông số trên:
- Number of itemsets = 1013 có nghĩa là trong quá trình phân tích dữ liệu, phần mềm Orange đã tìm thấy 1013 tập con của tập dữ liệu ban đầu mà xuất hiện đủ số lần được yêu cầu để được coi là "tập phổ biến"
- Selected itemsets = 1 có nghĩa là trong quá trình phân tích dữ liệu, phần mềm Orange đã chỉ chọn ra một itemset từ tập các frequent itemsets được tạo ra
- Selected examples = 215 có nghĩa là trong quá trình phân tích dữ liệu, phần mềm Orange đã chọn ra 215 mẫu từ tập dữ liệu ban đầu để sử dụng trong các tính toán và phân tích Các mẫu được chọn có thể được lựa chọn dựa trên các tiêu chí khác nhau, chẳng hạn như độ quan trọng của chúng trong mô hình hoặc độ tương đồng với các mẫu khác trong tập dữ liệu.