1. Trang chủ
  2. » Giáo Dục - Đào Tạo

TIỂU LUẬN môn học TRÍ TUỆ NHÂN tạo đề tài nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng phân tích doanh số bán hàng

35 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Khai Phá Dữ Liệu Lớn Data Mining Và Ứng Dụng Phân Tích Doanh Số Bán Hàng
Tác giả Vũ Thị Thắm
Người hướng dẫn ThS. Lưu Minh Tuấn
Trường học Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành Trí Tuệ Nhân Tạo
Thể loại tiểu luận
Định dạng
Số trang 35
Dung lượng 1,25 MB

Cấu trúc

  • 1. Đặt vấn đề (4)
    • 1.1. Lý do chọn đề tài (5)
    • 1.2. Mục tiêu nghiên cứu (5)
    • 1.3. Phạm vi nghiên cứu (5)
  • 2. Tổng quan về khai phá dữ liệu (4)
    • 2.1. Khai phá dữ liệu là gì? (6)
    • 2.2. Ứng dụng thực tiễn của Data Mining (6)
    • 2.3. Các bước của qua trình khai phá dữ liệu (7)
    • 2.4. Các phương pháp khai phá dữ liệu (8)
      • 2.4.1. Phân lớp, phân loại (8)
      • 2.4.2. Hồi quy (8)
      • 2.4.3. Phân cụm (Clustering) (9)
      • 2.4.4. Tổng hợp (Summarization) (11)
    • 2.5. Các hệ thống khai phá dữ liệu (12)
  • 3. Các kỹ thuật trong khai phá dữ liệu (4)
    • 3.1. Kỹ thuật phân lớp (12)
      • 3.1.1. Cây quyết định (13)
      • 3.1.2. Thuật tốn microsoft nạve bayes (14)
    • 3.2. Kỹ thuật kết hợp (14)
    • 3.3. Kỹ thuật phân cụm (15)
      • 3.3.1. Phân cụm tuần tự (15)
      • 3.3.2. Phân cụm (16)
    • 3.4. Kỹ thuật hồi quy (17)
      • 3.4.1. Hồi quy tuyến tính (17)
      • 3.4.2. Hồi quy logic (18)
  • 4. Ứng dụng thử nghiệm (19)
    • 4.1. Thuật toán Clustering KMeans và mô hình RFM (19)
      • 4.1.1. Thuật toán K-means (19)
      • 4.1.2. Mô hình RFM (19)
    • 4.2. Ứng dụng và lập trình (20)

Nội dung

Tổng quan về khai phá dữ liệu

Khai phá dữ liệu là gì?

Figure 1 Khai phá dữ liệu là gì?

Khai phá dữ liệu (data mining) là một bước của tiến trình KDD (Knowledge Discovery in Database), được định nghĩa như là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu.

Khai phá dữ liệu sử dụng các nguyên tắc thống kê được nghiên cứu kỹ lưỡng để khám phá các mẫu trong dữ liệu của bạn Bằng cách áp dụng các thuật toán khai thác dữ liệu trong dịch vụ phân tích cho dữ liệu, ta có thể dự báo xu hướng, xác định các mẫu, tạo quy tắc và đề xuất, phân tích chuỗi sự kiện trong các tập dữ liệu phức tạp và có được thông tin chi tiết mới.

 Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery in databases KDD)

 Trích rút tri thức (knowledge extraction)

 Phân tích mẫu/dữ liệu (data/pattern analysis).

Ví dụ hay được sử dụng là việc khai thác vàng từ đá và cát, Data Mining được ví như công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước Thuật ngữData Mining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô.

Ứng dụng thực tiễn của Data Mining

 Phân tích dữ liệu tài chính: Ứng dụng của Data Mining trong lĩnh vực này được dùng để tăng độ trung thành của khách hàng bằng cách thu thập và phân tích dữ liệu hành vi của khách hàng, để dự đoán hành vi của khách hàng để tung ra các dịch vụ và sản phẩm thích hợp.

 Ngành công nghiệp bán lẻ (Retail Industry) Ứng dụng khai phá dữ liệu trong ngành công nghiệp bán lẻ nhằm xây dựng mô hình giúp xác định xu hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm dịch vụ nhằm nâng cao sự hài lòng của khách hàng và giữ chân khách hàng tốt.

 Ngành công nghiệp viễn thông (Telecommunication Industry)

Khai phá dữ liệu trong ngành công nghiệp viễn thông giúp xác định các mô hình viễn thông, phát hiện các hoạt động gian lận trong viễn thông, sử dụng tốt hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn thông

 Phân tích dữ liệu sinh học (Biological Data Analysis)

Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh học (Bioinformatics)

 Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)

Với sự phát triển của internet và sự sẵn có của các công cụ, thủ thuật trợ giúp cho xâm nhập và tấn công mạng, yêu cầu kiểm soát truy cập bất hợp pháp là yếu tố rất quan trọng đảm bảo cho sự ổn định của hệ thống.

Dựa vào mối liên hệ giữa các triệu chứng để chuẩn đoán bệnh và hướng điều trị.

Phân tích các cuộc gọi điện thoại để dự đoán hành vi người dung nhằm nâng cao chất lượng,

Các bước của qua trình khai phá dữ liệu

Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng phương pháp.

Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được

Tiếp theo là công việc thu thập và tiền xử lý dữ liệu.

Bước tiếp là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu để tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường được biểu diễn dưới dạng các luật xếp loại, cây quyết định, luật sản xuất, biểu thức hồi quy, …)

Figure 2 Quá trình khai phá dữ liệu

Các phương pháp khai phá dữ liệu

Người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu

Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước.

Figure 3 Ví dụ về cây quyết định

Là phương pháp khám phá chức năng học dự đoán, ánh xạ một mực dữ liệu thành biến dự đoán giá trị thực

Figure 4 Ví dụ hồi quy đơn biến

Là một nhiệm vụ mô tả phổ biến trong đó người ta tìm cách xác định một tập hợp hữu hạn các cụm để mô tả dữ liệu

Figure 5 Phân cụm dữ liệu kinh doanh so sánh tuổi của khách hàng với quy mô bán hàng

Trong ví dụ này, chúng ta có thể nhận ra hai cụm, một cụm xung quanh nhóm2.000 Đô la Mỹ/ 20-30 tuổi và một cụm ở nhóm 7.000-8.000 Đô la Mỹ/ 50-65 tuổi

Figure 6 Ví dụ về giải thuật Kmean, với n = 10 và k = 2

 Mô hình ràng buộc (Dependency modeling)

Figure 7.Ví dụ về biểu đồ thể hiện lượng nước của sông Nile thay đổi theo các mốc thời gian

 Biểu diễn mô hình (Model Representation)

 Kiểm định mô hình (Model Evaluation)

Figure 8.Ma trận nhầm lẫn ( Confusion Matrix)

 Phương pháp tìm kiếm (Search Method)

Các kỹ thuật trong khai phá dữ liệu

Kỹ thuật phân lớp

Đây là kỹ thuật cho phép phân loại đối tượng vào một hoặc một số lớp cho trước.

Ta có thể sử dụng kỹ thuật này để phân loại khách hàng, mặt hàng, … bằng cách mô tả nhiều thuộc tính để phân loại đối tượng vào một lớp cụ thể.

Chúng ta thường sử dụng kỹ thuật khai thác dữ liệu này để lấy các thông tin quan trọng từ dữ liệu và siêu dữ liệu Vì vậy, trong phân tích, phân loại, chúng ta cần áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sử dụng.

Chẳng hạn, Email Outlook sử dụng các thuật toán nhất định để mô tả email là hợp pháp hoặc spam Hay các doanh nghiệp có thể áp dụng kỹ thuật này để phân loại khách hàng theo đối tượng hay độ tuổi.

Kỹ thuật phân lớp được tiến hành bao gồm 2 bước: Xây dựng mô hình và sử dụng mô hình:

 Xây dựng mô hình: là mô tả tập những lớp được định nghĩa trước trong đó: mỗi bộ hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như là được xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ được sử dụng trong mô hình gọi là tập huấn luyện Mô hình được biểu diễn là những luật phân lớp, cây quyết định và những công thức toán học.

 Sử dụng mô hình: Việc sử dụng mô hình phục vụ cho mục đích phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến Trước khi sử dụng mô hình, người ta thường đánh giá tính chính xác của mô hình trong đó: nhãn được biết của mẫu kiểm tra được so sánh với kết quả phân lớp của mô hình, độ chính xác là phần trăm của tập hợp mẫu kiểm tra mà phân loại đúng mô hình, tập kiểm tra là độc lập với tập huấn luyện.

Các thuật toán thường dùng trong phân lớp:

Thuật toán Cây quyết định (Decision Tree) là một thuật toán phân loại và hồi quy để sử dụng trong mô hình dự đoán của cả thuộc tính rời rạc và liên tục. Đối với các thuộc tính rời rạc, thuật toán đưa ra dự đoán dựa trên mối quan hệ giữa các cột đầu vào trong tập dữ liệu Nó sử dụng các giá trị, được gọi là trạng thái, của các cột đó để dự đoán các trạng thái của cột mà bạn chỉ định là có thể dự đoán được Cụ thể, thuật toán xác định các cột đầu vào có tương quan với cột có thể dự đoán

Cách thức hoạt động của thuật toán:

Thuật toán cây quyết định của Microsoft xây dựng một mô hình khai thác dữ liệu bằng cách tạo ra những “nhánh cây” (hay còn gọi là node) Thuật toán sẽ them node mỗi lần tìm thấy được cột đầu vào có tương quan với cột cần dự đoán Cách thuật toán xác định một node phụ thuộc vào việc dự đoán dữ liệu kiểu rời rạc hay kiểu liên tục.

 Dự đoán các cột dữ liệu rời rạc: Khi thuật toán thêm các nút mới vào một mô hình, cấu trúc cây hình thành Nút trên cùng của cây mô tả sự phân tích của cột có thể dự đoán cho tổng thể khách hàng Khi đó, mô hình tiếp tục phát triển, thuật toán sẽ xem xét tất cả các cột.

 Dự đoán các cột dữ liệu liên tục: Khi thuật toán Cây Quyết định của Microsoft xây dựng một cây dựa trên một cột có thể dự đoán liên tục, mỗi nút chứa một công thức hồi quy Sự phân tách xảy ra tại một điểm không tuyến tính trong công thức hồi quy

Cây quyết định được sử dụng rất phổ biến bởi một số lí do sau:

 Việc xây dựng cây quyết định không đòi hỏi bất cứ kiến thức chuyên ngành hay thiết lập tham số ban đầu nào cả Vì vậy, nó phù hợp với việc khám phá tri thức.

 Cây quyết định có thể quản lý dữ liệu có số chiều lớn.

 Việc biểu đạt tri thức dưới dạng cây có thể được diễn đạt dễ dàng.

 Quá trình học và phân lớp (sử dụng) của cây quyết định được thực hiện nhanh chóng.

 Nhìn chung, cây quyết định cho độ chính xác cao Tuy nhiên điều này còn phụ thuộc vào dữ liệu của chúng ta.

3.1.2 Thuật tốn microsoft nạve bayes

Thuật tốn Microsoft Nạve Bayes là một thuật tốn phân loại dựa trên các định lý Bayes và có thế được sử dụng cho cả mô hình khám phá và dự đoán Thuật toán sử dụng các kỹ thuật Bayes nhưng không tính đến các phụ thuộc có thể tồn tại.

Thuật toán này ít phức tạp hơn về mặt tính toán co với các thuật toán khác của Microsoft và do đó rất hữu ích để nhanh chóng tạo ra các mô hình khai thác để khám phá mối quan hệ giữa các cột đầu vào và cột có thể dự đoán Ta có thể sử dụng thuật toán này để khám phá dữ liệu ban đầu và sau đó, ta có thể áp dụng kết quả để tạo các mô hình khai thác bổ sung với các thuật toán khác có cường độ tính toán cao hơn và chính xác hơn.

Cách thức hoạt động của thuật toán:

Thuật toán Microsoft Naive Bayes tính toán xác suất của mọi trạng thái của mỗi cột đầu vào, với mỗi trạng thái có thể có của cột có thể dự đoán.

Kỹ thuật kết hợp

Kỹ thuật Association trong khai phá dữ liệu được sử dụng để xác định mối quan hệ giữa các biến khác nhau trong cơ sở dữ liệu Ngoài ra, nó còn được sử dụng để “giải nén” các mẫu ẩn trong dữ liệu Association Rule rất hữu ích để kiểm tra, dự đoán hành vi và thường được áp dụng trong ngành bán lẻ.

Thêm vào đó, các doanh nghiệp sử dụng kỹ thuật này để xác định hành vi mua sắm, phân tích dữ liệu trong giỏ hàng của khách hàng tiềm năng Trong lĩnh vực Công nghệ Thông tin, các lập trình viên sử dụng kỹ thuật này để xây dựng các chương trình Machine Learning.

Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu.

Một số loại luật kết hợp:

 Luật kết hợp nhị phân

 Luật kết hợp định hướng

Kỹ thuật phân cụm

Kỹ thuật phân cụm là kĩ thuật nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp.

Tiến trình phân cụm dựa trên mức độ tương tự giữa các đối tượng Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là cực đại và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực tiểu.

Các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm.

Do vậy, khảo sát các cụm sẽ giúp khái quát, toongt kết nhanh chóng nội dung của khối dữ liệu lớn.

Những Loại Dữ Liệu Cần Phân Cụm:

 Dữ Liệu Browse Website của khách hàng

 Dữ Liệu Lịch sử các giao dịch của khách Hàng

 Dữ Liệu về hành vi của khách hàng ở các kênh thương mại điện tử

Các thuật toán dùng trong phân cụm

Thuật Toán phân cụm tuần tự là một thuật toán đặc biệt có thể kết hợp việc gom cụm và việc phân tích trình tự với nhau Ta có thể dùng thuật toán này để tìm ra dữ liệu chứa những sự kiện có thể nối với nhau thành một chuỗi liên tục Thuật toán tìm những chuỗi chung nhất rồi thực hiện quá trình gom cụm để tìm ra những chuỗi giống nhau.

Một trình tự (Sequence) là 1 chuỗi các sự kiện (State) rời rạc, riêng biệt Thường số lượng các state là giới hạn Trong thực tế, chuỗi dữ liệu rất phổ biến, rất nhiều thông tin được mã hóa dưới dạng chuỗi trình tự

Cách hoạt động của thuật toán:

Thuật toán Microsoft Sequence Clustering là một thuật toán kết hợp kết hợp các kỹ thuật phân cụm với phân tích chuỗi Markov để xác định các cụm và trình tự của chúng Một trong những điểm nổi bật của thuật toán là sử dụng dữ liệu trình tự

Dữ liệu này thường đại diện cho một loạt các sự kiện hoặc chuyển đổi giữa các trạng thái trong tập dữ liệu, chẳng hạn như một loạt các giao dịch mua sản phẩm hoặc các nhấp chuột trên Web cho một người dùng cụ thể Thuật toán kiểm tra tất cả các xác suất chuyển đổi và đo lường sự khác biệt hoặc khoảng cách giữa tất cả các trình tự có thể có trong tập dữ liệu để xác định trình tự nào là tốt nhất để sử dụng làm đầu vào cho phân nhóm Sau khi thuật toán đã tạo danh sách các trình tự ứng viên, nó sử dụng thông tin trình tự làm đầu vào để phân nhóm bằng cách sử dụng Tối đa hóa kỳ vọng (EM).

Các thông số trong thuật toán:

 Cluster_count: số lượng nhóm trong mô hình Cluster_count=0: cho phép thuật toán tự động chọn số lượng nhóm tốt nhất cho mục đích dự đoán

 Minimum support (kiểu int): Xác định số lượng trường hợp nhỏ nhất trong mỗi nhóm để tránh mỗi nhóm có quá ít trường hợp Giá trị mặc định là 10.

 Maximum_states: (int) Xác định số lượng tối đa của những trạng thái cho thuộc tính không tuần tự

 Cluster(): Trả về cluster ID trong từng trường hợp

 ClusterDistance(): tính khoảng cách giữa các cụm

 PredictProbability(): Trả về xác suất cho mỗi trạng thái trình tự được dự đoán

 PredictHistogram(): Trả về biểu đồ xác suất cho mỗi trạng thái trình tự mỗi bước 3.3.2 Phân cụm

Thuật toán Microsoft Clustering là một thuật toán phân đoạn hoặc phân cụm lặp lại các trường hợp trong tập dữ liệu để nhóm chúng thành các cụm có chứa các đặc điểm giống nhau Các nhóm này hữu ích để khám phá dữ liệu, xác định các điểm bất thường trong dữ liệu và tạo dự đoán.

Các mô hình phân cụm xác định các mối quan hệ trong một tập dữ liệu mà bạn có thể không thu được một cách hợp lý thông qua quan sát thông thường Ví dụ, ta có thể dễ dàng đoán được rằng những người đi làm bằng xe đạp thường không sống xa nơi họ làm việc Tuy nhiên, thuật toán có thể tìm thấy các đặc điểm khác về người đi xe đạp mà không rõ ràng bằng Trong sơ đồ sau, cụm A đại diện cho dữ liệu về những người có xu hướng lái xe đi làm, trong khi cụm B đại diện cho dữ liệu về những người có xu hướng đi xe đạp để đi làm.

Thuật toán phân cụm khác với các thuật toán khai thác dữ liệu khác, chẳng hạn như thuật toán Cây quyết định, ở chỗ bạn không phải chỉ định một cột có thể dự đoán để có thể xây dựng mô hình phân nhóm Thuật toán phân cụm đào tạo mô hình một cách chặt chẽ từ các mối quan hệ tồn tại trong dữ liệu và từ các cụm mà thuật toán xác định.

Cách hoạt động của thuật toán:

Thuật toán Microsoft Clustering trước tiên xác định các mối quan hệ trong một tập dữ liệu và tạo ra một loạt các cụm dựa trên các mối quan hệ đó Biểu đồ phân tán là một cách hữu ích để biểu diễn trực quan cách thuật toán nhóm dữ liệu, như thể hiện trong sơ đồ sau Biểu đồ phân tán đại diện cho tất cả các trường hợp trong tập dữ liệu và mỗi trường hợp là một điểm trên biểu đồ Các nhóm điểm trên biểu đồ và minh họa các mối quan hệ mà thuật toán xác định.

Sau lần đầu tiên xác định các cụm, thuật toán sẽ tính toán mức độ tốt của các cụm đại diện cho các nhóm điểm và sau đó cố gắng xác định lại các nhóm để tạo ra các cụm đại diện tốt hơn cho dữ liệu Thuật toán lặp đi lặp lại quá trình này cho đến khi nó không thể cải thiện kết quả nhiều hơn bằng cách xác định lại các cụm.

Kỹ thuật hồi quy

Hồi quy (Regression) là phương pháp nghiên cứu mối quan hệ giữa 2 biến: một biến độc lập (ảnh hưởng đến mục tiêu), và biến mục tiêu (bị ảnh hưởng bởi 20 biến độc lập), mô hình hóa, định lượng hóa mối quan hệ này để có thể xác định được giá trị của biến mục tiêu nếu các biến độc lập thây đổi ra sao Kết quả của phân tích hồi quy có thể được đem ra dự báo.

 Hệ Số Tương quan > 0 => 2 biến có quan hệ thuận chiều

 Hệ Số Tương Quan < 0 => 2 biến có quan hệ nghịch

 Hệ số tương quan = 0 => 2 biến không có quan hệ tuyến tính với nhau

 Hệ số càng gần 1 thì mối quan hệ thuận càng chắc chắn

 Hệ số càng gần -1 thì mối quan hệ nghịch càng chắc chắn

Các thuật toán thường dùng trong hồi quy

Hồi quy tuyến tính (Linear Regression) được xem là mô hình hồi quy đơn bội, phổ biến nhất và chỉ nghiên cứu mối quan hệ tuyến tính giữa một biến độc lập và biến phụ thuộc, áp dụng cho biến định lượng và đồ thị là ở dạng đường thẳng.

Ta có phương trình tổng quát: 𝛾 = 𝛽0 + 𝛽1𝑥 + 𝜖

Trong đó: y là biến phụ thuộc hay là biến chúng ta sẽ dự báo x là biến độc lập

𝛽0 là giá trị ước lượng của y khi x đạt giá trị 0.

𝛽1 là độ dốc của đường hồi quy tuyến tính, nói một cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vị

𝜖 là sai số, thể hiện giá trị của các yếu tố khác không thể nghiên cứu hết và các yếu tố này vẫn tác động lên giá trị của y.

Hồi Quy Logic là phương pháp thông dụng nhất áp dụng cho các biến phụ thuộc không phải là dữ liệu liên tục

Hồi quy Logistic hướng đến dự báo xác suất, khả năng biến phụ thuộc đạt được một trong 2 giá trị theo các biến độc lập Được ứng dụng trong nhiều lĩnh vực khác nhau :

 Khả năng khách hàng có/không sử dụng dịch vụ, mua hàng…

 Có phải là spam mail hay không?

 Khả năng trả nợ của khách hàng?

Công thức hồi quy đơn biến

Figure 9 Công thức hồi quy đơn biến

Công thức hồi quy đa biến:

Figure 10 Công thức hồi quy đa biến

Trong đó: y là biến phụ thuộc hay là biến chúng ta sẽ dự báo x là biến độc lập

𝛽0 là giá trị ước lượng của y khi x đạt giá trị 0.

𝛽1 là độ dốc của đường hồi quy tuyến tính, nói một cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vị

𝜖 là sai số, thể hiện giá trị của các yếu tố khác không thể nghiên cứu hết và các yếu tố này vẫn tác động lên giá trị của y.

Phần 𝛽0 + 𝛽1𝑥 chính là phần dự báo

Ứng dụng thử nghiệm

Thuật toán Clustering KMeans và mô hình RFM

Thuật toán phân cụm k-means là một phương pháp được sử dụng trong phân tích tính chất cụm của dữ liệu, đặc biệt được sử dụng nhiều trong khai phá dữ liệu và thống kê Nó phân vùng dữ liệu thành k cụm khác nhau, giúp chúng ta xác định được dữ liệu của chúng ta nó thực sử thuộc về nhóm nào.

Thuật toán k-means sử dụng phương pháp tạo và cập nhật trung tâm để phân nhóm các điểm dữ liệu cho trước vào các nhóm khác nhau Đầu tiên chúng sẽ tạo ra các điểm trung tâm ngẫu nhiên Sau đó gán mỗi điểm trong tập dữ liệu vào trung tâm gần nó nhất. Sau đó chúng sẽ cập nhật lại trung tâm và tiếp tục lặp lại các bước đã kể trên Điều kiện dừng của thuật toán: Khi các trung tâm không thay đổi trong 2 vòng lặp kế tiếp nhau Tuy nhiên, việc đạt được 1 kết quả hoàn hảo là rất khó và rất tốn thời gian, vậy nên thường người ta sẽ cho dừng thuật toán khi đạt được 1 kết quả gần đúng và chấp nhận được Ý tưởng của thuật toán k-means

1 Khởi tạo K điểm dữ liệu trong bộ dữ liệu và tạm thời coi nó là tâm của các cụm dữ liệu của chúng ta.

2 Với mỗi điểm dữ liệu trong bộ dữ liệu, tâm cụm của nó sẽ được xác định là 1 trong K tâm cụm gần nó nhất.

3 Sau khi tất cả các điểm dữ liệu đã có tâm, tính toán lại vị trí của tâm cụm để đảm bảo tâm của cụm nằm ở chính giữa cụm.

4 Bước 2 và bước 3 sẽ được lặp đi lặp lại cho tới khi vị trí của tâm cụm không thay đổi hoặc tâm của tất cả các điểm dữ liệu không thay đổi.

“RFM là một phương pháp được sử dụng để phân tích giá trị khách hàng Nó thường được sử dụng trong marketing cơ sở dữ liệu (kiểu như dựa vào dữ liệu về khách hàng để tiếp thị sản phẩm) và marketing trực tiếp và đã nhận được sự chú ý đặc biệt trong ngành bán lẻ và dịch vụ.”

RFM định lượng giá trị của một khách hàng dựa trên 3 thông tin chính:

 Recency: Khoảng thời gian mua hàng gần đây nhất là bao lâu Cho biết khách hàng có đang thực sự hoạt động gần thời điểm đánh giá Chỉ số này càng lớn càng cho thấy xu hướng rời bỏ của khách hàng càng cao Đó là một cảnh báo cho doanh nghiệp nên thay đổi sản phẩm để đáp ứng thị hiếu khách hàng hoặc thay đổi chính sách để nâng cao chất lượng phục vụ.

 Frequency: Tần suất mua hàng của khách hàng Nếu khách hàng mua càng nhiều đơn thì giá trị về doanh số mang lại cho công ty càng cao và tất nhiên giá trị của họ càng lớn Tuy nhiên nếu chỉ xét dựa trên tần suất mua hàng thì cũng chưa đánh giá được đầy đủ mức độ tác động lên doanh thu bởi bên cạnh đó, giá trị đơn hàng cũng là yếu tố trực tiếp cho thấy khách hàng tiềm năng như thế nào.

 Monetary: Là số tiền chi tiêu của khách hàng Đây là yếu tố trực quan nhất ảnh hưởng tới doanh số Hay nói cách khác, doanh nghiệp quan tâm nhất là khách hàng đã dành bao nhiêu tiền để mua sắm sản phẩm của công ty? Monetary sẽ tác động trực tiếp tới doanh thu và bị tác động gián tiếp thông qua 2 yếu tố còn lại làRecency và Frequency.

Ứng dụng và lập trình

Trước tiên, ta cần khai báo các thư viện cần dùng:

- Thư viện pandas dùng để xử lý dữ liệu thông qua các cấu trức dữ liệu dataframe

- Thư viện numpy: xử lý dữ liệu số

- Thư viện matplotlib, seaborn: trực quan hoá dữ liệu bằng các biểu đồ

- Thư viện StandardScale: chuẩn hoá dữ liệu

Figure 11 Khai báo thư viện

Tiếp theo, ta cần đọc dữ liệu từ bộ dữ liệu có sẵn

Figure 13 Bộ dữ liệu OnlineRetail

Sử dụng một số câu lệnh info(), describe() để xem một số thông tin về bộ dữ liệu trước khi xử lý

Figure 14 Thông tin về tập dữ liệu 1

Figure 15 Thông tin về tập dữ liệu 2

Figure 16 Thông tin về sơ lượng dữ liệu trống

Sau khi có các thông tin cơ bản về bộ dữ liệu ta tiến hành làm sạch và tiền xử lý dữ liệu.

Từ bảng mô tả dữ liệu ban đầu ta cần phải quan tâm đến một vài số liệu:

- Quantity: Giá trị trung bình ~9.55, phân phối gần vị trí trung vị thứ 3, giá trị min = -80995, max = 80995

Ta thấy có 1454 dữ liệu 'Description' và 135080 dữ liệu 'CustomerID' có giá trị null. Trong mô hình RFM, dữ liệu CustomerID- định danh khách hàng đóng vai trò quan trọng vì thế không thể xử lý bằng thay thế giá trị trung bình hay các phương pháp khác Vì vậy,làm sạch dữ liệu bằng phương phấp xoá giá trị null: dropna() được lựa chọn trong trường hợp này.

Figure 17 Bộ dữ liệu ban đầu sau khi loại bỏ dữ liệu trống

Sau khi loại bỏ dữ liệu trống ta được một bộ dữ liệu mới vì vậy tiếp tục kiểm tra thông tin về bộ dữ liệu mới

Figure 18 Bảng mô tả dữ liệu sau khi xoá dữ liệu trống

Bảng mô tả dữ liệu mới cho thấy giá trị min âm trong UnitPrice đã được xử lý.

Sau khi có dữ liệu mới, ta có thể mô tả dữ liệu trực quan thông qua các biểu đồ để xử lý các outlier

Figure 19 Mô tả dữ liệu ban đầu sau khi xoá dữ liệu trống bằng biểu đồ

Một số kết luận có thể rút ra từ biểu đồ:

 Dữ liệu tập trung chủ yếu trong khoảng -20000 dến 20000.

 Có một vài điểm outlier nằm ở 80000 và -80000 trong cột Quantity và khoảng

Figure 21 Kiểm tra dữ liệu khách hàng 12346

Ta thấy 2 dòng dữ liệu triệt tiêu nhau, nguyên nhân có thể do của hàng thửa nghiệm hoặc do nhân viên nhập sai vì thế dữ liệu không có ảnh hưởng đến kết quả phân tích, ta có thể loại bỏ hoặc không

Tương tự với các outlier khác

Figure 22 Kiểm tra dữ liệu khách hàng 16446

Figure 24 Kiểm tra dữ liệu có Quantity < 0

Sau khi tiền xử lý dữ liệu, ta tính toá những trường dữ liệu cần thiết cho mô hình RFM từ những xột dữ liệu có sẵn

Figure 25 Chuẩn bị dữ liệu cho mô hình RFM

Figure 26 Bộ dữ liệu cho mô hình RFM

Ta tiếp tục mô tả dữ liệu khi một bộ dữ liệu mới được hình thành

Figure 27 Mô tả dữ liệu RFM bằng câu lệnh

Figure 28 Mô tả dữ liệu RFM bằng biểu đồ

Sau khi mô tả, ta xử lý những outlier

Figure 30 Mô tả dữ liệu RFM sau xử lý outlier bằng biểu đồ

Xử lý dữ liệu ngày bằng cách chuẩn hoá

Figure 31 Scale dữ liệu ngày

Figure 32 Dữ liệu sau khi chuẩn hoá

Sau khi xử lý xong dữ liệu dataframe RFM ta tiến hành xây dựng mô hình bằng thuật toán k-means

Figure 33 Tìm k trong thuật toán KMean

Từ biểu đồ ta chọn k= 3 và dán nhãn cho từng cụm

Figure 34 Dán nhãn cho từng cụm

Cuối cùng mô tả dữ liệu bằng biểu đồ

Figure 35 Biểu đồ TotalRevenue theo từng cụm

Figure 36 Biểu đồ Frequency theo từng cụm

Figure 37 Biểu đô Recency theo từng cụm

1: Dựa vào 3 biểu đồ trên, ta thấy nhóm khác hàng có nhãn là 2 là khách hàng đem lại nhi ều doanh thu cho công ty nhất với tần suất mua hàng thường xuyên Và mua hàng gần đâ y nhất Chứng tỏ đây là khách hàng trung thành.

2: Nhóm khách hàng có nhãn là 0 là khách hàng mà đem lại ít doanh thu cho công ty, tần suất mua hàng thấp, và lâu rồi chưa có quay lại mua hàng cho công ty Vậy đây là nhóm khách hàng ít trung thành.

3: Nhóm khách hàng có nhãn là 1 là nhóm khách hàng mới mua hàng ở công ty, nên doan h thu và tần suất mua hàng của nhóm này chưa cao Tuy nhiên, vì là khách hàng mới nên có thể ta cần chăm sóc tốt để họ trở thành những khách hàng tiềm năng

Trình bày và giới thiệu những khái niệm cơ bản, cơ sở lý thuyết về khai phá dữ liệu và các kỹ thuật thường dùng trong khai phá dữ liệu Trên cơ sở lý thuyết, đề tài đã cài đặt các kỹ thuật cơ bản nhằm phục vụ chi việc xử lý và khai phá dữ liệu Sử dụng các kỹ thuật phân cụm Kmeans kết hợp với mô hình RFM để phân tích doanh số bán hàng cho doanh nghiệp bán lẻ và có tính ứng dụng cao.

Nhược điểm: Đề tài giới thiệu những kiến thức chung nhất về khai phá dữ liệu và những kỹ thuật cơ bản nhất thường được dùng trong khoa học dữ liệu, còn có nhiều kiến thưc và kỹ thuật chuyên sâu và tối ưu hơn chưa được nghiên cứu kỹ càng Phần ứng dụng phân tích cần được phân tích sâu hơn nữa để đưa ra những kết luận chi tiết, hưu ích nhất có thể.

Ngày đăng: 06/12/2022, 15:24

HÌNH ẢNH LIÊN QUAN

 Mơ hình ràng buộc (Dependency modeling) - TIỂU LUẬN môn học TRÍ TUỆ NHÂN tạo đề tài nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng phân tích doanh số bán hàng
h ình ràng buộc (Dependency modeling) (Trang 11)
 Biểu diễn mơ hình (Model Representation) - TIỂU LUẬN môn học TRÍ TUỆ NHÂN tạo đề tài nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng phân tích doanh số bán hàng
i ểu diễn mơ hình (Model Representation) (Trang 11)
Figure 18. Bảng mơ tả dữ liệu sau khi xố dữ liệu trống - TIỂU LUẬN môn học TRÍ TUỆ NHÂN tạo đề tài nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng phân tích doanh số bán hàng
igure 18. Bảng mơ tả dữ liệu sau khi xố dữ liệu trống (Trang 23)
Bảng mơ tả dữ liệu mới cho thấy giá trị min âm trong UnitPrice đã được xử lý. - TIỂU LUẬN môn học TRÍ TUỆ NHÂN tạo đề tài nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng phân tích doanh số bán hàng
Bảng m ơ tả dữ liệu mới cho thấy giá trị min âm trong UnitPrice đã được xử lý (Trang 23)
Sau khi tiền xử lý dữ liệu, ta tính tố những trường dữ liệu cần thiết cho mơ hình RFM từ những xột dữ liệu cĩ sẵn - TIỂU LUẬN môn học TRÍ TUỆ NHÂN tạo đề tài nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng phân tích doanh số bán hàng
au khi tiền xử lý dữ liệu, ta tính tố những trường dữ liệu cần thiết cho mơ hình RFM từ những xột dữ liệu cĩ sẵn (Trang 25)
Figure 25. Chuẩn bị dữ liệu cho mơ hình RFM - TIỂU LUẬN môn học TRÍ TUỆ NHÂN tạo đề tài nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng phân tích doanh số bán hàng
igure 25. Chuẩn bị dữ liệu cho mơ hình RFM (Trang 26)
Figure 26. Bộ dữ liệu cho mơ hình RFM - TIỂU LUẬN môn học TRÍ TUỆ NHÂN tạo đề tài nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng phân tích doanh số bán hàng
igure 26. Bộ dữ liệu cho mơ hình RFM (Trang 26)
Sau khi xử lý xong dữ liệu dataframe RFM ta tiến hành xây dựng mơ hình bằng thuật tốn k-means - TIỂU LUẬN môn học TRÍ TUỆ NHÂN tạo đề tài nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng phân tích doanh số bán hàng
au khi xử lý xong dữ liệu dataframe RFM ta tiến hành xây dựng mơ hình bằng thuật tốn k-means (Trang 30)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w