1. Trang chủ
  2. » Luận Văn - Báo Cáo

(LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

85 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 85
Dung lượng 1,94 MB

Cấu trúc

  • 1- Nhu cầu khai thác dữ liệu (7)
  • 2- Sự cho phép của kỹ thuật và xu thế thời đại (7)
  • II. II- DATA MINING LÀ GÌ (0)
    • 1- Định nghĩa về Data Mining (8)
    • 2- Các bước trong Data Mining (10)
    • 3- Phân loại các hệ thống Data Mining (10)
    • 4- Ứng dụng của Data Mining (11)
  • I- KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU (13)
  • II- KHÁI QUÁT VỀ CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 17 (17)
    • 3- Phương pháp dựa vào mật độ (Density-based Method) (23)
    • 4- Phương pháp dựa vào chia lưới (Grid-based methods) (24)
  • III- PHƯƠNG PHÁP PHÂN CỤM DỰA VÀO MẬT ĐỘ DBSCAN . 1-Cáckháiniệm 29 (25)
    • 2- Bổ đề chứng minh tính đúng đắn của DBSCAN (28)
    • 3- Thuật toán DBSCAN (29)
  • I- CÁC ĐỊNH NGHĨA VỀ PHẦN TỬ NGOẠI LAI ĐỊA PHƯƠNG . 1-K-distance của một đối tượng (32)
    • 2- Lân cận bán kính k-distance của đối tượng p (32)
    • 2) Cận dưới và cận trên của LOF (36)
    • 3- Giới hạn LOF của một đối đượng lân cận đến được trải trên nhiều cụm (0)
  • II- ẢNH HƯỞNG CỦA THAM SỐ MinPts (39)
    • 1- Sự Phụ Thuộc của LOF Theo Minpts (40)
    • 2- Xác Định Miền Của Minpts (0)
  • I- CÁC PHẠM TRÙ ỨNG DỤNG DATA MINING (45)
    • 1- Khai phá dữ liệu khám phá (Discovery data mining) (45)
    • 2- Khai phá dữ liệu đoán trước (45)
  • II- PHƯƠNG PHÁP TỔNG QUÁT XÂY DỰNG ỨNG DỤNG (46)
    • 1- Định nghĩa vấn đề doanh nghiệp hướng tới (47)
    • 2- Định nghĩa mô hình dữ liệu (48)
    • 3- Chuẩn bị dữ liệu nguồn (49)
    • 4- Đánh giá chất lƣợng dữ liệu (50)
    • 5- Lựa chọn kỹ thuật Mining (51)
    • 6- Thể hiện, làm rõ và đánh gía kết quả (52)
    • 7- Sử dụng những kết quả đó (52)
    • 1- Vấn Đề Thương Nghiệp (53)
    • 2- Dữ Liệu Cần Sử Dụng (55)
    • 3- Nguồn dữ Liệu, Chuẩn Bị Dữ Liệu (58)
    • 4- Ƣớc lƣợng dữ liệu (0)
    • 5- Phương Pháp Kỹ Thuật Để Khai Phá Dữ Liệu (66)
    • 6- Trình bày kết quả (71)
    • 7- Triển Khai Mô Hình (80)
  • I- KẾT LUẬN (83)

Nội dung

Sự cho phép của kỹ thuật và xu thế thời đại

1- Nhu cầu khai thác dữ liệu

Xã hội hiện đại đang trở thành một xã hội thông tin, nơi mà các doanh nghiệp và tổ chức phải đối mặt với lượng thông tin khổng lồ ngày càng gia tăng Sự tích lũy thông tin diễn ra với tốc độ bùng nổ, khiến cho các chuyên viên và cán bộ quản lý luôn cảm thấy ngợp trước khối lượng dữ liệu khổng lồ này.

II- DATA MINING LÀ GÌ

Định nghĩa về Data Mining

Data Mining là một quá trình nhằm dự đoán và phát hiện những kiến thức mới có giá trị trong dữ liệu Mục tiêu của nó không chỉ là tìm ra thông tin hữu ích mà còn giúp người dùng dễ dàng hiểu và áp dụng những kiến thức này.

Data Mining là một công nghệ tri thức, cho phép khai thác thông tin hữu ích từ các kho lưu trữ dữ liệu trong hệ thống công nghệ thông tin.

“Data Mining là sự thăm dò và trích ra những thông tin hữu ích không biêt trước tiềm ẩn trong cơ sở dữ liệu lớn”

“Data Mining là quá trình khai thác, khám phá những tri thức hữu ích, tiềm ẩn và mang tính dự báo từ một tập dữ liệu lớn”

Data Mining đã phát triển mạnh mẽ trong khoảng 10 năm qua, nhưng nguồn gốc của nó có thể được truy nguyên từ trí tuệ nhân tạo từ những năm 1950 Trong giai đoạn này, sự phát triển của các kỹ thuật nhận dạng đã tạo ra nền tảng lý thuyết cho sự hình thành và phát triển của Data Mining Nhiều kỹ thuật của Data Mining thực tế đã được áp dụng trong thời kỳ đó, chủ yếu tập trung vào các bài toán khoa học.

Cơ sở dữ liệu quan hệ đã ra đời, cho phép lưu trữ khối lượng dữ liệu lớn, tạo cầu nối giữa các kỹ thuật khoa học và ứng dụng thương mại.

Và một điều khẳng định chắc chắn rằng: Data mining không thể tách rời giữa kỹ thuật, công nghệ và giải pháp Công nghệ thông tin.

Các bước trong Data Mining

Kỹ thuật Data mining có thể được chia thành bốn bước chính: Đầu tiên là tích hợp dữ liệu, nơi dữ liệu được hợp nhất thành các kho dữ liệu sau khi được làm sạch và tiền xử lý Tiếp theo là trích chọn dữ liệu, trong đó dữ liệu được lấy từ kho và chuyển đổi thành định dạng phù hợp, xử lý các vấn đề như dữ liệu nhiễu và không đầy đủ Bước thứ ba là khai thác dữ liệu, tìm kiếm và khám phá tri thức từ dữ liệu đã được trích chọn, sử dụng các kỹ thuật phù hợp với từng bài toán cụ thể Cuối cùng, đánh giá và biểu diễn tri thức được thực hiện để chuyển hóa tri thức khai thác thành dạng dễ hiểu và sẵn sàng cho người dùng.

Phân loại các hệ thống Data Mining

Data Mining là công nghệ tri thức quan trọng, liên quan đến nhiều lĩnh vực nghiên cứu như cơ sở dữ liệu, học máy và giải thuật trực quan hóa.

Chúng ta có thể phân loại các hệ thống Data Mining theo nhiều tiêu chí khác nhau Đầu tiên, phân loại dựa trên loại dữ liệu, bao gồm cơ sở dữ liệu quan hệ, kho dữ liệu, cơ sở dữ liệu giao dịch, cơ sở dữ liệu không gian, cơ sở dữ liệu đa phương tiện, và cơ sở dữ liệu văn bản & www Thứ hai, phân loại dựa trên loại tri thức khám phá, trong đó có tóm tắt và mô tả.

The article discusses various data mining techniques, including association rules, classification, clustering, and sequential mining It emphasizes the classification methods based on the applied techniques, particularly those oriented towards database approaches.

Cơ sở dữ liệu định hướng, phân tích trực tuyến (OLAP), và học máy (bao gồm cây quyết định, mạng nơ ron nhân tạo, k-mean, giải thuật di truyền, máy vectơ hỗ trợ - SVM, tập thô, tập mờ, v.v.) là những công nghệ quan trọng trong việc phân tích dữ liệu Ngoài ra, trực quan hóa dữ liệu cũng đóng vai trò quan trọng trong việc giúp người dùng hiểu rõ hơn về thông tin Các ứng dụng của những công nghệ này rất đa dạng, đặc biệt trong lĩnh vực kinh doanh bán lẻ.

(retial), truyền thông (telecommunication), tin-sinh (bio-informaties) y học (medical treatment), tài chính và thị trường chứng khoán (finance & stock market), Web mining, v.v.

Ứng dụng của Data Mining

Data Mining có thể được áp dụng trong mọi lĩnh vực, miễn là dữ liệu được lưu trữ dưới dạng số và người dùng thực sự cần khai thác thông tin tiềm ẩn trong dữ liệu đó.

Có thể liệt kê ra đây những ứng dụng điển hình của Data Mining hiện nay trên thế giới:

 Phân tích dữ liệu và hỗ trợ ra quyết định

 Dự báo trong điều trị y học

CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU

KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU

Phân cụm (clustering) là quá trình tổ chức các đối tượng vật lý hoặc trừu tượng thành những nhóm hoặc lớp tương đồng Mỗi cụm (cluster) bao gồm một tập hợp các đối tượng dữ liệu mà trong đó, các đối tượng thuộc cùng một cụm có đặc điểm tương đồng, khác biệt với các đối tượng thuộc cụm khác.

Khác với phân loại, trong phân cụm, chúng ta không biết trước các tính chất của các đối tượng trong từng lớp Thay vào đó, quá trình này dựa vào mối quan hệ giữa các đối tượng để xác định sự tương đồng, từ đó tìm ra các lớp dựa trên các đặc điểm chung được đo lường.

Phân cụm thường không hoạt động độc lập mà thường kết hợp với các phương pháp khác Một ví dụ điển hình là việc sử dụng phân cụm để nghiên cứu các vì sao và độ sáng của chúng.

2- Các ứng dụng của phân cụm dữ liệu

Phân cụm là một lĩnh vực quan trọng trong hoạt động của con người, bắt đầu từ khi trẻ nhỏ học cách phân biệt đồ vật, động vật và thực vật thông qua nhận thức về mối quan hệ phân cụm Ứng dụng của phân cụm rất đa dạng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh và nghiên cứu thị trường Nhờ vào phân cụm, chúng ta có khả năng nhận diện các vùng có mật độ dày đặc hoặc thưa thớt, từ đó phát hiện sự phân bố của các mẫu và nhận thấy sự tương quan giữa các thuộc tính của dữ liệu.

Trong lĩnh vực kinh doanh, phân cụm đóng vai trò quan trọng trong việc giúp các nhà nghiên cứu thị trường nhận diện và phân tích các nhóm khách hàng khác nhau Qua việc sử dụng dữ liệu mua bán, họ có thể hiểu rõ hơn về đặc điểm của từng nhóm khách hàng, từ đó tối ưu hóa chiến lược tiếp thị và nâng cao hiệu quả kinh doanh.

Phân cụm trong sinh học là phương pháp quan trọng để phân loại thực vật, động vật và gen, giúp cung cấp thông tin chi tiết về cấu trúc dân cư.

Phân cụm giúp nhận diện các khu vực tương đồng dựa trên dữ liệu quan sát từ trái đất, đồng thời phân loại các nhóm nhà trong thành phố theo các tiêu chí như kiểu dáng, giá trị và vị trí địa lý.

Phân cụm cũng giúp cho việc phân chia tài liệu trên Web dựa vào nội dung thông tin

Phân cụm không chỉ giúp phát hiện các đặc tính quan trọng trong dữ liệu mà còn đóng vai trò là bước tiền xử lý cho các thuật toán phân loại Sau khi thực hiện phân cụm, các thuật toán sẽ tiến hành trên các cụm dữ liệu đã được xác định.

3- Các vấn đề nghiên cứu trong phân cụm

Phân cụm là một vấn đề nghiên cứu quan trọng trong nhiều lĩnh vực như khai phá dữ liệu, thống kê, học máy, công nghệ cơ sở dữ liệu không gian, sinh học và nghiên cứu thị trường Với sự gia tăng nhanh chóng về kích thước cơ sở dữ liệu, phân cụm dữ liệu đã trở thành một chủ đề thu hút sự chú ý trong nghiên cứu khai phá dữ liệu.

Trong lĩnh vực thống kê, phân cụm đã được nghiên cứu và phát triển trong nhiều năm, chủ yếu tập trung vào các phương pháp phân cụm dựa vào khoảng cách như k-mean và k-medoids Những công cụ này đã được tích hợp vào nhiều hệ thống phần mềm thống kê nổi tiếng như S-plus, SPSS và SAS Trong học máy, phân cụm là một ví dụ điển hình của học không thầy, khác với phân loại, phân cụm không dựa vào các lớp đã được định nghĩa trước và không cần ví dụ huấn luyện Đây là một hình thức học thông qua quan sát, nơi mà một nhóm các đối tượng được coi là một lớp khi chúng được mô tả bởi một khái niệm chung.

Khái niệm phân cụm bao gồm 2 phần:

 Phát hiện ra lớp thích hợp

 Đƣa ra sự mô tả cho mỗi lớp, giống trong phân loại

Nguyên tắc phân chia là cố gắng phân các đối tƣợng có sự giống nhau lớn nhất và sự khác biệt nhỏ nhất vào một cụm

Trong khai phá dữ liệu, nghiên cứu phân cụm chủ yếu tập trung vào việc tìm kiếm các phương pháp phân cụm hiệu quả và tin cậy cho cơ sở dữ liệu lớn Các yêu cầu cần thiết bao gồm tính hiệu quả và tính tuyến tính của thuật toán, khả năng xử lý các cụm có hình dạng phức tạp, cũng như khả năng làm việc với các kiểu dữ liệu trong không gian đa chiều Hơn nữa, phương pháp phân cụm cần phải xử lý được cả dữ liệu dạng số và dữ liệu dạng khác trong cơ sở dữ liệu.

4- Các yêu cầu đối với bài toán phân cụm

Phân cụm là một lĩnh vực nghiên cứu đầy thách thức, với tiềm năng ứng dụng đáp ứng nhiều yêu cầu đặc biệt của con người Các yêu cầu này bao gồm việc tối ưu hóa dữ liệu, phân tích thông tin phức tạp và cải thiện quy trình ra quyết định.

Nhiều thuật toán phân cụm thường chỉ hiệu quả với dữ liệu nhỏ, chứa dưới 200 đối tượng Tuy nhiên, trong trường hợp cơ sở dữ liệu lớn với hàng triệu đối tượng, việc phân cụm trên một mẫu nhỏ có thể dẫn đến kết quả không chính xác Do đó, cần thiết phải có các thuật toán chuyên biệt để xử lý hiệu quả dữ liệu lớn.

Nhiều thuật toán phân cụm chủ yếu được thiết kế cho dữ liệu số, nhưng trong thực tế, việc phân cụm có thể yêu cầu làm việc với nhiều loại dữ liệu khác nhau như nhị phân, chuỗi, liệt kê hoặc sự kết hợp của các kiểu dữ liệu này.

Các thuật toán phân cụm truyền thống chủ yếu dựa vào khoảng đo lường Euclidean hoặc Mahalanobis, dẫn đến việc xác định các cụm có hình dạng cầu và mật độ đồng nhất Tuy nhiên, thực tế cho thấy các cụm có thể có hình dạng bất kỳ Do đó, việc phát triển các thuật toán có khả năng phát hiện các cụm với hình dạng đa dạng là rất cần thiết.

KHÁI QUÁT VỀ CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 17

Phương pháp dựa vào mật độ (Density-based Method)

Hầu hết các phương pháp phân hoạch để phân cụm đối tượng dựa vào khoảng cách giữa các đối tượng, nhưng chỉ có thể phát hiện các cụm hình cầu và gặp khó khăn với các lớp có hình dạng bất kỳ Ngược lại, các phương pháp phân cụm dựa trên khái niệm mật độ đánh giá các cụm như vùng dày đặc của các đối tượng trong không gian dữ liệu, phân biệt với các vùng có mật độ thấp (nhiễu) Phương pháp dựa trên mật độ có thể được sử dụng để lọc nhiễu (outlier) và phát hiện các cụm với hình dạng bất kỳ.

Thuật toán phân cụm dựa trên mật độ đầu tiên, DBSCAN (Density-Based Clustering of Applications with Noise), được giới thiệu bởi Ester et al vào năm 1996 Thuật toán này xác định mật độ xung quanh một đối tượng bằng cách so sánh số điểm dữ liệu trong bán kính  với tham số MinPts, tức là số lượng đối tượng tối thiểu cần thiết Do đó, hiệu quả của DBSCAN phụ thuộc vào khả năng lựa chọn các tham số  và MinPts của người dùng Để khắc phục vấn đề này, phương pháp OPTICS (Ordering Points to Identify the Clustering Structure) được đề xuất bởi Ankerst et al vào năm 1999, không chỉ phân cụm toàn bộ tập dữ liệu mà còn sắp xếp các cụm theo thứ tự tăng dần để phân tích tự động và liên tiếp Cả hai phương pháp đều sử dụng cấu trúc chỉ số không gian như cây R* để xử lý các truy vấn lân cận một cách hiệu quả.

Thuật toán Density Clustering (DEN-CLUE) được phát triển bởi Hinneburg và Keim (1998) nhằm xử lý hiệu quả dữ liệu có số chiều lớn, khắc phục những hạn chế của DBSCAN và OPTICS, vốn không hiệu quả khi số chiều tăng DEN-CLUE dựa trên mô hình hóa mật độ toàn thể của điểm dữ liệu thông qua tổng hợp các hàm tác động của các điểm xung quanh, sử dụng cấu trúc lưới để tính toán hiệu quả Các thử nghiệm cho thấy DEN-CLUE vượt trội hơn DBSCAN gấp 45 lần Tuy nhiên, việc lựa chọn tham số phân cụm cho DEN-CLUE là rất quan trọng, vì nó có thể ảnh hưởng đáng kể đến chất lượng phân cụm.

Phương pháp dựa vào chia lưới (Grid-based methods)

Các phương pháp phân cụm dựa trên mật độ như DBSCAN và OPTICS không hiệu quả trong không gian nhiều chiều Để cải thiện hiệu suất, các chiến lược phân cụm dựa trên lưới đã được phát triển, sử dụng cấu trúc dữ liệu lưới.

Phương pháp chia lưới là một kỹ thuật thống kê quan trọng để quản lý các điểm trong không gian dữ liệu đa chiều Phương pháp này chia không gian dữ liệu thành những khối đa chiều có kích thước cạnh đồng đều Tuy nhiên, việc lựa chọn kích thước cạnh cho các khối là một vấn đề cần được giải quyết trước khi áp dụng phương pháp chia lưới.

Trong không gian dữ liệu d chiều, các trục tạo thành một mảng d chiều, được gọi là từ điển dữ liệu Mỗi phần tử trong mảng này được gọi là cell, có khả năng chứa một hoặc nhiều điểm dữ liệu, hoặc có thể không chứa điểm nào Những cell không chứa điểm dữ liệu được gọi là cell rỗng và không được xem xét Mỗi điểm dữ liệu phải nằm trong một cell, và tất cả các điểm trong một cell được lưu trữ riêng biệt với các cell khác, nghĩa là các điểm dữ liệu trong cùng một cell được lưu trữ trong một khối độc lập với các điểm thuộc cell khác.

Một số ví dụ tiêu biểu cho chiến lược dựa trên lưới bao gồm: STING (Wang et al 1997), khám phá thông tin thống kê trong lưới; WaveCluster (Sheikholeslami et al 1998), sử dụng phép biến đổi sóng để phân cụm các đối tượng; và CLIQUE (Agrawal et al 1998), trình bày các chiến lược dựa vào mật độ và lưới nhằm chia lớp không gian dữ liệu có số chiều lớn.

Phân cụm trong cơ sở dữ liệu là quá trình nhóm các đối tượng có đặc điểm tương đồng vào một cụm Nguyên tắc chính của phân cụm dựa vào hàm mục tiêu xác định khoảng cách giữa một đối tượng và tâm cụm, từ đó quyết định xem đối tượng có thuộc về cụm hay không Để xác định mối quan hệ giữa các đối tượng, cần xây dựng một đại lượng đo độ khác biệt giữa chúng, điều này phụ thuộc vào kiểu thuộc tính biểu diễn đối tượng Mỗi loại dữ liệu sẽ có công thức riêng để tính toán độ khác biệt.

Có nhiều phương pháp phân cụm với các thuật toán tương ứng, cho phép áp dụng linh hoạt tùy theo bài toán cụ thể Tuy nhiên, hai phương pháp đầu thường không hiệu quả khi dữ liệu có chứa nhiễu Để khắc phục vấn đề này, chúng ta sẽ giới thiệu phương pháp phân cụm dựa vào mật độ, cụ thể là DBSCAN.

PHƯƠNG PHÁP PHÂN CỤM DỰA VÀO MẬT ĐỘ DBSCAN 1-Cáckháiniệm 29

Bổ đề chứng minh tính đúng đắn của DBSCAN

Bổ đề 1: Giả sử p là một điểm nằm trong D và | N Eps (p) |  MinPts Tập

O = {o | o đến được mật độ từ p theo hai tham số Eps và MinPts} là một cụm theo Eps và MinPts

Cụm C được xác định duy nhất bởi các tham số Eps và MinPts, cùng với điểm nhân của nó Mỗi điểm trong cụm C đều có thể tiếp cận mật độ từ bất kỳ điểm nhân nào trong cụm, cho thấy rằng C bao gồm các điểm có thể đạt được mật độ từ bất kỳ điểm nhân nào trong cụm.

Bổ đề 2: Giả sử C là một cụm theo tham số Eps, MinPts và p là điểm bất kỳ thuộc C với |N Eps (p) |  MinPts thì C trùng với tập O

O = {o| o  D và o đến đƣợc mật độ từ p theo tham số Eps và MinPts }.

Thuật toán DBSCAN

Trong phần này, chúng ta sẽ khám phá thuật toán DBSCAN (Density Based Spatial Clustering for Applications with Noise), được thiết kế để phát hiện các cụm và nhiễu trong cơ sở dữ liệu không gian Thuật toán dựa trên hai khái niệm chính là cụm và nhiễu Để áp dụng DBSCAN, cần xác định các tham số Eps và MinPts cũng như ít nhất một điểm thuộc về cụm Quá trình điều chỉnh các điểm đến được mật độ từ điểm ban đầu thông qua các tham số này là một thách thức không nhỏ.

Do đó DBSCAN sử dụng các biến toàn cục Eps và MinPts

Thuật toán DBSCAN bắt đầu bằng cách chọn một điểm p ngẫu nhiên và xác định các điểm lân cận dựa trên hai tham số Eps và MinPts Nếu p là điểm nhân, một cụm sẽ được hình thành bao gồm p và các điểm lân cận của nó Ngược lại, nếu p là điểm biên và không có điểm nào có thể tiếp cận được với mật độ từ p, điểm này sẽ bị bỏ qua và thuật toán sẽ chuyển sang điểm tiếp theo Để xây dựng cụm chứa p, cần tìm tất cả các điểm lân cận có mật độ liên quan đến p.

- Tìm tập các điểm lân cận của p: NEps(p), tập các điểm đó đƣợc đƣa vào tập nhân

- Nếu N Eps (p)< MinPts thì không có điểm nào đến đƣợc mật độ từ p, q là điểm nhiễu

Ngược lại, điểm p được coi là điểm nhân, và các điểm xung quanh nó sẽ được phân nhóm thành một cụm Tiếp theo, chúng ta sẽ thực hiện các bước một cách tuần tự, bắt đầu từ điểm đầu tiên cho đến điểm cuối cùng trong tập hợp các điểm nhân đã xác định.

+ Tìm lân cận của điểm đang thực hiện, giả sử đó là điểm p1, ta tìm tập các điểm lân cận của p1, NEps(p 1 )

+ Nếu NEps(p1) < MinPts, ta chuyển sang điểm tiếp theo trong tập nhân

Nếu điểm p1 là điểm nhân và các điểm lân cận của p1 chưa được phân cụm, thì các điểm lân cận này sẽ được phân vào cụm và thêm vào tập nhân Đồng thời, điểm p1 sẽ bị xóa khỏi tập và quá trình sẽ chuyển sang điểm tiếp theo trong tập nhân.

Cuối cùng, chúng ta xác định tất cả các điểm trong cùng một cụm với p, hoặc tìm ra tất cả các điểm có mật độ từ p, điều này có nghĩa là chúng ta đã xây dựng thành công một cụm.

Có thể tóm tắt thuật toán thành các bước cơ bản sau như sau:

- Bước 1: Khởi tạo các điểm dữ liệu vào, xác định tham số Eps, MinPts, tập đối tƣợng

Bước 2 trong quá trình xác định tập nhân là chọn một điểm bất kỳ từ tập hợp các điểm ban đầu Tại điểm đó, ta gán tất cả các điểm nằm trong lân cận với bán kính Eps vào tập nhân Đối với mỗi điểm trong tập nhân, ta kiểm tra xem nó có thỏa mãn điều kiện nhân hay không, cụ thể là liệu số điểm lân cận NEps(p1) có lớn hơn hoặc bằng MinPts không Nếu điều kiện này được thỏa mãn, điểm đó sẽ được gọi là điểm nhân.

Bước 3 trong thuật toán là xác định miền liên thông của các điểm nhân đã tìm được, một phần quan trọng trong quá trình phân nhóm Để thực hiện điều này, ta cần tìm tất cả các điểm có mật độ từ điểm đang xét, nhằm mở rộng cụm Đối với mỗi điểm nhân, ta sẽ kiểm tra các điểm lân cận; nếu điểm lân cận thỏa mãn điều kiện nhân, nó sẽ được đưa vào cụm và vào tập nhân Ngược lại, nếu không thỏa mãn, điểm đó sẽ bị bỏ qua Cuối cùng, ta thu được một tập hợp các điểm liên thông, tạo thành một cụm hoàn chỉnh.

- Bước 4: Xác định các cụm, mỗi cụm là miền liên thông các điểm nhân

TÌM KIẾM PHẦN TỬ NGOẠI LAI

Trong lĩnh vực Data Mining, hầu hết các nghiên cứu đều chú trọng vào việc phát hiện các cụm dữ liệu Tuy nhiên, trong nhiều tình huống, việc xác định các phần tử cá biệt hoặc sự kiện hiếm lại mang lại giá trị cao hơn so với việc tìm kiếm các trường hợp thông thường Ví dụ, việc phát hiện hành vi gian lận trong thương mại điện tử, nhận diện sai sót trong kiểm toán, và tìm kiếm nhân tài là những ứng dụng quan trọng của phương pháp này.

Các nghiên cứu trước đây về việc tìm kiếm các phần tử ngoại lai thường dựa vào kết quả thống kê và có thể được chia thành hai nhánh khác nhau.

Lấy sự phân phối làm cơ bản, một sự phân phối chuẩn được sử dụng để tối ưu hóa việc khít dữ liệu Phần tử ngoại lai được xác định dựa trên khả năng phân phối Trong nhiều ứng dụng KDD, sự phân phối diễn ra một cách không biết trước, và việc khớp dữ liệu với các phân phối cơ bản thường tốn kém và có thể dẫn đến kết quả không như mong đợi.

Độ sâu được sử dụng làm cơ sở để ánh xạ các đối tượng dữ liệu vào không gian k-chiều, với mỗi đối tượng được gán một độ sâu nhất định Các phần tử ngoại lai được coi là những đối tượng dữ liệu có độ sâu thấp hơn Tuy nhiên, các thuật toán thực tế triển khai theo cách này thường gặp khó khăn về hiệu suất khi k lớn hơn hoặc bằng 4.

Các nghiên cứu gần đây về phân cụm đã đưa ra định nghĩa mới cho phần tử ngoại lai, dựa trên khoảng cách của nó với cụm Những định nghĩa này không chỉ tổng quát hơn mà còn giúp đơn giản hóa quá trình tính toán.

Các thuật toán phân cụm chủ yếu tập trung vào việc xác định các cụm dữ liệu mà không chú trọng đến việc phát hiện các phần tử ngoại lai Trong các thuật toán này, phần tử ngoại lai chỉ được đánh giá ở mức nhị phân, tức là xác định xem một đối tượng dữ liệu có phải là ngoại lai hay không.

Theo quan điểm, các thuật toán phân cụm xác định phần tử ngoại lai là những đối tượng không thuộc về các cụm dữ liệu, thường được coi là nhiễu Sự hình thành các điểm nhiễu phụ thuộc vào thuật toán và các tham số giới hạn cụm Quan trọng nhất, những phần tử ngoại lai này thường được xem xét một cách tổng quát, dẫn đến việc chúng hầu như không có ý nghĩa trong các thuật toán phân cụm.

Các tác giả Markus M.Breunig, Hans-Peter Kriegel, Raymond T.Ng và Jorg Sander (2000) đã phát triển khái niệm hệ số ngoại vi cục bộ (LOF) để xác định phần tử ngoại lai trong các tập dữ liệu phức tạp Họ chỉ ra rằng những đối tượng nằm sâu trong cụm có giá trị LOF xấp xỉ 1 và phân tích sự phụ thuộc của LOF vào MinPts Từ đó, họ đề xuất nguyên tắc thực tiễn để chọn khoảng giá trị MinPts và phương pháp phân loại các đối tượng dựa trên giá trị LOF tối đa, giúp phát hiện hiệu quả các phần tử ngoại lai.

Trong các phần sau đây chúng ta tìm hiểu kỹ hơn về hệ số LOF

CÁC ĐỊNH NGHĨA VỀ PHẦN TỬ NGOẠI LAI ĐỊA PHƯƠNG 1-K-distance của một đối tượng

Lân cận bán kính k-distance của đối tượng p

Với một giá trị k-distance đã xác định, khu vực lân cận bán kính k-distance của đối tượng p bao gồm tất cả các phần tử có khoảng cách tới p nhỏ hơn hoặc bằng k-distance.

N k-distance(p) (p) = { q  D \ {p} | d(p,q)  k-distance(p) } Những đối tƣợng q ở biểu thức trên đƣợc gọi là k phần tử gần nhất của p Để đơn giản chúng ta quy ƣớc dùng ký kiệu:

Trong định nghĩa 1, k-distance(p) có thể áp dụng cho mọi số nguyên k Dù đối tượng o không phải là duy nhất trong trường hợp này, số phần tử N k (p) vẫn lớn hơn k.

3- Khoảng cách có thể đến một đối tƣợng Đinh nghĩa 3: (reachability distance of an object p w.r.t object o) Cho k là một số tự nhiên Khoảng cách có thể đến đƣợc Reach-dist của đối tƣợng p với đối tƣợng o đƣợc định nghiã:

Nếu đối tượng p ở xa o, khoảng cách sẽ là khoảng cách thông thường, nhưng nếu p gần o, đó chính là k-distance(o) Định nghĩa này giúp giảm thiểu sự biến động thống kê của khoảng cách d(p,o) tới các đối tượng gần o Hiệu ứng làm tròn này có thể được điều chỉnh bằng hệ số k; k càng lớn, khoảng cách giữa các đối tượng trong khu vực lân cận sẽ càng đồng nhất.

4- Mật độ địa phương có thể đến được

Trong thuật toán phân cụm dựa theo mật độ thường có 2 tham số liên quan tới khái niệm về mật độ:

(1) Hệ số MinPts đặc trƣng số lƣợng tối thiểu của phần tử trong cụm

Hệ số Eps đóng vai trò quan trọng trong việc xác định ngưỡng mật độ cho thuật toán phân cụm, giúp nhận diện các đối tượng liên thông mật độ Để phát hiện phần tử ngoại lai, cần so sánh mật độ của nhiều tổ hợp phần tử khác nhau, từ đó quyết định mật độ của tập hợp một cách chủ động Do đó, MinPts được xem như một hệ số duy nhất và được áp dụng giá trị cụ thể.

Để xác định mật độ khu vực lân cận của một đối tượng p, ta sử dụng tiêu chuẩn đánh giá Reach-dist MinPts (p,o) cho phần tử o thuộc N MinPts (p) Định nghĩa 4 đề cập đến mật độ khả năng tiếp cận địa phương của đối tượng p.

Mật độ địa phương có thể đến được của đối tượng p được đinh nghĩa:

Mật độ lân cận của đối tượng p được xác định là nghịch đảo của khoảng cách trung bình có thể đến được từ MinPts lân cận gần nhất Nếu tổng khoảng cách đến đƣợc bằng 0, mật độ lân cận có thể trở thành vô cực, điều này xảy ra khi có ít nhất MinPts đối tượng khác p nhưng lại có cùng tọa độ không gian với p.

5- Hệ số ngoại lai của một đối tƣợng ( LOF ) Định nghĩa 5: ( Local Outlier Factor of an object p)

Hệ số ngoại lai của một đối tƣợng p đƣợc đinh nghĩa:

Hệ số ngoại lai (LOF) của một đối tượng p thể hiện mức độ ngoại lai của nó, được tính bằng trung bình tỷ lệ giữa mật độ lân cận đến được của p và mật độ lân cận đến được của MinPts phần tử lân cận gần nhất Khi mật độ lân cận đến được của p thấp và mật độ lân cận của MinPts cao, giá trị LOF sẽ tăng cao Trong phần tiếp theo, chúng tôi sẽ làm rõ hơn về tính chất hình thức của LOF.

II- TÍNH CHẤT CỦA PHẦN TỬ NGOẠI LAI 1- Số LOF của những đối tƣợng nằm sâu trong cụm gần bằng 1

Coi C là tập các đối tƣợng

Coi reach-dist-min là khoảng cách có thể tới nhỏ nhất của các đối tƣợng trong C Nghĩa là: reach-dist-min = Min { reach-dist(p,q)/ p,q  C }

Ký hiệu reach-dist-max đại diện cho khoảng cách tối đa có thể tới các đối tượng trong tập C Để tính toán, đặt  = (reach-dist-max/reach-dist-min – 1) Công thức này áp dụng cho tất cả các đối tượng trong tập C.

(1) Toàn bộ MinPts lân cận q của p nằm trong C và

(2) Toàn bộ MinPts lân cận o của q nằm trong C

Khi đó: 1/(1+)  LOF(p)  (1+)) Chứng minh:

Đối với tất cả các điểm lân cận MinPts gần nhất của điểm p, điều kiện reach-dist(p,q) phải lớn hơn hoặc bằng reach-dist-min Khi đó, mật độ lân cận của điểm p, theo định nghĩa 3, sẽ nhỏ hơn hoặc bằng 1/reach-dist-min.

Mặt khác, reach-dist(p,q)  reach-dist-max, vì thế mật độ lân cận đến đƣợc của p sẽ ≥ 1/reach-dist-max

Coi q là MinPts của p bởi một tỷ số giống nhƣ của p ở trên mật độ lân cận đến đƣợc của q thì cũng nằm trên khoảng

1/reach-dist-Max và 1/reach-dist-Min

Vì thế theo định nghĩa 5 ta có:

Từ đó, ta chứng minh đƣợc: 

Có thể giải thích Bổ đề 1 như sau: Bằng trực quan C tương đương như

Đối tượng p được coi là nằm sâu trong cụm khi tất cả các đối tượng MinPts lân cận gần nhất q của p đều thuộc về C, và ngược lại, tất cả các đối tượng MinPts lân cận gần nhất của q cũng nằm trong C Đối với những đối tượng p như vậy, giá trị LOF(p) sẽ được giới hạn Nếu C là một cụm chặt, giá trị  theo bổ đề 1 sẽ khá nhỏ, dẫn đến LOF(p) gần với 1.

Cận dưới và cận trên của LOF

Bổ đề 1 cho thấy rằng các đối tượng nằm sâu trong cụm có số LOF gần 1, do đó không thể coi chúng là phần tử ngoại lai Tiếp theo, chúng ta sẽ xem xét các đối tượng nằm ở rìa và bên ngoài cụm.

Đối với bất kỳ đối tượng p nào, direct Min (p) được định nghĩa là khoảng cách tối thiểu giữa p và điểm MinPts lân cận gần nhất Cụ thể, direct Min (p) được tính bằng công thức: direct Min (p) = Min { reach-dist(p,q) | q thuộc N MinPtr (p)}.

Tương tự: direct Max (p) = Max { reach-dist(p,q) | q  N MinPtr (p)} Định nghĩa 7:

Khoảng cách đến đƣợc tối thiểu của p và MinPts lân cận gần nhất của q đƣợc gọi là Indirect MinPts (p) xác định bởi:

Indirect MinPts (p) = Min{reach-dist(p,o) | q  MinPts(p), o  MinPts (p)} Tương tự:

Indirect MaxPts (p) = Max{reach-dist(p,o) | q  MinPts(p), o  MinPts (p)} Để đơn giản ta ký hiệu Indirect MinPts (p), Indirect MinPts (p) lần lƣợt là IMin ,

Cho p là một đối tƣợng trong Cơ sở dữ liệu D và 1  MinPts  |D| Khi đó ta luôn có:

) ( max indirect p p direct p p LOF indirect p direct

) ( max p p LOF indirect p direct Min

 o  N MinPts (p): reach-dist(p,o) ≥ direct Min (p) Theo định nghĩa direct

 q  N MinPts (o): reach-dist(o,q)  indirect Max (p) Theo định nghĩa Indirect Max suy ra:

LOF  Max : chứng minh tương tự

Giới hạn trong Định lý 1 chặt chẽ hơn so với giới hạn trong Bổ đề 1, cho phép số ε trong Bổ đề 1 tiến gần đến 0 hơn Trong mục 3, chúng ta sẽ phân tích chi tiết độ chặt chẽ của giới hạn trong Định lý 1.

3) Sự giao động của LOF

Gọi LOF Max , LOF Min lần lượt là giới hạn trên và dưới của LOF

Trong phần này, để đơn giản hóa và tránh nhầm lẫn, chúng ta sẽ sử dụng cách viết tắt bằng cách bỏ thông số p Ví dụ, từ "direct" sẽ được hiểu là viết tắt của "direct(p)".

Gọi Pct là tỷ lệ giao động của khoảng cách có thể đến đƣợc của đối tƣợng p

Giả sử pct/100 = x% tương ứng ta có: direct Max = direct * ( 1+x% ), direct Min = direct * ( 1-x% ) indirect Max = indirect*(1+x%), indirect Min = indirect*( 1-x% ) Xét tỷ số:

. max pct indirect indirect pct direct direct pct indirect indirect pct direct direct direct indirect indirect direct

Tỷ số (LOF max - LOF min)/(direct/indirect) chỉ phụ thuộc vào tham số pct, và sẽ tiến đến vô cùng khi pct đạt 100 Điều này cho thấy, nếu pct không thay đổi, độ lệch giữa LOF max và LOF min sẽ phụ thuộc vào tỷ lệ direct/indirect Đồ thị trong hình 7 minh họa đường cong của tỷ lệ này theo tham số pct.

Giới hạn LOF của một đối đượng lân cận đến được trải trên nhiều cụm

Coi p là một đối tƣợng nằm trong Cơ sở dữ liệu D,

1  MinPts  |D| và C1, C2, … C n là các phân cụm của NMinPts(p)

N MinPts (p) = C1  C2  …  Cn với C i  C j =  và C i    1i,jn, i  j Đặt I = |C|/|NMinPts(p)| gọi là phần trăm của đối tƣợng trong lân cận của p mà những đối tƣợng này cũng ở trong C i

Các khái niệm direct i Min (p), direct i Max (p), indirect i Min (p), indirect i Max

(p) được định nghĩa tương tự như direct Min (p), directMax (p), indirect Min (p), indirect Max (p) nhƣng hạn chế trong tập Ci

Việc chứng minh định lý này cũng tương tự như định lý 1

ẢNH HƯỞNG CỦA THAM SỐ MinPts

Sự Phụ Thuộc của LOF Theo Minpts

Dựa trên các kết quả phân tích trước đó, một số câu hỏi quan trọng được đặt ra về sự thay đổi của giá trị LOF khi điều chỉnh giá trị Minpts Cụ thể, khi tăng dần giá trị Minpts, liệu có xảy ra sự thay đổi đơn điệu tương ứng của LOF hay không? Điều này dẫn đến việc cần làm rõ xem LOF có tăng hoặc giảm theo cách đơn điệu hay không.

Thực tế LOF không tăng hay giảm một cách đơn điệu, điều này được minh họa qua Hình 8 với trường hợp tất cả các đối tượng phân bố theo phân bố Gauss Đối với mỗi giá trị Minpts từ 2 đến 50, các giá trị Min, Max, giá trị trung bình và độ lệch tiêu chuẩn của LOF được trình bày rõ ràng.

Khi xem xét cận trên của LOF trong ví dụ, giá trị Minpts=2 được sử dụng để xác định khoảng cách thực giữa các đối tượng theo định nghĩa 5 Khi tăng giá trị Minpts, các dao động về khoảng cách giảm và giá trị LOF cũng giảm theo Điều này dẫn đến sự giảm giá trị cực đại của LOF Tuy nhiên, nếu tiếp tục tăng giá trị Minpts, giá trị Max của LOF sẽ dao động lên xuống và cuối cùng ổn định ở một mức nhất định.

Giá trị của LOF có thể thay đổi không đồng nhất ngay cả trong phân bố thuần túy như phân bố Gauss, dẫn đến sự biến động lớn trong nhiều trường hợp phức tạp Trong hình 9, dữ liệu được mô tả trong không gian 2 chiều với ba vùng: S1 có 10 đối tượng, S2 có 35 đối tượng và S3 có 500 đối tượng Các biểu đồ minh họa LOF cho từng đối tượng trong mỗi vùng cho thấy rằng giá trị LOF thông qua Minpts nằm trong khoảng từ 10 đến 50 Đặc biệt, LOF của đối tượng trong S3 ổn định quanh giá trị 1, trong khi giá trị LOF của các đối tượng trong S1 và S2 lại biến động mạnh.

2- Xác Định Miền Của Minpts

Giá trị của LOF có thể thay đổi, vì vậy cần hướng dẫn để chọn miền giá trị của Minpts Sử dụng MinptsLB (Minpts Lower Bound) và MinptsUB (Minpts Upper Bound) để xác định cận trên và cận dưới Đầu tiên, MinptsLB không thể nhỏ hơn 2, nhưng cũng không nên quá nhỏ để tránh dao động không mong muốn Ví dụ, trong phân bố Gauss, độ lệch tiêu chuẩn của LOF chỉ ổn định khi Minpts tối thiểu là 10 Nếu thay đổi sang phân bố đều, với Minpts nhỏ hơn 10, có thể xuất hiện đối tượng có LOF lớn hơn 1 mà không được gán là ngoại lai Do đó, hướng dẫn đầu tiên là chọn MinptsLB ít nhất là 10 để loại bỏ các giao động không mong muốn.

Hướng dẫn thứ hai cung cấp cách chọn MinptsLB dựa trên nhiều quan sát tinh tế Trong trường hợp đơn giản với một đối tượng p và một tập hợp C các đối tượng, nếu C chứa ít hơn MinptsLB đối tượng, thì tập lân cận phụ thuộc vào Minpts của mỗi đối tượng trong C sẽ bao gồm cả p Kết quả là, LOF của p và tất cả các đối tượng trong C sẽ tương tự nhau, dẫn đến việc không tạo ra sự khác biệt giữa p và các đối tượng khác trong C.

Nếu C chứa nhiều hơn MinptsLB đối tượng, tập lân cận phụ thuộc vào tham số Minpts của các đối tượng trong C sẽ không bao gồm p, trong khi hầu hết các đối tượng của C nằm trong N Minpts (p) LOF của p có thể khác với LOF của các đối tượng trong C, điều này phụ thuộc vào khoảng cách giữa p và C cũng như mật độ của C MinptsLB có thể được xem như số lượng tối thiểu của các đối tượng trong một vùng như C, do đó, các đối tượng khác như p có thể được coi là phần tử ngoại lai cục bộ liên quan đến vùng này.

Giá trị này phụ thuộc vào ứng dụng Hầu hết các tập dữ liệu mà chúng ta thử nghiệm thì thường chọn từ 10 tới 20 để thực hiện

Tiếp theo, chúng ta sẽ xác định giá trị tối đa cho MinptsUB, là cận trên của miền giá trị Minpts Cận trên này tương tự như cận dưới MinptsLB, với ý nghĩa là lực lượng lớn nhất của tập hợp C, bao gồm các đối tượng "gần nhau" Các giá trị "gần nhau" này bao gồm direct Max, direct Min, indirect Max và indirect Min, đều có sự tương đồng Khi Minpts lớn hơn MinptsUB, theo định lý 1, LOF của các đối tượng trong C sẽ gần bằng 1 Do đó, chúng ta sẽ chọn MinptsUB là giá trị lớn nhất của các đối tượng gần nhau, có khả năng trở thành các phần tử ngoại lai cục bộ.

Trong trường hợp trình bày ở hình 9, S1 chứa 10 đối tượng, S2 chứa 35 đối tượng và S3 chứa 500 đối tượng Các biểu đồ cho thấy rằng các đối tượng trong S3 không bao giờ là phần tử ngoại lai, với giá trị LOF gần bằng 1 Ngược lại, các đối tượng trong S1 có nhiều phần tử ngoại lai lớn với giá trị Minpts cao.

35 Các đối tƣợng trong S2là ngoại lai bắt đầu từ MinptsE Lý do của hai kết quả cuối là bắt đầu Minpts6 thì tập các lân cận phụ thuộc tham số Minpts của các đối tƣợng trong S 2 sẽ bắt đầu bao gồm cả một số đối tƣợng trong S 1 Từ lý do đó, các đối tƣợng trong S 1 và S2 thực hiện cách xử lý giống nhau Bây giờ, với Minpts = 45 các đối tƣợng trong tập kết hợp các đối tƣợng S 1 và S2 bắt đầu có các đối tƣợng từ S 3 cũng là lân cận chung của chúng Và do đó, bắt đầu có các phần tử ngoại lai liên quan tới S 3 , phụ thuộc vào miền áp dụng mà chúng ta muốn xem xét một nhóm gồm 35 đối tƣợng ( nhƣ S 2 ) thành một vùng hay một nhóm gồm các phần tử gần nhƣ các phần tử ngoại lai cục bộ

Sau khi xác định MinptsLB và MinptsUB, chúng ta có thể tính toán giá trị LOF cho từng đối tượng trong miền này Điều này cho phép chúng ta đánh giá và sắp xếp các đối tượng theo giá trị LOF lớn nhất trong miền xác định, tức là sắp xếp các đối tượng dựa trên giá trị LOF của chúng.

Max {LOF Minpts (p)|MinptsLB≤Minpts≤MinptsUB}

Ngoài việc sắp xếp theo giá trị lớn nhất LOF của mỗi đối tượng trong miền giá trị của Minpts, có thể sử dụng giá trị nhỏ nhất hoặc giá trị trung bình Tuy nhiên, việc sử dụng giá trị nhỏ nhất có thể không phù hợp, vì nó có thể loại bỏ hoàn toàn tính ngoại lai của một đối tượng Sắp xếp theo giá trị trung bình có thể làm giảm tính ngoại lai, do đó, việc ưu tiên sắp xếp theo giá trị lớn nhất sẽ giúp làm nổi bật những đối tượng mang tính ngoại lai nhất.

Xác Định Miền Của Minpts

TÌM HIỂU KINH NGHIỆM XÂY DỰNG ỨNG DỤNG

DATA MINING TRONG THỰC TIỄN

Trong phần này, chúng ta khám phá phương pháp xây dựng ứng dụng Data Mining trong thực tiễn, dựa trên kinh nghiệm của IBM, một trong những công ty máy tính hàng đầu thế giới.

CÁC PHẠM TRÙ ỨNG DỤNG DATA MINING

Khai phá dữ liệu khám phá (Discovery data mining)

Khai phá dữ liệu khám phá là một kỹ thuật quan trọng trong việc tìm kiếm các mẫu dữ liệu ẩn chứa trong kho dữ liệu mà chúng ta chưa từng biết đến trước đó.

Sau đây là những ví dụ cho loại Khai phá dữ liệu khám phá:

Phân cụm ( Clustering ) : Chẳng hạn phân cụm khách hàng theo một mục tiêu nào đó, chẳng hạn theo mức thu nhập

Phân tích mối liên kết (Link analysis) là một phương pháp quan trọng trong việc hiểu mối quan hệ giữa các sản phẩm Một ví dụ điển hình là bài toán Cái giỏ thị trường, trong đó phân tích các sản phẩm mà khách hàng hoặc gia đình thường mua cùng nhau Việc này giúp các doanh nghiệp tối ưu hóa chiến lược tiếp thị và cải thiện trải nghiệm khách hàng.

Phân tích tần số là một kỹ thuật quan trọng trong việc phân tích thời gian của các bản ghi trong cơ sở dữ liệu Mục tiêu của phương pháp này là tìm kiếm và xác định quy luật xuất hiện của một loại thông tin cụ thể Việc áp dụng phân tích tần số giúp nâng cao khả năng hiểu biết về dữ liệu và hỗ trợ trong việc ra quyết định dựa trên các mẫu thông tin đã được phát hiện.

Khai phá dữ liệu đoán trước

Khai phá dữ liệu đoán trước là tìm kiếm một mối quan hệ đặc biệt giữa một biến và các biến khác trong dữ liệu

Sau đây là những ví dụ cho loại Khai phá dữ liệu đoán trước:

Phân loại là một kỹ thuật quan trọng trong việc gán các mẫu tin vào các phạm trù đã được định nghĩa trước, như việc phân chia khách hàng thành các phân khúc thị trường Kỹ thuật này giúp khám phá mối quan hệ giữa các biến và các phạm trù, cho phép xác định phạm trù mà một bản ghi mới thuộc về, cùng với xác suất mà bản ghi đó thuộc vào phạm trù đó.

Dự đoán giá trị là kỹ thuật nhằm ước lượng giá trị của một biến liên tục từ các biến khác trong dữ liệu, như việc dự đoán chi phí của khách hàng dựa trên độ tuổi, tầng lớp xã hội và thu nhập Một trong những phương pháp phổ biến trong lĩnh vực này là hồi quy tuyến tính, giúp xác định mối quan hệ giữa các biến và đưa ra những dự đoán chính xác.

PHƯƠNG PHÁP TỔNG QUÁT XÂY DỰNG ỨNG DỤNG

Định nghĩa vấn đề doanh nghiệp hướng tới

Ở bước này, cần xác định rõ vấn đề mà bài toán thực tiễn cần giải quyết Sau đó, mô tả vấn đề đó dưới dạng một hoặc một tập hợp các câu hỏi để hướng tới việc khai thác dữ liệu (Data Mining).

Một yếu tố quan trọng là các câu trả lời phải được tìm thấy trong kho dữ liệu hiện có, nghĩa là dữ liệu phải đủ đầy để giải quyết vấn đề đề ra, từ đó làm cho bài toán trở nên có ý nghĩa.

Nếu bạn chưa chắc chắn về cách đặt câu hỏi để khai thác dữ liệu, hãy học hỏi từ những bài toán tương tự đã được áp dụng trong thực tiễn Việc này sẽ giúp bạn có cái nhìn rõ hơn và đưa ra những câu hỏi hiệu quả hơn.

Mô tả tổng quát vấn đề cần xem xét dưới dạng các mẫu và mối quan hệ, chẳng hạn như khi phân tích khách hàng gian lận, chúng ta cần xác định những đặc trưng có thể liên quan đến hành vi gian lận Việc này giúp hiểu rõ hơn về dữ liệu và phát hiện các dấu hiệu bất thường trong hành vi của khách hàng.

Khi công thức hóa câu hỏi, chúng ta cần xem xét liệu dữ liệu hiện có có đủ để trả lời câu hỏi đó hay không Chẳng hạn, nếu đặt ra câu hỏi tại sao chúng ta mất khách hàng, có thể nguyên nhân là do đối thủ cạnh tranh giảm giá Tuy nhiên, nếu dữ liệu của chúng ta không bao gồm thông tin về giá cả của đối thủ, việc phân tích dữ liệu sẽ không thể cung cấp câu trả lời chính xác.

Định nghĩa mô hình dữ liệu

Bước thứ hai trong quá trình khai phá dữ liệu là xác định mô hình dữ liệu chung Trong các tổ chức hoặc doanh nghiệp, thường có một lượng lớn dữ liệu được sử dụng cho nhiều ứng dụng khác nhau.

Cách hiệu quả nhất để lưu trữ dữ liệu cho nhiều ứng dụng trong một tổ chức hoặc doanh nghiệp là áp dụng mô hình dữ liệu dùng chung, chẳng hạn như mô hình của kho dữ liệu (data warehouse).

Lợi ích của mô hình dữ liệu dùng chung trong khai thác dữ liệu là cung cấp phương pháp hiệu quả nhất để áp dụng khai thác dữ liệu cho doanh nghiệp hoặc tổ chức.

Khi đó mỗi ứng dụng của người dùng cuối sử dụng, cập nhật dữ liệu trong data warehouse dựa trên Data Mart của mình

Thiết kế cấu trúc dữ liệu cho ứng dụng là một thách thức lớn, và việc xác định mô hình dữ liệu cho Data Mining cũng không phải là điều đơn giản.

Một tổ chức hay doanh nghiệp khi bắt đầu xây dựng mô hình dữ liệu dùng chung sẽ dễ dàng xác định những dữ liệu quan trọng cần thiết cho quá trình Data Mining.

Chuẩn bị dữ liệu nguồn

Bước thứ ba trong quy trình khai thác dữ liệu (Data Mining) là tập hợp và xử lý trước dữ liệu nguồn, bao gồm việc nhận dạng, tập hợp và lọc dữ liệu theo định dạng của hàm khai phá dữ liệu đã chọn Đa số dữ liệu thực tế được lưu trữ trong tệp hoặc bảng trong cơ sở dữ liệu quan hệ Để tối ưu hóa quá trình khai thác dữ liệu, việc tạo ra các View mới từ các nguồn dữ liệu là phương pháp hiệu quả nhất.

Nếu dữ liệu không được lấy từ một kho dữ liệu, việc tiền xử lý là cần thiết, bao gồm các bước như tập hợp, làm sạch, lọc và biến đổi dữ liệu.

Thậm chí dữ liệu đƣợc lấy từ một kho hàng dữ liệu cũng cần phải đƣợc biến đổi sao cho phù hợp với kỹ thuật Data Mining sau này.

Đánh giá chất lƣợng dữ liệu

Để đảm bảo dữ liệu thoả mãn các tính chất : Chính xác và thích hợp chúng ta phải đánh giá dữ liệu

Bước đầu tiên cần kiểm tra trực quan dữ liệu bằng một công cụ xem dữ liệu trực quan

Bước thứ hai là tiến hành đánh giá ban đầu dữ liệu để phát hiện các mâu thuẫn tiềm ẩn như mất mát hoặc thiếu dữ liệu, cũng như sự không khớp nối dữ liệu theo đúng thứ tự Việc này giúp ngăn ngừa những kết quả thiên lệch có thể xảy ra trong quá trình khai thác dữ liệu.

Cuối cùng, việc lựa chọn các biến toàn cục cho hàm khai phá dữ liệu là rất quan trọng Quyết định này nên dựa trên các kết quả thống kê và kinh nghiệm thực tiễn để đảm bảo hiệu quả tối ưu trong quá trình phân tích dữ liệu.

Lựa chọn kỹ thuật Mining

Đây cũng là một bước khá quan trọng, chúng ta phải lựa chọn được kỹ thuật khai phá dữ liệu phù hợp nhất cho vấn đề đặt ra

Một số kỹ thuật ( hoặc những giải thuật ) sẵn có:

- Dự đoán giá trị ( Value prediction )

- Tìm mẫu tương tự ( Similar patterns )

- Sự tương tự ở nối tiếp thời gian ( Similar time sequences )

Trong nhiều tình huống, việc chọn lựa kỹ thuật là điều rõ ràng, như trong bài toán “Cái giỏ thị trường” cần áp dụng kỹ thuật hiệp hội (Associations) Tuy nhiên, cũng có những vấn đề mà việc lựa chọn không thể thực hiện ngay, chẳng hạn như việc xác định nguyên nhân gây ra lỗi của sản phẩm.

Việc lựa chọn kỹ thuật càng đơn giản khi mà chúng ta đã có kinh nghiệm về vấn đề này.

Thể hiện, làm rõ và đánh gía kết quả

Việc giải thích kết quả là bước thứ sáu trong khai phá dữ liệu

Việc áp dụng các phương pháp khai phá dữ liệu mang lại những kết quả phong phú, chứa đựng nhiều thông tin quý giá mà việc diễn giải ngay lập tức có thể gặp khó khăn.

Sự từng trải của các chuyên gia trong lĩnh vực này là vô cùng cần thiết Bên cạnh đó, việc mời những người quản trị doanh nghiệp tham gia để đóng góp ý kiến cũng rất quan trọng Họ cần phải hiểu rõ để có thể áp dụng hiệu quả các kết quả tìm kiếm vào công việc của mình.

Sử dụng những kết quả đó

Khai phá dữ liệu là bước mấu chốt trong việc phân tích thông tin, giúp xác định kết quả cụ thể cho từng bài toán Các kết quả này có thể được áp dụng cho nhiều mục đích khác nhau, và sẽ ngày càng được mở rộng khi duy trì bài toán Chẳng hạn, trong phần III, khi xem xét dự đoán khuấy động, chúng ta sẽ chỉ ra cách mà các kết quả khai thác dữ liệu được sử dụng trong các bộ phận như Chăm sóc khách hàng và Marketing.

III – ÁP DỤNG THỰC TIỄN :

Trong bài viết này, chúng ta sẽ khám phá một phương pháp khai thác thông tin nhằm dự đoán những khách hàng có khả năng ngừng sử dụng dịch vụ của một công ty viễn thông trong thời gian tới, được gọi là dự đoán khuấy động trong ngành viễn thông.

Chợ viễn thông ngày càng hoàn thiện, đóng vai trò quan trọng trong việc quản lý mối quan hệ với khách hàng Do đó, việc chăm sóc khách hàng thực sự trở nên cần thiết, đặc biệt là những khách hàng có giá trị cao, tức là những người mua nhiều dịch vụ Mục tiêu là giữ chân và gia tăng giá trị của họ đối với công ty.

Bằng cách áp dụng phương pháp khai phá thông tin, chúng ta có thể phân tích dữ liệu từ lịch sử khách hàng để xác định những khách hàng có nguy cơ cao rời bỏ công ty Điều này sẽ hỗ trợ trong việc phát triển các chiến lược marketing hiệu quả nhằm giữ chân khách hàng và ngăn chặn tình trạng rời bỏ.

Sự tiến bộ trong việc dự đoán đã được cải thiện thông qua việc áp dụng các mô hình khai phá dữ liệu hiện có, nhằm phân loại và phân tích thông tin một cách hiệu quả.

- Khách hàng có thể khuấy động

- Khách hàng không thể khuấy động

Vấn Đề Thương Nghiệp

Dự đoán khuấy động trong ngành viễn thông tập trung vào những thay đổi nhanh chóng trong chiến lược tiếp thị, đặc biệt là khi các công ty ngày càng chú trọng đến việc thu hút khách hàng mới thay vì giữ chân khách hàng cũ Sự cạnh tranh khốc liệt trong các chiến dịch marketing dẫn đến việc nhiều khách hàng chuyển sang các nhà cung cấp khác Khai thác dữ liệu có thể giúp các công ty viễn thông hiểu rõ hơn về nhu cầu và hành vi của khách hàng, từ đó tối ưu hóa chiến lược tiếp thị và nâng cao khả năng giữ chân khách hàng.

Để ngăn chặn việc khách hàng rời bỏ công ty, việc đầu tiên là hiểu rõ hành vi của họ Việc nhận diện những khách hàng có nguy cơ rời bỏ và khách hàng tiềm năng là rất quan trọng Chúng ta có thể phân tích hành vi khách hàng thông qua các truy vấn, phân tích OLAP, và khai thác dữ liệu để tìm ra những dấu hiệu khuấy động Một mẫu khai thác thông tin chính xác cần được xây dựng để xác định hành vi và thiết lập yêu cầu nhằm ngăn chặn sự khuấy động từ bên ngoài.

Bước đầu tiên trong việc giải quyết các vấn đề thương mại là sắp xếp và đưa ra một chuỗi câu hỏi cần thiết thông qua việc khai thác dữ liệu.

Dự đoán khuấy động là những tiến bộ đang diễn ra, không phải là hoạt động đơn lẻ mà cần liên kết chặt chẽ với việc duy trì tiến độ trong công ty Những tiến bộ này nhằm mục đích giữ chân khách hàng bằng cách tập trung vào ba vấn đề chính.

- Nhận ra những khách hàng có khả năng rời đi

- Xác định khách hàng chúng ta muốn giữ lại trong số họ

- Phát triển chính sách duy trì (Chiến dịch) ngăn chặn khách hàng rời đi

Dự đoán khuấy động đóng vai trò quan trọng trong việc tạo ra các chính sách phát triển cho Công ty Tuy nhiên, thách thức lớn nhất của nó là khả năng dự đoán hành động của khách hàng trong tương lai.

Mẫu dự đoán khuấy động không chỉ giúp Công ty duy trì khách hàng hiệu quả mà còn thể hiện cách thức khuấy động được áp dụng trong chiến lược phát triển kinh doanh.

Dự đoán khuấy động có thể giúp xác định khách hàng có khả năng ngừng hợp tác và khuyến khích họ tiếp tục sử dụng sản phẩm đa dạng của Công ty Nghiên cứu cho thấy, một số khách hàng rời bỏ Công ty thường có những hành vi đặc trưng trong quá khứ.

Chúng ta cần nhận diện các hành động trước khi nhân viên rời khỏi Công ty Khi thực hiện một dự án khuấy động, không nên khuyến khích việc dự đoán tất cả các thay đổi cùng lúc Thay vào đó, hãy loại bỏ sự xác định của khuấy động và phân loại các loại khuấy động có khả năng dự đoán cao nhất, đồng thời tạo ra thiện cảm với người sử dụng.

Sự xác định và phân loại khuấy động trong phần tới là những bước quan trọng nhất trong những tiến bộ khuấy động c) Dự Đoán Khuấy Động

Khuấy động là hành động của khách hàng trước khi rời khỏi Công ty, có thể do nhiều nguyên nhân khác nhau Những lý do này có thể xuất phát từ phía Công ty hoặc từ chính khách hàng Việc phân loại các lý do khuấy động giúp chúng ta hiểu rõ hơn về động cơ rời bỏ của khách hàng.

Khuấy động tự nguyện xảy ra khi khách hàng đề xuất hành động, và có thể được phân loại thành nhiều lý do khác nhau Những lý do này bao gồm hết hợp đồng, thay đổi mở đầu, chất lượng phục vụ, khuấy động cạnh tranh, thay đổi kỹ nghệ, thay đổi thường xuyên, và các khuấy động không phải tự nguyện.

Khuấy động cưỡng ép (không tự nguyện)

Khuấy động cưỡng ép là hành động mà Công ty tự khởi xướng, như việc tạm ngừng dịch vụ với khách hàng trong tháng này do một số lý do, chẳng hạn như vấn đề tín dụng của khách hàng Việc này cần được lọc từng loại khuấy động để đảm bảo tính chính xác và hiệu quả trong quản lý dịch vụ.

Việc phân loại các loại khuấy động dựa trên lý do khuấy động là rất quan trọng đối với công ty Điều này giúp tối ưu hóa hiệu quả của dự án khuấy động trong từng mẫu ứng dụng triển khai, khi chúng ta tập trung vào từng loại khuấy động tương ứng với mỗi mẫu.

Tiến trình sàng lọc các loại khuấy động bao gồm các bước quan trọng: xác nhận tác động của khuấy động từ một công ty đến công ty khác hoặc giữa các quốc gia; quyết định loại khuấy động dự đoán; và xác định quy trình cần thiết để phân biệt từng loại khuấy động trong "mớ hỗn độn" hiện có.

Một phương pháp hiệu quả để phân loại khách hàng có nguy cơ rời bỏ là xây dựng mô hình dự đoán, nhằm xác định những khách hàng sắp rời đi và tìm hiểu nguyên nhân của sự ra đi Việc áp dụng mô hình này sẽ giúp cải thiện chiến lược giữ chân khách hàng và tăng cường sự hài lòng của họ.

Dữ Liệu Cần Sử Dụng

Để thực hiện khai phá dữ liệu hiệu quả, việc xác định loại dữ liệu cần thiết về khách hàng là rất quan trọng Chúng ta cần tìm hiểu dữ liệu nào sẽ giúp kết nối vấn đề kinh doanh và nguồn thông tin nào sẽ cung cấp dữ liệu đó Đặc biệt, trong lĩnh vực viễn thông, việc xác định các mô hình dự đoán khuấy động là một yếu tố then chốt.

- Đặc điểm chỉ ra sự khuấy động

- Dữ liệu thông tin cá nhân khách hàng

- Dữ liệu nhân khẩu học

- Dữ liệu hợp đồng, các cuộc gọi góp ý kiến

- Dữ liệu về hóa đơn thu và chi

- Danh bạ khách hàng nhận đƣợc từ dữ liệu chuyên hóa

- Dữ liệu bổ xung khác a) Đặc Điểm Chỉ Ra Sự Khuấy Động

Trong mô hình dự đoán, việc xác định nhiều mục tiêu khả thi là rất quan trọng Nhiều dự án có thể được triển khai để tạo ra sự khởi sắc trong trường hợp này, đặc biệt là khi xem xét dữ liệu khách hàng.

Dữ liệu khách hàng có thể đƣợc sắp xếp thành 2 nhóm:

Nhóm 1: Những thông tin thuộc về cá nhân khách hàng Nhóm 2: Những thông tin liên quan đến hợp đồng

Dữ liệu nhân khẩu học:

Dữ liệu nhân khẩu khách hàng như tuổi, giới tính, và công việc, cùng với thông tin thu thập khi đăng ký dịch vụ điện thoại, rất hữu ích để xác định và mô tả nhóm khách hàng đặc trưng Tuy nhiên, những thông tin này có thể thay đổi theo thời gian, dẫn đến việc công ty gặp khó khăn trong việc duy trì tính chính xác của dữ liệu, mặc dù đã nỗ lực thu thập thông tin khách hàng.

Dữ liệu hợp đồng bao gồm các thông tin quan trọng như ngày hiệu lực, giá trị hợp đồng, phương thức thanh toán, quy định dịch vụ và loại máy khách hàng mong muốn Những thông tin này thường được thu thập trước khi ký kết hợp đồng và có thể thay đổi theo chính sách của công ty hoặc theo ý muốn của khách hàng Sự thay đổi trong thông tin hợp đồng có thể là yếu tố quan trọng trong việc dự đoán khuấy động Do vị trí công việc marketing và chính sách khác nhau ở mỗi công ty, không có câu trả lời hoàn chỉnh nào về yếu tố quan trọng nhất để dự đoán khuấy động.

Dữ liệu về các cuộc gọi của khách hàng phản ánh sự đa dạng trong hành vi của họ, giúp chúng ta dự đoán thời gian khuấy động trong tương lai Thông tin từ các cuộc gọi, bao gồm số điện thoại, thời gian và giá cước cuộc gọi, có thể là yếu tố quyết định cho việc khuấy động và xác định các cột chuyển hóa Chúng ta sử dụng dữ liệu này từ 6 tháng trước để đưa ra những thỏa thuận trong tương lai.

Dữ liệu về các cuộc gọi này cung cấp 3 nhóm thông tin :

Tần số của cuộc gọi:

Tần số cuộc gọi cung cấp thông tin về những số máy mà khách hàng thường gọi nhất

Chất lượng cuộc gọi là yếu tố quan trọng để đánh giá xem cuộc gọi của khách hàng có gặp vấn đề gì không Các chỉ số như số lượng cuộc gọi thành công, cuộc gọi bị ngắt giữa chừng và cuộc gọi hỏng đều là những ví dụ điển hình về dữ liệu chất lượng cuộc gọi.

Chất lƣợng cuộc gọi là nhân tố có ý nghĩa đối với việc dự đoán khuấy động

Mẫu cuộc gọi thể hiện hành vi của khách hàng trong một khoảng thời gian cụ thể hoặc loại cuộc gọi nhất định Số lượng cuộc gọi được ghi nhận trong khung thời gian cố định, chẳng hạn như cuộc gọi vào ban đêm hoặc cuộc gọi quốc tế Dữ liệu thu chi cũng là một phần quan trọng trong việc phân tích các mẫu cuộc gọi này.

Dữ liệu thu chi, bao gồm số lượng hóa đơn thu thập và hóa đơn thanh toán của khách hàng, đóng vai trò quan trọng trong việc phân tích tình hình tài chính và khuấy động không tự nguyện Thông tin này cần được quản lý chặt chẽ để tối ưu hóa quy trình kinh doanh Bên cạnh đó, danh bạ chuyên hóa từ dữ liệu cuộc gọi cũng là chỉ thị cần thiết để nâng cao hiệu quả giao tiếp và phục vụ khách hàng.

Một danh bạ tra cứu chuyên hóa tốt, còn được gọi là chìa khóa chỉ thị, mang lại những kinh nghiệm thương mại thực tế đã được kiểm nghiệm Danh sách khách hàng có thể được làm phong phú với dữ liệu chuyên hóa từ thông tin chi tiết, giúp nâng cao hiệu quả trong việc quản lý và khai thác dữ liệu.

Sau đây là những ví dụ về danh bạ chuyên hóa trong đời sống có thể quan trọng với những mẫu dự đoán khuấy động

Danh bạ chất lượng cuộc gọi

- Xu hướng thay đổi danh bạ

- Danh dách khách hàng phân theo lĩnh vực họat động

- Danh bạ điện thoại di động f) Dữ Liệu Bổ Sung

Các nhân tố chính mà bộ phận dự đoán khuấy động trong công ty coi là quan trọng bao gồm dữ liệu thu thập về khách hàng và thông tin cạnh tranh từ các công ty khác Dữ liệu khách hàng giúp đánh giá mức độ hài lòng với dịch vụ, trong khi thông tin cạnh tranh cho phép nhận diện hoạt động của đối thủ có thể ảnh hưởng đến khách hàng của chúng ta Cấu trúc dữ liệu cho dự đoán khuấy động là yếu tố then chốt trong việc phân tích và cải thiện chiến lược kinh doanh.

1 Churn Whether customer left the company after the time lag

5 Agent Office where phone was initially activated

6 Handset_type Handset model type

7 New_handset Current handset is new or not

10 Status Customer’s current status of contract (active,temporarily not used and so forth)

11 Grade Customer grade(gold, silver, bronze and so forth)

12 Contract_exp When the contract expires

13 Tenure How many month passed since activation

14 Suspen_before Number of times phone was suspended in recent 6 month

15 Discon_before Number of times phone was disconnected in recent 6 month

16 Handset_ch Number of times handset model changed

17 Pay_method_ch Number of times payment method changed

18 Priceplan_ch Number of times priceplan changed

19 Svc_call Number of services related to the call such as call forward, call waiting

20 Svc_info Number of services related to the information such as SMS

21 Svc_data Number of services related to the data

22 Svc_discount Number of services related to discount plan

23 Svc_free Number of free services

24 Svc_nonfree Number of non free services

Nguồn dữ Liệu, Chuẩn Bị Dữ Liệu

Để tạo mẫu dữ liệu, cần thu thập và chuyển đổi dữ liệu ban đầu thành định dạng chuẩn Bước này được gọi là phát triển và chuẩn bị nguồn tài liệu, là bước thứ ba trong quy trình khai phá dữ liệu Một phần quan trọng trong quá trình này là xác định cửa sổ thời gian phù hợp.

Khi sắp xếp tài liệu trong dữ liệu xác định, chọn khung thời gian thích hợp để thu thập dữ liệu là điểm tất yếu

Chúng ta nên xác định 3 vấn đề để quyết định khoảng thời gian nào cần thu thập dữ liệu về khách hàng và sử dụng thông tin khuấy động

- Cửa sổ dữ liệu: Khung thời gian cho mục nhập dùng để tiến hành mô hình

Cửa sổ dự đoán là khung thời gian quan trọng dùng để dự đoán và sắp xếp tài liệu, giúp xác định những mục dự đoán chính cần nhập Mẫu dự đoán khuấy động thường được áp dụng để trả lời câu hỏi về việc ai sẽ ngừng công tác với công ty và thời điểm cụ thể đó Trong quá trình xây dựng mẫu, cửa sổ dự đoán đóng vai trò là thời điểm "khi nào", giúp xem xét khả năng khách hàng có rời bỏ công ty hay không.

- Thời gian cộng tác: Khoảng cách về thời gian giữa cửa sổ dữ liệu và cửa sổ dự đoán

Trong trường hợp này, chúng ta dùng cửa sổ dự đoán 6 tháng, 2 tháng đầu để thử nghiệm, 1 tháng dự đoán, nhƣ trong hình 15

Trong giai đoạn xây dựng mẫu, dữ liệu từ tháng 2 đến tháng 7 trong vòng 6 tháng cho các khách hàng còn hợp tác đến cuối tháng 7 là thông tin quan trọng, nhằm xác định khả năng khách hàng có rời khỏi Công ty vào tháng 10 hay không Mẫu này cũng có thể áp dụng cho các khách hàng tiếp tục sử dụng trong tháng và dự đoán khả năng họ sẽ rời đi vào tháng 11.

Vào đầu tháng 9, nhân viên phòng tiếp thị có thể xác định danh sách những nhân viên có khả năng rời Công ty vào tháng 11 Thời gian hai tháng sẽ giúp họ chuẩn bị các phương án cần thiết.

“Khởi động” và thực hiện những chiến dịch makerting

Nên tránh sử dụng những khung thời gian bị ảnh hưởng bởi yếu tố bên ngoài, như các mẫu không điển hình Thay vào đó, việc áp dụng các khung thời gian mới nhất để xây dựng mẫu dự đoán sẽ cung cấp một cửa sổ dữ liệu chất lượng hơn.

Khoảng thời gian này là cơ hội để xây dựng và thực hiện chiến lược marketing Thời gian kéo dài cho phép nhân viên marketing thiết kế chiến lược cuối cùng và cải thiện độ chính xác của các dự đoán cho tương lai Đối với mẫu dự đoán khuấy động, cần ít nhất một tháng để thu thập dữ liệu, trong khi nhân viên tiếp thị cũng cần khoảng một tháng để chuẩn bị chiến lược dựa trên kết quả từ mô hình dự đoán.

Khoảng thời gian đứt quãng được xác định bằng cách so sánh kết quả dự đoán sau 1, 2, 3 tháng và N tháng Nếu mẫu dự đoán sau 2 tháng tương tự như mẫu dự đoán sau 1 tháng, mẫu 2 tháng thường được ưu tiên để hỗ trợ nhân viên tiếp thị Tuy nhiên, cần xác nhận sự tiến bộ trong tiếp thị trước khi quyết định khoảng thời gian bỏ trống.

Một sai lầm phổ biến trong mẫu dự đoán khuấy động là thực hiện dự đoán mà không có khoảng thời gian đứt quãng Chẳng hạn, nếu mẫu dự đoán khuấy động cho tháng 12 sử dụng toàn bộ dữ liệu của tháng 11, mô hình này chỉ mang tính lý thuyết Dữ liệu thực trong tháng 11 chỉ phù hợp với dữ liệu đầu tháng 12, dẫn đến việc mô hình trở nên vô dụng trong triển vọng thương mại Điều này bởi vì nhóm tiếp thị cần ít nhất vài ba tuần để thiết kế một chiến lược hiệu quả.

Cửa sổ dự đoán có thể được chọn dựa trên các tháng cụ thể, với việc lựa chọn và quyết định phụ thuộc vào yêu cầu công việc tiếp thị và kết quả dự đoán Bên cạnh đó, việc tạo ra dữ liệu để thử nghiệm và kiểm tra là rất quan trọng.

Mô hình dự đoán cần tạo ra dữ liệu thử nghiệm và kiểm tra

Mẫu thử nghiệm đóng vai trò quan trọng trong việc xây dựng mô hình đầu tiên Sau khi mô hình này được thiết lập, dữ liệu kiểm tra sẽ được sử dụng để đánh giá và cải tiến mô hình Mẫu kiểm tra bao gồm các phần dữ liệu thông thường nhưng với thông tin khách hàng đa dạng Mục đích của mẫu này là để phát hiện các vấn đề phát sinh trong quá trình phát triển mô hình, đảm bảo nó phù hợp với dữ liệu thực tế Đặc biệt, tần số chính xác của số người dự định rời đi cần phải được xác định chính xác và đồng nhất trong từng phần dữ liệu.

Tỉ lệ khuấy động trong dữ liệu thường rất thấp và thường bị coi là "mục tiêu phụ" Nếu không chú ý đến yếu tố này trong quá trình phát triển mô hình, chúng ta có thể gặp phải những kết quả không mong đợi.

Tỉ lệ khuấy động trong dữ liệu của Công ty là 1%, và cột dữ liệu trong mẫu dự đoán cũng thường đạt 1% Kỹ nghệ khai phá đã phát triển một mô hình hoàn chỉnh với độ chính xác 99% bằng cách đánh giá tỉ lệ những người không phải là khuấy động Tuy nhiên, điều này không cung cấp thông tin hữu ích nào.

Nói chung, chúng ta nên chú ý nếu kết quả đầu ra mà chúng ta dự đoán ít hơn 10% so với toàn cột dữ liệu

Giải pháp cho vấn đề này là sử dụng khối lượng sai trong tính toán, bao gồm việc áp dụng các cột dữ liệu lớn hơn số cột ban đầu Tối ưu hóa việc sử dụng dữ liệu trong các trường hợp sắp xếp tự động là rất quan trọng Ngoài ra, cột kết quả cũng được hình thành ngẫu nhiên dựa trên các cột dữ liệu ban đầu.

Để kiểm soát số lượng trường trong dữ liệu, cần thiết phải đặt ra giới hạn cho việc lựa chọn Một giải pháp để mở rộng dữ liệu kết quả là sao chép từ các cửa sổ khác, nhưng việc này chỉ nên được thực hiện vì những lý do cụ thể hoặc khi các công nghệ khác không thể áp dụng.

Việc sử dụng sai khối lượng dữ liệu có thể dẫn đến sự không chính xác trong các trường hợp khác nhau Do đó, việc áp dụng dữ liệu ngẫu nhiên trở thành giải pháp hiệu quả để khắc phục lỗi này, thay vì chỉ đơn giản là bổ sung dữ liệu ban đầu.

Phương Pháp Kỹ Thuật Để Khai Phá Dữ Liệu

Chọn phương pháp khai phá phù hợp là bước 5 trong phương pháp khai phá của chúng ta

Trong phần này, chúng ta sẽ xem xét các phương pháp hiệu quả để dự đoán khuấy động, đồng thời nêu rõ những yếu tố quan trọng cần lưu ý khi áp dụng các phương pháp này Đầu tiên, việc lựa chọn phương pháp khai thác dữ liệu phù hợp là rất cần thiết để đạt được kết quả chính xác.

Có nhiều phương pháp khai phá dữ liệu có thể áp dụng trong dự đoán khuấy động, trong đó các thuật toán phổ biến bao gồm: Phương pháp Cây thư mục, Phương pháp RBF (Radial Basis Function), Phương pháp Mạng Nơron, và Phương pháp Hồi quy-logic và đa thức.

 Phương pháp Cây thư mục:

Phương pháp cây thư mục tổ chức dữ liệu đầu ra thành cấu trúc hình cây, giúp nhân viên tiếp thị dễ dàng nhận diện và quản lý dữ liệu hiệu quả hơn Mô hình này cho phép sử dụng dữ liệu ban đầu chưa được chuẩn hóa hoặc đã được tiêu chuẩn hóa Ngoài ra, mô hình cây còn thiết lập các quy tắc cho dữ liệu đầu vào nhằm đạt được những kết quả mong muốn.

Mạng RBF (Radial Basis Function) là một phương pháp quản lý chuỗi thuật toán hiệu quả, hoạt động bằng cách kết hợp nhiều hàm đơn giản Khi mở rộng mô hình, các hàm này cần được điều chỉnh để đảm bảo tính chính xác của kết quả dự đoán.

Phương pháp Mạng Nơron hoạt động bằng cách nhập dữ liệu và chuyển đổi chúng thành một hoặc nhiều kết quả Trong quá trình này, mạng lưới không ngừng cải tiến và điều chỉnh để phát hiện và ghi lại lỗi Tuy nhiên, Mạng Nơron không cung cấp quy định nào để đảm bảo kết quả dễ hiểu và đặc biệt yêu cầu dữ liệu đầu vào phải chính xác.

Phân tích hồi quy là một phương pháp truyền thống trong việc phân tích dữ liệu, giúp mô tả mối quan hệ giữa dữ liệu đầu vào và kết quả dự đoán Phương pháp này thường sử dụng dữ liệu số và rất quan trọng trong quá trình chuẩn bị khi áp dụng mạng nơron và mô hình RBF.

Có nhiều phương pháp hồi quy khác nhau, mỗi phương pháp được thiết kế để phù hợp với loại dữ liệu cụ thể Một trong những phương pháp phổ biến là hồi quy đa thức, là sự mở rộng của hồi quy tuyến tính, sử dụng hàm phức tạp hơn để phù hợp với dữ liệu Hồi quy logic lại khác biệt, vì kết quả đầu ra chỉ có thể là 1 hoặc 0 (hệ nhị phân) Để đạt được kết quả hồi quy logic từ mạng nơron, cần sử dụng toàn bộ lớp dữ liệu không ẩn, và bằng cách loại bỏ các lớp dữ liệu ẩn, mạng nơron có thể tối ưu hóa mối quan hệ giữa đầu vào và đầu ra.

Khi sử dụng mô hình dự đoán, các mô hình này có thể được phát triển dựa trên thông tin toàn bộ khách hàng hoặc chỉ tập trung vào một số mảng đặc biệt Những mô hình khác nhau có thể được kết nối theo cấu trúc tuần tự hoặc song song để đạt được kết quả tối ưu hơn Ví dụ, có thể xây dựng mô hình dự đoán thông qua việc phân chia thành các mảng, phân loại khách hàng dựa trên số lượng mảng dữ liệu đầu vào hoặc đơn giản là phát triển mô hình dựa vào một mảng khách hàng cụ thể Ngoài ra, việc điều hành các kết quả khác nhau và sử dụng chúng như phiếu giúp tạo ra các mẫu dự đoán đa dạng, từ đó nâng cao độ chính xác của sản phẩm Cuối cùng, việc xây dựng các mô hình khác nhau dựa trên các phần khác nhau của cột dữ liệu cũng là một phương pháp hiệu quả trong khai thác dữ liệu.

Chúng tôi đã trình bày mô hình dự đoán dựa trên phương pháp và dữ liệu sử dụng Trong quá trình này, nhiều phương pháp khai phá đã được thử nghiệm để so sánh kết quả của từng mẫu và chọn ra mẫu tốt nhất Mẫu tiến triển hơn được thể hiện trong hình 18 dưới đây.

Chọn dữ liệu thông thường có nhiều ứng cử viên cho mô hình Để xác định những dữ liệu liên quan và thích đáng nhất, chúng ta có thể sử dụng thông tin thống kê Thông tin này cung cấp cho chúng ta danh sách phân bổ của các dữ liệu so với tổng thể, được gọi là dữ liệu thống kê.

Khi lựa chọn khối lượng dữ liệu, nên chú ý đến tỷ lệ khuấy động trong các cột dữ liệu Ví dụ, với cột dữ liệu khách hàng có tỷ lệ khuấy động 2%, thuật toán cây phân loại có thể gặp khó khăn trong việc phân loại chính xác những người khuấy động Điều này dẫn đến tỷ lệ sai sót 2% trong toàn bộ mô hình cây, và lỗi này thường không được coi trọng trong quá trình thực hiện thuật toán.

Dữ liệu IM có chức năng xác định khối lượng không chính xác, ngăn chặn thuật toán kiên trì phân loại tất cả những người khuấy động Chúng ta gán giá trị 10 cho lỗi khối lượng, điều này có nghĩa là nếu thuật toán tiếp tục phân loại, tỷ lệ sai sót sẽ là 20% thay vì 2% Giá trị lỗi khối lượng có thể được điều chỉnh sau khi xem xét kết quả từ cây.

Chiều sâu cực đại của cây thư mục có thể tạo thành một tập hợp, nhưng thường bị giới hạn ở mức 10 Nếu cây có quá nhiều nút lá, vấn đề có thể phát sinh Mặc dù cây có thể có tỉ lệ lỗi thấp hơn, nhưng nếu chiều sâu lớn, nó sẽ không hoạt động hiệu quả với các cột dữ liệu khác, dẫn đến kết quả khó nhìn.

Xén bớt là một bước quan trọng trong việc cải thiện cây xanh, giúp nâng cao khả năng trình bày và độ dễ hiểu Khi thực hiện bước này, chúng ta cần nhập chung một số lá và nhánh để tạo ra sự hài hòa và thẩm mỹ cho cây.

IM sử dụng thuật toán tự động để cắt xén nội dung, dừng lại ở các giới hạn như kích thước ở các nút lá, chiều sâu cây và độ chính xác Người dùng cũng có thể tự cắt xén theo ý muốn Cây nội dung được cắt xén tự động bởi IM, và một số phép cắt xén nhân tạo được thực hiện nếu các cành không phù hợp với ngữ cảnh tiếp thị.

Trình bày kết quả

Trong phần trước, chúng ta đã khám phá các bước để đạt được kết quả khai phá thông qua các phương pháp dự đoán khác nhau Bước 6 trong quy trình khai phá là giải thích các kết quả thu được và xác định cách áp dụng chúng vào công việc kinh doanh Khi tiếp cận những kết quả này, câu hỏi đầu tiên thường được đặt ra là "tất cả những điều này có ý nghĩa gì?"

Trong phần này, chúng ta sẽ khám phá cách hiểu và giải thích các kết quả thông qua những phương pháp khác nhau Đặc biệt, việc giải thích kết quả dựa vào viễn cảnh kinh doanh sẽ giúp chúng ta nắm bắt rõ hơn ý nghĩa và tác động của những kết quả đó trong môi trường kinh doanh hiện tại.

Mô hình được phát triển dựa trên cây thư mục RBF và mạng dự đoán nơron, sau đó được so sánh thông qua các biểu đồ lợi ích Tiếp theo, chúng ta sẽ xem xét kỹ lưỡng từ góc độ kinh doanh.

Cây thƣ mục đƣa ra một mô hình cây với một ma trận lẫn lộn để xem kết quả của mô hình nhƣ chỉ ra trong hình 19

Trong tổng số 4020 khách hàng, tỷ lệ lỗi phân loại đạt 26,12% Cụ thể, trong 1053 khách hàng được xác định là người khuấy động, có 523 người được phân loại chính xác, trong khi 530 người còn lại bị phân loại sai Đối với 2967 khách hàng không phải là người khuấy động, 2447 người được phân loại đúng, còn 520 người bị phân loại sai Tổng cộng, có 1050 khách hàng đã bị phân loại sai trong toàn bộ dữ liệu.

Chúng ta có thể lặp lại quy trình này nhiều lần để nâng cao độ chính xác của mô hình cây Bằng cách sử dụng các lựa chọn khác nhau trong mô hình dữ liệu khuấy động, chúng ta có thể xây dựng cây và kiểm tra hiệu suất của nó thông qua cột dữ liệu kiểm tra.

Tỉ lệ lỗi chấp nhận được có thể được xác định bằng cách kiểm tra mô hình với các cột dữ liệu khác nhau để đánh giá tính ổn định của tỉ lệ lỗi, đồng thời xem xét các yếu tố trong môi trường kinh doanh như tỉ lệ khuấy động và hiệu quả của chương trình tiếp thị.

Trong trường hợp này, tỉ lệ khuấy động thực tế thấp hơn 5%, với độ chính xác mô hình đạt 74% Đặc biệt, độ chính xác trong nhóm người khuấy động lên tới 50% (trong số 1053 trường hợp có kết quả trái ngược với 523) Khi sử dụng cột dữ liệu kiểm tra, tỉ lệ lỗi tăng dần, nhưng nhịp độ lỗi lại khá ổn định qua nhiều cột dữ liệu kiểm tra.

Mô hình cây được thể hiện qua đồ thị ở hình 20, bắt đầu từ đỉnh và mở rộng cành cho đến khi đạt được kết quả phân loại tối ưu Trong quá trình này, các lá ở tầng dưới sẽ phân chia khách hàng theo những quy tắc nhất định khi cây tiến tới mức độ tối ưu.

Qua quá trình trực quan hóa của Cây thư mục, chúng ta có thể phân loại các nút lá và xác định biến dữ liệu quan trọng nhất để xây dựng quy tắc Trong hình 5-6, OUTSPHERE được xem là biến dữ liệu quan trọng nhất, tiếp theo là HANDSET và CUSTOMER RATE, vì chúng xuất hiện nhiều ở phần đầu cây Ví dụ, một nút lá được xác định là những khách hàng không khuấy động nếu họ: sử dụng 3 hoặc nhiều hơn số điện thoại để gọi ra (OUTSPHERE), sử dụng kiểu máy điện thoại cũ (HANDSET), không có hợp đồng từ đầu hoặc hợp đồng chưa hết hạn (CONTRACT-DUR), và có tỷ lệ gọi thành công cao (CALL QUALITY).

Nút lá này có độ thuần khiết 81,3%, và trên nút HANDSET của cây, không có cành nào, cho thấy hầu hết người dùng không khuấy động rẽ từng nút Đây là những khách hàng có từ 3 số điện thoại gọi đi trở lên, nếu máy điện thoại của họ là loại mới (HANDSET), điều này có thể dẫn đến việc họ tiếp tục hợp tác với công ty Quy định này đạt độ thuần khiết 91,6%.

Cây thư mục cho người khuấy động được minh họa trong hình 22 cho thấy rằng, theo các quy tắc trình bày, khách hàng này có ba quy định đầu tiên giống với những khách hàng không khuấy động, ngoại trừ một số khác biệt Đầu tiên, mức độ hoạt động của họ thường ở mức thấp hoặc trung bình Thứ hai, số lượng cuộc gọi không tính trong khung thời gian cụ thể, bao gồm cả đêm, ngày lễ và đặc biệt là không tính trong khung thời gian trong ngày.

Họ rất trẻ (từ 20 - 20), hay rất già (70 - 80) o Tỉ lệ gọi thành công Độ thuần khiết của nút này là 36,7%

Cần điều tra kỹ lưỡng để hiểu rõ lý do tại sao số cuộc gọi không tính cước lại liên quan đến sự quan tâm của khách hàng, đặc biệt là giới trẻ Công ty đã cung cấp cuộc gọi miễn phí cho giới trẻ trong một khoảng thời gian nhất định, điều này mang lại lợi thế cạnh tranh Tuy nhiên, nhiều khách hàng không sử dụng hoặc không biết đến kế hoạch miễn cước này, dẫn đến việc cải tiến không hiệu quả Hơn nữa, việc sử dụng điện thoại cũ khiến chất lượng cuộc gọi kém, dẫn đến việc khách hàng ngừng hợp tác với Công ty dù hợp đồng chưa hết hạn.

Một quy định khác về việc chống khuấy động có thể được tìm thấy ở phần trên của cây, cho thấy rằng những khách hàng này đang sử dụng mẫu điện thoại cũ và hợp đồng của họ đã hết hạn Điều này chỉ ra rằng độ khuấy động của khách hàng đạt 48%, phản ánh phần trăm thuần khiết của tình trạng này.

Chúng ta chỉ tập trung vào phần bên phải của cây, vì phần bên trái chứa nhiều dữ liệu biến liên quan chủ yếu đến người sử dụng Nếu khách hàng ít sử dụng điện thoại, khả năng họ rời bỏ Công ty sẽ cao hơn.

Để tối ưu hóa chiến lược tiếp thị, chúng ta cần xác định các biến có ưu thế từ góc độ tiếp thị, nhằm chỉ ra độ viễn cảnh của khách hàng Việc khai thác dữ liệu từ những biến này sẽ giúp cải thiện độ chính xác của các mô hình dự đoán.

Trường hợp này, loại máy và loại mô hình đảm nhiệm quá trình

Bằng cách sử dụng RBF chúng ta chia kết quả thành từng miền hay trong

Triển Khai Mô Hình

Bước 7, bước cuối cùng trong phương pháp khai phá dữ liệu, được coi là bước quan trọng nhất, vì nó xác định cách ứng dụng kết quả khai thác vào thương mại và các mục đích kinh doanh cụ thể Khai phá dữ liệu là công cụ phân tích mạnh mẽ, giúp doanh nghiệp có cái nhìn toàn diện, nhưng việc áp dụng vào thực tế thường gặp khó khăn Trong phần này, chúng ta sẽ giải thích cách các phương pháp khai phá đã đề cập có thể được ứng dụng trong công việc kinh doanh, trở thành chìa khóa thành công trong quá trình quản lý hiệu quả Ứng dụng mô hình khai phá dữ liệu có thể thực hiện theo nhiều cách khác nhau.

Sử dụng IM và cách tính điểm khai phá của DB2, chúng ta có thể áp dụng mô hình dự đoán khuấy động cho tất cả khách hàng dựa trên số điểm khuấy động mà mỗi khách hàng nhận được.

Khi có điểm số khuấy động từ danh sách khách hàng, chúng ta có thể áp dụng nó trong các lĩnh vực khác nhau Tại trung tâm liên lạc, môi giới có thể tiếp cận thông tin chi tiết về khách hàng, bao gồm cả điểm khuấy động, khi giao tiếp với họ Trong lĩnh vực tiếp thị, nhân viên có thể sử dụng các công cụ như OLAP hoặc bảng biểu để phân tích sâu hơn, từ đó hiểu rõ lý do khách hàng rời bỏ công ty và xây dựng các chiến dịch chuyển đổi trước khi họ quyết định ngừng hợp tác Nếu phát hiện khách hàng có khả năng khuấy động cao nhưng giá trị thấp, chúng ta có thể ước tính hóa đơn trước khi họ đến văn phòng, giúp giảm thời gian giao tiếp nhờ vào hóa đơn đã được chuẩn bị sẵn.

Chúng ta có thể sử dụng danh sách có khả năng khuấy động kết hợp với bảng giá trị khách hàng để ngăn ngừa sự khuấy động từ khách hàng Chiến dịch duy trì này bao gồm nhiều bước, trong đó kết quả khai phá đóng vai trò quan trọng tại mỗi giai đoạn.

Quá trình thực hiện mô hình cần giảm chức năng theo thời gian Khi triển khai chiến dịch duy trì dựa trên mô hình dự đoán, một số khách hàng có thể chọn ở lại thay vì rời bỏ Chiến dịch này không chỉ tác động đến hành vi khách hàng mà còn phải thích ứng với những thay đổi trong môi trường tiếp thị, như các chiến dịch chính phủ Do đó, mô hình dự đoán cần được nâng cấp thường xuyên để phù hợp với những biến động này Cuối cùng, dự đoán khuấy động không chỉ là một sự kiện đơn lẻ mà là một quá trình liên tục trong doanh nghiệp.

Khi nâng cấp mô hình, cần chú ý đến một số điểm quan trọng: Thứ nhất, khoảng thời gian đứt quãng cần được xem xét kỹ lưỡng, vì nhân viên tiếp thị cần thời gian để thiết kế chiến dịch hiệu quả; do đó, một khoảng thời gian dài hơn là rất cần thiết Thứ hai, việc bổ sung dữ liệu biến mới, như dịch vụ mới và các chiến dịch liên quan, cũng rất quan trọng Cuối cùng, cần đánh giá các phương pháp đã sử dụng để ước lượng khả năng thực hiện của từng mô hình.

Xem lại những giả thiết cơ bản đã đề ra những định nghĩa khuấy động, lọc, điều chỉnh và chiến dịch của Công ty

KẾT LUẬN VÀ ĐỀ NGHỊ

Ngày đăng: 17/12/2023, 01:55

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN