(LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

I- ĐIỀU GÌ DẪN ĐẾN KỸ THUẬT DATA MINING

Nhu cầu khai thác dữ liệu

thác dữ liệu của doanh nghiệp: Môi trường doanh nghiệp thay đổi và sự quan tâm của các nhà quản lý

Sự cho phép của kỹ thuật và xu thế thời đại

những phương tiện thực hiện nó: Chính là sự phát triển về mặt kỹ thuật của

1- Nhu cầu khai thác dữ liệu

Xã hội hiện đại đang trở thành một xã hội thông tin, nơi mà các doanh nghiệp và tổ chức phải đối mặt với khối lượng thông tin ngày càng gia tăng và được tích lũy với tốc độ nhanh chóng Các chuyên viên và cán bộ quản lý thường xuyên phải xử lý lượng thông tin khổng lồ, dẫn đến tình trạng quá tải.

II- DATA MINING LÀ GÌ

Định nghĩa về Data Mining

Data Mining là một quá trình nhằm mục đích khám phá và dự đoán những kiến thức mới có giá trị và dễ hiểu từ dữ liệu.

Data Mining là một công nghệ tri thức giúp khai thác thông tin hữu ích từ các kho dữ liệu trong hệ thống công nghệ thông tin.

“Data Mining là sự thăm dò và trích ra những thông tin hữu ích không biêt trước tiềm ẩn trong cơ sở dữ liệu lớn”

“Data Mining là quá trình khai thác, khám phá những tri thức hữu ích, tiềm ẩn và mang tính dự báo từ một tập dữ liệu lớn”

Data Mining đã phát triển mạnh mẽ trong khoảng 10 năm qua, nhưng nguồn gốc của nó có thể được truy tìm về trí tuệ nhân tạo từ những năm 1950 Thời kỳ này đã đặt nền tảng cho sự phát triển của Data Mining thông qua việc phát triển kỹ thuật nhận dạng Nhiều kỹ thuật của Data Mining đã được áp dụng trong giai đoạn này, chủ yếu trong các bài toán khoa học.

Cơ sở dữ liệu quan hệ đã xuất hiện, cho phép lưu trữ khối lượng dữ liệu lớn, tạo ra cầu nối giữa các kỹ thuật khoa học và ứng dụng thương mại.

Và một điều khẳng định chắc chắn rằng: Data mining không thể tách rời giữa kỹ thuật, công nghệ và giải pháp Công nghệ thông tin.

Các bước trong Data Mining

Kỹ thuật khai thác dữ liệu (data mining) có thể được chia thành bốn bước chính: Đầu tiên là tích hợp dữ liệu, nơi dữ liệu được hợp nhất thành các kho dữ liệu sau khi trải qua quá trình làm sạch và tiền xử lý Tiếp theo là trích chọn dữ liệu, trong đó dữ liệu được lấy từ kho và chuyển đổi thành dạng phù hợp, bao gồm xử lý dữ liệu nhiễu và không đầy đủ Bước thứ ba là khai thác dữ liệu, nơi tri thức được tìm kiếm và khám phá từ dữ liệu đã được trích chọn, áp dụng các kỹ thuật phù hợp tùy theo bài toán Cuối cùng, đánh giá và trình bày tri thức giúp chuyển đổi thông tin đã khai thác thành dạng dễ hiểu hơn cho người dùng, sẵn sàng cho việc sử dụng.

Phân loại các hệ thống Data Mining

Data Mining là một công nghệ tri thức quan trọng, liên quan đến nhiều lĩnh vực nghiên cứu như cơ sở dữ liệu, học máy và giải thuật trực quan hóa Công nghệ này giúp khai thác và phân tích dữ liệu lớn để rút ra thông tin giá trị, phục vụ cho việc ra quyết định trong các lĩnh vực khác nhau.

Chúng ta có thể phân loại các hệ thống Data Mining theo nhiều tiêu chí khác nhau Đầu tiên, phân loại dựa trên loại dữ liệu, bao gồm cơ sở dữ liệu quan hệ, kho dữ liệu, cơ sở dữ liệu giao dịch, cơ sở dữ liệu không gian, cơ sở dữ liệu đa phương tiện, và cơ sở dữ liệu văn bản & web Thứ hai, phân loại dựa trên loại tri thức khám phá, trong đó có tóm tắt và mô tả.

Association rules, classification, clustering, and sequential mining are key techniques in data mining These methods can be categorized based on the applied techniques, particularly focusing on database-driven approaches.

Trong lĩnh vực phân tích dữ liệu, có nhiều công nghệ và phương pháp quan trọng như cơ sở dữ liệu định hướng, Phân tích trực tuyến (OLAP), và học máy với các thuật toán như cây quyết định, mạng nơ ron nhân tạo, k-mean, thuật toán di truyền, máy vectơ hỗ trợ (SVM), tập thô và tập mờ Những công cụ này không chỉ giúp tối ưu hóa quy trình phân tích mà còn hỗ trợ trực quan hóa dữ liệu hiệu quả Đặc biệt, các ứng dụng của chúng trong ngành kinh doanh bán lẻ đang ngày càng trở nên phổ biến, giúp các doanh nghiệp đưa ra quyết định thông minh và nâng cao hiệu suất hoạt động.

(retial), truyền thông (telecommunication), tin-sinh (bio-informaties) y học (medical treatment), tài chính và thị trường chứng khoán (finance & stock market), Web mining, v.v.

Ứng dụng của Data Mining

Data Mining có khả năng ứng dụng rộng rãi trong nhiều lĩnh vực, miễn là dữ liệu được lưu trữ dưới dạng số và người dùng cần khai thác những thông tin tiềm ẩn từ dữ liệu đó.

Có thể liệt kê ra đây những ứng dụng điển hình của Data Mining hiện nay trên thế giới:

 Phân tích dữ liệu và hỗ trợ ra quyết định

 Dự báo trong điều trị y học

CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU

KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU

1- Phân cụm dữ liệu là gì?

Phân cụm (clustering) là quá trình tổ chức các đối tượng vật lý hoặc trừu tượng thành những nhóm hoặc lớp tương đồng Một cụm (cluster) được định nghĩa là một tập hợp các đối tượng dữ liệu, trong đó các đối tượng trong cùng một cụm có sự tương đồng cao và khác biệt so với các đối tượng thuộc cụm khác.

Trong phân cụm, khác với phân loại, chúng ta không biết trước tính chất của các lớp mà chỉ dựa vào mối quan hệ giữa các đối tượng để xác định sự tương đồng của chúng Quá trình này tìm ra các nhóm đối tượng dựa trên các đặc điểm chung, sử dụng các tiêu chí đo lường đặc trưng cho từng lớp.

Phân cụm thường không hoạt động độc lập mà thường được kết hợp với các phương pháp khác Ví dụ, việc phân cụm có thể được sử dụng để nghiên cứu các vì sao và độ sáng của chúng.

2- Các ứng dụng của phân cụm dữ liệu

Phân cụm là một hoạt động quan trọng trong cuộc sống con người, bắt đầu từ khi trẻ nhỏ học cách phân biệt các đồ vật, động vật và thực vật thông qua sự thay đổi nhận thức Phân cụm được ứng dụng rộng rãi trong các lĩnh vực như nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh và nghiên cứu thị trường Nhờ vào phân cụm, chúng ta có thể xác định các vùng dày đặc hoặc thưa thớt, từ đó phát hiện sự phân bố của các mẫu và nhận diện mối tương quan giữa các thuộc tính của dữ liệu.

Trong lĩnh vực kinh doanh, phân cụm đóng vai trò quan trọng trong việc giúp các nhà nghiên cứu thị trường nhận diện các nhóm khách hàng đa dạng và đặc điểm riêng biệt của từng nhóm, dựa trên dữ liệu giao dịch mua bán.

Trong lĩnh vực sinh học, phân cụm đóng vai trò quan trọng trong việc phân loại thực vật và động vật, cũng như phân loại gen, giúp cung cấp thông tin chi tiết về cấu trúc dân cư.

Phân cụm giúp nhận diện các khu vực tương đồng trên trái đất bằng cách sử dụng cơ sở dữ liệu quan sát, đồng thời phân loại các nhóm nhà trong thành phố dựa trên các tiêu chí như kiểu dáng, giá trị và vị trí địa lý.

Phân cụm cũng giúp cho việc phân chia tài liệu trên Web dựa vào nội dung thông tin

Phân cụm không chỉ là một phương pháp phân tích dữ liệu mà còn đóng vai trò quan trọng trong việc tiền xử lý trước khi áp dụng các thuật toán như phát hiện đặc tính và phân loại dữ liệu Sau khi các cụm dữ liệu được xác định, các thuật toán sẽ tiến hành xử lý trên những cụm này để đạt được kết quả chính xác hơn.

3- Các vấn đề nghiên cứu trong phân cụm

Phân cụm dữ liệu đang thu hút sự chú ý trong nghiên cứu khai phá dữ liệu do sự gia tăng nhanh chóng về kích thước cơ sở dữ liệu Nghiên cứu về phân cụm không chỉ liên quan đến khai phá dữ liệu mà còn được áp dụng trong nhiều lĩnh vực khác như thống kê, học máy, công nghệ cơ sở dữ liệu không gian, sinh học và nghiên cứu thị trường.

Trong lĩnh vực thống kê, phân cụm đã được nghiên cứu và phát triển trong nhiều năm, chủ yếu tập trung vào các phương pháp phân cụm dựa trên khoảng cách như k-mean và k-medoids, được tích hợp trong các phần mềm thống kê như S-plus, SPSS và SAS Trong học máy, phân cụm là một ví dụ về học không thầy, khác với phân loại, vì nó không dựa vào các lớp đã được định nghĩa trước và ví dụ huấn luyện Phân cụm là hình thức học bằng quan sát, trong đó một nhóm đối tượng được xem là một lớp nếu nó được mô tả bởi một khái niệm cụ thể.

Khái niệm phân cụm bao gồm 2 phần:

 Phát hiện ra lớp thích hợp

 Đƣa ra sự mô tả cho mỗi lớp, giống trong phân loại

Nguyên tắc phân chia là cố gắng phân các đối tƣợng có sự giống nhau lớn nhất và sự khác biệt nhỏ nhất vào một cụm

Trong khai phá dữ liệu, nghiên cứu về phân cụm chủ yếu tập trung vào việc tìm kiếm các phương pháp phân cụm hiệu quả và tin cậy cho cơ sở dữ liệu lớn Các yêu cầu quan trọng bao gồm tính hiệu quả và tính tuyến tính của thuật toán, khả năng xử lý các cụm có hình dạng phức tạp, cũng như khả năng làm việc với các kiểu dữ liệu trong không gian đa chiều và phân cụm dữ liệu dạng số cũng như dữ liệu khác trong cơ sở dữ liệu.

4- Các yêu cầu đối với bài toán phân cụm

Phân cụm là một lĩnh vực nghiên cứu đầy thách thức, mang lại tiềm năng ứng dụng lớn để đáp ứng những yêu cầu đặc biệt của con người.

Nhiều thuật toán phân cụm thường chỉ hiệu quả với dữ liệu nhỏ, dưới 200 đối tượng, trong khi cơ sở dữ liệu lớn có thể chứa hàng triệu đối tượng Việc phân cụm trên mẫu của tập dữ liệu lớn có thể dẫn đến kết quả không chính xác, vì vậy cần thiết phải áp dụng các thuật toán chuyên biệt cho các cơ sở dữ liệu lớn.

Nhiều thuật toán phân cụm thường chỉ áp dụng cho dữ liệu dạng số, nhưng thực tế yêu cầu có thể bao gồm nhiều loại dữ liệu khác nhau như nhị phân, chuỗi, liệt kê, hoặc sự kết hợp của các kiểu dữ liệu này.

Các thuật toán phân cụm truyền thống thường dựa vào khoảng đo lường Euclidean hoặc Mahalanobis, dẫn đến việc xác định các cụm có hình dạng cầu và mật độ tương đồng Tuy nhiên, thực tế cho thấy các cụm có thể có hình dạng bất kỳ Do đó, việc phát triển các thuật toán có khả năng phát hiện các cụm với hình dạng đa dạng là rất cần thiết để nâng cao hiệu quả phân tích dữ liệu.

KHÁI QUÁT VỀ CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 17

Phương pháp dựa vào mật độ (Density-based Method)

Hầu hết các phương pháp phân hoạch để phân cụm đối tượng dựa vào khoảng cách giữa các đối tượng, nhưng chúng chỉ tìm ra các cụm hình cầu và gặp khó khăn với các lớp có hình dạng bất kỳ Ngược lại, các phương pháp phân cụm dựa trên khái niệm mật độ đánh giá các cụm như vùng dày đặc các đối tượng trong không gian dữ liệu, phân biệt chúng với các vùng có mật độ thấp (nhiễu) Phương pháp này có thể được sử dụng để lọc nhiễu (outlier) và phát hiện các cụm có hình dạng bất kỳ.

Thuật toán phân cụm dựa trên mật độ đầu tiên là DBSCAN (Density-Based Clustering of Applications with Noise), được giới thiệu bởi Ester và cộng sự vào năm 1996 DBSCAN đánh giá mật độ xung quanh một đối tượng dựa trên số lượng điểm dữ liệu trong bán kính , so với tham số MinPts - số lượng đối tượng tối thiểu cần thiết Hiệu quả của thuật toán này phụ thuộc vào khả năng lựa chọn các tham số phù hợp của người dùng Để khắc phục vấn đề này, phương pháp OPTICS (Ordering Points to Identify the Clustering Structure) được đề xuất bởi Ankerst và cộng sự vào năm 1999, không chỉ phân cụm toàn bộ dữ liệu mà còn sắp xếp các cụm theo thứ tự tăng dần, giúp phân tích tự động và liên tục Cả hai phương pháp đều sử dụng cấu trúc chỉ số không gian như cây R* để xử lý các truy vấn lân cận một cách hiệu quả.

Theo nghiên cứu của Berchtold et al (1996), tính hiệu quả của các thuật toán như DBSCAN và OPTICS giảm khi số chiều của dữ liệu tăng lên, khiến chúng không phù hợp cho dữ liệu có số chiều lớn Để xử lý hiệu quả dữ liệu đa chiều, thuật toán Density Clustering (DEN-CLUE) do Hinneburg và Keim (1998) phát triển, dựa trên mô hình hóa mật độ toàn thể của điểm dữ liệu thông qua các hàm tác động DEN-CLUE sử dụng cấu trúc lưới để tính tổng các hàm tác động một cách hiệu quả, và các thử nghiệm cho thấy nó hoạt động tốt hơn DBSCAN gấp 45 lần Tuy nhiên, việc lựa chọn các tham số phân cụm cho DEN-CLUE cần phải được thực hiện cẩn thận, vì chúng có thể ảnh hưởng đáng kể đến chất lượng phân cụm.

Phương pháp dựa vào chia lưới (Grid-based methods)

Các phương pháp phân cụm dựa trên mật độ như DBSCAN và OPTICS thường không hiệu quả trong không gian nhiều chiều Để cải thiện hiệu suất, các chiến lược phân cụm dựa trên lưới đã được phát triển, sử dụng cấu trúc dữ liệu lưới để tối ưu hóa quá trình phân cụm.

Phương pháp chia lưới là một kỹ thuật thống kê hiệu quả để quản lý các điểm trong không gian dữ liệu đa chiều Phương pháp này chia không gian dữ liệu thành các khối chiều với kích thước cạnh đồng đều Tuy nhiên, việc lựa chọn kích thước cạnh cho các khối là một vấn đề quan trọng cần được giải quyết trước khi áp dụng phương pháp này.

Trong không gian dữ liệu d chiều, một mảng d chiều được hình thành và được gọi là từ điển dữ liệu Mỗi phần tử trong mảng này được gọi là cell, có khả năng chứa một hoặc nhiều điểm dữ liệu, hoặc có thể không chứa điểm dữ liệu nào Những cell không chứa điểm dữ liệu được gọi là cell rỗng và không được xem xét Mỗi điểm dữ liệu phải nằm trong một cell, và tất cả các điểm trong cùng một cell được lưu trữ riêng biệt với các cell khác Điều này có nghĩa là các điểm dữ liệu trong cùng một cell được lưu trữ trong cùng một khối và hoàn toàn độc lập với các điểm thuộc cell khác.

Một số ví dụ tiêu biểu cho chiến lược dựa trên lưới bao gồm: STING (Wang et al 1997), khám phá thông tin thống kê trong lưới; WaveCluster (Sheikholeslami et al 1998), sử dụng phép biến đổi sóng để phân cụm đối tượng; và CLIQUE (Agrawal et al 1998), trình bày các chiến lược dựa vào mật độ và lưới nhằm chia lớp không gian dữ liệu có số chiều lớn.

Phân cụm trong cơ sở dữ liệu là quá trình nhóm các đối tượng có đặc tính tương tự vào một cụm Nguyên tắc chính của phân cụm dựa vào hàm mục tiêu xác định khoảng cách giữa một đối tượng và tâm cụm, từ đó quyết định xem đối tượng đó có thuộc về cụm hay không Để xác định mối quan hệ giữa các đối tượng, cần xây dựng một đại lượng đo lường độ khác nhau giữa chúng Việc xác định độ khác nhau này phụ thuộc vào kiểu thuộc tính của đối tượng, và mỗi kiểu dữ liệu sẽ có công thức tính độ khác nhau riêng.

Có nhiều phương pháp phân cụm với các thuật toán tương ứng, cho phép áp dụng linh hoạt tùy theo bài toán cụ thể Tuy nhiên, hai phương pháp đầu thường kém hiệu quả khi dữ liệu chứa nhiễu Để khắc phục vấn đề này, bài viết sẽ trình bày phương pháp phân cụm dựa vào mật độ, cụ thể là DBSCAN.

PHƯƠNG PHÁP PHÂN CỤM DỰA VÀO MẬT ĐỘ DBSCAN 1-Cáckháiniệm 29

Bổ đề chứng minh tính đúng đắn của DBSCAN

Bổ đề 1: Giả sử p là một điểm nằm trong D và | N Eps (p) |  MinPts Tập

O = {o | o đến được mật độ từ p theo hai tham số Eps và MinPts} là một cụm theo Eps và MinPts

Cụm C được xác định duy nhất bởi các tham số Eps và MinPts, với điểm nhân là trung tâm của nó Mỗi điểm trong cụm C có thể nhận được mật độ từ bất kỳ điểm nhân nào trong cụm, cho thấy rằng C bao gồm các điểm có khả năng tiếp cận mật độ từ nhiều điểm nhân khác nhau.

Bổ đề 2: Giả sử C là một cụm theo tham số Eps, MinPts và p là điểm bất kỳ thuộc C với |N Eps (p) |  MinPts thì C trùng với tập O

O = {o| o  D và o đến đƣợc mật độ từ p theo tham số Eps và MinPts }.

Thuật toán DBSCAN

Trong phần này, chúng ta sẽ khám phá thuật toán DBSCAN (Density Based Spatial Clustering for Applications with Noise), được thiết kế để phát hiện các cụm và nhiễu trong cơ sở dữ liệu không gian Thuật toán này dựa trên hai khái niệm cụm và nhiễu đã được định nghĩa trước đó Để áp dụng DBSCAN, trước tiên, cần xác định các tham số Eps và MinPts phù hợp, cùng với ít nhất một điểm đại diện cho cụm Tiếp theo, chúng ta sẽ điều chỉnh tất cả các điểm đến được mật độ từ điểm khởi đầu dựa trên các tham số này Tuy nhiên, việc tìm ra các tham số thích hợp không phải là điều đơn giản.

Do đó DBSCAN sử dụng các biến toàn cục Eps và MinPts

Thuật toán DBSCAN bắt đầu bằng cách chọn một điểm p ngẫu nhiên và xác định các điểm lân cận trong bán kính Eps với số lượng tối thiểu MinPts Nếu p là điểm nhân, một cụm sẽ được hình thành xung quanh nó Ngược lại, nếu p là điểm biên và không có điểm nào có thể tiếp cận với mật độ từ p, thì p sẽ bị bỏ qua và thuật toán sẽ chuyển sang điểm tiếp theo Để xây dựng một cụm chứa p, cần tìm tất cả các điểm có thể tiếp cận được từ p theo tiêu chí mật độ.

- Tìm tập các điểm lân cận của p: N Eps (p), tập các điểm đó đƣợc đƣa vào tập nhân

- Nếu N Eps (p)< MinPts thì không có điểm nào đến đƣợc mật độ từ p, q là điểm nhiễu

Ngược lại, nếu p là điểm nhân, các điểm lân cận của p sẽ được phân nhóm thành một cụm Tiếp theo, chúng ta sẽ thực hiện lần lượt các bước từ điểm đầu tiên đến điểm cuối cùng trong tập hợp các điểm nhân đã tìm được.

+ Tìm lân cận của điểm đang thực hiện, giả sử đó là điểm p1, ta tìm tập các điểm lân cận của p1, NEps(p 1 )

+ Nếu NEps(p 1 ) < MinPts, ta chuyển sang điểm tiếp theo trong tập nhân

Ngược lại, nếu điểm p1 là điểm nhân và các điểm lân cận của p1 chưa được phân cụm, thì các điểm lân cận này sẽ được phân vào cụm và thêm vào tập nhân Đồng thời, điểm p1 sẽ bị xóa khỏi tập hợp và quá trình sẽ chuyển sang điểm tiếp theo trong tập nhân.

Cuối cùng, chúng ta xác định được tất cả các điểm thuộc về cùng một cụm với điểm p, hoặc tìm ra tất cả các điểm có mật độ từ điểm p, điều này có nghĩa là chúng ta đã xây dựng thành công một cụm.

Có thể tóm tắt thuật toán thành các bước cơ bản sau như sau:

- Bước 1: Khởi tạo các điểm dữ liệu vào, xác định tham số Eps, MinPts, tập đối tƣợng

Bước 2 trong quá trình xác định tập nhân là chọn một điểm bất kỳ từ tập hợp các điểm ban đầu Tại điểm này, ta sẽ gán tất cả các điểm nằm trong bán kính Eps xung quanh điểm đó vào tập nhân Sau đó, với mỗi điểm trong tập nhân, ta kiểm tra xem nó có thỏa mãn điều kiện nhân hay không, cụ thể là NEps(p1) phải lớn hơn hoặc bằng MinPts Nếu điều kiện này được thỏa mãn, điểm đó sẽ được xác định là điểm nhân.

Bước 3 của thuật toán là xác định miền liên thông các điểm nhân, một phần quan trọng trong quá trình phân cụm Tại đây, chúng ta tìm tất cả các điểm có mật độ từ điểm đang xét, tức là mở rộng cụm Đối với mỗi điểm nhân, ta kiểm tra các điểm lân cận; nếu điểm lân cận thỏa mãn điều kiện nhân, nó sẽ được đưa vào cụm Nếu không, điểm đó sẽ bị bỏ qua và ta tiếp tục với điểm nhân tiếp theo Cuối cùng, chúng ta thu được một tập hợp các điểm liên thông, tạo thành một cụm hoàn chỉnh.

- Bước 4: Xác định các cụm, mỗi cụm là miền liên thông các điểm nhân

TÌM KIẾM PHẦN TỬ NGOẠI LAI

Trong lĩnh vực Data Mining, nhiều nghiên cứu chủ yếu tập trung vào việc phát hiện các cụm dữ liệu Tuy nhiên, trong một số trường hợp, việc tìm kiếm các phần tử cá biệt hoặc sự kiện hiếm gặp lại mang lại giá trị cao hơn so với việc xác định các trường hợp thông thường Ví dụ, việc phát hiện hành vi phá hoại trong thương mại điện tử, nhận diện sai sót trong kiểm toán, hay tìm kiếm nhân tài là những ứng dụng quan trọng của phương pháp này.

Các nghiên cứu trước đây về việc tìm kiếm các phần tử ngoại lai thường dựa vào các kết quả thống kê và có thể được phân chia thành hai nhánh khác nhau.

Sử dụng sự phân phối làm nền tảng, một phân phối chuẩn được áp dụng để tối ưu hóa việc khớp dữ liệu Các phần tử ngoại lai được xác định dựa trên khả năng phân phối Tuy nhiên, trong nhiều ứng dụng KDD, sự phân phối thường diễn ra không rõ ràng, và việc khớp dữ liệu với các phân phối cơ bản có thể tốn kém và dẫn đến những kết quả không như mong đợi.

Mỗi đối tượng dữ liệu được ánh xạ vào không gian k-chiều và gán một độ sâu, với các phần tử ngoại lai có độ sâu nhỏ hơn Tuy nhiên, các thuật toán thực tế dựa trên phương pháp này thường kém hiệu quả khi k lớn hơn hoặc bằng 4.

Các nghiên cứu gần đây về bài toán phân cụm đã đưa ra định nghĩa mới cho phần tử ngoại lai, dựa trên khoảng cách giữa nó và cụm Những định nghĩa này không chỉ tổng quát hơn so với các định nghĩa trước mà còn giúp giảm độ phức tạp trong quá trình tính toán.

Các thuật toán phân cụm chủ yếu nhằm xác định và đánh giá các cụm dữ liệu, mà không tập trung vào việc phát hiện các phần tử ngoại lai Trong các thuật toán này, phần tử ngoại lai chỉ được xem xét ở mức nhị phân, tức là xác định xem một đối tượng dữ liệu có phải là ngoại lai hay không.

Theo quan điểm, các thuật toán phân cụm xác định phần tử ngoại lai là những đối tượng không thuộc về các cụm dữ liệu, thường được gọi là nhiễu Tập hợp điểm nhiễu phụ thuộc vào thuật toán và các tham số giới hạn cụm Do đó, các phần tử ngoại lai thường bị coi là không có ý nghĩa trong các thuật toán phân cụm này.

Các tác giả Markus M.Breunig, Hans-Peter Kriegel, Raymond T.Ng và Jorg Sander (2000) đã phát triển khái niệm hệ số ngoại vi cục bộ (LOF) để xác định phần tử ngoại lai trong các tập dữ liệu phức tạp, dựa trên mức độ cô lập của một đối tượng so với khu vực xung quanh Họ chỉ ra rằng các đối tượng nằm sâu trong cụm có giá trị LOF xấp xỉ 1 và phân tích sự phụ thuộc của LOF vào tham số MinPts Từ đó, họ đưa ra nguyên tắc thực tiễn để lựa chọn khoảng giá trị MinPts và phương pháp phân loại các đối tượng dựa trên giá trị LOF tối đa, giúp phát hiện phần tử ngoại lai hiệu quả.

Trong các phần sau đây chúng ta tìm hiểu kỹ hơn về hệ số LOF

CÁC ĐỊNH NGHĨA VỀ PHẦN TỬ NGOẠI LAI ĐỊA PHƯƠNG 1-K-distance của một đối tượng

Lân cận bán kính k-distance của đối tượng p

Định nghĩa 2: (k-distance neighbourhood of an object p)

Với k-distance đã được xác định, khu vực lân cận bán kính k-distance của đối tượng p bao gồm tất cả các phần tử có khoảng cách đến p nhỏ hơn hoặc bằng k-distance.

Những đối tƣợng q ở biểu thức trên đƣợc gọi là k phần tử gần nhất của p Để đơn giản chúng ta quy ƣớc dùng ký kiệu:

Trong định nghĩa 1, k-distance(p) có thể áp dụng cho mọi số nguyên k Mặc dù đối tượng o không phải là duy nhất trong trường hợp này, nhưng số phần tử Nk(p) lại lớn hơn k.

3- Khoảng cách có thể đến một đối tƣợng Đinh nghĩa 3: (reachability distance of an object p w.r.t object o)

Cho k là một số tự nhiên Khoảng cách có thể đến đƣợc Reach-dist của đối tƣợng p với đối tƣợng o đƣợc định nghiã:

Khi phân tích khoảng cách giữa các đối tượng, nếu đối tượng p ở xa o, khoảng cách sẽ là khoảng cách thông thường Ngược lại, nếu p gần o, khoảng cách sẽ được xác định là k-distance(o) Định nghĩa này giúp giảm thiểu sự biến động thống kê của khoảng cách d(p,o) giữa p và các đối tượng gần o Hiệu ứng làm tròn này có thể được điều chỉnh thông qua hệ số k; khi k tăng, khoảng cách giữa các đối tượng trong khu vực lân cận trở nên đồng nhất hơn.

4- Mật độ địa phương có thể đến được

Trong thuật toán phân cụm dựa theo mật độ thường có 2 tham số liên quan tới khái niệm về mật độ:

(1) Hệ số MinPts đặc trƣng số lƣợng tối thiểu của phần tử trong cụm

Hệ số Eps xác định ngưỡng mật độ cho thuật toán phân cụm, giúp tìm ra các đối tượng liên thông mật độ Để xác định phần tử ngoại lai dựa trên mật độ, cần so sánh mật độ của nhiều tổ hợp phần tử khác nhau Điều này đòi hỏi phải quyết định mật độ của tập hợp phần tử một cách chủ động Do đó, MinPts được coi là một hệ số duy nhất và được sử dụng với giá trị cụ thể.

Mật độ khả năng tiếp cận cục bộ của một đối tượng p được xác định thông qua hàm Reach-dist MinPts (p,o), trong đó o thuộc tập N MinPts (p) Tiêu chuẩn này đóng vai trò là ngưỡng để đánh giá mật độ khu vực lân cận xung quanh đối tượng p.

Mật độ địa phương có thể đến được của đối tượng p được đinh nghĩa:

Mật độ lân cận của đối tượng p được xác định là nghịch đảo của khoảng cách trung bình đến các đối tượng lân cận gần nhất, dựa trên MinPts Đặc biệt, mật độ lân cận có thể đạt giá trị vô hạn nếu tổng khoảng cách đến các đối tượng lân cận bằng 0 Tình huống này xảy ra khi đối tượng p có ít nhất MinPts đối tượng khác nhưng lại trùng tọa độ không gian với p.

5- Hệ số ngoại lai của một đối tƣợng ( LOF ) Định nghĩa 5: ( Local Outlier Factor of an object p)

Hệ số ngoại lai của một đối tƣợng p đƣợc đinh nghĩa:

Hệ số ngoại lai (LOF) của một đối tượng p thể hiện mức độ ngoại lai của nó, được tính bằng trung bình tỷ lệ giữa mật độ lân cận đến đối tượng p và mật độ lân cận của MinPts phần tử lân cận gần nhất Khi mật độ lân cận đến p giảm và mật độ lân cận đến MinPts tăng, giá trị LOF sẽ cao hơn Trong phần tiếp theo, chúng ta sẽ làm rõ hơn về các tính chất hình thức của LOF.

TÍNH CHẤT CỦA PHẦN TỬ NGOẠI LAI

Cận dưới và cận trên của LOF

Bổ đề 1 cho thấy rằng các đối tượng nằm sâu trong cụm có số LOF gần 1, do đó không thể xem chúng là phần tử ngoại lai Tiếp theo, chúng ta sẽ xem xét các đối tượng nằm ở rìa và bên ngoài cụm.

Đối với bất kỳ đối tượng p nào, direct Min(p) được định nghĩa là khoảng cách ngắn nhất từ p đến một MinPts lân cận gần nhất Cụ thể, direct Min(p) được tính bằng cách lấy giá trị nhỏ nhất của reach-dist(p, q) với q thuộc tập N MinPts(p).

Tương tự: direct Max (p) = Max { reach-dist(p,q) | q  N MinPtr (p)} Định nghĩa 7:

Khoảng cách đến đƣợc tối thiểu của p và MinPts lân cận gần nhất của q đƣợc gọi là Indirect MinPts (p) xác định bởi:

Indirect MinPts (p) = Min{reach-dist(p,o) | q  MinPts(p), o  MinPts (p)} Tương tự:

Indirect MaxPts (p) = Max{reach-dist(p,o) | q  MinPts(p), o  MinPts (p)} Để đơn giản ta ký hiệu Indirect MinPts (p), Indirect MinPts (p) lần lƣợt là I Min ,

Cho p là một đối tƣợng trong Cơ sở dữ liệu D và 1  MinPts  |D| Khi đó ta luôn có:

) ( max indirect p p direct p p LOF indirect p direct

) ( max p p LOF indirect p direct Min

 o  N MinPts (p): reach-dist(p,o) ≥ direct Min (p) Theo định nghĩa direct

 q  N MinPts (o): reach-dist(o,q)  indirect Max (p) Theo định nghĩa Indirect Max suy ra:

LOF  Max : chứng minh tương tự

Giới hạn trong Định lý 1 chặt chẽ hơn so với giới hạn trong Bổ đề 1, cho phép số  trong Bổ đề 1 có thể tiến gần hơn đến 0 Trong mục 3, chúng ta sẽ phân tích sâu hơn về độ chặt chẽ của giới hạn trong Định lý 1.

3) Sự giao động của LOF

Gọi LOF Max , LOF Min lần lượt là giới hạn trên và dưới của LOF

Trong phần này, để đơn giản hóa và tránh nhầm lẫn khi chỉ xét với một đối tượng p, chúng ta sẽ sử dụng cách viết tắt bằng cách bỏ thông số p; ví dụ, "direct" sẽ được hiểu là viết tắt của direct(p).

Gọi Pct là tỷ lệ giao động của khoảng cách có thể đến đƣợc của đối tƣợng p

Giả sử pct/100 = x% tương ứng ta có: direct Max = direct * ( 1+x% ), direct Min = direct * ( 1-x% ) indirect Max = indirect*(1+x%), indirect Min = indirect*( 1-x% )

. max pct indirect indirect pct direct direct pct indirect indirect pct direct direct direct indirect indirect direct

Tỷ số (LOFmax - LOFmin)/(direct/indirect) chỉ phụ thuộc vào tham số pct, và sẽ tiến tới vô cùng khi pct đạt 100 Điều này cho thấy rằng, nếu pct không thay đổi, độ lệch giữa LOFmax và LOFmin sẽ phụ thuộc vào tỷ lệ direct/indirect Đồ thị trong hình 7 minh họa đường cong của tỷ lệ (LOFmax - LOFmin)/(direct/indirect) theo pct.

Giới hạn LOF của một đối đượng lân cận đến được trải trên nhiều cụm

Coi p là một đối tƣợng nằm trong Cơ sở dữ liệu D,

1  MinPts  |D| và C1, C2, … Cn là các phân cụm của NMinPts(p)

N MinPts (p) = C1  C2  …  Cn với Ci  Cj =  và Ci    1i,jn, i  j Đặt I = |C|/|N MinPts (p)| gọi là phần trăm của đối tƣợng trong lân cận của p mà những đối tƣợng này cũng ở trong Ci

Các khái niệm direct i Min (p), direct i Max (p), indirect i Min (p) và indirect i Max (p) được định nghĩa tương tự như direct Min (p) và direct Max (p), cũng như indirect Min (p) và indirect Max (p), nhưng có sự hạn chế trong tập Ci.

Việc chứng minh định lý này cũng tương tự như định lý 1

ẢNH HƯỞNG CỦA THAM SỐ MinPts

Sự Phụ Thuộc của LOF Theo Minpts

Dựa trên các kết quả phân tích trước đó, bài viết đặt ra một số câu hỏi quan trọng về giá trị của LOF Cụ thể, giá trị LOF sẽ thay đổi như thế nào khi điều chỉnh giá trị Minpts? Liệu khi tăng dần các giá trị Minpts, có sự tương ứng với một chuỗi thay đổi đơn điệu của LOF không? Điều này đặt ra vấn đề về việc LOF có tăng hoặc giảm một cách đơn điệu hay không.

Thực tế LOF không có sự thay đổi đơn điệu, mà vẫn giữ nguyên giá trị Hình 8 minh họa một trường hợp đơn giản với các đối tượng phân bố theo phân bố Gauss Đối với mỗi giá trị Minpts từ 2 đến 50, các giá trị Min, Max, giá trị trung bình và độ lệch tiêu chuẩn của LOF được trình bày rõ ràng.

Xem xét cận trên của LOF trong ví dụ, khi Minpts=2, giá trị này dựa vào khoảng cách thực của các đối tượng theo định nghĩa 5 Khi tăng dần Minpts, các dao động về khoảng cách giảm và giá trị LOF cũng giảm theo Điều này dẫn đến sự giảm giá trị cực đại của LOF Tuy nhiên, khi Minpts tiếp tục tăng, giá trị Max của LOF sẽ dao động trước khi ổn định ở một mức nhất định.

Giá trị của LOF có thể thay đổi đáng kể ngay cả trong phân bố thuần túy như phân bố Gauss, đặc biệt là trong các trường hợp phức tạp Hình 9 mô tả một tập dữ liệu trong không gian 2 chiều với ba vùng: S1 gồm 10 đối tượng, S2 gồm 35 đối tượng, và S3 gồm 500 đối tượng Các biểu đồ minh họa LOF cho một đối tượng trong mỗi vùng cho thấy rằng giá trị LOF thông qua Minpts nằm trong khoảng từ 10 đến 50 Trong khi LOF của đối tượng trong S3 duy trì ổn định quanh giá trị 1, thì giá trị LOF của các đối tượng trong S1 và S2 lại biến động mạnh.

2- Xác Định Miền Của Minpts

Giá trị của LOF có thể thay đổi, vì vậy cần có hướng dẫn để chọn miền giá trị cho Minpts Để xác định cận dưới (MinptsLB) và cận trên (MinptsUB), trước hết, MinptsLB nên được đặt tối thiểu là 10 nhằm loại bỏ các dao động không mong muốn Nếu Minpts nhỏ hơn 10, như trong trường hợp phân bố Gaussian, độ lệch tiêu chuẩn của LOF không ổn định Hơn nữa, khi sử dụng phân bố đều, các đối tượng có LOF lớn hơn 1 có thể xuất hiện mà không được coi là ngoại lai Do đó, lựa chọn MinptsLB ít nhất là 10 là cần thiết để đảm bảo tính chính xác trong phân tích.

Hướng dẫn thứ hai đề xuất cách chọn MinptsLB dựa trên nhiều quan sát tinh tế Trong một trường hợp đơn giản với một đối tượng p và một tập hợp C các đối tượng, nếu C chứa ít hơn MinptsLB đối tượng, thì tập các lân cận phụ thuộc vào tham số Minpts của mỗi đối tượng trong C sẽ bao gồm cả p và ngược lại Kết quả là, theo định lý 1, LOF của p và tất cả các đối tượng trong C sẽ tương đồng, dẫn đến việc không tạo ra sự khác biệt giữa p và các đối tượng khác trong C.

Nếu C chứa nhiều hơn MinptsLB đối tượng, tập lân cận phụ thuộc vào tham số Minpts của các đối tượng trong C có thể không chứa p, nhưng hầu hết các đối tượng của C sẽ nằm trong NMinpts(p) LOF của p có thể khác với LOF của các đối tượng trong C, điều này phụ thuộc vào khoảng cách giữa p và C cũng như mật độ của C Một điểm quan trọng là MinptsLB có thể được coi là số lượng tối thiểu các đối tượng trong một vùng như C, do đó, các đối tượng khác như p có thể là phần tử ngoại lai cục bộ liên quan đến vùng này.

Giá trị này phụ thuộc vào ứng dụng Hầu hết các tập dữ liệu mà chúng ta thử nghiệm thì thường chọn từ 10 tới 20 để thực hiện

Trong quá trình lựa chọn giá trị MinptsUB, chúng ta xác định cận trên của miền giá trị Minpts, tương tự như cận dưới MinptsLB Nếu C là tập hợp các vùng của các đối tượng "gần nhau", thì MinptsUB được xem như lực lượng lớn nhất của tập C, với khả năng các đối tượng trong C có thể là phần tử ngoại lai Các giá trị "gần nhau" này bao gồm direct Max, direct Min, indirect Max, và indirect Min, cho thấy sự tương đồng giữa chúng Khi giá trị Minpts lớn hơn MinptsUB, theo định lý 1, LOF của các đối tượng trong C sẽ gần bằng 1 Do đó, cách chọn MinptsUB là giá trị lớn nhất của các đối tượng gần nhau có khả năng là các phần tử ngoại lai cục bộ.

Trong trường hợp trình bày ở hình 9, S1 chứa 10 đối tượng, S2 có 35 đối tượng và S3 gồm 500 đối tượng Biểu đồ cho thấy các đối tượng trong S3 không bao giờ là phần tử ngoại lai, với giá trị LOF gần bằng 1 Ngược lại, S1 có nhiều phần tử ngoại lai với giá trị Minpts cao.

35 Các đối tƣợng trong S2là ngoại lai bắt đầu từ MinptsE Lý do của hai kết quả cuối là bắt đầu Minpts6 thì tập các lân cận phụ thuộc tham số Minpts của các đối tƣợng trong S2 sẽ bắt đầu bao gồm cả một số đối tƣợng trong S1 Từ lý do đó, các đối tƣợng trong S1 và S2 thực hiện cách xử lý giống nhau Bây giờ, với Minpts = 45 các đối tƣợng trong tập kết hợp các đối tƣợng S1 và S 2 bắt đầu có các đối tƣợng từ S3 cũng là lân cận chung của chúng Và do đó, bắt đầu có các phần tử ngoại lai liên quan tới S3, phụ thuộc vào miền áp dụng mà chúng ta muốn xem xét một nhóm gồm 35 đối tƣợng ( nhƣ S2 ) thành một vùng hay một nhóm gồm các phần tử gần nhƣ các phần tử ngoại lai cục bộ

Khi xác định MinptsLB và MinptsUB, chúng ta có thể tính giá trị LOF cho từng đối tượng trong miền đã xác định Điều này cho phép chúng ta đánh giá và sắp xếp các đối tượng theo giá trị LOF từ cao đến thấp, tức là tổ chức các đối tượng dựa trên độ nổi bật của chúng trong miền này.

Max {LOF Minpts (p)|MinptsLB≤Minpts≤MinptsUB}

Ngoài việc sắp xếp các đối tượng theo giá trị lớn nhất của LOF trong miền giá trị của Minpts, có thể lựa chọn sắp xếp theo giá trị nhỏ nhất hoặc giá trị trung bình Tuy nhiên, như minh họa trong hình 9, việc sử dụng giá trị nhỏ nhất có thể dẫn đến việc loại bỏ hoàn toàn tính ngoại lai của một đối tượng Sắp xếp theo giá trị trung bình có thể giúp giảm bớt tính ngoại lai, nhưng để làm nổi bật những đối tượng mang tính ngoại lai nhất, sắp xếp theo giá trị lớn nhất là phương pháp hiệu quả hơn.

Xác Định Miền Của Minpts

TÌM HIỂU KINH NGHIỆM XÂY DỰNG ỨNG DỤNG

DATA MINING TRONG THỰC TIỄN

Trong bài viết này, chúng ta sẽ khám phá phương pháp phát triển ứng dụng Data Mining dựa trên những kinh nghiệm thực tiễn từ IBM, một trong những công ty máy tính hàng đầu thế giới.

CÁC PHẠM TRÙ ỨNG DỤNG DATA MINING

Khai phá dữ liệu khám phá (Discovery data mining)

Khai phá dữ liệu khám phá là kỹ thuật tìm kiếm các mẫu dữ liệu ẩn trong kho dữ liệu mà không có kiến thức trước về chúng.

Sau đây là những ví dụ cho loại Khai phá dữ liệu khám phá:

Phân cụm ( Clustering ) : Chẳng hạn phân cụm khách hàng theo một mục tiêu nào đó, chẳng hạn theo mức thu nhập

Phân tích mối liên kết, hay còn gọi là Link analysis, là một phương pháp quan trọng trong việc hiểu mối quan hệ giữa các sản phẩm Ví dụ điển hình nhất của phương pháp này là bài toán Cái giỏ thị trường, nơi nghiên cứu các sản phẩm mà khách hàng hoặc gia đình thường mua cùng nhau Thông qua việc phân tích mối liên hệ này, doanh nghiệp có thể tối ưu hóa chiến lược marketing và tăng cường trải nghiệm khách hàng.

Phân tích tần số là một kỹ thuật quan trọng trong việc phân tích thời gian của các bản ghi trong cơ sở dữ liệu Phương pháp này giúp xác định quy luật xuất hiện của một loại thông tin cụ thể, từ đó cung cấp cái nhìn sâu sắc về dữ liệu và hỗ trợ ra quyết định hiệu quả hơn.

Khai phá dữ liệu đoán trước

Khai phá dữ liệu đoán trước là tìm kiếm một mối quan hệ đặc biệt giữa một biến và các biến khác trong dữ liệu

Sau đây là những ví dụ cho loại Khai phá dữ liệu đoán trước:

Phân loại là kỹ thuật gán mẫu tin vào các phạm trù đã định nghĩa, như việc phân khúc thị trường cho từng khách hàng Kỹ thuật này khám phá mối quan hệ giữa các biến và các phạm trù, giúp xác định phạm trù mà bản ghi mới thuộc về cùng với xác suất tương ứng.

Dự đoán giá trị là một kỹ thuật nhằm ước lượng giá trị của một biến liên tục dựa trên các biến khác trong dữ liệu, chẳng hạn như việc dự đoán chi phí của khách hàng theo độ tuổi, tầng lớp và thu nhập Một trong những phương pháp phổ biến trong lĩnh vực này là hồi quy tuyến tính, giúp xác định mối quan hệ giữa các biến.

PHƯƠNG PHÁP TỔNG QUÁT XÂY DỰNG ỨNG DỤNG

Định nghĩa vấn đề doanh nghiệp hướng tới

Ở bước này, cần xác định rõ vấn đề thực tiễn mà bài toán đang hướng tới Sau đó, mô tả vấn đề đó thông qua một hoặc nhiều câu hỏi cụ thể để Data Mining có thể tập trung giải quyết.

Để giải quyết một vấn đề, điều quan trọng là các câu trả lời phải tồn tại trong kho dữ liệu hiện có Điều này có nghĩa là dữ liệu phải đủ đầy để cung cấp thông tin cần thiết nhằm trả lời câu hỏi đã đặt ra, từ đó bài toán mới trở nên có ý nghĩa.

Nếu bạn chưa chắc chắn về các câu hỏi để khai thác dữ liệu, cách tốt nhất là học hỏi từ những bài toán tương tự đã được áp dụng thực tiễn.

Để mô tả tổng quát vấn đề, cần xem xét các mẫu và mối quan hệ liên quan Ví dụ, khi phân tích khách hàng gian lận, chúng ta cần xác định các đặc trưng có thể gợi ý sự gian lận tiềm tàng Bên cạnh đó, việc tìm hiểu và phân tích dữ liệu là bước quan trọng để nhận diện các dấu hiệu bất thường trong hành vi của khách hàng.

Khi công thức hóa câu hỏi, chúng ta cần xem xét liệu dữ liệu hiện có có đủ để trả lời câu hỏi đó hay không Ví dụ, nếu chúng ta đặt ra câu hỏi tại sao mất khách hàng, liệu có phải do đối thủ cạnh tranh giảm giá? Nếu dữ liệu của chúng ta không bao gồm thông tin về giá cả của đối thủ, thì việc khai thác dữ liệu sẽ không thể cung cấp câu trả lời chính xác.

Định nghĩa mô hình dữ liệu

Bước thứ hai trong quy trình khai phá dữ liệu là xác định mô hình dữ liệu chung Trong các tổ chức và doanh nghiệp, thường có một khối lượng dữ liệu lớn, và những dữ liệu này thường được sử dụng cho nhiều ứng dụng khác nhau.

Cách hiệu quả nhất để lưu trữ dữ liệu cho nhiều ứng dụng trong tổ chức hoặc doanh nghiệp là áp dụng mô hình dữ liệu dùng chung, chẳng hạn như mô hình của kho dữ liệu (data warehouse).

Sử dụng mô hình dữ liệu dùng chung trong khai phá dữ liệu mang lại lợi thế lớn cho doanh nghiệp và tổ chức, giúp tối ưu hóa quy trình khai thác thông tin.

Khi đó mỗi ứng dụng của người dùng cuối sử dụng, cập nhật dữ liệu trong data warehouse dựa trên Data Mart của mình

Thiết kế cấu trúc dữ liệu cho ứng dụng là một thách thức lớn, và việc định nghĩa mô hình dữ liệu cho Data Mining cũng không phải là ngoại lệ.

Khi một tổ chức hoặc doanh nghiệp từ đầu đã áp dụng mô hình dữ liệu dùng chung, việc xác định dữ liệu cần thiết cho quá trình Data Mining sẽ trở nên dễ dàng và hiệu quả hơn.

Chuẩn bị dữ liệu nguồn

Bước thứ ba trong quy trình Data Mining là tập hợp và xử lý dữ liệu nguồn, bao gồm việc nhận dạng, tập hợp và lọc dữ liệu theo định dạng của hàm khai phá dữ liệu đã chọn Đối với nguồn dữ liệu, hầu hết dữ liệu thực tế được lưu trữ trong tệp hoặc bảng trong cơ sở dữ liệu quan hệ, và cách hiệu quả nhất là tạo ra các View mới từ những nguồn này để phục vụ cho mục đích khai phá dữ liệu Việc xử lý trước dữ liệu là một bước quan trọng trong quá trình này.

Nếu dữ liệu không được lấy từ kho dữ liệu, việc tiền xử lý là cần thiết, bao gồm các bước như tập hợp, làm sạch, lọc và biến đổi dữ liệu.

Thậm chí dữ liệu đƣợc lấy từ một kho hàng dữ liệu cũng cần phải đƣợc biến đổi sao cho phù hợp với kỹ thuật Data Mining sau này.

Đánh giá chất lƣợng dữ liệu

Để đảm bảo dữ liệu thoả mãn các tính chất : Chính xác và thích hợp chúng ta phải đánh giá dữ liệu

Bước đầu tiên cần kiểm tra trực quan dữ liệu bằng một công cụ xem dữ liệu trực quan

Bước thứ hai là tiến hành đánh giá ban đầu dữ liệu để phát hiện các mâu thuẫn tiềm ẩn, chẳng hạn như mất mát hoặc thiếu dữ liệu, cũng như việc khớp nối dữ liệu không đúng thứ tự Việc này rất quan trọng để ngăn ngừa những kết quả thiên lệch trong quá trình khai thác dữ liệu.

Cuối cùng, việc lựa chọn các biến toàn cục cho hàm khai phá dữ liệu là rất quan trọng Quy trình này cần dựa trên kết quả thống kê và kinh nghiệm thực tiễn để đảm bảo tính chính xác và hiệu quả trong phân tích dữ liệu.

Lựa chọn kỹ thuật Mining

Đây cũng là một bước khá quan trọng, chúng ta phải lựa chọn được kỹ thuật khai phá dữ liệu phù hợp nhất cho vấn đề đặt ra

Một số kỹ thuật ( hoặc những giải thuật ) sẵn có:

- Dự đoán giá trị ( Value prediction )

- Tìm mẫu tương tự ( Similar patterns )

- Sự tương tự ở nối tiếp thời gian ( Similar time sequences )

Trong nhiều tình huống, việc chọn lựa kỹ thuật là điều rõ ràng, như trong bài toán "Cái giỏ thị trường" cần áp dụng kỹ thuật hiệp hội (Associations) Tuy nhiên, có những vấn đề mà việc lựa chọn không thể thực hiện ngay, chẳng hạn như việc tìm kiếm nguyên nhân gây ra lỗi sản phẩm.

Việc lựa chọn kỹ thuật càng đơn giản khi mà chúng ta đã có kinh nghiệm về vấn đề này.

Thể hiện, làm rõ và đánh gía kết quả

Việc giải thích kết quả là bước thứ sáu trong khai phá dữ liệu

Việc áp dụng các phương pháp khai phá dữ liệu mang lại những kết quả phong phú, chứa đựng nhiều thông tin quý giá nhưng thường khó để diễn giải ngay lập tức.

Kinh nghiệm của chuyên gia trong lĩnh vực này là rất quan trọng Bên cạnh đó, việc mời các nhà quản trị doanh nghiệp tham gia là cần thiết để họ có thể đóng góp ý kiến Điều này giúp họ hiểu rõ hơn và triển khai hiệu quả các kết quả tìm kiếm vào công việc của mình.

Sử dụng những kết quả đó

Bước mấu chốt trong Khai phá dữ liệu là xác định mục đích sử dụng kết quả dựa trên từng bài toán cụ thể Khi duy trì bài toán, ứng dụng của kết quả sẽ ngày càng mở rộng, đặc biệt trong lĩnh vực dự đoán khuấy động Chúng ta có thể chỉ ra rằng kết quả khai phá dữ liệu có thể phục vụ cho các bộ phận như Chăm sóc khách hàng và Marketing.

III – ÁP DỤNG THỰC TIỄN :

Trong bài viết này, chúng tôi trình bày một phương pháp khai thác thông tin nhằm dự đoán những khách hàng có khả năng ngừng sử dụng dịch vụ của một công ty viễn thông trong thời gian tới, được gọi là dự đoán rời bỏ trong ngành viễn thông.

Chợ viễn thông đang ngày càng hoàn thiện và đóng vai trò quan trọng trong việc quản lý mối quan hệ với khách hàng Các công ty cần chú trọng vào việc chăm sóc những khách hàng có giá trị, nhằm giữ chân họ và nâng cao giá trị của họ đối với doanh nghiệp.

Bằng cách khai thác thông tin từ dữ liệu khách hàng trước đây, chúng ta có thể xác định những khách hàng có nguy cơ rời bỏ Công ty cao Điều này sẽ giúp phát triển các chiến lược marketing hiệu quả hơn, nhằm giữ chân khách hàng và ngăn chặn sự ra đi của họ.

Sự tiến bộ trong dự đoán được trình bày trong phần này dựa vào các mô hình khai thác dữ liệu hiện có, nhằm phân loại hiệu quả các kết quả.

- Khách hàng có thể khuấy động

- Khách hàng không thể khuấy động

Vấn Đề Thương Nghiệp

Dự đoán khuấy động trong ngành viễn thông tập trung vào những biến đổi mạnh mẽ trong chiến lược tiếp thị, khi các công ty ngày càng chú trọng thu hút khách hàng mới hơn là giữ chân khách hàng cũ Sự cạnh tranh gay gắt trong các chiến dịch marketing và công nghệ đã khiến nhiều khách hàng chuyển sang các công ty khác Khai thác dữ liệu đóng vai trò quan trọng trong việc hiểu rõ nhu cầu và hành vi của khách hàng, từ đó giúp các công ty điều chỉnh chiến lược tiếp thị một cách hiệu quả hơn.

Sắp xếp khuấy động yêu cầu hiểu biết về hành vi khách hàng, giúp nhận diện những người có khả năng rời bỏ công ty và những khách hàng tiềm năng Để ngăn chặn khách hàng ra đi, cần tìm ra những mẫu hành động khuấy động Hành vi khách hàng có thể được phân tích thông qua các truy vấn, phân tích OLAP, hoặc khai thác dữ liệu để tìm ra dấu hiệu khuấy động trong hành vi của họ Việc xây dựng một mẫu khai thác thông tin chính xác là cần thiết để xác định các mẫu hành vi và thiết lập yêu cầu nhằm ngăn chặn sự khuấy động từ bên ngoài.

Bước đầu tiên trong việc giải quyết các vấn đề thương mại là sắp xếp và đưa ra một chuỗi các câu hỏi cần thiết thông qua việc khai thác dữ liệu.

Dự đoán khuấy động là những tiến bộ quan trọng trong việc duy trì tiến độ của công ty, không phải là hoạt động đơn lẻ Những tiến bộ này nhằm giữ chân khách hàng và tập trung vào ba vấn đề chính.

- Nhận ra những khách hàng có khả năng rời đi

- Xác định khách hàng chúng ta muốn giữ lại trong số họ

- Phát triển chính sách duy trì (Chiến dịch) ngăn chặn khách hàng rời đi

Dự đoán khuấy động đóng vai trò quan trọng trong việc phát triển chính sách của Công ty, nhưng cũng đặt ra thách thức lớn trong việc dự đoán hành động của khách hàng trong tương lai.

Mẫu dự đoán khuấy động không chỉ giúp Công ty duy trì khách hàng hiệu quả mà còn thể hiện cách sử dụng khuấy động trong chiến lược phát triển kinh doanh.

Chúng ta sẽ khám phá cách dự đoán khuấy động có thể giúp nhận diện những khách hàng có nguy cơ ngừng hợp tác và khuyến khích họ tiếp tục sử dụng các sản phẩm đa dạng của Công ty Suy luận chính là một số khách hàng rời bỏ Công ty thường thể hiện những hành vi nhất định trong quá khứ hoặc có những đặc điểm hành vi đặc trưng.

Để nhận diện hành động của nhân viên trước khi họ rời khỏi công ty, chúng ta cần tiến hành các dự án khuấy động một cách cẩn thận Thay vì cố gắng dự đoán tất cả các thay đổi cùng một lúc, hãy loại bỏ sự xác định của khuấy động và tập trung vào việc phân loại các loại khuấy động có khả năng dự đoán cao nhất, đồng thời tạo nhiều thiện cảm với người sử dụng.

Sự xác định và phân loại khuấy động trong phần tới là những bước quan trọng nhất trong những tiến bộ khuấy động c) Dự Đoán Khuấy Động

Khuấy động là hành động của khách hàng trước khi rời khỏi Công ty, có thể do nhiều nguyên nhân khác nhau Những lý do này có thể xuất phát từ chính Công ty hoặc từ phía khách hàng Việc phân loại các lý do khuấy động này giúp hiểu rõ hơn về động cơ rời bỏ của khách hàng.

Khuấy động tự nguyện xảy ra khi khách hàng đề xuất hành động, và được phân loại thành nhiều lý do khác nhau Những lý do này bao gồm việc hết hợp đồng, thay đổi mở đầu, chất lượng phục vụ, khuấy động cạnh tranh, thay đổi kỹ nghệ, thay đổi thường xuyên và những khuấy động không phải tự nguyện.

Khuấy động cưỡng ép (không tự nguyện)

Khuấy động cưỡng ép là hành động được khởi xướng bởi Công ty, ví dụ như trong tháng này, Công ty quyết định tạm ngừng dịch vụ với khách hàng do những lý do như vấn đề tín dụng của khách hàng Việc này liên quan đến việc lọc từng loại khuấy động để đảm bảo sự phù hợp và hiệu quả trong quản lý dịch vụ.

Việc phân loại các loại khuấy động theo lý do khuấy động là rất quan trọng đối với Công ty Điều này giúp tăng cường hiệu quả của các dự án khuấy động trong khuôn khổ mẫu ứng dụng triển khai, khi chúng ta có thể tập trung vào từng loại khuấy động phù hợp với từng mẫu cụ thể.

Tiến trình sàng lọc các loại khuấy động bao gồm các bước sau: xác nhận loại khuấy động tác động giữa các công ty hoặc trong các quốc gia khác nhau, quyết định loại khuấy động dự đoán, và xác định quy trình cần thiết để phân biệt từng loại khuấy động trong "mớ hỗn độn" khuấy động.

Một phương pháp hiệu quả trong việc phân loại khách hàng có nguy cơ rời bỏ là xây dựng mô hình dự đoán những khách hàng sắp ra đi và tìm kiếm lý do bằng cách áp dụng các mô hình khác tốt hơn.

Dữ Liệu Cần Sử Dụng

Để thực hiện khai phá dữ liệu hiệu quả, việc xác định loại dữ liệu khách hàng cần thiết là rất quan trọng Chúng ta cần kết nối dữ liệu này với các vấn đề kinh doanh cụ thể và tìm hiểu nguồn thông tin mà chúng ta có thể thu thập Những loại dữ liệu này thường được sử dụng để xác định mô hình dự đoán trong ngành viễn thông.

- Đặc điểm chỉ ra sự khuấy động

- Dữ liệu thông tin cá nhân khách hàng

- Dữ liệu nhân khẩu học

- Dữ liệu hợp đồng, các cuộc gọi góp ý kiến

- Dữ liệu về hóa đơn thu và chi

- Danh bạ khách hàng nhận đƣợc từ dữ liệu chuyên hóa

- Dữ liệu bổ xung khác a) Đặc Điểm Chỉ Ra Sự Khuấy Động

Trong mô hình dự đoán, việc xác định nhiều mục tiêu khả thi là rất quan trọng Các dự án liên quan đến những khuấy động có thể được triển khai để tối ưu hóa hiệu quả Dữ liệu khách hàng đóng vai trò quan trọng trong việc xây dựng những dự án này.

Dữ liệu khách hàng có thể đƣợc sắp xếp thành 2 nhóm:

Nhóm 1: Những thông tin thuộc về cá nhân khách hàng

Nhóm 2: Những thông tin liên quan đến hợp đồng

Dữ liệu nhân khẩu học:

Dữ liệu nhân khẩu khách hàng, bao gồm tuổi, giới tính và công việc, thu thập từ quá trình đăng ký dịch vụ điện thoại, rất hữu ích để xác định và mô tả các nhóm khách hàng đặc trưng Tuy nhiên, thông tin này có thể thay đổi theo thời gian, dẫn đến việc các chương trình thu thập dữ liệu của công ty vẫn gặp phải tình trạng thông tin lỗi thời và thiếu chính xác.

Dữ liệu hợp đồng bao gồm các thông tin quan trọng như ngày hiệu lực, giá trị hợp đồng, phương thức thanh toán, quy định dịch vụ và loại máy mà khách hàng mong muốn Những thông tin này thường được thu thập trước khi ký kết hợp đồng và có thể thay đổi theo chính sách của Công ty hoặc theo yêu cầu của khách hàng Sự thay đổi trong thông tin hợp đồng có thể là yếu tố quan trọng trong việc dự đoán sự biến động Do vị trí của bộ phận marketing và chính sách khác nhau giữa các Công ty, không có câu trả lời duy nhất nào cho câu hỏi về yếu tố quan trọng nhất để dự đoán sự biến động.

Dữ liệu về cuộc gọi của khách hàng phản ánh hành vi khác nhau và giúp dự đoán thời gian khuấy động trong tương lai, từ đó đạt được thỏa thuận Thông tin liên quan đến cuộc gọi, như số điện thoại, thời gian và giá cước, có thể là yếu tố quyết định cho việc khuấy động và xác định các cột chuyển hóa Chúng ta sử dụng dữ liệu này tính từ 6 tháng trước để phân tích hiệu quả.

Dữ liệu về các cuộc gọi này cung cấp 3 nhóm thông tin :

Tần số của cuộc gọi:

Tần số cuộc gọi cung cấp thông tin về những số máy mà khách hàng thường gọi nhất

Chất lượng cuộc gọi cung cấp thông tin quan trọng về tình trạng cuộc gọi của khách hàng, bao gồm số lượng cuộc gọi thành công, cuộc gọi bị ngắt giữa chừng và cuộc gọi hỏng Những dữ liệu này giúp đánh giá hiệu quả và độ tin cậy của dịch vụ liên lạc.

Chất lƣợng cuộc gọi là nhân tố có ý nghĩa đối với việc dự đoán khuấy động

Mẫu cuộc gọi thể hiện hành vi của khách hàng trong một khoảng thời gian nhất định hoặc đối với một loại cuộc gọi cụ thể Số lượng cuộc gọi trong khoảng thời gian cố định, chẳng hạn như cuộc gọi vào ban đêm hoặc cuộc gọi quốc tế, là một yếu tố quan trọng Dữ liệu thu chi cũng cần được xem xét để phân tích hiệu quả.

Dữ liệu thu chi, bao gồm số lượng hóa đơn thu thập từ khách hàng và số lượng hóa đơn thanh toán, đóng vai trò quan trọng trong việc kích thích hoạt động không tự nguyện Thông tin này cần được xem xét kỹ lưỡng để tối ưu hóa chiến lược kinh doanh Bên cạnh đó, việc xây dựng danh bạ chuyên hóa từ dữ liệu cuộc gọi cũng là yếu tố cần thiết để chỉ thị hiệu quả trong quản lý khách hàng.

Danh bạ tra cứu chuyên hóa, hay còn gọi là chìa khóa chỉ thị, cung cấp những kinh nghiệm thương mại thực tiễn đã được kiểm nghiệm và ứng dụng vào dữ liệu Đồng thời, danh sách khách hàng có thể được làm phong phú với dữ liệu chuyên hóa từ thông tin chi tiết, giúp nâng cao hiệu quả kinh doanh.

Sau đây là những ví dụ về danh bạ chuyên hóa trong đời sống có thể quan trọng với những mẫu dự đoán khuấy động

Danh bạ chất lượng cuộc gọi

- Xu hướng thay đổi danh bạ

- Danh dách khách hàng phân theo lĩnh vực họat động

- Danh bạ điện thoại di động f) Dữ Liệu Bổ Sung

Các nhân tố quan trọng mà bộ phận dự đoán khuấy động trong công ty xem xét dựa trên kinh nghiệm hoạt động bao gồm dữ liệu thu thập về khách hàng và thông tin cạnh tranh Dữ liệu khách hàng cho thấy mức độ hài lòng của họ với dịch vụ, trong khi thông tin cạnh tranh giúp nhận diện hoạt động của các công ty khác có thể ảnh hưởng đến khách hàng của chúng ta Cấu trúc dữ liệu cho dự đoán khuấy động là yếu tố then chốt trong việc phân tích và cải thiện dịch vụ.

1 Churn Whether customer left the company after the time lag

5 Agent Office where phone was initially activated

6 Handset_type Handset model type

7 New_handset Current handset is new or not

10 Status Customer’s current status of contract (active,temporarily not used and so forth)

11 Grade Customer grade(gold, silver, bronze and so forth)

12 Contract_exp When the contract expires

13 Tenure How many month passed since activation

14 Suspen_before Number of times phone was suspended in recent 6 month

15 Discon_before Number of times phone was disconnected in recent 6 month

16 Handset_ch Number of times handset model changed

17 Pay_method_ch Number of times payment method changed

18 Priceplan_ch Number of times priceplan changed

19 Svc_call Number of services related to the call such as call forward, call waiting

20 Svc_info Number of services related to the information such as SMS

21 Svc_data Number of services related to the data

22 Svc_discount Number of services related to discount plan

23 Svc_free Number of free services

24 Svc_nonfree Number of non free services

Nguồn dữ Liệu, Chuẩn Bị Dữ Liệu

Để xây dựng mẫu dữ liệu, chúng ta cần thu thập dữ liệu ban đầu và chuyển đổi nó thành định dạng chuẩn phù hợp Bước này được gọi là phát triển và chuẩn bị nguồn tài liệu, là bước thứ ba trong quy trình khai phá dữ liệu Một trong những yếu tố quan trọng trong bước này là xác định cửa sổ thời gian.

Khi sắp xếp tài liệu trong dữ liệu xác định, chọn khung thời gian thích hợp để thu thập dữ liệu là điểm tất yếu

Chúng ta nên xác định 3 vấn đề để quyết định khoảng thời gian nào cần thu thập dữ liệu về khách hàng và sử dụng thông tin khuấy động

- Cửa sổ dữ liệu: Khung thời gian cho mục nhập dùng để tiến hành mô hình

Cửa sổ dự đoán là khung thời gian quan trọng dùng để dự đoán và sắp xếp tài liệu, bao gồm các mục dự đoán chính cần nhập, được gọi là mục lục dự đoán Mẫu dự đoán khuấy động giúp xác định ai sẽ ngừng công tác với công ty và thời điểm cụ thể đó Cửa sổ dự đoán đóng vai trò như một yếu tố "khi nào" trong quá trình xây dựng mẫu, cho phép xem xét khả năng khách hàng sẽ rời bỏ công ty trong khoảng thời gian nhất định.

- Thời gian cộng tác: Khoảng cách về thời gian giữa cửa sổ dữ liệu và cửa sổ dự đoán

Trong trường hợp này, chúng ta dùng cửa sổ dự đoán 6 tháng, 2 tháng đầu để thử nghiệm, 1 tháng dự đoán, nhƣ trong hình 15

Trong thời gian xây dựng mẫu, dữ liệu từ tháng 2 đến tháng 7 cho các khách hàng còn hợp tác đến cuối tháng 7 là rất quan trọng để xác định khả năng rời bỏ vào tháng 10 Mẫu này cũng có thể áp dụng cho các khách hàng tiếp tục sử dụng trong tháng hiện tại và dự đoán khả năng rời đi vào tháng 11.

Vào đầu tháng 9, nhân viên phòng tiếp thị sẽ tiến hành lọc danh sách những nhân viên có khả năng rời khỏi Công ty vào tháng 11 Thời gian hai tháng sẽ là đủ để thực hiện các biện pháp cần thiết.

“Khởi động” và thực hiện những chiến dịch makerting

Nên tránh sử dụng những khung thời gian bị ảnh hưởng bởi yếu tố bên ngoài, vì chúng có thể làm sai lệch mẫu dự đoán Thay vào đó, việc áp dụng các khung thời gian mới nhất sẽ giúp cải thiện độ chính xác và cung cấp một cửa sổ dữ liệu tốt hơn cho việc phân tích.

Khoảng thời gian này là cơ hội để xây dựng và thực hiện chiến lược marketing hiệu quả Thời gian kéo dài không chỉ cho phép nhân viên marketing thiết kế chiến lược cuối cùng mà còn giúp mẫu dự đoán có thể dự báo tương lai xa hơn Để có một mẫu dự đoán chính xác, cần ít nhất 1 tháng thời gian đứt quãng Đồng thời, nhân viên tiếp thị cũng cần ít nhất 1 tháng để chuẩn bị chiến lược dựa trên kết quả từ mô hình dự đoán.

Khoảng thời gian đứt quãng có thể được xác định bằng cách so sánh kết quả dự đoán trong 1 tháng, 2 tháng, 3 tháng và N tháng Nếu mẫu dự đoán 2 tháng tương tự như mẫu dự đoán 1 tháng, mẫu 2 tháng thường được ưu tiên để thuận lợi cho nhân viên tiếp thị Tuy nhiên, cần xác nhận xem việc tiếp thị có tiến bộ hay không trước khi quyết định khoảng thời gian bỏ trống.

Một sai lầm phổ biến trong mẫu dự đoán khuấy động là thực hiện dự đoán mà không có khoảng thời gian đứt quãng Chẳng hạn, khi dự đoán cho tháng 12, nếu sử dụng toàn bộ dữ liệu của tháng 11, mô hình trở nên lý thuyết và không thực tế, bởi dữ liệu tháng 11 chỉ phản ánh một phần dữ liệu đầu tháng 12 Trong bối cảnh thương mại, mô hình này trở nên vô dụng, vì nhóm tiếp thị cần ít nhất vài tuần để thiết kế một chiến lược hiệu quả.

Cửa sổ dự đoán cho phép lựa chọn các tháng tùy ý, với quyết định dựa trên yêu cầu công việc tiếp thị và kết quả dự đoán Bên cạnh đó, việc tạo ra dữ liệu là cần thiết để thử nghiệm và kiểm tra hiệu quả.

Mô hình dự đoán cần tạo ra dữ liệu thử nghiệm và kiểm tra

Mẫu thử nghiệm được sử dụng để xây dựng mô hình đầu tiên, sau đó dữ liệu kiểm tra sẽ giúp kiểm tra và cải tiến mô hình Mẫu kiểm tra bao gồm dữ liệu thông thường nhưng với thông tin khách hàng khác nhau, nhằm phát hiện các vấn đề phát sinh trong quá trình phát triển mô hình Đặc biệt, tần số chính xác của số người dự định rời đi cần phải được đảm bảo khớp nhau trong từng phần dữ liệu.

Tỉ lệ khuấy động trong dữ liệu thường rất thấp và thường bị xem nhẹ như một "mục tiêu phụ" Nếu không chú ý đến yếu tố này trong quá trình phát triển mô hình, chúng ta có thể đối mặt với những kết quả không mong đợi.

Trong một công ty, tỉ lệ khuấy động trong dữ liệu chỉ đạt 1%, và mẫu dự đoán cũng thường phản ánh tỉ lệ này Kỹ nghệ khai phá đã phát triển một mô hình đạt 99% độ chính xác bằng cách đánh giá tỉ lệ những người không bị khuấy động Tuy nhiên, kết quả này không cung cấp thông tin hữu ích nào.

Nói chung, chúng ta nên chú ý nếu kết quả đầu ra mà chúng ta dự đoán ít hơn 10% so với toàn cột dữ liệu

Giải pháp cho vấn đề này là sử dụng khối lượng sai trong tính toán, bao gồm việc áp dụng các cột dữ liệu lớn hơn số cột trong dữ liệu ban đầu Việc sử dụng dữ liệu trong các trường hợp được sắp xếp tự động là tối ưu, trong khi cột kết quả cũng được hình thành ngẫu nhiên dựa trên các cột dữ liệu ban đầu.

Để hạn chế số trường trong dữ liệu, cần thiết phải đặt ra giới hạn cho việc lựa chọn Một giải pháp để tăng cường dữ liệu là sao chép kết quả từ các cửa sổ khác, tuy nhiên, việc này chỉ nên thực hiện khi có lý do chính đáng hoặc khi các công nghệ khác không thể áp dụng.

Việc sử dụng sai khối lượng dữ liệu có thể dẫn đến việc áp dụng những dữ liệu chính xác và không chính xác trong các trường hợp khác nhau Do đó, sử dụng dữ liệu ngẫu nhiên trở thành một công cụ hiệu quả để khắc phục lỗi này, thay vì chỉ đơn thuần bổ sung dữ liệu ban đầu.

Phương Pháp Kỹ Thuật Để Khai Phá Dữ Liệu

Chọn phương pháp khai phá phù hợp là bước 5 trong phương pháp khai phá của chúng ta

Trong phần này, chúng ta sẽ xem xét các phương pháp để đạt được kết quả chính xác trong dự đoán khuấy động, cùng với những yếu tố cần lưu ý khi áp dụng các phương pháp này Đầu tiên, việc lựa chọn phương pháp khai thác dữ liệu là rất quan trọng để đảm bảo tính hiệu quả và độ tin cậy của dự đoán.

Có nhiều phương pháp khai phá dữ liệu có thể áp dụng để dự đoán khuấy động Một số phương pháp phổ biến bao gồm: Phương pháp Cây thư mục, Phương pháp RBF (Radial Basis Function), Phương pháp Mạng Nơron, và Phương pháp Hồi quy - logic và đa thức.

 Phương pháp Cây thư mục:

Phương pháp cây thư mục tổ chức dữ liệu đầu ra thành cấu trúc hình cây, giúp nhân viên tiếp thị dễ dàng nhận diện và quản lý dữ liệu hiệu quả hơn Mô hình cây cho phép sử dụng dữ liệu ban đầu chưa được chuẩn hóa hoặc đã được tiêu chuẩn hóa, đồng thời thiết lập các quy tắc cho dữ liệu nhập vào trước khi đưa ra kết quả mong muốn.

Mạng RBF là một mạng lưới được thiết kế để quản lý chuỗi thuật toán, hoạt động bằng cách bổ sung nhiều hàm đơn giản Khi mở rộng mô hình, các hàm này cần được điều chỉnh để phù hợp với kết quả dự đoán.

Quá trình làm việc với dữ liệu bao gồm việc nhập và chuyển đổi chúng thành các kết quả khác nhau Trong suốt giai đoạn chuyển đổi, mạng nơron liên tục được cải tiến và điều chỉnh khi phát hiện lỗi và ghi lại những sai sót này Tuy nhiên, mạng nơron không đưa ra quy định cụ thể nào để tạo ra kết quả dễ hiểu, và điều này đòi hỏi dữ liệu đầu vào phải chính xác.

Phân tích hồi quy là phương pháp truyền thống trong phân tích dữ liệu, giúp mô tả mối quan hệ giữa dữ liệu đầu vào và kết quả dự đoán Phương pháp này thường áp dụng cho dữ liệu số, và việc sử dụng mạng Nơron cùng với mô hình RBF là bước chuẩn bị quan trọng và cần thiết trong quá trình này.

Có nhiều phương pháp hồi quy khác nhau, mỗi phương pháp có chức năng riêng để phù hợp với dữ liệu Một trong những phương pháp phổ biến là hồi quy đa thức, là sự mở rộng của hồi quy tuyến tính, sử dụng hàm phức tạp hơn để phù hợp với dữ liệu Hồi quy logic thì trái ngược với các phương pháp hồi quy khác, vì đầu ra của nó là giá trị nhị phân 1 hoặc 0 Để đạt được kết quả hồi quy logic từ mạng nơron, cần sử dụng toàn bộ lớp dữ liệu không ẩn, và bằng cách di chuyển các lớp dữ liệu ẩn, mạng nơron sẽ duy trì sự phù hợp giữa đầu vào và đầu ra.

Khi phát triển mô hình dự đoán, có thể sử dụng thông tin toàn bộ khách hàng hoặc chỉ một số mảng đặc biệt Các mô hình này có thể được kết nối theo cấu trúc tuần tự hoặc song song để đạt hiệu quả tối ưu Một số phương pháp bao gồm: phân chia khách hàng thành các mảng để xây dựng mô hình dự đoán dựa trên dữ liệu đầu vào; điều hành và sử dụng các kết quả khác nhau như phiếu để đạt được sản phẩm với độ chính xác cao; và phát triển các mô hình khác nhau dựa trên các phần khác nhau của cột dữ liệu.

Chúng tôi đã trình bày mô hình dự đoán dựa trên phương pháp và dữ liệu sử dụng Nhiều phương pháp khai phá đã được thử nghiệm để so sánh kết quả của từng mẫu và lựa chọn mẫu tốt nhất Mẫu tiến triển hơn được thể hiện trong hình 18 dưới đây.

Chọn dữ liệu thông thường có rất nhiều ứng cử viên cho mô hình Để xác định những dữ liệu liên quan và thích đáng nhất, chúng ta có thể sử dụng thông tin thống kê Thông tin này cung cấp một danh sách phân bổ của các dữ liệu so với tổng thể, được gọi là dữ liệu thống kê.

Nên sử dụng lỗi sai trong việc chọn lựa khối lượng dữ liệu khi không có nhiều người khuấy động trong các cột dữ liệu Ví dụ, với cột dữ liệu khách hàng có tỷ lệ khuấy động 2%, giải thuật cây có thể phân loại chính xác tất cả những người khuấy động, dẫn đến tỷ lệ sai sót 2% trong toàn bộ mô hình cây, mà lỗi này không được coi trọng trong thuật toán.

IM cho dữ liệu có chức năng xác định khối lượng không chính xác, ngăn chặn thuật toán kiên trì phân loại tất cả những người khuấy động Chúng ta gán 10 là lỗi về khối lượng, dẫn đến tỉ lệ sai sót 20% thay vì 2% Giá trị của lỗi về khối lượng có thể được điều chỉnh sau khi xem kết quả cây.

Chiều sâu tối đa của cây thư mục có thể giới hạn ở mức 10, tuy nhiên, nếu cây có quá nhiều nút lá, vấn đề có thể phát sinh Mặc dù cây có thể có tỷ lệ lỗi thấp hơn, nhưng với chiều sâu lớn hơn, hiệu suất của cây thường không tốt khi xử lý các cột dữ liệu khác, dẫn đến kết quả khó hiểu.

Xén bớt là một bước quan trọng trong việc cải thiện cây, giúp nâng cao khả năng trình bày và độ dễ hiểu Khi thực hiện xén bớt, chúng ta nên kết hợp việc cắt tỉa lá và nhánh để tạo ra một hình dáng cây đẹp hơn và dễ nhìn hơn.

IM sử dụng thuật toán tự động để cắt xén cây theo kích thước nút lá, chiều sâu cây và độ chính xác, cho phép người dùng thực hiện cắt xén tùy chỉnh Cây được cắt xén tự động bởi IM, đồng thời một số phép cắt xén nhân tạo được thực hiện để loại bỏ những cành không có ý nghĩa trong bối cảnh tiếp thị.

Trình bày kết quả

Trong bài viết trước, chúng ta đã khám phá các bước để đạt được kết quả khai phá thông qua các phương pháp dự đoán khác nhau Bước 6 trong quy trình khai phá là giải thích các kết quả thu được và tìm cách ứng dụng chúng vào thực tiễn kinh doanh Khi tiếp xúc với những kết quả này lần đầu, câu hỏi quan trọng nhất là "tất cả những điều này có ý nghĩa gì?"

Trong phần này, chúng ta sẽ khám phá cách hiểu và giải thích các kết quả thông qua những phương pháp khác nhau Đặc biệt, việc giải thích kết quả dựa vào viễn cảnh kinh doanh sẽ giúp chúng ta có cái nhìn sâu sắc hơn về ý nghĩa và tầm quan trọng của những dữ liệu thu thập được.

Mô hình được phát triển dựa trên cây thư mục RBF và mạng nơron dự đoán, sau đó được so sánh thông qua các biểu đồ lợi ích Ở phần tiếp theo, chúng ta sẽ phân tích chi tiết từ góc độ kinh doanh.

Cây thƣ mục đƣa ra một mô hình cây với một ma trận lẫn lộn để xem kết quả của mô hình nhƣ chỉ ra trong hình 19

Trong tổng số 4020 khách hàng, có 1050 khách hàng bị phân loại sai, chiếm tỷ lệ 26,12% Cụ thể, trong số 1053 khách hàng được xác định là người khuấy động, chỉ có 523 người được phân loại chính xác, trong khi 530 người còn lại bị phân loại sai Đối với 2967 khách hàng không phải là người khuấy động, 2447 người được phân loại chính xác, còn 520 người thì không.

Chúng ta có thể lặp lại quy trình này nhiều lần để cải thiện tỷ lệ lỗi của mô hình cây, thông qua việc sử dụng các lựa chọn khác nhau trong mô hình dữ liệu khuấy động Điều này giúp xây dựng cây hiệu quả hơn và kiểm tra cây bằng cách sử dụng cột dữ liệu kiểm tra.

Tỉ lệ lỗi chấp nhận được có thể được xác định bằng cách kiểm tra mô hình với các cột dữ liệu khác nhau để đánh giá tính ổn định của tỉ lệ lỗi, đồng thời xem xét các yếu tố trong môi trường kinh doanh như tỉ lệ khuấy động và hiệu quả của chương trình tiếp thị.

Trong trường hợp này, tỷ lệ khuấy động thực tế thấp hơn 5%, với độ chính xác mô hình đạt 74% Đặc biệt, độ chính xác trong nhóm người khuấy động lên tới 50%, trong đó có 1053 kết quả trái ngược với 523 Khi sử dụng cột dữ liệu kiểm tra, tỷ lệ lỗi tăng dần, nhưng nhịp độ lỗi lại khá ổn định qua nhiều cột dữ liệu kiểm tra.

Kết quả đồ thị của mô hình cây đƣợc biểu diễn ở hình 20

Cây phát triển từ đỉnh và mở rộng cành cho đến khi đạt được phân loại tối ưu Trong quá trình này, lá ở tầng dưới sẽ thay đổi khi cây tiến tới mức độ tối ưu và phân chia khách hàng theo những quy tắc nhất định.

Thông qua quá trình trực quan hóa của Cây thư mục, chúng ta có thể phân loại các nút lá và xác định các biến dữ liệu quan trọng để xây dựng quy tắc Cụ thể, OUTSPHERE được xem là biến dữ liệu quan trọng nhất, tiếp theo là HANDSET và CUSTOMER RATE, vì các biến này xuất hiện nhiều ở phần đầu cây Ví dụ, một nút lá được sắp xếp cho những khách hàng không khuấy động bao gồm: những người sử dụng từ 3 số điện thoại trở lên (OUTSPHERE), sử dụng kiểu máy điện thoại cũ (HANDSET), không có hợp đồng hoặc hợp đồng chưa hết hạn (CONTRACT-DUR), và có tỷ lệ gọi thành công cao (CALL QUALITY).

Nút lá này có 81,3% thuần khiết

Nút HANDSET trên cây điện thoại không có cành và thường không được khuấy động bởi người dùng Những khách hàng sở hữu từ ba số điện thoại gọi đi trở lên, đặc biệt là loại mới (HANDSET), có khả năng cao sẽ tiếp tục hợp tác với công ty Tỷ lệ này đạt đến 91,6% mức độ thuần khiết.

Cây thư mục cho người khuấy động được minh họa trong hình 22 cho thấy rằng, theo các quy luật trình bày, nhóm khách hàng này có ba quy định đầu tiên tương tự như nhóm khách hàng không khuấy động, ngoại trừ một số điểm khác biệt Cụ thể, nhóm khách hàng khuấy động có mức độ tương tác thấp hoặc trung bình và không có nhiều cuộc gọi ngoài khung thời gian đã quy định, bao gồm cả ban đêm, ngày lễ, và đặc biệt là không tính các cuộc gọi trong khung thời gian trong ngày.

Họ rất trẻ (từ 20 - 20), hay rất già (70 - 80) o Tỉ lệ gọi thành công Độ thuần khiết của nút này là 36,7%

Cần tiến hành điều tra sâu hơn để xác định nguyên nhân tại sao số lượng cuộc gọi không tính cước lại liên quan đến sự quan tâm của khách hàng, đặc biệt là giới trẻ Công ty đã cung cấp các cuộc gọi miễn phí trong một khoảng thời gian nhất định, điều này mang lại lợi ích kinh tế trong cạnh tranh Tuy nhiên, nhiều khách hàng trẻ tuổi không tận dụng được ưu đãi này do không biết về kế hoạch miễn cước và cũng không sử dụng nhiều cuộc gọi miễn phí Hơn nữa, việc sử dụng điện thoại cũ khiến chất lượng cuộc gọi kém, dẫn đến việc họ có thể ngừng hợp tác với Công ty dù hợp đồng vẫn còn hiệu lực.

Một quy định chống khuấy động có thể được tìm thấy ở phần trên của cây, cho thấy rằng những khách hàng này đang sử dụng mẫu điện thoại cũ và hợp đồng của họ đã hết hạn Điều này chỉ ra rằng độ khuấy động của khách hàng là 48%, phản ánh phần trăm thuần khiết của tình trạng này.

Chúng ta tập trung nghiên cứu phần bên phải của cây, vì phần bên trái chứa nhiều dữ liệu biến chỉ liên quan đến người sử dụng Nếu khách hàng không sử dụng điện thoại thường xuyên, khả năng họ rời bỏ công ty sẽ cao.

Việc xác định nhiều biến có ưu thế từ góc độ tiếp thị giúp chỉ ra độ viễn cảnh của khách hàng, từ đó cho phép chúng ta tận dụng dữ liệu của những biến này trong mô hình dự đoán hiệu quả hơn.

Trường hợp này, loại máy và loại mô hình đảm nhiệm quá trình

Bằng cách sử dụng RBF chúng ta chia kết quả thành từng miền hay trong

Triển Khai Mô Hình

Bước 7, bước cuối cùng trong phương pháp khai phá dữ liệu, là bước quan trọng nhất, vì nó giúp ứng dụng kết quả khai phá vào thương mại Khai phá dữ liệu được coi là công cụ phân tích quan trọng, mang lại cái nhìn toàn diện về công việc kinh doanh, nhưng việc áp dụng vào thực tế lại gặp nhiều khó khăn Trong phần này, chúng ta sẽ giải thích cách các phương pháp khai phá được áp dụng vào kinh doanh và trở thành chìa khóa thành công trong quản lý Ứng dụng mô hình khai phá dữ liệu có thể thực hiện theo nhiều cách khác nhau.

Bằng cách sử dụng IM và phương pháp tính điểm khai phá của DB2, chúng ta có thể áp dụng mô hình dự đoán khuấy động cho từng khách hàng dựa trên số điểm khuấy động của họ.

Khi đã xác định được điểm số khuấy động từ danh sách khách hàng, chúng ta có thể áp dụng thông tin này vào nhiều lĩnh vực khác nhau Tại trung tâm liên lạc, các môi giới có thể sử dụng điểm số khuấy động để nắm rõ hơn về khách hàng trong quá trình tương tác Trong lĩnh vực tiếp thị, nhân viên có thể sử dụng các công cụ như OLAP hoặc bảng biểu để phân tích sâu hơn, từ đó hiểu rõ lý do khách hàng rời bỏ công ty và xây dựng các chiến dịch chuyển đổi nhằm ngăn chặn tình trạng này Đặc biệt, nếu một khách hàng có khả năng khuấy động cao nhưng giá trị thấp, chúng ta có thể tính toán hóa đơn trước để giảm thiểu thời gian giao tiếp khi họ đến văn phòng.

Chúng ta có thể sử dụng danh sách có khả năng khuấy động và bảng giá trị khách hàng để ngăn ngừa sự khuấy động từ phía khách hàng Chiến dịch duy trì này bao gồm nhiều bước, trong đó kết quả khai phá đóng vai trò quan trọng ở mỗi giai đoạn.

Quá trình thực hiện mô hình diễn ra song song với việc giảm chức năng của nó theo thời gian Khi triển khai chiến dịch duy trì dựa trên mô hình dự đoán, một số khách hàng có thể quyết định ở lại thay vì rời bỏ Chiến dịch này có thể tác động đến hành vi của khách hàng, trong khi môi trường tiếp thị cũng có thể thay đổi do các chiến dịch của chính phủ Do đó, mô hình dự đoán cần được cập nhật để phù hợp với những thay đổi này Cuối cùng, dự đoán khuấy động không chỉ là một sự kiện đơn lẻ mà là một quá trình liên tục trong doanh nghiệp.

Khi nâng cấp mô hình, cần chú ý đến một số điểm quan trọng Đầu tiên, hãy xem xét khoảng thời gian đứt quãng, vì nhân viên tiếp thị cần thời gian đủ để thiết kế các chiến dịch, do đó, khoảng thời gian này nên được kéo dài Thứ hai, cần bổ sung các dữ liệu biến mới, chẳng hạn như thông tin về dịch vụ mới và các chiến dịch liên quan Cuối cùng, hãy đánh giá các phương pháp đã sử dụng để ước lượng khả năng thực hiện của từng mô hình.

Xem lại những giả thiết cơ bản đã đề ra những định nghĩa khuấy động, lọc, điều chỉnh và chiến dịch của Công ty

KẾT LUẬN VÀ ĐỀ NGHỊ

Tiêu đề	Khám Phá Tri Thức Trong Dữ Liệu Không Gian Dựa Trên Mật Độ
Tác giả	Phan Thị Hồng Thu
Người hướng dẫn	TS. Hoàng Xuân Huấn
Trường học	Đại Học Quốc Gia Hà Nội
Chuyên ngành	Công Nghệ
Thể loại	Luận Văn Thạc Sỹ
Năm xuất bản	2004
Thành phố	Hà Nội

Định dạng
Số trang	85
Dung lượng	2 MB

Tài liệu tham khảo	Loại	Chi tiết
3. IBM : Mining Your Own Business in HealthCare, September 2001 4. IBM : Mining your own business in Retail, August 2001	Khác
8. E. M. Knonr, Outlier and data mining : Finding exceptions in data, octral Thesis, University of British Colombia, 2002	Khác
11. M. May & A Savinov, An intergated for spatral data mining and intertrative visual analisys, Third international conference on data mining, 2002, 51-61	Khác
12. M. M. Breunig, H. P. Kriegel,…, LOF : Indentifying density based local outliers, Proc of Int Conf on Management of data, Dallas, 2000	Khác
13. M. Ankerbt (et all), OPTICS : ordering to indentify the clustering structure,, Proc ACM SIGMOD’99 Int Conf on Management of data, Philadenphia, 1999	Khác
14. P. Adrians, D. Zantriage, Dta mining, Addison Wesley Lanyman, 1996 15. Tian Zhang (et all), BIRCH : An efficient data clustering method forvery large database, SIGMOD’96, Canada, 1996, 103-115	Khác
16. U. M. Fayyad,…, Advanced in knowledge discovery in database, MIT Press, 1996-----------------------	Khác

(LUẬN VĂN THẠC SĨ) Khám phá tri thức trong dữ liệu không gian dựa trên mật độ

I- ĐIỀU GÌ DẪN ĐẾN KỸ THUẬT DATA MINING

Nhu cầu khai thác dữ liệu

Sự cho phép của kỹ thuật và xu thế thời đại

II- DATA MINING LÀ GÌ

Định nghĩa về Data Mining

Các bước trong Data Mining

Phân loại các hệ thống Data Mining

Ứng dụng của Data Mining

KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU

KHÁI QUÁT VỀ CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 17

Phương pháp dựa vào mật độ (Density-based Method)

Phương pháp dựa vào chia lưới (Grid-based methods)

PHƯƠNG PHÁP PHÂN CỤM DỰA VÀO MẬT ĐỘ DBSCAN 1-Cáckháiniệm 29

Bổ đề chứng minh tính đúng đắn của DBSCAN

Thuật toán DBSCAN

CÁC ĐỊNH NGHĨA VỀ PHẦN TỬ NGOẠI LAI ĐỊA PHƯƠNG 1-K-distance của một đối tượng

Lân cận bán kính k-distance của đối tượng p

TÍNH CHẤT CỦA PHẦN TỬ NGOẠI LAI

Cận dưới và cận trên của LOF

Giới hạn LOF của một đối đượng lân cận đến được trải trên nhiều cụm

ẢNH HƯỞNG CỦA THAM SỐ MinPts

Sự Phụ Thuộc của LOF Theo Minpts

Xác Định Miền Của Minpts

CÁC PHẠM TRÙ ỨNG DỤNG DATA MINING

Khai phá dữ liệu khám phá (Discovery data mining)

Khai phá dữ liệu đoán trước

PHƯƠNG PHÁP TỔNG QUÁT XÂY DỰNG ỨNG DỤNG

Định nghĩa vấn đề doanh nghiệp hướng tới

Định nghĩa mô hình dữ liệu

Chuẩn bị dữ liệu nguồn

Đánh giá chất lƣợng dữ liệu

Lựa chọn kỹ thuật Mining

Thể hiện, làm rõ và đánh gía kết quả

Sử dụng những kết quả đó

Vấn Đề Thương Nghiệp

Dữ Liệu Cần Sử Dụng

Nguồn dữ Liệu, Chuẩn Bị Dữ Liệu

Phương Pháp Kỹ Thuật Để Khai Phá Dữ Liệu

Trình bày kết quả

Triển Khai Mô Hình

Đánh giá chất lƣợng dữ liệu

Vấn Đề Thƣơng Nghiệp