Luận văn thạc sĩ VNU UET khám phá tri thức trong dữ liệu không gian dựa trên mật độ

I- ĐIỀU GÌ DẪN ĐẾN KỸ THUẬT DATA MINING

Sự cho phép của kỹ thuật và xu thế thời đại

1- Nhu cầu khai thác dữ liệu

Xã hội hiện nay có thể nói đó là một xã hội thông tin, mỗi doanh nghiệp hay một tổ chức, lƣợng thông tin ngày càng chồng chất và đƣợc tích luỹ với một tốc độ bùng nổ Mỗi chuyên viên hay cán bộ quản lý luôn bị ngập đầu

II- DATA MINING LÀ GÌ

Định nghĩa về Data Mining

Data Mining đƣợc hiểu nhƣ một tiến trình nhằm mục tiêu dự đoán những kiến thức mới có khả năng hữu dụng và tối thiểu là có thể hiểu đƣợc trong dữ liệu

Có rất nhiều định nghĩa về Data Mining, tạm thời ta có thể hiểu Data mining nhƣ một công nghệ tri thức giúp ta khai thác những thông tin hữu ích từ những kho lưu trữ dữ liệu hiện có trong hệ thống công nghệ thông tin Dưới đây là một trong số các định nghĩa ấy:

“Data Mining là sự thăm dò và trích ra những thông tin hữu ích không biêt trước tiềm ẩn trong cơ sở dữ liệu lớn”

“Data Mining là quá trình khai thác, khám phá những tri thức hữu ích, tiềm ẩn và mang tính dự báo từ một tập dữ liệu lớn”

Data Mining đƣợc phát triển khoảng 10 năm trở lại đây, nhƣng nguồn gốc của nó đƣợc thấy trong trí tuệ nhân tạo đã hình thành từ những năm 1950 Trong thời kỳ này việc phát triển kỹ thuật nhận dạng đã đặt nền tảng cơ sở lý luận cho sự ra đời và phát triển của Data Mining Nhiều kỹ thuật của Data Mining thực chất đã đƣợc sử dụng trong suốt thời kỳ đó nhƣng chủ yếu là ứng dụng với các bài toán khoa học

Với sự ra đời của Cơ sở dữ liệu quan hệ và khả năng lưu trữ một kho dữ liệu rất lớn đã là một cầu nối giữa những kỹ thuật đang ứng dụng cho những bài toán khoa học có thể áp dụng ra môi trường thương mại

Và một điều khẳng định chắc chắn rằng: Data mining không thể tách rời giữa kỹ thuật, công nghệ và giải pháp Công nghệ thông tin.

Các bước trong Data Mining

Có thể phân chia kỹ thuật Data mining thành các bước chính sau đây: a) Tích hợp dữ liệu (data integration): Quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi làm sạch và tiền xử lý (data cleaning & preprocessing) b) Trích chọn dữ liệu (data selection): Trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), v.v c) Khai thác dữ liệu (data mining): tìm kiếm, khám phá tri thức từ dữ liệu đã được trích chọn trong bước hai Bước này – tuỳ theo từng bài toán – sẽ áp dụng những kỹ thuật khác nhau mà chúng ta sẽ làm quen trong các phần sau d) Đánh và giá diễn biến tri thức (knowledge evaluation & presentation): Đánh giá và biểu diễn tri thức vừa khai thác đƣợc trong bước ba sang dạng gần gũi với người dùng hơn để sẵn sàng cho việc sử dụng.

Phân loại các hệ thống Data Mining

Data Mining là một công nghệ tri thức liên quan đến nhiều lĩnh vực nghiên cứu khác nhau nhƣ cơ sở dữ liệu, học máy (machine learning), giải thuật trực quan hoá v.v

Chúng ta có thể phân loại các hệ thống Data Mining dựa trên các tiêu chí khác nhau sau đây : a) Phân loại dựa trên dữ liệu: cơ sở dữ liệu quan hệ (relation database), kho dữ liệu (data warehouse), cơ sở dữ liệu giao dịch (transactional database), cơ sở dữ liệu không gian (spatial database), cơ sở dữ liệu đa phương tiện (multimedia database), cơ sở dữ liệu text & www, v.v b) Phân loại dựa trên loại tri thức khám phá: tóm tắt và mô tả

(summarization & description) luật kết hợp (association rules), phân lớp (classification), phân cụm (clustering), khai phá chuỗi (sequential mining), v.v c) Phân loại dựa trên kỹ thuật được áp dụng: hướng cơ sở dữ liệu

(database-oriented), phân tích trực tuyến (Online analytical Processing – OLAP), machine learning (cây – quyết định, mạng nơ ron nhân tạo , k- mean, giải thuật di truyền, máy vectơ hỗ trợ - SVM, tập thô, tập mờ, v.v.), trực quan hoá (visualization), v.v d) Phân loại dựa trên lĩnh vực đƣợc áp dụng: kinh doanh bán lẻ

(retial), truyền thông (telecommunication), tin-sinh (bio-informaties) y học (medical treatment), tài chính và thị trường chứng khoán (finance & stock market), Web mining, v.v.

Ứng dụng của Data Mining

Dễ thấy rằng Data Mining có thể ứng dụng vào mọi lĩnh vực, miễn là các dữ liệu được lưu trữ số hoá và người sử dụng nó thực sự cần tới những thông tin tiềm ẩn trong dữ liệu

Có thể liệt kê ra đây những ứng dụng điển hình của Data Mining hiện nay trên thế giới:

 Phân tích dữ liệu và hỗ trợ ra quyết định

 Dự báo trong điều trị y học

CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU

KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU

Phân cụm (clusteing) là quá trình nhóm một tập các đối tƣợng vật lí hoặc trừu tƣợng thành các nhóm hay các lớp đối tƣợng giống nhau Một cụm (cluster) là một tập đối tƣợng dữ liệu trong đó các đối tƣợng trong cùng một cluster thì giống nhau và khác các đối tƣợng thuộc cluster khác

Không giống như phân loại, ta thường biết trước tính chất hay đặc điểm của các đối tƣợng trong cùng một lớp và dựa vào đó để ấn định một đối tƣợng vào lớp mới Thay vào đó, trong quá trình phân cụm ta không biết trước được tính chất của các lớp mà phải dựa vào các mối quan hệ giữa các đối tƣợng để tìm ra sự giống nhau giữa các đối tƣợng theo một độ đo nào đó đặc trƣng cho mỗi lớp

Việc phân cụm không độc lập mà thường được kết hợp với các phương pháp khác Ta có thể thấy thông qua ví dụ về phân cụm để tìm hiểu các vì sao và độ sáng của nó

2- Các ứng dụng của phân cụm dữ liệu

Phân cụm là một lĩnh vực hoạt động quan trọng của con người Khi còn bé, đứa trẻ học cách phân biệt giữa các đồ vật, giữa động vật và thực vật bằng cách liên tục thay đổi nhận thức trong quan hệ phân cụm Việc phân cụm đã đƣợc ứng dụng trong nhiều lĩnh vực: nhân dạng mẫu, phân tích dữ liệu, xử lý ảnh và nghiên cứu thị trường Bằng các phân cụm, chúng ta có thể nhận ra được các miền dày đặc hoặc thƣa thớt Do vậy, phát hiện ra đƣợc sự phân bố các mẫu và có thể thấy được sự tương quan giữa các thuộc tính của dữ liệu

Trong kinh doanh, phân cụm có thể giúp các nhà nghiên cứu thị trường phát hiện ra các nhóm khách hàng khác nhau và đặc tính của từng nhóm khách hàng này dựa vào dữ liệu mua bán

Trong sinh học, phân cụm đƣợc sử dụng để phân loại thực vật, động vật, phân loại gen và có đƣợc những thông tin chi tiết hơn về cấu trúc dân cƣ

Phân cụm cũng có thể giúp nhận dạng các vùng đất giống nhau dựa vào cơ sở dữ liệu quan sát đƣợc trên trái đất, phân chia các nhóm nhà trong thành phố theo các tiêu chí, kiểu dáng, giá trị, vị trí địa lý

Phân cụm cũng giúp cho việc phân chia tài liệu trên Web dựa vào nội dung thông tin

Ngoài ra, phân cụm có thể dùng như một bước tiền xử lý cho các thuật toán nhƣ phát hiện ra các đặc tính và phân loại dữ liệu Sau đó thuật toán sẽ thực hiện trên cụm dữ liệu đã đƣợc phát hiện

3- Các vấn đề nghiên cứu trong phân cụm

Có rất nhiều vấn đề nghiên cứu về phân cụm trong các lĩnh vực khác nhƣ: khai phá dữ liệu, thống kê, học máy, công nghệ cơ sở dữ liệu không gian, sinh học và nghiên cứu thị trường Do kích thước cơ sở dữ liệu tăng lên rất nhanh, gần đây phân cụm dữ liệu đã thực sự trở thành chủ đề đáng quan tâm trong nghiên cứu khai phá dữ liệu

Trong lĩnh vực thống kê, phân cụm đã đƣợc nghiên cứu phát triển trong nhiều năm, tập trung chủ yếu vào phân cụm dựa vào khoảng cách Các công cụ phân cụm dựa trên một số phương pháp như k-mean, k-medoids đã được xây dựng trong nhiều hệ thống phần mềm thống kê nhƣ S-plus, SPSS và SAS Trong học máy, phân cụm là một ví dụ về học không thầy Không giống nhƣ sự phân loại, phân cụm và học không thầy không dựa vào các lớp được định nghĩa trước và ví dụ huấn luyện Nó là một hình thức học bằng quan sát, đúng hơn học bằng ví dụ Trong quan niệm về phân cụm, một nhóm các đối tƣợng tạo thành một lớp nếu nó đƣợc mô tả bằng một khái niệm

Khái niệm phân cụm bao gồm 2 phần:

 Phát hiện ra lớp thích hợp

 Đƣa ra sự mô tả cho mỗi lớp, giống trong phân loại

Nguyên tắc phân chia là cố gắng phân các đối tƣợng có sự giống nhau lớn nhất và sự khác biệt nhỏ nhất vào một cụm

Trong khai phá dữ liệu, các vấn đề nghiên cứu trong phân cụm chủ yếu tập trung vào tìm kiếm các phương pháp phân cụm có hiệu quả và tin cậy trong cơ sở dữ liệu lớn Các yêu cầu đặt ra là: tính hiệu quả (effectivenness) và tính tuyến tính (scalability) của thuật toán, khả năng làm việc của phương pháp với các cụm có hình dạng phức tạp, kiểu dữ liệu trong không gian đa chiều, phương pháp phân cụm dữ liệu dạng số và dữ liệu dạng khác trong cơ sở dữ liệu

4- Các yêu cầu đối với bài toán phân cụm

Phân cụm là một lĩnh vực nghiên cứu với nhiều thách thức, và ở đó tiềm năng ứng dụng của nó đáp ứng rất nhiều yêu cầu đặc biệt của con người Các yêu cầu cụ thể là:

 Có thể làm việc với cơ sở dữ liệu lớn: Nhiều thuật toán phân cụm làm việc tốt với dữ liệu nhỏ chứa ít hơn 200 đối tƣợng dữ liệu Tuy nhiên, một cơ sở dữ liệu lớn có thể chứa hàng triệu đối tƣợng Phân cụm trên một mẫu của một tập dữ liệu lớn có thể dẫn đến một kết quả kém chính xác Do đó đòi hỏi phải có một thuật toán riêng áp dụng cho cơ sở dữ liệu lớn

 Có thể làm việc với nhiều loại dữ liệu khác nhau: Nhiều thuật toán đã đƣợc thiết kế để phân cụm dữ liệu dạng số Tuy nhiên, trong thực tế có thể yêu cầu phân cụm với nhiều kiểu dữ liệu khác nhƣ: nhị phân, chuỗi, liệt kê, hoặc tổng hợp của các kiểu dữ liệu này

 Phát hiện các cụm dữ liệu có hình dạng bất kỳ: Các thuật toán phân cụm phần lớn xác định các cụm dựa vào khoảng đo lường Euclidean hoặc Mahatran Thuật toán dựa vào phép đo khoảng cách có xu hướng tìm các cụm có hình cầu và có mật độ và kích thước giống nhau Tuy nhiên, một cụm có thể có hình dạng bất kỳ Do đó, phát triển thuật toán có khả năng tìm ra các cụm với hình dạng bất kỳ là rất quan trọng

KHÁI QUÁT VỀ CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 17

Phương pháp dựa vào mật độ (Density-based Method)

Hầu hết các phương pháp phân hoạch để phân cụm đối tượng đều dựa vào khoảng cách giữa các đối tượng Các phương pháp đó chỉ có thể tìm được ra các cụm có dạng hình cầu và tỏ ra khó khăn khi các lớp có hình dạng bất kỳ Các phương pháp phân cụm khác đều được sử dụng dựa trên khái niệm mật độ

Chúng thường đánh giá các cụm như một vùng dày đặc các đối tượng trong không gian dữ liệu - các cụm này đƣợc phân biệt bằng các vùng có mật độ đối tượng thấp (nhiễu) Có thể dùng phương pháp dựa trên mật độ để lọc nhiễu (outlier) và tìm ra các cụm có hình dạng bất kỳ

Thuật toán dựa trên mật độ đầu tiên là Density - Based Clustering of Applications with Noise (DBSCAN) (Ester et al 1996) Thuật toán này đánh giá mật độ xung quanh lân cận của một đối tƣợng là đủ lớn nếu số điểm dữ liệu trong đường tròn bán kính  của đối tượng đó lớn hơn MinPts - số các đối tượng Vì các cụm đƣợc phát hiện thuộc tham số  và MinPts nên hiệu quả của thuật toán phụ thuộc vào khả năng chọn tập tham số tốt của người dùng Để giải quyết vấn đề này, phương pháp Ordering Points to Identify the Clustering Structer (OPTICS) đã đƣợc đề xuất (Ankerst et al 1999) Không chỉ phân cụm toàn bộ tập dữ liệu, OPTICS còn sắp xếp các cụm theo thứ tự tăng dần để phân tích các cụm một cách tự động và liên tiếp Để xử lý các truy vấn lân cận một cách hiệu quả, hai phương pháp đều dựa trên cấu trúc chỉ số không gian nhƣ cây R* (Beckmann et al 1990) hoặc cây

X (Berchtold et al 1996) Tuy nhiên, tính hiệu quả cũng bị giảm theo chiều tăng của số chiều Nghĩa là, DBSCAN và OPTICS không hiệu quả cho dữ liệu có số chiều lớn Để thao tác với dữ liệu có số chiều lớn một cách có hiệu quả, thuật toán Density Clustering (DEN-CLUE) (Hinneburg và Keim 1998) dựa trên mô hình hóa mật độ toàn thể của điểm dữ liệu theo phép giải tích - là tổng hợp của các hàm tác động của các điểm dữ liệu quanh nó Để tính tổng các hàm tác động một cách hiệu quả, người ta sử dụng cấu trúc lưới Các thử nghiệm của Hinneburg và Keim đã cho thấy DENCLUE thực hiện tốt hơn DBSCAN gấp 45 lần Tuy nhiên, cần phải lựa chọn cẩn thận các tham số phân cụm cho DENCLUE - các tham số này có thể tác động đáng kể đến chất lƣợng phân cụm.

Phương pháp dựa vào chia lưới (Grid-based methods)

Các phương pháp dựa trên mật độ như DBSCAN và OPTICS là các phương pháp dựa trên chỉ số - không hiệu quả khi số chiều lớn Để tăng hiệu quả, chiến lược phân cụm dựa trên lưới - sử dụng cấu trúc dữ liệu lưới ra đời

Phương pháp chia lưới được thống kê để quản lý những điểm trong không gian dữ liệu đa chiều Nó sẽ chia toàn bộ không gian dữ liệu thành những khối d chiều với kích thước của các cạnh nói chung là đều nhau Tuy nhiên, việc chọn kích thước của các cạnh cho khối cũng là một bài toán cần được giải quyết trước khi sử dụng phương pháp chia lưới

Với d trục trong không gian dữ liệu d chiều tạo nên một mảng d chiều và gọi là từ điển dữ liệu Mỗi phần tử gọi là một cell và có thể chứa một hoặc nhiều điểm dữ liệu, hoặc có thể không chứa điểm dữ liệu nào Những cell không chứa điểm dữ liệu nào gọi là cell rỗng và không đƣợc xét đến Mỗi điểm dữ liệu phải nằm trong một cell và tất cả các điểm trong một cell được lưu trữ cùng nhau một cách riêng biệt với các cell khác Nói cách khác, các điểm dữ liệu trong cùng một cell được lưu trữ trong cùng một khối và độc lập với các điểm thuộc cell khác

Một số ví dụ điển hình cho chiến lược dựa trên lưới: Statistical Information in Grid (STING) (Wang et al 1997) - thám hiểm các thông tin thống kê được lưu trong lưới ; WaveCluster (Sheikholeslami et al 1998) - phân cụm các đối tƣợng sử dụng phép biến đổi sóng ; và CLIQUE 9 (Agrawal et al 1998) - trình bày một số chiến lược dựa vào mật độ và lưới để chia lớp không gian dữ liệu có số chiều lớn

Kết luận : Vậy, phân cụm trong cơ sở dữ liệu là quá trình nhằm tìm ra các đối tượng có đặc tính tương tự nhau vào một cụm Nguyên tắc chung phân cụm là dựa vào một hàm đích xác định khoảng cách của một đối tƣợng với đối tƣợng tâm của cụm và hàm này là cơ sở để quyết định một đối tƣợng có thuộc vào cụm hay không Để xác định quan hệ giữa các đối tƣợng, ta cần xây dựng một đại lƣợng xác định độ khác nhau giữa các đối tƣợng Việc xác định độ khác nhau giữa các đối tƣợng phụ thuộc vào kiểu thuộc tính biểu diễn đối tƣợng, với một kiểu dữ liệu ta định nghĩa đƣợc một công thức tính độ khác nhau riêng

Có rất nhiều phương pháp phân cụm khác nhau Mỗi phương pháp có rất nhiều thuật toán tương ứng Đối với từng bài toán cụ thể, ta có thể áp dụng các thuật toán khác nhau Tuy nhiên, hai phương pháp đầu tỏ ra kém hiệu quả trong trường hợp cơ sở dữ liệu có chứa nhiễu Ở đây ta sẽ trình bày phương pháp để hạn chế điều đã nói ở trên Đó là phương pháp phân cụm dựa vào mật độ DBSCAN.

PHƯƠNG PHÁP PHÂN CỤM DỰA VÀO MẬT ĐỘ DBSCAN 1-Cáckháiniệm 29

Bổ đề chứng minh tính đúng đắn của DBSCAN

Bổ đề 1: Giả sử p là một điểm nằm trong D và | N Eps (p) |  MinPts Tập

O = {o | o đến được mật độ từ p theo hai tham số Eps và MinPts} là một cụm theo Eps và MinPts

Dễ thấy, cụm C theo Eps và MinPts là xác định duy nhất với điểm nhân của nó Tuy nhiên, mỗi điểm trong C lại đến đƣợc mật độ từ bất kỳ điểm nhân nào trong C và do đó C chứa các điểm đến đƣợc mật độ từ điểm nhân bất kỳ của

Bổ đề 2: Giả sử C là một cụm theo tham số Eps, MinPts và p là điểm bất kỳ thuộc C với |N Eps (p) |  MinPts thì C trùng với tập O

O = {o| o  D và o đến đƣợc mật độ từ p theo tham số Eps và MinPts }.

Thuật toán DBSCAN

Phần này chúng ta tìm hiểu thuật toán DBSCAN (Density Based Spatial Clustering for Applications with Noise), đƣợc thiết kế để phát hiện ra các cụm và nhiễu trong cơ sở dữ liệu không gian dựa theo hai khái niệm cụm và nhiễu đã được định nghĩa trong phần trước Trước hết, chúng ta phải biết các tham biến Eps, MinPts thích hợp và ít nhất một điểm ứng với cụm Sau đó, chúng ta điều chỉnh tất cả các điểm đến đƣợc mật độ từ điểm ban đầu thông qua các tham biến

Việc tìm các tham biến thích hợp quả là không dễ dàng

Do đó DBSCAN sử dụng các biến toàn cục Eps và MinPts

Thuật toán Để tìm ra một cụm, DBSCAN bắt đầu với một điểm p tùy ý và điều chỉnh tất cả các điểm đến đƣợc từ p theo Eps và MinPts Nếu p là điểm nhân, theo bổ đề 2, ta xây dựng đƣợc một cụm chứa p Nếu p là điểm biên - không có điểm nào có thể đến đƣợc mật độ từ p, bỏ qua p và xét điểm tiếp theo Để tìm xây dựng đƣợc một cụm chứa p (tìm tất cả các điểm đến đƣợc mật độ từ p), ta thực hiện nhƣ sau:

- Tìm tập các điểm lân cận của p: N Eps (p), tập các điểm đó đƣợc đƣa vào tập nhân

- Nếu N Eps (p)< MinPts thì không có điểm nào đến đƣợc mật độ từ p, q là điểm nhiễu

- Ngƣợc lại, p là điểm nhân thì tập các điểm trong lân cận của p đƣợc phân vào một cụm Sau đó, ta thực hiện lần lượt các bước sau từ điểm đầu tiên đến điểm cuối cùng trong tập nhân tìm đƣợc :

+ Tìm lân cận của điểm đang thực hiện, giả sử đó là điểm p1, ta tìm tập các điểm lân cận của p1, NEps(p 1 )

+ Nếu NEps(p 1 ) < MinPts, ta chuyển sang điểm tiếp theo trong tập nhân

+ Ngƣợc lại, p1 là điểm nhân, nếu tập các điểm lân cận của p1 chƣa đƣợc phân cụm thì tập các lân cận của p 1 đƣợc phân vào cụm và đƣa vào tập nhân, đồng thời xóa điểm đang xét (ở đây là p1) và chuyển sang điểm tiếp theo trong tập nhân

Cuối cùng, ta tìm đƣợc tất cả các điểm thuộc cùng một cụm với p hay tìm đƣợc tất cả các điểm đến đƣợc mật độ từ p, nghĩa là ta đã xây dựng đƣợc một cụm

Có thể tóm tắt thuật toán thành các bước cơ bản sau như sau:

- Bước 1: Khởi tạo các điểm dữ liệu vào, xác định tham số Eps, MinPts, tập đối tƣợng

- Bước 2: Xác định tập nhân Xét một điểm bất kỳ trong tập hợp các điểm ban đầu Đầu tiên, ta gán tất cả các điểm thỏa mãn nằm trong lân cận của điểm đó với bán kính Eps thuộc tập nhân Với mỗi điểm nằm trong tập nhân, xét xem điểm đó có thỏa mãn điều kiện nhân (q là điểm nhân thì NEps(p 1 )  MinPts) Nếu thỏa mãn, điểm đó gọi là điểm nhân

- Bước 3: Với các điểm nhân tìm được, xác định miền liên thông các điểm nhân Đây là phần quan trọng của thuật toán Phần xác định miền liên thông các điểm nhân chính là ta đi tìm tất cả các điểm đến đƣợc mật độ từ điểm đang xét hay mở rộng cụm Với mỗi điểm nhân, ta đi tìm các lân cận của điểm đó Nếu điểm đó thỏa mãn điều kiện nhân thì nó thuộc vào một cụm và các điểm lân cận đƣợc đƣa vào tập nhân Nếu không, ta bỏ qua điểm đó và xét đến điểm nhân tiếp theo trong tập nhân đã tìm đƣợc Cuối cùng, ta thu đƣợc một tập các điểm miền liên thông các điểm nhân Các điểm đó là một cụm

- Bước 4: Xác định các cụm, mỗi cụm là miền liên thông các điểm nhân

TÌM KIẾM PHẦN TỬ NGOẠI LAI

DỰA VÀO SỐ LOF Đa số những nghiên cứu về Data Mining đều tập trung vào việc tìm kiếm những cụm dữ liệu Tuy nhiên trong nhiều trường hợp việc tìm ra những phần tử cá biệt hay những sự kiện hiếm có so với đa số lại hữu dụng hơn là tìm kiếm những trường hợp thông thường Chẳng hạn tìm kiếm những hành vi phá hoại trong thương mại điện tử, tìm những sai sót trong công tác kiểm toán, tìm kiếm nhân tài …

Những nghiên cứu trước đây trong việc tìm kiếm những phần tử ngoại lai thường dựa vào kết quả thống kê Những nghiên cứu này có thể chia ra làm hai nhánh:

Lấy sự phân phối làm cơ bản: Trong đó một sự phân phối chuẩn đƣợc dùng để làm khít dữ liệu một cách tốt nhất Phần tử ngoại lai đƣợc xác đinh dựa trên khả năng phân phối Theo hướng này trong nhiều ứng dụng KDD sự phân phối diễn ra không biết đƣợc hơn nữa việc làm khớp dữ liệu với những sự phân phối cơ bản thì tốn kém và có thể tạo ra những kết quả không mỹ mãn

Lấy độ sâu làm cơ bản: Mỗi đối tƣợng dữ liệu đƣợc ánh xạ với một điểm trong không gian k-chiều và đƣợc gán cho một độ sâu Phần tử ngoại lai giống nhƣ những đối tƣợng dữ liệu có độ sâu nhỏ hơn Những thuật toán trong thực tế cài đặt theo hướng này kém hiệu quả khi k>=4

Những nghiên cứu gần đây trong các bài toán phân cụm, phần tử ngoại lai đƣợc định nghĩa dựa theo khoảng cách giữa nó với cụm Những định nghĩa này tổng quát hơn những định nghĩa trước đó và sự tính toán bớt phức tạp hơn

Những thuật toán phân cụm có mục tiêu chính là tìm ra những cụm, chúng được phát triển để đánh giá cụm mà không hướng về việc phát hiện những phần tử ngoại lai Vì vậy các phần tử ngoại lai trong các thuật toán này chỉ đƣợc xem xét ở mức nhị phân – có nghĩa là một đối tƣợng dữ liệu có phải ngoại lai hay không

Theo quan điểm các thuật toán phân cụm phần tử ngoại lai là những đối tượng không nằm trong các cụm dữ liệu – thông thường được gọi là nhiễu Tập hợp những điểm nhiễu đƣợc tạo ra trong các thuật toán phân cụm phụ thuộc cao vào thuật toán và các tham số giới hạn cụm và quan trọng nhất là những phần tử ngoại lai này đƣợc coi một cách chung chung nên các phần tử ngoại lai tìm đƣợc trong những thuật toán này hầu nhƣ là không có ý nghĩa

Các tác giả Markus M.Breunig, Hans-Peter Kriegel, Raymond T.Ng, Jorg Sander (2000) đã xác định phần tử ngoại lai trong những tập hợp dữ liệu phức tạp nhƣ mức độ một đối tƣợng cô lập so với khu vực xung quanh nó thông qua khái niệm hệ số ngoại vi cục bộ LOF và chỉ ra rằng những đối tƣợng nằm sâu trong cụm, giá trị LOF xấp xỉ bằng 1 và phân tích mức độ phụ thuộc của LOF vào MinPts từ đó chỉ ra nguyên tắc thực tiễn để chọn khoảng giá trị MinPts và phương pháp xếp loại các đối tượng dựa trên LOF tối đa của chúng từ đó có thể phát hiện ra phần tử ngoại lai

Trong các phần sau đây chúng ta tìm hiểu kỹ hơn về hệ số LOF

CÁC ĐỊNH NGHĨA VỀ PHẦN TỬ NGOẠI LAI ĐỊA PHƯƠNG 1-K-distance của một đối tượng

Lân cận bán kính k-distance của đối tượng p

Với số k-distance cho trước, khu vực lân cận bán kính k-distance của đối tƣợng p thì chứa mọi phần tử mà khoảng cách tới p nhỏ hơn hay bằng k-distance nghĩa là:

N k-distance(p) (p) = { q  D \ {p} | d(p,q)  k-distance(p) } Những đối tƣợng q ở biểu thức trên đƣợc gọi là k phần tử gần nhất của p Để đơn giản chúng ta quy ƣớc dùng ký kiệu:

Chú ý rằng trong định nghĩa 1, k-distance(p) sử dụng tốt với mọi số nguyên k bất kỳ Mặc dù đối tượng o không phải độc nhất cho trường hợp này, và số phần tử Nk(p) > k

3- Khoảng cách có thể đến một đối tƣợng Đinh nghĩa 3: (reachability distance of an object p w.r.t object o) Cho k là một số tự nhiên Khoảng cách có thể đến đƣợc Reach-dist của đối tƣợng p với đối tƣợng o đƣợc định nghiã:

Về mặt ý nghĩa: nếu đối tƣợng p ở quá xa p thì khoảng cách có thể đến chinh là khoảng cách thông thường Ngược lại nếu p đủ gần o thì đó chính là k- distance(o) Định nghĩa này nhằm khắc phục sự giao động thống kê khoảng cách d(p,o) tới tất cả những đối tƣợng p đủ gần o có thể đƣợc giảm bớt đi Sức mạnh của hiệu ứng làm tròn này có thể điều khiển bằng hệ số k, k càng lớn thì những khoảng cách có thể đến được của những đối tương trong khu vực lân cận càng giống nhau

4- Mật độ địa phương có thể đến được

Trong thuật toán phân cụm dựa theo mật độ thường có 2 tham số liên quan tới khái niệm về mật độ:

(1) Hệ số MinPts đặc trƣng số lƣợng tối thiểu của phần tử trong cụm

(2) Hệ số Eps xác đinh ngƣỡng Hai tham số này quyết đinh mật độ ngƣỡng để thuật toán phân cụm làm việc và tìm ra những đối tƣợng liên thông mật độ Để tìm ra phần tử ngoại lai dựa theo mật độ cũng cần phải so sánh mật độ của nhiều tổ hợp phần tử khác nhau Có nghĩa là chúng ta phải quyết định mật độ của tập các phần tử một cách chủ động Vì thế chúng ta coi MinPts là một hệ số duy nhất và sử dụng giá trị:

Reach-dist MinPts (p,o) cho phần tử o  N MinPts (p) nhƣ là tiêu chuẩn đánh giá của ngƣỡng để quyết định mật độ khu vực lân cận của một đối tƣợng p Định nghĩa 4: (local reachability density of an object p)

Mật độ địa phương có thể đến được của đối tượng p được đinh nghĩa:

Trực quan, mật độ có thể đến được địa phương ( Mật độ lân cận ) của đối tƣợng p là nghịch đảo của khoảng cách có thể đến đƣợc trung bình dựa trên MinPts lân cận gần nhất của p Chú ý rằng mật độ lân cận có thể là  nếu toàn bộ khoảng cách đến đƣợc trong tổng bằng 0 Điều này có thể xảy ra khi đối tƣợng p tồn tại tối thiểu MinPts đối tƣợng khác p nhƣng lại trùng toạ độ không gian với p

5- Hệ số ngoại lai của một đối tƣợng ( LOF ) Định nghĩa 5: ( Local Outlier Factor of an object p)

Hệ số ngoại lai của một đối tƣợng p đƣợc đinh nghĩa:

Hệ số ngoại lai của một đối tƣợng p mô tả mức độ mà chúng ta coi là ngoại lai Đó là trung bình của tỷ lệ của mật độ lân cận đến đƣợc của p và của MinPts phần tử lân cận gần nhất Dễ thấy rằng mật độ lân cận đến đƣợc của p càng nhỏ và mật độ lân cận đến đƣợc của MinPts phần tử lân cận gần nhất của p càng cao thì giá trị LOF càng cao Trong mục sau, tính chất hình thức của LOF sẽ đƣợc chính xác hoá.

TÍNH CHẤT CỦA PHẦN TỬ NGOẠI LAI

Cận dưới và cận trên của LOF

Bổ đề 1 chỉ ra rằng những đối tƣợng nằm sâu trong cụm thì số LOF khá gần 1 nên không thể gán chúng là phần tử ngọi lai Bây giờ chúng ta xét tới những đối tƣợng nằm ở rìa và ở ngoài cụm Định nghĩa 6:

Với bất kỳ đối tƣợng p, ta gọi direct Min (p) là khoảng cách đến đƣợc tối thiểu giữa p và một MinPts lân cận gần nhất của p Nghĩa là: direct Min (p) = Min { reach-dist(p,q) | q  N MinPtr (p)}

Tương tự: direct Max (p) = Max { reach-dist(p,q) | q  N MinPtr (p)} Định nghĩa 7:

Khoảng cách đến đƣợc tối thiểu của p và MinPts lân cận gần nhất của q đƣợc gọi là Indirect MinPts (p) xác định bởi:

Indirect MinPts (p) = Min{reach-dist(p,o) | q  MinPts(p), o  MinPts (p)}

Indirect MaxPts (p) = Max{reach-dist(p,o) | q  MinPts(p), o  MinPts (p)} Để đơn giản ta ký hiệu Indirect MinPts (p), Indirect MinPts (p) lần lƣợt là I Min ,

Cho p là một đối tƣợng trong Cơ sở dữ liệu D và 1  MinPts  |D| Khi đó ta luôn có:

) ( max indirect p p direct p p LOF indirect p direct

) ( max p p LOF indirect p direct Min

 o  N MinPts (p): reach-dist(p,o) ≥ direct Min (p) Theo định nghĩa direct

 q  N MinPts (o): reach-dist(o,q)  indirect Max (p) Theo định nghĩa Indirect Max suy ra:

LOF  Max : chứng minh tương tự

Dễ dàng nhận ra rằng giới hạn đƣa ra trong Định lý 1 chặt chẽ hơn so với giới hạn chỉ ra trong Bổ đề 1, điều này có nghĩa rằng số  trong bổ đề 1 có thể đƣa gần sát về 0 hơn Ở mục 3 sau đây, chúng ta sẽ phân tích chi tiết hơn độ chặt chẽ của giới hạn đƣợc đƣa ra trong định lý 1

3) Sự giao động của LOF

Gọi LOF Max , LOF Min lần lượt là giới hạn trên và dưới của LOF

Trong phần này do chỉ xét với một đối tƣợng p nên để đơn giản và không sợ gây nhầm lẫn, ta sử dụng kiểu viết tắt bằng cách bỏ thông số p, chẳng hạn direct là viết tắt của direct(p)

Gọi Pct là tỷ lệ giao động của khoảng cách có thể đến đƣợc của đối tƣợng p

Giả sử pct/100 = x% tương ứng ta có: direct Max = direct * ( 1+x% ), direct Min = direct * ( 1-x% ) indirect Max = indirect*(1+x%), indirect Min = indirect*( 1-x% ) Xét tỷ số:

. max pct indirect indirect pct direct direct pct indirect indirect pct direct direct direct indirect indirect direct

 pct x pct pct pct pct pct Đẳng thức trên chứng tỏ tỷ số ( LOFmax-LOFmin)/(direct/indirect) chỉ phụ thuộc vào tham số pct và tỷ số sẽ   khi pct  100 Điều này cũng chỉ ra rằng nếu pct không đổi thì độ lệch LOFmax-LOF min phụ thuộc vào tỷ lệ direct/indirect Đồ thị trên hình 7 biểu diễn đường cong của tỷ lệ ( LOFmax-LOF min )/(direct/indirect) theo pct

Giới hạn LOF của một đối đượng lân cận đến được trải trên nhiều cụm

Coi p là một đối tƣợng nằm trong Cơ sở dữ liệu D,

1  MinPts  |D| và C1, C2, … Cn là các phân cụm của NMinPts(p)

N MinPts (p) = C1  C2  …  Cn với Ci  Cj =  và Ci    1i,jn, i  j Đặt I = |C|/|N MinPts (p)| gọi là phần trăm của đối tƣợng trong lân cận của p mà những đối tƣợng này cũng ở trong Ci

Các khái niệm direct i Min (p), direct i Max (p), indirect i Min (p), indirect i Max (p) được định nghĩa tương tự như direct Min (p), directMax (p), indirect Min (p), indirect Max (p) nhƣng hạn chế trong tập Ci

Việc chứng minh định lý này cũng tương tự như định lý 1

ẢNH HƯỞNG CỦA THAM SỐ MinPts

Sự Phụ Thuộc của LOF Theo Minpts

Với các kết quả phân tích thành lập ở phần trước, có một số câu hỏi được đặt ra Giá trị của LOF thay đổi nhƣ thế nào khi điều chỉnh giá trị Minpts Khi cho một dãy tăng của các giá trị Minpts, thì có tương ứng là một chuỗi các thay đổi một cách đơn điệu của LOF hay không? Điều đó có nghĩa rằng LOF có tăng, giảm đơn điệu không ?

Không may mắn rằng thực tế LOF không tăng cũng không giảm một cách đơn điệu Hình 8 trình bày một trường hợp đơn giản khi tất cả các đối tượng đƣợc phân bố theo phân bố Gauss Với mỗi giá trị Minpts giữa 2 và 50 thì giá trị Min, giá trị Max, giá trị trung bình cũng nhƣ là độ lệch tiêu chuẩn của LOF đƣợc biểu diễn

Xem xét cận trên của LOF ở ví dụ trong hình trên Đầu tiên, khi giá trị Minpts=2, giá trị này quy về sử dụng khoảng cách thực của các đối tƣợng trong định nghĩa 5 Bằng cách tăng dần giá trị Minpts, các dao động thực hiện về các khoảng cách đạt đƣợc và giá trị LOF cũng giảm đi Do đó, có sự giảm xuống giá trị cực đại của LOF Tuy nhiên nếu giá trị Minpts tiếp tục tăng lên giá trị Max của LOF dao động lên xuống và cuối cùng nó ổn định tới một giá trị

Nếu giá trị của LOF thay đổi không đơn điệu ngay cả trong phân bố thuần tuý như phân bố Gauss thì giá trị LOF sẽ thay đổi rất lớn đối với nhiều trường hợp phức tạp Hình 9 theo mô tả tập dữ liệu trong không gian 2 chiều, có 3 vùng, vùng S1 bao gồm 10 đối tƣợng, S2 bao gồm 35 đối tƣợng,S3 bao gồm 500 đối tƣợng, ở phía bên phải trình bày các biểu đồ cho một đối tƣợng trong mỗi vùng Các biểu đồ cho thấy các đồ thị của LOF thông qua Minpts nằm trong miền từ 10 tới 50 Trong khi LOF của đối tƣợng trong S3 rất ổn định quanh giá trị 1 thì các giá trị LOF của các đối tƣợng trong S1 vàS2 lại thay đổi rất lớn

2- Xác Định Miền Của Minpts

Bởi vì, giá trị của LOF có thể tăng lên và giảm xuống Do đó, trong phần này trình bày các hướng dẫn chọn miền giá trị của Minpts Sử dụng MinptsLB (Minpts Lower Bound) và MinptsUB (Minpts Upper Bound) để chỉ cận trên và cận dưới của miền Đầu tiên, chúng ta xác định giá trị có thể của MinptsLB Rõ ràng, Minpts có thể nhỏ bằng 2 Tuy nhiên, để loại bỏ các dao động không mong muốn thì Minpts không thể quá nhỏ Nhƣ ở ví dụ phân bố Gauss trình bày ở hình 9, độ lệch tiêu chuẩn của LOF chỉ ổn định khi Minpts nhỏ nhất là 10 Một ví dụ cuối cùng là chúng ta giả sử rằng chúng ta thay phân bố Gaussian ở hình 9 thành phân bố đều Suy ra rằng với Minpts nhỏ hơn 10 có một số đối tƣợng mà LOF của chúng lớn hơn 1 rất nhiều Điều này có thể tính toán đƣợc vì trong phân bố đều không có đối tượng nào được gán như là ngoại lai Do đó, hướng dẫn đầu tiên là chúng ta cung cấp cách chọn MinptsLB nên ít nhất là 10 để loại bỏ các giao động không mong muốn

Hướng dẫn thứ hai là chúng ta cung cấp cách chọn MinptsLB dựa trên nhiều quan sát tinh tế Xem xét một trường hợp đơn giản của một đối tượng p và một tập hợp(vùng) C các đối tƣợng Giả sử đã xác định đƣợc MinptsLB Nếu C chứa ít hơn MinptsLB đối tƣợng thì tập các lân cận phụ thuộc tham số Minpts của mỗi đối tƣợng trong C sẽ bao gồm cả p và ngƣợc lại Do đó, bằng cách áp dụng định lý 1 LOF của p và tất cả các đối tƣợng trong C sẽ khá giống nhau

Cho nên không tạo đƣợc sự khác biệt của p với các đối tƣợng khác trong C

Ngƣợc lại, nếu C chứa nhiều hơn MinptsLB đối tƣợng thì tập các lân cận phụ thuộc tham số Minpts của các đối tƣợng nằm sâu trong C sẽ không chứa p nhƣng hầu hết các đối tƣợng của C sẽ nằm trong NMinpts(p) Do đó phụ thuộc vào khoảng cách giữa p với C và mật độ của C LOF của p có thể khác với LOF của các đối tƣợng trong C một nhận xét quan trọng là MinptsLB có thể xem nhƣ là số lƣợng nhỏ nhất của các đối tƣợng trong một vùng ( nhƣ là C ) Vì thế, các đối tƣợng khác ( nhƣ p ) có thể là phần tử ngoại lai cục bộ liên quan tới vùng này

Giá trị này phụ thuộc vào ứng dụng Hầu hết các tập dữ liệu mà chúng ta thử nghiệm thì thường chọn từ 10 tới 20 để thực hiện

Tiếp theo, chúng ta sẽ lựa chọn các giá trị có thể của MinptsUB là giá trị cận trên của miền giá trị Minpts Giống như cận dưới MinptsLB, cận trên có ý nghĩa tương tự Cho C là một tập hợp vùng của các đối tượng “close by” thì MinptsUB có thể xem nhƣ là lực lƣợng lớn nhất của tập C với tất cả các đối tƣợng trong C có khả năng là phần tử ngoại lại.Từ “close by” có nghĩa là các giá trị direct Max,direct Min, indirect Max , indirect Min rất giống nhau Trong trường hợp này, với các giá trị Minpts lớn hơn MinptsUB thì theo định lý 1 yêu cầu rằng LOF của các đối tƣợng trong C là gần tới 1 cho nên chúng ta sẽ cung cấp cách chọn MinptsUB là giá trị lớn nhất của các đối tƣợng gần nhau mà chúng có khả năng là các phần tử ngoại lai cục bộ

Như là một ví dụ, chúng ta xem xét lại trường hợp trình bày ở hình 9, nêu lại rằng S1 chứa 10 đối tƣợng, S 2 chứa 35 đối tƣợng và S 3 chứa 500 đối tƣợng Từ các biểu đồ đó , rõ ràng rằng các đối tƣợng trong S 3 không bao giờ là các phần tử ngoại lai, và luôn luôn có giá trị LOF của chúng gần bằng 1 Ngƣợc lại các đối tƣợng trong S1 có các phần tử ngoại lai lớn với giá trị Minpts tới

35 Các đối tƣợng trong S2là ngoại lai bắt đầu từ MinptsE Lý do của hai kết quả cuối là bắt đầu Minpts6 thì tập các lân cận phụ thuộc tham số Minpts của các đối tƣợng trong S2 sẽ bắt đầu bao gồm cả một số đối tƣợng trong S1 Từ lý do đó, các đối tƣợng trong S1 và S2 thực hiện cách xử lý giống nhau Bây giờ, với Minpts = 45 các đối tƣợng trong tập kết hợp các đối tƣợng S1 và S 2 bắt đầu có các đối tƣợng từ S3 cũng là lân cận chung của chúng Và do đó, bắt đầu có các phần tử ngoại lai liên quan tới S3, phụ thuộc vào miền áp dụng mà chúng ta muốn xem xét một nhóm gồm 35 đối tƣợng ( nhƣ S2 ) thành một vùng hay một nhóm gồm các phần tử gần nhƣ các phần tử ngoại lai cục bộ

Khi đã xác định đƣợc MinptsLB và MinptsUB, chúng ta có thể tính toán giá trị LOF của mỗi đối tƣợng trong miền này Chúng ta đƣa ra một đánh giá của việc sắp xếp các đối tƣợng theo giá trị LOF lớn nhất trong miền xác định Có nghĩa là việc sắp xếp các đối tƣợng dựa vào :

Max {LOF Minpts (p)|MinptsLB≤Minpts≤MinptsUB}

Ngoài cách sắp xếp theo giá trị lớn nhất LOF của mỗi đối tƣợng trong miền giá trị của Minpts, có thể sắp xếp theo giá trị nhỏ nhất hoặc giá trị trung bình Trường hợp trong hình 9 chứng tỏ rằng việc đưa ra giá trị nhỏ nhất có thể không phù hợp bởi vì giá trị nhỏ nhất có thể loại bỏ hoàn toàn tính ngoại lai của một đối tƣợng Sắp xếp theo giá trị trung bình có thể làm giảm đi tính ngoại lai của đối tượng Do đó, sắp xếp theo giá trị lớn nhất để làm nổi bật trường hợp mà đối tƣợng là mang tính ngoại lai nhất

Xác Định Miền Của Minpts

TÌM HIỂU KINH NGHIỆM XÂY DỰNG ỨNG DỤNG

DATA MINING TRONG THỰC TIỄN

Trong phần này, chúng ta tìm hiểu phương pháp xây dựng ứng dụng Data Mining trong thực tiễn trên cơ sở nghiên cứu kinh nghiệm của một công ty máy tính hàng đầu thế giới IBM.

CÁC PHẠM TRÙ ỨNG DỤNG DATA MINING

Khai phá dữ liệu khám phá (Discovery data mining)

Khai phá dữ liệu khám phá là một phạm trù của kỹ thuật tìm những mẫu dữ liệu bên trong kho dữ liệu mà chúng ta không có một kiến thức truớc nào của mẫu dữ liệu đó

Sau đây là những ví dụ cho loại Khai phá dữ liệu khám phá:

Phân cụm ( Clustering ) : Chẳng hạn phân cụm khách hàng theo một mục tiêu nào đó, chẳng hạn theo mức thu nhập

Phân tích mối liên kết ( Link analysis) : Ví dụ điển hình nhất của phân tích mối liên kết là bài toán Cái giỏ thị trường đây là bài toán phân tích mối liên hệ giữa các loại sản phẩm mà một khách hàng hay là một gia đình thường mua kèm với nhau

Phân tích tần số ( Frequency analysis ): Đây là kỹ thuật phân tích thời gian của những bản ghi trong Cơ sở dữ liệu, nhằm tìm kiếm quy luật xuất hiện của một loại thông tin

Khai phá dữ liệu đoán trước

Khai phá dữ liệu đoán trước là tìm kiếm một mối quan hệ đặc biệt giữa một biến và các biến khác trong dữ liệu

Sau đây là những ví dụ cho loại Khai phá dữ liệu đoán trước:

- Phân loại ( Classification ) : Đây là kỹ thuật nhằm vào việc gán những mẫu tin vào một phạm trù định nghĩa trước, chẳng hạn gán mỗi khách hàng vào một phân khúc thị trường Kỹ thuật này khám phá mối quan hệ giữa những biến và một phạm trù, khi một bản ghi mới đƣợc xác lập, kỹ thuật này xác định phạm trù mà biến này thuộc vào và xác suất mà bản ghi này thuộc vào phạm trù ấy

- Dự đoán giá trị ( Value prediction ) : Đây là nhóm kỹ thuật nhằm dự đoán giá trị của một biến liên tục từ những biến khác trong một mẩu tin dữ liệu, chẳng hạn dự đoán chi phí của một khách hàng dựa vào tuổi, tầng lớp và thu nhập của họ Một trong những kỹ thuật khá quen thuộc là tìm phụ thuộc ham nhƣ hồi quy tuyến tính …

PHƯƠNG PHÁP TỔNG QUÁT XÂY DỰNG ỨNG DỤNG

Định nghĩa vấn đề doanh nghiệp hướng tới

Ở bước này phải chỉ ra được vấn đề mà bài toán thực tế cần hướng vào, sau đó cần mô tả được dưới dạng một hay một tập hợp các câu hỏi để Data Mining hướng vào

Và điều đặc biệt quan trọng là những câu trả lời phải nằm ở đâu đó ( tiềm ẩn ) trong kho dữ liệu có đƣợc, nghĩa là dữ liệu sẵn có phải đủ để trả lời vấn đề đặt ra thì bài toán mới có ý nghĩa a) Mô tả vấn đề ( Describing the problem )

Nếu ta chƣa chắc chắn khi đặt ra những câu hỏi mà khai phá dữ liệu hướng vào thì cách tiếp cận tốt nhất là học hỏi kinh nghiệm ở những bài toán tương tự đã được áp dụng thực tiễn

Việc mô tả tổng quát vấn đề cần phải nghĩ tới vấn đề cần xem xét dưới dạng những mẫu và những mối quan hệ Ví dụ để mô tả khách hàng gian lận chúng ta mô tả một số đặc trƣng mà khách hàng có thể tiềm tàng sự gian lận b) Tìm hiểu dữ liệu (Understanding data)

Trong khi chúng ta công thức hoá câu hỏi cũng phải nghĩ tới những dữ liệu mà chúng ta có liệu có đủ để trả lời những câu hỏi mà ta đặt ra hay không Ví dụ một câu hỏi đặt ra là tại sao chung ta mất khách hàng? Liệu có thể do đối thủ canh tranh giảm giá ? Nếu dữ liệu của chúng ta không chứa giá cả của đối thủ cạnh tranh thì hiển nhiên việc khai phá dữ liệu không thể cung cấp câu trả lời

Định nghĩa mô hình dữ liệu

Bước thứ hai trong khai phá dữ liệu là định nghĩa mô hình dữ liệu dùng chung Trong một tổ chức hay doanh nghiệp có thể sở hữu một khối lƣợng dữ liệu rất lớn, thông thường những dữ liệu ấy được dùng cho những ứng dụng khác nhau

Cách tốt nhất để lưu trữ dữ liệu cho nhiều ứng dụng trong một tổ chức hay doanh nghiệp là sử dụng mô hình dữ liệu dùng chung chẳng hạn dùng mô hình của data warehouse

Lợi thế của việc sử dụng mô hình dữ liệu dùng chung trong khai phá dữ liệu là nó cho ta một cách tốt nhất để làm sao có thể sử dụng Khai phá dữ liệu cho doanh nghiệp hay tổ chức

Khi đó mỗi ứng dụng của người dùng cuối sử dụng, cập nhật dữ liệu trong data warehouse dựa trên Data Mart của mình

Việc thiết kế cấu trúc dữ liệu cho các ứng dụng là một công việc khó, việc định nghĩa mô hình dữ liệu cho Data Mining cũng không ngoại lệ

Với một tổ chức hay doanh nghiệp ngay từ ban đầu đã hướng tới những mô hình dữ liệu dùng chung sẽ rất thuận lợi khi cần chỉ ra dữ liệu nào là thực sự cần thiết cho Data Mining

Chuẩn bị dữ liệu nguồn

Bước thứ ba trong Data Mining là tập hợp và xử lý trước dữ liệu nguồn, công việc chính của bước này là: nhận dạng, tập hợp và lọc dữ liệu theo định dạng của hàm khai phá dữ liệu đƣợc chọn a) Những nguồn dữ liệu (The data sources) Đa số dữ liệu trong thực tế được lưu trữ trong một tệp hoặc một bảng trong cơ sở dữ liệu quan hệ Cách tốt nhất là tạo ra những View mới từ các nguồn phục vụ cho mục đích khai phá dữ liệu b) Xử lý trước dữ liệu ( Data preprocessing)

Nếu dữ liệu không đƣợc dẫn xuất từ một kho hàng dữ liệu thì cần thiết phải thực hiện tiền xử lý ( Tập hợp, làm sạch, lọc và biến đổi )

Thậm chí dữ liệu đƣợc lấy từ một kho hàng dữ liệu cũng cần phải đƣợc biến đổi sao cho phù hợp với kỹ thuật Data Mining sau này.

Đánh giá chất lƣợng dữ liệu

Để đảm bảo dữ liệu thoả mãn các tính chất : Chính xác và thích hợp chúng ta phải đánh giá dữ liệu

Bước đầu tiên cần kiểm tra trực quan dữ liệu bằng một công cụ xem dữ liệu trực quan

Bước thứ hai là thực hiện đánh giá ban đầu về dữ liệu nhằm phát hiện những mâu thuẫn tiềm tàng nhƣ mất ( thiếu ) dữ liệu hay khớp nối dữ liệu không đúng thứ tự, điều này có thể ngăn ngừa sự tiềm tàng những kết quả thiên lệch của hàm khai phá dữ liệu

Bước cuối cùng là lựa chọn những biến toàn cục cho hàm khai phá dữ liệu thực hiện Việc lựa chọn các biến này phải sử dụng kết quả thống kê hoặc kinh nghiệm thực tiễn.

Lựa chọn kỹ thuật Mining

Đây cũng là một bước khá quan trọng, chúng ta phải lựa chọn được kỹ thuật khai phá dữ liệu phù hợp nhất cho vấn đề đặt ra

Một số kỹ thuật ( hoặc những giải thuật ) sẵn có:

- Dự đoán giá trị ( Value prediction )

- Tìm mẫu tương tự ( Similar patterns )

- Sự tương tự ở nối tiếp thời gian ( Similar time sequences )

Trong nhiều trường hợp, việc lựa chọn kỹ thuật là hiển nhiên chẳng hạn bài toán “Cái giỏ thị trường” hiển niên phải sử sụng kỹ thuật hiệp hội (Associations) Tuy vậy có những vấn đề không thể lựa chọn ngay chẳng hạn nhƣ tìm kiếm nguyên nhân xảy ra lỗi của sản phẩm

Việc lựa chọn kỹ thuật càng đơn giản khi mà chúng ta đã có kinh nghiệm về vấn đề này.

Thể hiện, làm rõ và đánh gía kết quả

Việc giải thích kết quả là bước thứ sáu trong khai phá dữ liệu

Những kết quả từ việc thực hiện bất kỳ phương pháp khai phá dữ liệu nào cũng có thể cung cấp một lƣợng thông tin giàu có mà khó có thể phiên dịch ngay đƣợc

Sự từng trải của người chuyên gia trong lĩnh vực này là rất cần thiết ngoài ra trong lĩnh vực này chúng ta nên mời những người quản trị doanh nghiệp tham gia để họ tham gia ý kiến và quan trọng nhất là họ hiểu rõ để họ có thể triển khai kết quả tìm kiếm đƣợc vào công việc của họ.

Sử dụng những kết quả đó

Đây có thể nói là bước mấu chốt trong Khai phá dữ liệu, tuỳ từng bài toán cụ thể chúng ta có thể chỉ ra đƣợc kết quả khai phá dữ liệu đƣợc dùng cho mục đích gì và điều này sẽ ngày càng đƣợc mở rộng khi duy trì bài toán, nhƣ trong trong phần III khi xét vấn đề dự đoán khuấy động chúng ta sẽ chỉ ra kết quả đƣợc sử dụng cho các bộ phận : Chăm sóc khách hàng, Marketing

III – ÁP DỤNG THỰC TIỄN :

Trong mục này, chúng ta diễn tả một phương pháp khai phá thông tin nhằm dự đoán những khách hàng có khả năng ngừng công tác với một Công ty Viễn thông trong thời gian gần, đƣợc gọi là dự đoán khuấy động trong công nghiệp viễn thông

Chợ viễn thông ngày càng trở nên hoàn chỉnh và đƣợc coi nhƣ điều chỉnh trong việc sắp xếp mối quan hệ với khách hàng, tập trung vào việc chăm sóc những khách hàng thực sự : làm cách nào để giữ những khách hàng có giá trị ( mua nhiều dịch vụ ) và làm cho họ trở nên có giá trị hơn cho Công ty

Bằng cách sử dụng phương pháp khai phá thông tin, chúng ta có thể có được mẫu dữ liệu dựa vào những thông tin khách hàng từ trước đến nay, để đưa ra danh sách những khách hàng có khả năng rời khỏi Công ty cao Cuối cùng nó sẽ giúp chúng ta đưa ra những chiến lược hướng vào việc thiết lập lại chiến lược makerting hiệu quả hơn cùng nhằm ngăn chặn những khách hàng có dự định rời khỏi Công ty

Sự tiến bộ trong dự đoán khuấy động miêu tả trong phần này dựa vào những mô hình trong phương pháp khai phá dữ liệu sẵn có nhằm phân loại ra:

- Khách hàng có thể khuấy động

- Khách hàng không thể khuấy động

Vấn Đề Thương Nghiệp

Dự đoán khuấy động là dự đoán liên quan nhiều nhất đến những đối tƣợng đặc biệt của Công ty viễn thông: những thay đổi dồn dập và bùng nổ trong chiến lƣợc tiếp thị Khi việc tiếp thị viễn thông trở nên ngày càng tập trung, đòi hỏi những khách hàng mới, có lợi hơn là cố gắng giữ lại những khách hàng cũ, những thay đổi chiến dịch makerting đầy tính cạnh tranh thường xuyên về kỹ nghệ cũng là lý do khiến nhiều khách hàng tìm đến những Công ty khác a) Khai Phá Dữ Liệu Giúp Ích Gì?

Sắp xếp khuấy động đòi hỏi phải nắm đƣợc hành vi của khách hàng Vấn đề quan trọng này giúp chúng ta nhận ra những khách hàng dự định rời khỏi Công ty và những khách hàng tiềm năng Hành động đầu tiên để ngăn chặn việc khách hàng rời khỏi Công ty là tìm những mẫu hành động khuấy động Chúng ta có thể hiểu đƣợc hành động của khách hàng thông qua những truy vấn hay phân tích OLAP hay qua những kinh nghiệm, khai phá dữ liệu có thể đóng vai trò tìm những dấu hiệu trong hành vi của khách hàng có liên quan đến sự khuấy động ẩn trong dữ liệu, theo yêu cầu của những nhà quản lý kinh doanh Một mẫu khai phá thông tin chính xác cần phải đƣợc xây dựng để xác định những mẫu hành vi và thiết lập những yêu cầu chính xác để ngăn những sự khuấy động từ bên ngoài b) Những việc nên Bắt Đầu Từ Đầu

Bước đầu tiên trong diễn giải những vấn đề thương nghiệp chúng ta cố gắng sắp xếp để đƣa ra thành dãy hay chùm những câu hỏi cần bởi việc khai phá dữ liệu

Dự đoán khuấy động là những tiến bộ đang tiến hành, nhƣng không phải là họat động đơn lẻ vì phải liên hệ rất nhiều tới việc duy trì tiến độ trong Công ty

Những tiến bộ dùng để duy trì khách hàng hướng tới ba vấn đề:

- Nhận ra những khách hàng có khả năng rời đi

- Xác định khách hàng chúng ta muốn giữ lại trong số họ

- Phát triển chính sách duy trì (Chiến dịch) ngăn chặn khách hàng rời đi

Nhƣ là phần sáng tạo ra những chính sách phát triển nên dự đoán khuấy động là thành phần rất có ý nghĩa đối với Công ty Tuy vậy thách thức của dự đoán khuấy động là dự đoán nhận định hành động của khách hàng trong tương lai

Cần nhớ rằng mẫu dự đoán khuấy động phù hợp với sự tiến bộ trong việc duy trì khách hàng của Công ty không chỉ đƣa ra điểm khuấy động, mà còn diễn tả sự khuấy động sử dụng trong chiến lƣợc phát triển kinh doanh

Chúng ta thảo luận về đề tài làm cách nào mà dự đoán khuấy động có thể dự đoán những khách hàng có khả năng ngừng cộng tác và thuyết phục họ sử dụng những sản phẩm phong phú của Công ty Suy luận cơ bản là một vài khách hàng rời Công ty có những cƣ xử trong quá khứ hay từ những cƣ xử đặc trƣng

Vì vậy, chúng ta có thể nhận ra những hành động này trước khi họ rời Công ty

Khi tiến hành một dự án khuấy động chúng ta không nên khuyến khích dự đoán tất cả những thay đổi khác nhau cùng một lúc Xóa đi sự xác định của khuấy động và phân loại các loại khuấy động có khả năng dự đoán cao nhất và có khả năng tạo nhiều thiện cảm với người sử dụng

Sự xác định và phân loại khuấy động trong phần tới là những bước quan trọng nhất trong những tiến bộ khuấy động c) Dự Đoán Khuấy Động

Khuấy động là hành động của vài khách hàng trước khi rời khỏi Công ty vì vài lý do Khách hàng có thể rời khỏi Công ty vì nhiều lý do Từ đó chúng ta có thể phân loại những lý do khuấy động khác nhau, xuất phát từ Công ty hay chính từ phía khách hàng

Chúng ta gọi đó là khuấy động tự nguyện nếu khách hàng đề xuất ra hành động Trong trường hợp này chúng được phân loại ra làm những lý do khuấy động khác nhau nhƣ: hết hợp đồng, thay đổi mở đầu, chất lƣợng phục vụ, khuấy động cạnh tranh, thay đổi kỹ nghệ, thay đổi thường xuyên và những khuấy động không phải là trong tự nguyện

Khuấy động cưỡng ép (không tự nguyện)

Khuấy động cưỡng ép là khuấy động mà Công ty khởi xướng Chẳng hạn trong tháng này Công ty quyết định tiến hành tạm ngừng dịch vụ với khách hàng vì vài lý do chẳng hạn nhƣ khách hàng rắc rối về tín dụng d) Lọc Từng Loại Khuấy Động

Việc xác định các loại khuấy động dựa vào lý do khuấy động hết sức quan trọng đối với Công ty, bởi vì một dự án khuấy động trở nên có hiệu quả hơn trong giới hạn của mẫu ứng dụng triển khai nếu chúng ta tập trung đƣợc từng loại khuấy động tương ứng với mỗi mẫu

Tiến trình sàng lọc những loại khuấy động này gồm các bước sau: o Xác nhận lọai khuấy động tác động từ Công ty này đến Công ty khác (hay xét trong các quốc gia khác nhau) o Quyết định loại khuấy động dự đoán o Xác định tiến trình cần thiết để phân biệt từng loại khuấy động cần thiết trong “mớ hỗn độn” khuấy động

Chú ý: Một phương pháp tiếp cận với việc phân loại khuấy động là xây dựng mô hình những khách hàng sắp rời đi và tìm lý do sử dụng mô hình khác tốt hơn.

Dữ Liệu Cần Sử Dụng

Chúng ta chắc chắn không thể thực hiện khai phá dữ liệu nếu không có dữ liệu về khách hàng nhưng chúng ta thực sự cần dữ liệu nào? Vì vậy bước tiếp theo để khai phá thông tin là xác định dữ liệu cần thiết để nối kết vấn đề kinh doanh và chúng ta nhận đƣợc thông tin ấy từ đâu? Đây là những loại dữ liệu thường đã hỏi cho việc xác định mô hình dự đoán khuấy động trong Công ty viễn thông

- Đặc điểm chỉ ra sự khuấy động

- Dữ liệu thông tin cá nhân khách hàng

- Dữ liệu nhân khẩu học

- Dữ liệu hợp đồng, các cuộc gọi góp ý kiến

- Dữ liệu về hóa đơn thu và chi

- Danh bạ khách hàng nhận đƣợc từ dữ liệu chuyên hóa

- Dữ liệu bổ xung khác a) Đặc Điểm Chỉ Ra Sự Khuấy Động

Trong mô hình dự đoán, chúng ta cần nhiều mục tiêu khả thi Nhiều dự án về những khuấy động có thể được đưa ra trong trường hợp này b) Dữ Liệu Khách Hàng

Dữ liệu khách hàng có thể đƣợc sắp xếp thành 2 nhóm:

Nhóm 1: Những thông tin thuộc về cá nhân khách hàng Nhóm 2: Những thông tin liên quan đến hợp đồng

Dữ liệu nhân khẩu học:

Dữ liệu nhân khẩu khách hàng nhƣ tuổi, giới tính, công việc v.v… và những thông tin có đƣợc khi họ đăng ký dịch vụ điện thoại, những thông tin này rất hữu ích để nhận dạng, diễn tả nhóm khách hàng đặc trƣng Tuy vậy những thông tin này thay đổi theo thời gian, do đó cho dù Công ty có cố gắng thực hiện những chương trình thu thập dữ liệu khách hàng vẫn không tránh khỏi nhiều thông tin lỗi thời và thiếu chính xác

Dữ liệu hợp đồng gồm những dữ liệu liên quan đến hợp đồng nhƣ ngày có hiệu lực, giá trị hợp đồng, phương thức thanh toán, quy định dịch vụ, loại máy mà khách muốn sử dụng.v.v… thông tin được thu thập vào khoảng trước lúc ký kết hợp đồng Những thông tin này sẽ thay đổi theo việc thay đổi chính sách của Công ty hay đơn thuần là thay đổi theo chủ định của khách hàng Những thông tin hợp đồng thay đổi có thể là một trong những nhân tố chính đầy ý nghĩa áp dụng vào việc dự đoán khuấy động Bởi vì vị trí của công việc makerting và chính sách khác nhau đối với mỗi Công ty, nên không có câu trả lời hoàn chỉnh nào về nhân tố quan trọng, có ý nghĩa nhất để dự đoán khuấy động c) Dữ Liệu Về Cuộc Gọi

Dữ liệu về những cuộc gọi của khách hàng phản ánh cách cƣ xử khác nhau của khách hàng Dữ liệu này giúp ích cho chúng ta dự đoán thời gian khuấy động trong tương lai theo khung thời gian, từ đó đi đến sự thỏa thuận trong tương lai Những thông tin liên quan đến cuộc gọi có thể là nhân tố quyết định việc khuấy động, đưa ra những cột chuyển hóa Trong trường hợp này chúng ta sử dụng dữ liệu về những cuộc gọi tính từ 6 tháng trước Dữ liệu này gồm có : số điện thoại, thời gian cuộc gọi, giá cước cuộc gọi

Dữ liệu về các cuộc gọi này cung cấp 3 nhóm thông tin :

Tần số của cuộc gọi:

Tần số cuộc gọi cung cấp thông tin về những số máy mà khách hàng thường gọi nhất

Chất lƣợng cuộc gọi cung cấp thông tin rằng cuộc gọi của khách hàng có gặp trục trặc nào không? Số lƣợng những cuộc gọi thành công, Cuộc gọi bị ngắt giữa chừng, cuộc gọi hỏng là ví dụ dữ liệu chất lƣợng cuộc gọi

Chất lƣợng cuộc gọi là nhân tố có ý nghĩa đối với việc dự đoán khuấy động

Mẫu cuộc gọi diễn tả cƣ xử khách hàng đối với khung thời gian nào đó hay loại cuộc gọi nhất định Số lƣợng cuộc gọi trong khung thời gian cố định, ví dụ nhƣ cuộc gọi vào ban đêm, cuộc gọi xuyên Quốc gia d) Dữ Liệu Thu Chi

Dữ liệu thu chi nhƣ số lƣợng hóa đơn thu thập của khách hàng, số lƣợng hóa đơn thanh toán loại thông tin này đƣợc nhận xét là rất quan trọng trong vấn đề khuấy động không tự nguyện e) Danh Bạ Chuyên Hóa Từ Dữ Liệu Cuộc Gọi Cần Thiết Chỉ Thị

Một danh bạ tra cứu đƣợc chuyên hóa tốt ( còn đƣợc gọi là chìa khóa chỉ thị hay vật chỉ thị biểu diễn), mang lại những kinh nghiệm thương mại thực tế đã đƣợc kiểm nghiệm vào dữ liệu, mặt khác danh sách của khách hàng có thể đƣợc làm phong phú với dữ liệu chuyên hóa từ dữ liệu chi tiết

Sau đây là những ví dụ về danh bạ chuyên hóa trong đời sống có thể quan trọng với những mẫu dự đoán khuấy động

Danh bạ chất lượng cuộc gọi

- Xu hướng thay đổi danh bạ

- Danh dách khách hàng phân theo lĩnh vực họat động

- Danh bạ điện thoại di động f) Dữ Liệu Bổ Sung

Có thể có những nhân tố chính mà bộ phận dự đoán khuấy động trong Công ty cho là quan trọng dựa trên kinh nghiệm họat động của họ, ví dụ nhƣ, dữ liệu thu thập về khách hàng, thông tin cạnh tranh (với công ty khác) Dữ liệu thu thập về khách hàng cho biết hiện họ có hài lòng với dịch vụ của chúng ta hay không Thông tin cạnh tranh giúp nhận ra họat động của Công ty khác khuấy động khách hàng của chúng ta g) Cấu trúc Dữ Liệu Cho Dự Đoán Khuấy Động

1 Churn Whether customer left the company after the time lag

5 Agent Office where phone was initially activated

6 Handset_type Handset model type

7 New_handset Current handset is new or not

10 Status Customer’s current status of contract (active,temporarily not used and so forth)

11 Grade Customer grade(gold, silver, bronze and so forth)

12 Contract_exp When the contract expires

13 Tenure How many month passed since activation

14 Suspen_before Number of times phone was suspended in recent 6 month

15 Discon_before Number of times phone was disconnected in recent 6 month

16 Handset_ch Number of times handset model changed

17 Pay_method_ch Number of times payment method changed

18 Priceplan_ch Number of times priceplan changed

19 Svc_call Number of services related to the call such as call forward, call waiting

20 Svc_info Number of services related to the information such as SMS

21 Svc_data Number of services related to the data

22 Svc_discount Number of services related to discount plan

23 Svc_free Number of free services

24 Svc_nonfree Number of non free services

Nguồn dữ Liệu, Chuẩn Bị Dữ Liệu

Để tạo ra mẫu dữ liệu của chúng ta, cần có dữ liệu ban đầu mà chúng ta thu thập, và chuyển nó theo dạng chuẩn phù hợp với mẫu dữ liệu Chúng ta gọi bước này là phát triển và chuẩn bị nguồn tài liệu, đây là bước thứ 3 của phương pháp khai phá dữ liệu a) Xác Định Cửa Sổ Thời Gian

Khi sắp xếp tài liệu trong dữ liệu xác định, chọn khung thời gian thích hợp để thu thập dữ liệu là điểm tất yếu

Chúng ta nên xác định 3 vấn đề để quyết định khoảng thời gian nào cần thu thập dữ liệu về khách hàng và sử dụng thông tin khuấy động

- Cửa sổ dữ liệu: Khung thời gian cho mục nhập dùng để tiến hành mô hình

- Cửa sổ dự đoán: Khung thời gian dùng cho dự đoán và dùng khi sắp xếp tài liệu và những mục dự đoán chính cần nhập (mục lục dự đoán) , mẫu dự đoán khuấy động thường thay cho những ai và khi nào Mẫu này có nghĩa là khi cố gắng trả lời câu hỏi: dự đoán ai ngừng công tác với Công ty và khi nào họ ngừng cộng tác? Cửa sổ dự đoán là cửa sổ “khi nào” trong mẫu dự đoán khuấy động trong thời kỳ xây dựng mẫu, cửa sổ dự đoán là khung thời gian xem xét khách hàng có rời Công ty hay không

- Thời gian cộng tác: Khoảng cách về thời gian giữa cửa sổ dữ liệu và cửa sổ dự đoán

Trong trường hợp này, chúng ta dùng cửa sổ dự đoán 6 tháng, 2 tháng đầu để thử nghiệm, 1 tháng dự đoán, nhƣ trong hình 15

Trong thời kỳ mẫu được xây dựng, dữ liệu 6 tháng trước từ tháng 2 đến tháng 7 cho khách hàng còn cộng tác tới cuối tháng 7 là thông tin khuấy động, những khách hàng này có rời Công ty vào tháng 10 hay không Mẫu này cũng ứng dụng đƣợc cho khách hàng tiếp tục sử dụng trong tháng và dự đoán có rời đi vào tháng 11 hay không

Vì vậy, vào đầu tháng 9, nhân viên phòng tiếp thị có thể lọc danh sách những người có khả năng rời Công ty vào tháng 11, và thời gian 2 tháng đủ để họ

“Khởi động” và thực hiện những chiến dịch makerting

Tốt nhất nên tránh khung thời gian nào đó, chẳng hạn nhƣ những mẫu khác thường chịu ảnh hưởng của ngọai cảnh Dùng những khung thời gian mới nhất để xây dựng mẫu dự đoán sẽ mang lại đƣợc một cửa sổ dữ liệu tốt

Tuy vậy, khoảng thời gian này cũng là khoảng thời gian để vạch ra chiến lƣợc và thi hành Khoảng thời gian trôi qua dài hơn đồng nghĩa với việc dành nhiều thời gian cho nhân viên phòng makerting thiết kế chiến lƣợc cuối cùng, và cũng với khảng thời gian này, mẫu dự đoán cũng có thể dự đoán tương lai xa hơn Trong mẫu dự đoán khuấy động, cần ít nhất 1 tháng thời gian đứt quãng

Mặt khác, nhân viên tiếp thị cần ít nhất 1 tháng để chuẩn bị chiến lƣợc tiếp thị dựa vào kết quả mô hình dự đoán

Khoảng thời gian đứt quãng có thể đƣợc xác định sau khi so sánh kết quả dự đoán trong 1 tháng, 2, 3, và N tháng trôi qua Ví dụ nhƣ nếu mẫu dự đoán 2 tháng cũng giống như mẫu dự đoán 1 tháng, thì mẫu dự đoán 2 tháng thường đƣợc chọn để thuận lợi hơn cho nhân viên tiếp thị Tuy vậy, việc tiếp thị có tiến bộ hơn hay không phải được xác nhận trước khi khoảng thời gian bỏ trống được quyết định

Chú ý: Sai lầm thường gặp trong mẫu dự đoán khuấy động là tiến hành 1 mẫu dự đoán không có khoảng thời gian đứt quãng Ví dụ, mẫu dự đoán khuấy động trong tháng 12 sử dụng tất cả dữ liệu của tháng 11 Mô hình không có khoảng thời gian đứt quãng chỉ là mô hình lý thuyết, vì dữ liệu thực trong tháng 11 chỉ khớp với dữ liệu đầu tháng 12 mà thôi Trong triển vọng thương mại, mô hình này vô dụng, bởi vì nhóm tiếp thị chỉ có thể thiết kế 1 chiến lƣợc hiệu quả trong ít nhất vài ba tuần

Cửa sổ dự đoán có thể chọn là những tháng bất kỳ mà việc lựa chọn và quyết định phụ thuộc vào đòi hỏi của công việc tiếp thị và kết quả dự đoán b) Tạo Ra Dữ Liệu Để Thử Nghiệm Và Kiểm Tra

Mô hình dự đoán cần tạo ra dữ liệu thử nghiệm và kiểm tra

Mẫu thử nghiệm đƣợc dùng để xây dựng mô hình đầu tiên Sau khi mô hình đầu tiên đƣợc xây dựng, dữ liệu kiểm tra đƣợc sử dụng kiểm tra và để cải tiến mô hình Mẫu kiểm tra cũng chứa các phần như mẫu dữ liệu thông thường nhƣng với thông tin khách hàng khác nhau Mẫu này đƣợc sử dụng để kiểm tra những vấn đề nảy sinh khi mô hình đƣợc phát triển sao cho phù hợp với dữ liệu

Tần số chính xác số người dự định rời đi cần phải chính xác và khớp với nhau trong từng phần dữ liệu

Tỉ lệ khuấy động trong dữ liệu có thể rấr thấp, vấn đề này thường được xem nhƣ “mục tiêu phụ” Nếu không chú ý đến điều này khi phát triển mô hình, chúng ta sẽ không tránh khỏi việc đƣa ra những kết quả không mong đợi

Chẳng hạn nhƣ tỉ lệ khuấy động trong dữ liệu là 1% trong Công ty, cột dữ liệu trong mẫu dự đoán của Công ty cũng thường đạt 1% Kỹ nghệ khai phá đã nhanh chóng tiến tới 1 mô hình hoàn chỉnh (99% chính xác) bằng cách đánh tỉ lệ những người trong trường hợp không phải là khuấy động Tuy vậy, điều này không cho biết bất cứ thông tin nào

Nói chung, chúng ta nên chú ý nếu kết quả đầu ra mà chúng ta dự đoán ít hơn 10% so với toàn cột dữ liệu

Giải pháp cho vấn đề này là sử dụng khối lƣợng sai khi tính toán Việc tính toán cũng bao gồm việc sử dụng những cột dữ liệu lớn hơn số cột trong dữ liệu ban đầu Sử dụng dữ liệu trong những trường hợp được sắp xếp tự động tùy trường hợp thì tối ưu Cột kết quả cũng hình thành ngẫu nhiên theo các cột dữ liệu ban đầu

Cần có giới hạn cho việc lựa chọn nếu chúng ta muốn giới hạn số trường trong dữ liệu của chúng ta Giải pháp để có thêm các dữ liệu kết quả này là sao chép các kết quả từ các cửa sổ khác Việc này chỉ nên thực hiện với những lý do nhất định hay những công nghệ khác không ứng dụng đƣợc

Lỗi sử dụng sai khối lƣợng dữ liệu khiến chúng ta sử dụng những khối lượng dữ liệu chính xác và không chính xác theo những lớp trường hợp Vì thế việc sử dụng dữ liệu ngẫu nhiên là dụng cụ khắc phục lỗi sử dụng khối lƣợng dữ liệu thay vì bổ sung dữ liệu ban đầu

Phương Pháp Kỹ Thuật Để Khai Phá Dữ Liệu

Chọn phương pháp khai phá phù hợp là bước 5 trong phương pháp khai phá của chúng ta

Trong mục này, chúng ta thảo luận về các phương pháp đưa ra kết quả chính xác cho việc dự đoán khuấy động và những công việc cần xem xét khi chúng ta ứng dụng những phương pháp này a) Chọn Phương Pháp Khai Phá

Có nhiều loại phương pháp để khai phá dữ liệu khác có thể sử dụng để ứng dụng vào việc dự đoán khuấy động, sau đây là một vài phương pháp cho mô hình dự đoán Phân lọai theo thứ tự các thuật toán có giá trị thường sử dụng: o Phương pháp Cây thư mục o Phương pháp RBF ( Radial Basis Function ) o Phương pháp Mạng Nơron o Phương pháp Hồi qui-logic và đa thức

 Phương pháp Cây thư mục:

Phương pháp cây thư mục cho dữ liệu đầu ra thành một cấu trúc hình cây, cấu trúc này đề ra sự trình bày rõ ràng cho nhân viên tiếp thị và giúp cho việc quản lý dữ liệu khuấy động dễ nhận diện hơn Khi sử dụng mô hình cây chúng ta có thể sử dụng dữ liệu ban đầu chƣa đƣợc chuẩn hóa hay tiêu chuẩn hóa Mô hình cây có những quy tắc về dữ liệu nhập vào trước khi đưa ra những kết quả mong muốn

 Phương pháp RBF Mạng RBF được bổ sung theo hướng mạng lưới dùng để quản lý chuỗi thuật toán RBF họat động bằng cách thêm vào số lƣợng lớn những hàm đơn giản Trong khi mở rộng mô hình, những hàm cần đƣợc điều chỉnh để phù hợp với kết quả dự đoán

 Phương pháp Mạng Nơron Làm việc bằng cách nhập dữ liệu vào và chuyển đổi chúng thành một hay nhiều dữ liệu kết quả Trong suốt những giai đoạn chuyển đổi này, quá trình mà mạng lưới được hình thành nó không ngừng được cải tiến và điều chỉnh khi phát hiện ra lỗi và ghi lại những lỗi này Mặc dù vậy mạng Nơron không đƣa ra qui định nào để có thể hình thành nên một kết quả dễ coi và đặc biệt nó đòi hỏi những dữ liệu nhập vào phải chính xác

 Phương pháp Hồi qui Phân tích hồi qui là phương pháp phân tích dữ liệu truyền thống nhằm chuyên hóa một chức năng để diễn tả mối quan hệ giữa số lƣợng dữ liệu nhập vào và kết quả chúng ta muốn dự đoán Thông thường, phương pháp này dùng dữ liệu số, khi sử dụng mạng Nơron và mô hình RBF, đây là bước chuẩn bị khá đặc biệt và cần thiết

Có nhiều phương pháp hồi qui khác nhau những phương pháp này khác nhau về chức năng của chúng nhằm phù hợp với dữ liệu một trong những phương pháp thường dùng là o Hồi quy đa thức: là phần mở rộng của hồi qui tuyến tính sử dụng một hàm tinh tế hơn để phù hợp với dữ liệu o Hồi qui logic: Trái ngược với những phương pháp hồi qui khác bởi vì dữ liệu ra của hồi qui logic là 1 hoặc 0 (hệ nhị phân) để thu đƣợc một kết quả hồi qui logic từ mạng Nơron sử dụng toàn bộ lớp dự liệu không ẩn Bằng cách di chuyển những lớp dữ liệu ẩn đi trong mạng Nơron, mạng lưới chứa khối lượng phù hợp giữa đầu vào và đầu ra

Khi sử dụng mô hình dự đoán, những mô hình này đƣợc phát triển dựa vào thông tin toàn bộ khách hàng hay chỉ dựa vào vài mảng đặc biệt Những mô hình khác nhau có thể đƣợc nối kết tuần tự hay theo cấu trúc song song nhằm đạt đƣợc kết quả tốt hơn Vài ví dụ về cách liên kết: o Xây dựng mô hình dự đoán nhờ sự phân chia thành mảng Phân loại khách hàng khi sử dụng số lƣợng mảng nhƣ dữ liệu đầu vào hay đơn thuần xây dựng mô hình dựa vào mảng khách hàng nào đó o Điều hành những kết quả khác nhau và sử dụng những kết quả này nhƣ là phiếu Những mẫu dự đoán khác nhau này giúp ta đạt đƣợc một sản phẩm cho kết quả chính xác cao nhất o Xây dựng những mô hình khác nhau dựa vào những phần khác nhau của các cột dữ liệu b) Ứng Dụng Phương Pháp Khai Phá

Chúng ta đã trình bày mô hình dự đoán phụ thuộc vào phương pháp và dữ liệu sử dụng Vì vậy, trong trường hợp này nhiều phương pháp khai phá đã được dùng thử để so sánh kết quả từng mẫu và chọn mẫu tốt nhất Mẫu tiến triển hơn được đưa ra trong hình 18 dưới đây:

Chọn dữ liệu thông thường có rất nhiều dữ liệu ứng cử cho mô hình Để xác định những dữ liệu có liên quan, thích đáng nhất chúng ta có thể sử dụng thông tin thống kê Thông tin này về cơ bản cho chúng ta một danh sách sự phân bổ của các dữ liệu so sánh với tổng thể đƣợc gọi là dữ liệu thống kê

Nên sử dụng lỗi sai chọn lựa khối lượng dữ liệu nếu không có nhiều người khuấy động trong các cột dữ liệu Ở đây sử dụng cột dữ liệu khách hàng có tỉ lệ khuấy động 2% Khi giải thuật cây cố gắng phân loại người khuấy động, nó có thể kiên trì phân loại tất cả những người khuấy động, điều này dẫn tới tỉ lệ sai sót 2% trong toàn bộ mô hình cây, lỗi này không coi trọng trong thuật toán

IM cho dữ liệu có chức năng xác định khối lượng không chính xác ngăn chặn không cho giải thuật kiên trì phân loại tất cả những người khuấy động, chúng ta gán 10 là lỗi về khối lượng, điều này nghĩa là nếu giải thuật cứ kiên trì phân loại tất cả những người khuấy động thì tỉ lệ sai sót sẽ là 20% chứ không phải là 2%.Chúng ta có thể điều chỉnh giá trị của lỗi về khối lượng sau khi xem kết quả cây

Chiều sâu cực đại của cây thƣ mục cũng có thể tạo thành một tập hợp

Trong trường hợp này nó được giới hạn tới 10 Có thể có một vấn đề nảy sinh nếu cây có quá nhiều nút lá Nói cách khác, cho dù cây có tỉ lệ lỗi ít hơn nhƣng nếu nó có chiều sâu lớn hơn thì cây này thông thường sẽ không tiếp tục thực hiện với những cột dữ liệu khác và cho ra kết quả rất khó nhìn

Xén bớt là bước để cải thiện, khi thực hiện bước này ta nhập chung vài nút lá và nhánh với mục đích cải thiện khả năng trình bày và độ dễ hiểu của cây

IM có thuật toán tự động xén bớt và dừng lại ở những giới hạn như kích thước ở những nút lá, chiều sâu cây và độ chính xác cũng cho phép người sử dụng tự cắt xén Ở đây, cây được cắt xén bởi IM một cách tự động và một vài phép cắt xén nhân tạo được thực hiện nếu cành không có ý nghĩa trong viển cảnh tiếp thị

Trình bày kết quả

Trong phần trước, chúng ta xem xét các bước theo đó để có được kết quả khai phá bằng cách sử dụng những phương pháp khai phá dự đoán khác nhau

Bước 6 trong phương pháp khai phá là giải thích những kết quả chúng ta thu được và xác định cách nào để hướng chúng vào công việc kinh doanh Khi lần đầu tiên chúng ta đương đầu với những kết quả này, câu hỏi đầu tiên được đặt ra là “tất cả những điều này có ý nghĩa gì? ”

Trong phần này, chúng ta diễn tả cách để hiểu và giải thích các kết quả dựa theo những phương pháp khác nhau a) Giải Thích Kết Quả Nhờ Vào Viễn Cảnh Kinh Doanh:

Mô hình đƣợc xây dựng nhờ cây thƣ mục RBF, mạng dự đoán Nơron và sau đó mô hình đƣợc so sánh bằng các biểu đồ lợi ích Trong phần tiếp theo, chúng ta nhìn nhận chi tiết từ viễn cảnh kinh doanh

Cây thƣ mục đƣa ra một mô hình cây với một ma trận lẫn lộn để xem kết quả của mô hình nhƣ chỉ ra trong hình 19

Trong trường hợp này, toàn bộ lỗi chiếm 26,12% điều này nghĩa là: o Trong 1053 khách hàng là những người khuấy động; 523 người được phân loại chính xác và 530 còn lại thì không o Trong 2967 khách hàng không phải là người khuấy động: 2447 được phân loại chính xác và 520 người còn lại thì không o Trong 4020 khách hàng : 1050 khánh hàng đã bị phân loại sai

Chúng ta có thể thực hiện nhiều lần tiến trình này để cải tiến tỉ lệ lỗi của mô hình cây bằng cách sử dụng nhiều chọn lựa khác nhau trong mô hình dữ liệu khuấy động để xây dựng cây và kiểm tra cây sử dụng cột dữ liệu kiểm tra

Một tỉ lệ lỗi chấp nhận đƣợc có thể đƣợc quyết định bằng cách xác minh mô hình với những cột dữ liệu kiểm tra khác để xem tỉ lệ lỗi có ổn định hay không và thông qua môi trường kinh doanh ví dụ như tỉ lệ khuấy động và khả năng của chương trình tiếp thị

Trường hợp này, tỉ lệ khuấy động thực tế thấp hơn 5% và như chúng ta thấy độ chính xác mô hình là 74%, độ chính xác trong số những người khuấy động lên tới 50%(1053 có kết quả trái ngƣợc với 523) Sử dụng cột dữ liệu kiểm tra, tỉ lệ lỗi tăng lên từ từ Tuy nhiên, nhịp độ lỗi khá ổn định trong nhiều cột dữ liệu kiểm tra

Kết quả đồ thị của mô hình cây đƣợc biểu diễn ở hình 20 Cây bắt đầu từ đỉnh và mở rộng cành cho tới khi nó đạt đƣợc kết quả phân loại tối ưu Có những lúc lá ở tầng dưới khi cây tiến tới mức độ tối ưu và chia ra khách hàng theo những qui tắc nào đó

Thông qua quá trình trực quan hóa của Cây thƣ mục, chúng ta có thể thấy cách phân loại cho mỗi nút lá và biến dữ liệu quan trọng nhất để xây dựng qui tắc Nhƣ chúng ta thấy trong hình 5-6 OUTSPHERE đƣợc coi nhƣ là biến dữ liệu quan trọng nhất sau đó là HANDSET, CUSTOMER RATEv.v…., Bởi vì những dữ liệu biến đó xuất hiện nhiều trong phần đầu cây Bây giờ nhƣ là ví dụ xem xét một nút là được sắp xếp như là những người không khuấy động như trong hình trên theo những qui ước được trình bày đây là những người khách hàng mà: o Sử dụng 3 hoặc nhiều hơn số lƣợng số điện thoại dùng để gọi ra máy khác (OUTSPHERE) o Sử dụng kiểu máy điện thoại cũ (HANDSET) o Hoặc là không có thời hạn giao ƣớc hợp đồng từ đầu hoặc là hợp đồng chƣa hết hạn (CONTRACT-DUR) o Có tỉ lệ gọi thành công cao (CALL QUALITY)

Nút lá này có 81,3% thuần khiết Chúng ta có thể xem trên nút HANDSET của cây, chúng không có cành nào mà hầu hết là người không khuấy động rẽ từng nút Đây là những khách hàng 3 hoặc nhiều hơn số điện thoại gọi đi nếu máy điện thoại của họ loại mới (HANDSET), khi đó có lẻ họ sẽ tiếp tục cộng tác với công ty Qui định này có 91,6% thuần khiết

Cây thư mục cho người khuấy động được chỉ ra như ví dụ trong hình 22: o Theo những qui luật trình bày, đây là những khách hàng mà 3 qui định đầu tiên giống với những khách hàng không khuấy động ngoại trừ những khác biệt sau:thấp hoặc trung bình o Không có nhiều cuộc gọi không tính khung thời gian, đêm, ngày lễ và đặc biệt không tính đối với khung thời gian tron ngày

Họ rất trẻ (từ 20 - 20), hay rất già (70 - 80) o Tỉ lệ gọi thành công Độ thuần khiết của nút này là 36,7%

Cần đƣợc điều tra kỹ hơn nhằm tìm ra tại sao những cuộc gọi không tính cước so với tổng số cuộc gọi có liên hệ tới sự khuấy động của khách hàng đặc biệt là giới trẻ Trong trường hợp này, Công ty có những cuộc gọi không tính cước cho giới trẻ trong khung thời gian nào đó, điều này có ý nghĩa kinh tế trong công cuộc cạnh tranh thương mại tuy vậy, những khách hàng này không sử dụng nhiều cuộc gọi không tính cước khung thời gian và có thể cũng không biết về kế họach miễn cước đặc biệt này, vì thế cải tiến này vô hiệu Hơn nữa, họ lại sử dụng máy điện thoại cũ, do đó chất lƣợng cuộc gọi không tốt điều này khiến họ ngừng công tác với Công ty mặc dù thời hạn hợp đồng chƣa kết thúc Đây có thể là một kết quả

Chúng ta có thể tìm thấy một qui định khác chống khuấy động ở phần trên của cây, diễn giải rằng những khách hàng này sử dụng mẫu điện thoại cũ và nếu hợp đồng đã hết hạn Điều này chỉ ra độ khuấy động của khách hàng, phần trăm thuần khiết của nút này là 48%

Chúng ta chỉ nghiên cứu phần bên phải của cây vì phần bên trái có nhiều dữ liệu biến hầu như chỉ liên quan tới người sử dụng Nếu khách hàng không sử dụng điện thoại nhiều, họ có khả năng rời Công ty cao

Triển Khai Mô Hình

Bước 7 và cũng là bước cuối cùng trong phương pháp khai phá dữ liệu có lẽ là bước quan trọng nhất Làm cách nào chúng ta ứng dụng kết quả khai phá vào thương nghiệp hay chuyên hóa những mục đích thương mại mà công cuộc khai phá dữ liệu đòi hỏi? lý do là việc khai phá dữ liệu thường được xem như là một công cụ phân tích vô cùng quan trọng giúp ta có cái nhìn toàn diện công việc kinh doanh, nhƣng cũng rất khó để ứng dụng trọn vẹn vào hệ thống thực tại

Trong phần này, chúng ta giải thích cách mà những phương pháp khai phá được đề cập ở trên ứng dụng vào công việc kinh doanh và trở thành chìa khóa thành công trong suốt tiến trình quản lý khuấy động a) Ứng Dụng Mô Hình Trong Nhiều Cách Khác Nhau:

Sử dụng IM hay cách tính điểm khai phá của DB2, chúng ta có thể ứng dụng toàn bộ mô hình dự đoán khuấy động cho tất cả khách hàng dựa vào số điểm khuấy động mỗi khách hàng

Khi chúng ta đã có điểm số khuấy động dựa vào toàn bộ danh sách khách hàng, chúng ta có thể tận dụng điểm số này trong những ứng dụng khác nhƣ: o Trung tâm liên lạc: môi giới trung gian có thể có nhiều thông tin hơn về khách hàng bao gồm cả điểm khuấy động khi họ tiếp xúc với khách hàng o Tiếp thị: nhân viên có thể phân tích xa hơn nhờ công cụ phù hợp có thể là OLAP hoặc bảng biểu Phân tích này sử dụng kết quả dự đoán (điểm khuấy động) nhằm đƣa ra cái nhìn tổng thể cho nhân viên tiếp thị để hiểu lý do khách hàng rời khỏi công ty và xây dựng chiến dịch chuyển đổi lý do khuấy động trước khi khách hàng quyết định ngừng cộng tác (đồng thời, nếu chúng ta có một khách hàng có khả năng khuấy động rất cao và giá trị khách hàng thấp, chúng ta có thể tính toán trước hóa đơn của khách hàng theo ngày trước khi họ tới văn phòng để hoãn việc đóng tiền, chúng ta có thể giảm thời gian giao tiếp nhờ vào hóa đơn đã tính trước ) b) Ứng Dụng Mô Hình Vào Tiến Trình Duy Trì Chiến Dịch

Chúng ta có thể tận dụng danh sách có khả năng khuấy động cùng với bảng giá trị khách hàng ngăn ngừa khách hàng khuấy động Chiến dịch duy trì này gồm nhiều bước và kết quả khai phá đóng vai trò quan trọng trong mỗi bước c) Duy Trì Mô Hình:

Quá trình thực hiện mô hình tiến hành song song với việc giảm chức năng mô hình sau một thời gian Khi chúng ta bắt đầu thi hành chiến dịch duy trì dựa vào mô hình dự đoán khuấy động một vài khách hàng có thể thay đổi thay vì rời đi thì ở lại Chiến dịch duy trì có khả năng ảnh hưởng tới hành động của khách hàng và môi trường tiếp thị cũng có thể thay đổi, như sự thay đổi đều đặn trong chiến dịch của chính phủ, một mô hình dự đoán khuấy động nên đƣợc nâng cấp để phù hợp với những thay đổi và quá trình thực hiện một lần nữa dự đoán khuấy động không phải là sự kiện đơn lẻ; nó là một tiến trình trong công ty

Khi chúng ta dự định nâng cấp mô hình, chú ý những điểm sau: o Xem xét khoảng thời gian đứt quãng: nhân viên tiếp thị cần nhiều thời gian để thiết kế chiến dịch, vì thế khoảng thời gian đứt quãng dài hơn rất cần thiết cho mô hình o Xem xét những dữ liệu biến chúng ta đã sử dụng: bổ sung thêm những dữ liệu biến mới nhƣ dịch vụ mới, chiến dịch liên quan đến dữ liệu biến o Xem xét những phương pháp chúng ta đã sử dụng: ước lượng khả năng thực hiện của mỗi mô hình

Xem lại những giả thiết cơ bản đã đề ra những định nghĩa khuấy động, lọc, điều chỉnh và chiến dịch của Công ty

KẾT LUẬN VÀ ĐỀ NGHỊ

Tiêu đề	Khám phá tri thức trong dữ liệu không gian dựa trên mật độ
Tác giả	Phan Thị Hồng Thu
Người hướng dẫn	TS. Hoàng Xuân Huấn
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2004
Thành phố	Hà Nội

Định dạng
Số trang	85
Dung lượng	2 MB

Tài liệu tham khảo	Loại	Chi tiết
3. IBM : Mining Your Own Business in HealthCare, September 2001 4. IBM : Mining your own business in Retail, August 2001	Khác
8. E. M. Knonr, Outlier and data mining : Finding exceptions in data, octral Thesis, University of British Colombia, 2002	Khác
11. M. May & A Savinov, An intergated for spatral data mining and intertrative visual analisys, Third international conference on data mining, 2002, 51-61	Khác
12. M. M. Breunig, H. P. Kriegel,…, LOF : Indentifying density based local outliers, Proc of Int Conf on Management of data, Dallas, 2000	Khác
13. M. Ankerbt (et all), OPTICS : ordering to indentify the clustering structure,, Proc ACM SIGMOD’99 Int Conf on Management of data, Philadenphia, 1999	Khác
14. P. Adrians, D. Zantriage, Dta mining, Addison Wesley Lanyman, 1996 15. Tian Zhang (et all), BIRCH : An efficient data clustering method forvery large database, SIGMOD’96, Canada, 1996, 103-115	Khác
16. U. M. Fayyad,…, Advanced in knowledge discovery in database, MIT Press, 1996-----------------------	Khác