Định nghĩa:

Cho: D1, D2, … , Dn là tập giá trị rời rạc x1, x2, … , xn là các biến chạy trên tập D đó.

Mô hình dữ liệu đa chiều là một ánh xạ từ tích Đề-các các miền định nghĩa D1 x D2 x … x Dn là một tập con các số thực U R:

F: B→ U

Ở đây B = D1 x D2 x … x Dn; D1 = Dom(x1), D2 = Dom(x2), …, Dn = Dom(xn), và U R. B là miền giá trị và U là tập giá trị của ánh xạ f.

Nếu chúng ta xem bộ giá trị (x1, x2, … , xn) như là một điểm trong không gian n-chiều, và f(x1, x2, … , xn) là giá trị số tương ứng của điểm đó thì số điểm có trong mô hình dữ liệu này là: Card(D1) x Card(D2) x ... x Card(Dn)

Ví dụ: với n=3, mô hình dữ liệu đa chiều ở đây là một khối hộp chữ nhật, còn gọi là các Cube, trong đó bộ (x1,x2,x3) tương ứng với các tọa độ trong không gian ba chiều và f(x1,x2,x3) là giá trị của các ô trong khối hộp chữ nhật đó. Biểu diễn hình học các chiều như trong hình:

Hình 3.2: Biểu diễn hình học cho mô hình dữ liệu n-chiều (với n=3)

Mỗi miền định nghĩa một chiều, do đó chúng ta có thể biến đổi một bảng hai chiều trong một cơ sở dữ liệu (CSDL) sang mô hình dữ liệu n-chiều:

Hình 3.3: Biến đổi bảng 2 chiều sang mô hình dữ liệu n-chiều 2.4.3.2 Các thao tác trên các chiều của MDDM

Chúng ta có thể thao tác trên một, hai hay một số chiều của MDDM bằng cách cố định các chiều còn lại với những giá trị cụ thể. Điều này có thể được xem như một phép chiếu có tham số trên một số chiều của MDDM.

Ví dụ: giả sử chúng ta có n-1 giá trị xác định ' 2 2 D

x ∈ , ' 3

3 D

x ∈ , …, xn' ∈Dn

và một ánh xạ g định nghĩa như sau:

g(X1) = f(X1, X2 = X2’, …, Xn = Xn’), với ∀x1 ∈D1.

Thì g(x1) sẽ là 1 bảng dữ liệu 1 chiều (y1,y2, … yk). Ở đây k = Card (D1).

Tương tự, nếu chúng ta cố định n-2 chiều D1, D2, … , Dn với những giá trị cụ thể 3 " 3 D x ∈ , " 4 4 D x ∈ , …, xn"∈Dn thì ánh xạ trên 2 chiều D1 và D2: g(x1,x2) = f(x1, x2,x3 = x3”, …, xn”= xn”) với ∀x1 ∈D1, ∀x2 ∈D2

sẽ cho chúng ta một bảng dữ liệu hai chiều k dòng ứng với k giá trị của miền D1 và l cột tương ứng với l giá trị của miền D2.

Tương tự như vậy, chúng ta có thể định nghĩa phép trích m chiều từ MDDM f n-chiều ban đầu.

Vì các bảng dữ liệu được trích là các giá trị thuộc không gian số thực R nên chúng ta có thể áp dụng các phép tính tổng trung bình cộng min, max phương sai và độ lệch chuẩn cho các giá trị của các ô trên 1 cột (khi cho x1 biến thiên trong miền D1 và cố định các miền khác tại một giá trị cụ thể), hoặc trên các ô của một dòng (khi cho x2 biến thiên trong miền D2 và cố định các miền khác tại một giá trị cụ thể) hoặc cho các giá trị của tất cả các ô trong bảng này và kết quả tính toán cũng sẽ là một số thực. Kết quả của các phép toán trên đều là các số thực.

Vận dụng mô hình dữ liệu n-chiều cho một ví dụ đơn giản về điều tra đời sống dân cư. Giả sử chúng ta có 2 miền định nghĩa D1 = { 101, 102, 103, 104, 105, 106} ứng với danh sách các mã số hộ điều tra và D2 = {“tivi”, “tủ lạnh”, “xe máy”, “máy giặt”, “điều hòa nhiệt độ”} ứng với việc sở hữu các tiện nghi sinh hoạt. Nếu định nghĩa ánh xạ f: D1 x D2 →n thì chúng ta có bảng theo dõi về số lượng tiện nghi của từng hộ; Nếu f: D1 x D2 → {0, 1} thì f cho kết quả là bảng theo dõi việc có (1) hay không (0) tiện nghi của từng hộ. Giả thiết hộ 101 có tivi, xe máy, điều hòa nhiệt độ; hộ 102 có tivi, tủ lạnh, máy giặt; hộ 103 có tivi, máy giặt; hộ 104 có tủ lạnh, xe máy và hộ 105 có tivi, tủ lạnh, xe máy, máy

giặt, điều hòa nhiệt độ; hộ 106 có tivi, tủ lạnh và xe máy. Kết quả hàm f là một bảng 2 chiều sau đây:

Mã số hộ Có ti vi Có tủ lạnh Có xe máy Máy giặt Điều hòa nhiệt độ

101 1 0 1 0 1 102 1 1 0 1 0 103 1 0 1 1 0 104 0 1 1 0 0 105 1 1 1 1 1 106 1 1 1 0 0

Bảng 3.5: Dữ liệu điều tra việc sở hữu các tiện nghi

Cộng theo hàng dọc chúng ta biết được số lượng hộ chia theo tiện nghi sinh hoạt. Cộng theo hang ngang chúng ta biết được số lượng tiện nghi của từng hộ gia đình. Bây giờ chúng ta định nghĩa một mô hình µ trên chiều D2 như sau:

Số lượng mục cần xét là 2. Khi đó µ(“tivi”) = 1; µ(“tủ lạnh”) = 1; µ(“xe máy”) = 0; µ(“máy giặt”) = 0; µ(“điều hòa nhiệt độ”) = 0. µ(D2) = (1,1,0,0,0).

Định nghĩa phép chiếu g trên miền giá trị D1 như sau:

Ở đây c là số mục được xét (c = 2). Khi đó g(x1) là một bảng một chiều:

g(x1) = {0,1,0,0,1,1}. Số lượng giá trị 1 trong vector g(x1) phản ánh số hộ gia đình có đồng thời cả 2 tiện nghi sinh hoạt là “ti vi” và “tủ lạnh”.

Bằng các tạo các ánh xạ (MDDM) mới, các phép toán số học cũng như các hàm tích hợp trên các ánh xạ đó, chúng ta có thể đạt được các phân tích thú vị trên các bảng của CSDL. Mô hình dữ liệu n-chiều được sử dụng rất thích hợp cho việc phân tích dữ liệu thống kê. Công cụ phân tích dữ liệu trực tuyến OLAP của Microsoft phát triển dựa trên mô hình dữ liệu này.

2.4.4 Khoảng cách ngắn nhất

Đây là phương pháp xem các mẫu tin như là những điểm trong không gian dữ liệu đa chiều. Áp dụng ý tưởng này có thể xác định khoảng cách giữa hai mẫu tin trong không gian dữ liệu như sau: các mẫu tin có liên hệ với nhau thì rất gần nhau. Các mẫu tin ở xa nhau thì có ít điểm chung. Cơ sở dữ liệu mẫu chứa cá thuộc tính như tuổi, thu nhập và tín dụng. Ba thuộc tính mẫu này thành lập nên không gian dữ liệu ba chiều và có thể phân tích các khoảng cách giữa các mẫu tin trong không gian này.

Khách hàng 1 32 40.000 10.000

Khách hàng 2 24 30.000 2.000

8 10 8

Bảng 3.6: Mẫu dữ liệu khách hàng

Khoảng cách hai khách hàng được tính

15 8 10

82 + 2 + 2 =

Hình 3.4: Các mẫu tin biểu diễn thành điểm trong một không gian bởi các thuộc tính của chúng và khoảng cách giữa chúng có thể được đo

Ví dụ: Tuổi phạm vi: 1→ 100, trong khi thu nhập khoảng từ 0 → 100.000 dollar mỗi tháng. Nếu dùng dữ liệu này mà không hiệu chỉnh cho đúng thì thu nhập sẽ là một thuộc tính dễ phân biệt hơn rất nhiều so với tuổi và đây là điều mà chúng ta không mong muốn. Vì vậy chia thu nhập cho 1000 để đạt tới một đơn vị đo độ lớn như là tuổi. Làm tương tự cho thuộc tính tín dụng. Nếu độ đo tất cả thuộc tính cùng một độ đo, sẽ có một độ đo khoảng cách đáng tin cậy để đo các mẫu tin khác nhau. Trong ví dụ sẽ dùng độ đo Enclidean, khoảng cách giữa khách hàng 1 và khách hàng 2 là 15.

2.4.5 K-Láng giềng gần nhất

Khi đã thông dịch các mẫu tin thành các điểm trong một không gian dữ liệu nhiều chiều, chúng ta có thể định nghĩa khái niệm của “láng giềng”:

Các mẫu tin ở gần nhau là láng giềng của nhau

Giả sử ta muốn dự đoán thái độ của một tập khách hàng từ một cơ sở dữ liệu với những mẫu tin mô tả những khách hàng này. Giả thuyết cơ sở đòi hỏi để làm một dự án là những khách hàng cùng loại sẽ có cùng thái độ. Trong thuật ngữ ẩn dụ của không gian dữ liệu đa chiều, một kiểu chỉ là một vùng trong không gian dữ liệu này. Mặt khác, các mẫu tin cùng kiểu sẽ gần nhau trong không gian dữ liệu: chúng sẽ là láng giềng của nhau. Dựa vào hiểu biết này, để phát triển một thuật toán mạnh nhưng rất đơn giản - thuật toán k-láng giềng gần nhất. Lý thuyết cơ sở của k-láng giềng gần nhất là “làm như láng giềng của bạn đã làm”. Nếu muốn dự đoán thái độ của một các nhân cụ thể, bắt đầu nhìn vào thái độ của mười người gần gũi với anh ta trong không gian dữ liệu. Tính trị trung bình về thái độ của 10 người này, và trị trung bình này sẽ là cơ sở dự đoán cho cá nhân của anh ta. Chữ k trong k-láng giềng gần nhất đại diện cho số láng giềng điều tra.

K-láng giềng gần nhất đơn giản thật sự không là một kỹ thuật học mà là một phương pháp tìm kiếm thuần túy bởi vì tập dữ liệu bản than nó được dùng chỉ để

tham khảo. Nó không thể tạo ra một lý thuyết trong lĩnh vực datamining mà giúp hiểu cấu trúc tốt hơn. Ví dụ như, nếu muốn ra một quyết định cho mỗi yếu tố trong tập dữ liệu chứa n mẫu tin, thì cần phải so sánh mẫu tin với các mẫu tin khác. Điều này dẫn đến độ phức tạp bậc 2, đặc biệt cho tập cơ sở dữ liệu lớn. Nếu muốn làm một sự phân tích k-láng giềng gần nhất đơn giản đối với một cơ sở dữ liệu có một triệu mẫu tin, phải thực hiện một ngàn tỷ phép so sánh. Cách tiếp cận như vậy rõ rang là không tốt mặc dầu có nhiều kết quả nghiên cứu đã giúp tăng tốc độ của quá trình tìm kiếm này. Tóm lại các thuật toán data mining không nên có độ phức tạp tính toán lớn hơn n*log(n) (trong đó n là số các mẫu tin). Trong thực tế chúng ta ít dùng kỹ thuật k-láng giềng gần nhất.

Một ví dụ dùng thuật toán k-láng giềng:

Bảng 3.7: Một số ví dụ dùng kỹ thuật k-láng giềng

2.4.6 Phân cụm

Gom cụm dữ liệu là hình thức học không giám sát trong đó các mẫu học chưa được gán nhãn. Mục đích của gom cụm dữ liệu là tim những mẫu đại diện hoặc gom dữ liệu tương tự nhau (theo một chuẩn đánh giá nào đó) thành những cụm. Các điểm dữ liệu nằm trong các cụm khác nhau có độ tương tự thấp hơn các điểm dữ liệu nằm trong một cụm.

Phân tích cụm có nhiều ứng dụng rộng rãi, bao gồm nghiên cứu thị trường, nhận dạng mẫu, phân tích dữ liệu và xử lý ảnh. Trong kinh doanh, phân tích cụm có thể giúp các nhà marketing khám phá sự khác nhau giữa các nhóm khách hàng dựa trên thông tin khác hàng và các đặc trưng của các nhóm khách hàng dựa trên các mẫu mua hàng. Trong sinh học, nó có thể được sử dụng để phân loại thực vật và động vật, các mẫu gen với các chức năng tương tự nhau. Phân tích cụm còn có thể phân loại đất theo công năng hoặc thực tế sử dụng để có chính sách qui hoạch phù hợp, phân loại các tài liệu trên Web.

Các yêu cầu cơ bản của phân tích cụm trong KTDL:

 Có khả năng làm việc hiệu quả với lượng dữ liệu lớn: Phân tích cụm trên một mẫu của dữ liệu lớn có thể dẫn đến các kết quả thiên lệch. Cần phải có các thuật toán phân cụm trên CSDL lớn.

 Có khả năng xử lý các dạng dữ liệu khác nhau: Nhiều thuật toán được thiết kế để xử lý dữ liệu bằng số. Tuy nhiên, các ứng dụng có thể yêu cầu phân tích cụm các dạng dữ liệu khác, như dữ liệu nhị phân, phân loại, trật tự hay sự trộn lẫn của các kiểu dữ liệu.

 Có khả năng khám phá ra các cụm với các dạng bất kỳ: Nhiều thuật toán phân cụm dựa trên các số đo khoảng cách Euclide hay Manhattan. Các thuật

toán dựa trên các số đo khoảng cách có xu hướng tìm các cụm hình cầu với kích thước và mật độ tương tự nhau. Tuy nhiên, một cụm (cluster) có thể có hình dạng bất kỳ. Do đó cần phát triển các thuật toán để tìm các cluster hình dạng bất kỳ.

 Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham số đầu vào: Nhiều thuật toán phân cụm đòi hỏi người dùng nhập các tham số trong phân tích cụm. Các kết quả phân cụm có thể bị ảnh hưởng vào các tham số đầu vào. Các tham số thường khó xác định, đặc biệt đối với các tập dữ liệu chứa các đối tượng dữ liệu nhiều chiều.

 Có khả năng làm việc với dữ liệu nhiễu.

 Không bị ảnh hưởng vào thứ tự nhập của dữ liệu.

 Làm việc tốt trên CSDL có số chiều cao.

 Chấp nhận các ràng buộc do người dùng chỉ định

 Có thể hiểu và sử dụng được các kết quả gom cụm

Ở phần này chỉ giới thiệu sơ qua về kỹ thuật phân cụm, chi tiết hơn về kỹ thuật này sẽ được giới thiệu trong chương 4.

2.4.7 Kỹ thuật hiển thị dữ liệu

Kỹ thuật hiển thị dữ liệu là một phương pháp rất hữu hiệu trong việc phát hiện các mẫu trong tập dữ liệu và có thể dùng khi bắt đầu tiến trình khai phá dữ liệu để có thể cảm nhận được giá trị của tập dữ liệu và các mẫu sẽ được tìm thấy ở đâu. Những khả năng này được cung cấp bằng các công cụ hiển thị hướng đối tượng 3 chiều cho phép người sử dụng khai phá các cấu trúc tương tác 3 chiều.

Hiện nay, kỹ thuật đang được phát triển bằng kỹ thuật đồ họa cao cấp trong thực tế ảo, cho phép người quan sát không gian dữ liệu nhân tạo, cùng lúc biến đổi tập dữ liệu. Tuy nhiên đối với hầu hết người sử dụng kỹ thuật này không thể truy xuất mà phải nhờ vào các kỹ thuật đồ họa đơn giản có trong đó những công cụ truy vấn tin hoặc những công cụ data mining. Phương pháp đơn giản này có thể cung cấp một lượng thông tin có giá trị. Một kỹ thuật cơ bản và có giá trị cao là lược đồ phân tán: trong kỹ thuật này thông tin trên hai thuộc tính được hiển thị trong không gian Descartes. Các lược đồ phân tán có thể được sử dụng để nhận dạng tập con dữ liệu đáng quan tâm, vì thế chúng ta chỉ còn tập trung vào phần còn lại của quá trình data mining.

Hình 3.6: Đồ thị dựa vào hai độ đo

Trong ví dụ hình trên, chúng ta đã tạo đồ thị dựa vào hai độ đo: thu nhập và tuổi. Ta thấy rằng những người tuổi trung bình có thu nhập thấp sẽ có khuynh hướng đọc các tạp chí âm nhạc. Một phương pháp khám phá tập dữ liệu tốt hơn rất nhiều là thông qua môi trường tương tác 3 chiều và hình 3.7 minh họa khả năng này.

Hình 3.7: Đồ thị tương tác 3 chiều

2.4.8 Mạng Neural

2.4.8.1 Tổng quan

Mạng neural nhân tạo (Artificial Neural Network - ANN) là một mô hình xử lý thông tin dựa trên cơ chế hoạt động của hệ thống thần kinh sinh học, như não bộ. Thành phần chính yếu của mô hình này là cấu trúc đặc biệt của hệ thống này. Nó tập hợp một số lượng lớn các phần tử xử lý kết hợp nội tại (được gọi là các neuron) hoạt động hợp nhất để giải quyết các bài toán cụ thể. Một ANN sẽ được cấu hình cho một ứng dụng cụ thể nào đó, ví dụ như nhận dạng mô hình hoặc phân loại dữ liệu thông qua quá trình học. Việc học trong hệ thống nhằm mục đích điều chỉnh các kết nối thuộc kỳ tiếp hợp được phân chia trong tế bào mà đã có sẵn giữa các neuron.

Neuron nhân tạo đầu tiên được tạo ra vào năm 1943 bởi nhà nghiên cứu neuron học Warren McCulloch và nhà logic học Walter Pits. Nhưng kỹ thuật thời đó không cho phép neuron phát triển được các thế mạnh của nó. Mạng neuron này nay có nhiều cải tiến cũng như đáp ứng được các yêu cầu đặt ra của các bài toán, một số ưu điểm của mạng neuron ngày nay so với thời trước là:

1. Học thích ứng: có khả năng học cách thức thực hiện công việc dựa trên các dữ liệu cho sẵn trong quá trình huấn luyện hoặc định các thông số ban đầu

2. Khả năng tự tổ chức: một ANN có thể tự thân tổ chức hoặc miêu tả các thông tin mà nó nhận được trong suốt thời gian học

Phương pháp khai phá dữ liệu

Các kiểu cây quyết định