Tiền xử lý dữliệu trƣớc khi khai phá

Khái niệm về dữ liệu

• Dữ liệu là tập hợp cácđối tƣợng và thuộc tính của nó.

• Một thuộc tính là một tính chất hoặc một đặc điểm của đối tƣợng.

– Ví dụ: màu mắt của một ngƣời, nhiệt độ...

– Thuộc tính cũng đƣợc gọi là biến, trƣờng, đặc tính, đặc điểm.

• Một tập các thuộc tính mô tả một đối tƣợng.

– Đối tƣợng cũng đƣợc gọi là bản ghi (record), điểm (point), trƣờng hợp (case),

mẫu (sample), thực thể (entity) hoặc một thể hiện (instance)

Ví dụ: bảng sau đây cung cấp một dữ liệu gồm 10 đối tƣợng tƣơng ứng với 10hàng trong bảng,

và 5 thuộc tính tƣơng ứng với 5 cột trong bản

Giá trị thuộc tính

• Giá trị thuộc tính là số hoặc ký hiệu đƣợc gán cho một thuộc tính.

• Phân biệt giữa thuộc tính và giá trị thuộc tính.

– Thuộc tính giống nhau có thể ánh xạđến các giá trị thuộc tính khác nhau. Ví dụ: chiều cao có thể đo bằng các đơn vị đo lƣờng khác nhau nhƣ feet của Anh hoặc mét.

Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10

112

– Các thuộc tính khác nhau có thểđƣợc ánh xạ tới cùng một tập giá trị. Ví dụ: giá trị thuộc tính định danh ID và tuổi đều là số tự nhiên. Nhƣng tính chất của giá trị

thuộc tính có thể khác nhau ví dụ nhƣ ID không có giới hạn nhƣng tuổi thì có giới hạn lớn nhất và nhỏ nhất.

Các loại kiểu thuộc tính

– Tên (Nominal) Ví dụ : sốđịnh danh ID, màu mắt, mã vùng (zip codes_

– Thứ tự (Ordinal) Ví dụ: xếp loại (e.g., vị của món khoai tây rán trong khoảng từ 1- 10); cấp: chiều cao {cao, trung bình, thấp}

– Khoảng (Interval) Ví dụ: nhiệt độ theo độ C hoặc độ F (Fahrenheit)

– Tỉ lệ (Ratio) Ví dụ: độ Kelvin, chiều dài, thời gian..

Thuộc tính có nhiều loại khác nữa, bất kể một miền giá trị nào thỏa mãn những đặc tính dƣới đây

đều đƣợc coi là kiểu thuộc tính

Kiểu của một giá trị thuộc tính phụ thuộc vào một số tính chất

– Tính riêng biệt (Distinctness): thực hiện đƣợc các phép = 

– Tính thứ tự (Order): thực hiện đƣợc các phép < >

– Tính cộng (Addition): thực hiện đƣợc các phép + -

– Tính nhân (Multiplication): thực hiện đƣợc các phép * / Ví dụ: - Thuộc tính tên (Nominal attribute) có tính riêng biệt

– Thuộc tính thứ tự có tính riêng biệt và tính thứ tự

– Thuộc tính khoảng có tính riêng biệt, tính thứ tự và tính cộng

- Thuộc tính tỉ lệ: cả 4 tính chất trên.

113

Các thuộc tính liên tục và rời rạc

• Thuộc tính rời rạc là các thuộc tính thỏa mãn những tiêu chí sau

– Chỉ có một tập hữu hạn hoặc vô hạn đếm đƣợc các giá trị. Ví dụ: mã vùng, số đếm, hoặc tập các từtrong văn bản

– Thƣờng đƣợc biểu diễn bằng các biến nguyên

– Lƣu ý: Các thuộc tính nhịphân là trƣờng hợp đặc biệt của thuộc tính rời rạc

• Thuộc tính liên tục là các thuộc tính thỏa mãn những tiêu chí sau

– Giá trị thuộc tính là những số thực.Ví dụ: nhiệt độ, độ cao, cân nặng.

– Thực tế, các giá trị thực chỉ có thểđƣợc đo và đƣợc biểu diễn bằng cách sử dụng một số hữu hạn các chữ số.

– Thuộc tính liên tục thông thƣờng đƣợc biểu diễn bằng các biến số thực. Các kiểu tập dữ liệu

• Kiểu bản ghi (Record) bao gồm

– Ma trận dữ liệu: dạng ma trận hai chiều

– Dữ liệu văn bản

– Dữ liệu giao dịch chứa thông tin về các giao dịch gồm các thuộc tính khác nhau

• Kiểu đa quan hệ (Multi-Relational) trong đó mỗi dữ liệu là dạng lƣợc đồ hình sao hoặc

114

• Kiểu Đồ họa(Graph) trong đó mỗi dữ liệu là một trang Web trong hệ thống World Wide

Web hoặc là một cấu trúc phân tử trong hóa sinh học

• Kiểu có thứ tự(Ordered) trong đó

– Dữ liệu không gian: mỗi dữ liệu là thể hiện đặc điểm trong không gian

– Dữ liệu thời gian: mỗi dữ liệu là thể hiện đặc điểm thời gian.

– Dữ liệu tuần tự: thể hiện một chuỗi có thứ tựcác đối tƣợng

Các đặc điểm quan trọng của dữ liệu có cấu trúc

– Đa chiều: số chiều của dữ liệu chính là số các thuộc tính mà mỗi đối tƣợng đƣợc mô tả.

• Thách thức: quá nhiều chiều sẽ gây nhiều khó khăn

– Tính thƣa thớt: Dữ liệu thƣa thớt là dữ liệu mà giá trị nhiều thuộc tính bằng 0.

Thách thức: dữ liệu thƣa thớt yêu cầu xửlý đặc biệt

– Dải phạm vi của thuộc tính

• Các thuộc tính dữ liệu thƣờng đƣợc đo bằng các dải giá trị khác nhau

• Thách thức: Quyết định một dải tốt nhất là một công việc khó

Dạng dữ liệu bản ghi

• Dữ liệu bao gồm nhiều bản ghi, mỗi bản ghi lại chứa 1 tập các thuộc tính giống trong cơ

sở dữ liệu quan hệ

Dạng ma trận dữ liệu

• Nếu các đối tƣợng dữ liệu có cùng một tập cốđịnh số các thuộc tính, thì các đối tƣợng dữ

liệu có thể đƣợc coi là điểm trong một không gian đa chiều, nơi mà mỗi chiều đại diện cho một thuộc tính khác biệt

• Tập dữ liệu nhƣ vậy có thể đƣợc đại diện bởi một ma trận m x n, m hàng, mỗi hàng là

một đối tƣợng, và n cột, mỗi cột là một thuộc tính

• Ví dụ về ma trận dữ liệu đƣợc thể hiện trong bảng sau trong đó có 2 hàng và 5 cột

Dữ liệu văn bản

• Mỗi văn bản tài liệu sẽ trở thành một vectơ các thuật ngữ hay từ khóa

1.1 2.2 16.22 6.25 12.65 1.2 2.7 15.22 5.27 10.23 Thickness Load Distance Projection of y load Projection of x Load 1.1 2.2 16.22 6.25 12.65 1.2 2.7 15.22 5.27 10.23 Thickness Load Distance Projection of y load Projection of x Load

115

– Mỗi từ khóa là một thành phần (thuộc tính) của vecto,

– Giá trị của mỗi thành phần là số lần từ khóa tƣơng ứng xuất hiện trong tài liệu

Ví dụ của dữ liệu loại này đƣợc thể hiện trong hình vẽ dƣới đây trong đó có 3 tài liệu, mỗi tài

liệu đƣợc biểu diễn bằng vecto 10 chiều, mỗi chiều ứng với một từ khóa, chứa số lần xuất hiện của mỗi từkhóa đó trong tài liệu tƣơng ứng

Dữ liệu giao dịch

• Là một kiểu dữ liệu bản ghi đặc biệt, mà mỗi bản ghi (giao dịch) bao gồm một tập các mục Ví dụ: Xét một cửa hàng tạp hóa trong đó bộ các sản phẩm mà khách hàng mua trong một lần đi

mua sắm gọi là một giao dịch, mỗi sản phẩm gọi là một mặt hàng, thể hiện trong hình vẽ dƣới

đây, mỗi hàng là thông tin của một giao dịch trong đó cột 1 chỉ mã số giao dịch, cột 2 chứa các

mặt hàng đƣợc mua trong giao dịch đó.

Dữ liệu đa quan hệ

Tài liệu 1 se a so n time o u t lo st w i n g a me sc o re b a ll p la y co a ch te a m Tài liệu 2 Tài liệu 3 3 0 5 0 2 6 0 2 0 2 0 0 7 0 2 1 0 0 3 0 0 1 0 0 1 2 2 0 3 0 TID Items

1 Bread, Coke, Milk 2 Beer, Bread

3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk

116

Trong loại dữ liệu này, mỗi đối tƣợng chính là một quan hệ, các thuộc tính của mỗi đối tƣợng chính là quan hệ. Ví dụ nhƣ sau trong đó 3 bảng quan hệ và 2 mối quan hệ giữa chúng thể hiện

một dữ liệu đa quan hệ, thuộc tính của đối tƣợng này là 3 quan hệ và 2 mối quan hệ thể hiện

bằng hai mũi tên đen trong hình vẽ.

Dữ liệu đồ thị

Mỗi đối tƣợng trong loại này là một đồ thị, thuộc tính của chúng là các nút và kết nối giữa các

nút đó. Ví dụ một đồ thị tổng quát và liên kết HTML nhƣ sau là dạng dữ liệu đồ thị

Dữ liệu hóa học

Mỗi đối tƣợng của loại này có thể là một cấu trúc phân tử của một chất nào đó. Ví dụ nhƣ cấu

trúc phân tử của Benzene C6H6 đƣợc thể hiện trong hình vẽdƣới đây

5 2 1 2 5 <a href="papers/papers.html#bbbb"> Data Mining </a>

<li>

<a href="papers/papers.html#aaaa"> Graph Partitioning </a>

<li>

Parallel Solution of Sparse Linear System of Equations </a> <li>

117

Dữ liệu có thứ tự

Là một chuỗi các giao dịch hay các chuỗi di truyền DNA, ví dụnhƣ hình vẽdƣới đây

Chất lƣợng dữ liệu

Nói đến chất lƣợng của dữ liệu, chúng ta quan tâm tới giải quyết 3 câu hỏi liên quan dƣới đây

- Về chất lƣợng dữ liệu bao gồm những kiểu vấn đề gì?

- Làm thế nào chúng ta có thể phát hiện những vấn đề với dữ liệu?

- Chúng ta có thể làm gì với những vấn đề này?

Một số ví dụ về vấn đề chất lƣợng dữ liệu nhƣ dữ liệu có nhiễu và yếu tố ngoại lai hay dữ liệu có một số giá trị bị mất, hay dữ liệu bị lặp lại

Dữ liệu có nhiễu

Nhiễu liên quan tới sựthay đổi của các giá trị nguyên gốc ban đầu, một ví dụ về nhiễu là sự méo

tiếng của một ngƣời đang nói chuyện đƣợc thể hiện trong hình vẽ dƣới đây (bên trái thể hiện

giọng nói bởi hai sóng hình sin, bên phải thể hiện giọng nói bị méo đi do có nhiễu

GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG

118

Dữ liệu có thành phần ngoại lai

Thành phần ngoại lai là các đối tƣợng dữ liệu có các đặc điểm khác biệt nhiều so với các đối

tƣợng khác trong cùng một tập dữ liệu. Ví dụdƣới đây biểu diễn thành phần ngoại lai màu đỏ

Dữ liệu bị thiếu giá trị

Trƣờng hợp này là do thông tin không đƣợc thu thập đầy đủ (ví dụnhƣ có ngƣời từ chối không

đƣa chiều cao và cân nặng của họ cho ngƣời đi thu thập dữ liệu) hoặc do các thuộc tính có thể

không đƣợc áp dụng cho mọi trƣờng hợp (ví dụnhƣ thuộc tính thu nhập hàng năm không đƣợc

áp dụng cho trẻ em)

Để giải quyết vấn đề thiếu giá trị này chúng ta có một sốcách nhƣ loại bỏ các đối tƣợng dữ liệu bị thiếu đó hoặc ƣớc lƣợng để điền vào những giá trị còn thiếu, hoặc có thể bỏ qua những giá trị

119

Dữ liệu bị lặp lại Các tập dữ liệu có thể bao gồm các đối tƣợng dữ liệu là bản sao của nhau, hoặc gần nhƣ là bản sao của nhau. Lý do chính của việc lặp lại này là khi kết hợp dữ liệu từ các nguồn khác nhau.Ví dụ: cùng một ngƣời có nhiều địa chỉ email.

Để giải quyết vấn đề này chúng ta có thể làm sạch dữ liệu thông qua các tiến trình xử lý các vấn

đề về trùng lặp dữ liệu.

Tiền xử lý dữ liệu

Do dữ liệu có những vấn đềnên trên nên trƣớc khi áp dụng các thuật toán khai phá dữ liệu chúng ta cần thực hiện việc tiền xử lý dữ liệu. Các công việc đó bao gồm các kỹ thuật sau:

• Tích hợp

• Lấy mẫu

• Giảm số chiều

• Lựa chọn tập thuộc tính con đặc trƣng • Tạo mới thuộc tính đặc trƣng

• Rời rạc hóa và nhị phân hóa

• Chuyển đổi các thuộc tính

Kỹ thuật tích hợp

Là kết hợp 2 hay nhiều thuộc tính (đối tƣợng) thành 1 thuộc tính (đối tƣợng) đơn nhằm mục

đích:

– Giảm dữ liệu do giảm sốlƣợng thuộc tính hoặc đối tƣợng

– Thay đổi quy mô ví dụ các thành phố kết hợp thành các vùng, tiểu bang, nƣớc…

– Làm dữ liệu ổn định hơn do dữ liệu tổng hợp có xu hƣớng ít bị biến đổi hơn Kỹ thuật lấy mẫu (Sampling)

- Lấy mẫu là kỹ thuật chính đƣợc sử dụng cho việc lựa chọn dữ liệu. Nó thƣờng đƣợc dùng cho cả việc điều tra sơ bộ dữ liệu và phân tích dữ liệu cuối cùng.

- Nhà thống kê lấy mẫu bởi vì việc thu đƣợc tập dữ liệu toàn bộ theo mong muốn là quá

đắt hoặc tiêu tốn nhiều thời gian.

- Lấy mẫu đƣợc dùng trong khai phá dữ liệu vì việc xử lý tập dữ liệu toàn bộ là quá tốn kém

- Nguyên tắc quan trọng cho việc lấy mẫu hiệu quả là:

o Sử dụng các mẫu sẽ làm việc tốt gần nhƣ với các tập dữ liệu toàn bộ, nếu lấy các

120

o Một mẫu gọi là điển hình nếu nó có các tính chất gần giống nhƣ tập dữ liệu ban

đầu - Các kiểu lấy mẫu

o Lấy mẫu ngẫu nhiên đơn giản: Lựa chọn một item bất kỳ có xác suất bằng nhau

o Lấy mẫu mà không thay thế: khi một item đƣợc chọn, nó sẽ bị xóa khỏi tập hợp

o Lấy mẫu và thay thế: Đối tƣợng sẽ không bị xóa khi nó đƣợc chọn để lấy mẫu

 Trong lấy mẫu có thay thế, cùng một đối tƣợng có thể đƣợc chọn nhiều

hơn một lần

o Lấy mẫu phân tầng: Chia nhỏ dữ liệu thành nhiều phân vùng, sau đó rút ra các

mẫu ngẫu nhiên từ mỗi phân vùng

Những khó khăn của tính chất đa chiều

- Khi số chiều tăng lên, dữ liệu sẽcàng thƣa thớt trong không gian mà nó chiếm

- Việc định nghĩa mật độ và khoảng cách giữa các điểm, một điều quan trọng trong

việc phân cụm và phát hiện thành phần ngoại lai, trởnên kém ý nghĩa

- Sự phụ thuộc của mật độ và khoảng cách giữa các điểm đối với số lƣợng các chiều

đƣợc thể hiện trong hình vẽdƣới đây.

- Ngẫu nhiên tạo ra

500 điểm

- tính toán sự khác

biệt giữa khoảng

cách max và min

giữa 2 điểm bất kỳ

Kỹ thuật giảm số chiều

• Mục đích:

– Tránh các khó khăn vềđa chiều

– Giảm thiểu thời gian và dung lƣợng bộ nhớ cho các thuật toán khai phá dữ liệu

121

– Có thể giúp loại bỏcác đặc điểm không liên quan hoặc làm giảm nhiễu

• Các kỹ thuật

– Phân tích thành phần chính (không trình bày trong chƣơng trình, gợi mởđể sinh

viên đọc thêm tài liệu nếu muốn)

– Phân ly giá trịđơn (không trình bày trong chƣơng trình gợi mởđể sinh viên đọc thêm tài liệu nếu muốn)

– Kỹ thuật khác: Kỹ thuật giám sát và phi tuyến

Kỹ thuật lựa chọn tập con các đặc tính

đây là một cách để giảm số chiều dữ liệu

- Có thể loại bỏ các đặc tính dƣ thừa: những đặc tính dƣ thừa là những đặc tính trùng lặp nhiều hoặc tất cả các thông tin đó có chứa trong một hoặc nhiều thuộc tính khác. Ví dụ: giá mua của một sản phẩm và số tiền thuếbán hàng đã nộp

- Có thể loại bỏ các đặc điểm không liên quan: các đặc tính không liên quan là các đặc tính không chứa thông tin hữu ích cho việc khai phá dữ liệu. Ví dụ: định danh hay mã số (ID)

của sinh viên thƣờng không liên quan đến việc dự đoán điểm trung bình các môn học

(GPA) của sinh viên đó.

- Các kỹ thuật chính để lựa chọn tập con đặc trƣng

o Phƣơng pháp vét cạn (Brute-force) là phƣơng pháp mà chúng ta cần

 Thử tất cả các tập con đặc trƣng có thể làm đầu vào cho thuật toán khai phá dữ liệu

o Các phƣơng pháp nhúng

 Việc lựa chọn đặc trƣng diễn ra một cách tựnhiên nhƣ là một phần của

thuật toán khai phá dữ liệu

o Các phƣơng pháp lọc:

 Các đặc trƣng đƣợc lựa chọn trƣớc khi thuật toán khai phá dữ liệu chạy

o Các phƣơng pháp bọc:

 Sử dụng các thuật toán khai thác dữ liệu nhƣ là một hộp đen để tìm tập con thuộc tính tốt nhất

Kỹ thuật tạo mới đặc tính

- Là cách tạo các thuộc tính mới mà chúng có thể chứa đựng thông tin quan trọng trong một tập dữ liệu có hiệu quảhơn nhiều so với các thuộc tính ban đầu

122

- Ba phƣơng pháp luận chung để tạo đặc tính mới là

o Trích từ một đặc tính ban đầu: cách này phụ thuộc nhiều vào một miền dữ liệu cụ

thể của đặc tính đƣợc trích lọc cũng nhƣ đặc tính đƣợc tạo mới

o Ánh xạ dữ liệu sang một không gian mới

- Xây dựng đặc tính mới bằng cách kết nối các đặc tính gốc khác nhau để tạo đƣợc một đặc tính mới có ích hơn.

Tiền xử lý dữliệu trƣớc khi khai phá

Mô hình dữliệu đa chiều