Luận văn thạc sĩ Công nghệ thông tin: Các phương pháp tiền xử lý dữ liệu cho khai thác dữ liệu và kho dữ liệu

BẢN DỊCH MỘT SÓ THUẬT NGỮAdaptive Duplicate Detection Approach:Tiếp cận phát hiện trùng lắp tương ứng Apex cuboid: Khối đỉnh Base cuboid: Khối cơ sở Central data integration systems: Hệ

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ MINH TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN

Nguyễn Thị Kim Nga

LUAN VAN THAC Si CONG NGHE THONG TIN

Thanh phó Hồ Chí Minh — Năm 2008

Trang 2

Lời cảm ơn

Lời đầu tiên tôi xin bày tỏ lòng biết ơn chân thành đến quý Thay, Cô

đã tận tâm chỉ dạy, cung cấp cho tôi trì thức khoa học và kinh nghiệm quý

báu trong suốt thời gian học tập tại trường.

Tôi xin chân thành cám ơn tập thể giảng viên và chuyên viên trên mạng của Trường Đại Học Công Nghệ Thông Tin, đã tận tình truyền đạt những tri thức quý giá, những công nghệ mới, những vấn dé đang được các nha Tin học

trong và ngoài nước quan tâm nghiên cứu, thực hiện.

Toi xin bày tỏ lòng biết on chân thành đến Tiến sĩ Nguyễn Dinh Thuân,

là giảng viên hướng dẫn, đã bôi dưỡng kiến thức, cung cấp tài liệu can thiết, truyền đạt kinh nghiệm và thường xuyên động viên, khích lệ dé tôi hoàn thành

tập luận văn này.

Sau cùng, xin được gởi lời cảm ơn đến Ban Giám Hiệu Trường Đại Học Công Nghệ Thông Tin cùng toàn thể cán bộ công nhân viên của Trung

tâm đã tạo mọi điều kiện thuận lợi cho tôi trong quá trình học tập cũng như

trong quá trình thực hiện luận văn này.

Nguyễn Thị Kim Nga

Trang 3

1.2 Vi sao chất lượng dữ liệu thấp

13 Sự cần thiết của tiền xử ly dữ liệu

2.3.1 Điền day giá trị thiếu

2.3.2 Sửa chữa giá trị nhiêu, bat thường.

2.3.3 Loại trừ trùng lắp dữ liệu

24 Đề nghị hướng điền day giá trị thiếu khác

2.5 Kết luận và hướng cải tiến -: 222222222+ttEEEEEEvrrrrrrrrrrtrrrrrrrrre

Chương 3_ Tích hợp và chuyên đổi dữ liệu.

3.1 Tích hop dữ liệu

3.2 Tích hop di liệu va ontology

3.2.1 Cac ngôn ngữ Ontology

3.2.2 Tích hợp dữ kiệu trên cơ sở ontology

3.2.3 Đề xuất một phương pháp tích hợp dữ liệu lai khác.

3.3 Kết luận “

Chương 4_ Thu gọn dữ liỆu - + 5+ 3xx He

41 Kết tập khối dữ liệu

4.2 Thu gọn kích thước

4.2.1 Lựa chọn tập thuộc tính đặc trưng.

4.2.2 Biến đổi dữ liệu

43 Thu gọn số lượng

43.1 Mô hình hồi qui và logarit tuyến tính

443.2 Biểu đồ

Trang 4

4.3.3 GOm Cụm chàng Hy 74

43.4 Lấy mẫu

44 Phân đoạn dữ liệu và phân cap khái niém

4.4.1 Phan đoạn và phân cấp khái niệm cho dữ liệu số

4.4.2 Phân cấp khái niệm cho dữ liệu Categorical

4.5 Đề xuất hướng thu gọn biểu đồ- thuộc tinh “

4.6 0 1 ẻ 83 Chương 5 Kết luận và hướng phat triển

Tài liệu tham khảo “

00000" ad

Trang 5

DANH MỤC CÁC CHU VIET TAT

ABC : Approximate Bayesian bootstrap

DAML+OIL : DARPA Agent Markup Language-Ontology Interface

Language

DE-SNM : Duplicate Elimination Sorted-Neighborhood Method

DOGMA : Developing Ontology-Grounded Methods and Applications

GaV: Global-as-view

Ginilndex : IBM IntelligenMiner

DWT: Discrete wavelet transform : Biến đổi wavelet rời rac

DFT: Discrete Fourier transform Biến đổi Fourier rời rac

GaV : Global-as-View: Khung nhìn toàn cục

FOL : First-order logic : hệ thống suy diễn chuẩn

F-Logic : Frame Logic

ILA : Inductive Learning Algorithm

KIF : Knowledge Interchange Format

KM: Knowledge Machine

LaV: Local-as-view: Khung nhìn bộ

LRM : Local Relation Model

OCML : Operational Conceptual Modelling Language

OKBC: Open Knowledge Base Connectivity

OWL : Web Ontology Language

PCA : principal components analysis

PEPSINT : PEer-to-Peer Semantic INTegration framework

RDF : Resource Description Framework

RDFS : RDF Schema

SFS : Sequential Forward Selection

LVF : Las Vegas Feature Selection

Sorted-Neighborhood : Sắp xếp lân cận

SRSWR : Simple random sample with replacement: Mau ngau nhién don

giản với sự thay đôi kích thước

SRSWOR : Simple random sample without replacement: Mau ngau nhién đơn giản không có sự thay đôi kích thước s

SHOE: Simple HTML Ontology Extensions

XOL: Ontology Exchange language

Trang 6

BẢN DỊCH MỘT SÓ THUẬT NGỮ

Adaptive Duplicate Detection Approach:Tiếp cận phát hiện trùng lắp tương

ứng

Apex cuboid: Khối đỉnh

Base cuboid: Khối cơ sở

Central data integration systems: Hệ thống tích hợp dé liệu trung tâm

Concept Hierarchies: phân cấp khái niệm

Data cube Aggregation: Kết tập khối dữ liệu:

Discretization: Phân đoạn

Exhaustive or Complete search: Vét cạn hoặc tìm kiếm toàn bộ

Histogram: Biểu đồ

Lossless: Nén không mắt dữ liệu

Lossy: Nén bị mắt dữ liệu

Markup languages: Ngôn ngữ định dạng

Multi-pass sorted neighborhood: Sắp xếp lân cận đa thuộc tính

Pair-wise record-matching: Cặp bản ghi phù hợp

Peer-to-peer data integration systems Hệ thống tích hợp dữ liệu ngang hàng Propensity score : hướng điểm

Stratified sample: Mẫu phân tầng

Stepwise forward selection: Tìm kiếm bé sung

Stepwise backward elimination: Tim kiém loai dan

Semantic: Ngữ nghĩa

Schema: Lược đồ

Trang 7

1 Chương 1

Tông quan

Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật, đã tạo ra nhiều cơ sở dữ liệu khổng lồ Khai phá dữ liệu là tiến trình khám phá các tri thức tiềm an trong các cơ sở dữ liệu Cụ thé hơn đó là tiến trình lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết từ các cơ sở dữ liệu lớn.

Nguồn dữ liệu phục vụ cho Khai thác dữ liệu có thể là các cơ sở dữ liệu lớn hay các kho dữ liệu có hoặc không có cấu trúc Kho dữ liệu là nơi lưu trữ dữ liệu hướng chủ dé, tích hợp, biến đổi theo thời gian, không gian nhằm hỗ trợ tiến trình ra quyết định.

° Dữ liệu “sai lạc/nhiễu”: với những lỗi và những giá trị nằm

bên ngoài vùng khảo sát.

o Dữ liệu không nhất quán: chứa đựng các giá trị không đồng nhất trong code và trong tên

o Dữ liệu trùng lắp.

1.2 Vì sao chất lượng dữ liệu thấp

— _ Dữ liệu được thành lập từ những dữ liệu phác thảo nghèo nàn.

— Sai sót của con người trong quá trình nhập dữ liệu.

— Những lỗi có tính toán.

— Sự mô tả dữ liệu mâu thuẫn và sử dụng mã mâu thuẫn.

— Lỗi trong thiết bị mà dữ liệu ghi.

Trang 8

Sự cần thiết của tiền xử lý dữ liệu

Dữ liệu không chất lượng dẫn đến kết quả khai phá dữ liệu cũng sẽ không chất lượng vì:

o Chất lượng của những quyết định phải đặt căn bản trên chất lượng dữ

liệu

° Nhà kho đữ liệu cần sự tích hợp nhất quán của dữ liệu có chất lượng

Tập dữ liệu thực thường rất lớn, có thể lên đến vài trăm triệu bản ghi, kích thước tập dữ liệu càng lớn thì thời gian và chi phí khai phá càng cao, dé tăng hiệu suất khai phá dữ liệu cần phải thu nhỏ kích thước của tập dữ liệu

Định dạng các tập dữ liệu không phù hợp với yêu cầu định dạng của những công cụ khai phá dir liệu, vì vậy cần phải định dạng lại dữ liệu

Vi vậy, ta cần xử lý trước dữ liệu dé cải tiến chất lượng dữ liệu cho khai phá

dữ liệu cũng như để giảm nhẹ và tăng hiệu quả của quá trình xử lý.

Mục tiêu của luận văn này là nghiên cứu các kỹ thuật tiền xử lý dữ liệu

bao gôm các vẫn dé sau:

Làm sạch dữ liệu: Điền giá trị thiếu, làm phăng những giá trị lỗi, đồng nhất hoặc xóa những dữ liệu bất thường và giải quyết vấn đề mâu thuẫn.

Tích hợp dữ liệu : Tích hợp dữ liệu từ nhiều cơ sở dữ liệu, các khối dữ liệu

hoặc các tập tin dữ liệu vào trong kho dữ liệu.

Chuyển đổi dữ liệu: Chuẩn hóa và kết tập dữ liệu Chuẩn hóa dữ liệu có thé cải tiến các thuật toán khai phá một cách đúng đắn và có hiệu quả.

Thu gọn dữ liệu: Giảm kích thước dữ liệu bằng cách kết tập, hạn chế những điểm dư thừa, hoặc gom cụm cho những dữ liệu có khoảng cách nhưng vẫn bảo đảm cùng kết quả hoặc là kết quả phân tích giống nhau.

Trang 9

Data cleaning

Data integration

Data transformation 2, 32, 100, 59, 48 —» 0.02, 0.32, 1.00, 0.59, 0.48

Data reduction attributes attributes

AI A2 A3 „A26 Al Ad ALIS Tl

T2 Tả T4

transactions

T2000

Hinh 1.1 Các bước tiền xử lý dữ liệu [7]

Những kỹ thuật này không loại trừ lẫn nhau, chúng bồ sung cho nhau, chẳng

hạn: Việc loại bỏ dữ liệu thừa có thê xem như làm sạch dữ liệu cũng như giảm bớt

dữ liệu.

Tóm lại, dữ liệu trong thế giới thực có thể bị nhiễu, không đầy đủ, và mâu thuẫn Những kỹ thuật tiền xử lý dữ liệu có thể tăng chất lượng dữ liệu, do đó nâng cao sự chính xác và hiệu quả của tiến trình khai phá dữ liệu về sau Tiền xử lý dữ liệu là một bước quan trọng trong tiến trình khai phá kiến thức, vì chất lượng quyết định phải đặt trên cơ sở chất lượng dữ liệu Việc phát hiện những dữ liệu không bình thường, sửa chữa sớm và giảm dữ liệu phân tích có thể dẫn tiết kiệm một khoản chỉ phí to lớn cho việc ra quyết định.

Trang 10

ra những giá trị ở bất thường (địa lý, thống kế, thời gian, môi trường ) hoặc nhữnglỗi khác và đánh giá dữ liệu theo các chủ đề chuyên biệt.

2.2 Quá trình làm sạch dữ liệu

2.2.1 Tìm kiếm và nhận dạng lỗi

2.2.1.1 Kiểm tra dữ liệu thiếu

o Kiểm tra tat ca các dữ liệu bang tay: kết quả chính xác nhưng không khả

thi với những dữ liệu lớn

o _ Sử dụng bat kỳ sự hiểu biết nào ta có đã có đối với tính chất của dit liệu

Ví dụ:

= Pham vi và kiểu của mỗi thuộc tính là gì?

Những giá tri nào cho các thuộc tính được chấp nhận?

= Có phải tất cả giá trị đều rơi vào vùng chờ đợi không?

“Có bất kỳ sự phụ thuộc nào đã biết giữa các thuộc tính không?

o _ Sắp xếp dit liệu theo tần số xuất hiện

Phương pháp này làm việc tốt với những dữ liệu rõ ràng

o Sử dụng các phương pháp thống kê

2.2.1.2 Kiểm tra những dữ liệu bất thường:

— _ Sử dụng ràng buộc dé nắm bắt dữ liệu bat thường

= Ràng buộc khóa ngoại là rất tốt néu dữ liệu được liệt kê trước

Trang 11

=» Rang buộc sô : ví dụ sô lượng là sô không âm, thời gian hoặc

ngày tháng trong các khoảng xác định.

— _ Sử dụng những kỹ thuật thống kê dé phát hiện dữ liệu sai lạc

= Kiểm tra những giá trị bất thường: ví dụ: người không thé cao

2.2.2 Sửa chữa lỗi: Sửa chữa các lỗi đã nhận dạng:

— Đối với các thuộc tính thiếu giá trị cần điền đầy giá trị thiếu

— Đối với các dữ liệu có giá trị bị nhận định là giá trị nhiễu hay giá trị bất

thường, cần sửa chữa các giá trị bị sai lệch

— _ Đối với dữ liệu trùng lắp: Xóa và hạn chế các thông tin trùng lắp

— _ Sử dụng các phương pháp làm sạch dé sửa chữa các lỗi

2.3 Các phương pháp làm sạch [1],[3],[4],[6],[21],[22],[23],[33],[34],[36]

2.3.1 Điền day giá trị thiếu

Có nhiều lý do cho việc có những lỗ hồng trong các tập dữ liệu Ban đầu các

tập di liệu được hình thành từ việc tích hợp các bộ phận khác nhau mà có thể cómột số thuộc tính chung nhưng cũng có một số là riêng Ví dụ, không phải mọi phụhuynh học sinh đều có một số điện thoại dé liên lạc Một lý do khác, khi dữ liệu

giống nhau được tập hợp từ các nguồn khác nhau (ví dụ việc bán hàng từ những chi

nhánh khác nhau của những cửa hiệu bán lẻ), có nơi không gởi dữ liệu vào lúc biên

soạn tích hợp dữ liệu, hoặc một số cột thuộc tính (ví dụ: số điện thoại khách hàng)

Trang 12

không được người bán hàng nhập vào Cũng có nhiều lý do liên quan đến hệ thống

và việc xử lý.

2.3.1.1 Điền đầy giá trị thiếu bằng cách thủ công:

Tính toán, xem xét lại tập giá trị và điền giá trị thích hợp vào Phương phápnày cho kết quả tính toán cao, nhưng chỉ áp dụng cho những tập dữ liệu nhỏ vớinhững ít thuộc tính bị thiếu

2.3.1.2 Bó qua những dòng thiếu

Đây là phương pháp dễ dàng nhưng kém hiệu quả, chỉ nên sử dụng sau cùng

khi dòng chứa nhiều thuộc tính bị thiếu

2.3.1.3 Sử dụng những hang số chung để điền day giá trị thiếu+ Thay thế những giá trị thuộc tính thiếu với cùng một giá trị như là một

nhãn “không biết” hay -e Nếu giá trị thiếu được thay thé bang “khôngbiết” thì chương trình khai phá dữ liệu có thể nghĩ sai rằng chúng thànhlập một khái niệm mới bởi vì tất cả đều có một giá trị chung “khôngbiết” Vì lý do đó, mặc dù phương pháp này đơn giản nhung nó không

đáng tin cậy.

+ Sử dụng giá trị thuộc tính trung bình dé điền vào giá trị thiếu Ví dụ, giả

sử tiền lương bình quân của công nhân trong một xí nghiệp là 900.000đ

Sử dụng giá trị này dé thay thé giá trị thiếu cho tiền lương

+ Sử dụng giá trị trung bình cho tất cả các mẫu thuộc về cùng một lớp như

bộ dữ liệu đã cho Ví dụ nếu việc phân lớp khách hàng theo nghề nghiệp,

thay thế giá trị thiếu với tiền lương trung bình cho những khách hàng

cùng có nghề nghiệp giống nhau

2.3.1.4 Sử dụng giá trị dự đoán có kha năng nhất dé điền đầy giá

trị thiêu.

Phương pháp sử dụng hăng số chung để điền đầy giá trị thiếu đơn giản

nhưng van đề chất lượng dữ liệu nảy sinh khi những giá trị giống nhau được sử

Trang 13

dụng dé đại diện cho những giá trị bị thiếu That ra những hóa đơn có giá trị thật là

0 khác với những hóa đơn thiếu giá trị và giá trị thiếu được gán là 0 Sử dụng giá trị

dự đoán có khả năng nhất dé điền day giá trị thiếu là quá trình suy đoán giá trị thiếu

dựa vào các giá tri đã cho.

Dựa theo sự phân bố các giá trị đã biết: Dựa theo các giá trị không thiếu

và vẽ từ sự phân bố mỗi lần chúng ta bắt gặp giá trị thiếu

Ví dụ: dãy 1,2,3,1,3,1,,, ,l có 3 giá trị thiếu Các giá trị thiếu dựa vào sựphân bồ là P(1) = 3, P(2) =1, P(3) = 3 Như vậy, sự phân bố các thuộc tính thiếu sẽchính xác hơn với sự phân bồ toàn diện Hiên nhiên là giả định ở đây là giá trị thiếu

được phân bố giống như giá trị không thiếu.

Tiếp cận ước lượng điểm và tiếp cận dựa theo phân bố đơn giản để thực hiện,chi phí rẻ và dễ hiểu, dễ giải thích, nhưng chúng lại đơn sơ và dựa trên những gia

định có khả năng không chính xác.

2.3.1.5 Dự đoán giá trị thiếu bằng phương pháp ABB [24]

Giả sử trong một vùng của bang dit liệu có n, trường hợp đữ liệu day đủ trên

Y và no đữ liệu thiếu trên Y

b BI: Lay 1 mẫu ngẫu nhiên N, trong n, giá trị đủ

7 B2: Lay 1 mẫu ngẫu nhiên Nụ trong no giá trị thiếu

7 B3: Thay gia tri Y cua mẫu N¡ cho giá trị Y thiếu của No’

7 B4: Lap lại các bước từ 1 — 3 cho các giá tri thiếu còn lại

Thuật toán như sau

Trang 14

Các phương pháp trên xử lý dữ liệu chỉ theo một thuộc tính Trong thực tế,

nhất là trong các cơ sở dữ liệu đa chiều, giá tri một thuộc tính có thé phu thudc vao

nhiều thuộc tính Ví dụ: chiều cao của một người phụ thuộc vào chủng tộc, môitrường sống (nơi chốn, chế độ dinh dưỡng ), tuổi tác, đi truyền

Vì vậy dé dự đoán giá tri thiếu cần xem xét đến các thuộc tính khác của toàn

bộ dữ liệu đã có.

Gọi D là bang dữ liệu với các thuộc tính Xị, ,Xạ , Y với X¡, ,Xạ được gọi

là các đặc điểm, Y được gọi là đích và mỗi dòng trong bảng được gọi là mẫu Một

mô hình dự đoán nghiên cứu mối quan hệ giữa Xj, ,.X, và Y từ D và dự đoán giátrị Y cho mẫu mới trên cơ sở các giá tri Xị, ,Xạ của nó D được gọi là tập huấnluyện Chúng ta dùng h dé biéu thị mô hình dự đoán và h(x) trả về giá trị đích Y củamau x Nếu Y là giá trị số, h được gọi là một mô hình hồi qui Nếu Y là một giá tri

Trang 15

có thê phân lớp, h được gọi là mô hình phân lớp Cây quyết định, mạng neural, môhình hồi qui là những mẫu của mô hình dự đoán

2.3.1.6 Dự đoán giá trị thiếu bằng hồi qui [48]

Hồi qui sử dụng với giả định các thuộc tính thiếu là đơn điệu Gọi d là tậpcác thuộc tính Y¡, Y¿, , Yu Nếu Y; không thiếu thì các thuộc tính Y¡, Y;, , Yj

không thiếu

Ví dụ 1: Chúng ta có tập dit liệu thiếu sau đây

Can nặng Tuổi Chiều cao Chỉ số sức khỏe

-Héi qui thực hiện đệ qui, phát sinh các thuộc tinh theo tiễn trình từ trái

qua phải Vì vậy, mô hình hồi qui đầu tiên có thê là:

Chiêu cao = 0 + tuổi+ By cân nặng.

Sau mỗi lần hồi qui, giá trị thiếu được thay thé bang giá trị dự đoáncộng thêm một số hạng lỗi (ty lệ lệch) và mô hình hồi qui khác sẽ được dẫn

xuât,

Chỉ sô sức khỏe = 0 + \ tudi+ By cân nặng + 3 chiêu cao

Tiếp tục như vậy cho đến khi tất cả các giá trị thiếu được thay thế bởi giá trị

hồi qui Từ các lỗi ngẫu nhiên khác nhau, chúng ta có thể tạo ra nhiều tập dữ liệu

bằng cách xoay vòng qua tiến trình tính toán Mỗi tập dữ liệu được phân tích riêngbiệt và phân tích nhiều tập dữ liệu được kết hợp dé tạo ra tập kết quả đáng tin

Tổng quát phương trình hồi qui tuyến tính có dạng

Y = a+ B, X, + B2 Xot + By X, + € (2.1)

Trang 16

Voi x là giá trị trung bình của X va y là giá trị trung bình của Y !PH,

Với mô hình hồi qui bội, các hệ số / được xác định từ ma trận quan hệ [48]

_ Re | Ry

trong đó

A, 4, Ay X, H

x,x,

Ry R,

A,

y Re 1

X; X;

Trang 17

Ví dụ 2: minh họa phương pháp hồi qui cho tập dữ liệu hai chiều:

Hình 2.1 minh họa phương pháp hồi qui cho tập dữ liệu hai chiều

Những điểm đánh dấu + biểu diễn trường hợp X và Y đủ giá trị

: €2!) —=

Trường hợp đủ X nhưng thiếu Y được biểu diễn bởi đường tròn trên

truc X.

Hồi qui Y trên X cho trường hợp từ 1, ,m

Các chấm trên đường hồi qui là giá trị thay thế các giá trị thiếu Y

Trang 18

beta = TongX Y/TongXb;

anpha = tbY — beta*tbX;

Trang 19

— Mô hình hồi qui cần được chỉ đinh.

— Những biến dự đoán luôn được dự đoán hoàn toàn từ mô hình nên

việc sửa chữa và tô hợp các biến đổi gia tăng

— Phuong pháp trở nên phức tạp khi nhiều biến có dữ liệu thiếu và có

nhiêu biên trên chủ đê chung.

Trang 20

— Giá trị dữ đoán có thé vượt quá phạm vi cho phép

— Số lượng mẫu phải rất lớn để có ước lượng chính xác

2.3.1.7 Dự đoán hồi qui cho biến đối không liên tụcPhương pháp hồi qui trên dành cho biến đổi liên tục, đối với các biến đổikhông liên tục ta áp dụng cùng nguyên lý nhưng cần thay đổi mô hình

—_ Ví dụ; Nếu Y là phân phối nhị thức, cần điều chỉnh mô hình hồi qui

_ Nếu Y >0 thì sử dụng chuyền đổi logŒ, = X', B+e,)

2.3.1.8 Dự đoán giá trị thiếu phương pháp hướng điểm [36]

Phương pháp phân loại dit liệu bằng cách hướng về các thuộc tính thiếu.Cũng với giả định các thuộc tính thiếu là đơn điệu Mô hình hồi qui logistic đượcxây dựng trên cơ sở những giá trị Y¡, Y¿, , Y,.; dé tính giá trị có thể có của thuộc

tính thiếu Y; với các quan sát bất kỳ Các quan sát đó được nhóm lại với các giá trị

mà Y; có thé có Giá trị Y¡ được phat sinh từ các giá tri trong nhóm sử dụng phương

pháp ABB Hướng điểm được thực hiện theo các bước:

— Dùng một biến chỉ định R; (0 hoặc 1) dé chỉ định nơi thuộc tính Y; thiếu

hay không thiếu (hình 2.2)

Trang 21

— Điều chỉnh mô hình hồi qui logistic.

Logrit(p;) = Bo + BiY1 + B2Y2 + + Õụ-1)Ÿ-i)

Với pj = Pr(R; = 0\Y), Yo, By-n¥ qv)

va logrit(p) = log(p/(I-p))

— Tạo một điểm cho mỗi quan sat dé biéu thị kha năng giá tri thiếu.

units

_

0 Œœ 0œ Ơ› om b b ON he 11.C h5) Ơ (Œ nh bơ MB CGÔẢ >> Ơ OH OO OI

Coe 0œ jàHớỚỡ CƠ b (C3 h = © @ĐDƠœ ¡mdHỚƠ C b C3 h SN OAMAADAAAAD+> b b h M ONDA AA

Hình 2.3 minh hoa phương pháp hướng điểm

— Chia các quan sát vào trong các nhóm trên cơ sở những điểm này

Trang 22

— Áp dụng tính ABB cho mỗi nhóm Trong nhóm k, đặt Y 415 biểu thị cho

quan sát nị, với giá tri không thiếu vị Và Ymis biểu thị cho quan sát nọ vớigiá tri thiếu Y; ABB tính toán rút ra giá tri nị đầu tiên một cách ngẫunhiên với sự thay thé từ Yous

Tiến trình được lặp lại liên tục cho mỗi giá trị thiếu

Nhận xét

= Phương pháp tính điểm chỉ sử dụng những thông tin thay đổi liên kếtvới sự biến đổi các thuộc tính dé dự đoán giá trị bị thiếu

= Khong sử dụng sự tương quan giữa các biến

= C6 hiệu quả cho việc suy luận xung quanh việc sắp xếp các giá tri dựđoán riêng biệt nhưng không phù hợp cho sự phân tích mối liên hệ giữa

các biến đồi

2.3.1.9 Dự đoán giá trị thiếu bằng phân lớp dữ liệu

Sử dụng cho các dữ liệu phi số, có thể phân lớp được Phân lớp có thể sửdung dé dự đoán giá trị thiếu với thuộc tính quyết định là thuộc tính chứa các giá trịthiếu Có nhiều kỹ thuật phân lớp dữ liệu như:

° Qui nạp cây quyết định với các giải thuật ID3, C4.5, See5/C5.0 v.v

° Phân lớp với GiniIndex.

° Phương pháp phân lớp Bayesian.

° Phân lớp bằng mạng lạn truyền ngược

° Phân lớp dựa trên nguyên lý khai phá luật kết hợp.

° Phân lớp dựa vào giải thuật di truyền]

° Phân lớp dựa vào tiếp cận tập thô.

° Phân lớp dựa vào tiếp cận tập mờ

° Phân lớp bằng suy luận dựa trên trường hợp

Trang 23

Dự đoán giá trị thiếu bằng ILA (Inductive Learning Algorithm)

Trong các kỹ thuật đã đề cập trên, luận văn này trình bày dự đoán giá trị

thiếu bằng ILA Thuật giải ILA được dùng dé xác định các luật phân loại cho tập

hợp các mẫu học Thuật giải này thực hiện theo cơ chế lặp, dé tìm luật riêng đại

diện cho tập mẫu của từng lớp Sau khi xác định được luật, thuật giải sẽ loại bỏ các

mẫu mà luật này bao hàm, đồng thời thêm luật mới này vào tập luật Kết quả có

được là một danh sách có thứ tự các luật.

Ví dụ:

Với tập mau như sau:

Mẫu Size Color Shape Decision

số

1 medium blue brick yes

2 small red wedge no

3 small red sphere yes

4 Large red wedge no

5 Large green pillar yes

6 large red pillar no

7 large green sphere yes

thì các luật rút ra được là:

Neu (Color = green) thi (Decision = yes)

Neu (Size = medium) thi (Decision = yes)

Neu (Shape = sphere) thi (Decision = yes)

Neu (Shape = wedge) thi (Decision = no)

Neu (Size = large) AND (Color = red) thi (Decision = no)

Thuật giải ILA có thé sử dụng dé dự đoán giá trị thiếu với thuộc tính quyếtđịnh là thuộc tính chứa các giá tri thiếu Thuật giải ILA được mô tả như sau:

Gia sử ta có một cơ sở dữ liệu có m mâu và k thuộc tính.

Trang 24

Bước 0: Khởi tạo tập luật R là 0.

Bước 1: Phân chia bảng m mẫu ban đầu thành n bảng con Mỗi bảng con ứng

với một giá trị của thuộc tính quyết định

Bước 2: Xét bảng con đầu tiên i, i= 1

Bước 3: Khởi tạo bộ đếm kết hợp thuộc tính j, j =1

Bước 4: Ta tạo ra một danh sách S các cách kết hợp j thuộc tinh từ k thuộc

tính ban đầu

Bước 5: Với mỗi cách kết hợp S; trong danh sách S, đếm số lần xuất hiện lớn

nhất của các mẫu chưa được đánh dấu trong bảng con đang xét(bang con i) mà thỏa mãn các thuộc tính kết hợp S; (đồng thời không

xuất hiện các giá trị của thuộc tính kết hợp S; của mẫu hiện tại trên

các bảng con khác) Gọi tổ hợp đầu tiên (trong bảng con i) có số lầnxuất hiện nhiều nhất (Max) là tổ hợp lớn nhất

Bước 6: Nếu Max = 0 thì tăng j lên 1 và quay lại Bước 4

Bước 7: Đánh dau các dòng thỏa tô hợp lớn nhất của bảng con đang xét i

Bước 8: Thêm luật với vào R, với về trái là tập các thuộc tính của tổ hợp lớn

nhất cùng với giá trị của nó (kết hợp các thuộc tính bằng toán tử

AND) và về phải là giá trị của thuộc tính quyết định tương ứng

Bước 9: Nếu tất cả các dòng của bảng con hiện tại ¡ đã được đánh dấu thì

tăng i lên 1 và quay lại Bước 3 Ngược lại thì quay lại Bước 4 Nếu

tất cả các bảng con đã được xét thì kết thúc Kết quả thu được là tập

luật cân tìm.

2.3.2 Sửa chữa giá trị nhiễu, bat thường

— “Nhiễu” là những lỗi ngẫu nhiên hoặc mâu thuẫn trong một biến đo

được.:

— Bấtthường: là giá trị bên ngoài vùng dữ liệu Xem xét tập dit liệu sau

Trang 25

3, 4, 7, 4, 8, 3, 9, 5, 7, 6, 92

Trực giác cho ta thay rằng 92 là giá trị “đáng nghi ngờ” vì hầu hết các giá tri

chỉ ở khoảng từ 0 — 10; 92 là giá trị bất thường

2.3.2.1 Binning

Phương pháp Binning làm phăng giá trị đã sắp xếp bằng cách tham khảo

“vùng lân cận” của nó, đó là những giá trị xung quanh nó Giá trị đã sắp xếp được

phân bố vào trong một bucket hoặc bin Vì phương pháp binning tham khảo những

giá tri lân cận nó, chúng thực hiện làm phẳng cục bộ Có các cách phân chia bin như

sau:

+ Phân chia theo chiều rộng (khoảng cách) bằng nhau:

o Nếu A và B là giá trị nhỏ nhất và lớn nhất của thuộc tính, bề rộng

mỗi khoảng sẽ là (B — A)/N.

o Không xử lý tốt những dữ liệu đối xứng lệch

+ Phân chia theo chiều sâu (độ phô biến) bang nhau:

lo Chia vùng khảo sát thành N khoảng Mỗi khoảng chứa các mẫu

gần giống nhau

o Tỷ lệ (phạm vi) dữ liệu tốt

Hình 2.4 minh họa vài kỹ thuật binning Trong ví dụ này, dữ liệu quan sát

được sắp xếp đầu tiên và được chia vào trong những bin bằng nhau với bề rộng

bang 3 (nghĩa là mỗi bin có 3 giá tri) Ví dụ, trung bình của 4, 8 và 15 trong bin 1 là

9, cho nên giá trị nguồn trong bin này được thay thế bởi 9 Tương tự, làm phăng bởinhững giá trị giữa bin có thể được dùng, trong giá trị mỗi bin được thay thế bởi giátrị giữa Trong làm phẳng bin bởi những giá trị biên, những giá trị lớn nhất và nhỏnhất trong bin đã cho được được xem là giá trị biên Mỗi giá trị bin được thay thế

Trang 26

bởi giá trị biên gần nhất Thông thường, bề rộng càng lớn thì hiệu quả làm phang

càng cao Các bin có thé có bề rộng bằng nhau, ở đó day khoảng cách giá trị trong

môi bin là bat biên.

Bin 1:9, 9,9 Bin 2: 22, 22, 22

Bin 3: 29, 29, 29

Lam phẳng bin bang giá trị biên

Bin 1: 4, 4, 15 Bin 2: 21, 21, 24 Bin 3: 25, 25, 34

Hình 2.4: Phuong pháp binning dé làm phang dữ liệu

2.3.2.2 Gom cụm

Những giá trị bên

ngoài có thể phát hiện bằng cách

gom cụm, ở đó các giá trị tương

tự được tổ chức vào trong các

nhóm hoặc các cụm Các giá tri

bên ngoài tập các cụm có thể

xem như những giá trị ngoài sẽ

bị gỡ bỏ(Hình 2.5).

Trang 27

Các phương pháp gom cụm chủ yếu

a Phương pháp phân hoạch:

Tao một phân hoạch của CSDL D chứa n đối tượng thành tập gồm k

cum sao cho:

= Mỗi cum chứa ít nhất là một đối tượng

= Mỗi đối tượng thuộc về đúng một cụm.

Cho {, tim một phân hoạch có & cum nhằm tối ưu tiêu chuẩn phân hoạch

được chọn.

Tôi ưu toàn cục: liệt kê theo lôi vét cạn tat cả các phan hoạch.

Các phương pháp:

k-means mỗi cụm được đại diện băng tâm của cụm.

Dữ liệu vào của thuật toán: số k cụm k, và CSDL có: n đối tượng

cụm

Thuật toán gom 4 bước:

fe) Phan hoach déi tượng thành k tập con/cum khác rỗng.

lo Tính các điểm hạt giống làm tâm cụm (trung bình của các đối

tượng của cụm) cho từng cụm trong cụm hiện hành.

fe) Gan từng đối tượng vào cụm có tâm gần nhất

fe) Quay về bước 2, cham dứt khi không còn phép gan mới

k-medoids: mỗi cụm được đại diện băng một trong các đôi tượng của

Dữ liệuyào của thuật toán: số cụm k và CSDL có n đối tượng

Thuật toán gồm 4 bước :

° Chọn bat ky & đối tượng làm medoids ban đầu (các đối tượng

đại diện).

° Gan từng đối tượng còn lại vào cụm có medoid gan nhất

fe) Chon nonmedoid va thay một trong các medoids bằng nó nếu

nó cải thiện chât lượng cụm.

o Quay về bước 2, dừng khi không còn phép gan mới

Trang 28

7 Phân cấp cụm thường tạo cây các cụm

fe) Các lá của cây biéu diễn các đối tượng riêng lẻ.

S Các nút trong của cây biéu diễn các cụm

" Hai loại kỹ thuật gom cụm phân lớp :

s Gộp (từ dưới lên):

— Đưa từng đôi tượng vào cụm riêng của nó

— Trộn ở mỗi bước hai cum tương tự nhất cho đến khi chỉ còn một cụmhay thỏa điều kiện kết thúc

s Phân chia (từ trên xuống):

— Bat đầu bằng một cụm lớn chứa tắt cả đối tượng

— Phân chia cụm phân biệt nhất thành các cụm nhỏ hơn và xử lý cho

đến khi có ø cụm hay thỏa điều kiện kết thúc

Thường có 3 cách được dùng dé định nghĩa khoảng cách giữa các cụm:

O Phương pháp liên kết đơn(láng giéng gần nhất):

dặ,j)= minxec, yec{d(x,y)}

o_ Phương pháp liên kết hoàn toàn(láng giéng xa nhất ):

dú,j)= Maxxec, yec{ d(x,y)}

Trang 29

chia-Ưu điểm của các phương pháp phân cấp

— Khai niệm đơn giản.

— Ly thuyết tốt

— _ Khi cụm được trộn/tách, quyết định là vĩnh cửu => số các phương án

khác nhau cần được xem xét bị rút giảm

Khuyết điểm của phương pháp phân cấp

— _ Trộn/tách các cụm là vĩnh cửu => các quyết định sai là không thé khắc

phục về sau.

— Các phương pháp phân chia là cần thời gian tính toán

— Các phương pháp là không scalable cho các tập dữ liệu lớn.

Trang 30

2.3.2.3 Hồi qui

Dữ liệu có thé được làm phẳng bang cách điều chỉnh dữ liệu vào một ham sé,như là hỗồi qui tuyến tính Hồi qui bao hàm việc tìm giới hạn tốt nhất dé điều chỉnhhai thuộc tính (hoặc biến), để rồi một thuộc tính có thể được sử dụng để dự đoán

ngang hàng tối thiểu để nhận biết XI X

giá trị của Y1, Y2, , XI, X2,

+ — Hỏi qui bội:

Y =bọ + b; X; + by X2+ + Dạ Xa

Hinh 2.7 Hồi qui tuyến tính

— Hoi qui bội là một mở rộng của hôi qui tuyên tính, nơi có hơn hai

thuộc tính được đòi hỏi và đữ liệu được điều chỉnh đến bề mặt đa chiều

— Nhiều hàm không tuyến tính có thê biến đổi vào trong hàm như trên

Trang 31

2.3.3.1 Kỹ thuật loại trừ trùng lắp thông tin cơ ban

Kỹ thuật này nhằm đến sự phát hiện cả sự chính xác trùng lắp va xấp xi trùnglắp Đây là kỹ thuật sắp xếp để đạt đến thông tin ban đầu và thực hiện so sánhnhững bản ghi bên cạnh Hai bản ghi trùng lắp chính xác sẽ đứng kế tiếp nhau ngay

sau khi sắp xếp, còn hai bản ghi trùng lắp xấp xỉ không chắc sẽ đứng cạnh nhau sau

khi sắp xếp, tuy vậy, nó có thé ở gần quanh vi trí đó Trường hợp xấu nhất, nó cóthể đứng ngược lại với bảng dữ liệu hoặc danh sách đã sắp xếp Kết quả đạt được

phụ thuộc vào việc chọn vùng sắp xếp và những lỗi hiện diện trong các bản ghi

Như vậy, dé làm phù hợp tất cả các bản ghi có thé trùng lắp, mọi cặp của bản ghi

đều phải so sánh, dẫn đến số lần so sánh là bậc 2 Đây là điều không hiệu quả và

không có khả năng đối với nhà kho dữ liệu, nơi có hàng triệu bảng ghi được lưu trữ.

Trang 32

2.3.3.2 Kỹ thuật sắp xếp lân cận [2]

Kỹ thuật sắp xếp lân cận là mở rộng của kỹ thuật cơ bản dé thích ứng với

những cơ sở dữ liệu với số lượng bản ghi lớn Mục đích của nó là giảm bớt số cặp

so sánh bằng cách chỉ so sánh những bản ghi trong một giới hạn nào đó bằng cách

tạo một cửa số có kích thước giới hạn và cho nó trượt trên vùng dữ liệu đã sắp xếp.

Vi du, tạo một cửa số kích thước W cho nó trượt trên cơ sở dữ liệu qua một bản ghitại một thời gian, bản ghi mới được so sánh với W -1 bản ghi khác trong cửa sé.Kích thước cửa số là có định, vi vậy một bản ghi vào cửa sô thì bản ghi lớn nhất đi

ra khỏi cửa số Vì vậy số lần so sánh giảm từ O(T’) xuống O (TW) với T là tổng số

bản ghi trong cơ sở đữ liệu và W là số bản ghi trong tập con của bảng đang được so

sánh.

Dễ thấy rằng ở đây có sự hoán đổi giữa số lần thực hiện so sánh và độ chínhxác của thuật toán phát hiện Giá trị W lớn, hệ thống phát hiện các bản ghi trùng lắp

sẽ tốt hơn Tuy nhiên, điều này tăng số lần so sánh và vì vậy tăng thời gian chạy

Một cách tiếp cận khác là quét các bản ghi hơn một lần nhưng trong thứ tựkhác nhau (ví dụ sắp xếp trên khóa khác) và áp dụng kỹ thuật cửa số có định dé sosánh và phối hợp kết quả các lần quét Tiếp cận này gọi là sắp xếp lân cận đa thuộctính Với tiếp cận này, sử dụng cửa số có kích thước nhỏ tốt hơn là cửa số có kích

thước lớn.

2.3.3.3 Phương pháp DE-SNM

Phương pháp này phát triển từ phương pháp sắp xếp lân cận Cho một tậphợp của hai hay nhiều hơn các cơ sở đữ liệu ràng buộc với nhau vào trong một danh

sách liên tục và thực hiện theo các bước.

1 Tạo khóa: Khóa được tính cho mỗi bản ghi trong danh sách bằng cách rútnhững lĩnh vực phù hợp hoặc một phần của lãnh vực

2 Sắp xếp dữ liệu, giới hạn trùng lắp: Sắp xếp dữ liệu trong danh sách dit

liệu sử dụng khóa đã tạo ở bước 1 Chia đữ liệu đã sắp xếp vào 2 danh sách Trong

Trang 33

danh sách 1 (danh sách trùng lắp), đặt tất cả các bản ghi mà khóa trùng lắp được

phát hiện (ví dụ tất cả những bản ghi chia sẻ cùng khóa sắp xếp với các bản ghi

khác trong danh sách), các bản ghi còn lại (có khóa duy nhất) được đặt vào danhsách 2 (danh sách không trùng lắp)

3 Sắp xếp danh sách trùng lắp

4 Quét cửa số đầu tiên: Di chuyển cửa số nhỏ qua danh sách các bản ghitrùng lắp để giới hạn việc so sánh đến những bản ghi trong cửa số có cùng khóa.Khi cửa số đầy, bản ghi thứ nhất ra khỏi cửa số Đặt u là kích thước cửa số nhỏ.Moi bản ghi đi vào cửa số hoặc có cùng khóa với các bản ghi khác hiện diện trongcửa số hoặc khác khóa với các bản ghi khác Nếu khóa của bản ghi mới giống khóa

của các bản ghi trong cửa sô thì bản ghi này được so sánh với tất cả các bản ghi

trong cửa số dé tìm những bản ghi phù hợp Nếu khóa của bản ghi mới khác của tat

cả các bản ghi khác, thì tiếp tục như sau:

— _ Thêm vào danh sách trả về bản ghi tat cả những bản ghi với khóa cũkhông phù hợp với bất cứ bản ghi nào

— _ Với mỗi nhóm bản ghi phù hợp nhau, thêm vào danh sách trả về bảnghi phù hợp nhất với các bản ghi khác có cùng khóa Bản ghi này sẽ là bản

ghi đại diện đâu tiên cho khóa của nó ở những bước sau.

— Di chuyên cửa sô u-1 vi trí, tiêp tục, bat dau với bản ghi mới.

5 Hợp nhất: Hợp nhất danh sách trả về với bản ghi không nằm trong danh

sách trùng lắp Một vùng bit mở rộng được thêm vào kết quả sắp xếp để chỉ ra có

bản ghi đã đến từ danh sách trả về hoặc danh sách không trùng lắp hay không

6 Quét cửa số thứ nhì: Di chuyển cửa số có kích thước cố định qua danh

sách kết quả trong bước 5, hạn chế việc so sánh sự phù hợp bản ghi với những bản

ghi trong cửa số Nếu kích thước của cửa số là w bản ghi, thì mọi bản ghi mới vàocửa số được so sánh với w-1 bản ghi dé tìm những bản ghi phù hợp Nếu bản ghi

Trang 34

vào cửa sô có gốc ở danh sách trả về (phát hiện bằng vùng bit mở rộng) thì nó chỉ

so sánh với bản ghi khác không đến từ danh sách trả về

Ví dụ dưới đây Minh họa phương pháp này, sử dụng cửa sô so sánh với kích

010 Jerry Goldsmith London

Bang 2.1 : Bang dữ liệu chưa làm sạch.

Trang 35

Bang 2.3: Bang không trùng lắp trong DE-SNM

2.3.3.4 Tiếp cận phát hiện trùng lắp tương ứng

Van dé trùng lắp trong cơ sở dữ liệu có thể mô tả như là sự giữ dấu vết của

các thành phan liên kết trong đồ thị vô hướng Trong đó, các đỉnh của đồ thị G là

các bản ghi trong cơ sở dữ liệu kích thước T Khoi tao, đồ thị chỉ chứa T đỉnh

không nối kết Có một cạnh vô hướng giữa hai đỉnh khi và chỉ khi những bản ghi

tương ứng với cặp đỉnh được tìm thấy phù hợp theo thuật toán cặp bản ghi phù hợp

Kỹ thuật này làm việc theo các bước sau:

1 Sắp xếp cơ sở dir liệu trên khóa được chọn và tạo các cụm từ cơ sở dữ liệu

2 Đặt bản ghi đầu tiên đại diện cho cụm đầu tiên trong hàng ưu tiên

3 So sánh bản ghi thứ hai để nhập vào hàng ưu tiên Nếu có sự phù hợp chính

xác, cập nhật đô thị (đồ thị toàn bộ cơ sở dữ liệu được cập nhật dé trình bay

liên kết giữa 2 bản ghi) và tiếp tục Nếu không có phù hợp chính xác thì thực

hiện xấp xi phù hợp, nếu có xấp xi thì cập nhật đồ thị và tiếp tuc, nếu không có

xap xi ngưỡng phù hợp nhưng có phù hợp một ít thực hiện phù hop xấp xi phùhợp giữa giữa bản ghi và tất cả các bản ghi khác trong cụm được tượng trưng

bởi bản ghi trong hàng ưu tiên Nếu sự phù hợp được phát hiện ở bat kỳ giaiđoạn nào, cập nhật đồ thị Nếu bản ghi được xem xét là thành viên của một

Trang 36

cụm khác, hợp nhất hai cụm Nếu bản ghi đủ khác với bản ghi đang đại diện

cho cụm trong hàng ưu tiên thì gộp bản ghi này vào như một phần của đại diện

cho cụm trong hàng ưu tiên Nếu không tìm thấy sự phù hợp với bất kỳ thànhviên nào của tập tiêu biểu trong hàng ưu tiên, thì bản ghi đang xem xét phảithuộc về cụm chưa được thăm viếng Vì vậy, thêm bản ghi đến hàng ưu tiênnhư là một đại diện của cụm mới và đ nó ở ưu tiên cao nhất

4 Lấy bản ghi kế tiếp trong cơ sở dữ liệu và tiếp tục lặp lại bước 3 Khi hàng ưu

tiên đạt đến kích thước lớn nhất, tập nhập với ngưỡng nhỏ nhất sẽ được gỡ

khỏi hàng ưu tiên (cụm có thành viên tìm ra sau cùng có ưu tiên cao nhât).

@ ©)

Hình 2.8: Đồ thi vô hướng chưa sạch trong loại trừ trùng lắp tương thích

Ví dụ: sử dụng bảng đữ liệu chưa làm sạch trong bảng 2.1 Bước thứ nhấttrong tiếp cận tương thích là biểu diễn toàn bộ dữ liệu trong đồ thị vô hướng nhưtrong hình 2.8 Các đỉnh của dé thị biểu diễn một bản ghi duy nhất Trong ví dụ này

là customer_id nhận dạng những bản ghi duy nhất trong bảng dữ liệu, vì vậy

customer_id được sử dụng như một đỉnh của đồ thị vô hướng trình bày trong bang

dữ liệu mẫu Bước tiếp trong thuật toán là chọn khóa sắp xếp cho bảng dir liệu vàsắp xếp bảng Trong ví dụ này, tên thuộc tính cuối được chọn là khóa sắp xếp Bảng

dữ liệu đã sắp xếp dữ liệu được trình bày trong bảng 2.5 Tiếp theo, chọn các cụmnhận diện từ cơ sở dữ liệu đã sắp xếp trên khóa chọn (last name) Trong ví dụ này,

Trang 37

007 Jerry Smith Kingston

001 Adams White London

003 Barry White Kingston

A White London Adam White London

Adams Whyte London

Bảng 2.5: Sắp xếp bang dữ liệu chưa làm sạch

Tiến trình làm sạch bắt đầu: Khởi đầu hàng ưu tiên chưa có bản ghi nào

Kích thước lớn nhất của hàng ưu tiên do người sử dụng đặt Trong ví dụ này kích

thước lớn nhất của hàng ưu tiên là 5 bản ghi Bản ghi đầu tiên trong bản dữ liệu đã

sắp xếp được vào trong hàng ưu tiên, bản ghi này đại diện cho cụm của nó trong

hang ưu tiên, trong trường hợp này, cum chỉ có 1 bản ghi Tiếp theo, bản ghi thứ hai

trên bảng được so sánh với bản ghi trong hàng ưu tiên Hai bản ghi không phù hợp

chính xác với nhau, vi vây, chúng được so sánh xấp xi phù hợp, xấp xi phù hợp

cũng không đúng, vì vậy bản ghi thứ hai được đưa vào hàng ưu tiên làm đại diện

cho cụm của nó Cụm của bản ghi thứ hai có 4 bản ghi với last name là “Smith”.

Tiếp tục, bản ghi thứ 3 được so sánh với các bản ghi trong hàng ưu tiên Xấp xỉ phùhợp được tìm thấy giữa bản ghi thứ 3 và bản ghi trong hàng ưu tiên (002, 004) Vìvậy, một liên kết giữa hai node 002 và 004 được tạo thành tiếp tục như vậy cuốicùng ta có liên kết giữa 002-004, 002-006-007, 001-005, 001-009, 001-008 Đồ thị

vô hướng kết quả trình bày trong hình 2.9 Trong đồ thị này các liên kết giữa các

node biểu diễn các bản ghi được coi như là trùng lắp Tat cả các nhóm node liên kết

với nhau được thu vào một bản ghi Như vậy, 002,004,006,007 được thu vào 1 bản

Trang 38

ghi, 001,005,008,009 vào một bản ghi, 003 và 010 là những thành viên riêng của

bảng đữ liệu đã làm sạch Tiếp cận tương ứng thực hiện ít so sánh hơn các tiếp cận

đã thảo luận ở trên trong khi duy trì cùng mức chính xác

Thy

Hình 2.9: Đồ thị vô hướng đã sạch trong loại trừ trùng lắp tương ứng

2.4 Đề nghị hướng điền day giá trị thiếu khác

Nhận xét với mô hình hồi qui: Các thuộc tính dữ liệu không phải lúc nàocũng liên hệ với nhau theo một đường tuyến tính, nhưng có lúc tăng, có lúc giảm

Nếu sử dụng mô hình hồi qui phi tuyến thì việc tìm phương trình hồi qui thích hợp

không đơn giản.

Trong ví dụ bên dưới trong khoảng X=(2.5,3.4) giá trị X sau khi hồi qui sẽkhác khi hồi qui X trên toàn bộ dữ liệu Ví dụ: Cho tập dữ liệu

Trang 39

Đường hồi qui màu hồng

Hình 2.10: Hồi qui trên đoạnPhương trình hồi qui đoạn 1: Y= 2.880597X - 3.59104

Trang 40

Qua 2 đồ thị trên, rõ ràng với giá trị X = 3.1 thì mô hình hồi qui cụm chính

xác hơn hồi qui trên toàn bộ tập dữ liệu Vì vậy, nên gọm cụm dữ liệu rồi sau đó áp

dụng phương pháp hồi qui theo cụm dé dự đoán giá trị thiếu

Điền đầy dữ liệu thiếu bằng hồi qui cụm:

BI: Phan cum dữ liệu theo các thuộc tính độc lập.

B2: Thực hiện hồi qui theo cụm

Thuật toán hồi qui cụm như sau:

begin

nhập cơ sở đữ liệu;

sắp xếp cơ sở đữ liệu theo thuộc tính độc lập;

gom cum dit liệu;

fori=lton don sé cụm

forj = 1 to m do m số phan tử trong cụm i

begin

Kiểm tra giá trị thiếu trên cum i;

if (giá tri thiéu thuộc cum i) then

hồi qui trén cum i;

end

Ưu điểm: Giá tri dy đoán chính xác hơn khi thực hiện hồi qui trong cụm

Nhược điểm: Độ chính xác của thuật toán phụ thuộc vào cách chia cụm

2.5 Kết luận và hướng cải tiến

Các cơ sở dir liệu thực trong kho đữ liệu và các cơ sở dữ liệu lớn thường

thiêu chât lượng với các vân đê sau:

Tiêu đề	Các phương pháp tiền xử lý dữ liệu cho khai thác dữ liệu và kho dữ liệu
Tác giả	Nguyễn Thị Kim Nga
Người hướng dẫn	Tiến sĩ Nguyễn Đình Thuân
Trường học	ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2008
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	104
Dung lượng	17,93 MB