BẢN DỊCH MỘT SÓ THUẬT NGỮAdaptive Duplicate Detection Approach:Tiếp cận phát hiện trùng lắp tương ứng Apex cuboid: Khối đỉnh Base cuboid: Khối cơ sở Central data integration systems: Hệ
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ MINH TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN
Nguyễn Thị Kim Nga
LUAN VAN THAC Si CONG NGHE THONG TIN
Thanh phó Hồ Chí Minh — Năm 2008
Trang 2Lời cảm ơn
Lời đầu tiên tôi xin bày tỏ lòng biết ơn chân thành đến quý Thay, Cô
đã tận tâm chỉ dạy, cung cấp cho tôi trì thức khoa học và kinh nghiệm quý
báu trong suốt thời gian học tập tại trường.
Tôi xin chân thành cám ơn tập thể giảng viên và chuyên viên trên mạng của Trường Đại Học Công Nghệ Thông Tin, đã tận tình truyền đạt những tri thức quý giá, những công nghệ mới, những vấn dé đang được các nha Tin học
trong và ngoài nước quan tâm nghiên cứu, thực hiện.
Toi xin bày tỏ lòng biết on chân thành đến Tiến sĩ Nguyễn Dinh Thuân,
là giảng viên hướng dẫn, đã bôi dưỡng kiến thức, cung cấp tài liệu can thiết, truyền đạt kinh nghiệm và thường xuyên động viên, khích lệ dé tôi hoàn thành
tập luận văn này.
Sau cùng, xin được gởi lời cảm ơn đến Ban Giám Hiệu Trường Đại Học Công Nghệ Thông Tin cùng toàn thể cán bộ công nhân viên của Trung
tâm đã tạo mọi điều kiện thuận lợi cho tôi trong quá trình học tập cũng như
trong quá trình thực hiện luận văn này.
Nguyễn Thị Kim Nga
Trang 31.2 Vi sao chất lượng dữ liệu thấp
13 Sự cần thiết của tiền xử ly dữ liệu
2.3.1 Điền day giá trị thiếu
2.3.2 Sửa chữa giá trị nhiêu, bat thường.
2.3.3 Loại trừ trùng lắp dữ liệu
24 Đề nghị hướng điền day giá trị thiếu khác
2.5 Kết luận và hướng cải tiến -: 222222222+ttEEEEEEvrrrrrrrrrrtrrrrrrrrre
Chương 3_ Tích hợp và chuyên đổi dữ liệu.
3.1 Tích hop dữ liệu
3.2 Tích hop di liệu va ontology
3.2.1 Cac ngôn ngữ Ontology
3.2.2 Tích hợp dữ kiệu trên cơ sở ontology
3.2.3 Đề xuất một phương pháp tích hợp dữ liệu lai khác.
3.3 Kết luận “
Chương 4_ Thu gọn dữ liỆu - + 5+ 3xx He
41 Kết tập khối dữ liệu
4.2 Thu gọn kích thước
4.2.1 Lựa chọn tập thuộc tính đặc trưng.
4.2.2 Biến đổi dữ liệu
43 Thu gọn số lượng
43.1 Mô hình hồi qui và logarit tuyến tính
443.2 Biểu đồ
Trang 44.3.3 GOm Cụm chàng Hy 74
43.4 Lấy mẫu
44 Phân đoạn dữ liệu và phân cap khái niém
4.4.1 Phan đoạn và phân cấp khái niệm cho dữ liệu số
4.4.2 Phân cấp khái niệm cho dữ liệu Categorical
4.5 Đề xuất hướng thu gọn biểu đồ- thuộc tinh “
4.6 0 1 ẻ 83 Chương 5 Kết luận và hướng phat triển
Tài liệu tham khảo “
00000" ad
Trang 5DANH MỤC CÁC CHU VIET TAT
ABC : Approximate Bayesian bootstrap
DAML+OIL : DARPA Agent Markup Language-Ontology Interface
Language
DE-SNM : Duplicate Elimination Sorted-Neighborhood Method
DOGMA : Developing Ontology-Grounded Methods and Applications
GaV: Global-as-view
Ginilndex : IBM IntelligenMiner
DWT: Discrete wavelet transform : Biến đổi wavelet rời rac
DFT: Discrete Fourier transform Biến đổi Fourier rời rac
GaV : Global-as-View: Khung nhìn toàn cục
FOL : First-order logic : hệ thống suy diễn chuẩn
F-Logic : Frame Logic
ILA : Inductive Learning Algorithm
KIF : Knowledge Interchange Format
KM: Knowledge Machine
LaV: Local-as-view: Khung nhìn bộ
LRM : Local Relation Model
OCML : Operational Conceptual Modelling Language
OKBC: Open Knowledge Base Connectivity
OWL : Web Ontology Language
PCA : principal components analysis
PEPSINT : PEer-to-Peer Semantic INTegration framework
RDF : Resource Description Framework
RDFS : RDF Schema
SFS : Sequential Forward Selection
LVF : Las Vegas Feature Selection
Sorted-Neighborhood : Sắp xếp lân cận
SRSWR : Simple random sample with replacement: Mau ngau nhién don
giản với sự thay đôi kích thước
SRSWOR : Simple random sample without replacement: Mau ngau nhién đơn giản không có sự thay đôi kích thước s
SHOE: Simple HTML Ontology Extensions
XOL: Ontology Exchange language
Trang 6BẢN DỊCH MỘT SÓ THUẬT NGỮ
Adaptive Duplicate Detection Approach:Tiếp cận phát hiện trùng lắp tương
ứng
Apex cuboid: Khối đỉnh
Base cuboid: Khối cơ sở
Central data integration systems: Hệ thống tích hợp dé liệu trung tâm
Concept Hierarchies: phân cấp khái niệm
Data cube Aggregation: Kết tập khối dữ liệu:
Discretization: Phân đoạn
Exhaustive or Complete search: Vét cạn hoặc tìm kiếm toàn bộ
Histogram: Biểu đồ
Lossless: Nén không mắt dữ liệu
Lossy: Nén bị mắt dữ liệu
Markup languages: Ngôn ngữ định dạng
Multi-pass sorted neighborhood: Sắp xếp lân cận đa thuộc tính
Pair-wise record-matching: Cặp bản ghi phù hợp
Peer-to-peer data integration systems Hệ thống tích hợp dữ liệu ngang hàng Propensity score : hướng điểm
Stratified sample: Mẫu phân tầng
Stepwise forward selection: Tìm kiếm bé sung
Stepwise backward elimination: Tim kiém loai dan
Semantic: Ngữ nghĩa
Schema: Lược đồ
Trang 71 Chương 1
Tông quan
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật, đã tạo ra nhiều cơ sở dữ liệu khổng lồ Khai phá dữ liệu là tiến trình khám phá các tri thức tiềm an trong các cơ sở dữ liệu Cụ thé hơn đó là tiến trình lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết từ các cơ sở dữ liệu lớn.
Nguồn dữ liệu phục vụ cho Khai thác dữ liệu có thể là các cơ sở dữ liệu lớn hay các kho dữ liệu có hoặc không có cấu trúc Kho dữ liệu là nơi lưu trữ dữ liệu hướng chủ dé, tích hợp, biến đổi theo thời gian, không gian nhằm hỗ trợ tiến trình ra quyết định.
° Dữ liệu “sai lạc/nhiễu”: với những lỗi và những giá trị nằm
bên ngoài vùng khảo sát.
o Dữ liệu không nhất quán: chứa đựng các giá trị không đồng nhất trong code và trong tên
o Dữ liệu trùng lắp.
1.2 Vì sao chất lượng dữ liệu thấp
— _ Dữ liệu được thành lập từ những dữ liệu phác thảo nghèo nàn.
— Sai sót của con người trong quá trình nhập dữ liệu.
— Những lỗi có tính toán.
— Sự mô tả dữ liệu mâu thuẫn và sử dụng mã mâu thuẫn.
— Lỗi trong thiết bị mà dữ liệu ghi.
Trang 8Sự cần thiết của tiền xử lý dữ liệu
Dữ liệu không chất lượng dẫn đến kết quả khai phá dữ liệu cũng sẽ không chất lượng vì:
o Chất lượng của những quyết định phải đặt căn bản trên chất lượng dữ
liệu
° Nhà kho đữ liệu cần sự tích hợp nhất quán của dữ liệu có chất lượng
Tập dữ liệu thực thường rất lớn, có thể lên đến vài trăm triệu bản ghi, kích thước tập dữ liệu càng lớn thì thời gian và chi phí khai phá càng cao, dé tăng hiệu suất khai phá dữ liệu cần phải thu nhỏ kích thước của tập dữ liệu
Định dạng các tập dữ liệu không phù hợp với yêu cầu định dạng của những công cụ khai phá dir liệu, vì vậy cần phải định dạng lại dữ liệu
Vi vậy, ta cần xử lý trước dữ liệu dé cải tiến chất lượng dữ liệu cho khai phá
dữ liệu cũng như để giảm nhẹ và tăng hiệu quả của quá trình xử lý.
Mục tiêu của luận văn này là nghiên cứu các kỹ thuật tiền xử lý dữ liệu
bao gôm các vẫn dé sau:
Làm sạch dữ liệu: Điền giá trị thiếu, làm phăng những giá trị lỗi, đồng nhất hoặc xóa những dữ liệu bất thường và giải quyết vấn đề mâu thuẫn.
Tích hợp dữ liệu : Tích hợp dữ liệu từ nhiều cơ sở dữ liệu, các khối dữ liệu
hoặc các tập tin dữ liệu vào trong kho dữ liệu.
Chuyển đổi dữ liệu: Chuẩn hóa và kết tập dữ liệu Chuẩn hóa dữ liệu có thé cải tiến các thuật toán khai phá một cách đúng đắn và có hiệu quả.
Thu gọn dữ liệu: Giảm kích thước dữ liệu bằng cách kết tập, hạn chế những điểm dư thừa, hoặc gom cụm cho những dữ liệu có khoảng cách nhưng vẫn bảo đảm cùng kết quả hoặc là kết quả phân tích giống nhau.
Trang 9Data cleaning
Data integration
Data transformation 2, 32, 100, 59, 48 —» 0.02, 0.32, 1.00, 0.59, 0.48
Data reduction attributes attributes
AI A2 A3 „A26 Al Ad ALIS Tl
T2 Tả T4
transactions
T2000
Hinh 1.1 Các bước tiền xử lý dữ liệu [7]
Những kỹ thuật này không loại trừ lẫn nhau, chúng bồ sung cho nhau, chẳng
hạn: Việc loại bỏ dữ liệu thừa có thê xem như làm sạch dữ liệu cũng như giảm bớt
dữ liệu.
Tóm lại, dữ liệu trong thế giới thực có thể bị nhiễu, không đầy đủ, và mâu thuẫn Những kỹ thuật tiền xử lý dữ liệu có thể tăng chất lượng dữ liệu, do đó nâng cao sự chính xác và hiệu quả của tiến trình khai phá dữ liệu về sau Tiền xử lý dữ liệu là một bước quan trọng trong tiến trình khai phá kiến thức, vì chất lượng quyết định phải đặt trên cơ sở chất lượng dữ liệu Việc phát hiện những dữ liệu không bình thường, sửa chữa sớm và giảm dữ liệu phân tích có thể dẫn tiết kiệm một khoản chỉ phí to lớn cho việc ra quyết định.
Trang 10ra những giá trị ở bất thường (địa lý, thống kế, thời gian, môi trường ) hoặc nhữnglỗi khác và đánh giá dữ liệu theo các chủ đề chuyên biệt.
2.2 Quá trình làm sạch dữ liệu
2.2.1 Tìm kiếm và nhận dạng lỗi
2.2.1.1 Kiểm tra dữ liệu thiếu
o Kiểm tra tat ca các dữ liệu bang tay: kết quả chính xác nhưng không khả
thi với những dữ liệu lớn
o _ Sử dụng bat kỳ sự hiểu biết nào ta có đã có đối với tính chất của dit liệu
Ví dụ:
= Pham vi và kiểu của mỗi thuộc tính là gì?
Những giá tri nào cho các thuộc tính được chấp nhận?
= Có phải tất cả giá trị đều rơi vào vùng chờ đợi không?
“Có bất kỳ sự phụ thuộc nào đã biết giữa các thuộc tính không?
o _ Sắp xếp dit liệu theo tần số xuất hiện
Phương pháp này làm việc tốt với những dữ liệu rõ ràng
© Sw dụng những ràng buộc.
o Sử dụng các phương pháp thống kê
2.2.1.2 Kiểm tra những dữ liệu bất thường:
— _ Sử dụng ràng buộc dé nắm bắt dữ liệu bat thường
= Ràng buộc khóa ngoại là rất tốt néu dữ liệu được liệt kê trước
Trang 11=» Rang buộc sô : ví dụ sô lượng là sô không âm, thời gian hoặc
ngày tháng trong các khoảng xác định.
— _ Sử dụng những kỹ thuật thống kê dé phát hiện dữ liệu sai lạc
= Kiểm tra những giá trị bất thường: ví dụ: người không thé cao
2.2.2 Sửa chữa lỗi: Sửa chữa các lỗi đã nhận dạng:
— Đối với các thuộc tính thiếu giá trị cần điền đầy giá trị thiếu
— Đối với các dữ liệu có giá trị bị nhận định là giá trị nhiễu hay giá trị bất
thường, cần sửa chữa các giá trị bị sai lệch
— _ Đối với dữ liệu trùng lắp: Xóa và hạn chế các thông tin trùng lắp
— _ Sử dụng các phương pháp làm sạch dé sửa chữa các lỗi
2.3 Các phương pháp làm sạch [1],[3],[4],[6],[21],[22],[23],[33],[34],[36]
2.3.1 Điền day giá trị thiếu
Có nhiều lý do cho việc có những lỗ hồng trong các tập dữ liệu Ban đầu các
tập di liệu được hình thành từ việc tích hợp các bộ phận khác nhau mà có thể cómột số thuộc tính chung nhưng cũng có một số là riêng Ví dụ, không phải mọi phụhuynh học sinh đều có một số điện thoại dé liên lạc Một lý do khác, khi dữ liệu
giống nhau được tập hợp từ các nguồn khác nhau (ví dụ việc bán hàng từ những chi
nhánh khác nhau của những cửa hiệu bán lẻ), có nơi không gởi dữ liệu vào lúc biên
soạn tích hợp dữ liệu, hoặc một số cột thuộc tính (ví dụ: số điện thoại khách hàng)
Trang 12không được người bán hàng nhập vào Cũng có nhiều lý do liên quan đến hệ thống
và việc xử lý.
2.3.1.1 Điền đầy giá trị thiếu bằng cách thủ công:
Tính toán, xem xét lại tập giá trị và điền giá trị thích hợp vào Phương phápnày cho kết quả tính toán cao, nhưng chỉ áp dụng cho những tập dữ liệu nhỏ vớinhững ít thuộc tính bị thiếu
2.3.1.2 Bó qua những dòng thiếu
Đây là phương pháp dễ dàng nhưng kém hiệu quả, chỉ nên sử dụng sau cùng
khi dòng chứa nhiều thuộc tính bị thiếu
2.3.1.3 Sử dụng những hang số chung để điền day giá trị thiếu+ Thay thế những giá trị thuộc tính thiếu với cùng một giá trị như là một
nhãn “không biết” hay -e Nếu giá trị thiếu được thay thé bang “khôngbiết” thì chương trình khai phá dữ liệu có thể nghĩ sai rằng chúng thànhlập một khái niệm mới bởi vì tất cả đều có một giá trị chung “khôngbiết” Vì lý do đó, mặc dù phương pháp này đơn giản nhung nó không
đáng tin cậy.
+ Sử dụng giá trị thuộc tính trung bình dé điền vào giá trị thiếu Ví dụ, giả
sử tiền lương bình quân của công nhân trong một xí nghiệp là 900.000đ
Sử dụng giá trị này dé thay thé giá trị thiếu cho tiền lương
+ Sử dụng giá trị trung bình cho tất cả các mẫu thuộc về cùng một lớp như
bộ dữ liệu đã cho Ví dụ nếu việc phân lớp khách hàng theo nghề nghiệp,
thay thế giá trị thiếu với tiền lương trung bình cho những khách hàng
cùng có nghề nghiệp giống nhau
2.3.1.4 Sử dụng giá trị dự đoán có kha năng nhất dé điền đầy giá
trị thiêu.
Phương pháp sử dụng hăng số chung để điền đầy giá trị thiếu đơn giản
nhưng van đề chất lượng dữ liệu nảy sinh khi những giá trị giống nhau được sử
Trang 13dụng dé đại diện cho những giá trị bị thiếu That ra những hóa đơn có giá trị thật là
0 khác với những hóa đơn thiếu giá trị và giá trị thiếu được gán là 0 Sử dụng giá trị
dự đoán có khả năng nhất dé điền day giá trị thiếu là quá trình suy đoán giá trị thiếu
dựa vào các giá tri đã cho.
Dựa theo sự phân bố các giá trị đã biết: Dựa theo các giá trị không thiếu
và vẽ từ sự phân bố mỗi lần chúng ta bắt gặp giá trị thiếu
Ví dụ: dãy 1,2,3,1,3,1,,, ,l có 3 giá trị thiếu Các giá trị thiếu dựa vào sựphân bồ là P(1) = 3, P(2) =1, P(3) = 3 Như vậy, sự phân bố các thuộc tính thiếu sẽchính xác hơn với sự phân bồ toàn diện Hiên nhiên là giả định ở đây là giá trị thiếu
được phân bố giống như giá trị không thiếu.
Tiếp cận ước lượng điểm và tiếp cận dựa theo phân bố đơn giản để thực hiện,chi phí rẻ và dễ hiểu, dễ giải thích, nhưng chúng lại đơn sơ và dựa trên những gia
định có khả năng không chính xác.
2.3.1.5 Dự đoán giá trị thiếu bằng phương pháp ABB [24]
Giả sử trong một vùng của bang dit liệu có n, trường hợp đữ liệu day đủ trên
Y và no đữ liệu thiếu trên Y
b BI: Lay 1 mẫu ngẫu nhiên N, trong n, giá trị đủ
7 B2: Lay 1 mẫu ngẫu nhiên Nụ trong no giá trị thiếu
7 B3: Thay gia tri Y cua mẫu N¡ cho giá trị Y thiếu của No’
7 B4: Lap lại các bước từ 1 — 3 cho các giá tri thiếu còn lại
Thuật toán như sau
Trang 14Các phương pháp trên xử lý dữ liệu chỉ theo một thuộc tính Trong thực tế,
nhất là trong các cơ sở dữ liệu đa chiều, giá tri một thuộc tính có thé phu thudc vao
nhiều thuộc tính Ví dụ: chiều cao của một người phụ thuộc vào chủng tộc, môitrường sống (nơi chốn, chế độ dinh dưỡng ), tuổi tác, đi truyền
Vì vậy dé dự đoán giá tri thiếu cần xem xét đến các thuộc tính khác của toàn
bộ dữ liệu đã có.
Gọi D là bang dữ liệu với các thuộc tính Xị, ,Xạ , Y với X¡, ,Xạ được gọi
là các đặc điểm, Y được gọi là đích và mỗi dòng trong bảng được gọi là mẫu Một
mô hình dự đoán nghiên cứu mối quan hệ giữa Xj, ,.X, và Y từ D và dự đoán giátrị Y cho mẫu mới trên cơ sở các giá tri Xị, ,Xạ của nó D được gọi là tập huấnluyện Chúng ta dùng h dé biéu thị mô hình dự đoán và h(x) trả về giá trị đích Y củamau x Nếu Y là giá trị số, h được gọi là một mô hình hồi qui Nếu Y là một giá tri
Trang 15có thê phân lớp, h được gọi là mô hình phân lớp Cây quyết định, mạng neural, môhình hồi qui là những mẫu của mô hình dự đoán
2.3.1.6 Dự đoán giá trị thiếu bằng hồi qui [48]
Hồi qui sử dụng với giả định các thuộc tính thiếu là đơn điệu Gọi d là tậpcác thuộc tính Y¡, Y¿, , Yu Nếu Y; không thiếu thì các thuộc tính Y¡, Y;, , Yj
không thiếu
Ví dụ 1: Chúng ta có tập dit liệu thiếu sau đây
Can nặng Tuổi Chiều cao Chỉ số sức khỏe
-Héi qui thực hiện đệ qui, phát sinh các thuộc tinh theo tiễn trình từ trái
qua phải Vì vậy, mô hình hồi qui đầu tiên có thê là:
Chiêu cao = 0 + tuổi+ By cân nặng.
Sau mỗi lần hồi qui, giá trị thiếu được thay thé bang giá trị dự đoáncộng thêm một số hạng lỗi (ty lệ lệch) và mô hình hồi qui khác sẽ được dẫn
xuât,
Chỉ sô sức khỏe = 0 + \ tudi+ By cân nặng + 3 chiêu cao
Tiếp tục như vậy cho đến khi tất cả các giá trị thiếu được thay thế bởi giá trị
hồi qui Từ các lỗi ngẫu nhiên khác nhau, chúng ta có thể tạo ra nhiều tập dữ liệu
bằng cách xoay vòng qua tiến trình tính toán Mỗi tập dữ liệu được phân tích riêngbiệt và phân tích nhiều tập dữ liệu được kết hợp dé tạo ra tập kết quả đáng tin
Tổng quát phương trình hồi qui tuyến tính có dạng
Y = a+ B, X, + B2 Xot + By X, + € (2.1)
Trang 16Voi x là giá trị trung bình của X va y là giá trị trung bình của Y !PH,
Với mô hình hồi qui bội, các hệ số / được xác định từ ma trận quan hệ [48]
_ Re | Ry
trong đó
A, 4, Ay X, H
x,x,
Ry R,
A,
y Re 1
X; X;
Trang 17Ví dụ 2: minh họa phương pháp hồi qui cho tập dữ liệu hai chiều:
Hình 2.1 minh họa phương pháp hồi qui cho tập dữ liệu hai chiều
Những điểm đánh dấu + biểu diễn trường hợp X và Y đủ giá trị
: €2!) —=
Trường hợp đủ X nhưng thiếu Y được biểu diễn bởi đường tròn trên
truc X.
Hồi qui Y trên X cho trường hợp từ 1, ,m
Các chấm trên đường hồi qui là giá trị thay thế các giá trị thiếu Y
Trang 18beta = TongX Y/TongXb;
anpha = tbY — beta*tbX;
Trang 19— Mô hình hồi qui cần được chỉ đinh.
— Những biến dự đoán luôn được dự đoán hoàn toàn từ mô hình nên
việc sửa chữa và tô hợp các biến đổi gia tăng
— Phuong pháp trở nên phức tạp khi nhiều biến có dữ liệu thiếu và có
nhiêu biên trên chủ đê chung.
Trang 20— Giá trị dữ đoán có thé vượt quá phạm vi cho phép
— Số lượng mẫu phải rất lớn để có ước lượng chính xác
2.3.1.7 Dự đoán hồi qui cho biến đối không liên tụcPhương pháp hồi qui trên dành cho biến đổi liên tục, đối với các biến đổikhông liên tục ta áp dụng cùng nguyên lý nhưng cần thay đổi mô hình
—_ Ví dụ; Nếu Y là phân phối nhị thức, cần điều chỉnh mô hình hồi qui
_ Nếu Y >0 thì sử dụng chuyền đổi logŒ, = X', B+e,)
2.3.1.8 Dự đoán giá trị thiếu phương pháp hướng điểm [36]
Phương pháp phân loại dit liệu bằng cách hướng về các thuộc tính thiếu.Cũng với giả định các thuộc tính thiếu là đơn điệu Mô hình hồi qui logistic đượcxây dựng trên cơ sở những giá trị Y¡, Y¿, , Y,.; dé tính giá trị có thể có của thuộc
tính thiếu Y; với các quan sát bất kỳ Các quan sát đó được nhóm lại với các giá trị
mà Y; có thé có Giá trị Y¡ được phat sinh từ các giá tri trong nhóm sử dụng phương
pháp ABB Hướng điểm được thực hiện theo các bước:
— Dùng một biến chỉ định R; (0 hoặc 1) dé chỉ định nơi thuộc tính Y; thiếu
hay không thiếu (hình 2.2)
Trang 21— Điều chỉnh mô hình hồi qui logistic.
Logrit(p;) = Bo + BiY1 + B2Y2 + + Õụ-1)Ÿ-i)
Với pj = Pr(R; = 0\Y), Yo, By-n¥ qv)
va logrit(p) = log(p/(I-p))
— Tạo một điểm cho mỗi quan sat dé biéu thị kha năng giá tri thiếu.
units
_
0 Œœ 0œ Ơ› om b b ON he 11.C h5) Ơ (Œ nh bơ MB CGÔẢ >> Ơ OH OO OI
Coe 0œ jàHớỚỡ CƠ b (C3 h = © @ĐDƠœ ¡mdHỚƠ C b C3 h SN OAMAADAAAAD+> b b h M ONDA AA
Hình 2.3 minh hoa phương pháp hướng điểm
— Chia các quan sát vào trong các nhóm trên cơ sở những điểm này
Trang 22— Áp dụng tính ABB cho mỗi nhóm Trong nhóm k, đặt Y 415 biểu thị cho
quan sát nị, với giá tri không thiếu vị Và Ymis biểu thị cho quan sát nọ vớigiá tri thiếu Y; ABB tính toán rút ra giá tri nị đầu tiên một cách ngẫunhiên với sự thay thé từ Yous
Tiến trình được lặp lại liên tục cho mỗi giá trị thiếu
Nhận xét
= Phương pháp tính điểm chỉ sử dụng những thông tin thay đổi liên kếtvới sự biến đổi các thuộc tính dé dự đoán giá trị bị thiếu
= Khong sử dụng sự tương quan giữa các biến
= C6 hiệu quả cho việc suy luận xung quanh việc sắp xếp các giá tri dựđoán riêng biệt nhưng không phù hợp cho sự phân tích mối liên hệ giữa
các biến đồi
2.3.1.9 Dự đoán giá trị thiếu bằng phân lớp dữ liệu
Sử dụng cho các dữ liệu phi số, có thể phân lớp được Phân lớp có thể sửdung dé dự đoán giá trị thiếu với thuộc tính quyết định là thuộc tính chứa các giá trịthiếu Có nhiều kỹ thuật phân lớp dữ liệu như:
° Qui nạp cây quyết định với các giải thuật ID3, C4.5, See5/C5.0 v.v
° Phân lớp với GiniIndex.
° Phương pháp phân lớp Bayesian.
° Phân lớp bằng mạng lạn truyền ngược
° Phân lớp dựa trên nguyên lý khai phá luật kết hợp.
° Phân lớp dựa vào giải thuật di truyền]
° Phân lớp dựa vào tiếp cận tập thô.
° Phân lớp dựa vào tiếp cận tập mờ
° Phân lớp bằng suy luận dựa trên trường hợp
Trang 23Dự đoán giá trị thiếu bằng ILA (Inductive Learning Algorithm)
Trong các kỹ thuật đã đề cập trên, luận văn này trình bày dự đoán giá trị
thiếu bằng ILA Thuật giải ILA được dùng dé xác định các luật phân loại cho tập
hợp các mẫu học Thuật giải này thực hiện theo cơ chế lặp, dé tìm luật riêng đại
diện cho tập mẫu của từng lớp Sau khi xác định được luật, thuật giải sẽ loại bỏ các
mẫu mà luật này bao hàm, đồng thời thêm luật mới này vào tập luật Kết quả có
được là một danh sách có thứ tự các luật.
Ví dụ:
Với tập mau như sau:
Mẫu Size Color Shape Decision
số
1 medium blue brick yes
2 small red wedge no
3 small red sphere yes
4 Large red wedge no
5 Large green pillar yes
6 large red pillar no
7 large green sphere yes
thì các luật rút ra được là:
Neu (Color = green) thi (Decision = yes)
Neu (Size = medium) thi (Decision = yes)
Neu (Shape = sphere) thi (Decision = yes)
Neu (Shape = wedge) thi (Decision = no)
Neu (Size = large) AND (Color = red) thi (Decision = no)
Thuật giải ILA có thé sử dụng dé dự đoán giá trị thiếu với thuộc tính quyếtđịnh là thuộc tính chứa các giá tri thiếu Thuật giải ILA được mô tả như sau:
Gia sử ta có một cơ sở dữ liệu có m mâu và k thuộc tính.
Trang 24Bước 0: Khởi tạo tập luật R là 0.
Bước 1: Phân chia bảng m mẫu ban đầu thành n bảng con Mỗi bảng con ứng
với một giá trị của thuộc tính quyết định
Bước 2: Xét bảng con đầu tiên i, i= 1
Bước 3: Khởi tạo bộ đếm kết hợp thuộc tính j, j =1
Bước 4: Ta tạo ra một danh sách S các cách kết hợp j thuộc tinh từ k thuộc
tính ban đầu
Bước 5: Với mỗi cách kết hợp S; trong danh sách S, đếm số lần xuất hiện lớn
nhất của các mẫu chưa được đánh dấu trong bảng con đang xét(bang con i) mà thỏa mãn các thuộc tính kết hợp S; (đồng thời không
xuất hiện các giá trị của thuộc tính kết hợp S; của mẫu hiện tại trên
các bảng con khác) Gọi tổ hợp đầu tiên (trong bảng con i) có số lầnxuất hiện nhiều nhất (Max) là tổ hợp lớn nhất
Bước 6: Nếu Max = 0 thì tăng j lên 1 và quay lại Bước 4
Bước 7: Đánh dau các dòng thỏa tô hợp lớn nhất của bảng con đang xét i
Bước 8: Thêm luật với vào R, với về trái là tập các thuộc tính của tổ hợp lớn
nhất cùng với giá trị của nó (kết hợp các thuộc tính bằng toán tử
AND) và về phải là giá trị của thuộc tính quyết định tương ứng
Bước 9: Nếu tất cả các dòng của bảng con hiện tại ¡ đã được đánh dấu thì
tăng i lên 1 và quay lại Bước 3 Ngược lại thì quay lại Bước 4 Nếu
tất cả các bảng con đã được xét thì kết thúc Kết quả thu được là tập
luật cân tìm.
2.3.2 Sửa chữa giá trị nhiễu, bat thường
— “Nhiễu” là những lỗi ngẫu nhiên hoặc mâu thuẫn trong một biến đo
được.:
— Bấtthường: là giá trị bên ngoài vùng dữ liệu Xem xét tập dit liệu sau
Trang 253, 4, 7, 4, 8, 3, 9, 5, 7, 6, 92
Trực giác cho ta thay rằng 92 là giá trị “đáng nghi ngờ” vì hầu hết các giá tri
chỉ ở khoảng từ 0 — 10; 92 là giá trị bất thường
2.3.2.1 Binning
Phương pháp Binning làm phăng giá trị đã sắp xếp bằng cách tham khảo
“vùng lân cận” của nó, đó là những giá trị xung quanh nó Giá trị đã sắp xếp được
phân bố vào trong một bucket hoặc bin Vì phương pháp binning tham khảo những
giá tri lân cận nó, chúng thực hiện làm phẳng cục bộ Có các cách phân chia bin như
sau:
+ Phân chia theo chiều rộng (khoảng cách) bằng nhau:
© Chia vùng khảo sát thành N khoảng có bề rộng bằng nhau
o Nếu A và B là giá trị nhỏ nhất và lớn nhất của thuộc tính, bề rộng
mỗi khoảng sẽ là (B — A)/N.
© Phương pháp này hầu như không phức tạp
© Những giá trị ngoài có thể vượt cao hơn hắn
o Không xử lý tốt những dữ liệu đối xứng lệch
+ Phân chia theo chiều sâu (độ phô biến) bang nhau:
lo Chia vùng khảo sát thành N khoảng Mỗi khoảng chứa các mẫu
gần giống nhau
o Tỷ lệ (phạm vi) dữ liệu tốt
© Việc quản lý các thuộc tính có thé phức tap
Hình 2.4 minh họa vài kỹ thuật binning Trong ví dụ này, dữ liệu quan sát
được sắp xếp đầu tiên và được chia vào trong những bin bằng nhau với bề rộng
bang 3 (nghĩa là mỗi bin có 3 giá tri) Ví dụ, trung bình của 4, 8 và 15 trong bin 1 là
9, cho nên giá trị nguồn trong bin này được thay thế bởi 9 Tương tự, làm phăng bởinhững giá trị giữa bin có thể được dùng, trong giá trị mỗi bin được thay thế bởi giátrị giữa Trong làm phẳng bin bởi những giá trị biên, những giá trị lớn nhất và nhỏnhất trong bin đã cho được được xem là giá trị biên Mỗi giá trị bin được thay thế
Trang 26bởi giá trị biên gần nhất Thông thường, bề rộng càng lớn thì hiệu quả làm phang
càng cao Các bin có thé có bề rộng bằng nhau, ở đó day khoảng cách giá trị trong
môi bin là bat biên.
Bin 1:9, 9,9 Bin 2: 22, 22, 22
Bin 3: 29, 29, 29
Lam phẳng bin bang giá trị biên
Bin 1: 4, 4, 15 Bin 2: 21, 21, 24 Bin 3: 25, 25, 34
Hình 2.4: Phuong pháp binning dé làm phang dữ liệu
2.3.2.2 Gom cụm
Những giá trị bên
ngoài có thể phát hiện bằng cách
gom cụm, ở đó các giá trị tương
tự được tổ chức vào trong các
nhóm hoặc các cụm Các giá tri
bên ngoài tập các cụm có thể
xem như những giá trị ngoài sẽ
bị gỡ bỏ(Hình 2.5).
Trang 27Các phương pháp gom cụm chủ yếu
a Phương pháp phân hoạch:
Tao một phân hoạch của CSDL D chứa n đối tượng thành tập gồm k
cum sao cho:
= Mỗi cum chứa ít nhất là một đối tượng
= Mỗi đối tượng thuộc về đúng một cụm.
Cho {, tim một phân hoạch có & cum nhằm tối ưu tiêu chuẩn phân hoạch
được chọn.
Tôi ưu toàn cục: liệt kê theo lôi vét cạn tat cả các phan hoạch.
Các phương pháp:
k-means mỗi cụm được đại diện băng tâm của cụm.
Dữ liệu vào của thuật toán: số k cụm k, và CSDL có: n đối tượng
cụm
Thuật toán gom 4 bước:
fe) Phan hoach déi tượng thành k tập con/cum khác rỗng.
lo Tính các điểm hạt giống làm tâm cụm (trung bình của các đối
tượng của cụm) cho từng cụm trong cụm hiện hành.
fe) Gan từng đối tượng vào cụm có tâm gần nhất
fe) Quay về bước 2, cham dứt khi không còn phép gan mới
k-medoids: mỗi cụm được đại diện băng một trong các đôi tượng của
Dữ liệuyào của thuật toán: số cụm k và CSDL có n đối tượng
Thuật toán gồm 4 bước :
° Chọn bat ky & đối tượng làm medoids ban đầu (các đối tượng
đại diện).
° Gan từng đối tượng còn lại vào cụm có medoid gan nhất
fe) Chon nonmedoid va thay một trong các medoids bằng nó nếu
nó cải thiện chât lượng cụm.
o Quay về bước 2, dừng khi không còn phép gan mới
Trang 287 Phân cấp cụm thường tạo cây các cụm
fe) Các lá của cây biéu diễn các đối tượng riêng lẻ.
S Các nút trong của cây biéu diễn các cụm
" Hai loại kỹ thuật gom cụm phân lớp :
s Gộp (từ dưới lên):
— Đưa từng đôi tượng vào cụm riêng của nó
— Trộn ở mỗi bước hai cum tương tự nhất cho đến khi chỉ còn một cụmhay thỏa điều kiện kết thúc
s Phân chia (từ trên xuống):
— Bat đầu bằng một cụm lớn chứa tắt cả đối tượng
— Phân chia cụm phân biệt nhất thành các cụm nhỏ hơn và xử lý cho
đến khi có ø cụm hay thỏa điều kiện kết thúc
Thường có 3 cách được dùng dé định nghĩa khoảng cách giữa các cụm:
O Phương pháp liên kết đơn(láng giéng gần nhất):
dặ,j)= minxec, yec{d(x,y)}
o_ Phương pháp liên kết hoàn toàn(láng giéng xa nhất ):
dú,j)= Maxxec, yec{ d(x,y)}
Trang 29chia-Ưu điểm của các phương pháp phân cấp
— Khai niệm đơn giản.
— Ly thuyết tốt
— _ Khi cụm được trộn/tách, quyết định là vĩnh cửu => số các phương án
khác nhau cần được xem xét bị rút giảm
Khuyết điểm của phương pháp phân cấp
— _ Trộn/tách các cụm là vĩnh cửu => các quyết định sai là không thé khắc
phục về sau.
— Các phương pháp phân chia là cần thời gian tính toán
— Các phương pháp là không scalable cho các tập dữ liệu lớn.
Trang 302.3.2.3 Hồi qui
Dữ liệu có thé được làm phẳng bang cách điều chỉnh dữ liệu vào một ham sé,như là hỗồi qui tuyến tính Hồi qui bao hàm việc tìm giới hạn tốt nhất dé điều chỉnhhai thuộc tính (hoặc biến), để rồi một thuộc tính có thể được sử dụng để dự đoán
ngang hàng tối thiểu để nhận biết XI X
giá trị của Y1, Y2, , XI, X2,
+ — Hỏi qui bội:
Y =bọ + b; X; + by X2+ + Dạ Xa
Hinh 2.7 Hồi qui tuyến tính
— Hoi qui bội là một mở rộng của hôi qui tuyên tính, nơi có hơn hai
thuộc tính được đòi hỏi và đữ liệu được điều chỉnh đến bề mặt đa chiều
— Nhiều hàm không tuyến tính có thê biến đổi vào trong hàm như trên
Trang 312.3.3.1 Kỹ thuật loại trừ trùng lắp thông tin cơ ban
Kỹ thuật này nhằm đến sự phát hiện cả sự chính xác trùng lắp va xấp xi trùnglắp Đây là kỹ thuật sắp xếp để đạt đến thông tin ban đầu và thực hiện so sánhnhững bản ghi bên cạnh Hai bản ghi trùng lắp chính xác sẽ đứng kế tiếp nhau ngay
sau khi sắp xếp, còn hai bản ghi trùng lắp xấp xỉ không chắc sẽ đứng cạnh nhau sau
khi sắp xếp, tuy vậy, nó có thé ở gần quanh vi trí đó Trường hợp xấu nhất, nó cóthể đứng ngược lại với bảng dữ liệu hoặc danh sách đã sắp xếp Kết quả đạt được
phụ thuộc vào việc chọn vùng sắp xếp và những lỗi hiện diện trong các bản ghi
Như vậy, dé làm phù hợp tất cả các bản ghi có thé trùng lắp, mọi cặp của bản ghi
đều phải so sánh, dẫn đến số lần so sánh là bậc 2 Đây là điều không hiệu quả và
không có khả năng đối với nhà kho dữ liệu, nơi có hàng triệu bảng ghi được lưu trữ.
Trang 322.3.3.2 Kỹ thuật sắp xếp lân cận [2]
Kỹ thuật sắp xếp lân cận là mở rộng của kỹ thuật cơ bản dé thích ứng với
những cơ sở dữ liệu với số lượng bản ghi lớn Mục đích của nó là giảm bớt số cặp
so sánh bằng cách chỉ so sánh những bản ghi trong một giới hạn nào đó bằng cách
tạo một cửa số có kích thước giới hạn và cho nó trượt trên vùng dữ liệu đã sắp xếp.
Vi du, tạo một cửa số kích thước W cho nó trượt trên cơ sở dữ liệu qua một bản ghitại một thời gian, bản ghi mới được so sánh với W -1 bản ghi khác trong cửa sé.Kích thước cửa số là có định, vi vậy một bản ghi vào cửa sô thì bản ghi lớn nhất đi
ra khỏi cửa số Vì vậy số lần so sánh giảm từ O(T’) xuống O (TW) với T là tổng số
bản ghi trong cơ sở đữ liệu và W là số bản ghi trong tập con của bảng đang được so
sánh.
Dễ thấy rằng ở đây có sự hoán đổi giữa số lần thực hiện so sánh và độ chínhxác của thuật toán phát hiện Giá trị W lớn, hệ thống phát hiện các bản ghi trùng lắp
sẽ tốt hơn Tuy nhiên, điều này tăng số lần so sánh và vì vậy tăng thời gian chạy
Một cách tiếp cận khác là quét các bản ghi hơn một lần nhưng trong thứ tựkhác nhau (ví dụ sắp xếp trên khóa khác) và áp dụng kỹ thuật cửa số có định dé sosánh và phối hợp kết quả các lần quét Tiếp cận này gọi là sắp xếp lân cận đa thuộctính Với tiếp cận này, sử dụng cửa số có kích thước nhỏ tốt hơn là cửa số có kích
thước lớn.
2.3.3.3 Phương pháp DE-SNM
Phương pháp này phát triển từ phương pháp sắp xếp lân cận Cho một tậphợp của hai hay nhiều hơn các cơ sở đữ liệu ràng buộc với nhau vào trong một danh
sách liên tục và thực hiện theo các bước.
1 Tạo khóa: Khóa được tính cho mỗi bản ghi trong danh sách bằng cách rútnhững lĩnh vực phù hợp hoặc một phần của lãnh vực
2 Sắp xếp dữ liệu, giới hạn trùng lắp: Sắp xếp dữ liệu trong danh sách dit
liệu sử dụng khóa đã tạo ở bước 1 Chia đữ liệu đã sắp xếp vào 2 danh sách Trong
Trang 33danh sách 1 (danh sách trùng lắp), đặt tất cả các bản ghi mà khóa trùng lắp được
phát hiện (ví dụ tất cả những bản ghi chia sẻ cùng khóa sắp xếp với các bản ghi
khác trong danh sách), các bản ghi còn lại (có khóa duy nhất) được đặt vào danhsách 2 (danh sách không trùng lắp)
3 Sắp xếp danh sách trùng lắp
4 Quét cửa số đầu tiên: Di chuyển cửa số nhỏ qua danh sách các bản ghitrùng lắp để giới hạn việc so sánh đến những bản ghi trong cửa số có cùng khóa.Khi cửa số đầy, bản ghi thứ nhất ra khỏi cửa số Đặt u là kích thước cửa số nhỏ.Moi bản ghi đi vào cửa số hoặc có cùng khóa với các bản ghi khác hiện diện trongcửa số hoặc khác khóa với các bản ghi khác Nếu khóa của bản ghi mới giống khóa
của các bản ghi trong cửa sô thì bản ghi này được so sánh với tất cả các bản ghi
trong cửa số dé tìm những bản ghi phù hợp Nếu khóa của bản ghi mới khác của tat
cả các bản ghi khác, thì tiếp tục như sau:
— _ Thêm vào danh sách trả về bản ghi tat cả những bản ghi với khóa cũkhông phù hợp với bất cứ bản ghi nào
— _ Với mỗi nhóm bản ghi phù hợp nhau, thêm vào danh sách trả về bảnghi phù hợp nhất với các bản ghi khác có cùng khóa Bản ghi này sẽ là bản
ghi đại diện đâu tiên cho khóa của nó ở những bước sau.
— Di chuyên cửa sô u-1 vi trí, tiêp tục, bat dau với bản ghi mới.
5 Hợp nhất: Hợp nhất danh sách trả về với bản ghi không nằm trong danh
sách trùng lắp Một vùng bit mở rộng được thêm vào kết quả sắp xếp để chỉ ra có
bản ghi đã đến từ danh sách trả về hoặc danh sách không trùng lắp hay không
6 Quét cửa số thứ nhì: Di chuyển cửa số có kích thước cố định qua danh
sách kết quả trong bước 5, hạn chế việc so sánh sự phù hợp bản ghi với những bản
ghi trong cửa số Nếu kích thước của cửa số là w bản ghi, thì mọi bản ghi mới vàocửa số được so sánh với w-1 bản ghi dé tìm những bản ghi phù hợp Nếu bản ghi
Trang 34vào cửa sô có gốc ở danh sách trả về (phát hiện bằng vùng bit mở rộng) thì nó chỉ
so sánh với bản ghi khác không đến từ danh sách trả về
Ví dụ dưới đây Minh họa phương pháp này, sử dụng cửa sô so sánh với kích
010 Jerry Goldsmith London
Bang 2.1 : Bang dữ liệu chưa làm sạch.
Trang 35Bang 2.3: Bang không trùng lắp trong DE-SNM
2.3.3.4 Tiếp cận phát hiện trùng lắp tương ứng
Van dé trùng lắp trong cơ sở dữ liệu có thể mô tả như là sự giữ dấu vết của
các thành phan liên kết trong đồ thị vô hướng Trong đó, các đỉnh của đồ thị G là
các bản ghi trong cơ sở dữ liệu kích thước T Khoi tao, đồ thị chỉ chứa T đỉnh
không nối kết Có một cạnh vô hướng giữa hai đỉnh khi và chỉ khi những bản ghi
tương ứng với cặp đỉnh được tìm thấy phù hợp theo thuật toán cặp bản ghi phù hợp
Kỹ thuật này làm việc theo các bước sau:
1 Sắp xếp cơ sở dir liệu trên khóa được chọn và tạo các cụm từ cơ sở dữ liệu
2 Đặt bản ghi đầu tiên đại diện cho cụm đầu tiên trong hàng ưu tiên
3 So sánh bản ghi thứ hai để nhập vào hàng ưu tiên Nếu có sự phù hợp chính
xác, cập nhật đô thị (đồ thị toàn bộ cơ sở dữ liệu được cập nhật dé trình bay
liên kết giữa 2 bản ghi) và tiếp tục Nếu không có phù hợp chính xác thì thực
hiện xấp xi phù hợp, nếu có xấp xi thì cập nhật đồ thị và tiếp tuc, nếu không có
xap xi ngưỡng phù hợp nhưng có phù hợp một ít thực hiện phù hop xấp xi phùhợp giữa giữa bản ghi và tất cả các bản ghi khác trong cụm được tượng trưng
bởi bản ghi trong hàng ưu tiên Nếu sự phù hợp được phát hiện ở bat kỳ giaiđoạn nào, cập nhật đồ thị Nếu bản ghi được xem xét là thành viên của một
Trang 36cụm khác, hợp nhất hai cụm Nếu bản ghi đủ khác với bản ghi đang đại diện
cho cụm trong hàng ưu tiên thì gộp bản ghi này vào như một phần của đại diện
cho cụm trong hàng ưu tiên Nếu không tìm thấy sự phù hợp với bất kỳ thànhviên nào của tập tiêu biểu trong hàng ưu tiên, thì bản ghi đang xem xét phảithuộc về cụm chưa được thăm viếng Vì vậy, thêm bản ghi đến hàng ưu tiênnhư là một đại diện của cụm mới và đ nó ở ưu tiên cao nhất
4 Lấy bản ghi kế tiếp trong cơ sở dữ liệu và tiếp tục lặp lại bước 3 Khi hàng ưu
tiên đạt đến kích thước lớn nhất, tập nhập với ngưỡng nhỏ nhất sẽ được gỡ
khỏi hàng ưu tiên (cụm có thành viên tìm ra sau cùng có ưu tiên cao nhât).
@ ©)
Hình 2.8: Đồ thi vô hướng chưa sạch trong loại trừ trùng lắp tương thích
Ví dụ: sử dụng bảng đữ liệu chưa làm sạch trong bảng 2.1 Bước thứ nhấttrong tiếp cận tương thích là biểu diễn toàn bộ dữ liệu trong đồ thị vô hướng nhưtrong hình 2.8 Các đỉnh của dé thị biểu diễn một bản ghi duy nhất Trong ví dụ này
là customer_id nhận dạng những bản ghi duy nhất trong bảng dữ liệu, vì vậy
customer_id được sử dụng như một đỉnh của đồ thị vô hướng trình bày trong bang
dữ liệu mẫu Bước tiếp trong thuật toán là chọn khóa sắp xếp cho bảng dir liệu vàsắp xếp bảng Trong ví dụ này, tên thuộc tính cuối được chọn là khóa sắp xếp Bảng
dữ liệu đã sắp xếp dữ liệu được trình bày trong bảng 2.5 Tiếp theo, chọn các cụmnhận diện từ cơ sở dữ liệu đã sắp xếp trên khóa chọn (last name) Trong ví dụ này,
Trang 37007 Jerry Smith Kingston
001 Adams White London
003 Barry White Kingston
A White London Adam White London
Adams Whyte London
Bảng 2.5: Sắp xếp bang dữ liệu chưa làm sạch
Tiến trình làm sạch bắt đầu: Khởi đầu hàng ưu tiên chưa có bản ghi nào
Kích thước lớn nhất của hàng ưu tiên do người sử dụng đặt Trong ví dụ này kích
thước lớn nhất của hàng ưu tiên là 5 bản ghi Bản ghi đầu tiên trong bản dữ liệu đã
sắp xếp được vào trong hàng ưu tiên, bản ghi này đại diện cho cụm của nó trong
hang ưu tiên, trong trường hợp này, cum chỉ có 1 bản ghi Tiếp theo, bản ghi thứ hai
trên bảng được so sánh với bản ghi trong hàng ưu tiên Hai bản ghi không phù hợp
chính xác với nhau, vi vây, chúng được so sánh xấp xi phù hợp, xấp xi phù hợp
cũng không đúng, vì vậy bản ghi thứ hai được đưa vào hàng ưu tiên làm đại diện
cho cụm của nó Cụm của bản ghi thứ hai có 4 bản ghi với last name là “Smith”.
Tiếp tục, bản ghi thứ 3 được so sánh với các bản ghi trong hàng ưu tiên Xấp xỉ phùhợp được tìm thấy giữa bản ghi thứ 3 và bản ghi trong hàng ưu tiên (002, 004) Vìvậy, một liên kết giữa hai node 002 và 004 được tạo thành tiếp tục như vậy cuốicùng ta có liên kết giữa 002-004, 002-006-007, 001-005, 001-009, 001-008 Đồ thị
vô hướng kết quả trình bày trong hình 2.9 Trong đồ thị này các liên kết giữa các
node biểu diễn các bản ghi được coi như là trùng lắp Tat cả các nhóm node liên kết
với nhau được thu vào một bản ghi Như vậy, 002,004,006,007 được thu vào 1 bản
Trang 38ghi, 001,005,008,009 vào một bản ghi, 003 và 010 là những thành viên riêng của
bảng đữ liệu đã làm sạch Tiếp cận tương ứng thực hiện ít so sánh hơn các tiếp cận
đã thảo luận ở trên trong khi duy trì cùng mức chính xác
Thy
Hình 2.9: Đồ thị vô hướng đã sạch trong loại trừ trùng lắp tương ứng
2.4 Đề nghị hướng điền day giá trị thiếu khác
Nhận xét với mô hình hồi qui: Các thuộc tính dữ liệu không phải lúc nàocũng liên hệ với nhau theo một đường tuyến tính, nhưng có lúc tăng, có lúc giảm
Nếu sử dụng mô hình hồi qui phi tuyến thì việc tìm phương trình hồi qui thích hợp
không đơn giản.
Trong ví dụ bên dưới trong khoảng X=(2.5,3.4) giá trị X sau khi hồi qui sẽkhác khi hồi qui X trên toàn bộ dữ liệu Ví dụ: Cho tập dữ liệu
Trang 39Đường hồi qui màu hồng
Hình 2.10: Hồi qui trên đoạnPhương trình hồi qui đoạn 1: Y= 2.880597X - 3.59104
Trang 40Qua 2 đồ thị trên, rõ ràng với giá trị X = 3.1 thì mô hình hồi qui cụm chính
xác hơn hồi qui trên toàn bộ tập dữ liệu Vì vậy, nên gọm cụm dữ liệu rồi sau đó áp
dụng phương pháp hồi qui theo cụm dé dự đoán giá trị thiếu
Điền đầy dữ liệu thiếu bằng hồi qui cụm:
BI: Phan cum dữ liệu theo các thuộc tính độc lập.
B2: Thực hiện hồi qui theo cụm
Thuật toán hồi qui cụm như sau:
begin
nhập cơ sở đữ liệu;
sắp xếp cơ sở đữ liệu theo thuộc tính độc lập;
gom cum dit liệu;
fori=lton don sé cụm
forj = 1 to m do m số phan tử trong cụm i
begin
Kiểm tra giá trị thiếu trên cum i;
if (giá tri thiéu thuộc cum i) then
hồi qui trén cum i;
end
end
Ưu điểm: Giá tri dy đoán chính xác hơn khi thực hiện hồi qui trong cụm
Nhược điểm: Độ chính xác của thuật toán phụ thuộc vào cách chia cụm
2.5 Kết luận và hướng cải tiến
Các cơ sở dir liệu thực trong kho đữ liệu và các cơ sở dữ liệu lớn thường
thiêu chât lượng với các vân đê sau: