Chương 3 đã chạy thử nghiệm một số thuật toán cơ bản xử lý giá trị thiếu và đưa ra kết quả kiểm thử một số thuật toán. Tuy nhiên, trong quá trình xây dựng hệ thống, thông tin dữ liệu thu thập được có số lượng không nhiều nên kết quả khi thống kê chưa thực sự chính xác.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 1. Kết luận
Trong thực tế, do nhiều nguyên nhân, các CSDL cần khai phá thường không đầy đủ (dữ liệu bị thiếu), dữ liệu nhiễu, dữ liệu dư thừa. Dữ liệu thiếu gây khó khăn cho việc khai phá, ảnh hưởng trực tiếp đến chất lượng tri thức khám phá được. Xử lý các giá trị thiếu trong các CSDL không đầy đủ, vì vậy là một nhiệm vụ quan trọng hàng đầu của quá trình khám phá tri thức từ cơ sở dữ liệu.
Cho tới nay, nhiều phương pháp xử lý giá trị thiếu đã được đề xuât. Các phương pháp này cho phép xử lý trực tiếp các giá trị thiếu, tuy nhiên chúng có thể mang nhiễu vào tập dữ liệu. Việc xử lý các giá trị thiếu cần phải được cân nhắc và thực hiện một cách thận trọng, nếu không sẽ làm có dữ liệu bị sai lệch.
Với đề tài “Xử lý giá trị thiếu trong khai phá dữ liệu” nội dung luận văn bao gồm các kết quả nghiên cứu về lý thuyết và thực nghiệm:
Khái quát về quá trình khai phá dữ liệu, khám phá tri thức, các kỹ thuật, các ứng dụng và những thách thức; vấn đề giá trị thiếu trong CSDL khai phá, cơ chế sinh ra giá trị thiếu, phân loại giá trị thiếu, nguyên tắc xử lý giá trị thiếu và các phương pháp xử lý giá trị thiếu.
Luận văn cũng trình bầy một số thuật toán cơ bản thường xử dụng để xử lý giá trị thiếu: phương pháp tổng quát, thuật toán thay thế giá trị thiếu bằng hằng số, thuật toán thay thế giá trị thiếu với giá trị trung bình (thuộc tính, phân nhóm), thuật toán xóa giá trị thiếu và thuật toán láng giềng gần nhất.
Tiến hành tính toán thực nghiệm và đưa ra kết quả của một số phương pháp cơ bản xử lý giá trị thiếu.
2. Hướng phát triển
Nghiên cứu các mô hình dự đoán giá trị thiếu dựa vào lý thuyết tập mờ, tập thô.
Nghiên cứu ứng dụng mạng noron sử dụng dự đoán giá trị thiếu
Nghiên cứu gán các phương pháp gán trị đồng thời cho tất cả các thành phần bị thiếu trong một bộ dữ liệu.
Nghiên cứu xử lý giá trị thiếu cho CSDL chứa dữ liệu lớn như Oracle, SqlServer…
3456578399 3 !"#$%%&'()( *$+,$ (-%./ +")!& /012!(%+()3445 36, ,"%)7%)!8)9(-:;,%$)!+<#$"%%&,)=> ,& #%+()? !@,))91 (),;,%$%)1*!%& !1(% ( AB/+% ++" ,% 77C344D344
EC%)+,/!&7F! ,+%#$"%%&,)=> ,&
#%+()? !@GH8I>7C%,F ), ! +9/H ,%$)!+)=> ,&
#%+()? !@%J,?( ,G0)!$%)1@+$ +1*!%& !343
KF"%$(- >>"(-% 7 !%&,#$"%%&C)/%($%)+)0$- JC"L)>K3:MMM<H)*& :E4NE5<
DO"2@@,PI%$ $+9@Q1-*%!)I1@$-,8O$-/!/+@' J,?( +%)=> ,& #%+()? !@,#$"%%&JJJGI! ++" >) I!9CJ:MM5< 5 -$$*'RR9($$,/@$ ,/?R) RJ!$%(> # $%>R?RS4R3S5R9@N$-/$N 9-%N*-N,/N>% /N*-$N-% N$!%N$-/( S-$$*+'RR===(%>%-&)?R*(R!$%(> +RI"CE55T44R TJ(/;,8),!%&/ UCF- $! $ $)0%++%&?>/ +,%$+ 00 ($%$- (>++%0% !((/!(@G#B9+7)/+ 28"(")!!%+I MJ!%VP/>:;,+<C>++%0%($%)C>/+$ !%&,#$"%%& J**>%($%)+1*!%& !NL !>&B !>%N %, > !&5EMN5KT344K
4P/+$?);JIJB$%+$,"!%C!)>%")!,JJ>@+%+)0 2)/!"%++%&#$F! $ $" $-),+0)!1/* !?%+ ,7 !%&J**>% , J!$%0%(%>G$ >>%& ( S:DN5<'DMNDEE344E
8 8!! "#$98 3%%&5
'()*+,-(./,
12012345673%%89:;<8;=>7887995?@AB
CDE23FGHIJ:85GKLM75
12&1223NOE2PQRE2STH73%2%9UVW9;XY98 ;=>Z
[\E2]^F_2`ab23FH;?9c5