Học không có thày hay còn gọi là học không giám sát, tức là trong tập dữ liệu chỉ có dữ liệu đầu vào mà chưa biết kết quả đầu ra. Kết quả của học không giám sát phụ thuộc vào từng tình huống cụ thể và từng bài toán cụ thể, đôi khi rất khó để tổng quát hoá thành mô hình toán học. Học không có thày được coi là là việc đánh giá các quá trình phát sinh từ dữ liệu đầu vào.
Hình 2.3 : Thuật toán học không có thày : Phân cụm
2.2.1.3 Học có thày m ột phần
Học có thày một phần là kỹ thuật học máy sử dụng dữ liệu trong đó gồm các thành phần dữ liệu đã được gán nhãn và các thành phần dữ liệu chưa được gán nhãn. Nhiều nhà nghiên cứu đã cho rằng các dữ liệu không có nhãn nếu có thêm một sổ ít các dừ liệu được gán nhãn thì sẽ làm cho kết quả của việc học được cải thiện một cách đáng kể. Đe có tập dừ liệu được gán nhãn đầy đủ thì ta cần có các nhân viên đánh nhãn bằng tay. Do đó, có thể vì lý do kinh tế hay vì khổi lượng công việc quá nhiều mà việc gắn nhãn có thể không được đầy đủ. Khi đó, học cỏ thày một phần sẽ phát huy được thế mạnh của nó.
Như chúng ta đã biết, với sự phát triển nhanh chóng cúa công nghệ thông tin, các hệ thống thông tin đã phải lưu trữ một khối lượng thông tin khổng lồ. Để sử dụng hiệu quả khối lượng thông tin này chúng ta phải có những phương pháp quản lý, khai thác tốt, nếu không chúng chỉ đơn thuần là nơi lưu trữ thông tin ờ trạ n h thái “tĩnh” . Ngày nay, với các kỹ thuật trong khai phá dừ liệu và máy học chúng ta có thể trích xuất ra những thông tin hữu ích mà chúng ta chưa biết.
Cũng bởi vì đây là một bộ môn khoa học mới nên hiện nay có khá nhiều định nghĩa về khai phá dừ liệu và máy học. Giáo sư Tom Mitchell đã đưa ra định nghĩa của khai phá dữ liệu như sau “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sứ đế khám phá ra các qui tắc và cải thiện các quyết định trong tương lai” . Theo cách tiếp cận gần với các ứng dụng hơn, tiến sĩ Fayyad đã định nghĩa “Khai phá dữ liệu thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất thông tin ẩn, trước đây ta chưa biết đến và các thông tin này có ích dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dừ liệu”. Chúng ta có thế coi, khai phá dữ liệu là một quá trình học tri thức mới từ những dừ liệu đã thu thập được.
Các ứng dụng của khai phá dữ liệu vượt ra khỏi lĩnh vực khoa học máy tính và trí tuệ nhân tạo và đã được áp dụng trong thương mại, công nghiệp... Sự hiệu quả của khai phá dữ liệu đă được chứng minh qua các ứng dụng về phân tích thị trường, phát hiện lồi, dự doán bệnh,...
2.3.1 Cấu trú c của một hệ thống khai phá d ữ liệu
Hiện nay, có nhiều cách để phân loại các nhiệm vụ của một hệ thống khai phá dữ liệu. Nếu theo một qui trình xử lý của một hệ thống khai phá dữ liệu thì các nhiệm vụ chính của hệ thống bao gồm các bước :
• Xử lý dừ liệu
• Mô hình hoá
• Miêu tả tri thức.
2.3.1.lXử lý dữ liệu
Nhiệm vụ xử lý dữ liệu thực hiện việc giảm thiểu các thông tin nhiễu, trích chọn các đặc trưng, phân hoạch dừ liệu, chuyển đối dữ liệu, kết hợp dữ
liệu, xử lý các dữ liệu còn thiếu,... Công việc xử lý dữ liệu có chức năng cơ bản nhất là giảm số chiều của không gian tìm kiếm, giảm không gian lưu trữ dừ liệu, nâng cao khả năng khai phá dữ liệu. Đe đạt được các mục tiêu trong bước xử lý dừ liệu thì chúng ta phải đi qua hai bước chính : trích chọn đặc trưng và lựa chọn các đặc trưng.
Trong trích chọn đặc trưng, các phương pháp biến đổi phi tuyến hay được sử dụng là : Phân tích theo hàm phân biệt tuyến tính (LDA - Linear Discriminant Analysis), Phân tích thành phần chính (PCA - Principal Components Analysis). Các phương pháp biến đổi phi tuyến thường hiệu quả khi xử lý các bài toán phi tuyến. Tuy nhiên, các phương pháp nàv cùng thêm vào các dừ liệu không mong muốn trong khi chuyển biến đổi dừ liệu, cũng như không có khả năng chuyển đổi ngược lại. Và các thông tin học được từ việc áp dụng phương pháp biến đổi phi tuyến trong một không gian đặc trưng không thể chuyển đổi sang không gian đặc trưng tiếp theo.
Sau khi trích chọn được các đặc trung, chúng ta phải tiến hành việc lựa chọn các tập đặc trưng tốt nhất để tiến hành các bước tiếp theo của khai phá dừ liệu như phân lớp, phân cụm ,... Các phương pháp chọn đặc trưng có thể được phân thành hai loại chính :
• Sắp xếp theo mức quan trọng của đặc trưng hay tập đặc trưng • Sử dụng các thuật toán tìm kiếm
Ngày nay, chúng ta cũng thường gặp các hệ thống có sử dụng thuật toán di truyền (GA) để lựa chọn các đặc trưng.
2.3.2 Các bài toán chính trong khai phá dữ liệu
2.3.2.1 Phân lớp và p h â n cụm
Phân lớp và phân cụm là hai bài toán khá gần nhau. Một lớp có thể hiểu là một tập các mẫu dữ liệu có sự tương tự nhau, hay có quan hệ gần nhau và được gán một nhãn để phân biệt với các lớp khác. Một cụm có thể hiểu là một tập hợp các đối tượng có cùng các đặc trưng.
Cho tnrớc một tập các lớp dữ liệu đã gắn nhãn, hệ thống phải đưa ra dự đoán cho một đối tượng xem nó có thể nằm trong lớp nào. Ví dụ, tập dữ liệu các thông tin cá nhân của những người có thẻ tín dụng trong ngân hàng được sử dụng để phân lớp một khách hàng mới xem họ có thể nằm trong lớp khách hàng
nào. Hav với các thông tin vê tuôi, trình độ học vân, mức lương hệ thông khai phá dừ liệu sè sử dụng các kỹ thuật phân cụm đê đưa ra các nhóm khách hàne nhàm phục vụ cho chiến lược kinh doanh sau này.
Nói chung, việc phân cụm có thể làm việc với tập dữ liệu chưa được gán nhân. Một số phưang pháp phân lớp có thổ sử dụng phương pháp phân cụm đế phân cụm dừ liệu thành các cụm dừ liệu nhỏ, trước khi tiến hành phân lớp, ví dụ như mạng nơron RBF .
2.3.2.2 Tìm ra các luât
Quá trình tỉm ra các luật là quá trình tìm ra cách biểu diễn dữ liệu theo cách có thể diễn giải được dựa trên các tri thức thu lượm được từ tập dừ liệu. Đối với một người khai thác thông tin, họ mong muốn biết được tại sao lại có các kết quả phân lớp như thế, điều gì đang diễn ra trong không gian dừ liệu đa chiều, đặc trưng nào ảnh hưởng lớn đến các kết quả của quá trình khai phá đừ liệu,...Ví dụ, một miêu tả súc tích một phản ứng của thị trường có tác dụng rất hCru ích cho việc đưa ra quyết định của nhà đầu tư.
Một bộ phân lớp sau quá trình học từ tập dữ liệu huấn luyện sẽ có được tri thức biếu hiện là các trọng sổ phân lớp, ví dụ như các trọng sổ trong mạng nơron. Tuy vậy, rất khó khăn khi phải diễn giải các trọng số đó thành các kiến thức theo cách suy nghĩ hằng ngày. Do đó, người ta thường sử luật IF-THEN để biểu diễn các giá trị thông tin trong tập dừ liệu.
Bài toán tìm ra các luật có thể chia thành hai nhóm chính như sau.
• Tìm ra mối quan hệ giừa các thuộc tính của dữ liệu đầu vào và các nhãn đầu ra của các lóp trong tập dừ liệu được gán nhãn
• Luật kết hợp : Tìm ra quan hệ giừa các thuộc tính trong một lớp dữ liệu (có thể chưa được gán nhãn). Luật kết hợp thường được sử dụng để đưa ra quan hệ giữa các mục trong một giao dịch dữ liệu. ‘X => Y ’ , trong đó X,Y là tập các mục tin, thì ‘X => Y ’ có thể hiểu là nếu một giao dịch T e D có X, thì giao dịch đó cũng sẽ có z (D tập giao dịch dừ liệu). Một tham số điều kiện khả năng p
dùng đề đánh giá độ tin cậy của luật. Ví dụ : “Một khách hàng khi mua bơ thì cũng sẽ mua bánh mỳ với xác xuất là p ”.
HÀM HẠT NHÂN
Hạt nhân k xác định bởi tích vô hướng trong không gian đặc trung K qua ánh xạ
<D : X H» 3f
X X := 4>(X), (3.1)
là : k ( x , x r) =< ộ ( x ) ( ộ ( x ') > (3.2) Với miền đầu vào X có thể chỉ là một tập họp các đổi tượng riêng biệt
3.1 Tích vô hưổĩig các đặc trưng 3.1.1 Đặc trung đơn
Ta xét X là tập con các vector trong R n (N 6 N) có thể xây dựng được tích vô hướng dạng chính tắc. Giả sử X e X , trong đó có d chiều mang nhiều thông tin nhất (nên ta gọi là đặc trưng đơn) :
[x j i ì ' [xj z] ••• [xjd\' (3 -3 )
Trong đó j lt £ {1, Đối với bài toán nhận dạng mẫu, các mẫu được tiền xử lý bằng cách ánh xạ vào không gian đặc trưng jhf với tất cả d thành phần.
Xét ví dụ đơn giản sau : X — R2 , ta lấy 2 đặc trưng đơn, ta có
= E 3, (3.4)
( M i, \x\i) Qxị ị \ x\ ị \x\t \x\2), (3.5)
Với miền dữ liệu đầu vào N chiều thì :
CHƯƠNG 3
(d + N - 1)!
• Mạng nơron Perceptron nhiều lớp • Mạng nơron mờ
• Mạng nơron RBF • Vector tựa (SVM) • Thuật toán di truyền
2.4 Sự giống và khác nhau giữa khai phá dữ liệu và máy học
Có cùng mục tiêu là “học từ dừ liệu”, các thuật toán trong máy học đóng một vai trò nòng cốt trong khai phá dữ liệu. Tuy nhiên, các thuật toán nàv cần được phát triển để phù hợp với các yêu cầu và những thách thức mới của khai phá dừ liệu.
Một trong những thách thức đó là mức độ nhiễu cao trong dữ liệu của khai phá dừ liệu, tiêu chuẩn có thế giải quyết bài toán với độ nhiễu của dữ liệu cao trớ thành một trong nhừng tiêu chuấn quan trọng nhất để đánh giá một hệ thống khai phá dừ liệu.
Thách thức tiếp theo đối với khai phá dừ liệu là kích thước dữ liệu cần xử lý ngày càng lớn. Các thuộc tính trong máy học cũng như số lượng các đối tượng dữ liệu thường ít hon nhiều so với khai phá dữ liệu. Khai phá dữ liệu có thể phái xử lý một khối lượng khổng lồ, thường ở múc TB (hàng ngàn GB), do vậy thời gian xử lý là rất dài.
Hơn thế nữa, các thuật toán máy học thường sử dụng bộ nhớ trong để tính toán, lưu trừ, xử lý dữ liệu. Dù cho kích thước của bộ nhớ trong của máy tính đã đươc tăng lên đáng kể, nhưng điều đó cũng chằng thể theo kịp sự tăng lên về kích thước của dừ liệu. Chính vi thế, các kỹ thuật như xác suất, lấy mẫu, xử lý song song đang được áp dụng để các hệ thống khai phá dữ liệu có thể đáp ứng được với các bài toán thực tế.
Mọi phát triển trong khai phá dữ liệu đều nhằm đến các ứng dụng cụ thể và các đặc tính dừ liệu cụ thể trong các ứng dụng đó, trong khi máy học thường tập trung vào xử lý tri thức dạng lý hiệu và ở mức khái niệm.
Là các kha năng chọn ra d đặc trưng và là số chiều của không gian K .
Với không gian các ảnh đầu vào có kích thước 16x]6, và cần chọn ra 5 đặc trung đơn thì có khoảng Ỉ0U) khả năng.
Để có thế giải cảc bài toán có dừ liệu nhiều chiều thì việc ánh sang các không gian tuyến tính gặp nhiều khó khăn. Do vậy, để tính tích vô hướng trong không gian R N mà không cần phải ánh xạ thì ta dùng hàm hạt nhân
3.1.2 Hàm hat nhân
Để tính tích vô hướng dạng < í>(x), ^ ( x ' ) > chúng ta biểu diễn hàm hạt nhân như sau :
k ( x , x ' ) = < <Ị>(x), O ( x ') > , (3.7) Như vậy, ta có thể tính được giá trị tích vô hướng trong J{ mà không phải tín h ánh x ạ 4>.
Ví dụ, nếu xét đến thứ tự cùa các đặc trưng đơn, với N=d=2 và ánh xạ
( [ x ] ị [ x ] ị [ x ] 1[x]2, [x}2[x]1) (3.8) Thi tích vô hướng trong không gian H được tính như sau :
< 4>(x),4>(x') >= [x]Ị[x'ìỉ + [ x ] ị W l + 2[x]1M 2M 1[x']2
—< x , x ' > 2 3.9)
Tức hàm hạt nhân được tính bàng bình phương tích vô hướng trong không gian đầu vào
3.1.3 Hàm hat nhân đa thức
M ệnh đề 3.1: Cho Cđ để ánh xạ X E R N sang vector CẬx), d là d đặc trưng đơn có thứ tự của X. Khi đó, hạt nhân tương ứng để tính tích vô hướng của các vector đã được ánh xạ bởi C/ là :
k(x,x') =< Q (x), Q (x ') >=< x,x' >d . (3.10)
Ký hiệu Cd thể hiện ánh xạ đặc trưng, còn ký hiệu 4>d để thể hiện ánh xạ không tính đến thứ tự của các đặc trưng. Lấy phần phần bù của số lần xuất hiện
giống nhau các đặc trưng đơn trong Cd bằng cách lấy căn bậc hai sổ lần xuất hiện giong nhau các đặc trưng đơn, và từ (3.10) ta có :
Nếu như trong (3.3), tất cả các jị chỉ khác nhau ờ một giá trị, thì hệ số của đại lượng đó trong được tính bàng . Ví dụ, với ta có :
T" \ \ a) X \ . ■7 \ t *.? \ b) Hình 3. ! Ví dụ về phán lớp nhị phân khi ảnh xạ sang không gian đặc truvg
Giả sử, trong không gian đầu vào (a) biên quyết định có hình ellipse. Nhiệm vụ của bài toán phân lớp là đi tìm biên quyết định dựa trên các dừ liệu huấn luyện gồm có hai lớp (lớp khoanh tròn và lớp gạch chéo). Khi dùng ánh xạ phi tuyến
để ánh xạ sang không gian đặc trưng (b), hình elíp sẽ thành một siêu phẳng song song với ZỊ (nên các điểm dữ liệu đều nằm trên mặt (z/ ,z2)). Qua hạt nhân đa thức (3.11),(3.12) việc tính tính vô hướng trong không gian ba chiều qua hàm hạt nhân mà không phải tính ánh xạ
3.2 Biếu diễn sự đồng dạng trong không gian tuyến tính
3.2.1 Các hạt n h ân xác định dư ơ n g
Định nghĩa 3.3 : (Ma trận Gram) Cho hàm k : X 2 —> K (K = <c hoặc K = E và các mầu Xị, e X , ma trận K kích thước m X/W có các phần tử
K ij:= k (X i,X j) ( 3 . 1 3 )
đươc gọi là ma trận Gram (hay ma trận hạt nhân ) của k với X ị ,..., x m .
Địch nghĩa 3.4 (Ma trận xác định dương) Ma trận phức K kích thước m thoả mãn
CịCj Kjj > 0, VCị e c (3.14)
i j
đirơc gọi là xác định dương. Tương tự, ma trận thưc K kích thước m * m thoả mãn (3.15) với VCj e E, được gọi là xác định dương.
Địah nghĩa 3.6 (Hạt nhân xác định dương) Cho tập X khác rồng. Hàm k trên X X X với V m € E X tạo thành một ma trân Gram xác định dương gọi là hạt nhân xác định dương. Thông thường, chúng ta gọi ngắn gọn là mệt hạt nhân.
Chú ý : Một hàm k tạo thành một toán tử T k qua
(Tk) 0 0 = Ị k ( x , x ' ) f ( x ' ) d x ' ( 3 .1 5 )
X
đuực gọi là hạt nhân của T k.
Các hạt nhân có thể coi là các tích vô hướng được tổng quát hoá, do đó moi tích vô hướng là một hạt nhân. Một tính chất quan trong của tích vô hướng là bất đẳng thức Cauchy, vậy nên đổi với hạt nhân cũng có tính chất này :
Mệnh đề 3.7 : Neu k là một hạt nhân xác định dương, và x lt x 2 G X thì :
Giả sử k là hạt nhân dương giá trị thực, X là tập khác rồng. Ta định nghĩa một ánh xạ từ X vào không gian của các hàm ảnh xạ từ X vào K như sau :
Rx := {/: X -* M} qua
<£>:X -* R x
X y ~ > k(.,x ). (3.20)
Trong đó o ( x ) thể hiện cho hàm gán giá trị k (x \x ) cho x ' G X , nghĩa là 0 0 ) 0 = k ( . , x ) (h ìn h 3.2)
3.2.2 Tái lập ánh xạ hạt nhân
X x '
Hình 3.2 Minh hoạ moi liên hệ giữa ánh xạ đặc trưng với hạt nhân
(ánh xạ 3.20). Với mỗi mẫu dữ liệu (x hoặc X ’ như trong hình) được biểu diễn lại với hàm hạt nhàn sang các mẫu dữ liệu khác. Trong hình, hạt nhân được giả sử cỏ đồ thị hình chuông, ví dụ như hàm Gaussian k ( x , x ') = ex p ( —\\x — x '\\2Ị
(2<J2)). Tron% các công thức, chúng ta biếu diễn cấu trúc của tích vô hướng trong các hàm không gian, như là k ( x , x ') = < cp(x),<p(x') >.
Chúng ta xây dựng một không gian tích vô hướng của các mẫu dừ liệu là các ảnh đầu vào bằng hàm <í>. Các bước thực hiện để xây dựng một không gian