Rời rạc hóa dữ liệu cũng là một khâu trong bước tiền xử lý. Rời rạc hóa dữ liệu là việc biến đổi các thuộc tính định lượng liên tục thành những thuộc tính rời rạc thỏa mãn một tiêu chuẩn quy định. Rời rạc hóa dữ liệu trước khi khai phá có ba lợi ích:
Cho phép áp dụng các thuật toán khai phá hiệu quả hiện có, Làm giảm kích thước dữ liệu, tăng tốc độ tính toán,
Ngoài các lợi ích trên, gần đây người ta còn sử dụng một số thuật toán rời rạc hóa vào việc giải quyết vấn đề lựa chọn thuộc tính trong khai phá dữ liệu và học máy. Mục này trình bày hai thuật toán rời rạc hóa như thế, đó là ChiMerge và Chi2. Chi2 là phát triển của KhiMerge. Cả hai thuật toán này đều là những thuật toán rời rạc hóa có giám sát (nghĩa là có sử dụng thông tin của thuộc tính quyết định (nhãn lớp). Để rời rạc hóa các thuộc tính, chúng áp dụng phương pháp kết nối từng bước các khoảng giá trị (từ dưới lên) sử dụng phép kiểm định Khi-bình-phương đối với giả thuyết về sự độc lập giữa thuộc tính nhãn lớp và mỗi cặp khoảng giá trị liền kề của thuộc tính. Khi quá trình rời rạc hóa kết thúc,
nếu tất cả các giá trị của một thuộc tính nào đó được gộp lại thành một khoảng duy nhất thì thuộc tính đó sẽ bị loại khỏi tập con thuộc tính lựa chọn.
Trước khi trình bày thuật toán ChiMerge và Chi2, ta trình bày khái niệm về bảng tiếp liên (contingency table) và phép kiểm định Khi-bình-phương.
Bảng tiếp liên và phép kiểm định sự độc lập Khi-bình-phƣơng
Trong thống kê toán học, để kiểm tra giả thuyết về sự độc lập của hai biến ngẫu nhiên X và Y (liên tục hay rời rạc) người ta đã đề xuất phép kiểm định Khi- bình-phương như sau:
Chia miền giá trị của X và Y thành một số hữu hạn các khoảng. Nếu X hay
Y chỉ nhận một số ít giá trị thì có thể coi mỗi giá trị là một khoảng. Đối với biến
ngẫu nhiên liên tục nên chia miền giá trị của nó thành các khoảng có độ rộng bằng nhau.
Giả sử có mẫu cỡ N về véc tơ ngẫu nhiên (X,Y). Gọi
- Ai là biến cố X nhận giá trị trong khoảng thứ i, i = 1, 2, … , r ; - Bj là biến cố Y nhận giá trị trong khoảng thứ j, j = 1, 2, … , s ;
- ni j là số cá thể mẫu có giá trị X trong khoảng thứ i và giá trị Y trong
khoảng thứ j, (tức ni j là tần số quan sát được của biến cố A Bi j) ;
- . i j
1
s
i j
n n là số cá thể mẫu có giá trị X thuộc khoảng i (tức tần số quan
sát của biến cố Ai ) ; - . i j 1 r j i
n n là số cá thể mẫu có giá trị Y thuộc khoảng j (tức tần số quan
sát của biến cố Bj ) ; Hiển nhiên, 1 1 r s i j i j n N .
Các dữ liệu trên được sắp vào một bảng gọi là bảng tiếp liên (hay bảng chéo): Biến 1 2 . . . s Tổng 1 2 . . . r 11 n n12 . . . n1s 21 n n21 . . . n2s . . . . . . . . . 1 r n nr1 . . . nr s 1 . n 2. n . . . . r n Tổng n. 1 n. 2 . . . n.s N
Từ bảng dữ liệu trên thu được:
- Tần số quan sát của biến cố A Bi j là ni j, i = 1, 2, … , r ; j = 1, 2, … , s. - Ước lượng tần số lý thuyết các cá thể mẫu có giá trị X thuộc khoảng thứ i
và giá trị Y thuộc khoảng thứ j khi giả thuyết về sự độc lập giữa X và Y
đúng. Ước lượng đó là . . . . i j i j n n n n N N N N
Để kiểm định giả thuyết
H0 : X và Y độc lập
với đối thuyết
H1 : X và Y không độc lập, người ta sử dụng thống kê 2 sau đây: 2 . . 2 . . 1 1 i j i j r s i j i j n n n N n n N (1) Có thể thấy 2
là số đo đánh giá mức độ sai khác giữa các tần số lý thuyết và tần số quan sát được của các biến cố A Bi j khi X và Y là độc lập nhau.
Người ta đã chứng minh rằng với cỡ mẫu N đủ lớn, 2 sẽ có phân phối tiệm cận Khi-bình-phương với (r 1)(s 1) bậc tự do. Từ đó, suy ra quy tắc kiểm định gỉa thuyết H0 là như sau:
- Tính giá trị của thống kê 2
theo công thức (1);
- Tra bảng phân phối Khi-bình-phương (r 1)(s 1) bậc tự do, tìm phân vị (giá trị ngưỡng) 2
ứng với mức ý nghĩa đã cho;
- Bác bỏ giả thuyết H0 nếu 2 2, chấp nhận H0 trong trường hợp ngược lại 2 2
.
2 2
có nghĩa là với xác suất 1 có thể khẳng định hai biến ngẫu nhiên X và Y là độc lập nhau.
Thuật toán ChiMerge
Giả sử thuộc tính quyết định (nhãn lớp) trong bảng quyết định có k giá trị
phân biệt. Thuật toán ChiMerge bao gồm các bước sau đây: 1. Chọn mức ý nghĩa (thường là 0,05 hoặc 0,1) ;
2. Sắp thứ tự dữ liệu của thuộc tính cần rời rạc hóa. Bắt đầu quá trình rời rạc hóa bằng cách coi mỗi giá trị là một khoảng ;
3. Với mỗi cặp khoảng liền kề, tính giá trị thống kê 2
theo công thức: 2 . . 2 2 . . 1 1 i j i j k i j i j n n n N n n N (2)
4. Kết nối cặp khoảng liền kề cho giá trị 2
nhỏ nhất và thỏa mãn
2 2
. (Giá trị ngưỡng 2 là phân vị mức của phân phối Khi- bình-phương với k – 1 bậc tự do, (tra được từ bảng phân phối Khi-bình- phương).
5. Lặp lại các bước 2-3 cho đến khi tất cả các giá 2
tính được đối với mọi cặp khoảng lớn hơn giá trị ngưỡng 2
. ChiMerge có độ phức tạp tính toán là 2
O(N ) trong đó N là số đối tượng có trong bảng quyết định. Tuy vậy, với một số thao tác tối ưu hóa có thể làm giảm độ phức tạp xuống O(N.logN).
Thuật toán Chi2
Chi2 là thuật toán do Liu và Setino phát triển dựa trên nền thuật toán ChiMerge [ ]. Khó khăn gặp phải khi sử dụng ChiMerge là việc chọn giá trị thích hợp cho mức ý nghĩa . Để giải quyết khó khăn này, Liu và Setino đã cải tiến ChiMerge theo hai hướng:
- Để cho thuật toán tự động xác định giá trị từ chính bản thân dữ liệu huấn luyện. Hơn thế, giá trị được tính toán riêng cho mỗi thuộc tính cần rời rạc hóa.
- Lấy tỷ lệ dữ liệu không nhất quán làm tiêu chuẩn dừng. Thay vì cố định trước mức ý nghĩa , Chi2 cho phép tự động giảm dần giá trị này. Quá trình rời rạc hóa một thuộc tính nào đó sẽ tiếp tục cho đến khi tiêu chuẩn dừng thỏa mãn.
Thuật toán Chi2 bao gồm hai pha.
Pha 1:
1. Cho mức ý nghĩa giá trị ban đầu lớn (chẳng hạn bằng 0,5) ; 2. Sắp thứ tự dữ liệu theo thuộc tính rời rạc hóa ;
3. Bắt đầu quá trình rời rạc hóa bằng cách coi mỗi giá trị là một khoảng ; 4. Với mỗi cặp khoảng liền kề, tính giá trị thống kê 2
5. Kết nối thành một khoảng cặp khoảng liền kề cho giá trị 2
nhỏ nhất ; 6. Lặp lại các bước 2-4 cho đến khi không còn cặp khoảng liền kề nào có thể
kết nối được (không có giá trị 2
nào nhỏ hơn ngưỡng 2 ) ; 7. Lặp lại các bước 2-5 cho mỗi thuộc tính cần rời rạc hóa ; 8. Giảm mức ý nghĩa ;
9. Lặp lại toàn bộ pha 1 cho đến khi tỷ lệ không nhất quán trong dữ liệu vượt mức quy định .
Pha 2:
1. Đối với mỗi thuộc tính, cho mức ý nghĩa giá trị nhỏ nhất sau khi kết
thúc pha 1.
2. Sắp thứ tự dữ liệu theo thuộc tính;
3. Với mỗi cặp khoảng liền kề, tính giá trị thống kê 2
theo (2); 4. Kết nối thành một khoảng cặp khoảng liền kề cho giá trị 2
nhỏ nhất ; 5. Lặp lại các bước 2-4 cho đến khi không còn cặp khoảng liền kề nào có thể
kết nối được (không có giá trị 2
nào nhỏ hơn ngưỡng 2 ) ;
6. Kiểm tra tỷ lệ không nhất quán trong dữ liệu của thuộc tính. Nếu tỷ lệ này không vượt quá mức quy định, cho giảm mức ý nghĩa và tiếp tục quá trình rời rạc hóa. Trường hợp ngược lại, kết thúc phép rời rạc hóa thuộc tính;
7. Lặp lại các bước 2-7 đối với tất cả các thuộc tính còn có thể kết nối được cho đến khi không còn thuộc tính nào còn có thể tiếp tục kết nối.
Pha thứ nhất của Chi2 là một mở rộng của ChiMerge. Thay vì xác định trước mức ý nghĩa , Chi2 cho phép tự động giảm dần giá trị này. Tỷ lệ dữ liệu
không nhất quán được sử dụng làm tiêu chuẩn dừng. Các cải tiến này làm cho Chi2 có thể xác định một cách tự động các giá trị ngưỡng mà vẫn bảo tồn được thông tin phân lớp của dữ liệu ban đầu.
Pha thứ hai của Chi2 là pha tiếp tục cải thiện kết quả rời rạc hóa. Nếu các khoảng giá trị của một thuộc tính nào đó có thể tiếp tục kết nối (bằng cách cho giảm mức ý nghĩa) mà không làm cho tỷ lệ dữ liệu không nhất quán vượt qúa mức quy định, thì quá trình kết nối sẽ tiếp tục được thực hiện. Trong khi pha thứ nhất của Chi2 sử dụng mức ý nghĩa chung cho việc rời rạc hóa tất cả các thuộc tính, pha thứ hai sử dụng mức ý nghĩa khác nhau cho từng thuộc tính.
3.4. Kết luận chƣơng 3
Trong chương 3 này chúng tôi đã trình bày kết quả nghiên cứu một số thuật toán lựa chọn thuộc tính điển hình. Các thuật toán được trình bày theo ba nhóm chính: các thuật toán kiểu filter, các thuật toán kiểu wrapper và một số thuật toán khác. Các thuật toán này thường được sử dụng để lựa chọn thuộc tính giải quyết các vấn đề phân cụm và phân lớp trong khai phá dữ liệu.
Mỗi thuật toán đều có tựa code, giải thích và được minh họa bằng ví dụ tính toán cụ thể. Độ phức tạp của một số thuật toán cũng đã được chỉ ra.
Các thuật toán trình bày trong mục 3.3. là những thuật toán mới được đề xuất trong những năm gần đây. Đây là những thuật toán hiệu quả, thường được áp dụng nhất.
KẾT LUẬN
1. Nội dung nghiên cứu và kết quả đạt được của luận văn
Khai phá dữ liệu là một môn khoa học liên ngành: Cơ sở dữ liệu, học máy và thống kê toán học, nghiên cứu các kỹ thuật “đào núi tìm vàng” nhằm phát hiện những thông tin có giá trị, tiềm ẩn trong các CSDL lớn mà con người sở hữu ngày một nhiều trong những năm gần đây. Các kết quả nghiên cứu cùng với những ứng dụng thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống.
Các CSDL cần khai phá thường có kích thước rất lớn, chẳng hạn các CSDL tin-sinh-học (Bioinformatics), CSDL đa phương tiện, CSDL giao tác, … . Các CSDL này thường chứa tới hàng ngàn thuộc tính, gây rất nhiều khó khăn cho việc khai phá, thậm chí còn làm cho nhiệm vụ khai phá trở nên bất khả thi. Vấn đề đặt ra là phải tìm cách rút gọn số thuộc tính.
Rút gọn thuộc tính (còn gọi là rút gọn số chiều – Dimension reduction) là làm giảm số chiều của không gian thuộc tính, loại bỏ dữ liệu dư thừa, không liên quan. Rút gọn thuộc tính đóng vai trò quan trọng trong bước tiền xử lý dữ liệu cũng như trong quá trình khai phá. Thông qua việc lựa chọn những thuộc tính quan trọng chúng ta có thể rút gọn dữ liệu, tạo ra khả năng khai phá những cơ sở dữ liệu kích thước lớn, nâng cao hiệu quả tính toán, cũng như làm tăng độ chính xác của các kết quả khai phá được từ CSDL.
Từ năm 1970 đến nay, rút gọn thuộc tính đã trở thành đề tài được quan tâm bởi nhiều nhà nghiên cứu thuộc các lĩnh vực nhận dạng thống kê, học máy, khai phá dữ liệu. Luận văn này trình bày những kết quả nghiên cứu của học viên về vấn đề rời rạc hóa trong khai phá dữ liệu.
Chương 1 của luận văn trình bày khái quát về khai phá dữ liệu. Chương 2 và chương 3 là nội dung chính của luận văn. Trong chương 2 này, chúng tôi đã trình bày khái quát về nội dung, các phương pháp và quy trình giải quyết vấn đề lựa chọn thuộc tính. Một số ứng dụng quan trọng của lựa chọn thuộc tính cũng đã được bàn tới ở cuối chương 2. Chương 3 dành cho việc trình bày kết quả nghiên cứu một số thuật toán lựa chọn thuộc tính điển hình. Các thuật toán được trình bày theo ba nhóm chính: các thuật toán kiểu filter, các thuật toán kiểu
wrapper và một số thuật toán khác. Mỗi thuật toán đều có tựa code, được giải thích và minh họa bằng ví dụ tính toán cụ thể. Độ phức tạp của một số thuật toán cũng đã được chỉ ra.
2. Hướng nghiên cứu tiếp theo
Trên cơ sở các kết quả nghiên cứu trình bày trong luận văn, tôi nhận thấy có nhiều vấn đề có thể tiếp tục nghiên cứu. Cụ thể là:
Nghiên cứu vấn đề lựa chọn thuộc tính theo tiếp cận lý thuyết tập thô, mạng nơron.
Vấn đề lựa chọn thuộc tính cho từng nhiệm vụ khai phá dữ liệu cụ thể, chẳng hạn cho việc học luật quyết định bằng cây quyết định, cho việc xây dựng các hàm hồi quy, … .
Nghiên cứu cài đặt các thuật toán bằng ngôn ngữ lập trình cụ thể, tính toán thực nghiệm trên các cơ sở dữ liệu lớn thu thập từ thực tiễn hoặc trên Internet.
Trong quá trình thực hiện luận văn, tôi đã cố gắng tập trung tìm hiểu và tham khảo nhiều tài liệu liên quan. Tuy nhiên, do thời gian nghiên cứu và trình độ có hạn nên không tránh khỏi những thiếu sót. Tôi rất mong nhận được sự nhận xét, góp ý của các thầy cô giáo, bạn bè, đồng nghiệp và những ai quan tâm
Tài liệu tham khảo
Tiếng Việt
[1] Lý Hoàng Tú, Lý thuyết Xác suất thống kê. Nhà Xuất bản Khoa học và Kỹ thuật, Hà nội 2001.
[2] Nguyễn Bình, Lý thuyết Thông tin. Học viện Công nghệ Bưu chính Viễn thông, Hà nội, 2006.
[3] Nguyễn Thanh Tùng, Một tiêu chuẩn mới lựa chọn node xây dựng cây quyết định. Báo cáo tại Hội thảo quốc gia “Một số vấn đề chọn lọc của CNTT”, Huế, 8/2008.
Tiếng Anh
[1] Dash, M., Liu, H. ”Feature selection for classification”. Intelligent Data Analysis 1 pp 131-156 (1997).
[2] Isabelle Guyon Andr Elisseeff, ”An Introduction to Variable and Feature Selection” Journal of Machine Learning Research 3 pp 1157-1182 (2003).
[3] Aleks Jakulin and Ivan Bratko. Analyzing attribute dependencies. In PKDD, 2003.
[4] C.E. Shannon, W. Weaver, The Mathematical Theory of Communication, University of Illinois Press, Urbana, IL, 1949.
[6] Yu, L., Liu, H.: Efficient feature selection via analysis of relevance and redundancy. Journal of Machine Learning Research 5 (2004) 1205-1224
[7] C.H. Chen, Statistical Pattern Recognition, Spartan Books, Washington, DC, 1973.
[8] A. L. Blum and P. Langley. Selection of relevant features and examples in machine learning. Artificial Intelligence, 97:245-271, 1997.
[9] H. Almuallim and T. G. Dietterich. Learning boolean concepts in the presence of many irrelevant features. Artificial Intelligence, 69(1- 2):279-305,
1994.
[10] M. A. Hall. Correlation-based feature selection for discrete and numeric class machine learning. In ICML, 2000.
[11] L. Yu and H. Liu. Feature selection for highdimensional data: a fast correlation-based filter solution. In ICML, 2003.
[12] Kohavi, R., John, G.H.: Wrappers for feature subset selection. Artificial Intelligence 97(1-2) (1997) 273-324.
[14] Jakulin, A.: Attribute interactions in machine learning. Master’s thesis, University of Ljubljana, Faculty of Computer and Information Science (2003). [15] Yeung, R.W.: A new outlook on Shannon’s information measures. IEEE Transactions on Information Theory 37 (1991) 466-474.
[16] Duch, W., Winiarski, T., Biesiada, J., Kachel, A.: Feature selection and ranking filters. In: International Conference on Artificial Neural Networks (ICANN) and International Con-ference on Neural Information Processing (ICONIP). (2003) 251-254.
[18] Fleuret, F.: Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research 5 (2004) 1531-1555.
[19] C.L. Blake and C.J. Merz. UCI repository of machine learning databases,