ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRƯƠNG THỊ TUYẾT HOA ỨNG DỤNG PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG DỰA TRÊN TÍNH TOÁN HẠT TRONG VIỆC DỰ ĐOÁN KẾT QUẢ TH
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TRƯƠNG THỊ TUYẾT HOA
ỨNG DỤNG PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG DỰA TRÊN TÍNH TOÁN HẠT TRONG VIỆC DỰ ĐOÁN KẾT QUẢ THI TUYỂN SINH LỚP 10 VÀO TRƯỜNG THPT CHUYÊN LONG AN
KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
TP HỒ CHÍ MINH – Năm 2015
Trang 2ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TRƯƠNG THỊ TUYẾT HOA
ỨNG DỤNG PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG DỰA TRÊN TÍNH TOÁN HẠT TRONG VIỆC DỰ ĐOÁN KẾT QUẢ THI
TUYỂN SINH LỚP 10 VÀO TRƯỜNG THPT CHUYÊN LONG AN
KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGUYỄN HOÀNG TÚ ANH
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan:
(1) Khóa luận này là sản phẩm nghiên cứu của riêng tôi;
(2) Các số liệu, kết quả được trình bày trong khóa luận là trung thực; (3) Tôi xin chịu trách nhiệm về nghiên cứu của mình
Học viên
Trương Thị Tuyết Hoa
Trang 4MỤC LỤC
DANH MỤC CÁC CHỮ VIẾT TẮT 4
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ 7
LỜI MỞ ĐẦU 8
CHƯƠNG 1 TỔNG QUAN VỀ KHÓA LUẬN 9
1 1 Giới thiệu 9
1 2 Phát biểu bài toán 9
1 3 Các thách thức 10
1 4 Mục tiêu, đối tượng và phạm vi nghiên cứu 10
1 4 1 Mục tiêu 10
1 4 2 Đối tượng 11
1 4 3 Phạm vi 11
1 5 Các đóng góp từ kết quả nghiên cứu của khóa luận 11
1 6 Bố cục của khóa luận 12
CHƯƠNG 2 TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG 14
2 1 Giới thiệu 14
2 2 Các hướng tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng 14
2 2 1 Các kỹ thuật lấy mẫu (sampling methods) [5] 14
2 2 2 Học toàn bộ (ensemble learning methods) 15
2 2 3 Học nhạy chi phí 17
2 2 4 Lựa chọn đặc trưng [5] 18
2 2 5 Phương pháp chỉnh sửa thuật toán: 18
2 3 Phương pháp dựa trên tính toán hạt 19
CHƯƠNG 3 CƠ SỞ LÝ THUYẾT 21
3 1 Các lý thuyết liên quan trong phương pháp dựa trên tính toán hạt 21
Trang 53 1 1 Chuẩn hoá dữ liệu số 21
3 1 2 Rời rạc dữ liệu 21
3 1 3 Hạt thông tin 22
3 1 4 Tính toán hạt 22
3 1 5 Thuật toán gom cụm K-means trên tập dữ liệu hỗn hợp 23
3 1 6 Phân lớp dữ liệu (thu nhận tri thức) 28
3 1 7 Đánh chỉ số ngữ nghĩa tiềm ẩn 30
3 2 Các mô hình xử lí với dữ liệu không cân bằng dựa trên tính toán hạt 32
3 2 1 Mô hình thu nhận tri thức dựa trên tính toán hạt KAIG của Su và các đồng sự [10] 32
3 2 2 Mô hình phân lớp dữ liệu không cân bằng dựa trên tính toán hạt tổng quát của Chen và các đồng sự 39
3 2 3 Phương pháp phân lớp dựa trên tính toán hạt của Lại Đức Anh [1] 45
CHƯƠNG 4 MÔ HÌNH PHÂN LỚP DỰA TRÊN TÍNH TOÁN HẠT KHÓA LUẬN CÀI ĐẶT 50
4 1 Giới thiệu 50
4 2 Xây dựng các hạt thông tin theo từng lớp tách biệt 50
4 3 Biểu diễn hạt thông tin dưới dạng các thuộc tính con 51
4 4 Thực hiện phân lớp dữ liệu (thu thập tri thức) 52
4 5 Thuật toán do khóa luận đề xuất 52
4 6 Ví dụ minh họa 52
4 7 Nhận xét 64
CHƯƠNG 5 CÀI ĐẶT ỨNG DỤNG 66
5 1 Tổ chức dữ liệu 66
5 2 Các tập dữ liệu 66
5 3 Các độ đo đánh giá 67
5 4 Các phương pháp thực nghiệm 68
Trang 65 4 1 Môi trường cài đặt 68
5 4 2 Các phương pháp cài đặt 68
5 5 Các kết quả thực nghiệm 69
5 5 1 Độ chính xác 71
5 5 2 Thời gian tính toán 73
5 6 Chương trình dự đoán kết quả tuyển sinh lớp 10 vào trường THPT Chuyên Long An 74
5 6 1 Giao diện chương trình 74
5 6 2 Các chức năng của chương trình 74
CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76
6 1 Kết quả đạt được 76
6 2 Hướng phát triển 76
TÀI LIỆU THAM KHẢO 78
Trang 7DANH MỤC CÁC CHỮ VIẾT TẮT
GrC Tính toán hạt (Granular Computing)
IG Hạt thông tin (information granule)
KLSI Tham số K dùng trong LSI
KK-Means Tham số K dùng trong thuật toán K-Means
LSI Đánh chỉ số ngữ nghĩa tiềm ẩn (Latent Semantic
Indexing) SVD Phân tích giá trị riêng (Singular value decomposition) SVM Máy hỗ trợ vector (Support Vector Machine)
THCS Trung học cơ sở
Trang 8DANH MỤC CÁC BẢNG
Bảng 3 1 Tập dữ liệu tuyển sinh 25
Bảng 3 2 Tập dữ liệu tuyển sinh sau khi được rời rạc 25
Bảng 3 3.Bảng xác suất có điều kiện 25
Bảng 3 4 Ví dụ của hạt thông tin 34
Bảng 3 5.Hạt thông tin không thể phân biệt 34
Bảng 3 6 Hai IG được biểu diễn dưới hình thức hyperbox [10] 35
Bảng 3 7 Các IG được biểu diễn dưới dạng các thuộc tính con [10] 36
Bảng 3 8 Kết quả thực nghiệm của mô hình KAIG [10] 38
Bảng 3 9 Kết quả thực nghiệm của Chen và các đồng sự [6] 44
Bảng 3 10 Biểu diễn IG đưới dạng thuộc tính con cho dữ liệu số [1] 46
Bảng 3 11 Biểu diễn IG dưới dạng thuộc tính con cho dữ liệu định danh [1] 47
Bảng 3 12 Kết quả thực nghiệm của Lại Đức Anh [1] 48
Bảng 4 1 Rời rạc các giá trị điểm số thành 10 khoảng 51
Bảng 4 2 Tập dữ liệu ban đầu 53
Bảng 4 3 Tập dữ liệu huấn luyện 53
Bảng 4 4 Tập dữ liệu dùng để kiểm nghiệm 54
Bảng 4 5 Dữ liệu (số) được rời rạc hoá với 10 khoảng bằng nhau 54
Bảng 4 6 Các IG được xây dựng lần 1 55
Bảng 4 7 Biểu diễn các IG được xây dựng lần 1 dưới dạng các thuộc tính con đối với hai thuộc tính điểm Toán và điểm Lý 55
Bảng 4 8 Biểu diễn các IG được xây dựng lần 1 dưới dạng các thuộc tính con đối với hai thuộc tính điểm Hóa và điểm Sinh 55
Bảng 4 9 Biểu diễn các IG được xây dựng lần 1 dưới dạng các thuộc tính con đối với hai thuộc tính điểm Văn và điểm Sử 56
Bảng 4 10 Biểu diễn các IG được xây dựng lần 1 dưới dạng các thuộc tính con đối với hai thuộc tính điểm Địa và điểm Anh văn 56
Bảng 4 11 Biểu diễn các IG được xây dựng lần 1 dưới dạng các thuộc tính con đối với hai thuộc tính Giới tính và nơi học THCS 56
Bảng 4 12 Kết quả phân lớp cho các mẫu tập thử nghiệm lần 1 58
Bảng 4 13 Kết quả phân lớp cho các mẫu tập thử nghiệm lần 2 59
Trang 9Bảng 4 14 Các IG được xây dựng lần 2 59
Bảng 4 15 Biểu diễn các IG được xây dựng lần 2 dưới dạng các thuộc tính con đối với thuộc tính điểm Toán và điểm Lý 60
Bảng 4 16 Biểu diễn các IG được xây dựng lần 2 dưới dạng các thuộc tính con đối với thuộc tính điểm Hóa và điểm Sinh 60
Bảng 4 17 Biểu diễn các IG được xây dựng lần 2 dưới dạng các thuộc tính con đối với thuộc tính điểm Văn và điểm Sử 60
Bảng 4 18 Biểu diễn các IG được xây dựng lần 2 dưới dạng các thuộc tính con đối với thuộc tính điểm Địa và điểm Anh văn 60
Bảng 4 19 Biểu diễn các IG được xây dựng lần 2 dưới dạng các thuộc tính con đối với thuộc tính Giới tính và nơi học THCS 61
Bảng 4 20 Kết quả phân lớp cho các mẫu tập thử nghiệm lần 3 63
Bảng 4 21 Kết quả phân lớp cho các mẫu tập thử nghiệm lần 4 64
Bảng 4 22 Kết quả phân lớp cho các mẫu tập thử nghiệm lần 5 64
Bảng 5 1 Chi tiết các tập dữ liệu 66
Bảng 5 2 Sự khác nhau giữa 5 phương pháp 69
Bảng 5 3 Ngưỡng H-index, U-ratio để xây dựng các IG và các tham số thiết đặt cho mạng neural ứng với từng tập dữ liệu 70
Bảng 5 4 Tham số của bộ phân lớp SVM và số lượng IG ở mỗi lớp tương ứng với từng tập dữ liệu 70
Bảng 5 5 Độ chính xác của các tập dữ liệu 71
Bảng 5 6 Thời gian tính toán trung bình của 5 phương pháp trên các tập dữ liệu 73
Trang 10DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
Hình 3 1.Minh họa phân tích giá trị riêng của ma trận A [6], [7] 32
Hình 3 2 Mô hình thu nhận tri thức dựa trên tính toán hạt KAIG [10] 33
Hình 3 3.Tình huống chồng chéo giữa hai IG A và B [9] 36
Hình 3 4 Ba bước của quá trình thu nhận tri thức từ các hạt thông tin [6] 39
Hình 3 5.Mô tả IG: Khái niệm “thuộc tính con” dùng cho thuộc tính số Xi [6] 40
Hình 3 6 Cấu trúc mạng neural truyền thẳng [6] 40
Hình 3 7.Sơ đồ thuật toán của Chen và các đồng sự [6] 42
Hình 3 8 Mô tả IG dưới dạng thuộc tính con, (a) dùng cho thuộc tính số Xi đã được rời rạc (10 giá trị rời rạc), (b) dùng cho thuộc tính định danh Xj (8 giá trị rời rạc) [1] 46
Hình 5 1 Sự phân bố các mẫu thuộc lớp Đậu và lớp Không đậu tương ứng từng tập dữ liệu 67
Hình 5 2 Biểu đồ độ chính xác của tập dữ liệu môn Hóa 71
Hình 5 3 Biểu đồ độ chính xác của tập dữ liệu môn Tiếng Anh 72
Hình 5 4 Biểu đồ độ chính xác của tập dữ liệu môn Toán 72
Hình 5 5 Thời gian tính toán trung bình của năm phương pháp với các tập dữ liệu 73
Hình 5 6 Giao diện chương trình 74
Hình 5 7 Kết quả dự đoán dựa vào thông tin nhập vào từ giao diện chương trình 75
Hình 5 8 Kết quả dự đoán dựa vào thông tin nhập vào từ file 75
Trang 11LỜI MỞ ĐẦU
Hiện nay, các thành tựu của tin học được áp dụng ở hầu hết các lĩnh vực của
xã hội và đem lại nhiều hiệu quả to lớn Mục tiêu của tin học là khai thác thông tin hiệu quả nhất phục vụ cho mọi mặt hoạt động của con người Trong các tập dữ liệu, ngoài những thông tin rõ ràng, cũng tiềm tàng những thông tin có giá trị ẩn bên trong Một số tập dữ liệu có tỉ lệ phân bố các mẫu ở các lớp chênh lệnh, đôi khi chênh lệch này rất lớn Trên thực tế, các tập dữ liệu không cân bằng như vậy rất phổ biến như việc chuẩn đoán bệnh, rủi ro tài chính, trong đó, lớp thiểu số thường là lớp quan trọng Thế nên, nhiều nhà khoa học đã nghiên cứu, cải tiến các phương pháp
đã có hoặc đề xuất phương pháp mới để xử lý những tập dữ liệu không cân bằng với
độ chính xác cao và rút ngắn thời gian thực thi giúp giải quyết được nhiều vấn đề thực tế Năm 1979, Zadeh đã đề xuất thuật ngữ “chia nhỏ thông tin”, đặt nền tảng cho sự ra đời của phương pháp phân lớp dữ liệu dựa trên tính toán hạt Cho đến nay, khai phá dữ liệu dựa trên tính toán hạt ngày càng được nghiên cứu, phát triển và đạt được những thành tựu đáng kể trong các lĩnh vực như ứng dụng tính toán hạt vào dự đoán lỗi hệ thống truyền lực của máy bay trực thăng [11],dự đoán thị trường chứng khoán [12], Su và các đồng sự áp dụng vào quá trình kiểm tra sản phẩm điện thoại
di động khi thực hiện sản xuất đạt được những kết quả khả quan [9] Do đó, mục tiêu của khóa luận là nghiên cứu mô hình tính toán hạt, ứng dụng phương pháp phân lớp dữ liệu không cân bằng dựa trên tính toán hạt trong việc đoán kết quả thi tuyển sinh lớp 10 vào trường THPT Chuyên Long An
Trang 12Chương 1 Tổng quan về khóa luận
CHƯƠNG 1 TỔNG QUAN VỀ KHÓA LUẬN
1 1 Giới thiệu
Trường THPT Chuyên Long An được thành lập năm 2009 Từ ngày thành lập đến nay, trường không ngừng phát triển và trở thành một trong những trường trọng điểm của tỉnh Long An Năm học 2013- 2014, trường có điểm thi đại học với mức trung bình là 21,5 xếp hạng thứ 10 toàn quốc Do đó, kỳ thi tuyển sinh vào lớp 10 hằng năm của trường được rất nhiều phụ huynh, học sinh quan tâm Đặc biệt là giáo viên chủ nhiệm lớp 9 ở các trường trung học cơ sở trong tỉnh, ngoài việc đôn đốc, kèm cặp học sinh ôn thi còn phải theo sát lớp để nắm bắt tâm tư nguyện vọng của các em nhằm phục vụ cho quá trình tư vấn tuyển sinh vào lớp 10 Học sinh vừa phải chịu áp lực của việc ôn tập kiến thức còn đối mặt với vấn đề chọn lớp học phù hợp với năng lực, sở thích đồng thời phải đạt được kết quả tốt trong kỳ thi quan trọng này Bộ phận phụ trách công tác tuyển sinh của trường THPT Chuyên Long An phối hợp với phụ huynh tư vấn, định hướng chọn lớp học cho học sinh để các em hiểu biết và chọn đúng nguyện vọng khi tham gia tuyển sinh, tránh tình trạng chọn nhằm lớp do ảo tưởng về năng lực, giúp học sinh ổn định về mặt tâm lý, chuẩn bị tâm thế sẵn sàng bước vào kì thi, góp phần nâng cao chất lượng của kì tuyển sinh
Từ đó cho thấy, giáo viên, phụ huynh, học sinh cần có công cụ mang tính khoa học
để làm cơ sở tham khảo trong việc định hướng lựa chọn lớp học phù hợp với năng lực học tập của học sinh
Xuất phát từ nhu cầu thực tế này, khóa luận xây dựng ứng dụng dự đoán kết quả tuyển sinh vào lớp 10 trường THPT Chuyên Long An, nhằm góp thêm một giải pháp giúp học sinh chọn đúng lớp học theo năng lực, giảm bớt áp lực thi cử, đồng thời hỗ trợ công tác tuyển sinh của trường
1 2 Phát biểu bài toán
Xây dựng ứng dụng dự đoán kết quả tuyển sinh lớp 10 vào trường THPT Chuyên Long An
Trang 13Chương 1 Tổng quan về khóa luận
Đầu vào của bài toán (input): Thông tin của học sinh gồm giới tính, nơi học sinh học trung học cơ sở (huyện/thành phố), môn chuyên đăng ký thi, điểm Toán, điểm
Lý, điểm Hoá, điểm Sinh, điểm Văn, điểm Sử, điểm Địa, điểm Anh Văn ở năm học lớp 9
Đầu ra của bài toán (output): Kết quả thi của học sinh : Đậu hoặc Không đậu (tương ứng với giá trị rời rạc 1 hoặc 2)
1 3 Các thách thức
Tập dữ liệu của trường THPT Chuyên Long An với các mẫu có thuộc tính quyết định mang giá trị Đậu chiếm tỉ lệ phân bố thấp so với các mẫu có thuộc tính quyết định mang giá trị Không đậu, điều này khiến cho các bộ phân lớp có
xu hướng phân lớp tất cả dữ liệu vào lớp đa số, đưa ra độ chính xác đự đoán cao cho lớp đa số nhưng lại đưa ra độ chính xác dự đoán thấp cho lớp thiểu số
Số lượng dữ liệu mẫu không nhiều ở môn Hoá, môn Tiếng Anh dẫn đến thiếu thông tin để tổng quát hóa về phân bố của các mẫu
Các miền dữ liệu của một số thuộc tính ở lớp Đậu và lớp Không đậu tương tự nhau, gây khó khăn cho việc phân biệt giữa hai lớp
Khi thay đổi tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm có thể làm sai lệch kết quả phân lớp trong trường hợp dữ liệu huấn luyện và thử nghiệm có phân bố khác nhau
1 4 Mục tiêu, đối tượng và phạm vi nghiên cứu
dữ liệu, mạng neural, bộ phân lớp SVM
Xây dựng ứng dụng dự đoán kết quả thi tuyển sinh lớp 10 vào trường THPT Chuyên Long An
Trang 14Chương 1 Tổng quan về khóa luận
1 4 3 Phạm vi
Phạm vi nghiên cứu của khoá luận là mô hình tính toán hạt giải quyết bài toán phân lớp dữ liệu không cân bằng của Lại Đức Anh, Su, Chen và các đồng sự và các
lý thuyết cơ bản liên quan đến các mô hình này
Dữ liệu tại trường THPT Chuyên Long An
1 5 Các đóng góp từ kết quả nghiên cứu của khóa luận
Đối với giáo dục, khóa luận đã góp một công cụ mang tính khoa học để làm cơ
sở tham khảo trong việc định hướng lựa chọn lớp học phù hợp với năng lực học tập của học sinh, thúc đẩy nhu cầu ứng dụng công nghệ thông tin vào các hoạt động của trường học
Bên cạnh việc nghiên cứu xây dựng ứng dụng đáp ứng nhu cầu thực tiễn, khóa luận có những đóng góp đề xuất mới về mặt kỹ thuật so với các phương pháp trước:
Su và các đồng sự đã áp dụng tính toán hạt vào quá trình kiểm tra sản phẩm điện thoại di động [9], và đã đề xuất mô hình thu được tri thức qua việc chia nhỏ thông tin (KAIG) [10] giải quyết một cách hiệu quả các vấn đề phân lớp dữ liệu không cân bằng Chen và các đồng sự [6] đề xuất mô hình tổng quát giải quyết vấn đề phân lớp dữ liệu không cân bằng gồm ba bước: xây dựng IG (Information Granule), biểu diễn IG và thu nhận tri thức từ các IG Ba phương pháp gồm cây quyết định, tập thô và mạng neural với thuật toán lan truyền ngược được áp dụng để chọn các đặc trưng và rút trích tri thức từ các IG cho mục tiêu phân lớp [6], [9], [10] Khóa luận bổ sung thêm phương pháp sử dụng bộ phân lớp SVM cho mục tiêu phân lớp
Trang 15Chương 1 Tổng quan về khóa luận
và so sánh hiệu quả phân lớp với phương pháp sử dụng mạng neural trên bộ dữ liệu thực tế
Lại Đức Anh đưa ra kỹ thuật rời rạc với các khoảng bằng nhau cho việc rời rạc các giá trị liên tục, chỉ xét sự xuất hiện của các giá trị định danh (bao gồm cả các giá trị số đã được rời rạc trong mỗi IG) khi biểu diễn các IG dưới dạng các thuộc tính con để giảm thời gian tính toán [1] Tuy nhiên, phương pháp này cũng có nhược điểm là giá trị nhỏ nhất và giá trị lớn nhất của từng thuộc tính ứng với từng IG sẽ được rời rạc một cách cố định thành các giá trị lớn hơn hoặc nhỏ hơn gây ảnh hưởng rất lớn trong việc huấn luyện và kiểm thử về sau Do đó, dựa trên bộ dữ liệu thực tế, khóa luận đưa ra cách rời rạc các giá trị liên tục mà không phải chuẩn hóa
dữ liệu trước, điều này làm giảm số lượng phép tính đồng thời khắc phục được nhược điểm đã nêu trên
Khóa luận cũng tiến hành cài đặt và so sánh hiệu quả giải quyết bài toán của phương pháp do khóa luận đề xuất với phương pháp của Chen và các đồng sự, phương pháp của Lại Đức Anh, phương pháp Oversampling dữ liệu, phương pháp của Chen và các đồng sự, trong đó thay thế việc sử dụng mạng neural bằng việc sử dụng bộ phân lớp SVM để phân lớp
1 6 Bố cục của khóa luận
Khóa luận được trình bày theo bố cục sau:
Chương 1: Giới thiệu tổng quan về khóa luận bao gồm lý do chọn đề tài, phát biểu bài toán và các thách thức bài toán đặt ra Trình bày mục tiêu, đối tượng, phạm
vi nghiên cứu và các đóng góp từ kết quả nghiên cứu của đề tài
Chương 2: Giới thiệu tổng quan về phân lớp dữ liệu không cân bằng, trình bày các hướng tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng
Chương 3: Trình bày cơ sở lý thuyết của khóa luận liên quan trong phương pháp dựa trên tính toán hạt và các mô hình xử lí dữ liệu không cân bằng dựa trên tính toán hạt
Chương 4: Đề xuất mô hình phân lớp dựa trên tính toán hạt khóa luận cài đặt
Trang 16Chương 1 Tổng quan về khóa luận
Chương 5: Xây dựng ứng dụng là chương trình dự đoán kết quả tuyển sinh lớp
10 vào trường THPT Chuyên Long An, tiến hành thực nghiệm, so sánh và đánh giá kết quả mới với các phương pháp cũ trên các mẫu dữ liệu cụ thể
Chương 6: Tổng kết những kết quả đạt được, những đóng góp mới và đề xuất hướng phát triển của đề tài trong tương lai
Trang 17Chương 2 Tổng quan về phân lớp dữ liệu không cân bằng
CHƯƠNG 2 TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG
2 1 Giới thiệu
Phân lớp dữ liệu không cân bằng là một trong 10 vấn đề khó đang được cộng đồng máy học và khai thác dữ liệu quan tâm Vấn đề không cân bằng lớp thường xảy ra với bài toán phân lớp nhị phân (chỉ có 2 lớp) mà ở đó một lớp mà người ta quan tâm chiếm tỉ lệ rất nhỏ so với lớp còn lại Trong nhiều ứng dụng thực tế, chẳng hạn như phát hiện các giao dịch gian lận, phát hiện xâm nhập mạng, sự rủi ro trong quản lý, phân loại văn bản hay chẩn đoán trong y học Sự không cân bằng lớp làm ảnh hưởng rất lớn đến hiệu quả của các mô hình phân loại Ví dụ, trong cơ sở dữ liệu y học, khi phân loại các pixels trong các ảnh phim chụp tia X có bị ung thư hay không, những pixels không bình thường (ung thư) chỉ chiếm một phần rất nhỏ trong toàn bộ ảnh Với các tập dữ liệu của các bài toán phân lớp như vậy sẽ làm cho các
mô hình học phân lớp gặp rất nhiều khó khăn trong dự báo cho dữ liệu lớp thiểu số Hầu hết giải thuật học như cây quyết định C4.5, CART, SVM đều được thiết kế để cho độ chính xác tổng thể, không quan tâm đến bất kỳ lớp nào Chính vì lý do này, cộng đồng máy học cũng đã tập trung để giải quyết vấn đề phân lớp dữ liệu không cân bằng, thể hiện qua các công trình nghiên cứu được công bố ở các cuộc hội thảo khoa học
2 2 Các hướng tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng
Theo [5], các tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng được chia làm các nhóm: Các kỹ thuật lấy mẫu, phương pháp học toàn bộ, phương pháp học nhạy chi phí, phương pháp lựa chọn đặc trưng và phương pháp chỉnh sửa thuật toán
2 2 1 Các kỹ thuật lấy mẫu (sampling methods) [5]
Phương pháp lấy mẫu cơ bản: Hai phương pháp được sử dụng phổ biến là undersampling và oversampling
Trang 18Chương 2 Tổng quan về phân lớp dữ liệu không cân bằng
- Undersampling: Phương pháp này cân bằng sự phân bố mẫu ở các lớp bằng cách loại bỏ các mẫu ở lớp đa số
- Oversampling: Phương pháp này làm tăng tỷ lệ của lớp thiểu số bằng cách tạo
ra các mẫu trùng lắp ở lớp thiểu số
Các phương pháp lấy mẫu nâng cao:
- Phương pháp Tomek Link (viết tắt là Tlink): Thuật toán TLink như sau:
o Lấy hai mẫu x, y ở hai lớp khác nhau
o Khoảng cách giữa hai mẫu này kí hiệu là d(x,y)
o Cặp (x,y) được gọi là Tlink nếu không tồn tại mẫu z sao cho d(x,z)<d(x,y) hay d(y,z)<d(x,y)
Trong undersampling dữ liệu, nếu hai mẫu là Tlink thì mẫu ở lớp đa số sẽ
bị loại bỏ
- Phương pháp SMOTE (Synthetic Minority Oversampling Technique): SMOTE là phương pháp nâng cao của Oversampling Phương pháp này tạo ra các mẫu ở lớp thiểu số mới bằng cách nội suy nhiều mẫu lớp thiểu số Thuật toán như sau:
o Đối với mỗi mẫu x thuộc lớp thiểu số, xác định k láng giềng gần nhất của
Nhận xét: Undersampling có thể loại bỏ dữ liệu có ích tiềm tàng, có khả năng là
dữ liệu quan trọng trong quá trình huấn luyện mẫu Oversampling làm gia tăng kích thước của tập mẫu nên sẽ tốn thời gian huấn luyện mẫu
2 2 2 Học toàn bộ (ensemble learning methods)
2.2.2.1.Bagging (đóng gói) [5]
Bagging tạo ra N tập huấn luyện được chọn có lặp từ tập dữ liệu huấn luyện ban đầu Trong đó các mẫu huấn luyện có thể được chọn hơn một lần hoặc không được
Trang 19Chương 2 Tổng quan về phân lớp dữ liệu không cân bằng
máy Lb để sinh ra M bộ phân lớp cơ bản hm Khi có một mẫu phân lớp mới, kết quả của bộ kết hợp sẽ là kết quả nhận được nhiều nhất khi chạy M bộ phân lớp cơ bản Trong trường hợp dữ liệu không cân bằng, các tập dữ liệu huấn luyện mới được tạo
ra bằng việc lặp lại kỹ thuật lấy mẫu trên tập dữ liệu huấn luyện hoặc gán trọng số cho các mẫu như một vài phương pháp sau:
- Asymmetric Bagging: trong mỗi lần lặp, tập dữ liệu huấn luyện được tạo ra theo cách là toàn bộ mẫu lớp thiểu số được giữ nguyên, lớp đa số được lấy bằng số lượng mẫu của lớp thiểu số
- Over Bagging: Áp dụng oversampling ngẫu nhiên đối với lớp thiểu số trong mỗi lần lặp
- Under Bagging: Áp dụng undersampling ngẫu nhiên đối với lớp đa số trong mỗi lần lặp
- Roughly balanced bagging: gán trọng số cho các mẫu để cân bằng các lớp trong mỗi lần lặp
Nhận xét: Trong vẫn đề giải quyết trường hợp dữ liệu không cân bằng, phương pháp này vẫn gặp hạn chế của các kỹ thuật lấy mẫu và việc xác định trọng số của các mẫu
2.2.2.3.Thuật toán rừng ngẫu nhiên (Random Forest) [3]
Random Forest (RF) (được Breiman đề xuất) là thuật toán được xây dựng trên nền tảng thuật toán cây quyết định, sử dụng kỹ thuật bagging Kỹ thuật này cho phép lựa chọn một nhóm nhỏ các thuộc tính tại mỗi nút của cây để phân chia cho
Trang 20Chương 2 Tổng quan về phân lớp dữ liệu không cân bằng
mức tiếp theo của cây phân lớp Bằng cách chia nhỏ không gian tìm kiếm thành các cây nhỏ hơn như vậy cho phép thuật toán có thể phân loại một cách rất nhanh chóng cho dù không gian thuộc tính rất lớn Các tham số đầu vào của thuật toán khá đơn giản bao gồm số các thuộc tính được chọn trong mỗi lần phân chia (mtry) Giá trị mặc định của tham số này là căn bậc hai của p với p là số lượng các thuộc tính Tương tự như thuật toán CART, RF vẫn sử dụng công thức Gini là công thức tính toán việc phân chia cây Số lượng cây được tạo ra là không hạn chế và cũng không
sự dụng bất kỳ kỹ thuật để hạn chế mở rộng cây Chúng ta phải lựa chọn tham số cho biết số lượng cây (ntree) sẽ được sinh ra sao cho đảm bảo rằng sẽ mỗi một thuộc tính sẽ được kiểm tra một vài lần Thuật toán sử dụng kỹ thuật OOB (out-of -bag) để xây dựng tập huấn luyện và phương pháp kiểm tra trên nó
Chen và các đồng sự đã đề xuất hai phương pháp để thuật toán rừng ngẫu nhiên phù hợp hơn trên tập dữ liệu không cân bằng cao là Balanced Random Forest và Weighted Random Forest
Nhận xét: Thuật toán rừng ngẫu nhiên cho kết quả tốt trên dữ liệu có số chiều vừa phải và giảm đáng kể hiệu quả khi xử lý bài toán có số chiều cao, nhiều nhiễu, dung lượng mẫu ít do trong quá trình xây dựng cây quyết định, tại mỗi nút, RF dùng phương pháp chọn ngẫu nhiên một tập con thuộc tính từ tập thuộc tính ban đầu để tìm thuộc tính phân hoạch tốt nhất phân tách nút Do đó, RF có thể lựa chọn ngẫu nhiên nhiều nhiễu vào không gian con thuộc tính dùng cho việc tách nút khi dựng cây, nên khả năng dự đoán của RF giảm sút
Ling và Sheng chia phương pháp học nhạy chi phí thành hai loại [5]:
- Direct Cost-sensitive learning method: sử dụng trực tiếp chi phí trong thuật toán học
Trang 21Chương 2 Tổng quan về phân lớp dữ liệu không cân bằng
- Methods for cost-sensitive meta-learning: phương pháp này biến đổi các bộ phân lớp không nhạy chi phí thành một bộ phân lớp nhạy chi phí Phương pháp này được chia thành hai loại: phương pháp ngưỡng và phương pháp lấy mẫu
+ Phương pháp ngưỡng: MetCost là thuật toán tiêu biểu cho phương pháp này với ý tưởng là cực tiểu hoá chi phí tổng thể
+ Phương pháp lấy mẫu: trong phương pháp này, đầu tiên áp dụng kỹ thuật lấy mẫu làm thay đổi phân bố lớp trên tập dữ liệu huấn luyện, sau đó áp dụng trực tiếp bộ phân lớp không nhạy chi phí lên tập dữ liệu mới này Hai phương pháp chính trong nhóm này là Costing và Weighting
Nhận xét: Trong phương pháp học này, các mẫu từ các lớp khác nhau không được đối xử như nhau Do đó, các thuật toán nhạy chi phí phải xác định các khoản chi phí để đưa vào công thức cập nhật trọng số
2 2 4 Lựa chọn đặc trưng [5]
Phương pháp lựa chọn đặc trưng là một phương pháp tìm ra một tập các thuộc tính từ M tập thuộc tính của tập dữ liệu ban đầu Phương pháp này thường dùng trong trường hợp bùng nỗ tập dữ liệu lớn, đặc biệt là trong trường hợp tập dữ liệu nhiều chiều Trên tập dữ liệu không cân bằng, phương pháp lựa chọn đặc trưng được áp dụng để lựa chọn các thuộc tính gây ra sự khác biệt lớn giữa các lớp Như vậy phương pháp phải tốn thời gian cho quá trình tìm kiếm tập thuộc tính con tốt nhất
Phương pháp Warpper là một trong các phương pháp lựa chọn đặc trưng rời rạc
áp dụng trên tập dữ liệu không cân bằng được đề xuất bởi Kohavi Một tập con của các đặc trưng có độ chính xác của kết quả tốt nhất sẽ được sử dụng để xây dựng bộ phân lớp trên toàn tập dữ liệu huấn luyện
Lựa chọn đặc trưng còn được dùng kết hợp với các phương pháp học toàn bộ, đặc biệt trong dự đoán rủi ro như phương pháp PREE (Prediction Risk based feature selection for Easy Ensemble)
2 2 5 Phương pháp chỉnh sửa thuật toán:
Đây là phương pháp hiệu quả ngay cả khi kích thước tập dữ liệu nhỏ Mục đích của phương pháp chỉnh sửa thuật toán là để làm cho thuật toán học (cây quyết định,
Trang 22Chương 2 Tổng quan về phân lớp dữ liệu không cân bằng
hồi quy, phân tích nhân tố, ) phù hợp với tình huống dữ liệu không cân bằng Phương pháp này chủ yếu áp dụng trong thuật toán cây quyết định và SVM [5]
2 3 Phương pháp dựa trên tính toán hạt
Tính toán hạt là phương pháp mới nổi trong tiếp cận mức thuật toán để phân lớp
dữ liệu không cân bằng Phương pháp này thuộc hướng tiếp cận chỉnh sửa, đề xuất thuật toán mới Do đó, phương pháp này hiệu quả trên tập dữ liệu có kích thước nhỏ Hạt thông tin được hiểu như là các lớp, các cụm, các tập con, các nhóm và các khoảng, là các tập hợp của các đối tượng được sắp xếp với nhau dựa trên sự tương
tự của chúng, sự gần kề chức năng, và tính không thể phân biệt [13]
Theo [9], các tác giả cho rằng nếu gom các mẫu tương tự nhau vào các cụm thì một lượng lớn dữ liệu sẽ chuyển thành một vài cụm, như vậy có thể giảm sự chênh lệnh giữa các mẫu ở lớp đa số và lớp thiểu số Một ví dụ để minh họa cho quan điểm này được đưa ra trong [10] là: tất cả gia đình hạnh phúc thì giống nhau còn bất hạnh thì mỗi nhà mỗi khác Vì vậy có thể xem các mẫu thuộc lớp đa số là giống nhau trong khi các mẫu thuộc lớp thiểu số là khác nhau Sau khi gom cụm ở lớp đa
số, số lượng cụm ở lớp này ít hơn nhiều so với số lượng các mẫu Nếu chúng ta xem xét các cụm thay cho việc xét các mẫu sẽ làm giảm sự chênh lệnh giữa lớp đa số và lớp thiểu số, do đó giải quyết được vấn đề mất cân bằng dữ liệu [10]
Đối với tập dữ liệu khóa luận thực nghiệm: Giá trị các thuộc tính số của mẫu ở lớp thiểu số (lớp Kết quả Đậu) tập trung trong khoảng giá trị từ 7.5 đến 10 Giá trị các thuộc tính số của mẫu ở lớp đa số (lớp Kết quả Không đậu) tập trung trong khoảng giá trị từ 7.0 đến 10 Thuộc tính huyện tập trung ở một vài huyện như Bến Lức, Cần Đước, Châu Thành, Tân Trụ, Thủ Thừa, thành phố Tân An Việc gom các mẫu thuộc cùng một lớp và có giá trị thuộc tính gần nhau hoặc tương tự nhau vào một cụm sẽ làm giảm sự chênh lệnh về số cụm giữa 2 lớp, mỗi cụm trở thành một mẫu mới nên sẽ cải thiện tình trạng không cân bằng của dữ liệu Việc phân lớp được tiến hành trên các cụm do đó cũng làm giảm kích thước tập huấn luyện
Tiếp cận dựa trên tính toán hạt giúp tăng hiệu suất phân lớp và cải tiến tình trạng không cân bằng lớp, phù hợp với xử lý các thông tin mơ hồ, không rõ ràng, không
Trang 23Chương 2 Tổng quan về phân lớp dữ liệu không cân bằng
đầy đủ [6] Các mô hình này sử dụng khái niệm các thuộc tính con để biểu diễn các hạt thông tin đồng thời để giải quyết tình trạng chồng chéo giữa các IG
Như vậy, các thách thức của bài toán khóa luận đặt ra ở chương trước cơ bản đã được giải quyết Do đó, hướng nghiên cứu phương pháp tính toán hạt được khóa luận chọn để xây dựng ứng dụng
Trang 24Chương 3 Cơ sở lý thuyết
CHƯƠNG 3
CƠ SỞ LÝ THUYẾT
3 1 Các lý thuyết liên quan trong phương pháp dựa trên tính toán hạt
3 1 1 Chuẩn hoá dữ liệu số
Mỗi thuộc tính số có phạm vi giá trị khác nhau, có thể ảnh hưởng đến việc so sánh, đánh giá và tính toán hàm khoảng cách Việc chuẩn hoá các thuộc tính số nhằm mục đích đưa các thuộc tính số về cùng một miền giá trị như nhau Có hai chiến lược dùng để chuẩn hoá dữ liệu số: chuẩn hoá về một miền giá trị cố định từ 0 đến 1 và chuẩn hoá theo thống kê cho ra tập các giá trị mà trung bình của chúng là 0
và độ lệnh chuẩn là 1
Dữ liệu được chuẩn hoá về [0,1] giúp đưa các miền giá trị của các thuộc tính khác nhau về một miền giá trị giống nhau để thực hiện tính khoảng cách Việc chuẩn hoá này được thực hiện theo công thức:
dik=(xik-xi,min)/(xi,max-xi,min) (3.1) Trong đó:
xik là giá trị của dòng thứ k, thuộc tính thứ i;
xi,min là giới hạn dưới của các giá trị thuộc tính thứ i;
xi,max là giới hạn trên của các giá trị thuộc tính thứ i;
dik là giá trị sau khi được chuẩn hoá [4]
Dữ liệu có thứ tự cũng được chuẩn hoá theo công thức này
3 1 2 Rời rạc dữ liệu
Các thuộc tính có các kiểu dữ liệu khác nhau, có thể chia thành hai loại: dữ liệu liên tục (dữ liệu số) và dữ liệu rời rạc (định danh) Để xử lý các tập dữ liệu chứa các thuộc tính có kiểu dữ liệu hỗn hợp, cộng đồng khai thác dữ liệu đã đề xuất các chiến lược sau [4]:
(1) Các giá trị định danh được biến đổi thành các giá trị số nguyên và sau đó áp dụng các phương pháp xử lý dữ liệu số cho tất cả các thuộc tính Tuy nhiên, rất khó
để cho các giá trị số đúng với các giá trị định danh
Trang 25Chương 3 Cơ sở lý thuyết
(2) Một tiếp cận khác là rời rạc hoá các thuộc tính số và áp dụng thuật toán xử lý dữ liệu định danh cho tất cả các thuộc tính Nhưng quá trình rời rạc hoá dẫn đến mất thông tin
3 1 3 Hạt thông tin
Hạt thông tin được hiểu là các lớp, các cụm, các tập con, các nhóm và các khoảng [13] Các hạt được tạo bởi sự giống nhau của các đối tượng, do đó, các đối tượng trong cùng hạt sẽ có cùng lớp [10] Quá trình xây dựng các hạt thông tin được nói đến như là việc chia nhỏ thông tin Điều này được chỉ ra trong công trình của Zadeh (1979), người đã đặt ra thuật ngữ “chia nhỏ thông tin”
Việc chia nhỏ thông tin là cần thiết để nhận thức thấu đáo vấn đề và có hiểu biết sâu sắc hơn vào bản chất của nó, hơn là bị vùi lấp vào những chi tiết không cần thiết Chúng ta xem xét hạt thông tin thay cho dữ liệu số có thể cải tiến tình trạng không cân bằng của dữ liệu [10]
3 1 4 Tính toán hạt
Năm 1997, Lin đặt ra thuật ngữ “Tính toán hạt” và tích hợp nó vào lý thuyết tập thô, lý thuyết từ, lý thuyết không gian thương, [11]
Tính toán hạt được định nghĩa trong tài liệu của hội nghị IEEE – GrC năm 2013,
là lý thuyết tính toán tổng quan cho việc sử dụng có hiệu quả các hạt để xây dựng
mô hình tính toán hiệu suất cao cho các ứng dụng phức tạp với số lượng lớn dữ liệu, thông tin và tri thức [13]
Gần đây, tính toán hạt nhanh chóng trở thành khái niệm đang nổi và trở thành
mô hình tính toán mẫu của việc xử lý thông tin, cụ thể trong tính toán mềm GrC hướng đến việc biểu diễn và xử lý các IG Nó là hướng mới của trí tuệ nhân tạo [6] Castellano và Fanelli chỉ ra rằng vấn đề chính của tính toán hạt là cách để xây dựng IG và cách để mô tả IG [6] Có nhiều phương pháp được đề xuất để xây dựng
IG như mạng neural tự tổ chức (SOM), Fuzzy C-means (FCM), tập thô, tập bị che bóng [6] Trong vấn đề mô tả IG, Bargiela và Pedrycz dùng hyperbox, Su và các đồng sự biểu diễn thuộc tính con để mô tả IG
Trang 26Chương 3 Cơ sở lý thuyết
3 1 5 Thuật toán gom cụm K-means trên tập dữ liệu hỗn hợp
K-means là một trong số những thuật toán phân cụm dựa trên phương pháp phân vùng Với k cho trước, chính là số lượng các phân vùng cần xây dựng, thuật toán tạo ra k phân vùng đầu tiên Sau đó sử dụng một kỹ thuật xác định nhóm cho các đối tượng lặp đi lặp lại, các đối tượng được di chuyển từ nhóm này sang nhóm khác đến khi đạt được tối ưu Các tiêu chí chung của một phân vùng tốt là các đối tượng trong cùng một cụm có liên quan đến nhau hay khá tương đồng nhau, trong khi các đối tượng khác nhau thì khác nhau
3.1.5.1 Thuật toán K-means được đề xuất trong [4]
Khởi tạo – Phân phối các đối tượng dữ liệu vào k (xác định trước) cụm một cách ngẫu nhiên
- Với mỗi thuộc tính categorical: Tính khoảng cách (r,s) giữa hai giá trị categorical r và s
- Với mỗi thuộc tính số: Tính độ quan trọng của thuộc tính
- Gán các đối tượng dữ liệu đến các cụm khác nhau một cách ngẫu nhiên Lặp bước 1-2
𝑣 𝑑𝑖, 𝐶𝑗 là khoảng cách giữa đối tượng dữ liệu di và tâm cụm gần nhất Cj của nó;
𝑚𝑟 (𝑤𝑡(𝑑𝑖𝑡𝑟 − 𝐶𝑗𝑡𝑟))𝑡=1 2 là khoảng cách từ đối tượng dữ liệu diđến tâm cụm gần nhất Cj của nó đối với các thuộc tính số;
𝑚 𝑐 𝑡=1 (𝑑𝑖𝑡𝑐, 𝐶𝑗𝑡𝑐)2 là khoảng cách từ đối tượng dữ liệu di đến tâm cụm gần nhất Cj của nó đối với các thuộc tính categorical;
Wt là độ quan trọng của thuộc tính số thứ t
Trang 27Chương 3 Cơ sở lý thuyết
Cho đến khi không có phần tử nào thay đổi cụm hoặc số lần lặp tiến đến ngưỡng
3.1.5.2 Khoảng cách giữa hai giá trị khác biệt của thuộc tính categorical [4] Định nghĩa 1: Khoảng cách giữa cặp giá trị x và y của thuộc tính Ai tương ứng với thuộc tính Aj và một tập con w của các giá trị của thuộc tính Aj:
𝛿𝑤𝑖 𝑥, 𝑦 = 𝑃𝑖 𝑤/𝑥 + 𝑃(~𝑤/𝑦) (3.3) Trong đó:
Pi(w/x) là xác suất có điều kiện của x biết w;
Pi(w/y) là xác suất có điều kiện của y biết w
(có 2||Ai|| giá trị có thể cho w)
Định nghĩa 2: Khoảng cách giữa các giá trị thuộc tính x và y của Aj tương ứng với thuộc tính Ai:
Định nghĩa 3: Với một tập dữ liệu có m thuộc tính (gồm cả categorical và số đã
được rời rạc), khoảng cách giữa giá trị x và y phân biệt của bất kỳ thuộc tính categorical Ai:
𝛿 𝑥, 𝑦 = 1/(𝑚 − 1) 𝑗 =1…𝑚 ,𝑖≠𝑗𝛿𝑖𝑗(𝑥, 𝑦) (3.6) Trong đó: 𝛿𝑖𝑗 𝑥, 𝑦 là khoảng cách giữa giá trị x và y của thuộc tính Ai tương ứng với thuộc tính Aj
Trang 28Chương 3 Cơ sở lý thuyết
Bảng 3 1 Tập dữ liệu tuyển sinh
P(Si3/Nữ)=0 P(Si8/Nữ)=0 P(Si9/Nữ)=1 P(Si3/Nam)=1/2 P(Si8/Nam)=1/2 P(Si9/Nam)=0
P(H9/Nữ)=1 P(H9/Nam)=1 P(L9/Nữ)=1 P(L9/Nam)=1
P(S8/Nữ)=1 P(S9/Nữ)=0 P(S8/Nam)=1/2 P(S9/Nam)=1/2
P(D8/Nữ)=1 P(D9/Nữ)=0 P(D8/Nam)=0 P(D9/Nam)=1
Khoảng cách giữa Nam và Nữ tương ứng với thuộc tính Nơi học THCS:
Khoảng cách giữa Nam và Nữ tương ứng với thuộc tính AV:
TG, AV(Nam, Nữ) =(1+1/2+1/2)-1=1
Khoảng cách giữa Nam và Nữ tương ứng với thuộc tính Địa:
Trang 29Chương 3 Cơ sở lý thuyết
Khoảng cách giữa Nam và Nữ tương ứng với thuộc tính T:
3.1.5.3 Độ quan trọng của một thuộc tính số:
Độ quan trọng của thuộc tính định nghĩa sự quan trọng của thuộc tính đó trong tập dữ liệu
Độ quan trọng của một thuộc tính số được tính như sau [4]:
𝑤𝑖 = 𝑆𝑘=1 𝑆𝑗 >𝑘𝛿(𝑢 𝑟 , 𝑢 𝑠 )/(𝑆(𝑆 − 1)/2) (3.7) Trong đó:
- S: Số khoảng chia của thuộc tính số;
- Mỗi khoảng chia được gán một giá trị categorical khác biệt u[1], u[2], ,u[S]
Ví dụ: Độ quan trọng của một thuộc tính trong Bảng 3 1:
Độ quan trọng của thuộc tính Sinh được tính như sau:
- Sau quá trình rời rạc, thuộc tính Sinh chỉ có 3 cặp giá trị khác biệt (9, 3), (9,8),
(3,8), khoảng cách (9,3)=0.56, (9,8)=0.78, (3, 8)=0.44
Trang 30Chương 3 Cơ sở lý thuyết
- Áp dụng công thức tính độ quan trọng của thuộc tính, ta được:
WSinh=(0.56+0.78+0.44)/(8(8-1)/2)=0.06
3.1.5.4 Các tâm cụm cho các tập dữ liệu hỗn hợp:
Giá trị trung tâm của thuộc tính số của một cụm C được chuẩn hoá theo công
thức (3.1) Còn giá trị trung tâm của thuộc tính categorical của cụm C được biểu
diễn như sau:
Trong đó:
- NC là số đối tượng dữ liệu trong cụm C;
- Ni,k,c kí hiệu số lượng phần tử của thuộc tính i trong cụm C có giá trị k, giả sử
thuộc tính thứ i có pi giá trị khác nhau
Ví dụ: Tâm cụm dữ liệu trong Bảng 3 1 được biểu diễn như sau:
[{0.53}, {0.67}, {0.67}, [{0.62}, {0.67}, {0.53}, {0.53}, {0.55}, {1/3(1Nữ,
2Nam)},{1/3(1 Đức Hoà,1 TpTân An, 1 Tân Thạnh)}]
Khoảng cách giữa một đối tượng và tâm cụm:
Cho Ai,k kí hiệu giá trị thứ k cho thuộc tính categorical Ai Cho tổng số các giá
trị khác biệt của Ai là pi Khoảng cách giữa giá trị X của thuộc tính categorical Ai
đối với giá trị thuộc tính tương ứng của tâm cụm C được định nghĩa như sau:
(X,C)=(Ni,1,c/Nc)*(X, Ai,1)+ (Ni,2,c/Nc)*(X, Ai,2)+ + (Ni,pi,c/Nc)*(X, Ai,pi) (3.8)
- Vì (r,v) ≤ 1, và tổng số các phần tử trong cụm C là Nc, do đó (X,C) ≤ 1
- Khoảng cách giữa một đối tượng và một tâm cụm cho tập dữ liệu hỗn hợp
được xác định theo công thức sau:
𝑣 𝑑𝑖, 𝐶𝑗 = 𝑚𝑟 (𝑤𝑡(𝑑𝑖𝑡𝑟 − 𝐶𝑗𝑡𝑟))
𝑡=1 (𝑑𝑖𝑡𝑐 , 𝐶𝑗𝑡𝑐)2 (3.9) Trong đó, mr và mc biểu diễn số lượng thuộc tính số và categorical
Ví dụ:
Khoảng cách giữa đối tượng d2(0,1,1,0,1,0,0.60,0, Nam, Tp Tân An) và tâm
cụm C1 [{0.53}, {0.67}, {0.67}, [{0.62}, {0.67}, {0.53}, {0.53}, {0.55}, {1/3(1Nữ, 2Nam)},{1/3(1 Đức Hoà,1 TpTân An, 1 Tân Thạnh)}] được tính như sau:
Trang 31Chương 3 Cơ sở lý thuyết
𝑣 𝑑2, 𝐶1 = (𝑤𝑡(𝑑2𝑡𝑟 − 𝐶1𝑡𝑟 ))
8
𝑡=1
2 + ((𝑑21𝑐 , 𝐶11𝐶))2 + ((𝑑22𝑐 , 𝐶12𝐶))2Trong đó:
w1 là độ quan trọng của thuộc tính T (=0.02);
w2 là độ quan trọng của thuộc tính Lý (=0);
w3 là độ quan trọng của thuộc tính Hoá (=0);
w4 là độ quan trọng của thuộc tính Sinh (=0.06);
w5 là độ quan trọng của thuộc tính Văn (=0.02);
w6 là độ quan trọng của thuộc tính Sử (=0.02);
w7 là độ quan trọng của thuộc tính Địa (=0.02);
w8 là độ quan trọng của thuộc tính AV (=0.06);
Trang 32Chương 3 Cơ sở lý thuyết
Trong đó, w là véctơ chuẩn của siêu phẳng phân cách, b là độ lệch, và Φ(x) là hàm ánh xạ từ không gian đầu vào sang không gian đặc trưng, Φ 𝑥 : 𝑅𝐷 → 𝑅𝑀(M>D) Mục tiêu của SVM là tìm một siêu phẳng tối ưu sao cho khoảng cách lề giữa hai lớp đạt giá trị cực đại Bên cạnh đó, để đảm bảo tính tổng quát hóa cao, một biến lỏng (slack variable) được đưa vào để nới lỏng điều kiện phân lớp Bài toán đưa đến việc giải quyết tối ưu có ràng buộc:
max𝛼𝐿 𝛼 ≡ 𝑁𝑖=1𝛼𝑖 −1
2 𝛼𝑖,𝑗 𝑖𝛼𝑗𝑦𝑖𝑦𝑗Φ 𝑥𝑖 T Φ(𝑥𝑗) (3.12) Thỏa mãn: 0 ≤ 𝛼𝑖 ≤ 𝐶, ∀𝑖 ∈ 1, 𝑁 và 𝑁𝑖=1𝛼𝑖𝑦𝑖 = 0, với αi là các nhân tử Lagrange
Sau khi có được các giá trị 𝛼𝑖 từ bài toán (3.10), ta sẽ thu đươc các giá trị tối ưu w* và b* của siêu phẳng Chỉ có các mẫu có 𝛼𝑖 ≥ 0 mới tham gia vào các véc tơ hỗ trợ (support vector) Cuối cùng, hàm quyết định phân lớp có dạng:
𝑓 𝑥 = 𝑠𝑔𝑛 𝑁𝑖=1𝛼𝑖𝑦𝑖 Φ 𝑥𝑖 T Φ 𝑥 + 𝑏∗ (3.13) Gọi 𝐾 𝑥𝑖, 𝑥𝑗 = Φ 𝑥𝑖 T Φ 𝑥𝑗 là hàm nhân của không gian đầu vào Theo đó, tích vô huớng trong không gian đặc trưng tuơng đương với hàm nhân K ở không gian đầu vào Như vậy, thay vì tính trực tiếp giá trị tích vô huớng, ta thực hiện gián tiếp thông qua K Khoá luận chọn hàm nhân cho mô hình là hàm phi tuyến Gauss (RBF-Radial Basis Function):
𝐾 𝑥𝑖, 𝑥𝑗 = exp −𝛾 𝑥𝑖 − 𝑥𝑗 2 (3.14)
3.1.6.2 Lựa chọn tham số
Vấn đề quan trọng nhất của mô hình SVM là việc tìm được các tham số phù hợp
Trang 33Chương 3 Cơ sở lý thuyết
Ở đây, hai tham số cần phải quyết định khi huấn luyện mô hình là C và γ [2] Khoá luận sử dụng phương pháp thông dụng Grid search và thông qua đánh giá chéo với
dữ liệu huấn luyện được chia 10 phần (trên tập dữ liệu Toán) hoặc 5 phần (trên tập
dữ liệu Hoá và Tiếng Anh) để tìm các giá trị tối ưu cho hai tham số này Giá trị của chúng sẽ được giới hạn trong đoạn nhất định, 𝐶 ∈ [2−5, 215] và 𝛾 ∈ [2−15, 23]
3.1.6.4 K-fold cross validation
Tập toàn bộ các ví dụ D được chia ngẫu nhiên thành k tập con không giao nhau (gọi là “fold”) có kích thước xấp xỉ nhau.Mỗi lần (trong số k lần) lặp, một tập
con được sử dụng làm tập kiểm thử, và (k-1) tập con còn lại được dùng làm tập huấn luyện k giá trị lỗi (mỗi giá trị tương ứng với một fold) được tính trung bình
cộng để thu được giá trị lỗi tổng thể
Các lựa chọn thông thường của k: 10, hoặc 5
Thông thường, mỗi tập con (fold) được lấy mẫu phân tầng (xấp xỉ phân bố lớp) trước khi áp dụng quá trình đánh giá Cross-validation
3 1 7 Đánh chỉ số ngữ nghĩa tiềm ẩn
Trong máy học, số lượng mẫu tăng theo hàm mũ của số chiều của không gian đặc trưng Các tập dữ liệu có đặc trưng lớn thường chứa thông tin thưa và có thể làm giảm hiệu suất của bộ phân lớp Lựa chọn đặc trưng và rút trích đặc trưng là hai
kỹ thuật được sử dụng hoặc riêng lẻ hoặc kết hợp để giảm số chiều của không gian đặc trưng Lưạ chọn đặc trưng là để chọn một tập con của các đặc trưng đại diện nhất từ không gian đặc trưng gốc Rút trích đặc trưng là để biến đổi không gian đặc trưng gốc thành không gian đặc trưng nhỏ hơn để giảm số chiều LSI là một kỹ thuật rút trích đặc trưng đã được đề xuất kết hợp với việc chia nhỏ thông tin để giải
Trang 34Chương 3 Cơ sở lý thuyết
quyết các vần đề mất cân bằng lớp, giúp giảm số lượng các thuộc tính con, rút ngắn thời gian thực thi, tăng hiệu suất phân lớp [6]
LSI là một phương pháp tự động biến đổi dữ liệu ban đầu thành không gian ngữ nghĩa nhỏ hơn bằng cách lấy ưu điểm của một số sự kết hợp ẩn có thứ tự cao hơn của các từ với các đối tượng văn bản Phép biến đổi được tính toán bởi việc áp dụng phép phân tích giá trị riêng (SVD) cho các ma trận (từ tài liệu) Sau SVD, các từ được sử dụng trong các ngữ cảnh tương tự sẽ được kết hợp [6]
Hình 3 1 tóm tắt các khái niệm về SVD và LSI Cho A là một ma trận m n có hạng r với các dòng đại diện cho các tài liệu và các cột kí hiệu các từ Phân tích giá trị riêng cho A biểu diễn A như tích của 3 ma trận A=USVT (3.16), trong đó
𝑆 = 𝑑𝑖𝑎𝑔(𝜎1, … , 𝜎𝑟) là một ma trận r r , 𝑈 = (𝑢1, … , 𝑢𝑟) là ma trận m r mà các cột của nó là trực giao, UUT=I và 𝑉𝑇 = (𝑣1, … , 𝑣𝑟)𝑇 là ma trận r n, VVT=I LSI làm việc bằng cách bỏ qua tất cả ngoại trừ k giá trị riêng lớn nhất trong sự phân tích SVD, với k phù hợp (k là chiều của không gian có chiều nhỏ) SVD phải trả giá về mặt chi phí phân tích, tính toán ma trận rất nhiều Do đó, k nên đủ nhỏ để có thể tìm nhanh và đủ lớn để tương xứng với cấu trúc của ngữ liệu [6], [9]
Gọi A là ma trận biểu diễn tập dữ liệu huấn luyện dưới dạng các thuộc tính con Sau khi phân tích SVD cho ma trận A, ta được 3 ma trận U, S, VT với A=USVT Khi thực hiện LSI để giảm số chiều của dữ liệu ta được 𝐴𝑘 = 𝑈𝑘𝑆𝑘𝑉𝑘𝑇 ≈ 𝐴 (3.17)
Từ đó ta có 𝑈𝑘 = 𝐴𝑉𝑘𝑆𝑘−1 (3.18) là ma trận kết quả của A qua phép biến đổi (𝑉𝑘𝑆𝑘−1) Tương ứng từng dòng dữ liệu d trong A được biến đổi Do đó, khi huấn luyện mạng neural, Uk được đưa vào huấn luyện Gọi B là tập dữ liệu kiểm nghiệm, từng dòng dữ liệu trong B sau khi biểu diễn dưới dạng các thuộc tính con, phải được giảm số chiều qua phép biến đổi (𝑉𝑘𝑆𝑘−1) trước khi đưa vào mạng neural để xác định giá trị đầu ra
Trang 35Chương 3 Cơ sở lý thuyết
Hình 3 1.Minh họa phân tích giá trị riêng của ma trận A [6], [7]
3 2 Các mô hình xử lí với dữ liệu không cân bằng dựa trên tính toán hạt
3 2 1 Mô hình thu nhận tri thức dựa trên tính toán hạt KAIG của Su và các đồng sự [10]
Su và các đồng sự (2006) đã đề xuất mô hình thu nhận tri thức dựa trên tính toán hạt KAIG để giải quyết vấn đề thu nhận tri thức từ các tập dữ liệu không cân bằng Mô hình gồm ba bước: Xây dựng hạt thông tin, biểu diễn hạt thông tin và thu nhận tri thức từ các hạt thông tin Ba bước trong mô hình này được thể hiện trong Hình 3 2
Trang 36Chương 3 Cơ sở lý thuyết
Hình 3 2 Mô hình thu nhận tri thức dựa trên tính toán hạt KAIG [10]
3.2.1.1 Xây dựng hạt thông tin
Su và các đồng sự đã sử dụng mạng Fuzzy ART (Fuzzy Adaptive Resonance Theory) để xây dựng IG và đề xuất hai chỉ số H-index và U-ratio để đo mức độ phân chia các hạt giúp giải quyết vấn đề chọn kích thước phù hợp của IG
Mạng Fuzzy ART là một mạng neural mờ giải quyết tốt bài toán phân cụm dữ liệu Thay vì phân cụm theo số cụm được cho trước, Fuzzy ART phân cụm dựa vào
sự tương đồng giữa các mẫu Fuzzy ART học dữ liệu huấn luyện để hình thành các cụm chỉ khi mức độ tương đồng giữa dữ liệu huấn luyện và một cụm đạt đến một ngưỡng nhất định Các cụm mới được sinh ra khi mức độ tương đồng giữa dữ liệu huấn luyện và mọi cụm đều không đạt ngưỡng về sự tương đồng [10]
H-index được sử dụng để đo tính thuần nhất của lớp các đối tượng trong một IG H-index được định nghĩa:
𝐻 − 𝑖𝑛𝑑𝑒𝑥 =
𝑖
𝑛 𝑖
𝑘 𝑖=1
Trong đó: k, ni, hi lần lượt là số lượng IG, số lượng các đối tượng trong hạt thứ i,
Trang 37Chương 3 Cơ sở lý thuyết
Ví dụ: Bảng 3 4 cho thấy một IG được tạo ra từ tập dữ liệu Iris gồm 3 đối tượng (n=3) Có 4 thuộc tính điều kiện X1, X2, X3, X4 Thuộc tính quyết định (lớp) của hai dòng đầu tiên là „Versicolor‟,dòng cuối cùng là „Setosa‟ Trong IG này, „Versicolor‟
là lớp chiếm đa số và h=2 Do đó, H-index của IG này là 2/3
Bảng 3 4 Ví dụ của hạt thông tin
Thuộc tính điều kiện Thuộc tính quyết định
Một chỉ số khác cho việc chọn sự giống nhau là U-ratio Trong ví dụ trước, lớp
„Versicolor‟ chiếm đa số, vì thế nó được gán là lớp của IG Nếu có một hạt khác được mô tả như Bảng 3 5, và chúng ta không thể phân biệt lớp của IG, thì chúng ta gọi hạt đó là hạt không thể phân biệt U-ratio được định nghĩa:
Bảng 3 5.Hạt thông tin không thể phân biệt
Thuộc tính điều kiện Thuộc tính quyết định
(lớp)
5.4 2.2 3.9 1.2 Versicolor 6.8 3.4 5.6 2.4 Virginica Khó để xử lý một hạt không thể phân biệt, vì thể chúng ta cần xem xét chúng một cách cẩn thận Chúng ta có thể tránh tình huống này bằng cách thiết đặt U-ratio càng nhỏ có thể
Trang 38Chương 3 Cơ sở lý thuyết
Chúng ta cần xác định ngưỡng H-index và U-ratio để xử lý hai vấn đề trên với tiêu chí “H-index càng lớn, càng tốt và U-ratio càng nhỏ, càng tốt” trong việc xét điều kiện dừng vòng lặp trong quá trình xây dựng các IG [10]
3.2.1.2 Biểu diễn hạt thông tin
Các hyperbox được sử dụng để biểu diễn các IG [10] Một hyperbox [b] được định nghĩa trong Rn được mô tả bởi cận dưới (bmin) và cận trên (bmax) của nó, trong
đó bmin
và bmax là các vector trong Rn Tập vũ trụ Rn là tập hợp của tất cả các điểm trong không gian n chiều Một IG thường chứa nhiều hơn một đối tượng Giới hạn trên và giới hạn dưới của giá trị các thuộc tính số được sử dụng để biểu diễn tất cả các đối tượng trong một IG Việc sử dụng bmin
và bmax có thể diễn tả hyperbox như [b]=[ bmin, bmax] Xét 2 IG (hyperbox) A=[a] và B=[b] định nghĩa trong R2 (được thể hiện trong bảng Bảng 3 6), chúng ta theo ký hiệu [a]=[ amin , amax] và [b]=[ bmin ,
bmax] [10]
Bảng 3 6 Hai IG được biểu diễn dưới hình thức hyperbox [10]
A (a1min, a1max) (a2min, a2max)
B (b1min, b1max) (b2min, b2max)
Vấn đề chồng chéo được mô tả trong Hình 3 3 (Tình huống chồng chéo giữa hai
IG A và B [9]) luôn xuất hiện trong các IG Chúng khó được xử lý bởi các thuật toán khai thác dữ liệu, vì chúng không được thiết kế để xử lý các IG, đặc biệt trong tình trạng chồng chéo xuất hiện Và các thuộc tính con đã được đề xuất để giải quyết vấn đề này [6], [9], [10]
Trang 39Chương 3 Cơ sở lý thuyết
Hình 3 3.Tình huống chồng chéo giữa hai IG A và B [9]
Có thể giải thích ý tưởng của “các thuộc tính con” này bằng cách sử dụng Hình
3 3.Theo trục X1 (thuộc tính 1), phần chồng chéo của hai hạt được chia thành phần chồng chéo ([𝑏1𝑚𝑖𝑛, 𝑎1𝑚𝑎𝑥]) và các phần không chồng chéo ([𝑎1𝑚𝑖𝑛, 𝑏1𝑚𝑖𝑛] và [𝑎1𝑚𝑎𝑥, 𝑏1𝑚𝑎𝑥]) Những khoảng con này được đặt tên lần lượt theo X11, X12, X13 được gọi là các thuộc tính con Biến nhị phân được sử dụng là các giá trị của các thuộc tính con thể hiện liệu một IG chứa những khoảng con này hay không Các kết quả của việc biểu diễn các IG bằng cách sử dụng các thuộc tính con có thể được tìm thấy trong Bảng 3 7 Thuộc tính gốc X1 được chia thành các thuộc tính con X11, X12,
X13; và thuộc tính X2 thành X21, X22, X23 Sau đó, hai hạt này được biểu diễn lại bằng cách thay các thuộc tính gốc bởi các thuộc tính con Bằng cách đưa ra khái niệm của các thuộc tính con, tri thức có thể được rút trích một cách dễ dàng từ các hạt thậm chí nếu tình trạng chồng chéo luôn tồn tại [10]
Bảng 3 7 Các IG được biểu diễn dưới dạng các thuộc tính con [10]
Trang 40Chương 3 Cơ sở lý thuyết
yêu cầu điều chỉnh kiến trúc tính toán của các thuật toán này Tuy nhiên, quá nhiều thuộc tính con có thể được sinh ra trong tình trạng chồng chéo tự nhiên mà các giá trị của các thuộc tính điều kiện là liên tục và gồm nhiều loại khác nhau Do đó, việc này thường thực hiện trong giai đoạn chuẩn bị dữ liệu của khai thác dữ liệu Dữ liệu được đề nghị rời rạc hoá trước khi thực thi một thuật toán nào đó để kiểm soát số lượng các thuộc tính con [10]
3.2.1.3 Thu nhận tri thức từ các hạt thông tin
Sau khi biểu diễn các IG và giải quyết tình huống chồng chéo giữa các IG, mô hình KAIG sử dụng các phương pháp tập thô, cây quyết định (C4.5), mạng neural
để rút trích các luật biểu diễn tri thức từ các IG này Lý thuyết tập thô là một công
cụ toán học hiệu quả trong khám phá tri thức Phương pháp tập thô được sử dụng trong bước này để loại bỏ bớt các thuộc tính con dư thừa, hỗ trợ việc rút trích tập luật quyết định
3.2.1.4 Kết quả thực nghiệm trên các tập dữ liệu
Các tập dữ liệu thực nghiệm được lấy từ kho dữ liệu máy học UCI Machine Learning Repository Trước khi thực thi, các tập dữ liệu được chia thành tập huấn luyện (train) và tập kiểm nghiệm (test) theo tỉ lệ 3:1 Trong bước thu nhận tri thức,
mô hình KAIG sử dụng các phương pháp tập thô, cây quyết định (C4.5), mạng neural (BP) nên kết quả khác nhau Bảng 3 8 thể hiện kết quả thực nghiệm của mô hình KAIG so với các phương pháp khác