ỨNG DỤNG PHƯƠNG PHÁP PHÂN lớp dữ LIỆU KHÔNG cân BẰNG dựa TRÊN TÍNH TOÁN hạt TRONG VIỆC dự đoán kết QUẢ THI TUYỂN SINH lớp 10 vào TRƯỜNG THPT CHUYÊN LONG AN (1)

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRƯƠNG THỊ TUYẾT HOA ỨNG DỤNG PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG DỰA TRÊN TÍNH TOÁN HẠT TRONG VIỆC DỰ ĐOÁN KẾT QUẢ TH

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TRƯƠNG THỊ TUYẾT HOA

ỨNG DỤNG PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG DỰA TRÊN TÍNH TOÁN HẠT TRONG VIỆC DỰ ĐOÁN KẾT QUẢ THI TUYỂN SINH LỚP 10 VÀO TRƯỜNG THPT CHUYÊN LONG AN

KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH

Mã số: 60.48.01

TP HỒ CHÍ MINH – Năm 2015

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TRƯƠNG THỊ TUYẾT HOA

ỨNG DỤNG PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG DỰA TRÊN TÍNH TOÁN HẠT TRONG VIỆC DỰ ĐOÁN KẾT QUẢ THI

TUYỂN SINH LỚP 10 VÀO TRƯỜNG THPT CHUYÊN LONG AN

KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH

Mã số: 60.48.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS NGUYỄN HOÀNG TÚ ANH

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan:

(1) Khóa luận này là sản phẩm nghiên cứu của riêng tôi;

(2) Các số liệu, kết quả được trình bày trong khóa luận là trung thực; (3) Tôi xin chịu trách nhiệm về nghiên cứu của mình

Học viên

Trương Thị Tuyết Hoa

Trang 4

MỤC LỤC

DANH MỤC CÁC CHỮ VIẾT TẮT 4

DANH MỤC CÁC BẢNG 5

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ 7

LỜI MỞ ĐẦU 8

CHƯƠNG 1 TỔNG QUAN VỀ KHÓA LUẬN 9

1 1 Giới thiệu 9

1 2 Phát biểu bài toán 9

1 3 Các thách thức 10

1 4 Mục tiêu, đối tượng và phạm vi nghiên cứu 10

1 4 1 Mục tiêu 10

1 4 2 Đối tượng 11

1 4 3 Phạm vi 11

1 5 Các đóng góp từ kết quả nghiên cứu của khóa luận 11

1 6 Bố cục của khóa luận 12

CHƯƠNG 2 TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG 14

2 2 Các hướng tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng 14

2 2 1 Các kỹ thuật lấy mẫu (sampling methods) [5] 14

2 2 2 Học toàn bộ (ensemble learning methods) 15

2 2 3 Học nhạy chi phí 17

2 2 4 Lựa chọn đặc trưng [5] 18

2 2 5 Phương pháp chỉnh sửa thuật toán: 18

2 3 Phương pháp dựa trên tính toán hạt 19

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT 21

3 1 Các lý thuyết liên quan trong phương pháp dựa trên tính toán hạt 21

Trang 5

3 1 1 Chuẩn hoá dữ liệu số 21

3 1 2 Rời rạc dữ liệu 21

3 1 3 Hạt thông tin 22

3 1 4 Tính toán hạt 22

3 1 5 Thuật toán gom cụm K-means trên tập dữ liệu hỗn hợp 23

3 1 6 Phân lớp dữ liệu (thu nhận tri thức) 28

3 1 7 Đánh chỉ số ngữ nghĩa tiềm ẩn 30

3 2 Các mô hình xử lí với dữ liệu không cân bằng dựa trên tính toán hạt 32

3 2 1 Mô hình thu nhận tri thức dựa trên tính toán hạt KAIG của Su và các đồng sự [10] 32

3 2 2 Mô hình phân lớp dữ liệu không cân bằng dựa trên tính toán hạt tổng quát của Chen và các đồng sự 39

3 2 3 Phương pháp phân lớp dựa trên tính toán hạt của Lại Đức Anh [1] 45

CHƯƠNG 4 MÔ HÌNH PHÂN LỚP DỰA TRÊN TÍNH TOÁN HẠT KHÓA LUẬN CÀI ĐẶT 50

4 2 Xây dựng các hạt thông tin theo từng lớp tách biệt 50

4 3 Biểu diễn hạt thông tin dưới dạng các thuộc tính con 51

4 4 Thực hiện phân lớp dữ liệu (thu thập tri thức) 52

4 5 Thuật toán do khóa luận đề xuất 52

4 6 Ví dụ minh họa 52

4 7 Nhận xét 64

CHƯƠNG 5 CÀI ĐẶT ỨNG DỤNG 66

5 1 Tổ chức dữ liệu 66

5 2 Các tập dữ liệu 66

5 3 Các độ đo đánh giá 67

5 4 Các phương pháp thực nghiệm 68

Trang 6

5 4 1 Môi trường cài đặt 68

5 4 2 Các phương pháp cài đặt 68

5 5 Các kết quả thực nghiệm 69

5 5 1 Độ chính xác 71

5 5 2 Thời gian tính toán 73

5 6 Chương trình dự đoán kết quả tuyển sinh lớp 10 vào trường THPT Chuyên Long An 74

5 6 1 Giao diện chương trình 74

5 6 2 Các chức năng của chương trình 74

CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76

6 1 Kết quả đạt được 76

6 2 Hướng phát triển 76

TÀI LIỆU THAM KHẢO 78

Trang 7

DANH MỤC CÁC CHỮ VIẾT TẮT

GrC Tính toán hạt (Granular Computing)

IG Hạt thông tin (information granule)

KLSI Tham số K dùng trong LSI

KK-Means Tham số K dùng trong thuật toán K-Means

LSI Đánh chỉ số ngữ nghĩa tiềm ẩn (Latent Semantic

Indexing) SVD Phân tích giá trị riêng (Singular value decomposition) SVM Máy hỗ trợ vector (Support Vector Machine)

THCS Trung học cơ sở

Trang 8

DANH MỤC CÁC BẢNG

Bảng 3 1 Tập dữ liệu tuyển sinh 25

Bảng 3 2 Tập dữ liệu tuyển sinh sau khi được rời rạc 25

Bảng 3 3.Bảng xác suất có điều kiện 25

Bảng 3 4 Ví dụ của hạt thông tin 34

Bảng 3 5.Hạt thông tin không thể phân biệt 34

Bảng 3 6 Hai IG được biểu diễn dưới hình thức hyperbox [10] 35

Bảng 3 7 Các IG được biểu diễn dưới dạng các thuộc tính con [10] 36

Bảng 3 8 Kết quả thực nghiệm của mô hình KAIG [10] 38

Bảng 3 9 Kết quả thực nghiệm của Chen và các đồng sự [6] 44

Bảng 3 10 Biểu diễn IG đưới dạng thuộc tính con cho dữ liệu số [1] 46

Bảng 3 11 Biểu diễn IG dưới dạng thuộc tính con cho dữ liệu định danh [1] 47

Bảng 3 12 Kết quả thực nghiệm của Lại Đức Anh [1] 48

Bảng 4 1 Rời rạc các giá trị điểm số thành 10 khoảng 51

Bảng 4 2 Tập dữ liệu ban đầu 53

Bảng 4 3 Tập dữ liệu huấn luyện 53

Bảng 4 4 Tập dữ liệu dùng để kiểm nghiệm 54

Bảng 4 5 Dữ liệu (số) được rời rạc hoá với 10 khoảng bằng nhau 54

Bảng 4 6 Các IG được xây dựng lần 1 55

Bảng 4 7 Biểu diễn các IG được xây dựng lần 1 dưới dạng các thuộc tính con đối với hai thuộc tính điểm Toán và điểm Lý 55

Bảng 4 8 Biểu diễn các IG được xây dựng lần 1 dưới dạng các thuộc tính con đối với hai thuộc tính điểm Hóa và điểm Sinh 55

Bảng 4 9 Biểu diễn các IG được xây dựng lần 1 dưới dạng các thuộc tính con đối với hai thuộc tính điểm Văn và điểm Sử 56

Bảng 4 10 Biểu diễn các IG được xây dựng lần 1 dưới dạng các thuộc tính con đối với hai thuộc tính điểm Địa và điểm Anh văn 56

Bảng 4 11 Biểu diễn các IG được xây dựng lần 1 dưới dạng các thuộc tính con đối với hai thuộc tính Giới tính và nơi học THCS 56

Bảng 4 12 Kết quả phân lớp cho các mẫu tập thử nghiệm lần 1 58

Trang 9

Bảng 4 14 Các IG được xây dựng lần 2 59

Bảng 4 15 Biểu diễn các IG được xây dựng lần 2 dưới dạng các thuộc tính con đối với thuộc tính điểm Toán và điểm Lý 60

Bảng 4 16 Biểu diễn các IG được xây dựng lần 2 dưới dạng các thuộc tính con đối với thuộc tính điểm Hóa và điểm Sinh 60

Bảng 4 17 Biểu diễn các IG được xây dựng lần 2 dưới dạng các thuộc tính con đối với thuộc tính điểm Văn và điểm Sử 60

Bảng 4 18 Biểu diễn các IG được xây dựng lần 2 dưới dạng các thuộc tính con đối với thuộc tính điểm Địa và điểm Anh văn 60

Bảng 4 19 Biểu diễn các IG được xây dựng lần 2 dưới dạng các thuộc tính con đối với thuộc tính Giới tính và nơi học THCS 61

Bảng 5 1 Chi tiết các tập dữ liệu 66

Bảng 5 2 Sự khác nhau giữa 5 phương pháp 69

Bảng 5 3 Ngưỡng H-index, U-ratio để xây dựng các IG và các tham số thiết đặt cho mạng neural ứng với từng tập dữ liệu 70

Bảng 5 4 Tham số của bộ phân lớp SVM và số lượng IG ở mỗi lớp tương ứng với từng tập dữ liệu 70

Bảng 5 5 Độ chính xác của các tập dữ liệu 71

Bảng 5 6 Thời gian tính toán trung bình của 5 phương pháp trên các tập dữ liệu 73

Trang 10

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

Hình 3 1.Minh họa phân tích giá trị riêng của ma trận A [6], [7] 32

Hình 3 2 Mô hình thu nhận tri thức dựa trên tính toán hạt KAIG [10] 33

Hình 3 3.Tình huống chồng chéo giữa hai IG A và B [9] 36

Hình 3 4 Ba bước của quá trình thu nhận tri thức từ các hạt thông tin [6] 39

Hình 3 5.Mô tả IG: Khái niệm “thuộc tính con” dùng cho thuộc tính số Xi [6] 40

Hình 3 6 Cấu trúc mạng neural truyền thẳng [6] 40

Hình 3 7.Sơ đồ thuật toán của Chen và các đồng sự [6] 42

Hình 3 8 Mô tả IG dưới dạng thuộc tính con, (a) dùng cho thuộc tính số Xi đã được rời rạc (10 giá trị rời rạc), (b) dùng cho thuộc tính định danh Xj (8 giá trị rời rạc) [1] 46

Hình 5 1 Sự phân bố các mẫu thuộc lớp Đậu và lớp Không đậu tương ứng từng tập dữ liệu 67

Hình 5 2 Biểu đồ độ chính xác của tập dữ liệu môn Hóa 71

Hình 5 3 Biểu đồ độ chính xác của tập dữ liệu môn Tiếng Anh 72

Hình 5 4 Biểu đồ độ chính xác của tập dữ liệu môn Toán 72

Hình 5 5 Thời gian tính toán trung bình của năm phương pháp với các tập dữ liệu 73

Hình 5 6 Giao diện chương trình 74

Hình 5 7 Kết quả dự đoán dựa vào thông tin nhập vào từ giao diện chương trình 75

Hình 5 8 Kết quả dự đoán dựa vào thông tin nhập vào từ file 75

Trang 11

LỜI MỞ ĐẦU

Hiện nay, các thành tựu của tin học được áp dụng ở hầu hết các lĩnh vực của

xã hội và đem lại nhiều hiệu quả to lớn Mục tiêu của tin học là khai thác thông tin hiệu quả nhất phục vụ cho mọi mặt hoạt động của con người Trong các tập dữ liệu, ngoài những thông tin rõ ràng, cũng tiềm tàng những thông tin có giá trị ẩn bên trong Một số tập dữ liệu có tỉ lệ phân bố các mẫu ở các lớp chênh lệnh, đôi khi chênh lệch này rất lớn Trên thực tế, các tập dữ liệu không cân bằng như vậy rất phổ biến như việc chuẩn đoán bệnh, rủi ro tài chính, trong đó, lớp thiểu số thường là lớp quan trọng Thế nên, nhiều nhà khoa học đã nghiên cứu, cải tiến các phương pháp

đã có hoặc đề xuất phương pháp mới để xử lý những tập dữ liệu không cân bằng với

độ chính xác cao và rút ngắn thời gian thực thi giúp giải quyết được nhiều vấn đề thực tế Năm 1979, Zadeh đã đề xuất thuật ngữ “chia nhỏ thông tin”, đặt nền tảng cho sự ra đời của phương pháp phân lớp dữ liệu dựa trên tính toán hạt Cho đến nay, khai phá dữ liệu dựa trên tính toán hạt ngày càng được nghiên cứu, phát triển và đạt được những thành tựu đáng kể trong các lĩnh vực như ứng dụng tính toán hạt vào dự đoán lỗi hệ thống truyền lực của máy bay trực thăng [11],dự đoán thị trường chứng khoán [12], Su và các đồng sự áp dụng vào quá trình kiểm tra sản phẩm điện thoại

di động khi thực hiện sản xuất đạt được những kết quả khả quan [9] Do đó, mục tiêu của khóa luận là nghiên cứu mô hình tính toán hạt, ứng dụng phương pháp phân lớp dữ liệu không cân bằng dựa trên tính toán hạt trong việc đoán kết quả thi tuyển sinh lớp 10 vào trường THPT Chuyên Long An

Trang 12

Chương 1 Tổng quan về khóa luận

CHƯƠNG 1 TỔNG QUAN VỀ KHÓA LUẬN

1 1 Giới thiệu

Trường THPT Chuyên Long An được thành lập năm 2009 Từ ngày thành lập đến nay, trường không ngừng phát triển và trở thành một trong những trường trọng điểm của tỉnh Long An Năm học 2013- 2014, trường có điểm thi đại học với mức trung bình là 21,5 xếp hạng thứ 10 toàn quốc Do đó, kỳ thi tuyển sinh vào lớp 10 hằng năm của trường được rất nhiều phụ huynh, học sinh quan tâm Đặc biệt là giáo viên chủ nhiệm lớp 9 ở các trường trung học cơ sở trong tỉnh, ngoài việc đôn đốc, kèm cặp học sinh ôn thi còn phải theo sát lớp để nắm bắt tâm tư nguyện vọng của các em nhằm phục vụ cho quá trình tư vấn tuyển sinh vào lớp 10 Học sinh vừa phải chịu áp lực của việc ôn tập kiến thức còn đối mặt với vấn đề chọn lớp học phù hợp với năng lực, sở thích đồng thời phải đạt được kết quả tốt trong kỳ thi quan trọng này Bộ phận phụ trách công tác tuyển sinh của trường THPT Chuyên Long An phối hợp với phụ huynh tư vấn, định hướng chọn lớp học cho học sinh để các em hiểu biết và chọn đúng nguyện vọng khi tham gia tuyển sinh, tránh tình trạng chọn nhằm lớp do ảo tưởng về năng lực, giúp học sinh ổn định về mặt tâm lý, chuẩn bị tâm thế sẵn sàng bước vào kì thi, góp phần nâng cao chất lượng của kì tuyển sinh

Từ đó cho thấy, giáo viên, phụ huynh, học sinh cần có công cụ mang tính khoa học

để làm cơ sở tham khảo trong việc định hướng lựa chọn lớp học phù hợp với năng lực học tập của học sinh

Xuất phát từ nhu cầu thực tế này, khóa luận xây dựng ứng dụng dự đoán kết quả tuyển sinh vào lớp 10 trường THPT Chuyên Long An, nhằm góp thêm một giải pháp giúp học sinh chọn đúng lớp học theo năng lực, giảm bớt áp lực thi cử, đồng thời hỗ trợ công tác tuyển sinh của trường

1 2 Phát biểu bài toán

Xây dựng ứng dụng dự đoán kết quả tuyển sinh lớp 10 vào trường THPT Chuyên Long An

Trang 13

Đầu vào của bài toán (input): Thông tin của học sinh gồm giới tính, nơi học sinh học trung học cơ sở (huyện/thành phố), môn chuyên đăng ký thi, điểm Toán, điểm

Lý, điểm Hoá, điểm Sinh, điểm Văn, điểm Sử, điểm Địa, điểm Anh Văn ở năm học lớp 9

Đầu ra của bài toán (output): Kết quả thi của học sinh : Đậu hoặc Không đậu (tương ứng với giá trị rời rạc 1 hoặc 2)

1 3 Các thách thức

 Tập dữ liệu của trường THPT Chuyên Long An với các mẫu có thuộc tính quyết định mang giá trị Đậu chiếm tỉ lệ phân bố thấp so với các mẫu có thuộc tính quyết định mang giá trị Không đậu, điều này khiến cho các bộ phân lớp có

xu hướng phân lớp tất cả dữ liệu vào lớp đa số, đưa ra độ chính xác đự đoán cao cho lớp đa số nhưng lại đưa ra độ chính xác dự đoán thấp cho lớp thiểu số

 Số lượng dữ liệu mẫu không nhiều ở môn Hoá, môn Tiếng Anh dẫn đến thiếu thông tin để tổng quát hóa về phân bố của các mẫu

 Các miền dữ liệu của một số thuộc tính ở lớp Đậu và lớp Không đậu tương tự nhau, gây khó khăn cho việc phân biệt giữa hai lớp

 Khi thay đổi tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm có thể làm sai lệch kết quả phân lớp trong trường hợp dữ liệu huấn luyện và thử nghiệm có phân bố khác nhau

1 4 Mục tiêu, đối tượng và phạm vi nghiên cứu

dữ liệu, mạng neural, bộ phân lớp SVM

Xây dựng ứng dụng dự đoán kết quả thi tuyển sinh lớp 10 vào trường THPT Chuyên Long An

Trang 14

1 4 3 Phạm vi

Phạm vi nghiên cứu của khoá luận là mô hình tính toán hạt giải quyết bài toán phân lớp dữ liệu không cân bằng của Lại Đức Anh, Su, Chen và các đồng sự và các

lý thuyết cơ bản liên quan đến các mô hình này

Dữ liệu tại trường THPT Chuyên Long An

1 5 Các đóng góp từ kết quả nghiên cứu của khóa luận

Đối với giáo dục, khóa luận đã góp một công cụ mang tính khoa học để làm cơ

sở tham khảo trong việc định hướng lựa chọn lớp học phù hợp với năng lực học tập của học sinh, thúc đẩy nhu cầu ứng dụng công nghệ thông tin vào các hoạt động của trường học

Bên cạnh việc nghiên cứu xây dựng ứng dụng đáp ứng nhu cầu thực tiễn, khóa luận có những đóng góp đề xuất mới về mặt kỹ thuật so với các phương pháp trước:

 Su và các đồng sự đã áp dụng tính toán hạt vào quá trình kiểm tra sản phẩm điện thoại di động [9], và đã đề xuất mô hình thu được tri thức qua việc chia nhỏ thông tin (KAIG) [10] giải quyết một cách hiệu quả các vấn đề phân lớp dữ liệu không cân bằng Chen và các đồng sự [6] đề xuất mô hình tổng quát giải quyết vấn đề phân lớp dữ liệu không cân bằng gồm ba bước: xây dựng IG (Information Granule), biểu diễn IG và thu nhận tri thức từ các IG Ba phương pháp gồm cây quyết định, tập thô và mạng neural với thuật toán lan truyền ngược được áp dụng để chọn các đặc trưng và rút trích tri thức từ các IG cho mục tiêu phân lớp [6], [9], [10] Khóa luận bổ sung thêm phương pháp sử dụng bộ phân lớp SVM cho mục tiêu phân lớp

Trang 15

và so sánh hiệu quả phân lớp với phương pháp sử dụng mạng neural trên bộ dữ liệu thực tế

 Lại Đức Anh đưa ra kỹ thuật rời rạc với các khoảng bằng nhau cho việc rời rạc các giá trị liên tục, chỉ xét sự xuất hiện của các giá trị định danh (bao gồm cả các giá trị số đã được rời rạc trong mỗi IG) khi biểu diễn các IG dưới dạng các thuộc tính con để giảm thời gian tính toán [1] Tuy nhiên, phương pháp này cũng có nhược điểm là giá trị nhỏ nhất và giá trị lớn nhất của từng thuộc tính ứng với từng IG sẽ được rời rạc một cách cố định thành các giá trị lớn hơn hoặc nhỏ hơn gây ảnh hưởng rất lớn trong việc huấn luyện và kiểm thử về sau Do đó, dựa trên bộ dữ liệu thực tế, khóa luận đưa ra cách rời rạc các giá trị liên tục mà không phải chuẩn hóa

dữ liệu trước, điều này làm giảm số lượng phép tính đồng thời khắc phục được nhược điểm đã nêu trên

 Khóa luận cũng tiến hành cài đặt và so sánh hiệu quả giải quyết bài toán của phương pháp do khóa luận đề xuất với phương pháp của Chen và các đồng sự, phương pháp của Lại Đức Anh, phương pháp Oversampling dữ liệu, phương pháp của Chen và các đồng sự, trong đó thay thế việc sử dụng mạng neural bằng việc sử dụng bộ phân lớp SVM để phân lớp

1 6 Bố cục của khóa luận

Khóa luận được trình bày theo bố cục sau:

Chương 1: Giới thiệu tổng quan về khóa luận bao gồm lý do chọn đề tài, phát biểu bài toán và các thách thức bài toán đặt ra Trình bày mục tiêu, đối tượng, phạm

vi nghiên cứu và các đóng góp từ kết quả nghiên cứu của đề tài

Chương 2: Giới thiệu tổng quan về phân lớp dữ liệu không cân bằng, trình bày các hướng tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng

Chương 3: Trình bày cơ sở lý thuyết của khóa luận liên quan trong phương pháp dựa trên tính toán hạt và các mô hình xử lí dữ liệu không cân bằng dựa trên tính toán hạt

Chương 4: Đề xuất mô hình phân lớp dựa trên tính toán hạt khóa luận cài đặt

Trang 16

Chương 5: Xây dựng ứng dụng là chương trình dự đoán kết quả tuyển sinh lớp

10 vào trường THPT Chuyên Long An, tiến hành thực nghiệm, so sánh và đánh giá kết quả mới với các phương pháp cũ trên các mẫu dữ liệu cụ thể

Chương 6: Tổng kết những kết quả đạt được, những đóng góp mới và đề xuất hướng phát triển của đề tài trong tương lai

Trang 17

Chương 2 Tổng quan về phân lớp dữ liệu không cân bằng

CHƯƠNG 2 TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG

2 1 Giới thiệu

Phân lớp dữ liệu không cân bằng là một trong 10 vấn đề khó đang được cộng đồng máy học và khai thác dữ liệu quan tâm Vấn đề không cân bằng lớp thường xảy ra với bài toán phân lớp nhị phân (chỉ có 2 lớp) mà ở đó một lớp mà người ta quan tâm chiếm tỉ lệ rất nhỏ so với lớp còn lại Trong nhiều ứng dụng thực tế, chẳng hạn như phát hiện các giao dịch gian lận, phát hiện xâm nhập mạng, sự rủi ro trong quản lý, phân loại văn bản hay chẩn đoán trong y học Sự không cân bằng lớp làm ảnh hưởng rất lớn đến hiệu quả của các mô hình phân loại Ví dụ, trong cơ sở dữ liệu y học, khi phân loại các pixels trong các ảnh phim chụp tia X có bị ung thư hay không, những pixels không bình thường (ung thư) chỉ chiếm một phần rất nhỏ trong toàn bộ ảnh Với các tập dữ liệu của các bài toán phân lớp như vậy sẽ làm cho các

mô hình học phân lớp gặp rất nhiều khó khăn trong dự báo cho dữ liệu lớp thiểu số Hầu hết giải thuật học như cây quyết định C4.5, CART, SVM đều được thiết kế để cho độ chính xác tổng thể, không quan tâm đến bất kỳ lớp nào Chính vì lý do này, cộng đồng máy học cũng đã tập trung để giải quyết vấn đề phân lớp dữ liệu không cân bằng, thể hiện qua các công trình nghiên cứu được công bố ở các cuộc hội thảo khoa học

2 2 Các hướng tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng

Theo [5], các tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng được chia làm các nhóm: Các kỹ thuật lấy mẫu, phương pháp học toàn bộ, phương pháp học nhạy chi phí, phương pháp lựa chọn đặc trưng và phương pháp chỉnh sửa thuật toán

2 2 1 Các kỹ thuật lấy mẫu (sampling methods) [5]

Phương pháp lấy mẫu cơ bản: Hai phương pháp được sử dụng phổ biến là undersampling và oversampling

Trang 18

- Undersampling: Phương pháp này cân bằng sự phân bố mẫu ở các lớp bằng cách loại bỏ các mẫu ở lớp đa số

- Oversampling: Phương pháp này làm tăng tỷ lệ của lớp thiểu số bằng cách tạo

ra các mẫu trùng lắp ở lớp thiểu số

Các phương pháp lấy mẫu nâng cao:

- Phương pháp Tomek Link (viết tắt là Tlink): Thuật toán TLink như sau:

o Lấy hai mẫu x, y ở hai lớp khác nhau

o Khoảng cách giữa hai mẫu này kí hiệu là d(x,y)

o Cặp (x,y) được gọi là Tlink nếu không tồn tại mẫu z sao cho d(x,z)<d(x,y) hay d(y,z)<d(x,y)

Trong undersampling dữ liệu, nếu hai mẫu là Tlink thì mẫu ở lớp đa số sẽ

bị loại bỏ

- Phương pháp SMOTE (Synthetic Minority Oversampling Technique): SMOTE là phương pháp nâng cao của Oversampling Phương pháp này tạo ra các mẫu ở lớp thiểu số mới bằng cách nội suy nhiều mẫu lớp thiểu số Thuật toán như sau:

o Đối với mỗi mẫu x thuộc lớp thiểu số, xác định k láng giềng gần nhất của

Nhận xét: Undersampling có thể loại bỏ dữ liệu có ích tiềm tàng, có khả năng là

dữ liệu quan trọng trong quá trình huấn luyện mẫu Oversampling làm gia tăng kích thước của tập mẫu nên sẽ tốn thời gian huấn luyện mẫu

2 2 2 Học toàn bộ (ensemble learning methods)

2.2.2.1.Bagging (đóng gói) [5]

Bagging tạo ra N tập huấn luyện được chọn có lặp từ tập dữ liệu huấn luyện ban đầu Trong đó các mẫu huấn luyện có thể được chọn hơn một lần hoặc không được

Trang 19

máy Lb để sinh ra M bộ phân lớp cơ bản hm Khi có một mẫu phân lớp mới, kết quả của bộ kết hợp sẽ là kết quả nhận được nhiều nhất khi chạy M bộ phân lớp cơ bản Trong trường hợp dữ liệu không cân bằng, các tập dữ liệu huấn luyện mới được tạo

ra bằng việc lặp lại kỹ thuật lấy mẫu trên tập dữ liệu huấn luyện hoặc gán trọng số cho các mẫu như một vài phương pháp sau:

- Asymmetric Bagging: trong mỗi lần lặp, tập dữ liệu huấn luyện được tạo ra theo cách là toàn bộ mẫu lớp thiểu số được giữ nguyên, lớp đa số được lấy bằng số lượng mẫu của lớp thiểu số

- Over Bagging: Áp dụng oversampling ngẫu nhiên đối với lớp thiểu số trong mỗi lần lặp

- Under Bagging: Áp dụng undersampling ngẫu nhiên đối với lớp đa số trong mỗi lần lặp

- Roughly balanced bagging: gán trọng số cho các mẫu để cân bằng các lớp trong mỗi lần lặp

Nhận xét: Trong vẫn đề giải quyết trường hợp dữ liệu không cân bằng, phương pháp này vẫn gặp hạn chế của các kỹ thuật lấy mẫu và việc xác định trọng số của các mẫu

2.2.2.3.Thuật toán rừng ngẫu nhiên (Random Forest) [3]

Random Forest (RF) (được Breiman đề xuất) là thuật toán được xây dựng trên nền tảng thuật toán cây quyết định, sử dụng kỹ thuật bagging Kỹ thuật này cho phép lựa chọn một nhóm nhỏ các thuộc tính tại mỗi nút của cây để phân chia cho

Trang 20

mức tiếp theo của cây phân lớp Bằng cách chia nhỏ không gian tìm kiếm thành các cây nhỏ hơn như vậy cho phép thuật toán có thể phân loại một cách rất nhanh chóng cho dù không gian thuộc tính rất lớn Các tham số đầu vào của thuật toán khá đơn giản bao gồm số các thuộc tính được chọn trong mỗi lần phân chia (mtry) Giá trị mặc định của tham số này là căn bậc hai của p với p là số lượng các thuộc tính Tương tự như thuật toán CART, RF vẫn sử dụng công thức Gini là công thức tính toán việc phân chia cây Số lượng cây được tạo ra là không hạn chế và cũng không

sự dụng bất kỳ kỹ thuật để hạn chế mở rộng cây Chúng ta phải lựa chọn tham số cho biết số lượng cây (ntree) sẽ được sinh ra sao cho đảm bảo rằng sẽ mỗi một thuộc tính sẽ được kiểm tra một vài lần Thuật toán sử dụng kỹ thuật OOB (out-of -bag) để xây dựng tập huấn luyện và phương pháp kiểm tra trên nó

Chen và các đồng sự đã đề xuất hai phương pháp để thuật toán rừng ngẫu nhiên phù hợp hơn trên tập dữ liệu không cân bằng cao là Balanced Random Forest và Weighted Random Forest

Nhận xét: Thuật toán rừng ngẫu nhiên cho kết quả tốt trên dữ liệu có số chiều vừa phải và giảm đáng kể hiệu quả khi xử lý bài toán có số chiều cao, nhiều nhiễu, dung lượng mẫu ít do trong quá trình xây dựng cây quyết định, tại mỗi nút, RF dùng phương pháp chọn ngẫu nhiên một tập con thuộc tính từ tập thuộc tính ban đầu để tìm thuộc tính phân hoạch tốt nhất phân tách nút Do đó, RF có thể lựa chọn ngẫu nhiên nhiều nhiễu vào không gian con thuộc tính dùng cho việc tách nút khi dựng cây, nên khả năng dự đoán của RF giảm sút

Ling và Sheng chia phương pháp học nhạy chi phí thành hai loại [5]:

- Direct Cost-sensitive learning method: sử dụng trực tiếp chi phí trong thuật toán học

Trang 21

- Methods for cost-sensitive meta-learning: phương pháp này biến đổi các bộ phân lớp không nhạy chi phí thành một bộ phân lớp nhạy chi phí Phương pháp này được chia thành hai loại: phương pháp ngưỡng và phương pháp lấy mẫu

+ Phương pháp ngưỡng: MetCost là thuật toán tiêu biểu cho phương pháp này với ý tưởng là cực tiểu hoá chi phí tổng thể

+ Phương pháp lấy mẫu: trong phương pháp này, đầu tiên áp dụng kỹ thuật lấy mẫu làm thay đổi phân bố lớp trên tập dữ liệu huấn luyện, sau đó áp dụng trực tiếp bộ phân lớp không nhạy chi phí lên tập dữ liệu mới này Hai phương pháp chính trong nhóm này là Costing và Weighting

Nhận xét: Trong phương pháp học này, các mẫu từ các lớp khác nhau không được đối xử như nhau Do đó, các thuật toán nhạy chi phí phải xác định các khoản chi phí để đưa vào công thức cập nhật trọng số

2 2 4 Lựa chọn đặc trưng [5]

Phương pháp lựa chọn đặc trưng là một phương pháp tìm ra một tập các thuộc tính từ M tập thuộc tính của tập dữ liệu ban đầu Phương pháp này thường dùng trong trường hợp bùng nỗ tập dữ liệu lớn, đặc biệt là trong trường hợp tập dữ liệu nhiều chiều Trên tập dữ liệu không cân bằng, phương pháp lựa chọn đặc trưng được áp dụng để lựa chọn các thuộc tính gây ra sự khác biệt lớn giữa các lớp Như vậy phương pháp phải tốn thời gian cho quá trình tìm kiếm tập thuộc tính con tốt nhất

Phương pháp Warpper là một trong các phương pháp lựa chọn đặc trưng rời rạc

áp dụng trên tập dữ liệu không cân bằng được đề xuất bởi Kohavi Một tập con của các đặc trưng có độ chính xác của kết quả tốt nhất sẽ được sử dụng để xây dựng bộ phân lớp trên toàn tập dữ liệu huấn luyện

Lựa chọn đặc trưng còn được dùng kết hợp với các phương pháp học toàn bộ, đặc biệt trong dự đoán rủi ro như phương pháp PREE (Prediction Risk based feature selection for Easy Ensemble)

2 2 5 Phương pháp chỉnh sửa thuật toán:

Đây là phương pháp hiệu quả ngay cả khi kích thước tập dữ liệu nhỏ Mục đích của phương pháp chỉnh sửa thuật toán là để làm cho thuật toán học (cây quyết định,

Trang 22

hồi quy, phân tích nhân tố, ) phù hợp với tình huống dữ liệu không cân bằng Phương pháp này chủ yếu áp dụng trong thuật toán cây quyết định và SVM [5]

2 3 Phương pháp dựa trên tính toán hạt

Tính toán hạt là phương pháp mới nổi trong tiếp cận mức thuật toán để phân lớp

dữ liệu không cân bằng Phương pháp này thuộc hướng tiếp cận chỉnh sửa, đề xuất thuật toán mới Do đó, phương pháp này hiệu quả trên tập dữ liệu có kích thước nhỏ Hạt thông tin được hiểu như là các lớp, các cụm, các tập con, các nhóm và các khoảng, là các tập hợp của các đối tượng được sắp xếp với nhau dựa trên sự tương

tự của chúng, sự gần kề chức năng, và tính không thể phân biệt [13]

Theo [9], các tác giả cho rằng nếu gom các mẫu tương tự nhau vào các cụm thì một lượng lớn dữ liệu sẽ chuyển thành một vài cụm, như vậy có thể giảm sự chênh lệnh giữa các mẫu ở lớp đa số và lớp thiểu số Một ví dụ để minh họa cho quan điểm này được đưa ra trong [10] là: tất cả gia đình hạnh phúc thì giống nhau còn bất hạnh thì mỗi nhà mỗi khác Vì vậy có thể xem các mẫu thuộc lớp đa số là giống nhau trong khi các mẫu thuộc lớp thiểu số là khác nhau Sau khi gom cụm ở lớp đa

số, số lượng cụm ở lớp này ít hơn nhiều so với số lượng các mẫu Nếu chúng ta xem xét các cụm thay cho việc xét các mẫu sẽ làm giảm sự chênh lệnh giữa lớp đa số và lớp thiểu số, do đó giải quyết được vấn đề mất cân bằng dữ liệu [10]

Đối với tập dữ liệu khóa luận thực nghiệm: Giá trị các thuộc tính số của mẫu ở lớp thiểu số (lớp Kết quả Đậu) tập trung trong khoảng giá trị từ 7.5 đến 10 Giá trị các thuộc tính số của mẫu ở lớp đa số (lớp Kết quả Không đậu) tập trung trong khoảng giá trị từ 7.0 đến 10 Thuộc tính huyện tập trung ở một vài huyện như Bến Lức, Cần Đước, Châu Thành, Tân Trụ, Thủ Thừa, thành phố Tân An Việc gom các mẫu thuộc cùng một lớp và có giá trị thuộc tính gần nhau hoặc tương tự nhau vào một cụm sẽ làm giảm sự chênh lệnh về số cụm giữa 2 lớp, mỗi cụm trở thành một mẫu mới nên sẽ cải thiện tình trạng không cân bằng của dữ liệu Việc phân lớp được tiến hành trên các cụm do đó cũng làm giảm kích thước tập huấn luyện

Tiếp cận dựa trên tính toán hạt giúp tăng hiệu suất phân lớp và cải tiến tình trạng không cân bằng lớp, phù hợp với xử lý các thông tin mơ hồ, không rõ ràng, không

Trang 23

đầy đủ [6] Các mô hình này sử dụng khái niệm các thuộc tính con để biểu diễn các hạt thông tin đồng thời để giải quyết tình trạng chồng chéo giữa các IG

Như vậy, các thách thức của bài toán khóa luận đặt ra ở chương trước cơ bản đã được giải quyết Do đó, hướng nghiên cứu phương pháp tính toán hạt được khóa luận chọn để xây dựng ứng dụng

Trang 24

Chương 3 Cơ sở lý thuyết

CHƯƠNG 3

CƠ SỞ LÝ THUYẾT

3 1 Các lý thuyết liên quan trong phương pháp dựa trên tính toán hạt

3 1 1 Chuẩn hoá dữ liệu số

Mỗi thuộc tính số có phạm vi giá trị khác nhau, có thể ảnh hưởng đến việc so sánh, đánh giá và tính toán hàm khoảng cách Việc chuẩn hoá các thuộc tính số nhằm mục đích đưa các thuộc tính số về cùng một miền giá trị như nhau Có hai chiến lược dùng để chuẩn hoá dữ liệu số: chuẩn hoá về một miền giá trị cố định từ 0 đến 1 và chuẩn hoá theo thống kê cho ra tập các giá trị mà trung bình của chúng là 0

và độ lệnh chuẩn là 1

Dữ liệu được chuẩn hoá về [0,1] giúp đưa các miền giá trị của các thuộc tính khác nhau về một miền giá trị giống nhau để thực hiện tính khoảng cách Việc chuẩn hoá này được thực hiện theo công thức:

dik=(xik-xi,min)/(xi,max-xi,min) (3.1) Trong đó:

xik là giá trị của dòng thứ k, thuộc tính thứ i;

xi,min là giới hạn dưới của các giá trị thuộc tính thứ i;

xi,max là giới hạn trên của các giá trị thuộc tính thứ i;

dik là giá trị sau khi được chuẩn hoá [4]

Dữ liệu có thứ tự cũng được chuẩn hoá theo công thức này

3 1 2 Rời rạc dữ liệu

Các thuộc tính có các kiểu dữ liệu khác nhau, có thể chia thành hai loại: dữ liệu liên tục (dữ liệu số) và dữ liệu rời rạc (định danh) Để xử lý các tập dữ liệu chứa các thuộc tính có kiểu dữ liệu hỗn hợp, cộng đồng khai thác dữ liệu đã đề xuất các chiến lược sau [4]:

(1) Các giá trị định danh được biến đổi thành các giá trị số nguyên và sau đó áp dụng các phương pháp xử lý dữ liệu số cho tất cả các thuộc tính Tuy nhiên, rất khó

để cho các giá trị số đúng với các giá trị định danh

Trang 25

(2) Một tiếp cận khác là rời rạc hoá các thuộc tính số và áp dụng thuật toán xử lý dữ liệu định danh cho tất cả các thuộc tính Nhưng quá trình rời rạc hoá dẫn đến mất thông tin

3 1 3 Hạt thông tin

Hạt thông tin được hiểu là các lớp, các cụm, các tập con, các nhóm và các khoảng [13] Các hạt được tạo bởi sự giống nhau của các đối tượng, do đó, các đối tượng trong cùng hạt sẽ có cùng lớp [10] Quá trình xây dựng các hạt thông tin được nói đến như là việc chia nhỏ thông tin Điều này được chỉ ra trong công trình của Zadeh (1979), người đã đặt ra thuật ngữ “chia nhỏ thông tin”

Việc chia nhỏ thông tin là cần thiết để nhận thức thấu đáo vấn đề và có hiểu biết sâu sắc hơn vào bản chất của nó, hơn là bị vùi lấp vào những chi tiết không cần thiết Chúng ta xem xét hạt thông tin thay cho dữ liệu số có thể cải tiến tình trạng không cân bằng của dữ liệu [10]

3 1 4 Tính toán hạt

Năm 1997, Lin đặt ra thuật ngữ “Tính toán hạt” và tích hợp nó vào lý thuyết tập thô, lý thuyết từ, lý thuyết không gian thương, [11]

Tính toán hạt được định nghĩa trong tài liệu của hội nghị IEEE – GrC năm 2013,

là lý thuyết tính toán tổng quan cho việc sử dụng có hiệu quả các hạt để xây dựng

mô hình tính toán hiệu suất cao cho các ứng dụng phức tạp với số lượng lớn dữ liệu, thông tin và tri thức [13]

Gần đây, tính toán hạt nhanh chóng trở thành khái niệm đang nổi và trở thành

mô hình tính toán mẫu của việc xử lý thông tin, cụ thể trong tính toán mềm GrC hướng đến việc biểu diễn và xử lý các IG Nó là hướng mới của trí tuệ nhân tạo [6] Castellano và Fanelli chỉ ra rằng vấn đề chính của tính toán hạt là cách để xây dựng IG và cách để mô tả IG [6] Có nhiều phương pháp được đề xuất để xây dựng

IG như mạng neural tự tổ chức (SOM), Fuzzy C-means (FCM), tập thô, tập bị che bóng [6] Trong vấn đề mô tả IG, Bargiela và Pedrycz dùng hyperbox, Su và các đồng sự biểu diễn thuộc tính con để mô tả IG

Trang 26

3 1 5 Thuật toán gom cụm K-means trên tập dữ liệu hỗn hợp

K-means là một trong số những thuật toán phân cụm dựa trên phương pháp phân vùng Với k cho trước, chính là số lượng các phân vùng cần xây dựng, thuật toán tạo ra k phân vùng đầu tiên Sau đó sử dụng một kỹ thuật xác định nhóm cho các đối tượng lặp đi lặp lại, các đối tượng được di chuyển từ nhóm này sang nhóm khác đến khi đạt được tối ưu Các tiêu chí chung của một phân vùng tốt là các đối tượng trong cùng một cụm có liên quan đến nhau hay khá tương đồng nhau, trong khi các đối tượng khác nhau thì khác nhau

3.1.5.1 Thuật toán K-means được đề xuất trong [4]

Khởi tạo – Phân phối các đối tượng dữ liệu vào k (xác định trước) cụm một cách ngẫu nhiên

- Với mỗi thuộc tính categorical: Tính khoảng cách (r,s) giữa hai giá trị categorical r và s

- Với mỗi thuộc tính số: Tính độ quan trọng của thuộc tính

- Gán các đối tượng dữ liệu đến các cụm khác nhau một cách ngẫu nhiên Lặp bước 1-2

 𝑣 𝑑𝑖, 𝐶𝑗 là khoảng cách giữa đối tượng dữ liệu di và tâm cụm gần nhất Cj của nó;

 𝑚𝑟 (𝑤𝑡(𝑑𝑖𝑡𝑟 − 𝐶𝑗𝑡𝑟))𝑡=1 2 là khoảng cách từ đối tượng dữ liệu diđến tâm cụm gần nhất Cj của nó đối với các thuộc tính số;

 𝑚 𝑐 𝑡=1 (𝑑𝑖𝑡𝑐, 𝐶𝑗𝑡𝑐)2 là khoảng cách từ đối tượng dữ liệu di đến tâm cụm gần nhất Cj của nó đối với các thuộc tính categorical;

 Wt là độ quan trọng của thuộc tính số thứ t

Trang 27

Cho đến khi không có phần tử nào thay đổi cụm hoặc số lần lặp tiến đến ngưỡng

3.1.5.2 Khoảng cách giữa hai giá trị khác biệt của thuộc tính categorical [4] Định nghĩa 1: Khoảng cách giữa cặp giá trị x và y của thuộc tính Ai tương ứng với thuộc tính Aj và một tập con w của các giá trị của thuộc tính Aj:

𝛿𝑤𝑖 𝑥, 𝑦 = 𝑃𝑖 𝑤/𝑥 + 𝑃(~𝑤/𝑦) (3.3) Trong đó:

Pi(w/x) là xác suất có điều kiện của x biết w;

Pi(w/y) là xác suất có điều kiện của y biết w

(có 2||Ai|| giá trị có thể cho w)

Định nghĩa 2: Khoảng cách giữa các giá trị thuộc tính x và y của Aj tương ứng với thuộc tính Ai:

Định nghĩa 3: Với một tập dữ liệu có m thuộc tính (gồm cả categorical và số đã

được rời rạc), khoảng cách giữa giá trị x và y phân biệt của bất kỳ thuộc tính categorical Ai:

𝛿 𝑥, 𝑦 = 1/(𝑚 − 1) 𝑗 =1…𝑚 ,𝑖≠𝑗𝛿𝑖𝑗(𝑥, 𝑦) (3.6) Trong đó: 𝛿𝑖𝑗 𝑥, 𝑦 là khoảng cách giữa giá trị x và y của thuộc tính Ai tương ứng với thuộc tính Aj

Trang 28

Bảng 3 1 Tập dữ liệu tuyển sinh

P(Si3/Nữ)=0 P(Si8/Nữ)=0 P(Si9/Nữ)=1 P(Si3/Nam)=1/2 P(Si8/Nam)=1/2 P(Si9/Nam)=0

P(H9/Nữ)=1 P(H9/Nam)=1 P(L9/Nữ)=1 P(L9/Nam)=1

P(S8/Nữ)=1 P(S9/Nữ)=0 P(S8/Nam)=1/2 P(S9/Nam)=1/2

P(D8/Nữ)=1 P(D9/Nữ)=0 P(D8/Nam)=0 P(D9/Nam)=1

Khoảng cách giữa Nam và Nữ tương ứng với thuộc tính Nơi học THCS:

Khoảng cách giữa Nam và Nữ tương ứng với thuộc tính AV:

TG, AV(Nam, Nữ) =(1+1/2+1/2)-1=1

Khoảng cách giữa Nam và Nữ tương ứng với thuộc tính Địa:

Trang 29

Khoảng cách giữa Nam và Nữ tương ứng với thuộc tính T:

3.1.5.3 Độ quan trọng của một thuộc tính số:

Độ quan trọng của thuộc tính định nghĩa sự quan trọng của thuộc tính đó trong tập dữ liệu

Độ quan trọng của một thuộc tính số được tính như sau [4]:

𝑤𝑖 = 𝑆𝑘=1 𝑆𝑗 >𝑘𝛿(𝑢 𝑟 , 𝑢 𝑠 )/(𝑆(𝑆 − 1)/2) (3.7) Trong đó:

- S: Số khoảng chia của thuộc tính số;

- Mỗi khoảng chia được gán một giá trị categorical khác biệt u[1], u[2], ,u[S]

Ví dụ: Độ quan trọng của một thuộc tính trong Bảng 3 1:

Độ quan trọng của thuộc tính Sinh được tính như sau:

- Sau quá trình rời rạc, thuộc tính Sinh chỉ có 3 cặp giá trị khác biệt (9, 3), (9,8),

(3,8), khoảng cách (9,3)=0.56, (9,8)=0.78, (3, 8)=0.44

Trang 30

- Áp dụng công thức tính độ quan trọng của thuộc tính, ta được:

WSinh=(0.56+0.78+0.44)/(8(8-1)/2)=0.06

3.1.5.4 Các tâm cụm cho các tập dữ liệu hỗn hợp:

Giá trị trung tâm của thuộc tính số của một cụm C được chuẩn hoá theo công

thức (3.1) Còn giá trị trung tâm của thuộc tính categorical của cụm C được biểu

diễn như sau:

Trong đó:

- NC là số đối tượng dữ liệu trong cụm C;

- Ni,k,c kí hiệu số lượng phần tử của thuộc tính i trong cụm C có giá trị k, giả sử

thuộc tính thứ i có pi giá trị khác nhau

Ví dụ: Tâm cụm dữ liệu trong Bảng 3 1 được biểu diễn như sau:

[{0.53}, {0.67}, {0.67}, [{0.62}, {0.67}, {0.53}, {0.53}, {0.55}, {1/3(1Nữ,

2Nam)},{1/3(1 Đức Hoà,1 TpTân An, 1 Tân Thạnh)}]

Khoảng cách giữa một đối tượng và tâm cụm:

Cho Ai,k kí hiệu giá trị thứ k cho thuộc tính categorical Ai Cho tổng số các giá

trị khác biệt của Ai là pi Khoảng cách giữa giá trị X của thuộc tính categorical Ai

đối với giá trị thuộc tính tương ứng của tâm cụm C được định nghĩa như sau:

(X,C)=(Ni,1,c/Nc)*(X, Ai,1)+ (Ni,2,c/Nc)*(X, Ai,2)+ + (Ni,pi,c/Nc)*(X, Ai,pi) (3.8)

- Vì (r,v) ≤ 1, và tổng số các phần tử trong cụm C là Nc, do đó (X,C) ≤ 1

- Khoảng cách giữa một đối tượng và một tâm cụm cho tập dữ liệu hỗn hợp

được xác định theo công thức sau:

𝑣 𝑑𝑖, 𝐶𝑗 = 𝑚𝑟 (𝑤𝑡(𝑑𝑖𝑡𝑟 − 𝐶𝑗𝑡𝑟))

𝑡=1 (𝑑𝑖𝑡𝑐 , 𝐶𝑗𝑡𝑐)2 (3.9) Trong đó, mr và mc biểu diễn số lượng thuộc tính số và categorical

Ví dụ:

Khoảng cách giữa đối tượng d2(0,1,1,0,1,0,0.60,0, Nam, Tp Tân An) và tâm

cụm C1 [{0.53}, {0.67}, {0.67}, [{0.62}, {0.67}, {0.53}, {0.53}, {0.55}, {1/3(1Nữ, 2Nam)},{1/3(1 Đức Hoà,1 TpTân An, 1 Tân Thạnh)}] được tính như sau:

Trang 31

𝑣 𝑑2, 𝐶1 = (𝑤𝑡(𝑑2𝑡𝑟 − 𝐶1𝑡𝑟 ))

8

𝑡=1

2 + ((𝑑21𝑐 , 𝐶11𝐶))2 + ((𝑑22𝑐 , 𝐶12𝐶))2Trong đó:

w1 là độ quan trọng của thuộc tính T (=0.02);

w2 là độ quan trọng của thuộc tính Lý (=0);

w3 là độ quan trọng của thuộc tính Hoá (=0);

w4 là độ quan trọng của thuộc tính Sinh (=0.06);

w5 là độ quan trọng của thuộc tính Văn (=0.02);

w6 là độ quan trọng của thuộc tính Sử (=0.02);

w7 là độ quan trọng của thuộc tính Địa (=0.02);

w8 là độ quan trọng của thuộc tính AV (=0.06);

Trang 32

Trong đó, w là véctơ chuẩn của siêu phẳng phân cách, b là độ lệch, và Φ(x) là hàm ánh xạ từ không gian đầu vào sang không gian đặc trưng, Φ 𝑥 : 𝑅𝐷 → 𝑅𝑀(M>D) Mục tiêu của SVM là tìm một siêu phẳng tối ưu sao cho khoảng cách lề giữa hai lớp đạt giá trị cực đại Bên cạnh đó, để đảm bảo tính tổng quát hóa cao, một biến lỏng (slack variable) được đưa vào để nới lỏng điều kiện phân lớp Bài toán đưa đến việc giải quyết tối ưu có ràng buộc:

max𝛼𝐿 𝛼 ≡ 𝑁𝑖=1𝛼𝑖 −1

2 𝛼𝑖,𝑗 𝑖𝛼𝑗𝑦𝑖𝑦𝑗Φ 𝑥𝑖 T Φ(𝑥𝑗) (3.12) Thỏa mãn: 0 ≤ 𝛼𝑖 ≤ 𝐶, ∀𝑖 ∈ 1, 𝑁 và 𝑁𝑖=1𝛼𝑖𝑦𝑖 = 0, với αi là các nhân tử Lagrange

Sau khi có được các giá trị 𝛼𝑖 từ bài toán (3.10), ta sẽ thu đươc các giá trị tối ưu w* và b* của siêu phẳng Chỉ có các mẫu có 𝛼𝑖 ≥ 0 mới tham gia vào các véc tơ hỗ trợ (support vector) Cuối cùng, hàm quyết định phân lớp có dạng:

𝑓 𝑥 = 𝑠𝑔𝑛 𝑁𝑖=1𝛼𝑖𝑦𝑖 Φ 𝑥𝑖 T Φ 𝑥 + 𝑏∗ (3.13) Gọi 𝐾 𝑥𝑖, 𝑥𝑗 = Φ 𝑥𝑖 T Φ 𝑥𝑗 là hàm nhân của không gian đầu vào Theo đó, tích vô huớng trong không gian đặc trưng tuơng đương với hàm nhân K ở không gian đầu vào Như vậy, thay vì tính trực tiếp giá trị tích vô huớng, ta thực hiện gián tiếp thông qua K Khoá luận chọn hàm nhân cho mô hình là hàm phi tuyến Gauss (RBF-Radial Basis Function):

𝐾 𝑥𝑖, 𝑥𝑗 = exp −𝛾 𝑥𝑖 − 𝑥𝑗 2 (3.14)

3.1.6.2 Lựa chọn tham số

Vấn đề quan trọng nhất của mô hình SVM là việc tìm được các tham số phù hợp

Trang 33

Ở đây, hai tham số cần phải quyết định khi huấn luyện mô hình là C và γ [2] Khoá luận sử dụng phương pháp thông dụng Grid search và thông qua đánh giá chéo với

dữ liệu huấn luyện được chia 10 phần (trên tập dữ liệu Toán) hoặc 5 phần (trên tập

dữ liệu Hoá và Tiếng Anh) để tìm các giá trị tối ưu cho hai tham số này Giá trị của chúng sẽ được giới hạn trong đoạn nhất định, 𝐶 ∈ [2−5, 215] và 𝛾 ∈ [2−15, 23]

3.1.6.4 K-fold cross validation

Tập toàn bộ các ví dụ D được chia ngẫu nhiên thành k tập con không giao nhau (gọi là “fold”) có kích thước xấp xỉ nhau.Mỗi lần (trong số k lần) lặp, một tập

con được sử dụng làm tập kiểm thử, và (k-1) tập con còn lại được dùng làm tập huấn luyện k giá trị lỗi (mỗi giá trị tương ứng với một fold) được tính trung bình

cộng để thu được giá trị lỗi tổng thể

Các lựa chọn thông thường của k: 10, hoặc 5

Thông thường, mỗi tập con (fold) được lấy mẫu phân tầng (xấp xỉ phân bố lớp) trước khi áp dụng quá trình đánh giá Cross-validation

3 1 7 Đánh chỉ số ngữ nghĩa tiềm ẩn

Trong máy học, số lượng mẫu tăng theo hàm mũ của số chiều của không gian đặc trưng Các tập dữ liệu có đặc trưng lớn thường chứa thông tin thưa và có thể làm giảm hiệu suất của bộ phân lớp Lựa chọn đặc trưng và rút trích đặc trưng là hai

kỹ thuật được sử dụng hoặc riêng lẻ hoặc kết hợp để giảm số chiều của không gian đặc trưng Lưạ chọn đặc trưng là để chọn một tập con của các đặc trưng đại diện nhất từ không gian đặc trưng gốc Rút trích đặc trưng là để biến đổi không gian đặc trưng gốc thành không gian đặc trưng nhỏ hơn để giảm số chiều LSI là một kỹ thuật rút trích đặc trưng đã được đề xuất kết hợp với việc chia nhỏ thông tin để giải

Trang 34

quyết các vần đề mất cân bằng lớp, giúp giảm số lượng các thuộc tính con, rút ngắn thời gian thực thi, tăng hiệu suất phân lớp [6]

LSI là một phương pháp tự động biến đổi dữ liệu ban đầu thành không gian ngữ nghĩa nhỏ hơn bằng cách lấy ưu điểm của một số sự kết hợp ẩn có thứ tự cao hơn của các từ với các đối tượng văn bản Phép biến đổi được tính toán bởi việc áp dụng phép phân tích giá trị riêng (SVD) cho các ma trận (từ  tài liệu) Sau SVD, các từ được sử dụng trong các ngữ cảnh tương tự sẽ được kết hợp [6]

Hình 3 1 tóm tắt các khái niệm về SVD và LSI Cho A là một ma trận m  n có hạng r với các dòng đại diện cho các tài liệu và các cột kí hiệu các từ Phân tích giá trị riêng cho A biểu diễn A như tích của 3 ma trận A=USVT (3.16), trong đó

𝑆 = 𝑑𝑖𝑎𝑔(𝜎1, … , 𝜎𝑟) là một ma trận r  r , 𝑈 = (𝑢1, … , 𝑢𝑟) là ma trận m  r mà các cột của nó là trực giao, UUT=I và 𝑉𝑇 = (𝑣1, … , 𝑣𝑟)𝑇 là ma trận r  n, VVT=I LSI làm việc bằng cách bỏ qua tất cả ngoại trừ k giá trị riêng lớn nhất trong sự phân tích SVD, với k phù hợp (k là chiều của không gian có chiều nhỏ) SVD phải trả giá về mặt chi phí phân tích, tính toán ma trận rất nhiều Do đó, k nên đủ nhỏ để có thể tìm nhanh và đủ lớn để tương xứng với cấu trúc của ngữ liệu [6], [9]

Gọi A là ma trận biểu diễn tập dữ liệu huấn luyện dưới dạng các thuộc tính con Sau khi phân tích SVD cho ma trận A, ta được 3 ma trận U, S, VT với A=USVT Khi thực hiện LSI để giảm số chiều của dữ liệu ta được 𝐴𝑘 = 𝑈𝑘𝑆𝑘𝑉𝑘𝑇 ≈ 𝐴 (3.17)

Từ đó ta có 𝑈𝑘 = 𝐴𝑉𝑘𝑆𝑘−1 (3.18) là ma trận kết quả của A qua phép biến đổi (𝑉𝑘𝑆𝑘−1) Tương ứng từng dòng dữ liệu d trong A được biến đổi Do đó, khi huấn luyện mạng neural, Uk được đưa vào huấn luyện Gọi B là tập dữ liệu kiểm nghiệm, từng dòng dữ liệu trong B sau khi biểu diễn dưới dạng các thuộc tính con, phải được giảm số chiều qua phép biến đổi (𝑉𝑘𝑆𝑘−1) trước khi đưa vào mạng neural để xác định giá trị đầu ra

Trang 35

Hình 3 1.Minh họa phân tích giá trị riêng của ma trận A [6], [7]

3 2 Các mô hình xử lí với dữ liệu không cân bằng dựa trên tính toán hạt

3 2 1 Mô hình thu nhận tri thức dựa trên tính toán hạt KAIG của Su và các đồng sự [10]

Su và các đồng sự (2006) đã đề xuất mô hình thu nhận tri thức dựa trên tính toán hạt KAIG để giải quyết vấn đề thu nhận tri thức từ các tập dữ liệu không cân bằng Mô hình gồm ba bước: Xây dựng hạt thông tin, biểu diễn hạt thông tin và thu nhận tri thức từ các hạt thông tin Ba bước trong mô hình này được thể hiện trong Hình 3 2

Trang 36

Hình 3 2 Mô hình thu nhận tri thức dựa trên tính toán hạt KAIG [10]

3.2.1.1 Xây dựng hạt thông tin

Su và các đồng sự đã sử dụng mạng Fuzzy ART (Fuzzy Adaptive Resonance Theory) để xây dựng IG và đề xuất hai chỉ số H-index và U-ratio để đo mức độ phân chia các hạt giúp giải quyết vấn đề chọn kích thước phù hợp của IG

Mạng Fuzzy ART là một mạng neural mờ giải quyết tốt bài toán phân cụm dữ liệu Thay vì phân cụm theo số cụm được cho trước, Fuzzy ART phân cụm dựa vào

sự tương đồng giữa các mẫu Fuzzy ART học dữ liệu huấn luyện để hình thành các cụm chỉ khi mức độ tương đồng giữa dữ liệu huấn luyện và một cụm đạt đến một ngưỡng nhất định Các cụm mới được sinh ra khi mức độ tương đồng giữa dữ liệu huấn luyện và mọi cụm đều không đạt ngưỡng về sự tương đồng [10]

H-index được sử dụng để đo tính thuần nhất của lớp các đối tượng trong một IG H-index được định nghĩa:

𝐻 − 𝑖𝑛𝑑𝑒𝑥 =

𝑕 𝑖

𝑛 𝑖

𝑘 𝑖=1

Trong đó: k, ni, hi lần lượt là số lượng IG, số lượng các đối tượng trong hạt thứ i,

Trang 37

Ví dụ: Bảng 3 4 cho thấy một IG được tạo ra từ tập dữ liệu Iris gồm 3 đối tượng (n=3) Có 4 thuộc tính điều kiện X1, X2, X3, X4 Thuộc tính quyết định (lớp) của hai dòng đầu tiên là „Versicolor‟,dòng cuối cùng là „Setosa‟ Trong IG này, „Versicolor‟

là lớp chiếm đa số và h=2 Do đó, H-index của IG này là 2/3

Bảng 3 4 Ví dụ của hạt thông tin

Thuộc tính điều kiện Thuộc tính quyết định

Một chỉ số khác cho việc chọn sự giống nhau là U-ratio Trong ví dụ trước, lớp

„Versicolor‟ chiếm đa số, vì thế nó được gán là lớp của IG Nếu có một hạt khác được mô tả như Bảng 3 5, và chúng ta không thể phân biệt lớp của IG, thì chúng ta gọi hạt đó là hạt không thể phân biệt U-ratio được định nghĩa:

Bảng 3 5.Hạt thông tin không thể phân biệt

Thuộc tính điều kiện Thuộc tính quyết định

(lớp)

5.4 2.2 3.9 1.2 Versicolor 6.8 3.4 5.6 2.4 Virginica Khó để xử lý một hạt không thể phân biệt, vì thể chúng ta cần xem xét chúng một cách cẩn thận Chúng ta có thể tránh tình huống này bằng cách thiết đặt U-ratio càng nhỏ có thể

Trang 38

Chúng ta cần xác định ngưỡng H-index và U-ratio để xử lý hai vấn đề trên với tiêu chí “H-index càng lớn, càng tốt và U-ratio càng nhỏ, càng tốt” trong việc xét điều kiện dừng vòng lặp trong quá trình xây dựng các IG [10]

3.2.1.2 Biểu diễn hạt thông tin

Các hyperbox được sử dụng để biểu diễn các IG [10] Một hyperbox [b] được định nghĩa trong Rn được mô tả bởi cận dưới (bmin) và cận trên (bmax) của nó, trong

đó bmin

và bmax là các vector trong Rn Tập vũ trụ Rn là tập hợp của tất cả các điểm trong không gian n chiều Một IG thường chứa nhiều hơn một đối tượng Giới hạn trên và giới hạn dưới của giá trị các thuộc tính số được sử dụng để biểu diễn tất cả các đối tượng trong một IG Việc sử dụng bmin

và bmax có thể diễn tả hyperbox như [b]=[ bmin, bmax] Xét 2 IG (hyperbox) A=[a] và B=[b] định nghĩa trong R2 (được thể hiện trong bảng Bảng 3 6), chúng ta theo ký hiệu [a]=[ amin , amax] và [b]=[ bmin ,

bmax] [10]

Bảng 3 6 Hai IG được biểu diễn dưới hình thức hyperbox [10]

A (a1min, a1max) (a2min, a2max)

B (b1min, b1max) (b2min, b2max)

Vấn đề chồng chéo được mô tả trong Hình 3 3 (Tình huống chồng chéo giữa hai

IG A và B [9]) luôn xuất hiện trong các IG Chúng khó được xử lý bởi các thuật toán khai thác dữ liệu, vì chúng không được thiết kế để xử lý các IG, đặc biệt trong tình trạng chồng chéo xuất hiện Và các thuộc tính con đã được đề xuất để giải quyết vấn đề này [6], [9], [10]

Trang 39

Hình 3 3.Tình huống chồng chéo giữa hai IG A và B [9]

Có thể giải thích ý tưởng của “các thuộc tính con” này bằng cách sử dụng Hình

3 3.Theo trục X1 (thuộc tính 1), phần chồng chéo của hai hạt được chia thành phần chồng chéo ([𝑏1𝑚𝑖𝑛, 𝑎1𝑚𝑎𝑥]) và các phần không chồng chéo ([𝑎1𝑚𝑖𝑛, 𝑏1𝑚𝑖𝑛] và [𝑎1𝑚𝑎𝑥, 𝑏1𝑚𝑎𝑥]) Những khoảng con này được đặt tên lần lượt theo X11, X12, X13 được gọi là các thuộc tính con Biến nhị phân được sử dụng là các giá trị của các thuộc tính con thể hiện liệu một IG chứa những khoảng con này hay không Các kết quả của việc biểu diễn các IG bằng cách sử dụng các thuộc tính con có thể được tìm thấy trong Bảng 3 7 Thuộc tính gốc X1 được chia thành các thuộc tính con X11, X12,

X13; và thuộc tính X2 thành X21, X22, X23 Sau đó, hai hạt này được biểu diễn lại bằng cách thay các thuộc tính gốc bởi các thuộc tính con Bằng cách đưa ra khái niệm của các thuộc tính con, tri thức có thể được rút trích một cách dễ dàng từ các hạt thậm chí nếu tình trạng chồng chéo luôn tồn tại [10]

Bảng 3 7 Các IG được biểu diễn dưới dạng các thuộc tính con [10]

Trang 40

yêu cầu điều chỉnh kiến trúc tính toán của các thuật toán này Tuy nhiên, quá nhiều thuộc tính con có thể được sinh ra trong tình trạng chồng chéo tự nhiên mà các giá trị của các thuộc tính điều kiện là liên tục và gồm nhiều loại khác nhau Do đó, việc này thường thực hiện trong giai đoạn chuẩn bị dữ liệu của khai thác dữ liệu Dữ liệu được đề nghị rời rạc hoá trước khi thực thi một thuật toán nào đó để kiểm soát số lượng các thuộc tính con [10]

3.2.1.3 Thu nhận tri thức từ các hạt thông tin

Sau khi biểu diễn các IG và giải quyết tình huống chồng chéo giữa các IG, mô hình KAIG sử dụng các phương pháp tập thô, cây quyết định (C4.5), mạng neural

để rút trích các luật biểu diễn tri thức từ các IG này Lý thuyết tập thô là một công

cụ toán học hiệu quả trong khám phá tri thức Phương pháp tập thô được sử dụng trong bước này để loại bỏ bớt các thuộc tính con dư thừa, hỗ trợ việc rút trích tập luật quyết định

3.2.1.4 Kết quả thực nghiệm trên các tập dữ liệu

Các tập dữ liệu thực nghiệm được lấy từ kho dữ liệu máy học UCI Machine Learning Repository Trước khi thực thi, các tập dữ liệu được chia thành tập huấn luyện (train) và tập kiểm nghiệm (test) theo tỉ lệ 3:1 Trong bước thu nhận tri thức,

mô hình KAIG sử dụng các phương pháp tập thô, cây quyết định (C4.5), mạng neural (BP) nên kết quả khác nhau Bảng 3 8 thể hiện kết quả thực nghiệm của mô hình KAIG so với các phương pháp khác

Định dạng
Số trang	82
Dung lượng	9,08 MB