Bài viết đề xuất một phương pháp mới, phương pháp kết hợp giảm số chiều thuộc tính bình phương tối thiểu và sinh thêm phần tử nhân tạo SMOTE. Để đánh giá hiệu quả của phương pháp mới này, chúng tôi đã thực nghiệm dựa trên những bộ dữ liệu chuẩn từ nguồn UCI đó là: leukemia, breast-p, coil, colon-cancer.
JOURNAL OF SCIENCE OF HNUE Educational Sci., 2015, Vol 60, No 7A, pp 94-102 This paper is available online at http://stdb.hnue.edu.vn DOI: 10.18173/2354-1075.2015-0056 NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU BẰNG CÁCH KẾT HỢP SINH THÊM PHẦN TỬ VỚI GIẢM SỐ CHIỀU THUỘC TÍNH DỰA TRÊN BÌNH PHƯƠNG TỐI THIỂU TỪNG PHẦN Nguyễn Thái Bình, Nguyễn Thị Anh Nga, Nguyễn Thị Hồng Đặng Xuân Thọ Khoa Công nghệ Thơng tin, Trường Đại học Sư phạm Hà Nội Tóm tắt Ngày người phải đối mặt với lượng thông tin khổng lồ đến từ nhiều nguồn khác thơng tin hữu ích, liệu đáng tin cậy lại chiếm tỉ lệ nhỏ Trong thực tế, cụ thể Y - sinh học xuất ngày nhiều liệu có số thuộc tính lớn, chí lên đến hàng nghìn thuộc tính Tuy nhiên, thuộc tính lại có nhiều thuộc tính dư thừa khơng có ích việc dự đoán lớp thiểu số Việc phân lớp trở nên khó khăn gặp phải liệu có tỉ lệ cân cao, nghĩa có chênh lệch số phần tử lớp Từ thực tế đó, chúng tơi xin đề xuất phương pháp mới, phương pháp kết hợp giảm số chiều thuộc tính bình phương tối thiểu sinh thêm phần tử nhân tạo SMOTE Để đánh giá hiệu phương pháp này, thực nghiệm dựa liệu chuẩn từ nguồn UCI là: leukemia, breast-p, coil, colon-cancer Qua kết thu thấy phương pháp giúp nâng cao hiệu phân lớp liệu vừa có số thuộc tính lớn vừa có tỉ lệ cân cao Từ khóa: Phân lớp; liệu cân bằng; liệu có số chiều cao; Bình phương tối thiểu phần; sinh thêm phần tử nhân tạo Mở đầu Trong thực tế, cụ thể Y - sinh học xuất ngày nhiều liệu có số thuộc tính lớn, chí lên đến hàng nghìn thuộc tính Tuy nhiên, thuộc tính lại có nhiều thuộc tính dư thừa khơng có ích việc dự đốn lớp thiểu số Vì vậy, thời gian qua có nhiều hướng tiếp cận khác nhằm làm giảm số thuộc tính dư thừa không làm mát thông tin mà đảm bảo độ tin cậy cao lựa chọn thuộc tính trích chọn thuộc tính Vì có nhiều thuật tốn đưa để giải tốn giảm số chiều liệu thuộc nhóm lựa chọn thuộc tính như: thuật tốn RELIEF, FOCUS, LVF [3] Tuy nhiên với tập liệu có số chiều cao thuộc tính có mối tương quan cao với phương pháp theo hướng lựa chọn thuộc tính tỏ hiệu quả, bỏ bớt thuộc tính dẫn đến mát thông tin làm thay đổi chất lệu, thuộc tính bảng khơng cịn giữ lại mối tương quan với nhau, thường cho kết có độ tin cậy thấp Ngày nhận bài: 15/7/2015 Ngày nhận đăng: 01/11/2015 Liên hệ: Nguyễn Thái Bình, e-mail: nguyenthaibinh020906@gmail.com 94 Nâng cao hiệu phân lớp liệu cách kết hợp sinh thêm phần tử với giảm số chiều Trích chọn thuộc tính hướng nghiên cứu phương pháp giảm số chiều liệu Ý tưởng nhóm phương pháp tạo tập thuộc tính đại diện cho tập thuộc tính cũ Tập thuộc tính mang đầy đủ đặc tính thuộc tính cũ nhỏ nhiều lần số lượng thuộc tính cũ Việc giảm chiều hạn chế tối đa mát thông tin đặc biệt không làm thay đổi chất liệu ban đầu Đại diện cho hướng tiếp cận nhóm phương pháp: phân tích thành phần PCA [10], phân tích tương quan kinh điển CCA [10] phương pháp bình phương tối thiểu phần PLS [10] Đặc biệt phương pháp PLS việc giảm số chiều (thuộc tính) tập liệu dựa vào tập thuộc tính X tập nhãn Y Phương pháp PLS sử dụng tập nhãn để xây dựng trục tọa độ không gian liệu Để tìm hệ trục tọa độ khơng gian mới, PLS sử dụng cách giải toán cực đại hiệp phương sai, nhờ phạm vi áp dụng rộng độ tin cậy mơ hình cao Tuy nhiên thực tế cho thấy, không xuất liệu có số thuộc tính lớn mà cịn xuất nhiều liệu có tỉ lệ cân cao, nghĩa có chênh lệch số phần tử lớp Vấn đề không cân lớp thường quy tốn phân lớp nhị phân mà lớp mà người ta quan tâm chiếm tỉ lệ nhỏ so với lớp lại Trong nhiều ứng dụng thực tế, chẳng hạn phát giao dịch gian lận, phát xâm nhập mạng trái phép, phát tràn dầu từ hình ảnh Radar vệ tinh, rủi ro quản lí, phân loại văn hay chẩn đoán y học [1, 2] Việc cân lớp ảnh hưởng lớn đến hiệu mơ hình phân lớp Chẳng hạn sở liệu y học, số người mắc bệnh ung thư chiếm tỉ lệ tổng số người bình thường Việc chuẩn đốn sai người bị bệnh thành khơng bị bệnh ảnh hưởng nghiêm trọng đến sức khỏe tính mạng người Vì vậy, thời gian qua có nghiên cứu khai phá liệu cân với hướng tiếp cận khác phương pháp sinh thêm phần tử hướng đơn giản mà hiệu quả, chẳng hạn như: SMOTE [2], ADD-BODER-SMOTE [6] Thuật toán SMOTE giúp cải thiện mật độ lớp thiểu số, đồng thời không làm thay đổi lớp đa số Trong thuật toán SMOTE liệu tạo cách thực tính khoảng cách phần tử lớp thiểu số đến phần tử lại liệu Sau đưa k hàng xóm gần chọn ngẫu nhiên giá trị k hàng xóm để sinh thêm phần tử nhân tạo Tuy nhiên, vấn đề trở nên khó khăn xuất liệu vừa có tỉ lệ cân cao vừa có số thuộc tính lớn Do đó, để giải lúc hai vấn đề trên, đề xuất phương pháp mới, phương pháp kết hợp sinh thêm phần tử với giảm số chiều dựa bình phương tối thiểu phần (PLS_SMOTE) lớp thiểu số 2.1 Nội dung nghiên cứu Phương pháp bình phương tối thiểu phần (PLS) Phương pháp bình phương tối thiểu phần (Partial Least Square) Herman Wold đưa vào năm 1966 [9] PLS nhóm kĩ thuật nhằm xây dựng mơ hình quan hệ hai biến đa chiều (là tập liệu học tập nhãn), tức xây dựng hàm hồi quy biến phụ thuộc biến độc lập toán hồi quy xây dựng hàm rời rạc nhằm xác định lớp giá trị nhận biến 95 Nguyễn Thái Bình PLS phương pháp học có giám sát CCA, có nghĩa thực giảm số chiều liệu, PLS dựa vào thông tin tập liệu học thông tin tập liệu nhãn Điều đảm bảo tính “định hướng” theo thơng tin có sẵn thu từ kinh nghiệm thực tiễn thơng qua thí nghiệm Ý tưởng PLS biểu diễn biến giải thích Y biến giải thích X thơng qua giá trị biến trung gian (biến ẩn) Biến ẩn xác định cách tổ hợp tuyến tính biến ban đầu có mối quan hệ với Nhờ vậy, số lượng biến giảm nhiều so với số lượng biến ban đầu Điều loại bỏ sai sót chủ quan lựa chọn biến tham gia vào toán Việc lựa chọn số lượng biến ẩn phụ thuộc vào mục đích người sử dụng số chiều thể đối tượng cần quan sát Vì vậy, PLS chủ yếu sử dụng nhằm giảm số chiều liệu cho tập biến PLS xây dựng không gian có số chiều nhỏ số chiều khơng gian ban đầu nhiều lần, hệ tọa độ không gian hệ trực chuẩn (các trục tọa độ trực giao nhau) PLS tìm vector điểm khơng gian cách giải toán cực đại hiệp phương sai biến Nghĩa toán trở giải tốn trị riêng, từ xác định vector riêng (được trình bày cụ thể giải thuật NIPALS) Số lượng vector riêng số chiều cần sử dụng, lựa chọn theo độ lớn trị riêng Hàm thực hồi quy mơ hình liệu tổng quát, tùy theo cách lựa chọn phương thức, biến đổi thành hồi quy PLS, PCA, hay CPPLS (bình phương tối thiểu phần tắc) tương ứng với gói hồi quy khác gói PLS, PCR, CPPLS 2.2 SMOTE Trong thực tế ngày xuất nhiều liệu có tỉ lệ cân cao, nghĩa có chênh lệch số phần tử lớp Vấn đề không cân lớp thường quy toán phân lớp nhị phân mà lớp mà người ta quan tâm chiếm tỉ lệ nhỏ so với lớp lại Trong nhiều ứng dụng thực tế, chẳng hạn tỉ lệ cân phát giao dịch gian lận 100:1 hay 100 000:1 (Provost & Fawcett, 2001), liệu cân lĩnh vực gọi điện thoại lừa đảo (Fawcett & Provost, 1996), quản lí viễn thơng (Ezawa, Singh, & Norton, 1996), phân loại văn (Lewis & Catlett, 1994; Dumais, Platt, Heckerman, & Sahami, năm 1998; Mladeni’c & Grobelnik, 1999; Lewis & Ringuette, 1994; Cohen, 1995) phát cố tràn dầu hình ảnh vệ tinh (Kubat, Holte, & Matwin, 1998) [1, 2] Việc cân lớp ảnh hưởng lớn đến hiệu mơ hình phân lớp Vì thời gian qua có số hướng tiếp cận khác để giải vấn đề cân lớp Một số hướng tiếp cận dựa cấp độ liệu Thuật toán SMOTE giúp cải thiện mật độ lớp thiểu số, đồng thời không làm thay đổi lớp đa số SMOTE phương pháp lấy mẫu lớp thiểu số lấy mẫu cách lấy phần tử lớp thiểu số chọn k láng giềng gần lớp thiểu số Tùy thuộc vào số lượng lấy mẫu yêu cầu, hàng xóm từ k láng giềng gần chọn ngẫu nhiên Các mẫu nhân tạo tạo cách: Lấy khác biệt vector đặc trưng (mẫu) xem xét hàng xóm gần [2] Nhân khác biệt với số ngẫu nhiên 1, thêm vào vector đặc trưng xem xét Điều làm chọn điểm ngẫu nhiên dọc theo đoạn hai thuộc tính cụ thể Phương pháp định phần tử thiểu số để lớp thiểu số trở thành lớp phổ biến 96 Nâng cao hiệu phân lớp liệu cách kết hợp sinh thêm phần tử với giảm số chiều 2.3 Phương pháp kết hợp PLS SMOTE Thuật toán sinh thêm phần tử lớp thiểu số, mà thuật toán SMOTE thuật toán tiêu biểu làm tăng tình hiệu việc phân lớp nhờ tăng lượng phần tử nhân tạo lớp thiểu số Nhưng mà tăng dung lượng liệu lên theo lượng phần tử nhân tạo thêm vào Mặt khác ứng dụng thực tế liệu thường có số thuộc tính lớn, lên đến hàng nghìn thuộc tính Điều dẫn đến q trình phân lớp nhiều thời gian với việc phân lớp liệu khơng cịn xác, độ xác phân lớp liệu không cao Để khắc phục việc tăng dung lượng liệu, giảm số thuộc tính dư thừa chúng tơi đưa ý tưởng kết hợp hai thuật tốn sinh thêm phần tử (SMOTE) giảm số chiều liệu (PLS) Ý tưởng kết hợp mang lại lợi ích dung lượng liệu không tăng cao hơn, dung lượng liệu gốc, giảm thời gian chạy phân lớp xuống nhiều, quan trọng việc kết hợp sinh thêm phần tử giảm số chiều liệu cho kết phân lớp cao so với phương pháp riêng biệt Thuật toán SMOTE lấy ngẫu nhiên số k phần tử lân cận thuộc lớp thiểu số để sinh phẩn tử mới, giữ nguyên lớp đa số Do làm tăng đáng kể mật độ lớp thiểu số cách khoa học tạo cân liệu Còn phương pháp PLS lại không tác động đến phần tử liệu mà lại tác động đến số chiều (thuộc tính) liệu, chuyển sang khơng gian Sự kết hợp hai giải thuật SMOTE PLS kết hợp hai ưu điểm hai thuật toán SMOTE PLS Làm tăng phần tử lớp thiểu số, vừa giảm số chiều liệu Càng làm tăng xác để phân lớp tốt liệu phân lớp liệu cân bằng, lại rút ngắn thời gian chạy liệu 2.4 Thực nghiệm 2.4.1 Các tiêu chí đánh giá Đối với phân lớp liệu có hai lớp, lớp với mẫu huấn luyện tầm quan trọng cao gọi lớp tích cực (positive); khác với lớp phổ biến khơng có nhiều ý nghĩa tầm quan trọng gọi lớp tiêu cực (negative) Mẫu phân loại thành bốn nhóm q trình phân loại kí hiệu ma trận nhầm lẫn sau: Nhãn dự đoán Lớp Positive Lớp Negative Bảng Ma trận nhầm lẫn Nhãn Thực tế Lớp Postive True Positive (TP) False Negative (FN) Lớp Negative False Positive (FP) True Negative (TN) Các tiêu chí đánh giá dựa bảng ma trận nhầm lẫn: TPrate = TP/ (TP+FN) (1) TNrate = TN/ (TN+FP) √ G-mean= T Prate T Nrate (2) (3) G-mean độ đo dùng để đánh giá hiệu phân lớp liệu cân hai lớp [2, 4] 97 Nguyễn Thái Bình 2.4.2 Dữ liệu Chúng tơi tiến hành cài đặt chạy chương trình ngơn ngữ R Perl thực nghiệm liệu cân từ nguồn UCI (University of California, Irvine) là: breast-p, coi2000, leukemia colon-cancer Tên liệu Breast-p Coil2000 Leukemia Colon - cancer Bảng Các liệu từ UCI Số phần tử 198 5822 72 62 Số thuộc tính 32 86 7128 2000 Tỉ lệ cân 1:4 1:16 1:3 1:2 2.4.3 Thực nghiệm Để chuẩn bị liệu thực nghiệm thực so sánh phương pháp sau: Dữ liệu gốc (original), liệu giảm số chiều phương pháp PLS mơ hình điều chỉnh (PLS, CPPLS, PCR), liệu với phương pháp kết hợp mơ hình điều chỉnh với thuật tốn SMOTE ta có (PLS_SMOTE, CPPLS_SMOTE, PCR_SMOTE) Với cách chạy khác có tham số đầu vào cho phương pháp PLS SMOTE khác Chẳng hạn với phương pháp PLS tham số đầu vào (số biến ẩn) phụ thuộc vào giá trị bậc hai bình phương trung bình lỗi dự báo (RMSEP) [7, 8], ví dụ số biến ẩn trị số RMSEP mức giảm đáng kể số biến ẩn số lượng biến ẩn đủ dùng cho mơ hình điều chỉnh PLS, CPPLS PCR Đối với phương pháp SMOTE tham số đầu vào N, ứng với giá trị N thay đổi sinh số lượng phần tử nhân tạo khác để cố gắng cân liệu tỉ lệ lớp thiểu số lớp đa số Sau thực phương pháp PLS SMOTE để tác động lên số phần tử thuộc tính liệu chúng tơi sử dụng thuật tốn phân lớp SVM (Support Vector Machine) cuối để đánh giá độ xác phân lớp phương pháp kết hợp chúng tơi dựa giá trị trung bình G-mean 20 lần 10 fold cross-validation 2.5 Kết thảo luận Với hình bên đồ thị biểu diễn giá trị G-mean phương pháp chạy Khi thực nghiệm phương pháp chạy liệu đưa kết thu theo giá trị G-mean tốt Trong Hình liệu breast-p giá trị G-mean phương pháp kết hợp PLS_SMOTE 68,45% cao hẳn so với phương pháp khác Trong Hình Đối với liệu coil2000 với tỉ lệ cân lớn 1:16 ta thấy giá trị G-mean phương pháp kết hợp PLS_SMOTE 29,72% cao hẳn so với hai phương pháp kết hợp khác PCR_SMOTE CPPLS_SMOTE 29,72% 7,1% Trong Hình liệu leukemia ta thấy giá trị G-mean phương pháp PLS_SMOTE cao so với phương pháp lại (CPPLS_SMOTE, PCR_SMOTE, SMOTE, PLS, CPPPLS, SMOTE, original) 94,76% Tương tự Hình liệu colon-cancer dựa vào đồ thị ta thấy G-mean phương pháp kết hợp PLS_SMOTE 87,12% cao so với origional 86,46% SMOTE 85,44% 98 Nâng cao hiệu phân lớp liệu cách kết hợp sinh thêm phần tử với giảm số chiều Hình Đồ thị so sánh giá trị G-mean liệu breast-p Hình Đồ thị so sánh giá trị G-mean liệu coil2000 Hình Đồ thị so sánh giá trị G-mean liệu leukemia 99 Nguyễn Thái Bình Hình Đồ thị so sánh giá trị G-mean liệu colon-cancer Do đó, để đánh giá phương pháp kết hợp có ý nghĩa thống kê hay khơng, chúng tơi áp dụng kiểm định T-test Nếu p-value kiểm định nhỏ 0.05 ta nói hai giá trị trung bình khác biệt có ý nghĩa thống kê Trong báo này, sử dụng hàm t.test gói stats R để tính giá trị p-value Dựa vào kết G-mean thuật toán phân lớp Ksvm cách chạy liệu, chúng tơi tiến hành tính giá trị p-value cụ thể sau: Datasets Breast-p p-value Original SMOTE PLS PLS_SMOTE CPPLS CPPLS_SMOTE Coil2000 Original SMOTE PLS PLS_SMOTE CPPLS CPPLS_SMOTE Leukemia Original SMOTE PLS PLS_SMOTE CPPLS CPPLS_SMOTE ColonOriginal cancer SMOTE PLS PLS_SMOTE CPPLS CPPLS_SMOTE 100 Bảng Giá trị p-value Original SMOTE PLS x