Bài viết này nghiên cứu phương pháp phân lớp dữ liệu dựa vào kỹ thuật lựa chọn đặc trưng với phụ thuộc hàm xấp xỉ và độ đo lỗi g3. Một số thử nghiệm phân lớp trên các tập dữ liệu thực tế cho thấy sự phù hợp của hướng nghiên cứu.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00199 PHÂN LỚP DỮ LIỆU DỰA VÀO PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG SỬ DỤNG PHỤ THUỘC HÀM XẤP XỈ Phan Anh Phong, Lê Văn Thành, Nguyễn Hải Yến Viện Kỹ thuật Công nghệ, Trƣờng Đại học Vinh phongpa@gmail.com, thanh.cntt.dhv@gmail.com, nguyenhaiyen1632@gmail.com TÓM TẮT: Lựa ch n ặc trưng kỹ thuật ch n tập ặc trưng phù hợp, liên quan từ tập liệu gốc cách loại bỏ ặc trưng nhiễu, dư thừa không liên quan nhằm tăng hiệu giảm chi phí trình khai phá liệu hay h c máy Bài báo nghiên cứu phương pháp phân lớp liệu dựa vào kỹ thuật lựa ch n ặc trưng với phụ thuộc hàm xấp xỉ ộ o lỗi g3 Một số thử nghiệm phân lớp tập liệu thực tế cho thấy phù hợp hướng nghiên cứu Từ khóa: Phân lớp liệu, lựa ch n ặc trưng, phụ thuộc hàm xấp xỉ I GIỚI THIỆU Lựa chọn đặc trƣng vấn đề quan trọng lĩnh vực khai phá liệu học máy Mục đích lựa chọn đặc trƣng tìm đặc trƣng hữu ích để mơ hình hóa hệ thống, theo làm tăng hiệu giảm thời gian thực cho hệ thống Về chất lựa chọn đặc trƣng q trình tính tốn mức độ quan trọng đặc trƣng nhóm đặc trƣng sau chọn tập hữu ích khơng gian đặc trƣng để xây dựng hệ thống [2, 5, 6] Phân lớp liệu toán tiêu biểu khai phá liệu, phần lớn liệu tốn phân lớp thu thập đƣợc có số đặc trƣng (thuộc tính) nhiều, lên tới hàng chục, hàng trăm, chí hàng nghìn đặc trƣng, chẳng hạn nhƣ liệu y tế, sinh học, Ngoài ra, đặc trƣng có đặc trƣng dƣ thừa hữu ích cho khai phá liệu học máy Việc xây dựng mơ hình phân lớp từ liệu nhƣ dẫn đến hiệu phân lớp thấp tốc độ khả dự báo liệu có đặc trƣng nhiễu, đặc trƣng liên quan Vì vậy, có nhiều nghiên cứu cố gắng giải vấn đề cách sử dụng kỹ thuật lựa chọn đặc trƣng Hiện có cách tiếp cận để lựa chọn đặc trƣng [6, 7]: - Mơ hình lọc (Filter) Đây cách lựa chọn đặc trƣng sử dụng tính tốn trọng số (độ quan trọng), mối quan hệ thuộc tính lớp, sau chọn đặc trƣng có trọng số cao ngƣỡng cụ thể Các thuật toán danh mục bao gồm CfsSubsetEval, độ lợi thông tin Chi-Square, - Mơ hình đóng gói (Wrapper) Mơ hình tìm kiếm tập đặc trƣng tốt cách đánh giá chất lƣợng tập đặc trƣng Việc đánh giá chất lƣợng thƣờng sử dụng độ xác phân lớp thuật tốn học - Mơ hình nhúng (Embedded) Mơ hình nhúng kết hợp ƣu điểm mơ hình lọc đóng gói cách sử dụng đồng thời tiêu chí đánh giá độc lập thuật toán học để đánh giá tập đặc trƣng, theo giúp cải tiến hiệu phân lớp Khái niệm phụ thuộc hàm đƣợc đƣa Codd có vai trị quan trọng lý thuyết sở liệu quan hệ Các phụ thuộc hàm hữu ích việc phân tích thiết kế sở liệu quan hệ Tuy nhiên, thực tế, có số giá trị liệu khơng xác số ngoại lệ làm cho phụ thuộc hàm không thỏa Sự phụ thuộc tuyệt đối dƣờng nhƣ nghiêm ngặt ta hình dung tới quan hệ có hàng nghìn bộ, đó, có khoảng vài chục vi phạm phụ thuộc hàm Điều làm tính chất phụ thuộc vốn có thuộc tính (đặc trƣng) liệu Vì vậy, có nhiều nghiên cứu mở rộng khái niệm phụ thuộc hàm thành phụ thuộc hàm xấp xỉ, phụ thuộc cho phép có số lƣợng lỗi định liệu phụ thuộc hàm Các phụ thuộc hàm xấp xỉ giúp ta thấy đƣợc mối quan hệ tiềm ẩn thuộc tính mà cịn giúp ta thuận tiện việc phân tích liệu đánh giá thơng tin [1, 4] Xuất phát từ cách nhìn đó, báo đề xuất phƣơng pháp phân lớp liệu dựa vào phụ thuộc hàm xấp xỉ độ đo lỗi g3 Cách tiếp cận sử dụng phụ thuộc hàm phụ thuộc hàm xấp xỉ để lựa chọn đặc trƣng đƣợc Uncu Turken nghiên cứu [3] Tuy nhiên, nghiên cứu đó, tác giả đề xuất thuật toán dựa vào phụ thuộc hàm truyền thống thuật toán K-láng giềng gần để xác định biến vào quan trọng cho hệ thống với thuộc tính vào có miền giá trị liên tục Ngồi thuật tốn lựa chọn đặc trƣng có khả đáp ứng với nhiễu, phụ thuộc hàm xấp xỉ đƣợc sử dụng kết hợp với giá trị độ thuộc để đối phó với tính khơng chắn liệu Điểm khác biệt báo với nghiên cứu Uncu Turken sử dụng phụ thuộc hàm xấp xỉ với độ đo lỗi g3 để lựa chọn đặc trƣng cho phân lớp Hơn thử nghiệm đƣợc thực liệu thực tế UCI có độ tin cậy cao đánh giá hiệu phƣơng pháp phân lớp [10] Bài báo đƣợc tổ chức nhƣ sau, phần mở đầu, phần II trình bày ngắn gọn kiến thức liên quan phụ thuộc hàm, phụ thuộc hàm xấp xỉ thuật toán khai phá phụ thuộc hàm xấp xỉ mức Phƣơng pháp đề nghị đƣợc mô 450 PHÂN LỚP DỮ LIỆU DỰA VÀO PHƢƠNG PHÁP LỰA CHỌN ĐẶC TRƢNG SỬ DỤNG PHỤ THUỘC HÀM XẤP XỈ tả chi tiết phần III Các kết thử nghiệm phƣơng pháp đƣợc trình bày phần IV cuối kết luận hƣớng phát triển II KIẾN THỨC CHUẨN BỊ A Phụ thuộc hàm Cho tập hữu hạn thuộc tính U = (A1, A2, , An), r quan hệ U, X Y hai tập U Khi X → Y (đọc X xác định Y Y phụ thuộc hàm vào X) với t1, t2 ∈ r mà t1[X] = t2[X] t1[Y] = t2[Y] Hay nói khác đi, với quan hệ r U, thuộc tính Y phụ thuộc hàm vào thuộc tính X với giá trị thuộc tính X xác định giá trị thuộc tính Y Nhƣ vậy, phụ thuộc hàm cho thấy mối tƣơng quan thuộc tính quan hệ Bài toán phát phụ thuộc hàm từ liệu nhận đƣợc nhiều nghiên cứu thiết kế sở liệu quan hệ khai phá tri thức Để khai phá phụ thuộc hàm, ngƣời ta thƣờng sử dụng phƣơng pháp phân lớp tƣơng đƣơng, tức chia ghi quan hệ thành nhóm dựa giá trị khác cho thuộc tính Đối với thuộc tính, số lƣợng nhóm với số giá trị khác cho thuộc tính Mỗi nhóm đƣợc gọi lớp tƣơng đƣơng Một thuật toán tiếng khai phá phụ thuộc hàm thuật toán TANE, chi tiết thuật toán tìm hiểu [9] Trong [4] sử dụng sử dụng SQL để kiểm tra phụ thuộc hàm X → Y Để dễ hiểu hơn, ví dụ sau minh họa việc tìm phụ thuộc hàm Ví dụ 2.1 Cho quan hệ r(R) chứa thuộc tính R = {A, B, C, D, E} đƣợc thể bảng sau: Bảng Quan hệ r(A, B, C, D, E) RawID A 1 2 3 B 2 3 4 C 1 2 D E 1 2 3 Chúng ta xem xét đánh giá xem phụ thuộc hàm ABCE D có hay khơng Áp dụng thuật toán [4] ta dễ xác định đƣợc ABCE D có r hay khơng Mã lệnh viết SQL nhƣ sau: SELECT STR(A,1) + STR(B,1) + STR(C,1) + STR(E,1) AS 'ABCE', COUNT(D) AS 'CountD' FROM r GROUP BY A, B, C, E; Khi thực mã lệnh SQL kết thu đƣợc nhƣ bảng dƣới đây: Bảng Các ghi CountD riêng biệt đƣợc nhóm theo ABCE ABCE 1111 1221 2212 2322 3313 3423 3433 CountD 1 1 1 Ta thấy rằng, phụ thuộc hàm ABCE D tất giá trị CountD phân hoạch Nếu CountD lớn chứng tỏ có nhiều ghi có giá trị khác phân hoạch tƣơng ứng, điều trái với định nghĩa phụ thuộc hàm Trong Bảng cho thấy kết kiểm tra ABCE D CountD = với ABCE = (2, 2, 1, 2) tổ hợp ABCE = (2, 2, 1, 2) xác định giá trị D khác Bảng Các ghi r vi phạm phụ thuộc hàm ABCE D A 2 B 2 C 1 E 2 D Phan Anh Phong, Lê Văn Thành, Nguyễn Hải Yến 451 B Phụ thuộc hàm xấp xỉ Gần nhiều nghiên cứu tập trung tìm mối liên hệ thuộc tính đối tƣợng, có phụ thuộc hàm xấp xỉ Phụ thuộc hàm xấp xỉ mở rộng khái niệm phụ thuộc hàm truyền thống, dùng để biểu diễn mức độ phụ thuộc mức thuộc tính đối tƣợng Về hình thức, phụ thuộc hàm xấp xỉ có dạng (X ⤳ Y), X Y thuộc tính Một ví dụ quen thuộc phụ thuộc hàm xấp xỉ Nationality ⤳ Language, ngôn ngữ ngƣời phụ thuộc hàm xấp xỉ vào quốc tịch ngƣời Nhƣ biết Nationality ⤳ Language khơng phải ln với tất ngƣời nhƣng với mức độ xấp xỉ đó, hay nói khác với mức độ lỗi Để hiểu phụ thuộc hàm xấp xỉ ta xét ví dụ sau Ví dụ 2.2 Cho quan hệ r (A, B, Class) có thuộc tính A, B Class nhƣ Bảng 4: Bảng Quan hệ r (A1, A2, Class) RawID A1 1 2 3 A2 2 0 1 Class A A A A B B C C Ta dễ thấy phụ thuộc hàm A1 → Class khơng đúng, nhiên, ta loại dịng 5, dòng dòng (hoặc loại dòng 5, dịng 8) A1 → Class đúng, thuộc tính Class đƣợc gọi phụ thuộc hàm xấp xỉ vào A1 hay nói cách khác A1 xác định hàm xấp xỉ Class với độ lỗi Khi nghiên cứu phát phụ thuộc hàm xấp xỉ vấn đề xác định độ đo lỗi cho phụ thuộc hàm loại đóng vai trị quan trọng Đã có nhiều tác giả đƣa độ đo lỗi dựa vào nhiều cách khác nhau, chi tiết tham khảo [1, 8] Trong khuôn khổ báo này, giới thiệu độ đo lỗi g3 nhƣ sau Với phụ thuộc hàm xấp xỉ có ghi làm cho phụ thuộc hàm khơng đúng, ngƣời ta gọi ghi trƣờng hợp ngoại lệ Các độ đo phụ thuộc hàm xấp xỉ dựa số lƣợng trƣờng hợp ngoại lệ Một cặp (u, v) r vi phạm phụ thuộc hàm X Y u[X] = v[X] nhƣng u[Y] v[Y] Cặp ghi (u, v) vi phạm phụ thuộc hàm đƣợc gọi cặp ngoại lệ Nhƣ vậy, phụ thuộc hàm r khơng có cặp (u, v) r ngoại lệ Một ghi u thuộc r đƣợc gọi vi phạm phụ thuộc hàm (bản ghi u ngoại lệ) thành phần cặp ghi ngoại lệ Ký hiệu g3 số ghi ngoại lệ r mà loại bỏ chúng khỏi r phụ thuộc hàm với quan hệ r Khi đó, g3 đƣợc hình thức hóa nhƣ sau: G3(X → Y, r) = |r| − max{|s| : s ⊆ r, s |= X → Y} ( 2.1) Trong công thức 2.1, |r| |s| tƣơng ứng số ghi r s Độ đo lỗi g3: Cho quan hệ r(U) (X→Y) phụ thuộc hàm U Gọi s ⊆ r quan hệ cho có số cần phải loại bỏ khỏi r để r - s thỏa mãn phụ thuộc hàm (X→Y) Khi tỷ số |s| |r| đƣợc gọi độ đo lỗi phụ thuộc hàm (X→ Y) r, ký hiệu g3(X→ Y, r) Nhƣ vậy: g3(X → Y, r) = G3(X → Y)/|r| (2.2) Dễ dàng chứng minh đƣợc g3 nằm đoạn [0, 1] Giá trị g3 nhỏ phụ thuộc hàm xấp xỉ có ý nghĩa mối quan hệ phụ thuộc X Y Có nhiều thuật tốn để tìm phụ thuộc hàm xấp xỉ (PTHXX), việc khai phá tất tập phụ thuộc hàm xấp xỉ phức tạp, chi tiết tham khảo [4, 9] Để đơn giản phù hợp với mục đích nghiên cứu báo này, chúng tơi đề xuất cách tìm phụ thuộc hàm xấp xỉ mức xác định thuộc tính phân lớp Cụ thể hơn, phụ thuộc hàm xấp xỉ mà vế phải có thuộc tính phân lớp, cịn vế trái thuộc tính mơ tả liệu, theo lỗi g3 Thuật toán sau mơ tả bƣớc để tìm tập phụ thuộc hàm xấp xỉ mức xác định thuộc tính phân lớp với lỗi g3 Thuật toán Xác định tập phụ thuộc hàm xấp xỉ mức xác định thuộc tính phân lớp theo lỗi g3 Đầu vào: Bộ liệu D có M+1 thuộc tính, r(Ai, Class), Ai với i = 1, …, M thuộc tính mơ tả liệu, Class thuộc tính phân lớp, N số mẫu liệu Đầu ra: Tập phụ thuộc hàm xấp xỉ mức 1: PTHXX = {Ai ⤳ Class, g3} Phƣơng pháp: 452 PHÂN LỚP DỮ LIỆU DỰA VÀO PHƢƠNG PHÁP LỰA CHỌN ĐẶC TRƢNG SỬ DỤNG PHỤ THUỘC HÀM XẤP XỈ Với thuộc tính Ai r thực công việc sau: Bước 1.1 Khởi tạo: temp1 = (Ai1, Class1, value1=1) 1.2 For n = to N do: if cặp (Ain, Classn) có temp1: tăng value1 lên else: thêm (Ain, Classn, 1) vào temp1 Bước 2.1 Khởi tạo temp2 = (Ai1, value1), K số hàng temp1 2.2 For k = to K do: if Aik chƣa có temp2: thêm (Aik, valuek) vào temp2 else if valuek > value Ai temp2: value Ai temp2 = valuek Bước 3: SoBanGhiHopLe = tổng value temp2 Bước Tính g3 cho (Ai ⤳ Class) theo cơng thức g3 = (1- SoBanGhiHopLe/N) Bước PTHXX[i] (Ai, Class, g3) Độ phức tạp thuật toán 1: O(M*N) với M số thuộc tính mơ tả liệu D, N số mẫu liệu D III PHƢƠNG PHÁP ĐỀ NGHỊ Phần trình bày chi tiết phƣơng pháp phân lớp liệu dựa vào kỹ thuật lựa chọn thuộc tính sử dụng phụ thuộc hàm xấp xỉ với độ đo lỗi g3 Ý tƣởng phƣơng pháp dựa vào thuật tốn tìm phụ thuộc hàm xấp xỉ lỗi g3 tƣơng ứng để xác định mối liên hệ thuộc tính mơ tả với thuộc tính phân lớp tập liệu Tùy theo mức độ lỗi g3 mà ta chọn thuộc tính liên quan để mơ hình hóa phân lớp Độ dự báo xác Accuray phân lớp ứng với tập thuộc tính đƣợc lƣu lại để ngƣời dùng có nhìn tổng quan Sau đó, tập thuộc tính có hiệu Accuracy cao đƣợc chọn Các phụ thuộc hàm xấp xỉ với lỗi g3 nhỏ xem mối liên hệ có giá trị tin cậy cao, phụ thuộc hàm xấp xỉ mẫu có xuất thƣờng xuyên từ tập liệu huấn luyện chúng đƣợc cho chứa đặc trƣng quan trọng thuộc tính phân lớp Phƣơng pháp đề xuất đƣợc hình thức hóa thuật tốn sau Thuật toán Phân lớp liệu dựa vào phƣơng pháp lựa chọn đặc trƣng sử dụng phụ thuộc hàm xấp xỉ Đầu vào: - Bộ liệu Dataset (Ai, Class), với i = 1, 2, …, M Bộ liệu có M +1 đặc trƣng, Class thuộc - tính phân lớp, M đặc trƣng cịn lại thuộc tính mơ tả đối tƣợng K = 10, dùng để chia liệu theo K-folds Đầu ra: Tập đặc trƣng đƣợc chọn Ak tƣơng ứng với độ dự báo phân lớp Accuracy cao Phƣơng pháp: Bước Đọc liệu FS_Dataset = Dataset (Ai, Class), với i = 1, 2, …, M Bước Đánh giá hiệu Accuracy phân lớp với tất đặc trƣng theo công thức 3.1: 2.1 Áp dụng thuật toán Cây định Naïve Bayes để phân lớp liệu FS_Dataset với k-folds 2.2 Lƣu đặc trƣng Ai từ FS_Dataset hiệu Accuracy vào FS_Accuracy Bước Tìm phụ thuộc hàm xấp xỉ mức xác định thuộc tính phân lớp Class lỗi g3 tƣơng ứng: 3.1 Với đặc trƣng Aj FS_dataset, với j = 1, 2, …, M tìm phụ thuộc hàm xấp xỉ dạng Aj ⤳ Class lỗi g3 theo Thuật toán1 3.2 Lƣu phụ thuộc hàm xấp xỉ tính Bước 3.1 vào tập PTHXX Bước Trong số thuộc tính FS_Dataset > thì: 4.1 Tìm độ lỗi g3 lớn tập PTHXX có dạng Aj ⤳ Class, Mxg3 = Max(g3) 4.2 Loại phụ thuộc hàm xấp xỉ từ PTHXX có g3 = Mxg3 4.3 Loại đặc trƣng Aj FS_Dataset 4.4 Áp dụng thuật toán Cây định Naïve Bayes để phân lớp liệu FS_Dataset với k-folds 4.5 Lƣu thuộc tính cịn lại FS_Dataset độ dự báo xác Accuray vào FS_Accuracy Bước Đƣa tập thuộc tính Ak hiệu Accuracy lớn tƣơng ứng FS_Accuracy Phan Anh Phong, Lê Văn Thành, Nguyễn Hải Yến 453 IV THỬ NGHIỆM A Phương pháp thử nghiệm Để đánh giá tính hiệu phƣơng pháp đề xuất, báo sử dụng thuật tốn phân lớp, theo hiệu thuật toán phân lớp cho thấy ý nghĩa phƣơng pháp lựa chọn đặc trƣng Hiệu phân lớp sử dụng lựa chọn đặc trƣng theo phụ thuộc hàm xấp xỉ đƣợc so sánh với các phân lớp tƣơng ứng sử dụng thuật toán lựa chọn chọn đặc CfsSubsetEval độ lợi thông tin (Information Gain) Độ đo hiệu cho phƣơng pháp số lƣợng đặc trƣng đƣợc chọn thấp tốt độ xác thuật toán phân lớp cao tốt Các thử nghiệm đƣợc thực máy tính với cấu hình core i5-8250U, 1.80 GHz, GB RAM ngơn ngữ lập trình python Phƣơng pháp đề nghị đƣợc thử nghiệm với số liệu tiêu biểu phân lớp liệu từ kho UCI [10] Chi tiết liệu đƣợc mô tả Bảng Bảng Chi tiết liệu thử nghiệm Bộ liệu Ecoli Diabetes Heart Zoo Số ghi 336 768 303 101 Số đặc trƣng 9 14 18 Có nhiều phƣơng pháp để đánh giá hiệu phân lớp, báo này, việc đánh giá hiệu phân lớp thuật tốn Nạve Bayes Cây định liệu đƣợc cho theo kỹ thuật k-folds Tập mẫu ban đầu đƣợc phân chia ngẫu nhiên tới k tập Với k tập mẫu này, mẫu đơn đƣợc dùng nhƣ liệu đánh giá cho việc kiểm tra mơ hình k-1 tập mẫu cịn lại đƣợc sử dụng nhƣ liệu huấn luyện Quá trình đánh giá chéo đƣợc lặp lại k lần Lấy trung bình cộng k kết dự báo thu đƣợc theo cơng thức 3.1 ta có đánh giá hiệu cho phân lớp Các kết thử nghiệm mục sử dụng tham số k =10 B Kết thử nghiệm Khi thực phƣơng pháp đề nghị, ngƣỡng lỗi g3 cho liệu đƣợc xác định nhƣ Bảng sau Bảng Ngƣỡng lỗi g3 lựa chọn thuộc tính cho liệu Bộ liệu Ecoli Diabetes Heart Zoo Ngƣỡng lỗi g3 0,43 0,30 0,24 0,50 Số đặc trƣng đƣợc chọn 4 Bảng Bảng thể tính xác kết dự báo thuật toán phân lớp liệu theo phƣơng pháp lựa chọn đặc trƣng khác Ngoài ra, bảng số để dấu ngoặc tròn (.) dòng số thuộc tính liệu sau áp dụng phƣơng pháp lựa chọn đặc trƣng cho kết dự báo tốt tƣơng ứng Bảng Hiệu thuật toán phân lớp Cây định với phƣơng pháp lựa chọn đặc trƣng Bộ liệu Ecoli Diabetes Heart Zoo Tất thuộc tính 84,2262 % 73,83% 78,5479 % 92,08% CfsSubsetEval 84,2262% (6) 74,86% (4) 78,2178% (7) 93,07% (9) Information Gain 82,1429 % (4) 73,70% (5) 81,1881% (5) 95,05% (13) Phƣơng pháp đề nghị 79,4643 % (4) 75,13% (4) 81,1881 % (5) 96,04% (9) Với thuật toán Cây định phƣơng pháp lựa chọn đặc trƣng theo phụ thuộc hàm xấp xỉ cho kết dự báo tốt phƣơng pháp CfsSubsetEval độ lợi thông tin liệu Diabetes, Heart Zoo Với thuật tốn phân lớp Nạve Bayes phƣơng pháp lựa chọn đặc trƣng theo phụ thuộc hàm xấp xỉ cho kết dự báo tốt liệu Zoo, tốt với liệu Diabetes Trong đó, với liệu Heart Ecoli cho kết chƣa đƣợc nhƣ mong muốn Tuy nhiên, với phân lớp Naïve Bayes với phƣơng pháp lựa chọn đặc trƣng sử dụng phụ thuộc hàm xấp xỉ khả quan phƣơng pháp lựa chọn đặc trƣng theo độ lợi thông tin Chi tiết kết dự báo số đặc trƣng đƣợc chọn xem Bảng Bảng Một thể trực quan hiệu phƣơng pháp phân lớp liệu đƣợc trình bày Hình Hình 454 PHÂN LỚP DỮ LIỆU DỰA VÀO PHƢƠNG PHÁP LỰA CHỌN ĐẶC TRƢNG SỬ DỤNG PHỤ THUỘC HÀM XẤP XỈ Bảng Hiệu thuật tốn phân lớp Nạve Bayes với phƣơng pháp lựa chọn đặc trƣng Bộ liệu Ecoli Diabetes Heart Zoo Tất thuộc tính 85,4167 % 76,3021% 82,8383 % 97,0297 % CfsSubsetEval 85,4167 % (6) 77,48% (4) 83,1683 % (7) 97,0297 % (9) Information Gain 85,4167 % (4) 75,2604 % (5) 82,8383% (6) 97,0297 % (9) Phƣơng pháp đề nghị 81,9429 % (4) 77,2078 % (5) 80,7634 % (5) 99,00 % (9) Qua thử nghiệm cho thấy phƣơng pháp phân lớp dựa lựa chọn thuộc tính sử dụng phụ thuộc hàm xấp xỉ phù hợp với liệu có nhiều thuộc tính rời rạc Đặc điểm liệu Ecoli có nhiều thuộc tính liên tục nên phƣơng pháp đề nghị cho hiệu phân lớp hai phƣơng pháp lựa chọn đặc trƣng Điểm yếu dễ hiểu khái niệm phụ thuộc hàm xấp xỉ đƣợc định nghĩa dựa so sánh tuyệt đối giá trị Accuracy (%) 100 80 60 40 20 Ecoli Diabetes Heart Zoo Tất thuộc tính CfsSubsetEval Information Gain Phương pháp đề nghị Hình Kết tính xác thuật toán phân lớp định với kỹ thuật lựa chọn đặc trƣng Accuracy (%) 100 80 60 40 20 Ecoli Diabetes Heart Zoo Tất thuộc tính CfsSubsetEval Information Gain Phương pháp đề nghị Hình Kết tính xác thuật tốn phân lớp Naïve Bayes với kỹ thuật lựa chọn đặc trƣng V KẾT LUẬN Lựa chọn đặc trƣng dựa vào phụ thuộc hàm xấp xỉ cách tiếp cận tự nhiên để giữ lại đặc trƣng liên quan, theo loại bỏ đặc trƣng dƣ thừa liên quan liệu Kết việc lựa chọn đặc trƣng theo phƣơng pháp tập đặc trƣng từ tập đặc trƣng ban đầu nhƣng đảm bảo tính chất liệu gốc Qua kết thử nghiệm với liệu tiêu biểu từ UCI chứng tỏ đƣợc khả ứng dụng phƣơng phƣơng pháp đề nghị với liệu có nhiều thuộc tính rời rạc Với liệu có nhiều thuộc tính liên tục phƣơng pháp đề xuất có hiệu phân lớp chƣa tốt, từ đặt vấn đề cần giải tiếp theo, nghiên cứu phụ thuộc hàm xấp xỉ mở rộng với độ đo lỗi khác thử nghiệm với liệu có số chiều cao TÀI LIỆU THAM KHẢO [1] J, Atoum, “Approximate Functional Dependencies Mining Using Association Rules Specificity Interestingness Measure”, British Journal of Mathematics & Computer Science, 15 (5), 1-10, 2016 [2] J, Li, K, Cheng, S, Wang, F, Morstatter, R, P, Trevino, J, Tang, & H, Liu, “Feature Selection: A Data Perspective”, ACM Computing Surveys, Vol 50, No 6, pp 1-73, 2016, Phan Anh Phong, Lê Văn Thành, Nguyễn Hải Yến 455 [3] O, Uncu, I,B, Turksen, “Two step feature selection: approximate functional dependency approach using membership values”, In Proceeding(s) of FUZZ-IEEE Conference, pp 1643 - 1648, 2004 [4] V, Matos, B, Grasser, “SQL-based Discovery of Exact and Approximate Functional Dependencies”, SIGCSE Bulletin, Vol 36, No 4, pp 58-63, 2004 [5] I, Feddaoui, F, Felhi, J, Akaichi, “EXTRACT: new extraction algorithm of association rules from frequent itemsets”, In Proceeding(s) of the IEEE/ACM international conference on advances in social networks analysis and mining (ASONAM), pp 752-756, 2016 [6] O, Villacampa, “Feature Selection and Classification Methods for Decision Making: A Comparative Analysis”, PhD, Thesis, Nova Southeastern University, 2015 [7] I, Guyon, and A, Elisseeff, “An Introduction to Feature Extraction, Feature Extraction”, Foundations and Applications, 207(10), 740, 2006 [8] C, Giannella, E, Robertson, “On an Information Theoretic Approximation Measure for Functional Dependencies”, Computer Science Department, Indiana University, Bloomington, 2000 [9] J, Atoum, “Mining approximate FDs from databases based on minimal cover and equivalent classes”, European Journal of Scientific Research, 2009 [10] https://archive,ics,uci,edu/ml/index,php DATA CLASSIFICATION BASED ON FEATURE SELECTION WITH THE APPROXIMATE FUNCTIONAL DEPENDENCE Phan Anh Phong, Le Van Thanh, Nguyen Hai Yen ABSTRACT: Feature selection is a technique of selecting a subset of relevant and related features from the original dataset by eliminating noise and redundant features in order to increase performance as well as reduce internal costs in the data mining or machine learning process, This paper proposed a new data classification method based on approximate functional dependence and error measure g3, The classification experiments on the actual datasets indicate the appropriate of the research direction ... phƣơng pháp phân lớp liệu đƣợc trình bày Hình Hình 454 PHÂN LỚP DỮ LIỆU DỰA VÀO PHƢƠNG PHÁP LỰA CHỌN ĐẶC TRƢNG SỬ DỤNG PHỤ THUỘC HÀM XẤP XỈ Bảng Hiệu thuật toán phân lớp Naïve Bayes với phƣơng pháp. .. phƣơng pháp đề xuất, báo sử dụng thuật toán phân lớp, theo hiệu thuật tốn phân lớp cho thấy ý nghĩa phƣơng pháp lựa chọn đặc trƣng Hiệu phân lớp sử dụng lựa chọn đặc trƣng theo phụ thuộc hàm xấp xỉ. .. toán Phân lớp liệu dựa vào phƣơng pháp lựa chọn đặc trƣng sử dụng phụ thuộc hàm xấp xỉ Đầu vào: - Bộ liệu Dataset (Ai, Class), với i = 1, 2, …, M Bộ liệu có M +1 đặc trƣng, Class thuộc - tính phân