1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt luận án Tiến sĩ Khoa học máy tính: Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử

26 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Luận án xây dựng mô hình học phân lớp dữ liệu bằng cây quyết định mờ và phương pháp trích chọn đặc trưng để chọn tập mẫu huấn luyện cho quá trình học phân lớp. Đề xuất phương pháp xử lý giá trị ngôn ngữ của các thuộc tính chưa thuần nhất dựa vào đại số gia tử. Từ đó đề xuất các thuật toán học bằng cây quyết định mờ nhằm đạt hiệu quả trong dự đoán và đơn giản đối với người dùng.

ĐẠI HỌC HUẾ TRƢỜNG ĐẠI HỌC KHOA HỌC LÊ VĂN TƢỜNG LÂN PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH MỜ DỰA TRÊN ĐẠI SỐ GIA TỬ CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học PGS.TS Nguyễn Mậu Hân TS Nguyễn Công Hào HUẾ – NĂM 2018 MỞ ĐẦU Lý chọn đề tài Trong thực tế, khái niệm mờ tồn nên với việc quan niệm đối tượng sử dụng phải rõ ràng logic cổ điển không không đủ miêu tả vấn đề giới thực Năm 1965, L A Zadeh đề xuất hình thức hóa tốn học khái niệm mờ, từ lý thuyết tập mờ hình thành ngày thu hút nghiên cứu nhiều tác giả Năm 1990, N.C Ho & W Wechsler khởi xướng phương pháp tiếp cận đại số đến cấu trúc tự nhiên miền giá trị biến ngôn ngữ Theo cách tiếp cận này, giá trị ngôn ngữ biến ngôn ngữ nằm cấu trúc đại số gọi đại số gia tử (ĐSGT) Trên sở đó, có nhiều nghiên cứu nhiều tác giả lĩnh vực: điều khiển mờ lập luận mờ, sở liệu mờ, phân lớp mờ,… cho nhiều kết khả quan, có khả ứng dụng tốt Hiện nay, khai phá liệu toán cần ưu tiên cần giải mà phân lớp liệu trình quan trọng khai phá liệu Đó q trình chia đối tượng liệu thành lớp dựa nét đặc trưng tập liệu Các phương pháp thường sử dụng trình học phân lớp như: thống kê, mạng nơron, định,… định giải pháp hữu hữu hiệu Đã có nhiều nghiên cứu để xây dựng mà bật thuật toán học quy nạp CART, ID3, C4.5, SLIQ, SPRINT, LDT, LID3, Tuy vậy, cách tiếp cận cho việc học phân lớp định nhiều vấn đề cần giải quyết: - Xây dựng định dựa khái niệm Entropi thông tin theo phương pháp truyền thống ID3, C4,5, CART, SLIQ, SPRINT,…cho thuật toán có độ tạp thấp khả dự đốn chưa cao, dẫn đến tình trạng q khớp kết Thêm vào đó, phương pháp sử dụng để huấn luyện dự đốn tập mẫu có chứa giá trị mờ, mà việc lưu trữ liệu mờ tất yếu kho liệu nghiệp vụ - Một hướng tiếp cận thông qua lý thuyết tập mờ để tính lợi ích thơng tin thuộc tính mờ cho q trình phân lớp Cách giải giá trị mờ tập huấn luyện thông qua việc xác định hàm thuộc, từ giá trị tham gia vào trình huấn luyện nên giải hạn chế bỏ qua giá trị liệu mờ cách tiếp cận phân lớp rõ Tuy vậy, gặp phải hạn chế xuất phát từ thân nội lý thuyết tập mờ: hàm thuộc chúng không sánh với nhau, xuất sai số lớn trình xấp xỉ, phụ thuộc vào chủ quan, giá trị ngôn ngữ thiếu sở đại số làm tảng - Theo cách tiếp cận xây dựng định ngôn ngữ, nhiều tác giả xây dựng cách thức xác định cho giá trị ngôn ngữ tập liệu mờ xây dựng phương pháp LID3 Việc xây dựng nhãn ngôn ngữ cho giá trị mờ dựa vào xác suất nhãn liên kết giữ giá trị rõ biết, hướng tiếp cận làm giảm sai số đáng kể cho trình huấn luyện Tuy vậy, hướng tiếp cận phát sinh đa phân có phân chia lớn theo chiều ngang nút ngôn ngữ - Phương pháp định lượng ngữ nghĩa theo điểm dựa ĐSGT, nhằm liệu giá trị số hay giá trị ngơn ngữ Bài tốn xây dựng định mờ lúc sử dụng thuật tốn học theo cách tiếp cận định rõ ĐSGT xây dựng Tuy vậy, hướng tiếp cận số vấn đề như: xuất sai số lớn theo điểm mờ, khó đưa dự đốn có đan xen điểm phân chia mờ kết quả, phụ thuộc vào miền trị [min, max] từ miền giá trị rõ thuộc tính mờ Tất thuật tốn học phân lớp định có phụ thuộc lớn vào việc chọn tập mẫu người huấn luyện Trong kho liệu nghiệp vụ, nhiều thông tin phục vụ tốt cho việc dự đoán nhiều thơng tin khác có ý nghĩa lưu trữ thơng thường, phục vụ cho việc diễn giải thông tin Chúng làm phức tạp mẫu nên tăng chi phí cho trình huấn luyện, quan trọng chúng gây nhiễu nên xây dựng khơng có hiệu cao Xuất phát từ việc tìm hiểu, nghiên cứu đặc điểm thách thức vấn đề phân lớp liệu định, đề tài: “Phân lớp liệu định mờ dựa đại số gia tử” vấn đề lớn cần giải Đối tƣợng phạm vi nghiên cứu Luận án tập trung nghiên cứu mơ hình cho q trình học từ tập mẫu huấn luyện, nghiên cứu phương pháp xử lý giá trị ngôn ngữ xây dựng thuật toán học phân lớp định mờ đạt hiệu dự đoán đơn giản người dùng Phƣơng pháp nghiên cứu Luận án sử dụng phương pháp tổng hợp, hệ thống hóa phương pháp thực nghiệm khoa học Mục tiêu nội dung luận án Sau nghiên cứu phân tích vấn đề phân lớp liệu định nghiên cứu nước, luận án đưa mục tiêu nghiên cứu sau: - Xây dựng mơ hình học phân lớp liệu định mờ phương pháp trích chọn đặc trưng để chọn tập mẫu huấn luyện cho trình học phân lớp Đề xuất phương pháp xử lý giá trị ngôn ngữ thuộc tính chưa dựa vào ĐSGT - Đề xuất thuật toán học định mờ nhằm đạt hiệu dự đoán đơn giản người dùng Để đáp ứng cho mục tiêu nghiên cứu trên, luận án tập trung nghiên cứu nội dung sau: - Nghiên cứu thuật toán học truyền thống CART, ID3, C4.5, C5.0, SLIQ, SPRINT tập mẫu huấn luyện để tìm phương pháp học phù hợp - Nghiên cứu xây dựng mơ hình học phân lớp liệu quyết, xây dựng phương pháp trích chọn đặc trưng để chọn tập mẫu huấn luyện cho việc học định từ kho liệu nghiệp vụ - Nghiên cứu để đề xuất phương pháp xử lý giá trị ngôn ngữ thuộc tính chưa tập mẫu dựa vào ĐSGT - Đề xuất thuật toán học phân lớp định mờ đạt hiệu dự đoán đơn giản người dùng Ý nghĩa khoa học thực tiễn Ý nghĩa khoa học Những đóng góp luận án khoa học: - Xây dựng mơ hình học phân lớp liệu định mờ từ tập mẫu huấn luyện Đề xuất phương pháp trích chọn đặc trưng để chọn tập mẫu huấn luyện cho việc học phân lớp định từ kho liệu, nhằm hạn chế phụ thuộc ý kiến chuyên gia trình chọn tập mẫu huấn luyện - Đề xuất phương pháp xử lý giá trị ngơn ngữ thuộc tính chưa tập mẫu huấn luyện dựa vào chất ĐSGT - Luận án xây dựng hàm mục tiêu toán phân lớp định, sử dụng tính có thứ tự giá trị ngơn ngữ ĐSGT Đưa khái niệm đối sánh khoảng mờ, khoảng mờ lớn để từ đề xuất thuật toán học định mờ MixC4.5, FMixC4.5, HAC4.5 HAC4.5* cho toán phân lớp, nhằm góp phần cải thiện, nâng cao độ xác trình học phân lớp liệu định cho toán phân lớp liệu Ý nghĩa thực tiễn - Góp phần chứng tỏ khả ứng dụng phong phú ĐSGT biểu diễn xử lý thông tin mờ, không chắn - Luận án góp phần vào việc giải vấn đề định lượng cho giá trị ngôn ngữ mà không phụ thuộc cố định vào miền trị Min-Max giá trị kinh điển thuộc tính mờ tập mẫu - Dựa khái niệm khoảng mờ khoảng mờ lớn nhất, luận án đề xuất thuật tốn cho q trình học cây, nhằm tăng khả dự đoán cho toán phân lớp liệu định Làm phong phú thêm phương pháp học cho tốn phân lớp nói chung phân lớp định nói riêng - Luận án sử dụng làm tài liệu tham khảo cho sinh viên đại học, học viên cao học ngành Công nghệ thông tin nghiên cứu học phân lớp định Bố cục luận án Ngoài phần mở đầu, kết luận tài liệu tham khảo, luận án chia làm chương nội dung Chương 1: Cơ sở lý thuyết đại số gia tử tổng quan phân lớp liệu định Tập trung phân tích đánh giá cơng trình nghiên cứu cơng bố gần đây, vấn đề tồn để xác định mục tiêu nội dung cần giải Chương 2: Phân lớp liệu định mờ theo phương pháp đối sánh điểm mờ dựa đại số gia tử Tập trung phân tích ảnh hưởng tập mẫu huấn luyện hiệu thu Trình bày phương pháp nhằm trích chọn tập mẫu đặc trưng cho trình huấn luyện Phân tích, đưa khái niệm tập mẫu không nhất, giá trị ngoại lai xây dựng thuật tốn để cho thuộc tính Đề xuất thuật tốn MixC4.5 FMixC4.5 phục vụ trình học định tập mẫu không Chương 3: Phương pháp huấn luyện định mờ cho toán phân lớp liệu dựa đối sánh khoảng mờ Chương luận án tập trung nghiên cứu trình học định mờ nhằm đạt hai mục tiêu fh(S) → max fn(S) → Trên sở nghiên cứu mối tương quan khoảng mờ, luận án đề xuất phương pháp đối sánh dựa khoảng mờ xây dựng thuật toán học phân lớp định dựa khoảng mờ HAC4.5, xây dựng phương pháp nhằm định lượng cho giá trị thuộc tính khơng nhất, chưa xác định Min-Max, tập mẫu Luận án đề xuất khái niệm khoảng mờ lớn nhất, thiết kế thuật toán HAC4.5* nhằm đồng thời đạt mục tiêu nêu Các kết luận án báo cáo hội nghị khoa học senimar, cơng bố cơng trình khoa học đăng hội nghị, tạp chí chuyên ngành nước: 01 đăng tạp chí Khoa học Cơng nghệ trường Đại học Khoa học Huế; 01 đăng tạp chí Khoa học Đại học Huế; 01 đăng kỷ yếu Hội thảo quốc gia FAIR; 02 đăng Chuyên san Các cơng trình nghiên cứu, phát triển ứng dụng Cơng nghệ thơng tin & Truyền thơng, tạp chí CNTT &TT; 01 đăng tạp chí chuyên ngành Tin học Điều khiển, 01 đăng tạp chí quốc tế IJRES Chƣơng CƠ SỞ LÝ THUYẾT VỀ ĐẠI SỐ GIA TỬ VÀ TỔNG QUAN PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 1.1 Lý thuyết tập mờ 1.2 Đại số gia tử 1.2.1 Khái niệm đại số gia tử 1.2.2 Các hàm đo đại số gia tử 1.2.3 Một số tính chất hàm đo 1.2.4 Khoảng mờ mối tƣơng quan khoảng mờ Định nghĩa 1.18 Hai khoảng mờ gọi nhau, ký hiệu I(x) = I(y) chúng xác định giá trị (x = y), tức ta có IL(x) = IL(y) IR(x) = IR(y) Trong ký hiệu IL(x) IR(x) điểm mút trái phải khoảng mờ I(x) Ngược lại, ta gọi chúng hai khoảng mờ khác ký hiệu I(x)  I(y) Định nghĩa 1.19 Cho ĐSGT X = (X, G, H,  ), với x, y  X: Nếu IL(x) ≤ IL(y) IR(x) ≥ IL(y) ta nói y x có mối tương quan I(y)  I(x), ngược lại ta nói I(y)  I(x) Khi I(y)  I(x), với x1  X giả sử x < x1, |I(y) ∩ I(x)| ≥ | I(y)|/£ với £ số đoạn I(xi)  [0, 1] cho I(y) ∩ I(xi) ≠  ta nói y có mối tương quan đối sánh theo x Ngược lại, |I(y) ∩ Độ xác I(x1)| ≥ | I(y)|/£ ta nói y có mối tương quan đối sánh theo x1 1.3 Phân lớp liệu định 1.3.1 Bài toán phân lớp khai phá liệu Cho U = {A1, A2,…, Am} tập có m thuộc tính, Y = {y1, , yn} tập nhãn lớp; với D = A1 × × Am tích Đề-các miền m thuộc tính tương ứng, có n số lớp N số mẫu liệu Mỗi liệu di ∈ D thuộc lớp yi ∈ Y tương ứng tạo thành cặp (di , yi) ∈ (D, Y) 1.3.2 Cây định Một định mô hình logic biểu diễn cây, cho biết giá trị biến mục tiêu dự đoán cách dùng giá trị tập biến dự đoán Ta cần xây dựng định, ký hiệu S, để phân lớp S đóng vai trị ánh xạ từ tập liệu vào tập nhãn, S : D → Y (1.4) 1.3.3 Lợi ích thơng tin tỷ lệ lợi ích thơng tin 1.3.4 Vấn đề q khớp mơ hình định Định nghĩa 1.20 Cho giả thiết h ứng với mơ hình định, ta nói khớp với tập liệu huấn luyện, tồn giả thiết h’ với h có sai số nhỏ tức độ xác lớn h’ tập liệu huấn luyện, h’ có sai số nhỏ h tập liệu kiểm tra Trên tập huấn luyện Trên tập kiểm tra h ’ h Kích thước (số nút cây) Định nghĩa 1.21 Cây định gọi dàn trải tồn nút có số nhánh phân chia lớn tích |Y| với chiều cao 1.4 Phân lớp liệu định mờ 1.4.1 Các hạn chế phân lớp liệu định rõ Mục tiêu cách tiếp cận dựa vào tập huấn luyện với miền liệu xác định cụ thể, xây dựng phương pháp học định với phân chia rõ ràng theo ngưỡng giá trị nút phân chia  Hƣớng tiếp cận dựa vào việc tính lợi ích thơng tin thuộc tính: dựa vào khái niệm Entropi thơng tin để tính lợi ích thông tin tỷ lệ lợi ích thông tin thuộc tính thời điểm phân chia tập mẫu huấn luyện, từ lựa chọn thuộc tính tương ứng có lợi ích thơng tin lớn làm điểm phân chia Nếu thuộc tính chọn có kiểu rời rạc phân lớp theo giá trị phân biệt chúng, cịn có giá trị liên tục tìm ngưỡng phép tách để chia thành tập theo ngưỡng Việc tìm ngưỡng cho phép tách dựa theo tỷ lệ lợi ích thơng tin ngưỡng tập huấn luyện nút Tuy hướng tiếp cận cho thuật tốn có độ phức tạp thấp việc phân chia k-phân thuộc tính rời rạc làm cho số nút cấp tăng lên nhanh, làm tăng chiều rộng cây, dẫn đến việc dàn trải theo chiều ngang nên dễ xảy tình trạng q khớp, khó để dự đốn  Hƣớng tiếp cận dựa vào việc tính hệ số Gini thuộc tính: dựa vào việc tính hệ số Gini tỷ lệ hệ số Gini thuộc tính để lựa chọn điểm phân chia cho tập huấn luyện thời điểm Theo cách tiếp cận này, khơng cần đánh giá thuộc tính mà cần tìm điểm tách tốt cho thuộc tính Tuy nhiên, thời điểm phân chia với thuộc tính rời rạc, ln lựa chọn cách phân chia theo nhị phân tập hợp SLIQ nhị phân theo giá trị SPRINT nên kết cân xứng phát triển nhanh theo chiều sâu Thêm vào đó, thời điểm phải tính số lượng lớn hệ số Gini cho giá trị rời rạc phí độ phức tạp tính tốn cao Thêm vào đó, việc học phân lớp định theo hướng tiếp cận đòi hỏi tập mẫu huấn luyện phải chứa liệu kinh điển Tuy nhiên, chất tồn khái niệm mờ giới thực nên điều kiện không đảm bảo sở liệu hiên đại Vì vậy, việc nghiên cứu toán phân lớp liệu định mờ vấn đề tất yếu 1.4.2 Bài toán phân lớp liệu định mờ Cho toán phân lớp định S : D → Y (1.4), Aj  D thuộc tính mờ D ta có tốn phân lớp định mờ Mơ hình định S phải đạt mục tiêu hiệu phân lớp cao, tức sai số phân lớp cho liệu có nút có khả dự đốn cao, khơng xảy tình trạng q khớp 1.4.3 Một số vấn đề toán phân lớp liệu định mờ Nếu ta gọi fh(S) hàm đánh giá tính hiệu trình dự đốn, fn(S) hàm đánh giá tính đơn giản cây, lúc mục tiêu toán phân lớp định mờ: S : D → Y nhằm đạt fh(S) → max fn(S) → (1.13) Hai mục tiêu khó đạt đồng thời Khi số nút giảm đồng nghĩa với lượng tri thức toán giảm nguy phân lớp sai tăng lên, có nhiều nút gây q khớp thơng tin q trình phân lớp Các hướng tiếp cận nhằm mục đích xây dựng mơ hình định hiệu dựa tập huấn luyện cịn gặp khó khăn cần khắc phục như: khả dự đoán chưa cao, phụ thuộc vào tri thức chuyên gia tập mẫu huấn luyện chọn, tính quán tập mẫu, Để giải vấn đề này, luận án tập trung nghiên cứu mơ hình giải pháp học định dựa ĐSGT nhằm huấn luyện định hiệu Chƣơng PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH MỜ THEO PHƢƠNG PHÁP ĐỐI SÁNH ĐIỂM MỜ DỰA TRÊN ĐẠI SỐ GIA TỬ 2.1 Giới thiệu Với mục tiêu fh(S) → max fn(S) → toán học phân lớp định mờ S : D → Y, gặp nhiều vấn đề cần giải như: Trong kho liệu nghiệp vụ, liệu lưu trữ đa dạng chúng phục vụ nhiều cơng việc khác Nhiều thuộc tính cung cấp thơng tin có khả dự đốn có nhiều thuộc tính khơng có khả phản ánh thơng tin cần dự đoán Tất phương pháp học quy nạp định CART, ID3, C4.5, SLIQ, SPRINT,… điều cần đến quán tập mẫu Tuy nhiên toán phân lớp định mờ, cịn có xuất thuộc tính chứa giá trị ngơn ngữ, tức Ai  D có miền trị 𝐷𝑜𝑚(𝐴𝑖 ) = 𝐷𝐴𝑖  𝐿𝐷𝐴𝑖 , với 𝐷𝐴𝑖 tập giá trị kinh điển Ai 𝐿𝐷𝐴𝑖 tập giá trị ngôn ngữ Ai Trong trường hợp này, thuật toán học quy nạp không xử lý liệu “lỗi” nằm miền giá trị 𝐿𝐷𝐴𝑖 Việc sử dụng ĐSGT để định lượng cho giá trị ngôn ngữ thường dựa vào miền giá trị rõ thuộc tính xét tức ta tìm thấy miền trị [min, max] từ miền giá trị rõ có, việc tìm miền trị lúc thuận lợi 2.2 Phƣơng pháp chọn tập mẫu huấn luyện đặc trƣng cho tốn học phân lớp định 2.2.1 Tính chất thuộc tính tập mẫu huấn luyện q trình huấn luyện Định nghĩa 2.1 Thuộc tính Ai  D gọi thuộc tính có giá trị riêng biệt (thuộc tính riêng biệt) thuộc tính rời rạc |Ai| > (m - 1) × |Y| Tập thuộc tính D ký hiệu D* Mệnh đề 2.1 Quá trình xây dựng có nút tạo dựa thuộc tính riêng biệt kết thu dàn trải Định nghĩa 2.2 Thuộc tính 𝐴𝑖 = {𝑎𝑖1 , 𝑎𝑖2 , … , 𝑎𝑖𝑛 }  D mà phần tử 𝑎𝑖𝑗 , 𝑎𝑖𝑘 với j ≠ k không tồn phép so sánh ta gọi Ai thuộc tính ghi nhớ tập mẫu, ký hiệu DG Mệnh đề 2.2 Nếu Ai  D thuộc tính ghi nhớ ta loại Ai khỏi mẫu D mà không làm thay đổi định thu Mệnh đề 2.3 Nếu tập mẫu huấn luyện chứa thuộc tính Ai khố tập D định thu khớp nút Ai 2.2.2 Ảnh hƣởng phụ thuộc hàm thuộc tính tập huấn luyện Mệnh đề 2.4 Trên mẫu D với thuộc tính định Y, có phụ thuộc hàm Ai  Aj chọn Ai làm nút phân tách nút khơng nhận Aj làm nút phân tách Mệnh đề 2.5 Trên mẫu D với thuộc tính định Y, có phụ thuộc hàm Ai  Aj lượng thơng tin nhận Ai không nhỏ lượng thông tin nhận Aj Hệ 2.1 Nếu có phụ thuộc hàm A1 A2 mà A1 khơng phải thuộc tính khóa mẫu D thuộc tính A2 khơng chọn làm nút phân tách Thuật tốn tìm tập huấn luyện đặc trƣng từ liệu nghiệp vụ Vào : Tập mẫu huấn luyện D chọn từ dự liệu nghiệp vụ; Ra : Tập mẫu huấn luyện đặc trưng D; For each ( xi P) Begin Si = {xj| xj Dom(L), xj = xi}; Tạo nút thứ i cho nút tương ứng với Si; End; End Else Begin //phân chia nhị phân theo SPRINT |L| vượt ngưỡng k Lập ma trận đếm cho giá trị L; T = Giá trị L có Gain lớn nhất; S1= {xi| xi  L, xi = T}; S2= {xi| xi  L, xi ≠ T}; Tạo nút cho nút tương ứng với hai tập S1 S2; End; Đánh dấu nút L xét ; End; End; Với m số thuộc tính, n số thể tập huấn luyện, độ phức tạp thuật tốn O(m × n2 × log n) Tính tính dừng thuật toán rút từ thuật toán C4.5 SPRINT 2.3.3 Cài đặt thử nghiệm đánh giá thuật toán MixC4.5 Bảng 2.4 So sánh kết huấn luyện với 1500 mẫu MixC4.5 liệu Northwind Thuật tốn Thời gian Tổng số nút Độ xác C4.5 20.4 552 0.764 SLIQ 523.3 162 0.824 SPRINT 184.0 171 0.832 MixC4.5 186.6 172 0.866  Thời gian huấn luyện: C4.5 ln thực k-phân thuộc tính rời rạc loại bỏ bước phân chia, nên C4.5 đạt tốc độ thực nhanh Thời gian xử lý SLIQ lớn phải thực phép tính Gini giá trị rời rạc Cách phân chia MixC4.5 trộn lẫn C4.5 SPRINT, C4.5 nhanh SPRINT nên thời gian huấn luyện MixC4.5 tương đồng tốt với SPRINT Bảng 2.6 So sánh kết với 5000 mẫu huấn luyện MixC4.5 liệu có chứa thuộc tính mờ Mushroom Thuật tốn Thời gian huấn luyện Độ xác 500 mẫu kiểm tra Độ xác 1000 mẫu kiểm tra C4.5 SLIQ SPRINT MixC4.5 18.9 152.3 60.1 50.2 0.548 0.518 0.542 0.548 0.512 0.522 0.546 0.546 11  Kích thƣớc kết quả: SLIQ thực cách chia nhị phân theo tập nên số nút ln nhỏ C4.5 ln phân chia k-phân nên số nút lớn MixC4.5 tương đồng với SPRINT số lượng nút thuật tốn SPRINT C4.5  Hiệu dự đoán: MixC4.5 cải tiến từ kết hợp C4.5 SPRINT nên cho kết có khả dự đoán khả quan thuật toán khác Tuy nhiên, đối sánh tập huấn luyện khơng có thuộc tính mờ (Northwind) tập huấn luyện có chứa thuộc tính mờ (Mushroom) khả dự đốn MixC4.5 cịn có chênh lệch lớn khơng thể xử lý nên bỏ qua giá trị mờ 2.4 Học phân lớp định mờ dựa đối sánh điểm mờ 2.4.1 Xây dựng mơ hình phân lớp liệu định mờ Tập mẫu huấn luyện Có chứa thuộc tính mờ Khơng Tham số HA Có Tập mẫu huấn luyện theo HA Cây định mờ Cây định rõ (GĐ1) Dữ liệu phân lớp (GĐ2) Hình 2.7 Mơ hình đề nghị cho việc học phân lớp định mờ không 2.4.2 Vấn đề với tập mẫu huấn luyện Định nghĩa 2.4 Thuộc tính mờ Ai  D gọi thuộc tính khơng miền giá trị Ai chứa giá trị rõ (kinh điển) giá trị ngôn ngữ Ký hiệu 𝐷𝐴𝑖 tập giá trị kinh điển Ai 𝐿𝐷𝐴𝑖 tập giá trị ngôn ngữ Ai Lúc này, thuộc tính khơng Ai có miền trị 𝐷𝑜𝑚(𝐴𝑖 ) = 𝐷𝐴𝑖  𝐿𝐷𝐴𝑖 Định nghĩa 2.5 Cho 𝐷𝑜𝑚(𝐴𝑖 ) = 𝐷𝐴𝑖  𝐿𝐷𝐴𝑖 ,  hàm định lượng ngữ nghĩa Dom(Ai) Hàm IC : Dom(Ai)  [0, 1] xác định: Nếu 𝐿𝐷𝐴𝑖 =  𝐷𝐴𝑖     Dom(Ai) ta có IC() =  max   với Dom(Ai) = [min, max] miền trị kinh điển Ai 1  max  12 Nếu 𝐷𝐴𝑖  , 𝐿𝐷𝐴𝑖     Dom(Ai) ta có IC() = { × (maxLV)}/max, với 𝐿𝐷𝐴𝑖 = [minLV, maxLV] miền trị ngôn ngữ Ai Vậy, chọn tham số W độ đo tính mờ cho gia tử cho (maxLV)  1.0 ({ × (maxLV)}/max)     max  max  Mệnh đề 2.6 Với thuộc tính khơng Ai, ta ln tất giá trị kinh điển 𝐷𝐴𝑖 giá trị ngôn ngữ 𝐿𝐷𝐴𝑖 Ai giá trị số thuộc đoạn [0, 1], để từ ánh xạ giá trị ngôn ngữ hay giá trị kinh điển tương ứng 2.4.3 Một cách định lƣợng giá trị ngôn ngữ ngoại lai tập mẫu huấn luyện Định nghĩa 2.5 Cho thuộc tính khơng nhât Ai  D có 𝐷𝑜𝑚(𝐴𝑖 ) = 𝐷𝐴𝑖  𝐿𝐷𝐴𝑖 , 𝐷𝐴𝑖 = [min, max], 𝐿𝐷𝐴𝑖 = [minLV, maxLV] Nếu x  𝐿𝐷𝐴𝑖 mà (x) < IC(min) (x) > IC(max) x gọi giá trị ngơn ngữ ngoại lai Thuật tốn định lƣợng cho giá trị ngôn ngữ ngoại lai Vào: Thuộc tính khơng chứa giá trị ngơn ngữ ngoại lai Ai Ra: Thuộc tính với miền trị Ai Mơ tả thuật tốn: Tách riêng giá trị ngoại lai khỏi Ai, A’i ; Thực việc giá trị cho A’i theo cách đề cập Mục 2.4.2; So sánh GiáTrịNgoạiLai với Max Min A’i Thực lại phân hoạch đoạn [0, 1] ; If GiáTrịNgoạiLai < MinLV then Begin Phân hoạch [0, (MinLV)] thành [0, (GiáTrịNgoạiLai)] [ (GiáTrịNgoạiLai), (MinLV)]; fm(hGiáTrịNgoạiLai) ~ fm(hMinLV)  I(MinLV); fm(hMinLV) = fm(hMinLV) - fm(hGiáTrịNgoạiLai); End; If GiáTrịNgoạiLai > MaxLV then Begin Phân hoạch [(MaxLV), 1] thành [(MaxLV), (GiáTrịNgoạiLai)] [(GiáTrịNgoạiLai), 1]; fm(hGiáTrịNgoạiLai) ~ fm(hMaxLV)  I(MaxLV); fm(hMaxLV) = fm(hMaxLV) - fm(hGiáTrịNgoạiLai); End; Dựa vào IC() A’i , tính lại IC() cho Ai ; Thuần giá trị cho Ai 13 2.4.4 Thuật toán học định mờ FMixC4.5 dựa việc đối sánh điểm mờ Thuật tốn FMixC4.5 Vào: mẫu D có n bộ, m thuộc tính dự đốn thuộc tính định Y Ra: Cây định S Mơ tả thuật tốn: ChonMauDacTrung(D); If (tập huấn luyện khơng có thuộc tính mờ) then Call thuật tốn MixC4.5; Else Begin For each (thuộc tính mờ X D) Begin Xây dựng đại số gia tử Xk tương ứng với thuộc tính mờ X; Kiểm tra tách giá trị ngoại lai; Chuyển giá trị số, giá trị ngôn ngữ X giá trị đoạn  [0, 1]; Xử lý giá trị ngoại lai; End; Call thuật toán MixC4.5 ; End; Độ phức tạp FMixC4.5 O(m × n2 × log n) 2.4.5 Cài đặt thử nghiệm đánh giá thuật toán FMixC4.5 Bảng 2.8 Bảng so sánh kết với 5000 mẫu huấn luyện thuật toán FMixC4.5 sở liệu có chứa thuộc tính mờ Mushroom Thuật toán Thời gian huấn luyện Số lƣợng mẫu kiểm tra độ xác dự đốn 100 500 1000 1500 2000 C4.5 18.9 0.570 0.512 0.548 0.662 0.700 MixC4.5 50.2 0.588 0.546 0.548 0.662 0.700 58.2 0.710 0.722 0.726 0.779 0.772 FMixC4.5 Bảng 2.9 Bảng so sánh thời gian kiểm tra với 2000 mẫu thuật toán FMixC4.5 sở liệu có chứa thuộc tính mờ Mushroom Thuật tốn Số lƣợng mẫu kiểm tra thời gian thực dự đoán (s) 100 500 1000 1500 2000 C4.5 0.2 0.7 1.6 2.1 2.9 MixC4.5 0.2 0.8 1.7 2.2 3.0 FMixC4.5 0.4 1.0 1.9 2.8 3.8  Chi phí Thời gian: có độ thức tạp MixC4.5 ln có thời gian thực hiên tốt FMixC4.5 giai đoạn huấn luyện q trình dự đốn MixC4.5 bỏ qua giá trị mờ tập mẫu nên khơng phải thời gian xử lý, phải trải qua trình xây dựng ĐSGT cho trường mờ để giá trị mờ xử lý giá trị ngoại lai, nên FMixC4.5 thực 14 chậm C4.5 MixC4.5  Kết dự đốn: MixC4.5 bỏ qua giá trị mờ tập mẫu, quan tâm giá trị rõ nên làm liệu trường mờ, kết dự đốn khơng cao khơng thể dự đoán hiệu cho trường hợp xuất giá trị mờ Việc tập mẫu cho tập huấn luyện chứa liệu rõ mờ, nên kết huấn luyện FMixC4.5 tốt hơn, kết dự đốn cao sử dụng C4.5 MixC4.5 2.5 Tiểu kết Chƣơng Với mục tiêu khắc phục hạn chế thuật toán học định truyền thống, chương luận án tập trung: Phân tích mối tương quan thuật toán học định tảng phân tích ảnh hưởng tập mẫu huấn luyện hiệu kết thu được, trình bày phương pháp nhằm trích chọn tập mẫu huấn luyện đặc trưng phục vụ cho q trình huấn luyện đề xuất thuật tốn MixC4.5 phục vụ q trình học Phân tích, đưa khái niệm tập mẫu không nhất, giá trị ngoại lai xây dựng thuật toán để cho thuộc tính có chứa giá trị Xây dựng thuật toán FMixC4.5 nhằm phục vụ cho trình học định tập mẫu không Các kết cài đặt thử nghiệm đối sánh cho thấy khả dự đoán MixC4.5, FMixC4.5 hiệu thuật toán truyền thống khác Chƣơng PHƢƠNG PHÁP HUẤN LUYỆN CÂY QUYẾT ĐỊNH MỜ CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU DỰA TRÊN ĐỐI SÁNH KHOẢNG MỜ 3.1 Giới thiệu Với mục tiêu xây dựng mơ hình định S đạt hiệu cao cho trình phân lớp, tức fh(S) → max tập huấn luyện D, Chương luận án tập trung giải hạn chế phương pháp học truyền thống cách đưa thuật toán học MixC4.5 FMixC4.5 Tuy vậy, trình giá trị ngôn ngữ 𝐿𝐷𝐴𝑖 giá trị số 𝐷𝐴𝑖 thuộc tính mờ 𝐴𝑖 giá trị đoạn [0, 1] làm xuất sai số, có nhiều giá trị kinh điển gần quy điểm đoạn [0, 1] nên kết 15 dự đoán FMixC4.5 chưa thật đáp ứng kỳ vọng Thêm vào đó, với mục tiêu đặt (1.10) hàm mục tiêu fh(S) → max bao hàm linh hoạt q trình dự đốn, tức có khả dự đốn cho nhiều tình huấn khác Thêm vào đó, phân tách thuộc tính mờ mơ hình kết theo điểm phân chia gây khó khăn trường hợp cần dự đốn cho giá trị khoảng có miền trị đan xen hai nhánh 3.2 Phƣơng pháp đối sánh giá trị khoảng thuộc tính mờ 3.2.1 Xây dựng cách thức đối sánh giá trị khoảng dựa ĐSGT Định nghĩa 3.3 Cho khoảng rõ khác [a1, b1] [a2, b2] tương ứng với khoảng mờ [𝐼𝑎 , 𝐼𝑏1 ], [𝐼𝑎 , 𝐼𝑏2 ]  [0, 1] Ta nói khoảng [a1, b1] đứng trước [a2, b2] hay [a2, b2] đứng sau [a1, b1], viết [a1, b1] < [a2, b2] hay [𝐼𝑎 , 𝐼𝑏1 ] < [𝐼𝑎 , 𝐼𝑏2 ] nếu: b2 > b1 tức 𝐼𝑏2 > 𝐼𝑏1 , Nếu 𝐼𝑏2 = 𝐼𝑏1 tức b2 = b1 𝐼𝑎 > 𝐼𝑎 tức a2 > a1 ta nói dãy [a1, b1], [a2, b2] dãy khoảng có quan hệ thứ tự trước sau Định lý 3.1 Cho k khoảng khác đôi [a1, b1], [a2, b2], , [ak, bk], ta ln để dãy có k khoảng với quan hệ thứ tự trước sau 3.2.2 Phƣơng pháp xác định khoảng mờ chƣa biết miền trị MIN, MAX thuộc tính mờ Định nghĩa 3.4 Cho thuộc tính khơng Ai, có Dom(Ai) = 𝐷𝐴𝑖  𝐿𝐷𝐴𝑖 , 𝐷𝐴𝑖 = [1, 2] 𝐿𝐷𝐴𝑖 = [minLV, maxLV] Ai gọi thuộc tính mờ khơng chưa xác định Min-Max minLV < LV1, LV2 < maxLV mà (LV1) = IC(1) (LV2) = IC(2) Thuật tốn xác định khoảng mờ cho thuộc tính khơng nhất, chƣa xác định Min-Max Vào: Thuộc tính không nhất, chưa xác định Min-Max Ai Ra: Thuộc tính với miền trị theo khoảng mờ Ai Mơ tả thuật tốn: Xây dựng ĐSGT miền [1, 2]; Tính IC(i) tương ứng cho giá trị đoạn [1, 2]; For Each ((𝐿𝑉 )  [IC(1), IC(2)]) 𝑖 Begin If (𝐿𝑉 ) < IC(1) then 𝑖 Begin Phân hoạch [0, (1)] thành [0, (i)] [(i), (1)]; Tính fm(hi) ~ fm(h1) x I(1) fm(h1) = fm(h1) - fm(hi); 𝐼𝐶(1 ) Tính 𝑖 = (1 ) × IC(i); 𝐼𝐶( 𝑖 ) 16 Gán vị trí i thành vị trí 1; End; If (𝐿𝑉 ) > IC(2) then 𝑖 Begin Phân hoạch [(2), 1] thành [(2), (i)] [(i), 1]; Tính fm(hi) ~ fm(h2) x I(2) fm(h2) = fm(h2) - fm(hi); 𝐼𝐶(2 ) Tính 𝑖 = (2 ) × IC(i); 𝐼𝐶(𝑖 ) End; Gán vị trí i thành vị trí 2; End; 3.3 Học phân lớp định mờ dựa cách thức đối sánh khoảng mờ 3.3.1 Thuật toán học định mờ HAC4.5 dựa đối sánh khoảng mờ Tính lợi ích thơng tin cho khoảng mờ thuộc tính mờ: với thuộc tính mờ Ai định lượng theo khoảng mờ, khơng tính tổng quát, ta giả sử có k khoảng khác xếp theo quan hệ thứ tự trước sau [𝐼𝑎 , 𝐼𝑏1 ] < [𝐼𝑎 , 𝐼𝑏2 ] < … < [𝐼𝑎 𝑘 , 𝐼𝑏 𝑘 ] (3.1) Ta có k ngưỡng tính 𝑇ℎ𝑖𝐻𝐴 = [𝐼𝑎 𝑖 , 𝐼𝑏 𝑖 ], (với ≤ i < k) Tại ngưỡng 𝑇ℎ𝑖𝐻𝐴 đoạn mờ [𝐼𝑎 𝑖 , 𝐼𝑏 𝑖 ] chọn, tập liệu D lại nút chia làm tập: D1={ [𝐼𝑎 𝑗 , 𝐼𝑏 𝑗 ] : [𝐼𝑎 𝑗 , 𝐼𝑏 𝑗 ] < 𝑇ℎ𝑖𝐻𝐴 )} (3.2) 𝐻𝐴 D2={ [𝐼𝑎 𝑗 , 𝐼𝑏 𝑗 ] : [𝐼𝑎 𝑗 , 𝐼𝑏 𝑗 ] > 𝑇ℎ𝑖 )} (3.3) Lúc ta có: |D1| |D2| Entropy(D1)–  Entropy(D2)(3.4) |D| |D| |D1| |D1| |D2| |D2| SplitInfoHA(D, 𝑇ℎ𝑖𝐻𝐴 ) = –  log2 –  log2 (3.5) |D| |D| |D| |D| GainHA(D, 𝑇ℎ𝑖𝐻𝐴 ) = Entropy(D)– GainRatioHA(D, 𝑇ℎ𝑖𝐻𝐴 ) = 𝐺𝑎𝑖𝑛 𝐻𝐴 (𝐷, 𝑇ℎ 𝑖𝐻𝐴 ) 𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜 𝐻𝐴 (𝐷,𝑇ℎ 𝑖𝐻𝐴 ) Trên sở tính tốn tỷ lệ lợi ích thơng tin cho ngưỡng, ngưỡng có tỷ lệ lợi ích thơng tin lớn chọn Thuật tốn HAC4.5 Vào: mẫu D có n bộ, m thuộc tính dự đốn thuộc tính định Y Ra: Cây định theo khoảng mờ S Mơ tả thuật tốn: For each (thuộc tính mờ X D)do Begin 17 Xây dựng ĐSGT Xk tương ứng với thuộc tính mờ X; Chuyển giá trị số giá trị ngôn ngữ X giá trị đoạn  [0, 1]; End; Khởi tạo tập nút S; S = D; For each (nút L thuộc S)do If (L nhất) Or (L rỗng) then Gán nhãn cho nút với giá trị L; Else Begin X = Thuộc tính tương ứng có GainRatio hay GainRatioHA lớn nhất; If (L thuộc tính mờ) Then Begin T = Ngưỡng có GainRatioHA lớn nhất; Bổ sung nhãn T vào S; S1= {𝐼𝑥 𝑖 | 𝐼𝑥 𝑖  L, 𝐼𝑥 𝑖 < T}; S2= {𝐼𝑥 𝑖 | 𝐼𝑥 𝑖  L, 𝐼𝑥 𝑖 > T}; Tạo nút cho nút tương ứng với hai tập S1 S2; Đánh dấu nút L xét; ; End Else If (L thuộc tính liên tục) Then Begin Chọn ngưỡng T tương ứng có Gain lớn X; S1= {xi| xi  Dom(L), xi ≤ T}; S2= {xi| xi  Dom(L), xi > T}; Tạo nút cho nút tương ứng với hai tập S1 S2; Đánh dấu nút L xét; End Else { L thuộc tính rời rạc } Begin P = {xi| xi K, xi đơn nhất}; For (mỗi xi  P) Begin Si = {xj| xj Dom(L), xj = xi}; Tạo nút thứ i cho nút tương ứng với Si; End; Đánh dấu nút L xét ; End; End; Độ phức tạp HAC4.5 O(m  n2  logn) 3.3.2 Cài đặt thử nghiệm đánh giá thuật toán HAC4.5 Bảng 3.4 So sánh kết với 20000 mẫu huấn luyện C4.5, FMixC4.5 HAC4.5 liệu có chứa thuộc tính mờ Adult Số lƣợng mẫu kiểm tra độ xác dự đốn Thuật tốn Thời gian huấn luyện 1000 2000 3000 4000 5000 C4.5 FMixC4.5 HAC4.5 479.8 589.1 1863.7 0.845 0.870 0.923 0.857 0.862 0.915 0.859 0.874 0.930 0.862 0.875 0.950 0.857 0.866 0.961 18 Bảng 3.5 Đối sách thời gian kiểm tra từ 1000 đến 5000 mẫu liệuAdult Thuật toán Số lƣợng mẫu kiểm tra độ xác dự đốn 1000 2000 3000 4000 5000 C4.5 1.4 2.8 4.1 5.5 6.0 FMixC4.5 2.2 4.6 7.1 9.2 11.8 HAC4.5 2.4 4.7 7.2 9.7 12.1 Đánh giá kết thực nghiệm Chi phí thời gian: Vì phải trải qua trình xây dựng ĐSGT cho trường mờ chi phí để chuyển đổi giá trị đoạn [0, 1] ban đầu, nữa, bước lặp cần thêm thời gian để chọn đoạn phân chia nên thời gian huấn luyện HAC4.5 chậm, tốn nhiều thời gian so với thuật toán khác Kết dự đoán: Kết dự đoán HAC4.5 cho kết tốt trình huấn luyện cây, xử lý giá trị mờ giữ nguyên giá trị rõ nên không làm xuất sai số trình phân hoạch Mặc dầu HAC4.5 phải tốn nhiều thời gian cho trình huấn luyện cho kết có khả dự đốn cao, trình huấn luyện thực lần mà việc dự đoán dựa kết thực nhiều lần phí thời gian trình xây dựng chấp nhận 3.4 Xây dựng khái niệm khoảng mờ lớn phƣơng pháp nhằm tối ƣu mơ hình định mờ 3.4.1 Phát biểu toán học định mờ theo hƣớng đa mục tiêu Trước hết cần nhắc lại, mục tiêu toán nêu (1.10) fh(S) → max fn(S) → Các nghiên cứu Chương Mục 3.3 luận án thỏa hiệp nhằm đạt mục tiêu fh(S) → max cịn mục tiêu fn(S) → chưa giải 3.4.2 Khái niệm khoảng mờ lớn cách thức tính khoảng mờ lớn cho thuộc tính mờ Định nghĩa 3.5 Cho ĐSGT X = (X, G, H, ), với ∀x, y ∈ X gọi có quan hệ kế thừa ngữ nghĩa với ký hiệu ~(x, y) ∃z ∈ X, x = ℎ𝑖𝑛 ℎ𝑖1 𝑧, y = ℎ𝑗 𝑚 ℎ𝑗 𝑧 Mệnh đề 3.1. x, y  X xác định hai khoảng mờ mức k mức l Ik(x) Il(y), chúng khơng có quan hệ kế thừa, có 19 quan hệ kế thừa với z  X, |z| = v, v  min(l, k), IL(z)  IL(y), IR(z)  IR(y), IL(z)  IL(x), IR(z)  IR(x) hay Iv(z)  Ik(x) Iv(z)  Il(y), tức x, y sinh từ z Định nghĩa 3.6 Cho ĐSGT X = (X, G, H, ), với x, y, z ∈ X, z = ~(x, y) Nếu z1 X, z1 = ~(x, y) len(z)  len(z1) ta nói z có ngữ nghĩa gần với x, y nhất, hay khoảng mờ z có độ dài lớn ký hiệu z = ~max(x, y) Định nghĩa 3.7 Cho ĐSGT X = (X, G, H, ), với ∀x, y ∈ X ~(x, y) Mức độ gần x y theo quan hệ kế thừa ngữ nghĩa ký hiệu sim(x, y) định nghĩa sau: 𝑚 𝑠𝑖𝑚(𝑥, 𝑦) = (1 − |𝑣(𝑥) − 𝑣(𝑦)|) (3.7) 𝑚𝑎𝑥 (𝑘,𝑙) k = len(x), l = len(y) m = len(z) với z = ~max(x, y) Mệnh đề 3.2 Cho ĐSGT X = (X, G, H, ), với ∀x, y ∈ X, ta có tính chất mức độ gần hạng từ sau: Hàm sim(x, y) có tính chất đối xứng, tức sim(x, y) = sim(y, x) x, y khơng có quan hệ kế thừa ngữ nghĩa ⇔sim(x,y) = sim(x, y) = ⇔x = y, ∀x, y, z ∈ Xk, x ≤ y ≤ z ⇒ sim(x, z) ≤ sim(x, y), sim(x, z) ≤ sim(y, z) Định nghĩa 3.8 Định nghĩa tính kề khoảng mờ Cho ĐSGT X = (X, G, H, ), hai khoảng tính mờ I(x) I(y) gọi kề chúng có điểm mút chung, tức IL(x) = IR(y) IR(x) = IL(y) Thuật tốn tính khoảng mờ lớn hai khoảng mờ cho trƣớc Vào: ĐSGT X = (X, G, H, ) x, y ∈ X Ra: z ∈ X, z = ~max(x, y) Mơ tả thuật tốn: k = len(x); l = len(y); v = min(k, l); While v > If z X,|z| = v and Ik(x)  Iv(z) and Il(y)  Iv(z) then return Iv(z) Else v = v -1; Return NULL; 3.4.3 Thuật toán học định mờ HAC4.5* theo cách tiếp cận khoảng mờ lớn Do thuộc tính mờ A tập huấn luyện được phân hoạch theo khoảng mờ đoạn [0, 1] miền liệu tập thứ tự tuyến tính theo quan hệ trước sau nên khoảng mờ chúng có tính kề trái kề phải Như với hai khoảng mờ x y chúng có chung lớp dự đốn, ta sử 20 dụng khoảng mờ z = ~max(x, y) thay mà không làm thay đổi ngữ nghĩa x y trình học phân lớp Việc sử dụng phép kết nhập z thay cho x y thực cho tất khoảng mờ thuộc tính mờ A Thuật toán HAC4.5* Vào: Tập mẫu huấn luyện D Ra: Cây định khoảng mờ S Mô tả thuật tốn: For each (thuộc tính mờ X D) Begin Xây dựng ĐSGT Xk tương ứng với thuộc tính mờ X; Chuyển giá trị số giá trị ngôn ngữ X giá trị  [0, 1]; End; Khởi tạo tập nút S; S = D; For each (nút L thuộc S) If (L nhất) Or (L rỗng) then Gán nhãn cho nút với giá trị L; Else Begin If (L thuộc tính mờ) Then Begin For Each (khoảng mờ x thuộc tính L) For Each (khoảng mờ y thuộc tính L mà y ≠ x) Tìm thay x z = ~max(x, y); End; X = Thuộc tính tương ứng có GainRatio hay GainRatioHA lớn nhất; If (L thuộc tính mờ) Then Begin T = Ngưỡng có GainRatioHA lớn nhất; Gán nhãn T thuộc tính X vào cho S; S1= {𝐼𝑥 𝑖 |𝐼𝑥 𝑖  L, 𝐼𝑥 𝑖 T}; Tạo nút cho nút tương ứng với hai tập S1 S2; Đánh dấu nút L xét; End Else If (L thuộc tính liên tục) Then Begin T = Ngưỡng có GainRatio lớn nhất; S1= {xi| xi  L, xi T}; Tạo nút cho nút tương ứng với hai tập S1 S2; Đánh dấu nút L xét; End Else { L thuộc tính rời rạc } Begin P = {xi| xi K, xi đơn nhất}; For each (mỗi xi P) Begin Si = {xj| xj L, xj = xi}; 21 End; End; Tạo nút thứ i cho nút tương ứng với Si; End; Đánh dấu nút L xét; Với m số thuộc tính, n số thể tập huấn luyện, độ phức tạp HAC4.5* O(m  n3  log n) Tính tính dừng thuật tốn rút từ tính C4.5 cách thức đối sánh giá trị khoảng mờ 3.4.4 Cài đặt thử nghiệm đánh giá thuật toán HAC4.5* Bảng 3.6 Đối sánh kết huấn luyện liệu Adult Thuật toán Thời gian huấn luyện (s) Tổng số nút C4.5 479.8 682 HAC4.5 1863.7 1873 HAC4.5* 2610.8 1624 Bảng 3.7 Tỷ lệ kiểm tra liệu Adult Số mẫu kiểm tra 1000 2000 3000 4000 5000 Thuật toán C4.5 84.5% 85.7% 85.9% 86.2% 85.7% HAC4.5 92.3% 91.5% 93.0% 95.0% 96.1% HAC4.5* 92.8% 91.6% 93.2% 95.1% 96.3% Đối sánh kết thực nghiệm FMixC4.5, HAC4.5 HAC4.5* với số kết cách tiếp cận khác - Chi phí huấn luyện: HAC4.5* bước lặp cần thêm thời gian để tìm khoảng mờ lớn cho miền trị mờ thuộc tính mờ tương ứng nên HAC4.5* chậm so với thuật toán khác - Kết dự đoán: HAC4.5* cho kết tốt trình huấn luyện cây, tìm điểm phân hoạch tốt thuộc tính mờ nên kết thu có sai số Hơn nữa, việc tìm khoảng mờ lớn kết nhập giá trị mờ thuộc tính mờ làm cho lực lượng thuộc tính mờ tương ứng giảm, số nút thu giảm, nên kết thu tốt Điều đáp ứng hàm mục tiêu Mục 3.4.1 Hơn thế, đối sánh thuật toán đề xuất với thuật toán cách tiếp cận có, Hình 3.8, luận án cho thấy việc sử dụng ĐSGT cho toán phân lớp mờ hữu hiệu 22 Tý lệ dự đoán (%) 100 90 80 70 60 50 40 30 20 10 Hình 3.8 Đối sánh tỷ lệ dự đốn thuật toán FMixC4.5, HAC4.5 HAC4.5* với cách tiếp cận khác 3.5 Tiểu kết chƣơng Chương luận án tập trung nghiên cứu trình học định mờ nhằm đạt hai mục tiêu đề fh(S) → max fn(S) → Cụ thể: Nghiên cứu mối tương quan khoảng mờ, đề xuất phương pháp đối sánh dựa khoảng mờ xây dựng thuật toán học phân lớp dựa khoảng mờ HAC4.5 Nghiên cứu miền trị Min-Max thuộc tính mờ khơng phải ln tồn sẵn tập huấn luyện Dựa vào tính chất ĐSGT, luận án xây dựng phương pháp nhằm định lượng cho giá trị thuộc tính không nhất, chưa xác định Min-Max tập huấn luyện Luận án đề xuất khái niệm khoảng mờ lớn nhất, thiết kế thuật toán HAC4.5* nhằm đồng thời đạt mục tiêu đề KẾT LUẬN Kết luận án nghiên cứu, đề xuất mơ hình phương pháp cho việc huấn luyện định nhằm thu kết đạt hiệu phân lớp đơn giản, dễ hiểu người dùng Nội dung luận án đạt sau: Đề xuất mơ hình huấn luyện định từ tập mẫu huấn luyện thực tế phương pháp nhằm trích chọn tập mẫu huấn 23 luyện đặc trưng phục vụ cho q trình huấn luyện Phân tích, đưa khái niệm tập mẫu không nhất, giá trị ngoại lai xây dựng thuật tốn để cho thuộc tính có chứa giá trị Đề xuất thuật toán xây dựng MixC4.5 sở tổng hợp ưu nhược điểm thuật toán truyền thống CART, C4.5, SLIQ, SPRINT Với việc hạn chế thuật toán FDT FID3 cho việc học định mờ, luận án đề xuất thuật toán FMixC4.5 phục vụ trình học định tập mẫu khơng Cả hai thuật tốn MixC4.5 FMixC4.5 đánh giá thực nghiệm sở liệu Northwind Mushroom kết khả quan thuật toán truyền thống C4.5, SLIQ, SPRINT Đề xuất phương pháp đối sánh dựa khoảng mờ xây dựng thuật toán học phân lớp dựa khoảng mờ HAC4.5 Xây dựng phương pháp nhằm định lượng cho giá trị thuộc tính không nhất, chưa xác định Min-Max tập huấn luyện Luận án đưa khái niệm khoảng mờ lớn nhất, làm sở để thiết kế thuật toán học định dựa khoảng mờ lớn HAC4.5*, nhằm đồng thời đạt hai mục tiêu tính hiệu q trình phân lớp tính đơn giản dễ hiểu người dùng Các kết HAC4.5, HAC4.5* phân tích, đánh giá thực nghiệm sở liệu Mushroom, Adult kết có cải tiến đáng kể khả dự đoán số nút huấn luyện Mặc dầu vậy, việc lựa chọn tham số để xây dựng ĐSGT nhằm định lượng giá trị ngôn ngữ tập mẫu huấn luyện, luận án sử dụng kiến thức chuyên gia để xác định tham số mà chưa có nghiên cứu nhằm đưa phương pháp hoàn chỉnh Hƣớng phát triển luận án: - Nghiên cứu nhằm đưa phương pháp phù hợp để lựa chọn tham số cho ĐSGT tập huấn luyện - Mở rộng phương pháp học định dựa khoảng mờ mà không hạn chế số gia tử xây dựng ĐSGT cho việc giá trị thuộc tính mờ - Trên sở mơ hình ứng dụng tốn phân lớp, tiếp tục phát triển mơ hình để ứng dụng cho số toán khác lĩnh vực khai phá liệu 24 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN CT1 Lê Văn Tường Lân, Nguyễn Mậu Hân, Nguyễn Công Hào, Một thuật toán học tạo định cho tốn phân lớp liệu, Tạp chí Khoa học Đại học Huế, tập 81, số 3, trang 7184, 2013 CT2 Lê Văn Tường Lân, Nguyễn Mậu Hân, Nguyễn Công Hào Một cách tiếp cận chọn tập mẫu huấn luyện định dựa đại số gia tử, Kỷ yếu Hội nghị Quốc gia lần thứ VI “Nghiên cứu ứng dụng Công nghệ thông tin" (FAIR), trang 251-258, 2013 CT3 Lê Văn Tường Lân, Nguyễn Mậu Hân, Nguyễn Công Hào, Một phương pháp xử lý giá trị ngoại lai tập mẫu huấn luyện định sử dụng đại số gia tử, Chuyên san Các cơng trình nghiên cứu, phát triển ứng dụng CNTT&TT, Tạp chí Thơng tin, Khoa học Cơng nghệ, Bộ TT&TT, tập V.2, số 14, trang 55-63, 2015 CT4 Lan L.V., Han N.M., Hao N.C., A Novel Method to Build a Fuzzy Decision Tree Based On Hedge Algebras, International Journal of Research in Engineering and Science (IJRES), Volume Issue 4, pages 16-24, 2016 CT5 Le Van Tuong Lan, Nguyen Mau Han, Nguyen Cong Hao, Algorithm to build fuzzy decision tree for data classification problem based on fuzziness intervals matching, Journal of Computer Science and Cybernetics, V.32, N.4, DOI 10.15625/1813-9663/30/4/8801, trang 367 - 380, 2016 CT6 Lê Văn Tường Lân, Nguyễn Mậu Hân, Nguyễn Cơng Hào, Mơ hình định mờ cho toán phân lớp liệu, Tạp chí Khoa học cơng nghệ, trường Đại học Khoa học – Đại học Huế, tập 81, số 3, trang 19-44, 2017 CT7 Lê Văn Tường Lân, Nguyễn Mậu Hân, Nguyễn Cơng Hào, Tối ưu q trình học định cho toán phân lớp theo cách tiếp cận khoảng mờ lớn nhất, Chun san Các cơng trình nghiên cứu, phát triển ứng dụng Công nghệ thông tin Truyền thơng, Tạp chí Thơng tin, Khoa học Công nghệ, Bộ TT&TT, Tập V-2, Số 18 (38), trang 42-50, 2017 25 ... 3.3 Học phân lớp định mờ dựa cách thức đối sánh khoảng mờ 3.3.1 Thuật toán học định mờ HAC4.5 dựa đối sánh khoảng mờ Tính lợi ích thơng tin cho khoảng mờ thuộc tính mờ: với thuộc tính mờ Ai định. .. khái niệm mờ giới thực nên điều kiện không đảm bảo sở liệu hiên đại Vì vậy, việc nghiên cứu tốn phân lớp liệu định mờ vấn đề tất yếu 1.4.2 Bài toán phân lớp liệu định mờ Cho toán phân lớp định S... trị mờ 2.4 Học phân lớp định mờ dựa đối sánh điểm mờ 2.4.1 Xây dựng mơ hình phân lớp liệu định mờ Tập mẫu huấn luyện Có chứa thuộc tính mờ Khơng Tham số HA Có Tập mẫu huấn luyện theo HA Cây định

Ngày đăng: 06/08/2020, 01:53

HÌNH ẢNH LIÊN QUAN

Hình 2.7. Mô hình đề nghị cho việc học phân lớp bằng cây quyết định mờ  - Tóm tắt luận án Tiến sĩ Khoa học máy tính: Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Hình 2.7. Mô hình đề nghị cho việc học phân lớp bằng cây quyết định mờ (Trang 13)
Bảng 2.8. Bảng so sánh kết quả với 5000 mẫu huấn luyện của thuật toán FMixC4.5 trên cơ sở dữ liệu có chứa thuộc tính mờ Mushroom  - Tóm tắt luận án Tiến sĩ Khoa học máy tính: Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Bảng 2.8. Bảng so sánh kết quả với 5000 mẫu huấn luyện của thuật toán FMixC4.5 trên cơ sở dữ liệu có chứa thuộc tính mờ Mushroom (Trang 15)
Hình 3.8. Đối sánh tỷ lệ dự đoán của thuật toán FMixC4.5, HAC4.5 và HAC4.5* với các cách tiếp cận khác  - Tóm tắt luận án Tiến sĩ Khoa học máy tính: Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Hình 3.8. Đối sánh tỷ lệ dự đoán của thuật toán FMixC4.5, HAC4.5 và HAC4.5* với các cách tiếp cận khác (Trang 24)