1. Trang chủ
  2. » Công Nghệ Thông Tin

Phân cụm bán giám sát dựa trên phương pháp gieo hạt sử dụng mạng nơron min-max mờ

8 8 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 732,27 KB

Nội dung

Bài viết này đề cập đến vấn đề chọn hạt giống tốt cho phân cụm bán giám sát sử dụng mạng nơron min-max mờ. Các hạt giống tốt được thu thập đúng cách có thể tăng chất lượng phân cụm và giảm thiểu số lượng truy vấn từ các chuyên gia.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00197 PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN PHƯƠNG PHÁP GIEO HẠT SỬ DỤNG MẠNG NƠRON MIN-MAX MỜ Vũ Đình Minh1, Lê Bá Dũng2, Lê Anh Tú3, Nguyễn Thanh Sơn4 Khoa Công nghệ thông tin, Trƣờng Đại học Công nghiệp Hà Nội Khoa Công nghệ thông tin, Đại học Điện lực Đại học Hạ Long Cao đẳng Công nghiệp Thƣơng mại Minhvd.itvn@gmail.com, l_bdung@yahoo.com, anhtucntt@gmail.com, sonnt@pci.edu.vn TÓM TẮT: Phân cụm kỹ thuật khai phá liệu, thuộc lớp phương pháp học khơng có giám sát Q trình phân tách nhóm theo tương tự liệu gọi phân cụm Có hai nguyên tắc bản: (i) độ tương tự cao cụm (ii) độ tương tự cụm Gần đây, phân cụm bán giám sát mờ mở rộng phân cụm mờ nhận nhiều quan tâm nhà khoa học Phân cụm bán giám sát mờ sử dụng thông tin biết trước để hướng dẫn q trình phân cụm, từ làm tăng chất lượng cụm Các thơng tin biết trước hay cịn gọi thơng tin bổ trợ nhằm mục đích hướng dẫn, giám sát điều khiển trình phân cụm Các thơng tin bổ trợ xây dựng dựa ràng buộc Mustlink/Cannot-link, nhãn (dạng hạt giống) mẫu hay độ thuộc xác định trước Với phương pháp gán nhãn mẫu địi hỏi phần mẫu định khơng gian mẫu có nhãn kèm Nhìn chung, kết phân cụm thường phụ thuộc vào thông tin bổ trợ cung cấp, thơng tin bổ trợ khác tạo kết khác Trong số trường hợp, hiệu suất phân cụm giảm thông tin bổ trợ không chọn cẩn thận Bài viết đề cập đến vấn đề chọn hạt giống tốt cho phân cụm bán giám sát sử dụng mạng nơron min-max mờ Các hạt giống tốt thu thập cách tăng chất lượng phân cụm giảm thiểu số lượng truy vấn từ chun gia Với mục đích này, chúng tơi đề xuất thuật toán cho nhiệm vụ thu thập hạt giống, xác định ứng cử viên để nhận nhãn từ chuyên gia cách sử dụng mạng nơron min-max mờ (được gọi SCFMS) Các thực nghiệm thực số liệu thực từ UCI, CS liệu thực thu thập từ Bệnh viện Đa khoa Trung ương Thái Nguyên cho thấy hiệu SCFMS so với phương pháp khác Từ khóa: Choosing seeds, fuzzy min-max, neural network, semi-supervised clustering I GIỚI THIỆU Phân cụm bán giám sát mờ mở rộng phân cụm mờ, nhận đƣợc nhiều nhà khoa học quan tâm nghiên cứu [7, 22, 23, 24] đƣợc ứng dụng nhiều lĩnh vực nhận dạng, xử lý ảnh, xử lý thông tin… [1, 5, 16, 19] Phân cụm bán giám sát mờ sử dụng thông tin bổ trợ để hƣớng dẫn, giám sát điều khiển trình phân cụm Các thơng tin bổ trợ ràng buộc (Must-link/Cannot-link), nhãn (dạng hạt giống) mẫu hay độ thuộc đƣợc xác định trƣớc Với phƣơng pháp chọn giống, đòi hỏi phần mẫu định khơng gian mẫu có nhãn kèm để tạo cụm ban đầu giám sát trình phân cụm cho mẫu khơng có nhãn Ƣu điểm phƣơng pháp khả sử dụng tập hợp nhỏ thông tin bổ trợ để cải thiện kết phân cụm Nhìn chung, kết phân cụm thƣờng phụ thuộc vào thông tin bổ trợ đƣợc cung cấp, thông tin bổ trợ khác tạo kết khác Trong số trƣờng hợp, hiệu suất phân cụm giảm thông tin bổ trợ đƣợc lựa chọn tồi [6, 7] Trên thực tế, hạt giống đƣợc chọn ngẫu nhiên để lấy nhãn từ ngƣời dùng, nhiên chi phí lấy nhãn từ chuyên gia lại tốn [4] Các hạt giống tốt đƣợc thu thập cách tăng chất lƣợng phân cụm giảm thiểu số lƣợng truy vấn từ chuyên gia Các ứng dụng giới thực đòi hỏi nhiều cách thức trung gian việc tìm kiếm cấu trúc liệu, hiệu đƣợc tăng cƣờng đáng kể cách sử dụng thông tin biết trƣớc, với tỷ lệ phần trăm nhỏ mẫu đƣợc dán nhãn cải thiện đáng kể kết phân cụm [10] Báo cáo đề cập đến vấn đề chọn hạt giống tốt cho phân cụm bán giám sát sử dụng mạng nơron min-max mờ (FMNN) Với mục đích này, chúng tơi đề xuất thuật toán cho nhiệm vụ thu thập hạt giống tốt, xác định ứng cử viên để nhận nhãn từ chuyên gia cách sử dụng mạng nơron min-max mờ Các hạt giống đƣợc thu thập phƣơng pháp chúng tơi giảm thiểu truy vấn ngƣời gia tăng số lƣợng hạt giống từ làm tăng hiệu suất phân cụm Tóm lại, đóng góp báo nhƣ sau: (i) khảo sát số phƣơng pháp nguyên tắc phân cụm dựa hạt giống phƣơng pháp chọn hạt chủ động cho thuật toán phân cụm dựa hạt giống; (ii) đề xuất thuật toán học mạng nơron min-max mờ để lựa chọn hạt giống tốt nhận nhãn từ chuyên gia; (iii) thực nghiệm số liệu thực từ UCI, CS liệu thực đƣợc thu thập từ Bệnh viện Đa khoa Trung ƣơng Thái Nguyên Phần lại báo đƣợc xếp nhƣ sau Phần II trình bày số nghiên cứu liên quan Phần III giới thiệu thuật toán đề xuất thu thập hạt giống Phần IV mô tả thực nghiệm đƣợc tiến hành tập liệu chuẩn từ UCI, CS tập liệu thực tế đƣợc thu thập từ Bệnh viện Đa khoa Trung ƣơng Thái Nguyên Cuối cùng, phần V kết luận hƣớng nghiên cứu tƣơng lai 436 PHÂN CỤM BAN GIÁM SÁT DỰA TRÊN PHƢƠNG PHÁP GIEO HẠT SỬ DỤNG MẠNG RRON MIN-MAX MỜ II CÁC NGHIÊN CỨU LIÊN QUAN A Một số thuật toán phân cụm dựa phương pháp gieo hạt Trong [7], thuật toán phân cụm dựa mật độ bán giám sát đƣợc trình bày Nhóm nghiên cứu sử dụng tập hợp nhỏ liệu có nhãn đề tìm kiếm cụm liệu mật độ riêng biệt, cách sử dụng hạt giống để tính tốn bán kính thích ứng cho cụm Trong [11], tác giả đề xuất thuật toán sử dụng hạt giống trợ giúp thuật tốn K-Means bƣớc tìm trung tâm cụm Nhóm tác giả chứng minh đề xuất cho kết phân cụm ổn định khắc phục đƣợc ảnh hƣởng việc chọn trung tâm cụm bƣớc ban đầu nhƣ thuật toán K-Means truyền thống Trong [8], nhóm nghiên cứu trình bày thuật tốn học tích cực cho nhiệm vụ thu thập hạt giống, xác định ứng cử viên để nhận nhãn từ ngƣời dùng cách kết hợp thuật toán K-Means min-max Thuật toán K-Means đƣợc sử dụng bƣớc thứ để xác định cụm số cụm bƣớc thứ hai sử dụng phƣơng pháp tối thiểu min-max chọn ứng cử viên để nhận nhãn từ ngƣời dùng (tối thiểu cụm nhận đƣợc nhãn) Trong [15], phƣơng pháp thu thập hạt giống dựa min-max đƣợc đề xuất, nhóm nghiên cứu gọi phƣơng pháp SMM SMM thu thập hạt giống dựa chiến lƣợc tối thiểu Ý tƣởng SMM xây dựng hạt giống bao gồm việc phân phối liệu đầu vào Với tập liệu X, SMM sử dụng phƣơng pháp lặp lại để thu thập tập hạt giống Y Trong [8], tác giả phát triển thuật tốn học tập tích cực (gọi SKMMM) cho nhiệm vụ thu thập hạt giống, xác định ứng viên để nhận nhãn ngƣời dùng cách sử dụng thuật toán K-Means min-max Ở bƣớc đầu tiên, SKMMM sử dụng thuật toán K-Means để phân vùng tập liệu đầu vào thành cụm Trong bƣớc thứ hai, SKMMM sử dụng phƣơng pháp min-max để chọn ứng viên hạt giống để lấy nhãn từ ngƣời dùng Số lƣợng cụm bƣớc thứ đƣợc chọn đủ lớn, tức lên đến √ B Mơ hình mạng nơron min-max mờ FMNN mơ hình học tăng cƣờng dựa tập siêu hộp mờ cho phép xử lý liệu lớn [9], kế thừa ƣu điểm phƣơng pháp học tăng cƣờng Thứ nhất, hiệu việc khám phá kiến thức; thứ hai, cho phép sử dụng lại thêm nhiều thông tin lần chạy; thứ ba, tất liệu đào tạo đƣợc sử dụng cho trình học tập thay chờ đợi tập hợp đƣợc đào tạo lại [14] Ngoài ra, FMNN cung cấp định linh hoạt thông qua hàm thành viên mờ Hình ví dụ phân cụm FMNN tập liệu Aggregation từ kho liệu học máy CS Hình Ví dụ phân cụm FMNN tập liệu Aggregation từ kho liệu học máy CS Mơ hình mạng nơron min-max mờ (FMNN) đƣợc đề xuất Simpson Học FMNN gồm học có giám sát áp dụng cho toán phân lớp liệu [12] học khơng giám sát áp dụng cho tốn phân cụm liệu [13] FMNN biểu diễn liệu siêu hộp mờ [2] Sự kết hợp logic mờ khả học mạng nơron điểm mạnh FMNN xử lý thông tin khơng chắn Do đó, mạng FMNN ứng dụng nhiều lĩnh vực nhƣ hệ chuyên gia, dự báo, điều khiển Một siêu hộp min-max mờ vùng không gian mẫu n-chiều giới hạn điểm (ký hiệu V) điểm max (ký hiệu W) với mẫu kèm với hàm thuộc Hàm thuộc siêu hộp mờ mô tả mức độ thuộc mẫu vào siêu hộp Hàm thuộc có vai trị quan trọng thuật tốn học min-max mờ Giá trị thành thuộc nằm khoảng từ đến Giá trị hàm thuộc đo mức độ thuộc mẫu liệu tƣơng ứng với siêu hộp Điều định xem mẫu liệu thuộc siêu hộp cụ thể Một mẫu đƣợc chứa siêu hộp có giá trị hàm thuộc Khơng gian mẫu có ma trận đơn vị In, giá trị hàm thuộc bj(A) mẫu liệu A với siêu hộp Bj thứ j (j=1,2,3,…,c) mô tả mức độ thuộc A vào Bj Siêu hộp thứ j (Bj) định nghĩa theo (1): Bj A,V j ,W j , b j A,V j ,W j , A I n (1) Vũ Đình Minh, Lê Bá Dũng, Lê Anh Tú, Nguyễn Thanh Sơn 437 Trong A mẫu liệu; Vj điểm Bj, Wj điểm max Bj; bj(A,Vj,Wj) độ thuộc A với siêu hộp Bj, đƣợc định nghĩa theo (2): b j A,V j ,W j n f ni w ji , f v ji , (2) Trong đó: Vj v j1 , v j , , v jn ; Wj w j1 , w j , , w jn ; tham số điều chỉnh tốc độ giảm giá trị hàm thuộc bj mẫu vào bị tách khỏi siêu hộp; f(x,y) hàm ngƣỡng hai tham số, đƣợc xác định theo (3): f x, y 1, xy 1, xy, xy 1, 0, xy (3) Thuật toán học mạng nơron min-max mờ bao gồm trình mở rộng thu hẹp siêu hộp để điều chỉnh giá trị min-max siêu hộp mẫu không gian mẫu Giả sử tập huấn luyện D ban đầu gồm m mẫu, với Ah ah1, ah , , ahn I n mẫu vào thứ h (h = 1, 2,…, m) tập D Quá trình học bắt đầu việc lựa chọn lần lƣợt mẫu Ah D tìm siêu hộp gần để mở rộng thêm mẫu Nếu khơng thể tìm thấy siêu hộp thỏa mãn tiêu chí mở rộng, siêu hộp đƣợc tạo Quá trình tăng trƣởng cho phép cụm đƣợc tinh chỉnh theo thời gian, cho phép cụm đƣợc thêm vào mà không cần đào tạo lại Khi thực mở rộng siêu hộp, gây nên chồng lấn siêu hộp Sự chồng lấn siêu hộp tạo nên khơng rõ ràng, điều gây nên mẫu có giá trị hàm thuộc nhƣ tới cụm khác nhau, giá trị hàm thuộc FMNN thực điều chỉnh co lại siêu hộp để loại trừ chồng lấn Thuật toán học gồm bƣớc: Bƣớc 1: Khởi tạo siêu hộp, Bƣớc 2: Mở rộng siêu hộp, Bƣớc 3: Kiểm tra chồng lấn siêu hộp, Bƣớc 4: Điều chỉnh chồng lấn siêu hộp Từ Bƣớc đến Bƣớc đƣợc thực cho mẫu đầu vào Thuật toán dừng siêu hộp ổn định mẫu đầu vào đƣợc duyệt hết Sơ đồ thuật toán học FMNN đƣợc mơ tả Hình Begin D, Ah D Có siêu hộp chứa Ah? y n Tạo siêu hộp Bj Mở rộng siêu hộp Có chồng lấn siêu hộp? n y Co lại siêu hộp n Dữ liệu vào hết? y End Hình Sơ đồ thuật toán học FMNN FMNN phân cụm mạng nơron hai lớp [13] Lớp đầu vào, FA gồm n nút (một nút tƣơng ứng với chiều liệu) lớp đầu ra, FB gồm m nút (mỗi nút tƣơng ứng với cụm) Mỗi nút đầu vào đƣợc kết nối với thành phần Ah Kết nối đƣợc thiết lập cặp trọng số bao gồm vji max wji 438 PHÂN CỤM BAN GIÁM SÁT DỰA TRÊN PHƢƠNG PHÁP GIEO HẠT SỬ DỤNG MẠNG RRON MIN-MAX MỜ III PHƢƠNG PHÁP ĐỀ XUẤT Trong phần này, chúng tơi trình bày mơ hình đề xuất lựa chọn hạt giống cho phân cụm bán giám sát dựa FMNN phân cụm Thuật toán học xây dựng tập hạt giống lớn với số truy vấn ngƣời sử dụng thấp SCFMS tạo siêu hộp nhận nhãn từ ngƣời dùng cho siêu hộp, sau gán nhãn cho hạt giống có giá trị hàm thuộc đầy đủ với siêu hộp tƣơng ứng Thuật tốn sử dụng phƣơng pháp thích nghi để tự xác định giá trị kích thƣớc siêu hộp đƣợc chúng tơi đề xuất mơ hình SS-FMM [17] Ý tƣởng phƣơng pháp dựa kết nghiên cứu với phân cụm bán giám sát mơ hình mạng nơron min-max mờ SS-FMM [17] Trong mơ hình này, tập huấn luyện bao gồm mẫu khơng có nhãn Đầu tiên, thuật tốn hình thành cụm cách sử dụng thuật toán FMNN phân cụm Với siêu hộp đại diện cho cụm Sau nhận nhãn từ ngƣời dùng cho siêu hộp, siêu hộp bao gồm tập hạt giống có giá trị hàm thuộc đầy đủ với siêu hộp tƣơng ứng Quá trình phân cụm bán giám sát sử dụng tập hạt giống nhận đƣợc từ bƣớc để giám sát, hƣớng dẫn trình phân cụm Q trình học thuật tốn đề xuất nhƣ thể Hình FMNN phân cụm bán giám sát Siêu hộp Data Hạt giống Các cụm FMNN phân cụm Truy vấn người dùng SCFMS Hình Thuật toán phân cụm bán giám sát sử dụng mạng nơron min-max mờ Với tập liệu huấn luyện D, bƣớc đầu tiên, sử dụng FMNN phân hoạch D thành c siêu hộp Với siêu hộp nhận đƣợc nhãn từ ngƣời dùng tạo tập hạt giống tƣơng ứng với mẫu có giá trị hàm thuộc đầy đủ với siêu hộp tƣơng ứng Thuật toán SCFMS thực bƣớc thứ nhất, gán nhãn cho mẫu liệu từ truy vấn ngƣời sử dụng cho điểm tâm siêu hộp chọn hạt giống mẫu thuộc siêu hộp tƣơng ứng Các bƣớc thuật tốn học SCFMS đƣợc trình bày Bảng Độ phức tạp thuật toán FMNN O(m) cần lần duyệt qua tập liệu để điểu chỉnh giá trị minmax để ổn định cụm Độ phức tạp trình chọn tập hạt giống Y cần lần duyệt qua tập liệu để kiểm tra độ thuộc mẫu tập siêu hộp O(m×k) Vậy, độ phức tạp SCFMS O(m)+O(m×k) Bảng Thuật tốn học SCFMS SCFMS Input: Tập liệu D, c cụm cho FMNN; Output: Tập hạt thu đƣợc Y; Xử dụng FMNN phân D thành tập siêu hộp B gồm c siêu hộp; t = 0; For Ah D For Bj B If bj(Ah,Bj) = then t = t+1; yt Y 10 11 12 End if; End for; End for; Rerurn Y; ; Blabel j Y yt ; Vũ Đình Minh, Lê Bá Dũng, Lê Anh Tú, Nguyễn Thanh Sơn 439 IV KẾT QUẢ THỰC NGHIỆM A Tập liệu thực nghiệm phương pháp đánh giá Để đánh giá hiệu suất thuật tốn đề xuất, nhóm nghiên cứu tiến hành thực nghiệm với tập liệu chuẩn (Benchmark) từ kho liệu học máy UCI [20], CS [21] Các tập liệu từ CS bao gồm: Aggregation, Flame, Spiral, Jain, R15, Pathbased, Thyroidnew Các tập liệu từ UCI bao gồm: Iris, Wine, PID (Pima Indian Diabetes), Thyroid, Sonar Thông tin tập liệu đƣợc trình bày Bảng Lý để chọn tập liệu để so sánh hiệu suất với số thuật tốn khác cơng bố trƣớc Các tập liệu thực nghiệm đƣợc chuẩn hóa trƣớc tiến hành thực nghiệm Với tập liệu bị thiếu thông tin (missing values) đƣợc xử lý tƣơng tự Batista [3] Để đánh giá thuật toán đề xuất, sử dụng độ đo Accuracy [18], tổng số truy vấn ngƣời sử dụng Độ đo Accuracy đƣợc tính theo (4), giá trị độ đo Accuracy lớn tốt Giả sử xi mẫu liệu thuộc tập liệu, yi nhãn thực xi, yi nhãn tƣơng ứng xi theo kết gom cụm Accuracy H(y) = yi yi , ngƣợc lại H(y) = yi n H yi ni yi (4) yi , n tổng số mẫu tập kiểm tra Bảng Thông tin tập liệu thực nghiệm Benchmark ID 10 11 12 Data Iris Soybean Zoo Yeast Aggregation Flame Jain R15 Spiral Thyroidnew Wine Liver #Mẫu 150 47 101 1484 788 240 373 600 312 215 178 500 #Thuộc tính #Cụm 35 16 2 2 13 10 10 2 15 3 3 Tập liệu thực tế đƣợc thu thập kết xét nghiệm công thức máu sinh hóa máu từ bệnh viện Đa khoa Trung ƣơng Thái Nguyên kèm kết luật bác sĩ tình trạng sức khỏe gan (Liver) bệnh nhân Đây liệu hồi cứu, khơng có thơng tin cá nhân bệnh nhân B Kết thực nghiệm Trong phần này, chúng tơi trình bày kết thực nghiệm cách sử dụng thuật toán SKMMM, SMM, phƣơng pháp ngẫu nhiên (Random) [8] SCFMS Để đánh giá thuật tốn đề xuất, chúng tơi sử dụng độ đo Accuracy để đánh giá so sánh số truy vấn ngƣời sử dụng phải cung cấp cho thuật tốn Hình minh họa số lƣợng truy vấn ngƣời sử dụng phải cung cấp trình thực thuật toán tƣơng ứng Nhƣ thể hình, phƣơng pháp SCFMS cần truy vấn phƣơng pháp SKMMM, SMM phƣơng pháp ngẫu nhiên Đây thuận lợi đáng kể SCFMS cho toán thực tế, mà việc lấy nhãn nhiều chi phí [4] Hình Số truy vấn ngƣời dùng phƣơng thức tập liệu thực nghiệm Hình cho thấy kết phân cụm cách sử dụng hạt SCFMS FMNN ba phƣơng pháp lại Kết cho thấy SCFMS có hiệu suất tốt tập liệu Iris, Soybean Zoo Có thể giải thích rằng, SCFMS cso khả thu đƣợc nhiều hạt giống hơn, với số lần truy vấn Thuật toán phân cụm bán giám sát có khả cho 440 PHÂN CỤM BAN GIÁM SÁT DỰA TRÊN PHƢƠNG PHÁP GIEO HẠT SỬ DỤNG MẠNG RRON MIN-MAX MỜ kết tốt với số mẫu đƣợc gán nhãn nhiều Hơn nữa, hạt giống thu đƣợc FMNN tập trung tâm cụm nên tốt cho trình hình thành cụm giám sát trình phân cụm Hình So sánh độ đo Accuracy SCFMS với thuật toán khác Để kiểm tra khả SCFMS thay đổi số cụm ban đầu, tiến hành thực nghiệm thay đổi số cụm vào ban đầu Hình 6, Hình biểu diễn biến động độ đo Accuracy thay đổi số cụm c đầu vào Giá trị c đƣợc chọn lớn không vƣợt √ [25] Độ đo Accuracy bị ảnh hƣởng số cụm c đƣợc chọn ban đầu Hình Sự biến động độ đo Accuracy thay đổi số cụm vào tập liệu Iris, Soybean, Zoo, Wine, Thyroidnew Hình Sự biến động độ đo Accuracy thay đổi số cụm vào tập liệu Flame, Jain, R15, Aggregation, Sprial Hình Hình kết thực nghiệm thuật toán SCFMS tập liệu Liver Hình biểu diễn biến động độ đo Accuracy thay đổi số cụm đầu vào (số cụm đƣợc chọn nhỏ √ [25]) Hình thống kê tỉ lệ mẫu có nhãn thay đổi số cụm đầu vào Kết cho thấy, thay đổi số cụm c đầu vào, độ đo Accuracy thay đổi Tỷ lệ mẫu có nhãn tỷ lệ thuận với số cụm đầu vào Kết cho thấy, SCFMS cho kết tốt tập liệu thực tế Hình Biểu diễn biến động độ đo Accuracy thay đổi số cụm đầu vào tập Liver Vũ Đình Minh, Lê Bá Dũng, Lê Anh Tú, Nguyễn Thanh Sơn 441 Hình Thống kê tỉ lệ mẫu có nhãn thay đổi số cụm đầu vào V KẾT LUẬN Bài báo trình bày mơ hình lựa chọn hạt giống sử dụng mạng nơron min-max mờ cho phân cụm bán giám sát So với phƣơng pháp nhƣ lựa chọn hạt giống ngẫu nhiên, SMM [18], SKMMM [8] phƣơng pháp chúng tơi có ƣu điểm giảm thiểu số truy vấn ngƣời dùng Các kết thực nghiệm cho thấy SCFMS có kết tốt xử lý liệu thực nghiệm SCFMS cịn có khả tự bổ sung thêm hạt giống tập liệu phát sinh cụm Đặc điểm có đƣợc đƣợc kế thừa từ FMNN [13] Tuy nhiên, q trình học thích nghi SCFMS cần thời gian kinh nghiệm việc “thử sai” xác định tham số điều chỉnh Đây hạn chế thuật tốn phân cụm mờ min-max nói riêng hầu hết mơ hình mạng nơron nói chung Đây hƣớng nghiên cứu cần đƣợc xem xét TÀI LIỆU THAM KHẢO [1] Allahyar, A., Yazdi, H S., Harati, A (2015), "Constrained SemiSupervised Growing Self-Organizing Map.", Neurocomputing, 147, pp 456-471 [2] B Alpern and L Carter, “The siêu hộp,” in Proc IEEE Conf Visual., Oct 1991, pp 133-139 [3] Batista, G E., & Monard, M C (2003) “An analysis of four missing data treatment methods for supervised learning.”, Applied artificial intelligence,17(5-6), pp 519-533 [4] B Settles, “Active learning literature survey,” in Computer Sciences Technical Report 1648 University of WisconsinMadison, 2010 [5] Gabrys, B., & Bargiela, A (2000) "General fuzzy min-max neural network for clustering and classification.", IEEE transactions on neural networks, 11(3), pp.769-783 [6] K Wagstaff, S Basu, and I Davidson, “When is constrained clustering beneficial, and why?” in In AAAI, 2006 [7] L Lelis and J Sander, “Semi-supervised density-based clustering,” in In proc IEEE Intl Conf on Data Mining, 2009, pp 842-847 [8] Le, C., Vu, V V., & Yen, N T H (2019) “Choosing seeds for semi-supervised graph based clustering” Journal of Computer Science and Cybernetics, 35(4), 373-384 [9] Martínez-Rego, D.; Fontenla-Romero, O.; Alonso-Betanzos, A.: “Nonlinear single layer neural network training algorithm for incremental, nonstationary and distributed learning scenarios” Pattern Recognit 45(12), 4536-4546 (2012) [10] Pedrycz, W., & Waletzky, J (1997) "Fuzzy clustering with partial supervision.", IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 27(5), pp 787-795 [11] S Basu, A Banerjee, and R Mooney, “Semi-supervised clustering by seeding,” in In Proc of 19th Intl Conf on Machine Learning, 2002, pp 281-304 [12] Simpson, P K (1992) “Fuzzy min-max neural networks I Classification.” IEEE transactions on Neural Networks, 3(5), 776-786 [13] Simpson, P K (1993) “Fuzzy min-max neural network-Part II: Clustering.” IEEE Trans Fuzzy Syst, 1(1), 32-45 [14] Luo, C., Li, T., Chen, H., & Liu, D “Incremental approaches for updating approximations in set-valued ordered information systems”, Knowledge-Based Systems, 50, 218-233, 2013 [15] V.-V Vu and N Labroche, “Active seed selection for constrained clustering,” Intelligent Data Analysis, vol 21(3), pp 537-552, 2017 [16] Yasunori, E., Yukihiro, H., Makito, Y., & Sadaaki, M (2009) “On semi-supervised fuzzy c-means clustering.”, Proceeding of FUZZ-IEEE 2009, 1119-1124 [17] Vu, D M., Nguyen, V H., & Le, B D “Semi-supervised clustering in fuzzy min-max neural network” In International Conference on Advances in Information and Communication Technology (pp.541-550), Springer International Publishing, 2016 442 PHÂN CỤM BAN GIÁM SÁT DỰA TRÊN PHƢƠNG PHÁP GIEO HẠT SỬ DỤNG MẠNG RRON MIN-MAX MỜ [18] Zaki, M J., & Meira Jr, W Data mining and analysis: fundamental concepts and algorithms, Cambridge University Press, 2014 [19] Zhang, H., & Lu, J “Semi-supervised fuzzy clustering: A kernelbased approach”, Knowledge-Based Systems, 22(6), pp 477-481, 2009 [20] https://archive.ics.uci.edu/ml/datasets.html [21] https://cs.joensuu.fi/sipu/datasets/ [22] V.-V Vu, “An efficient semi-supervised graph based clustering,” Intelligent Data Analysis., vol 22(2), pp 297307, 2018 [23] K Wagstaff, C Cardie, S Rogers, and S Schrodl, “Constrained k-means clustering with background knowledge,” in In Proc of Intl Conf on Machine Learning, 2001, pp 577-584 [24] R Yan, J Zhang, J Yang, and A Hauptmann, “A discriminative learning framework with pairwise constraints for video object classification,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 28(4), pp 578593, 2004 [25] C Zhong, M Malinen, D Miao, and P Franti, “A fast minimum spanning tree algorithm based on k-means,” Inf Sci., Vol 295, pp 1-17, 2015 SEMI-SUPERVISED CLUSTERING BASED ON CHOOSING SEEDS METHOD USING FUZZY MIN-MAX NEURAL NETWORK Vu Dinh Minh, Le Ba Dung, Le Anh Tú, Nguyen Thanh Son ABSTRACT: Clustering is a technique in data mining that belongs to the class of unsupervised learning methods The process of separating the groups according to the similarity of the data is called clustering There are two basic principles: (i) the similarity is highest in a cluster, and (ii) the similarity between clusters is the least Recently, fuzzy semi-supervised clustering is an extension of fuzzy clustering that has also received a lot of attention from scientists The fuzzy semi-supervised clustering uses the prior information to guide the clustering process, thereby increasing the quality of the cluster Predictive information, also known as supplementary information, is intended to guide, monitor and control the clustering process Additional information can be constructed based on Must-link/Cannot-link constraints, or labels (seeds) accompanying the samples, or predefined membership The method of labeling with the sample requires that a certain portion of the sample in the sample space is accompanied by labels In general, the clustering result is often dependent on the additional information provided, so different complementary information will produce different results In some cases, clustering performance may decrease if the supplemental information is not carefully selected This article discusses the problem of selecting good seeds for semi-supervised clustering using fuzzy min-max neural networks Properly collected good seeds can increase clustering quality and reduce the number of queries from experts For this purpose, we propose an algorithm for the seed collection task, which identifies candidates to receive labels from experts using a fuzzy min-max neural network (called SCFMS) Experiments conducted on some real datasets from UCI, CS and real dataset collected from Thai Nguyen Central General Hospital showed the effectiveness of SCFMS compared to other methods ... PHÂN CỤM BAN GIÁM SÁT DỰA TRÊN PHƢƠNG PHÁP GIEO HẠT SỬ DỤNG MẠNG RRON MIN-MAX MỜ II CÁC NGHIÊN CỨU LIÊN QUAN A Một số thuật toán phân cụm dựa phương pháp gieo hạt Trong [7], thuật toán phân cụm. .. vấn Thuật toán phân cụm bán giám sát có khả cho 440 PHÂN CỤM BAN GIÁM SÁT DỰA TRÊN PHƢƠNG PHÁP GIEO HẠT SỬ DỤNG MẠNG RRON MIN-MAX MỜ kết tốt với số mẫu đƣợc gán nhãn nhiều Hơn nữa, hạt giống thu... 438 PHÂN CỤM BAN GIÁM SÁT DỰA TRÊN PHƢƠNG PHÁP GIEO HẠT SỬ DỤNG MẠNG RRON MIN-MAX MỜ III PHƢƠNG PHÁP ĐỀ XUẤT Trong phần này, chúng tơi trình bày mơ hình đề xuất lựa chọn hạt giống cho phân cụm bán

Ngày đăng: 01/10/2021, 15:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w