Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)Nghiên cứu phát triển thuật toán gom cụm mờ (Luận văn thạc sĩ)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN NHƯ ĐỒNG NGHIÊN CỨU PHÁT TRIỂN THUẬT TOÁN GOM CỤM MỜ Chun ngành: hệ thống thơng tin Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ TP.HCM - 2018 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS NGUYỄN PHƯƠNG (Ghi rõ học hàm, học vị) Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng TĨM TẮT LUẬN VĂN Chương giới thiệu lí chọn đề tài, trình bày tính khoa học khả thi đề tài thời đại công nghệ thơng tin Để giải tốn mà đề tài đặt ra, chương tìm hiểu khái quát kiến thức sở khai phá liệu thuật toán gom cụm mờ Từ đề xuất lựa chọn thuật tốn thích hợp Sau tìm hiểu thuật tốn sở để làm tảng khoa học, chương trình bày chi tiết ý tưởng, nội dung thuật toán gom cụm K-Means mờ sử dụng trọng số Entropy (FKMUE) phương pháp đánh giá cụm Calinski-Harabasz index Từ hướng đến việc đề xuất giải pháp hiệu cách kết hợp hai phương pháp lại với Kết thực nghiệm với tập sở liệu Iris thực chương để đánh giá kết gom cụm mơ hình đề xuất Sau minh chứng tính khả thi mơ hình đề xuất Trong chương (chương 4), luận văn tiến đến việc xây dựng ứng dụng thực tế cách áp dụng mơ hình đề xuất vào tốn quản lý môn học kết học tập sinh viên trường Cao đẳng Kỹ Nghệ II Và cuối tổng kết, phần trình bày kết đạt vấn đề tồn hướng phát triển tương lai Chương - TỔNG QUAN 1.1 Tính cấp thiết đề tài Ngày nay, ứng dụng công nghệ thông tin phục vụ cho hầu hết lĩnh vực đời sống viễn thông, kinh tế, y tế, giáo dục, Những ứng dụng mang lại cho người nhiều tiện ích sống, đáp ứng nhu cầu từ đơn giản đến phức tạp Việc ứng dụng công nghệ thông tin sống dẫn đến việc hình thành khối lượng liệu khổng lồ, ngày lớn dần theo thời gian Đây xem kho tri thức tiềm tàng, đòi hỏi người sử dụng phải biết khai thác, chọn lọc liệu có ích cho Các tri thức rút trích vận dụng để cải thiện hiệu hoạt động hệ thống thông tin ban đầu Khai thác tri thức sở liệu xu hướng phát triển công nghệ thông tin nay, có khả ứng dụng vào nhiều toán thực tế khác Khai thác liệu (Data Mining) [3] bước quan trọng trình này, giúp người sử dụng thu tri thức hữu ích từ nguồn liệu khổng lồ Khai thác liệu trình tìm kiếm mẫu mới, thơng tin tiềm ẩn mang tính dự đốn khối liệu lớn Với ưu điểm trên, khai thác liệu ứng dụng rộng rãi lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, … Hiện nay, trường đại học, cao đẳng, công nghệ thông tin ứng dụng việc quản lý hồ sơ sinh viên điểm số môn học học kỳ, liệu lưu trữ theo thời gian lớn Việc áp dụng khai thác liệu liệu cần thiết, nhằm phục vụ cho việc quản lý, hỗ trợ sinh viên nâng cao chất lượng giảng dạy trường Với lí nêu, người nghiên cứu chọn đề tài “ Nghiên cứu phát triển thuật toán gom cụm mờ ” 1.2 Tổng quan vấn đề nghiên cứu: Cùng với phát triển xã hội, lượng thông tin phục vụ cho sống không ngừng tăng lên Sự tích lũy liệu, đó, diễn nhiều Người ta uớc đốn rằng, luợng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số luợng kích cỡ sở liệu (CSDL) tăng lên cách nhanh chóng Trong nhiều lĩnh vực, nhà quản lý “ngập” liệu, lại cảm thấy “thiếu” tri thức thơng tin hữu ích Lượng liệu khổng lồ thực nguồn “tài nguyên” giá trị thông tin yếu tố then chốt hoạt động thơng tin giúp ngƣ ời điều hành quản lý có nhìn sâu sắc, xác, khách quan trước định Khai phá liệu – khai thác thơng tin tiềm ẩn mang tính dự đốn từ CSDL lớn – hướng tiếp cận với khả giúp đơn vị, tổ chức trọng vào thơng tin có nhiều ý nghĩa từ tập hợp liệu lớn (databases, data warehouses, datarepositories) mang tính lịch sử Những cơng cụ khai phá liệu dự đốn xu hướng tương lai cho phép tổ chức, doanh nghiệp định kịp thời đƣợc định hướng tri thức mà khai phá liệu đem lại Sự phân tích liệu cách tự động mang tính dự báo khai phá liệu có ưu hẳn so với phân tích thơng thường dựa kiện khứ hệ hỗ trợ định (Decision support systems – DSSs) truyền thống trước Công cụ khai phá liệu trả lời câu hỏi lĩnh vực kinh doanh mà trước xem tốn nhiều thời gian để xử lý Ta coi khai phá liệu giống trình phát mẫu đáp ứng yêu cầu, tương quan có ý nghĩa, xu hướng khai thác khối liệu kho liệu, sử dụng kỹ thuật khái niệm lĩnh vực nghiên cứu từ trước như: học máy, nhận dạng, thống kê, hồi quy, xếp loại, phân nhóm, mơ hình đồ thị, mạng Bayes… Khai phá liệu sử dụng để tạo giả thuyết Ví dụ nh để xác định yếu tố rủi ro cho vay tín dụng, kỹ thuật khai phá liệu phải phát người có thu nhập thấp nợ nhiều người có mức rủi ro cao, ngồi kỹ thuật phát quy luật mà nhà phân tích chưa tìm ví dụ tỷ lệ thu nhập nợ tuổi yếu tố xác định mức rủi ro Để làm điều này, khai phá liệu sử dụng thông tin khứ để học Nó tìm kiếm thơng tin CSDL sử dụng chúng để tìm mẫu đáng quan tâm Nếu xét mặt ý tưởng mục đích ứng dụng, khai phá liệu nhu cầu tất yếu đáp lại mong mỏi giới kinh doanh mặt kỹ thuật, thực khó khăn thách thức nhà khoa học Khai phá liệu xây dựng dựa việc sử dụng giải thuật mới, định hướng theo nhucầu kinh doanh để giải tự động toán kinh doanh kỹ thuật dễ dùng hiểu Các kỹ thuật nghiên cứu sử dụng bao gồm định (CART, CHAID, AID), mạng neuron, phương pháp láng giềng gần nhất, luật suy diễn… Khai phá liệu khơng thuộc ngành cơng nghiệp Nó sử dụng kỹ thuật thông minh để khai phá tri thức tiềm ẩn liệu Hiện giới có nhiều ngành cơng nghiệp sử dụng kỹ thuật khai phá liệu để phục vụ cho hoạt động bước đầu thành cơng ngành tài chính, y học, hố học, bảo hiểm, sản xuất, giao thông, hàng không… Các kết đạt cho thấy kỹ thuật khai phá liệu nhiều vấn đề cộm, với tri thức mà chuyên gia người chưa cung cấp khai phá liệu có tiềm to lớn việc tạo lợi nhuận đáng kể kinh tế Với tất ưu trên, khai phá liệu chứng tỏ tính hữu dụng mơi trường kinh doanh đầy tính cạnh tranh ngày Giờ đây, khai phá liệu trở thành hướng nghiên cứu lĩnh vực khoa học máy tính cơng nghệ tri thức 1.3 Mục đích nghiên cứu: Luận văn thực nhằm mục đích vào việc tìm hiểu, nghiên cứu kiến thức khai thác liệu mà cụ thể phương pháp gom cụm mờ phương pháp đánh giá cụm Từ đề xuất mơ hình kết hợp hai phương pháp 1.4 Nội dung nghiên cứu Với mục đích đề tài đặt tìm hiểu số thuật tốn gom cụm mờ liệu đầu vào hiệu Từ đánh giá so sánh với thuật tốn đề xuất 1.5 Phương pháp nghiên cứu Nghiên cứu lý thuyết: Dựa nguồn tài liệu tạp chí khoa học nước, tham khảo thêm số nguồn tài liệu khác có liên quan đến đề tài Nghiên cứu thực nghiệm: Thông qua việc nghiên cứu lý thuyết, xây dựng chương trình thử nghiệm Chương - CƠ SỞ LÝ THUYẾT 2.1 Khai thác liệu 2.1.1 Giới thiệu Khoảng thập kỷ trở lại đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) không ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Người ta ước đoán lượng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lượng kích cỡ sở liệu tăng lên cách nhanh chóng Nói cách hình ảnh “ngập” liệu lại “đói” tri thức Câu hỏi đặt liệu khai thác từ “núi” liệu tưởng chừng “bỏ đi” không? Khai thác liệu [3] đời hướng giải hữu hiệu cho câu hỏi vừa đặt trên, giúp khai thác thơng tin hữu ích từ kho liệu tích trữ suốt trình hoạt động cơng ty, tổ chức 2.1.2 Các nhiệm vụ khai thác liệu Khai thác liệu chia nhỏ thành hai mục đich sau: ● Khai thác liệu mơ tả ● Khai thác liệu dự đốn 2.1.2.1 Phân lớp liệu Mục tiêu phương pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân lớp liệu thường gồm hai bước: Xây dựng mơ hình sử dụng mơ hình để phân lớp liệu 2.1.2.2 Phương pháp hồi quy Phương pháp hồi quy khác với phân lớp liệu chỗ: Hồi quy dùng để dự đoán giá trị liên tục phân lớp liệu dùng để dự đoán giá trị rời rạc 2.1.2.3 Phương pháp gom cụm mờ Sử dụng kỹ thuật mờ để gom cụm liệu, thuật toán thuộc loại lược đồ gom cụm thích hợp với tất hoạt động đời sống ngày, chúng xử lý liệu thực không chắn 2.1.2.4 Khai thác luật kết hợp 2.1.2.5 Gom cụm liệu 2.2 Kỹ thuật gom cụm khai thác liệu 2.2.1 Tổng quan kỹ thuật gom cụm o Biểu diễn liệu o Xây dựng hàm tính độ tương tự o Xây dựng tiêu chuẩn gom cụm o Xây dựng mơ hình cho cấu trúc cụm liệu o Xây dựng thuật toán gom cụm xác lập điều kiện khởi tạo o Xây dựng thủ tục biểu diễn đánh giá kết gom cụm 2.2.2 Ứng dụng gom cụm liệu o Thương mại o Sinh học o Phân tích liệu khơng gian o Lập quy hoạch đô thị o Nghiên cứu trái đất o Địa lý o Khai phá Web 2.2.3 Các yêu cầu kỹ thuật gom cụm liệu o Có khả mở rộng o Thích nghi với kiểu liệu khác o Khám phá cụm với hình thù o Tối thiểu lượng tri thức cần cho xác định tham số vào 2.2.4 Phân loại kiểu liệu 2.2.4.1 Phân loại kiểu liệu dựa kích thước miền o Thuộc tính liên tục o Thuộc tính rời rạc o Lớp thuộc tính nhị phân 2.2.4.2 Phân loại kiểu liệu dựa hệ đo 2.2.5 Độ đo tương tự, phi tương tự 2.2.6 Một số phương pháp gom cụm liệu 2.2.6.1 Gom cụm phân cấp Phương pháp Bottom up Phương pháp Top Down 2.2.6.2 Gom cụm dựa mật độ 2.2.6.3 Gom cụm dựa lưới 2.2.6.4 Gom cụm dựa mơ hình 2.2.6.5 Gom cụm phân hoạch 2.3 Thuật toán k-means Thuật toán K-Means bao gồm bước sau: INPUT: Một sở liệu gồm n đối tượng số cụm k OUTPUT: Các cụm Ci (i=1, ,k) cho hàm tiêu chuẩn F đạt giá trị tối thiểu Bước 1: Khởi tạo Chọn k đối tượng mj (j=1 k) trọng tâm ban đầu k cụm từ tập liệu (việc lựa chọn ngẫu nhiên theo kinh nghiệm) Bước 2: Tính tốn khoảng cách Đối với đối tượng Xi (1 ≤ i ≤ n) , tính tốn khoảng cách từ tới trọng tâm mj với j=1, ,k, sau tìm trọng tâm gần đối tượng Bước 3: Cập nhật lại trọng tâm Đối với j=1, ,k, cập nhật trọng tâm cụm mj cách xác định trung bình cộng vector đối tượng liệu Bước 4: Điều kiện dừng Lặp bước trọng tâm cụm không thay đổi 2.4 Thuật toán k-means mờ Các thực thể giới thực hay khái niệm trừu tượng thường đối tượng phức tạp Các đối tượng chứa tập định thông tin đối tượng hành vi đối tượng Thơng tin đối tượng gọi thuộc tính đối tượng xác định giá trị cụ thể Chúng ta thấy rằng, tùy thuộc vào mục tiêu gom cụm mà tính chất quan trọng thuộc tính khác Do đó, cần đánh giá tính quan trọng thuộc tính đối tượng để thu kết gom cụm tốt Cụ thể cung cấp giá trị trọng số ω độ đo F để thể mức độ quan trọng thuộc tính Phương pháp gọi gom cụm mờ [18]-[19] độ đo F tính sau: (2.1) Trong đó: o n: số phần tử cụm o m: số thuộc tính phần tử o k: số cụm o cli : phần tử trung tâm cụm ( 1