(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp(Luận văn thạc sĩ) Phân cụm dựa trên tri thức theo từng cặp
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ VĂN VIỆT PHÂN CỤM DỰA TRÊN TRI THỨC THEO TỪNG CẶP Ngành: Hệ thống Thông tin Chuyên ngành: Hệ thống Thông tin Mã Số: 8480104.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội – 09/2020 i LỜI CAM ĐOAN Tôi Đỗ Văn Việt xin cam đoan nội dung trình bày luận văn kết tìm hiểu, nghiên cứu thân hướng dẫn PGS.TS Hồng Xn Huấn Mọi thơng tin tham khảo sử dụng luận văn trích dẫn đầy đủ hợp pháp Nếu có sai phạm, tơi xin hồn tồn chịu trách nhiệm Hà Nội, tháng 09 năm 2020 Đỗ Văn Việt ii LỜI CẢM ƠN Trong q trình thực luận văn, tơi gặp nhiều khó khăn Nhưng tơi ln nhận ủng hộ, giúp đỡ từ thầy cô, bạn bè gia đình Khi hồn thành xong luận văn này, thực biết ơn họ Tôi xin gửi lời cảm ơn chân thành tới PGS.TS Hoàng Xuân Huấn tận tình hướng dẫn bảo tơi suốt trình thực luận văn Được nhận giúp đỡ Thầy, với em quà vô quý giá đời Một lần em gửi lời cảm ơn, lời biết ơn tới Thầy Tôi xin chân thành cảm ơn quý Thầy Cô trường Đại học Công nghệ – Đại học Quốc gia Hà Nội tận tình dạy bảo, truyền đạt kiến thức q báu giúp tơi hồn thành nhiệm vụ học tập suốt thời gian theo học trường Q Thầy Cơ giúp tơi có kiến thức tảng quý báu quan trọng ngành nghề mà theo đuổi Tôi xin chân thành cảm ơn anh chị em đồng nghiệp giúp đỡ, ủng hộ tinh thần thời gian tham gia học tập Cuối cùng, xin gửi lời cảm ơn, biết ơn tới người thân yêu gia đình bé nhỏ tơi Những người phụ giúp nhiều công việc, trách nhiệm gia đình để tơi có thời gian, sức lực để học tập hoàn thành luận văn Hà Nội, tháng 09 năm 2020 Đỗ Văn Việt iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT v DANH SÁCH HÌNH VẼ vi LỜI NÓI ĐẦU CHƯƠNG PHÂN CỤM DỮ LIỆU 1.1 Phân cụm 1.2 Một số phương pháp phân cụm liệu 1.2.1 Phương pháp phân hoạch 1.2.2 Phương pháp phân cấp 1.2.3 Phương pháp dựa mật độ 1.2.4 Phương pháp dựa lưới 10 CHƯƠNG MẠNG NƠ-RON 13 2.1 Mạng nơ-ron 13 2.1.1 Nơ-ron sinh học 13 2.1.2 Perceptron 14 2.1.3 Mạng truyền tới nhiều tầng 16 2.2 Huấn luyện mạng nơ-ron 17 2.3 Hàm kích hoạt 19 2.4 Hàm mát 21 2.4.1 Hàm mát dùng cho hồi quy 21 2.4.2 Hàm mát dùng cho phân lớp 21 2.4.3 Hàm mát dùng cho tái tạo 22 CHƯƠNG PHÂN CỤM DỰA TRÊN TRI THỨC THEO TỪNG CẶP 24 3.1 Phân cụm dựa ràng buộc 24 3.1.1 Phân loại ràng buộc 24 3.1.2 Các phương pháp phân cụm dựa ràng buộc 25 3.2 Phương pháp S3C2 27 3.2.1 Giới thiệu sơ lược 27 3.2.2 Chi tiết mơ hình 28 3.3 Đánh giá mơ hình 31 CHƯƠNG THỬ NGHIỆM 33 iv 4.1 Giới thiệu 33 4.2 Chương trình 33 4.2.1 Module dataset 33 4.2.2 Module labnet 33 4.2.3 Module clunet 34 4.3 Dữ liệu thử nghiệm 34 4.3.1 Dữ liệu hoa Iris 34 4.3.2 Dữ liệu chữ số viết tay MNIST 35 4.4 Thử nghiệm liệu hoa Iris 35 4.4.1 Kịch thử nghiệm 35 4.4.2 Kết thử nghiệm 37 4.4.3 Nhận xét 39 4.5 Thử nghiệm liệu MNIST 39 4.5.1 Kịch thử nghiệm 39 4.5.2 Kết thử nghiệm 41 4.5.3 Nhận xét 43 4.6 Nhận xét thử nghiệm 43 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 44 TÀI LIỆU THAM KHẢO 45 v DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT STT 10 11 12 Từ viết tắt BI CRM MSE SSC S3C2 LabNet CluNet SNN DNNs NMI ARI SSGC Từ cụm từ Business Intelligence Customer Relationship Management Mean Squared Error Semi-Supervised Clustering Semi-Supervised Siamese Classifiers for Clustering Labeling Network Clustering Network Siamese Neural Networks Dense Deep Neural Networks Normalized Mutual Information Adjusted Rand Index Semi-Supervised Graph-based Clustering vi DANH SÁCH HÌNH VẼ Hình 1.1 Phân cụm k-Means Hình 1.2 Chameleon Hình 1.3 Density-reachability density-connectivity 10 Hình 1.4 Hierarchical structure for STING clustering 11 Hình 2.1 Nơ-ron sinh học 13 Hình 2.2 Single-layer perceptron 15 Hình 2.3 Artificial neuron for a multilayer perceptron 16 Hình 2.4 Multilayer neural network topology 17 Hình 2.5 Linear activation function 19 Hình 2.6 Sigmoid activation function 20 Hình 3.1 Mơ hình S3C2 28 Hình 3.2 Cấu trúc mạng LabNet 29 Hình 3.3 Cấu trục mạng CluNet 30 Hình 3.4 NMI 32 Hình 4.1 Hoa Iris 35 Hình 4.2 Một mẫu chữ số viết tay 35 Hình 4.3 Cấu trúc chi tiết mạng LabNet liệu sử dụng Iris 36 Hình 4.4 Cấu trúc chi tiết mạng CluNet liệu sử dụng Iris 37 Hình 4.5 Kết phân cụm liệu Iris 38 Hình 4.6 Kết phân cụm số phương pháp khác liệu Iris 38 Hình 4.7 Cấu trúc mạng LabNet liệu sử dụng MNIST 40 Hình 4.8 Cấu trụng mạng nơ-ron sử dụng CluNet 41 Hình 4.9 Kết phân cụm liệu MNIST 42 Hình 4.10 Biểu đồ kết phân cụm số phương pháp MNIST 42 LỜI NÓI ĐẦU Thế kỉ 21, kỉ nguyên mà nhân loại chứng kiến thay đổi chóng mặt cơng nghệ thơng tin Công nghệ thay đổi làm thay đổi mặt đời sống người Những sản phẩm công nghệ xuất khắp miền quê, khắp nẻo đường, từ nông thôn đến thành thị Công nghệ làm thay đổi thói quen sinh hoạt, vui chơi, giải trí người Cơng nghệ làm thay đổi phương thức, quy trình sản xuất cá nhân, tập thể Người ta sử dụng công nghệ cho việc, nơi, lúc Dẫn đến, lượng liệu khổng lồ sinh hàng giờ, hàng phút, thẫm chí hàng giây Vì mà lĩnh vực khai phá liệu phát tri thức ngày quan tâm nhiều hơn, phát triển mạnh mẽ hết Trong đó, phân cụm liệu kĩ thuật quan trọng lĩnh vực Phân cụm (Clustering) chia tập liệu thành cụm cho đối tượng cụm giống đối tượng cụm khác Bài toán phân cụm liệu có ứng dụng rộng rãi đa dạng nhiều lĩnh vực, kinh doanh thông minh (Business Intelligence: BI), nhận dạng mẫu, tìm kiếm web, sinh học, bảo mật mạng xã hội, … Bài toán thu hút nhiều người nghiên cứu thập kỷ qua, với bùng nổ liệu, ngày quan tâm xử lý liệu lớn (Big Data) Thoạt tiên, phân cụm liệu xét dạng học không giám sát, việc phân cụm dựa vào tính tương tự đối tượng liệu kết phân cụm khó giải thích rõ ràng Để tăng chất lượng phân cụm, thực tế, người dùng thường dùng thêm số thông tin, tri thức tảng ban đầu đối tượng tập liệu, chẳng hạn đối tượng nên/không nên cụm Hướng tiếp cận gọi phân cụm bán giám sát Hiện nay, thông tin bổ trợ thường cho dạng tập giống (Seed) ràng buộc (Constraint) Tập giống tập gồm đối tượng cho trước chúng thuộc cụm Các ràng buộc gắn cho cặp liệu, must-link cannot-link biết chúng có thuộc cụm hay khơng Chúng ràng buộc cụm, ràng buộc số lượng, kích thước hay hình dạng cụm, … Trong luận văn này, sau tìm hiểu hướng tiếp cận phân cụm dựa ràng buộc theo cặp, tập trung vào phương pháp phân cụm dựa tri thức có tên S3C2 [1], tri thức cho dạng ràng buộc theo cặp Phương pháp sử dụng mạng nơ-ron với thuật toán học sâu để phân cụm, cho hiệu cao Chúng thực cài đặt thực nghiệm để so sánh với thuật toán khác, kết cho thấy ưu điểm trội thuật toán so với thuật tốn tiên tiến có, chẳng hạn SSGC, SSDBSCAN, SSK-Means, MCSSGC [5,6]; kết cài đặt so sánh với thực nghiệm báo vừa cơng bố Ngồi phần kết luận, nội dung luận văn bố cục sau: - Chương Giới thiệu toán phân cụm liệu, khái niệm tiếp cận - Chương Giới thiệu kiến thức mạng nơ-ron cần dùng để sâu vào tìm hiểu việc ứng dụng chúng cho tốn phân cụm dựa tri thức trình bày chương - Chương Trình bày phương pháp S3C2, mơ hình phân lớp sử dụng mạng nơ-ron cho toán phân cụm dựa ràng buộc theo cặp - Chương Trình bày kết cài đặt chương trình cho phương pháp S3C2, chạy thử nghiệm tập liệu hoa Iris, MNIST; đưa kết thực nghiệm S3C2 đồng thời so sánh kết với phương pháp khác: SSGC, SSDBSCAN, SSK-Means, MCSSGC [5,6] CHƯƠNG PHÂN CỤM DỮ LIỆU Trước sâu vào phân cụm bán giám sát dựa tri thức theo cặp, phương pháp S3C2 [1], chương chúng tơi trình bày sơ lược phân cụm liệu, phương pháp phân cụm liệu 1.1 Phân cụm Phân cụm trình phân tách tập đối tượng liệu thành tập Mỗi tập cụm, cho đối tượng cụm giống nhau, khơng giống so với đối tượng cụm khác [2] Phân cụm sử dụng rộng rãi nhiều lĩnh vực, BI, nhận dạng mẫu, tìm kiếm web, sinh học bảo mật, … Trong BI, phân cụm sử dụng để xếp số lượng lớn khách hàng vào nhóm, khách hàng nhóm có tương tự lớn số đặc điểm Điều tạo điều kiện cho phát triển chiến lược kinh doanh để tăng cường quản lý quan hệ khách hàng (Customer Relationship Management: CRM) [2] Trong nhận dạng mẫu, phân cụm sử dụng cho nhiều tốn có tính ứng dụng cao, thực tiễn, nhận dạng chữ ký, nhận dạng chữ viết tay, nhận dạng vân tay, nhận diện khuôn mặt, … Sản phẩm phân cụm triển khai nhiều hệ thống, ngày trở nên phổ biến Từ ứng dụng cá nhân, tới hệ thống lớn doanh nghiệp, ngân hàng, tập đoàn đa quốc gia, chí hệ thống phủ, … có diện phân cụm Chẳng hạn như, ngày nhận dạng vân tay sử dụng làm chế xác thực cho hầu hết thiết bị ứng dụng Phân cụm ứng dụng nhiều tìm kiếm web Ví dụ như: từ khóa tìm kiếm cho số lượng lớn kết quả, số lượng trang web vơ lớn Phân cụm sử dụng để kết vào nhóm trình bày kết cách ngắn gọn Giúp người dùng có trải nghiệm tốt hơn, tìm kiếm dễ dàng hiệu Hơn nữa, kỹ thuật phân cụm phát triển để phân loại tài liệu thành chủ đề, kết thường sử dụng truy hồi thơng tin Trong khai phá liệu, phân cụm sử dụng công cụ độc lập để hiểu rõ phân phối liệu, để quan sát đặc điểm cụm tập trung vào nhóm cụ thể để phân tích thêm Ngồi ra, đóng vai trị bước tiền xử lý cho thuật tốn khác phân lớp, trích chọn đặc trưng, … [2] ... CHƯƠNG PHÂN CỤM DỮ LIỆU Trước sâu vào phân cụm bán giám sát dựa tri thức theo cặp, phương pháp S3C2 [1], chương chúng tơi trình bày sơ lược phân cụm liệu, phương pháp phân cụm liệu 1.1 Phân cụm Phân. .. này, sau tìm hiểu hướng tiếp cận phân cụm dựa ràng buộc theo cặp, tập trung vào phương pháp phân cụm dựa tri thức có tên S3C2 [1], tri thức cho dạng ràng buộc theo cặp Phương pháp sử dụng mạng nơ-ron... Hàm mát dùng cho phân lớp 21 2.4.3 Hàm mát dùng cho tái tạo 22 CHƯƠNG PHÂN CỤM DỰA TRÊN TRI THỨC THEO TỪNG CẶP 24 3.1 Phân cụm dựa ràng buộc 24 3.1.1 Phân loại ràng buộc