PHÂN CỤM DỰA TRÊN TRI THỨC THEO TỪNG CẶP

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ VĂN VIỆT PHÂN CỤM DỰA TRÊN TRI THỨC THEO TỪNG CẶP Ngành: Hệ thống Thông tin Chuyên ngành: Hệ thống Thông tin Mã Số: 8480104.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội – 09/2020 i LỜI CAM ĐOAN Tôi Đỗ Văn Việt xin cam đoan nội dung trình bày luận văn kết tìm hiểu, nghiên cứu thân hướng dẫn PGS.TS Hồng Xn Huấn Mọi thơng tin tham khảo sử dụng luận văn trích dẫn đầy đủ hợp pháp Nếu có sai phạm, tơi xin hồn tồn chịu trách nhiệm Hà Nội, tháng 09 năm 2020 Đỗ Văn Việt ii LỜI CẢM ƠN Trong q trình thực luận văn, tơi gặp nhiều khó khăn Nhưng tơi ln nhận ủng hộ, giúp đỡ từ thầy cô, bạn bè gia đình Khi hồn thành xong luận văn này, thực biết ơn họ Tôi xin gửi lời cảm ơn chân thành tới PGS.TS Hoàng Xuân Huấn tận tình hướng dẫn bảo tơi suốt trình thực luận văn Được nhận giúp đỡ Thầy, với em quà vô quý giá đời Một lần em gửi lời cảm ơn, lời biết ơn tới Thầy Tôi xin chân thành cảm ơn quý Thầy Cô trường Đại học Công nghệ – Đại học Quốc gia Hà Nội tận tình dạy bảo, truyền đạt kiến thức q báu giúp tơi hồn thành nhiệm vụ học tập suốt thời gian theo học trường Q Thầy Cơ giúp tơi có kiến thức tảng quý báu quan trọng ngành nghề mà theo đuổi Tôi xin chân thành cảm ơn anh chị em đồng nghiệp giúp đỡ, ủng hộ tinh thần thời gian tham gia học tập Cuối cùng, xin gửi lời cảm ơn, biết ơn tới người thân yêu gia đình bé nhỏ tơi Những người phụ giúp nhiều công việc, trách nhiệm gia đình để tơi có thời gian, sức lực để học tập hoàn thành luận văn Hà Nội, tháng 09 năm 2020 Đỗ Văn Việt iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT v DANH SÁCH HÌNH VẼ vi LỜI NÓI ĐẦU CHƯƠNG PHÂN CỤM DỮ LIỆU 1.1 Phân cụm 1.2 Một số phương pháp phân cụm liệu 1.2.1 Phương pháp phân hoạch 1.2.2 Phương pháp phân cấp 1.2.3 Phương pháp dựa mật độ 1.2.4 Phương pháp dựa lưới 10 CHƯƠNG MẠNG NƠ-RON 13 2.1 Mạng nơ-ron 13 2.1.1 Nơ-ron sinh học 13 2.1.2 Perceptron 14 2.1.3 Mạng truyền tới nhiều tầng 16 2.2 Huấn luyện mạng nơ-ron 17 2.3 Hàm kích hoạt 19 2.4 Hàm mát 21 2.4.1 Hàm mát dùng cho hồi quy 21 2.4.2 Hàm mát dùng cho phân lớp 21 2.4.3 Hàm mát dùng cho tái tạo 22 CHƯƠNG PHÂN CỤM DỰA TRÊN TRI THỨC THEO TỪNG CẶP 24 3.1 Phân cụm dựa ràng buộc 24 3.1.1 Phân loại ràng buộc 24 3.1.2 Các phương pháp phân cụm dựa ràng buộc 25 3.2 Phương pháp S3C2 27 3.2.1 Giới thiệu sơ lược 27 3.2.2 Chi tiết mơ hình 28 3.3 Đánh giá mơ hình 31 CHƯƠNG THỬ NGHIỆM 33 iv 4.1 Giới thiệu 33 4.2 Chương trình 33 4.2.1 Module dataset 33 4.2.2 Module labnet 33 4.2.3 Module clunet 34 4.3 Dữ liệu thử nghiệm 34 4.3.1 Dữ liệu hoa Iris 34 4.3.2 Dữ liệu chữ số viết tay MNIST 35 4.4 Thử nghiệm liệu hoa Iris 35 4.4.1 Kịch thử nghiệm 35 4.4.2 Kết thử nghiệm 37 4.4.3 Nhận xét 39 4.5 Thử nghiệm liệu MNIST 39 4.5.1 Kịch thử nghiệm 39 4.5.2 Kết thử nghiệm 41 4.5.3 Nhận xét 43 4.6 Nhận xét thử nghiệm 43 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 44 TÀI LIỆU THAM KHẢO 45 v DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT STT 10 11 12 Từ viết tắt BI CRM MSE SSC S3C2 LabNet CluNet SNN DNNs NMI ARI SSGC Từ cụm từ Business Intelligence Customer Relationship Management Mean Squared Error Semi-Supervised Clustering Semi-Supervised Siamese Classifiers for Clustering Labeling Network Clustering Network Siamese Neural Networks Dense Deep Neural Networks Normalized Mutual Information Adjusted Rand Index Semi-Supervised Graph-based Clustering vi DANH SÁCH HÌNH VẼ Hình 1.1 Phân cụm k-Means Hình 1.2 Chameleon Hình 1.3 Density-reachability density-connectivity 10 Hình 1.4 Hierarchical structure for STING clustering 11 Hình 2.1 Nơ-ron sinh học 13 Hình 2.2 Single-layer perceptron 15 Hình 2.3 Artificial neuron for a multilayer perceptron 16 Hình 2.4 Multilayer neural network topology 17 Hình 2.5 Linear activation function 19 Hình 2.6 Sigmoid activation function 20 Hình 3.1 Mơ hình S3C2 28 Hình 3.2 Cấu trúc mạng LabNet 29 Hình 3.3 Cấu trục mạng CluNet 30 Hình 3.4 NMI 32 Hình 4.1 Hoa Iris 35 Hình 4.2 Một mẫu chữ số viết tay 35 Hình 4.3 Cấu trúc chi tiết mạng LabNet liệu sử dụng Iris 36 Hình 4.4 Cấu trúc chi tiết mạng CluNet liệu sử dụng Iris 37 Hình 4.5 Kết phân cụm liệu Iris 38 Hình 4.6 Kết phân cụm số phương pháp khác liệu Iris 38 Hình 4.7 Cấu trúc mạng LabNet liệu sử dụng MNIST 40 Hình 4.8 Cấu trụng mạng nơ-ron sử dụng CluNet 41 Hình 4.9 Kết phân cụm liệu MNIST 42 Hình 4.10 Biểu đồ kết phân cụm số phương pháp MNIST 42 LỜI NÓI ĐẦU Thế kỉ 21, kỉ nguyên mà nhân loại chứng kiến thay đổi chóng mặt cơng nghệ thơng tin Công nghệ thay đổi làm thay đổi mặt đời sống người Những sản phẩm công nghệ xuất khắp miền quê, khắp nẻo đường, từ nông thôn đến thành thị Công nghệ làm thay đổi thói quen sinh hoạt, vui chơi, giải trí người Cơng nghệ làm thay đổi phương thức, quy trình sản xuất cá nhân, tập thể Người ta sử dụng công nghệ cho việc, nơi, lúc Dẫn đến, lượng liệu khổng lồ sinh hàng giờ, hàng phút, thẫm chí hàng giây Vì mà lĩnh vực khai phá liệu phát tri thức ngày quan tâm nhiều hơn, phát triển mạnh mẽ hết Trong đó, phân cụm liệu kĩ thuật quan trọng lĩnh vực Phân cụm (Clustering) chia tập liệu thành cụm cho đối tượng cụm giống đối tượng cụm khác Bài toán phân cụm liệu có ứng dụng rộng rãi đa dạng nhiều lĩnh vực, kinh doanh thông minh (Business Intelligence: BI), nhận dạng mẫu, tìm kiếm web, sinh học, bảo mật mạng xã hội, … Bài toán thu hút nhiều người nghiên cứu thập kỷ qua, với bùng nổ liệu, ngày quan tâm xử lý liệu lớn (Big Data) Thoạt tiên, phân cụm liệu xét dạng học không giám sát, việc phân cụm dựa vào tính tương tự đối tượng liệu kết phân cụm khó giải thích rõ ràng Để tăng chất lượng phân cụm, thực tế, người dùng thường dùng thêm số thông tin, tri thức tảng ban đầu đối tượng tập liệu, chẳng hạn đối tượng nên/không nên cụm Hướng tiếp cận gọi phân cụm bán giám sát Hiện nay, thông tin bổ trợ thường cho dạng tập giống (Seed) ràng buộc (Constraint) Tập giống tập gồm đối tượng cho trước chúng thuộc cụm Các ràng buộc gắn cho cặp liệu, must-link cannot-link biết chúng có thuộc cụm hay khơng Chúng ràng buộc cụm, ràng buộc số lượng, kích thước hay hình dạng cụm, … Trong luận văn này, sau tìm hiểu hướng tiếp cận phân cụm dựa ràng buộc theo cặp, tập trung vào phương pháp phân cụm dựa tri thức có tên S3C2 [1], tri thức cho dạng ràng buộc theo cặp Phương pháp sử dụng mạng nơ-ron với thuật toán học sâu để phân cụm, cho hiệu cao Chúng thực cài đặt thực nghiệm để so sánh với thuật toán khác, kết cho thấy ưu điểm trội thuật toán so với thuật tốn tiên tiến có, chẳng hạn SSGC, SSDBSCAN, SSK-Means, MCSSGC [5,6]; kết cài đặt so sánh với thực nghiệm báo vừa cơng bố Ngồi phần kết luận, nội dung luận văn bố cục sau: - Chương Giới thiệu toán phân cụm liệu, khái niệm tiếp cận - Chương Giới thiệu kiến thức mạng nơ-ron cần dùng để sâu vào tìm hiểu việc ứng dụng chúng cho tốn phân cụm dựa tri thức trình bày chương - Chương Trình bày phương pháp S3C2, mơ hình phân lớp sử dụng mạng nơ-ron cho toán phân cụm dựa ràng buộc theo cặp - Chương Trình bày kết cài đặt chương trình cho phương pháp S3C2, chạy thử nghiệm tập liệu hoa Iris, MNIST; đưa kết thực nghiệm S3C2 đồng thời so sánh kết với phương pháp khác: SSGC, SSDBSCAN, SSK-Means, MCSSGC [5,6] CHƯƠNG PHÂN CỤM DỮ LIỆU Trước sâu vào phân cụm bán giám sát dựa tri thức theo cặp, phương pháp S3C2 [1], chương chúng tơi trình bày sơ lược phân cụm liệu, phương pháp phân cụm liệu 1.1 Phân cụm Phân cụm trình phân tách tập đối tượng liệu thành tập Mỗi tập cụm, cho đối tượng cụm giống nhau, khơng giống so với đối tượng cụm khác [2] Phân cụm sử dụng rộng rãi nhiều lĩnh vực, BI, nhận dạng mẫu, tìm kiếm web, sinh học bảo mật, … Trong BI, phân cụm sử dụng để xếp số lượng lớn khách hàng vào nhóm, khách hàng nhóm có tương tự lớn số đặc điểm Điều tạo điều kiện cho phát triển chiến lược kinh doanh để tăng cường quản lý quan hệ khách hàng (Customer Relationship Management: CRM) [2] Trong nhận dạng mẫu, phân cụm sử dụng cho nhiều tốn có tính ứng dụng cao, thực tiễn, nhận dạng chữ ký, nhận dạng chữ viết tay, nhận dạng vân tay, nhận diện khuôn mặt, … Sản phẩm phân cụm triển khai nhiều hệ thống, ngày trở nên phổ biến Từ ứng dụng cá nhân, tới hệ thống lớn doanh nghiệp, ngân hàng, tập đoàn đa quốc gia, chí hệ thống phủ, … có diện phân cụm Chẳng hạn như, ngày nhận dạng vân tay sử dụng làm chế xác thực cho hầu hết thiết bị ứng dụng Phân cụm ứng dụng nhiều tìm kiếm web Ví dụ như: từ khóa tìm kiếm cho số lượng lớn kết quả, số lượng trang web vơ lớn Phân cụm sử dụng để kết vào nhóm trình bày kết cách ngắn gọn Giúp người dùng có trải nghiệm tốt hơn, tìm kiếm dễ dàng hiệu Hơn nữa, kỹ thuật phân cụm phát triển để phân loại tài liệu thành chủ đề, kết thường sử dụng truy hồi thơng tin Trong khai phá liệu, phân cụm sử dụng công cụ độc lập để hiểu rõ phân phối liệu, để quan sát đặc điểm cụm tập trung vào nhóm cụ thể để phân tích thêm Ngồi ra, đóng vai trị bước tiền xử lý cho thuật tốn khác phân lớp, trích chọn đặc trưng, … [2] 32 𝑃(𝑖, 𝑗) = |𝑈𝑖 ∩ 𝑉𝑗 |⟋𝑁 xác suất để đối tượng chọn ngẫu nhiên thuộc hai lớp 𝑈𝑖 𝑉𝑗 Khi đó, độ đo NMI xác định sau: 𝑁𝑀𝐼(𝑈, 𝑉) = 𝑀𝐼(𝑈, 𝑉) 𝑚𝑒𝑎𝑛(𝐻(𝑈), 𝐻(𝑉)) Hình minh họa: Hình 3.4 NMI Adjusted Rand Index Giả sử C phép gán nhãn chân thật đối tượng, K phân cụm, định nghĩa a b sau: - a số lượng cặp điểm tập C tập K - b số lượng cặp điểm tập khác C tập khác K Chỉ số (unadjusted) Rand index cho bởi: 𝑎+𝑏 𝑅𝐼 = 𝑛𝑠𝑎𝑚𝑝𝑙𝑒𝑠 𝐶2 𝑛 đó, 𝐶2 𝑠𝑎𝑚𝑝𝑙𝑒𝑠 tổng số lượng cặp ghép tập liệu (không phân biệt thứ tự) – tổ hợp chập n Tuy nhiên, số RI không đảm bảo phép gãn nhãn ngẫu nhiên có giá trị gần (đặc biệt số cụm có độ lớn với số lượng mẫu) Để tránh hạn chế này, ARI thực chiết khấu RI dự kiến – E(RI) phép gãn nhãn ngẫu nhiên, cụ thể: 𝑅𝐼 − 𝐸[𝑅𝐼] 𝐴𝑅𝐼 = 𝑚𝑎𝑥(𝑅𝐼) − 𝐸[𝑅𝐼] 33 CHƯƠNG THỬ NGHIỆM 4.1 Giới thiệu Trong q trình thực luận văn, chúng tơi cài đặt chương trình cho phương pháp phân cụm S3C2 trình bày chương Chương trình thực chạy thử nghiệm phân cụm liệu hoa Iris Ngoài việc đưa kết đạt từ chương trình chúng tơi tự cài đặt, luận văn đưa số kết phân cụm số phương pháp khác tác giả khác thực Từ đó, chúng tơi làm rõ ưu điểm nhược điểm phương pháp cài đặt luận văn Ngoài việc thực chạy thử nghiệm phân cụm liệu Iris – có kích thước nhỏ số cụm 3, tiến hành thử nghiệm thêm liệu có kích thước lớn hơn, số cụm nhiều hơn, số chiều lớn phức tạp Đó liệu chữ số viết tay MNIST Từ đó, thấy phương pháp hoạt động tốt loại liệu phức tạp có kích thước lớn, với số lượng cặp điểm gán nhãn bé Điều mà khiến phương pháp phân cụm khác gặp nhiều khó khăn 4.2 Chương trình Chương trình cài đặt phương pháp phân cụm S3C2, ngôn ngữ Python Các thử nghiệm chạy môi trường Python 3.7 với thông số phần cứng sau: - OS Name: Microsoft Windows 10 Pro - Processor: Intel(R) Core(TM) i5-8265U CPU @ 1.60GHz, 1800 Mhz, Core(s), Logical Processor(s) - System Type: x64-based PC Chương trình gồm module chính: - dataset: có chức load cung cấp dataset cho module khác - labnet: xây dựng mô hình phân lớp nhị phân mạng nơ-ron (cụ thể mạng Siamese), gán nhãn cho cặp liệu - clunet: xây dựng mạng gán cụm, thực phân cụm tập liệu, đánh giá chất lượng phân cụm, trực quan hóa mơ hình phân cụm, kết phân cụm biểu đồ, hình ảnh 4.2.1 Module dataset Module thực load liệu cần phân cụm từ thư viện có sẵn Python load từ file csv Đầu gồm hai tập liệu: liệu huấn luyện liệu kiểm thử mơ hình Dữ liệu biểu diễn dạng vector 4.2.2 Module labnet Module labnet lại chia thành module con, cụ thể sau: 34 - distances: định nghĩa hàm độ đo khoảng cách, sử dụng mạng labnet - loss: định nghĩa hàm mát sử dụng mạng labnet - signet: xây dựng kiến trúc cụ thể cho mạng SNN – Siamese Neural Networks, huấn luyện mạng phân lớp nhị phân để có khả gán nhãn cho cặp điểm liệu - evaluation: cung cấp hàm dùng để đánh giá mơ hình phân lớp - visualization: trực quan hóa kết phân lớp, kiến trúc mạng dạng biểu đồ, hình ảnh - pairgen: generate cặp liệu có gắn nhãn must-link cannot-link, bao gồm liệu huấn luyện liệu kiểm thử 4.2.3 Module clunet Tương tự module labnet, module clunet chia thành module con, cụ thể sau: - loss: định nghĩa hàm mát sử dụng mạng clunet - visualization: trực quan hóa kết phân cụm dạng biểu đồ hình ảnh - clunet: xây dựng kiến trúc cụ thể cho mạng clunet, thực huấn luyện mạng để có khả gán cụm đối tượng - pairgen: generate cặp liệu sử dụng cho việc huấn luyện mơ hình, sử dụng mạng labnet để gán nhãn must-link, cannot-link cho cặp liệu chưa gán nhãn 4.3 Dữ liệu thử nghiệm Hai sở liệu sử dụng để thử nghiệm chương trình gồm liệu hoa Iris liệu chữ số viết tay MNIST, lấy hai địa sau: - Iris: https://archive.ics.uci.edu/ml/datasets/iris - MNIST: http://yann.lecun.com/exdb/mnist/ 4.3.1 Dữ liệu hoa Iris Bộ liệu hoa Iris hay gọi Fisher’s Iris giới thiệu British Ronald Fisher năm 1936 họ Bộ liệu bao gồm 50 mẫu cho ba loài hoa Iris: Iris setosa, Iris virginica Iris versicolor 35 Hình 4.1 Hoa Iris Bốn thuộc tính đo từ mẫu là: - Chiều dài đài hoa (sepal length), - Chiều rộng đài hoa (sepal width), - Chiều dài cánh hoa (petal length), - Chiều rộng cánh hoa (petal width) Cả bốn thuộc tính tính đơn vị cm 4.3.2 Dữ liệu chữ số viết tay MNIST MNIST sỡ liệu lớn chữ số viết tay, bao gồm huấn luyện gôm 60k mẫu kiểm thử 10k mẫu Mỗi mẫu ảnh đen trắng có kích thước 28 × 28 pixel Dưới ví dụ mẫu chữ số viết tay MNIST: Hình 4.2 Một mẫu chữ số viết tay 4.4 Thử nghiệm liệu hoa Iris 4.4.1 Kịch thử nghiệm Chúng thực chạy chương trình nhiều lần, liệu huấn luyện thay đổi cho lần chạy 30, 60, 90, 120, 140, 160 cặp liệu gán nhãn must-link cannot-link Ban đầu, thực chạy chương trình với 30 cặp liệu, thực chạy 20 lần, lần 20 lần chạy này, 30 cặp liệu 36 sinh ngẫu nhiên khác Chúng sử dụng số NMI, ARI, RI để đánh giá chất lượng phân cụm Các kết NMI, ARI, RI cuối NMI, ARI, RI trung bình 20 lần chạy Tương tự vậy, thực chạy chương trình phân cụm với số cặp liệu cho trước 60, 90, 120, 140, 160 cặp, với loại số cặp thực 20 lần lấy kết trung bình cho lần chạy Các tham số mơ siêu tham số sử dụng cho lần chạy giống Cụ thể, mạng LabNet huấn luyện với thuật toán tối ưu RMSprop, learning rate 0.001, threshold Ƭ = 0.2, max epoch 100 Thuật toán tối ưu Adam sử dụng việc huấn luyện mạng CluNet, với tham số sau: learning rate 0.001, lặp lại 2000 lần Với lần lặp chương trình sử dụng LabNet để generate ngẫu nhiên 100 cặp từ tập điểm chưa gán nhãn ràng buộc theo cặp, generate ngẫu nhiên 10 cặp từ tập cặp gán nhãn ràng buộc cho trước Kiến trúc mạng LabNet đươc sử dụng cho lần chạy giống nhau, có mơ tả hình bên dưới: Hình 4.3 Cấu trúc chi tiết mạng LabNet liệu sử dụng Iris Tương tự, mạng CluNet sử dụng cho lần chạy có kiến trúc sau: 37 Hình 4.4 Cấu trúc chi tiết mạng CluNet liệu sử dụng Iris 4.4.2 Kết thử nghiệm Dưới biểu đồ mô tả kết nhận được, chạy chương trình phân cụm liệu Iris với tham số số lượng cặp gắn nhãn cho trước 30, 60, 90, 120, 140, 160 cặp: 38 Hình 4.5 Kết phân cụm liệu Iris Đường màu xanh biểu diễn cho số RI trung bình cho 20 lần chạy độc lập khác nhau, đường màu xanh lam biểu diễn cho ARI trung bình, đường màu vàng biểu diễn cho NMI trung bình Chúng tơi thực đo đạc thời gian chạy chương trình Tổng số lần chạy × 20 = 120 Tổng thời gian chạy cho 120 lần 3827 giây, khoảng 63.78 phút Trung bình lần chạy khoảng 31.89 giây Dưới trích dẫn số biểu đồ kết phân cụm số phương pháp khác: SSGC, SSDBSCAN, SSK-Means, MCSSGC [5,6] liệu hoa Iris: Hình 4.6 Kết phân cụm số phương pháp khác liệu Iris 39 4.4.3 Nhận xét Biểu đồ hình 4.5 cho thấy kết phân cụm liệu hoa Iris cài đặt thực nghiệm theo phương pháp S3C2 qua lần chạy với số lượng cặp liệu khác cho số RI trung bình 0.996 Còn phương pháp SSGC, SSDBSCAN, SSK-Means, MCSSGC đạt RI khoảng 0.95 hình 4.6 Do đó, khẳng định rằng, phương pháp Marek Śmieja, Łukasz Struski, Mário A T Figueiredo [1] đề xuất, cho kết tốt dù với số cặp liệu cho trước chí 4.5 Thử nghiệm liệu MNIST 4.5.1 Kịch thử nghiệm Tương tự kịch thực nghiệm với liệu hoa Iris, thực chạy chương trình nhiều lần với số lượng cặp liệu đầu vào thay đổi 100, 200, 500, 1000, 2000, 5000 cặp Và với loại số cặp đầu vào, thực lần độc lập với nhau, lấy kết ARI, NMI, RI trung bình cho lần chạy Mạng LabNet huấn luyện thuật toán tối ưu RMSprop, với tham số sau: learning rate 0.001, threshold Ƭ = 0.5, max epoch 100 Thuật toán tối ưu Adam sử dụng để huấn luyện mạng CluNet với tham số: learning rate 0.001, lặp lại 2000 lần Về mặt kiến trúc, mạng LabNet CluNet sử dụng để phân cụm cho liệu MNIST giống hệt so với phân cụm cho liệu Iris Chỉ khác hình dạng liệu đầu vào, đầu ra, số lượng nơ-ron layer Hình bên mơ tả chi tiết cho cấu trúc mạng LabNet: 40 Hình 4.7 Cấu trúc mạng LabNet liệu sử dụng MNIST Và hình bên mô tả cho cấu trúc mạng nơ-ron sử dụng mạng CluNet: 41 Hình 4.8 Cấu trụng mạng nơ-ron sử dụng CluNet 4.5.2 Kết thử nghiệm Dưới biểu đồ mô tả kết nhận được, chạy chương trình phân cụm liệu MNIST với tham số số lượng cặp gắn nhãn cho trước 100, 200, 500, 1000, 2000, 5000: 42 Hình 4.9 Kết phân cụm liệu MNIST Chúng thực đo đạc thời gian chạy chương trình, kết sau Tổng số lần chạy 30 lần, tổng thời gian chạy 12362 giây Trung bình lần chạy khoảng 412 giây (khoảng 6.87 phút) Dưới trích dẫn biểu đồ kết phân cụm số phương pháp khác: d-graph [16], DCPR [15], IDEC [17] S3C2 nhóm tác giả [1] đạt liệu MNIST: Hình 4.10 Biểu đồ kết phân cụm số phương pháp MNIST Cột màu xanh biểu thị cho kết phân cụm theo số NMI phương pháp S3C2 nhóm tác giả [1] cài đặt thực nghiệm Các cột màu xanh lam, cột màu vàng cột màu đỏ biểu thị số NMI phương pháp d-graph, DCPR, IDEC Chỉ số NMI S3C2 biểu đồ hình 4.10 NMI trung bình lần phân cụm tập huấn luyện khác 43 Qua hình 4.10, dễ dàng thấy với số link liệu 500, 1000, 2000, 5000 phương pháp S3C2 nhóm tác giả [1] thực nghiệm đạt kết tốt phương pháp 4.5.3 Nhận xét Các biểu đồ hình 4.9 hình 4.10 cho thấy kết phân cụm chúng tơi cài đặt thực nghiệm có độ xác gần với kết thực nghiệm nhóm tác giả [1] 4.6 Nhận xét thử nghiệm Qua quan sát kết mà luận văn thực nghiệm nhiều lần, đưa số nhận xét sau: Phương pháp S3C2 có xu hướng cho kết phân cụm tốt với số lượng cặp liệu cho trước lớn Đặc biệt liệu có kích thước lớn hơn, có số chiều lớn hơn, điều thấy rõ ràng Trước tiến hành phân cụm lượng thơng tin thường ỏi liệu (các ràng buộc theo cặp), phương pháp S3C2 thực huấn luyện mạng LabNet có khả gán nhãn must-link cannot-link cho cặp liệu Từ khắc phục nhược điểm nhiều phương pháp phân cụm phân loại khác, thường khó khăn đươc sử dụng để phân cụm liệu có kích thước lớn, số cụm lớn, lượng thông tin tri thức ban đầu liệu lại Phương pháp S3C2 cho thấy khả phân cụm tốt so với nhiều phương pháp phân cụm tiên tiến có khác SSGC, SSDBSCAN, SSK-Means, MCSSGC [5,6] d-graph [16], DCPR [15], IDEC [17] Dù lượng tri thức ban đầu liệu cần phân cụm nhau, S3C2 cho kết thực nghiệm trội S3C2 mơ hình phân cụm có tính linh hoạt cao Như thực nghiệm cho thấy, dù với liệu có kích thước độ phực tạp nhỏ, hay liệu có kích thước số chiều lớn hơn, dùng chung model để phân cụm: kiến trúc mạng LabNet, CluNet; hàm kích hoạt, hàm mát 44 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Sau thời gian nghiên cứu, hướng dẫn tận tình Thầy giáo PGS.TS Hồng Xn Huấn, tơi trình bày luận văn “Phân cụm bán dựa tri thức theo cặp” Luận văn đạt kết sau: Nghiên cứu tài liệu hệ thống lại kiến thức có liên quan sau: - Phân cụm liệu - Các phương pháp phân cụm liệu - Phân cụm dựa ràng buộc - Mạng nơ-ron nhân tạo - Trình bày phương pháp phân cụm bán giám sát sử dụng kĩ thuật phân lớp mạng nơ-ron, phương pháp có tên S3C2 Cài đặt chương trình cho phương pháp phân cụm S3C2 Thực chạy thử nghiệm liệu: liệu loài hoa Iris, liệu chữ số viết tay MNIST Đưa kết thử nghiệm, đồng thời so sánh kết với phương pháp phân cụm bán giám sát khác Thực nghiệm cho thấy chất phương pháp S3C2 có nhiều ưu điểm trội chất lượng phương pháp SSGC, SSDBSCAN, SSK-Means, MCSSGC [5,6] Kết cài đặt so sánh với thực nghiệm nhóm tác giả [1] Hướng nghiên cứu Trong thời gian tới, định hướng tập trung nghiên cứu, thực công việc sau đây: Nghiên cứu nhiều phương pháp phân cụm phân cụm bán giám sát, nghiên cứu thêm mạng nơ-ron nhân tạo thuật tốn học sâu Từ đó, tơi cố gắng đề xuất phương pháp tốt Tìm hiểu vấn đề thực tế, từ ứng dụng luận văn vào nhiều tốn thực tiễn Do thời gian nghiên cứu có hạn, với hạn chế lực thân, luận văn khó tránh khỏi thiếu sót Tơi mong nhận đóng góp Thầy Cơ, bạn đồng nghiệp để tơi hoàn thiện luận văn với chất lượng tốt Cuối cùng, xin gửi lời cảm ơn chân thành tới Thầy PGS.TS Hồng Xn Huấn Thầy tận tình bảo, hướng dẫn em hoàn thành bước, phần luận văn Nhận giúp đỡ Thầy với em điều vô may mắn, quý giá Em xin cảm ơn tất Thầy Cô giảng dạy cho em suốt q trình theo học Trường Đại học Cơng nghệ Đại học Quốc Gia Hà Nội 45 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] TÀI LIỆU THAM KHẢO M Śmieja, Ł Struski, and M Figueiredo (2020), A Classification-Based Approach to Semi-Supervised Clustering with Pairwise Constraints, Neural Networks, vol.127, pp.193-203 Jiawei Han, Micheline Kamber and Jian Pei (2012), Data Mining Concepts and Techniques, 3rd Edition, Elsevier, Waltham Josh Patterson, Adam Gibson (2017), Deep Learning: A Practitioner’s Approach, O’Reilly Media, Sevastopol Rajul Anand, Chandan K Reddy (2011), Graph-Based Clustering with Constraints, Advances in Knowledge Discovery and Data Mining, vol.6635, pp.51-62 Viet-Vu Vu (2018), An Efficient Semi-Supervised Graph Based Clustering, Intelligent Data Analysis, vol.22, pp.297-307 Viet-Vu Vu, Hong-Quan Do (2017), Graph-based Clustering with Background Knowlegde, In Proceedings of the Eighth International Symposium on Information and Communication Technology (SoICT 2017), pp.167-172 D Cheng, V Murino, M Figueiredo (2007), Clustering under prior knowledge with application to image segmentation, in: Advances in Neural Information Processing Systems (NIPS), pp.401-408 M Law, A Topchy, A Jain (2005), Model-based clustering with probabilistic constraints, in: SIAM Conference on Data Mining (SDM), pp.641-645 Z Lu, T Leen (2004), Semi-supervised learning with penalized probabilistic clustering., in: Advances in Neural Information Processing Systems (NIPS), pp.849-856 V Melnykov, I Melnykov, S Michael (2016), Semi-supervised modelbased clustering with positive and negative constraints, Advances in data analysis and classification 10 (3), pp.327-349 M Bilenko, S Basu, R Mooney (2004), Integrating constraints and metric learning in semi-supervised clustering, in: International Conference on Machine Learning (ICML), p.11 P Qian, Y Jiang, S Wang, K Su, J Wang, L Hu, R Muzic (2017), Affinity and penalty jointly constrained spectral clustering with allcompatibility, flexibility, and robustness, IEEE Transactions on Neural Networks and Learning Systems 28 (5), pp.1123-1138 46 [13] L Hubert, P Arabie (1985), Comparing partitions, Journal of Classification, vol.2, pp.193-218 [14] Strehl, Alexander, and Joydeep Ghosh (2002), Cluster ensembles – a knowledge reuse framework for combining multiple partitions, Journal of Machine Learning Research, vol.3, pp.583-617 [15] Y Pei, X Fern, T Tjahja, R Rosales (2016), Comparing clustering with pairwise and relative constraints: A unified framework, ACM Transactions on Knowledge Discovery from Data (TKDD) 11 (2) [16] M Smieja, O Myronov, J Tabor (2018), Semi-supervised discriminative clustering with graph regularization, Knowledge-Based Systems 151, pp.24–36 [17] H Zhang, S Basu, I Davidson (2019), Deep constrained clusteringalgorithms and advances, in: Joint European Conference on Machine Learning and Knowledge Discovery in Databases (ECML-EKDD), p.17

Định dạng
Số trang	53
Dung lượng	2,03 MB