Cáclượcđồphâncụmphâncấpbấtbiến Invariant Hierarchical Clustering Schemes NXB H : ĐHCN, 2014 Số trang 59 tr + Dương Hải Đường Đại học Công nghệ Luận văn ThS ngành: Kỹ thuật Phần mềm; Mã số: 60480103 Người hướng dẫn: PGS.TS Hoàng Xuân Huấn Năm bảo vệ: 2014 Keywords: Công nghệ thông tin; Kỹ thuật phần mềm ; Phâncụm liệu Content Tin học hóa cách nhanh chóng hoạt động sản xuất, kinh doanh tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu sở liệu cực lớn cỡ Gigabyte, chí Terabyte tạo Với lượng liệu lưu trữ khổng lồ này, kỹ thuật khai phá liệu cũ bộc lộ nhiều hạn chế, dẫn tới yêu cầu cần phải có kỹ thuật để chuyển đổi liệu khổng lồ thành tri thức có ích Những năm gần đây, kỹ thuật khai phá liệu “nóng” trở lại trở thành lĩnh vực thời công nghệ thông tin [1,2,7,10,11,12…] Luận văn trình bày khảo cứu tác giả lượcđồ tham số tổng quát cho thủ tục phâncụmphâncấp với tính bấtbiến qua biến đổi đơn điệu giá trị tương tự tính bấtbiến qua đánh số đối tượng Lượcđồ bao gồm bước: tinh chỉnh giá trị tương tự đưa đối tượng bao đóng bắc cầu quan hệ định trị đạt Luận văn khảo cứu vài thuộc tính mặt lý thuyết lượcđồ ra, lớp tham số khác từ lượcđồ dựa nhận thức kiểu “giữ lớp tương tự”, “ngắt cầu cụm.” Có hai mục đích tiến hành phân tích giá trị tương tự đối tượng tập: (1) chia tập đối tượng thành lớp đối tượng tương tự (2) phân tích cấu trúc tương tự tập Nhiều thuật toán phâncụm hướng đến chia tập đối tượng cho thành số cho trước lớp đối tượng tương tự, mà không đưa cấu trúc đặc trưng thuật toán phù hợp liệu với vài mơ hình định trước [16,27] Người dùng hài lòng với cụm tốt đạt liệu thủ tục phâncụm chuẩn đó, cấu trúc cụm đạt khơng phản ánh cấu trúc liệu thực chất liệu mà bị áp đặt chi tiết kỹ thuật thuật toán phâncụm áp dụng Một nguyên nhân nhược điểm nhiều thuật tốn phâncụm phổ biến từ tính khơng bấtbiến thuật toán với việc đánh số (hoán vị, xếp thứ tự) đối tượng Việc đổi trật tự đánh số đối tượng đầu vào thủ tục phâncụm không bấtbiến thường gây thay đổi kết phâncụm Có nghĩa việc phâncụm đạt cách đánh số đối tượng cho không phản ánh cấu trúc tập đối tượng Một ví dụ đơn giản không bấtbiến thuật toán cổ điển xét Chương 3, mục 3.1 Đòi hỏi tính bấtbiến thuật toán phâncụm đánh số đối tượng phân tích cụm đòi hỏi quan trọng [2,7,9,22], thật không may, đa số thuật tốn phâncụm phổ biến khơng thỏa mãn thuộc tính Thuộc tính thỏa mãn thuật tốn liên kết đơn (còn gọi hàng xóm gần nhất) trình bày [16,22-24] Thuật tốn xây dựng loạt chuỗi cụm lý phản ánh quan điểm cụ thể với “cụm” không luôn chấp nhận Luận văn quan tâm tới lượcđồ tham số thủ tục phâncụmbất biến, lượcđồ đa dạng quan điểm “cụm” bao gồm thuật toán liên kết đơn trường hợp cụ thể Một đòi hỏi quan trọng khác thuật toán phâncụmbấtbiến với biến đổi giá trị tương tự đối tượng [19,22,23,25] Đòi hỏi cần thiết thuật toán phâncụm giá trị tương tự ước lượng chuyên gia độđo có thứ tự Sự đòi hỏi cần thiết cho không nhạy cảm kết phâncụm việc chọn độđo tương tự độđo không tương tự Luận văn khảo cứu lượcđồ tổng quát thủ tục phâncụmphâncấp thỏa mãn hai đòi hỏi bấtbiến quan tâm Lượcđồ đề xuất Batyrshin [3-5] dựa vào khái niệm quan hệ tương đương mờ, khái niệm giới thiệu nghiên cứu [29,31] Thủ tục phâncụmlượcđồ bao gồm bước: tinh chỉnh giá trị tương tự cho đối tượng bao đóng bắc cầu lớn nhất-nhỏ quan hệ (mờ) định trị đạt Khi tinh chỉnh giá trị tương tự không dùng áp dụng bao đóng bắc cầu quan hệ tương tự cho lượcđồphâncụm dẫn tới thủ tục phâncụm đề xuất [29] thuật toán tương tự thuật toán liên kết đơn [17] Bởi bao đóng bắc cầu bấtbiến đánh số đối tượng biến đổi giá trị tương tự, thủ tục phâncụm thỏa mãn hai loại bấtbiến thủ tục tinh chỉnh thỏa mãn hai bấtbiến Vài lượcđồ thủ tục tinh chỉnh tham số bấtbiến đưa nghiên cứu luận văn Để xây dựng thủ tục phâncụm hợp lý lượcđồ quan tâm, cần thiết phải đề xuất thủ tục hiệu chỉnh phù hợp Luận văn khảo cứu thuộc tính quan hệ tương tự thủ tục hiệu chỉnh liên quan đến nhận thức cụm “tự nhiên” phâncụm “hợp lý” Các kết đưa Định lý Bổ đề cho thấy mối quan hệ thuộc tính quan hệ tương tự thủ tục hiệu chỉnh Định lý đưa nguyên nhân cho việc xây dựng lớp tổng thể thủ tục hiệu chỉnh biến đổi làm giảm giá trị tương tự quan hệ tương tự khởi tạo cho trước Bổ đề nói vài lớp biến đổi kết thủ tục phâncụm thỏa mãn tính chất “giữ nguyên lớp tương tự” Kết dùng xa việc xây dựng thủ tục phân cụm, “ngắt” lớp tương tự xem “các cầu” cụm Ngoài phần kết luận, cấu trúc nội dung luận văn bao gồm chương: Chương 1: Tổng quan phâncụm liệu Chương trình bày khái niệm chung phâncụm liệu, độđo tương tự, vấn đề chuẩn hóa liệu Chương 2: Phâncụm liệu hướng tiếp cận phâncấp Chương trình bày khái niệm phâncụmphâncấp (PCPC) giới thiệu số phương pháp, giải thuật phâncụmphâncấp Chương 3: Các thủ tục phâncụmphâncấpbấtbiến Chương trình bày lượcđồ thủ tục phâncụmbất biến, phâncụm với hàm đồng nhất, không đồng nhất, cụm có giá trị, ví dụ minh họa References Tiếng Việt [1] Hồng Xn Huấn (2011), Giáo trình Nhận dạng mẫu, Đại học Công nghệ - Đại học Quốc gia Hà Nội Tiếng Anh [2] Barthelemy J.P & Guenoche A (1991) Trees and Similarity Representations Chichester: Wiley [3] Batyrshin I.Z (1980) Clustering based on fuzzy similarity relations In: Third Workshop “Control with Presence of Fuzzy Categories”, Perm, Russia, pp 25–27 (in Russian) [4] Batyrshin I.Z (1982) Methods of Systems Analysis Based on Valued Relations PhD Thesis Moscow Power Engineering Institute (in Russian) [5] Batyrshin I.Z & Shuster V.A (1984) The structure of semantic spaces of verbal estimates of actions Acta et Commentationes Universitas Tartuensis, Transactions on Artificial Intelligence, Principle Questions of Knowledge Theory, Tartu, 688, 20–38 (in Russian) [6] Batyrshin I.Z (1985) About approximation task in a partially ordered set In: Mathematical Methods of Optimization and Control in Systems Kalinin: Kalinin State University, pp 50–56 [7] Batyrshin I (1994) Errors of type incluster analysis and invariant cluster procedures based on similarity relations In: Application of Fuzzy Systems, ICAFS-94(Ed by R Aliev and R Kenarangui) Iran: University Press of Tabriz, pp 374–378 202 Invariant Hierarchical Clustering Schemes [8] Batyrshin I.Z & Khabibulin R.Ph (1995) Attribution of pseudonymous works of literature based on invariant relational clustering algorithms In: Computational Linguistics and its Applications, Proceedings of the International Workshop, Kazan, pp 43–55 (in Russian) [9] Batyrshin I & Khabibulin R (1998).On invariance of clustering procedures.Journal of Fuzzy Mathematics, 6(3), 721–733 [10] Batyrshin I., Khabibulin R., Fatkullina R (1996).Application of fuzzy relational clustering algorithms to ecological data In: ICAFS-96, Second International Conference on Application of Fuzzy Systems and Soft Computing(Ed by R.A Aliev et al.) Siegen, Germany, pp 115–117 [11] Batyrshin I & Klimova A (2002) New invariant relational clustering procedures In: Proceedings of East West Fuzzy Colloquium 2002, 10th Zittau Fuzzy Colloquium, Zittau, Germany, pp 264–269 [12] Batyrshin I & Rudas T (2000) Invariant clustering procedures based on corrections of similarities In: Proceedings of East West Fuzzy Colloquium, Zittau, Germany, pp 302–309 [13] Batyrshin I., Herrera-Avelar R., Sheremetov L., Panova A Moving approxi[14] Bezdek J.C (1990) A note on two clustering algorithms for relational network data SPIE, Vol 1293, Applications of Artificial Intelligence, VIII, 268–277 [15] Birkhoff G (1967) Lattice theory Providence, RI: American Mathematical Society [16] Duda R.O & Hart P.E (1973).Pattern Classification and Scene Analysis.New York: Wiley [17] Dunn J.C (1974) A graph-theoretic analysis of pattern classification via Tamura’s fuzzy relation IEEE Transaction on Systems, Man and Cybernetics, SMC-4, 310–313 [18] Hartigan J.A (1967) Representationof similarity matrices by trees.Journal of the American Statististical Association, 62, 1140–1158 [19] Hubert L.J (1973) Monotone invariant clustering procedures Psychometrica, 38(1), 47–62 [20] Jambu M (1978) Classification automatique pour l’analyse des donnees Paris, France: Dunod [21] Jardine C.J., Jardine N., Sibson R (1967) The structure and construction of taxonomic hierarchies Mathematical Biosciences, 1, 173–179 [22] Jardine N & Sibson R (1971) Mathematical taxonomy London: Wiley [23] Johnson S.C (1967) Hierarchical clustering schemes Psychometrika, 32(3), 241–254 [24] Lance G.N & Williams W.T (1969) A general theory of classificatory sorting strategies I Hierarchical systems The Computer Journal, 9(4), 373–380 [25] Matula D.W (1977) Graph theoretic techniques for cluster analysis algorithms In: Classification and Clustering (Ed by J Van Ryzin) New York: Academic, pp 95–129 [26] Naessens H., De Meyer H., De Baets B (1999) Novel algorithms for the computation of transitive closures and openings of proximity relations In: Proceedings of EUROFUSE-SIC’99, pp 200–203 [27] Sokal R.R (1977) Clustering and classification: background and current directions In: Classification and Clustering (Ed by J Van Ryzin) NewYork: Academic, pp 1–15 [28] Swamy M.N.S & Thulasiraman K (1981) Graphs, Networks, and Algorithms New York: Wiley [29] Tamura S., Higuchi S., Tanaka K (1971) Pattern classification based on fuzzy relations IEEE Transaction on Systems, Man and Cybernetics, SMC-1, 61–66 [30] Young M.R & DeSarbo W.S (1995) A parametric procedure for ultrametric tree estimation from conditional rank order proximity data Psychometrica, 60(1), 47–75 [31] Zadeh L.A (1973) Similarity relations and fuzzy orderings Information Sciences, 3, 177– 200 [32] GDP per capita is gross domestic product divided by midyear population http://data.worldbank.org/indicator/NY.GDP.PCAP.CD/countries GDP per capita (current US$) ... Phân cụm liệu hướng tiếp cận phân cấp Chương trình bày khái niệm phân cụm phân cấp (PCPC) giới thiệu số phương pháp, giải thuật phân cụm phân cấp Chương 3: Các thủ tục phân cụm phân cấp bất biến. .. phân cụm thỏa mãn hai loại bất biến thủ tục tinh chỉnh thỏa mãn hai bất biến Vài lược đồ thủ tục tinh chỉnh tham số bất biến đưa nghiên cứu luận văn Để xây dựng thủ tục phân cụm hợp lý lược đồ. .. nhạy cảm kết phân cụm việc chọn độ đo tương tự độ đo không tương tự Luận văn khảo cứu lược đồ tổng quát thủ tục phân cụm phân cấp thỏa mãn hai đòi hỏi bất biến quan tâm Lược đồ đề xuất Batyrshin