Một số vấn đề về phân cụm dữ liệu và ứng dụng trong ngành BHXH Phạm Đăng Khoa Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Công nghệ thông tin; Mã số: 1 01 10 Người hướng dẫn: TS Đỗ Năng Toàn Năm bảo vệ: 2007 Abstract: Trình bày tổng quan về phân cụm dữ liệu và một số khái niệm liên quan, trình bày các giai đoạn của quá trình phát hiện tri thức và đề cập đến các kỹ thuật hướng tiếp cận chính trong khai phá dữ liệu, những khái niệm liên quan đến phân cụm dữ liệu; Phân tích chi tiết các vấn đề cơ bản trong phân cụm dữ liệu, tóm tắt các đặc trưng của các phương pháp phân cụm dữ liệu được sử dụng phổ biến và một số thuật toán; Áp dụng một thuật toán phân cụm dữ liệu vào khai phá dữ liệu của ngành bảo hiểm xã hội Keywords: Cơ sở dữ liệu, Ngành bảo hiểm xã hội, Phân cụm dữ liệu Content PHẦN MỞ ĐẦU Cùng với sự phát triển của xã hội, sự phát triển của lĩnh vực Công nghệ thông tin trong thời gian qua, nhu cầu về thông tin để đáp ứng các yêu cầu hàng ngày của con người trên mọi lĩnh vực ngày càng phát triển. Do vậy, khối lượng thông tin lưu trữ lại ngày càng tăng làm cho kho dữ liệu tri thức chung của con người ngày càng trở nên vô tận. Vấn đề đặt ra ở đây là làm thế nào để chúng ta có thể khai thác được tối đa nguồn tri thức dồi dào và vô tận đó. Khám phá tri thức và khai phá dữ liệu đang nổi lên nhanh chóng và trở thành một trong những hướng nghiên cứu chính liên quan tới nhiều lĩnh vực khoa học máy tính và công nghệ tri thức kết hợp với cơ sở dữ liệu, thống kê, học máy và những lĩnh vực có liên quan để trích chọn những thông tin giá trị và tri thức trong khối lượng dữ liệu lớn. Khám phá tri thức là cách tiếp cận chung để phân tích và rút ra tri thức hữu ích từ cơ sở dữ liệu sử dụng các kỹ thuật hoàn toàn tự động. Các kỹ thuật chính được áp dụng trong lĩnh vực này phần lớn được kế thừa từ lĩnh vực cơ sở dữ liệu, học máy, trí tuệ nhân tạo, lí thuyết thông tin, xác suất thống kê và tính toán hiệu năng cao. Phân cụm dữ liệu là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn. Trong thời gian gần đây, trong lĩnh vực phân cụm dữ liệu, tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu phức tạp như dữ liệu văn bản, web, hình ảnh, và đặc biệt là mô hình hỗn hợp để áp dụng chúng trong phân cụm dữ liệu. Xuất phát trong hoàn cảnh đó, luận văn lựa chọn đề tài “Một số vấn đề về phân cụm dữ liệu và ứng dụng trong ngành bảo hiểm xã hội”. Luận văn nhằm nghiên cứu một số vấn đề về khám phá tri thức trong cơ sở dữ liệu và tập trung vào các kỹ thuật phân cụm dữ liệu. Trên cơ sở đó đề cập đến một ứng dụng thực tế trên cơ sở khám phá tri thức và khai phá dữ liệu trên cơ sở dữ liệu của ngành bảo hiểm xã hội. Luận văn gồm Phần mở đầu, Phần kết luận và 3 chương nội dung, cụ thể như sau: Chương 1: Trình bày tổng quan về phân cụm dữ liệu và một số khái niệm liên quan, đồng thời cũng trình bày các giai đoạn của quá trình phát hiện tri thức và đề cập đến các kỹ thuật hướng tiếp cận chính trong khai phá dữ liệu, những khái niệm liên quan đến phân cụm dữ liệu. Chương 2: Phân tích chi tiết các vấn đề cơ bản trong phân cụm dữ liệu, tóm tắt các đặc trưng của các phương pháp phân cụm dữ liệu được sử dụng phổ biến và một số thuật toán phân cụm dữ liệu. Chương 3: Áp dụng một thuật toán phân cụm dữ liệu vào khai phá dữ liệu của ngành bảo hiểm xã hội. References Tài liệu tiếng Việt: [1] Phan Đình Diệu (1999), Lôgic trong Các Hệ Tri Thức, NXB Đại học Quốc gia Hà Nội, Hà Nội. [2] Đinh Mạnh Tường (2003), Trí tuệ nhân tạo, NXB Đại học Quốc gia Hà Nội, Hà Nội. Tài liệu tiếng Anh: [3] J.A. Hartigan, Clustering Algorithms. John Wiley & Sons, Inc., 1975. [4] A.K. Jain, R.C. Dubes, Algorithms for clustering data, Prentice Hall, Englewood Cliffs, NJ, 1988. [5] K.A. Kaufman, R.S. Michalski, L. Kerschberg, Mining for knowledge in databases: Goals and general description of the INLEN system, In Knowledge Discovery in Databases, AAAI/MIT, Cambridge, MA, 1991. [6] A. Ketterlin, P. Gancarski, J.J. Korczak, Conceptual Clustering in Structured Databases: a Practical Approach, In Proc. of the 1 st Int’l Conf. On Knowledge Discovery and Data Mining, Quebec, Montreal, 1995. [7] M. Manago, Y. Kodratoff, Induction of Decision Trees from Complex Structured Data, In Knowledge Discovery in Databases, AAAI/The MIT press, pp. 289-306, 1991. [8] P. Cheeseman, J. Stutz, Bayesian Classification (AutoClass): theory and results, Advances in Knowledge Discovery and Data Mining, U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (Ed.), AAAI/MIT Press, Cambridge, MA, pp. 153-180, 1996. [9] P. Domingos, Linear-time rule induction, In Proc. of the 2 nd Int'l Conf. on Knowledge Discovery and Data Mining, Portland, Oregon, 1996. [10] M. Ester, H-P. Kriegel, J. Sander, X. Xu, A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, In proceedings of the Second Knowledge Discovery and Data Mining conference, Portland, Oregon, 1996. [11] T. Zhang, R. Ramakrishnan, and M. Livny. “BIRCH: A new data clustering Algorithm and its applications.” Data Mining and Knowledge Discovery. 1997. . cụm dữ liệu. Xuất phát trong hoàn cảnh đó, luận văn lựa chọn đề tài Một số vấn đề về phân cụm dữ liệu và ứng dụng trong ngành bảo hiểm xã hội”. Luận văn nhằm nghiên cứu một số vấn đề về khám. của các phương pháp phân cụm dữ liệu được sử dụng phổ biến và một số thuật toán phân cụm dữ liệu. Chương 3: Áp dụng một thuật toán phân cụm dữ liệu vào khai phá dữ liệu của ngành bảo hiểm xã. đến phân cụm dữ liệu; Phân tích chi tiết các vấn đề cơ bản trong phân cụm dữ liệu, tóm tắt các đặc trưng của các phương pháp phân cụm dữ liệu được sử dụng phổ biến và một số thuật toán; Áp dụng