2.5.2 .Thuật toán COBWEB
3.3. Áp dụng các thuật toán phân cụm vào cơ sở dữ liệu của ngành bảo
3.3.3. Chương trình mô phỏng thuật toán PCDL K-means
Áp dụng thuật toán Kmeans với dữ liệu đối tƣợng hƣởng BHXH hàng tháng của ngành BHXH.
Chƣơng trình mô phỏng thuật toán phân cụm dữ liệu K-means với dữ liệu đối tƣợng hƣởng BHXH hàng tháng của ngành BHXH.
Hình 3.1: Chương trình mô phỏng thuật toán PCDL
Đƣa các thông tin cho chƣơng trình:
- Đƣờng dẫn đến CƠ Sở Dữ LIệU đối tƣợng hƣởng BHXH hàng tháng.
- Số cụm kết quả.
Ví dụ có thể đƣa thông tin đầu vào cho chƣơng trình nhƣ sau:
Sau khi thực hiện, chƣơng trình cho kết quả nhƣ sau:
KẾT LUẬN
Khám phá tri thức trong cơ sở dữ liệu là quá trình nhận biết đúng đắn, mới hữu ích và có thể hiểu đƣợc mẫu hoặc mô hình trong dữ liệu.
Khám phá tri thức bao gồm nhiều bƣớc, tuy nhiên có một bƣớc rất quan trọng là khai phá dữ liệu. Khai phá dữ liệu là quá trình trích xuất thông tin cần thiết trong cơ sở dữ liệu. Đây là bƣớc bƣớc tốn nhiều thời gian và tài nguyên nhất trong quá trình khám phá tri thức, bƣớc này chủ yếu bao gồm các vấn đề kỹ thuật ví dụ nhƣ các thuật toán, các mô hình dữ liệu,...
Phân cụm dữ liệu là một phƣơng pháp phổ biến và thông dụng nhất của các phƣơng pháp khai phá dữ liệu. Có thể hiểu đơn giản nhất phân cụm dữ liệu là quá trình gom nhóm những phần tử dữ liệu có những đặc trƣng tƣơng tự nhau vào chung một cụm.
Luận văn cũng giới thiệu tổng quát về bảo hiểm xã hội, các chế độ và dữ liệu mà ngành hiện đang quản lý. Một bài toán mà ngành đang phải giải quyết đó là việc điều chỉnh mức hƣởng hàng tháng cho những ngƣời đang hƣởng các chế độ BHXH hàng tháng sao cho hợp lý. Trên cơ sở các phƣơng pháp và thuật toán phân cụm dữ liệu đã trình bày, luận văn cũng đƣa ra một cách trợ giúp cho việc giải bài toán điều chỉnh trên, xây dựng một chƣơng trình ứng dụng các thuật toán phân cụm dữ liệu để khai phá dữ liệu ngƣời đang hƣởng các chế độ BHXH hàng tháng từ đó có thể đƣa ra các phƣơng pháp điều chỉnh hợp lý.
Tuy nhiên do khả năng của bản thân còn nhiều hạn chế, mức độ phức tạp của dữ liệu, chƣơng trình ứng dụng hiện chỉ dừng lại ở mức độ mô phỏng và còn nhiều hạn chế. Em rất mong nhận đƣợc sự góp ý, chỉ bảo của các thầy, cô giáo và các bạn để luận văn đƣợc hoàn thiện hơn.
Trong thời gian tới, em sẽ cố gắng tìm hiểu sâu hơn những vấn đề đã trình bày trong luận văn và tập trung hoàn thiện chƣơng trình ứng dụng trên để có thể áp dụng vào giải quyết công việc thực tế của bản thân tại cơ quan bảo hiểm xã hội Việt Nam.
TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt:
[1] Phan Đình Diệu (1999), Lôgic trong Các Hệ Tri Thức, NXB Đại học Quốc gia Hà Nội, Hà Nội.
[2] Đinh Mạnh Tƣờng (2003), Trí tuệ nhân tạo, NXB Đại học Quốc gia Hà Nội, Hà Nội.
Tài liệu tiếng Anh:
[3] J.A. Hartigan, Clustering Algorithms. John Wiley & Sons, Inc., 1975. [4] A.K. Jain, R.C. Dubes, Algorithms for clustering data, Prentice Hall,
Englewood Cliffs, NJ, 1988.
[5] K.A. Kaufman, R.S. Michalski, L. Kerschberg, Mining for knowledge in databases: Goals and general description of the INLEN system, In Knowledge Discovery in Databases, AAAI/MIT, Cambridge, MA, 1991.
[6] A. Ketterlin, P. Gancarski, J.J. Korczak, Conceptual Clustering in Structured Databases: a Practical Approach, In Proc. of the 1st Int’l Conf. On Knowledge Discovery and Data Mining, Quebec, Montreal, 1995.
[7] M. Manago, Y. Kodratoff, Induction of Decision Trees from Complex Structured Data, In Knowledge Discovery in Databases, AAAI/The MIT press, pp. 289-306, 1991.
[8] P. Cheeseman, J. Stutz, Bayesian Classification (AutoClass): theory and results, Advances in Knowledge Discovery and Data Mining, U.M.
Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (Ed.), AAAI/MIT Press, Cambridge, MA, pp. 153-180, 1996.
[9] P. Domingos, Linear-time rule induction, In Proc. of the 2nd Int'l Conf. on Knowledge Discovery and Data Mining, Portland, Oregon, 1996.
[10] M. Ester, H-P. Kriegel, J. Sander, X. Xu, A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, In proceedings of the Second Knowledge Discovery and Data Mining conference, Portland, Oregon, 1996.
[11] T. Zhang, R. Ramakrishnan, and M. Livny. “BIRCH: A new data clustering Algorithm and its applications.” Data Mining and Knowledge Discovery. 1997.
PDF Merger
register your program!
Go to Purchase Now>>
Merge multiple PDF files into one
Select page range of PDF to merge
Select specific page(s) to merge
Extract page(s) from different PDF