TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
Khai phá dữ liệu và khám phá tri thức
Tri thức được định nghĩa là sự tích hợp thông tin, bao gồm các sự kiện, hiện tượng và mối quan hệ giữa chúng, đã được nhận thức, khám phá hoặc nghiên cứu.
Trong thời đại công nghệ thông tin phát triển mạnh mẽ hiện nay, mọi lĩnh vực đều liên quan đến việc thu thập, lưu trữ và xử lý thông tin một cách hiệu quả.
Hiện nay, chúng ta đang sở hữu một kho dữ liệu khổng lồ với thông tin đa dạng từ nhiều lĩnh vực khác nhau Vấn đề đặt ra là làm thế nào để nhận diện và truy xuất những thông tin cần thiết cho công việc Giải pháp cho vấn đề này chính là việc áp dụng các phương pháp khám phá tri thức trong cơ sở dữ liệu.
Khám phá tri thức trong cơ sở dữ liệu là quá trình nhận diện thông tin đúng đắn, mới mẻ và hữu ích, giúp hiểu rõ các mẫu hoặc mô hình trong dữ liệu Quá trình này bao gồm nhiều bước quan trọng để đạt được kết quả hiệu quả.
Hình 1.1: Quá trình khám phá tri thức
Thu thập và tiền xử lý dữ liệu
Khai phá dữ liệu Trích chọn tri thức
Tìm hiểu lĩnh vực ứng dụng
Biểu diễn và đánh giá tri thức Ứng dụng tri thức đã được khám phá
Tìm hiểu lĩnh vực ứng dụng là bước quan trọng giúp rút ra tri thức hữu ích và lựa chọn các phương pháp khai phá dữ liệu phù hợp với mục đích ứng dụng và bản chất của dữ liệu.
Thu thập và tiền xử lý dữ liệu là bước quan trọng trong quá trình khám phá tri thức, bao gồm việc lựa chọn nguồn dữ liệu, loại bỏ dữ liệu nhiễu và ngoại lai, xử lý các giá trị thiếu, biến đổi và rút gọn dữ liệu, cùng với việc sửa các lỗi hệ thống Đồng thời, cần tập hợp thông tin cần thiết để xây dựng mô hình hoặc tính toán nhiễu, cũng như quyết định các chiến lược xử lý dữ liệu bị lỗi Bước này thường tốn nhiều thời gian trong toàn bộ quy trình.
Khai phá dữ liệu và trích chọn tri thức là quá trình tìm kiếm các mẫu ẩn hoặc mô hình tiềm ẩn trong dữ liệu Mô hình được coi là một biểu diễn tổng thể của cấu trúc, giúp tóm lược các thành phần hệ thống trong dữ liệu, trong khi mẫu là cấu trúc cục bộ liên quan đến một nhóm biến nhất định Các phương pháp khai phá dữ liệu chính bao gồm mô hình dự đoán như phân loại và hồi quy, phân đoạn, mô hình phụ thuộc như đồ thị hoặc ước lượng mật độ, tóm lược để tìm mối quan hệ giữa các trường, và phát hiện độ lệch trong dữ liệu.
Biểu diễn và đánh giá tri thức là hai mục tiêu chính trong các hệ thống khám phá, đặc biệt là làm rõ các mô tả và dự đoán Kinh nghiệm cho thấy rằng các mẫu phát hiện từ dữ liệu không phải lúc nào cũng có giá trị sử dụng ngay, do đó quy trình khám phá tri thức cần được lặp lại và điều chỉnh dựa trên các tri thức đã phát hiện Để đánh giá các luật trong quy trình này, dữ liệu thường được chia thành hai tập: một để huấn luyện và một để kiểm chứng Quy trình này có thể được lặp lại với nhiều phân chia khác nhau, sau đó trung bình hóa kết quả để ước lượng các luật thi hành Ứng dụng tri thức đã được khám phá nhằm củng cố và kết hợp các tri thức thành một hệ thống máy tính, đồng thời giải quyết các xung đột tiềm năng Mục đích cuối cùng của khám phá tri thức là đưa kết quả vào sử dụng thực tiễn.
Khai phá dữ liệu là một bước quan trọng trong quá trình khám phá tri thức từ cơ sở dữ liệu, nơi thông tin cần thiết được trích xuất Đây là giai đoạn tốn nhiều thời gian và tài nguyên nhất, liên quan đến việc áp dụng các thuật toán để tìm kiếm mẫu và mô hình trong dữ liệu, thường gặp các vấn đề kỹ thuật.
Khai phá dữ liệu là lĩnh vực liên ngành, kết hợp các khoa học như thống kê, học máy, cơ sở dữ liệu, thuật toán và kỹ thuật cao Nó sử dụng các phương pháp và kỹ thuật đa dạng để khám phá tri thức từ dữ liệu lớn Mục tiêu chính của khai phá dữ liệu là trích xuất tri thức giá trị từ những nguồn dữ liệu phong phú trong cơ sở dữ liệu khổng lồ.
Ứng dụng của khai phá dữ liệu
Kỹ thuật khai phá dữ liệu có thể đƣợc ứng dụng trong nhiều lĩnh vực, điển hình là:
+ Phân tích dữ liệu bán hàng và thị trường;
+ Điều khiển và lập kế hoạch;
+ Phân tích kết quả thử nghiệm;
+ Cơ sở dữ liệu sinh học;
+ Khoa học địa lý: tìm động đất;
Các kỹ thuật khai phá dữ liệu
Hiện nay có rất nhiều các kỹ thuật khai phá dữ liệu khác nhau, tuy nhiên chúng đƣợc phân chia thành 2 nhóm chính:
1.3.1 Kỹ thuật khai phá dữ liệu dự đoán
Sử dụng các biến hoặc trường trong cơ sở dữ liệu để dự đoán giá trị chưa biết hoặc sẽ có của các biến quan trọng khác, thông qua các suy diễn dựa trên dữ liệu hiện tại Các kỹ thuật này bao gồm phân lớp (classification) và hồi quy (regression).
Hồi quy là phương pháp học để ánh xạ dữ liệu tới giá trị dự đoán thực tế Các ứng dụng của hồi quy rất đa dạng, chẳng hạn như dự đoán số lượng gỗ trong rừng thông qua cảm biến vi sóng từ xa và ước lượng xác suất tử vong của bệnh nhân dựa trên kết quả xét nghiệm chẩn đoán.
Phân lớp là quá trình học một hàm để ánh xạ dữ liệu vào các phân lớp đã được định nghĩa trước Các phương thức phân lớp thường được áp dụng trong khai phá tri thức, ví dụ như phân lớp xu hướng thị trường tài chính (Apte & Hong) và nhận dạng tự động các đối tượng khả nghi trong cơ sở dữ liệu ảnh (Fayyad, Djorgovski, & Weir).
1.3.2 Kỹ thuật khai phá dữ liệu mô tả
Tìm kiếm các mẫu dễ hiểu để mô tả dữ liệu và các đặc tính chung trong cơ sở dữ liệu hiện có là rất quan trọng Các kỹ thuật như phân cụm, khái quát hoá, phát hiện và phân tích độ lệch, cùng với mô hình hoá sự phụ thuộc, đóng vai trò quan trọng trong việc cải thiện khả năng phân tích và hiểu biết về dữ liệu.
Phân cụm là quá trình xác định và phân loại các nhóm hoặc loại dữ liệu, theo Titerington, Smith & Makov (1985) và Jain & Dubes (1988) Các nhóm này có thể được phân tách riêng biệt, sắp xếp theo cấp bậc, hoặc có thể chồng chéo lên nhau.
Khái quát hóa là quá trình tìm kiếm mô tả cho một tập con dữ liệu, bao gồm các phương thức như lập bảng theo ý nghĩa và độ lệch chuẩn Những phương pháp phức tạp hơn có thể bao gồm việc phân tích độ lệch của các quy tắc chung, sử dụng kỹ thuật mô phỏng đa biến và khai thác các quan hệ phụ thuộc giữa các biến Kỹ thuật này thường được áp dụng trong phân tích dữ liệu ràng buộc, giúp thực hiện các nghiên cứu thăm dò và tạo ra các báo cáo tự động.
Mô hình hóa sự phụ thuộc là quá trình tìm kiếm mô hình để mô tả mối quan hệ giữa các biến Có hai cấp độ trong các mô hình phụ thuộc: cấp độ cấu trúc xác định các biến phụ thuộc cục bộ với nhau, và cấp độ định lượng xác định các phụ thuộc theo quy tắc cụ thể.
Các mạng phụ thuộc xác suất thường được sử dụng để mô tả cấu trúc và xác suất trong các mô hình Chúng có ứng dụng rộng rãi trong các hệ thống chuyên gia y tế và trong việc mô hình hóa bộ gen người.
Phát hiện và điều chỉnh độ lệch tập trung vào việc khai thác những thay đổi quan trọng nhất trong dữ liệu so với các giá trị chuẩn hoặc đã được đo trước (Berndt & Cliffort, Guyon et al., Kloesgen, Mathéu et al., Basseville & Nikiforov, 1993).
Trong luận văn này, tôi sẽ tập trung phân tích phương pháp “Phân cụm (clustering)”, một trong những kỹ thuật phổ biến và thông dụng nhất trong khai phá dữ liệu.
Phân cụm dữ liệu
1.4.1 Học có giám sát và không có giám sát
Học có giám sát (supervised learning) là quá trình gán nhãn lớp cho các phần tử trong cơ sở dữ liệu dựa trên tập ví dụ huấn luyện và thông tin nhãn lớp đã biết Quá trình này xây dựng một hàm từ dữ liệu huấn luyện, bao gồm cặp dữ liệu đầu vào và đầu ra tương ứng Đầu ra có thể là giá trị liên tục (hồi quy) hoặc nhãn được gán cho đối tượng dữ liệu đầu vào (phân lớp).
Chương trình có nhiệm vụ dự đoán giá trị đầu ra của một hàm dựa trên một đối tượng dữ liệu đầu vào hợp lệ, sử dụng các ví dụ huấn luyện làm mẫu.
Học không có giám sát (unsupervised learning) là quá trình phân chia dữ liệu thành các lớp hoặc cụm tương tự mà không cần thông tin trước về các lớp hay tập huấn luyện Khác với học có giám sát, trong phương pháp này, đầu ra tương ứng với đầu vào không được biết trước Học không có giám sát coi các đối tượng đầu vào như một tập dữ liệu ngẫu nhiên, giúp phát hiện cấu trúc tiềm ẩn trong dữ liệu.
1.4.2 Khái niệm phân cụm dữ liệu
Phân cụm dữ liệu là quá trình nhóm các phần tử dữ liệu tương tự lại với nhau thành các cụm (cluster) Đây là một khái niệm quan trọng trong phân tích dữ liệu, giúp tổ chức và nhận diện các mẫu trong tập dữ liệu.
Mục tiêu của việc phân chia tập dữ liệu X thành k nhóm (cụm) là để các cụm này đáp ứng các yêu cầu nhất định.
Các phần tử dữ liệu trong một cụm có đặc điểm tương đồng hoặc gần gũi, được xác định thông qua độ tương tự, nghĩa là các phần tử trong cùng một cụm đều có sự tương đồng nhất định.
Các phần tử dữ liệu trong một cụm có sự khác biệt rõ rệt so với các phần tử dữ liệu trong các cụm khác, cho thấy tính không tương tự giữa các cụm.
Ta có thể mô tả quá trình phân cụm dữ liệu qua một sơ đồ tổng quát như hình dưới:
Hình 1.2: Sơ đồ quá trình phân cụm dữ liệu
Số lượng cụm dữ liệu có thể được xác định dựa trên kinh nghiệm hoặc phương pháp phân cụm Hai hoặc nhiều phần tử sẽ được nhóm lại với nhau nếu chúng chia sẻ một định nghĩa chung về khái niệm hoặc gần gũi với khái niệm đã được mô tả trước đó.
Phân cụm là một quá trình học không có giám sát, trong đó dữ liệu được phân nhóm dựa trên việc quan sát thay vì học từ các ví dụ Để hiểu rõ hơn về phân cụm dữ liệu, chúng ta có thể xem xét một ví dụ cụ thể.
Hình 1.3: Ví dụ về phân cụm
Trong phân tích dữ liệu, các đối tượng được chia thành 4 cụm dựa trên khoảng cách Các đối tượng được xếp vào cùng một cụm nếu chúng "gần nhau" theo mức độ khoảng cách đã xác định, trong khi những đối tượng "xa nhau" sẽ thuộc về các cụm khác Phân cụm dựa trên khoảng cách giúp xác định sự tương đồng giữa các đối tượng Ngoài ra, phân cụm cũng có thể được hiểu là việc nhóm các đối tượng vào cùng một cụm khi chúng có chung định nghĩa hoặc gần gũi với các khái niệm đã được mô tả.
Một vấn đề phổ biến trong phân cụm là dữ liệu thường bị nhiễu do thu thập thiếu chính xác hoặc không đầy đủ Để khắc phục điều này, cần xây dựng chiến lược tiền xử lý dữ liệu nhằm loại bỏ nhiễu trước khi phân tích Nhiễu có thể là các đối tượng dữ liệu không chính xác hoặc thiếu thông tin về một số thuộc tính Một trong những kỹ thuật xử lý nhiễu hiệu quả là thay thế giá trị thuộc tính của đối tượng nhiễu bằng giá trị tương ứng.
Dò tìm phần tử ngoại lai là một nghiên cứu quan trọng trong phân cụm, giúp xác định các đối tượng dữ liệu bất thường so với dữ liệu trong cơ sở dữ liệu Chức năng của nó là phát hiện những đối tượng không tuân theo các hành vi hoặc mô hình dữ liệu, nhằm giảm thiểu ảnh hưởng của chúng đến quá trình và kết quả phân cụm Khám phá các phần tử ngoại lai đã được phát triển và ứng dụng rộng rãi trong các lĩnh vực như viễn thông, dò tìm gian lận thương mại và làm sạch dữ liệu.
Hiện nay, chưa có phương pháp phân cụm tổng quát nào có thể giải quyết tất cả các dạng cấu trúc cụm dữ liệu Các phương pháp phân cụm cần biểu diễn cấu trúc của các cụm dữ liệu, với mỗi cách biểu diễn tương ứng với một thuật toán phân cụm phù hợp Phân cụm là một vấn đề mở và khó khăn, đòi hỏi phải giải quyết nhiều vấn đề cơ bản như xây dựng hàm tính độ tương tự, tiêu chuẩn phân cụm, mô hình cho cấu trúc cụm dữ liệu, thuật toán phân cụm và điều kiện khởi tạo, cũng như thủ tục biểu diễn và đánh giá kết quả Thách thức lớn nhất là phát triển các phương pháp phù hợp cho nhiều dạng dữ liệu khác nhau, đặc biệt là dữ liệu hỗn hợp, đang gia tăng trong các hệ quản trị dữ liệu.
1.4.3 Mục tiêu của phân cụm
Mục tiêu của phân cụm là xác định bản chất của các nhóm trong tập dữ liệu chưa được gán nhãn Tuy nhiên, việc xác định tiêu chí cho một cụm tốt không có tiêu chuẩn tuyệt đối và phụ thuộc vào yêu cầu của người sử dụng Người dùng cần cung cấp tiêu chuẩn để kết quả phân cụm đáp ứng mong muốn của họ Ví dụ, có thể tìm kiếm đại diện cho các nhóm đồng nhất, các cụm tự nhiên, mô tả thuộc tính chưa biết, hoặc tìm kiếm các nhóm hữu ích và phù hợp, cũng như phát hiện các đối tượng khác thường.
1.4.4 Ứng dụng của phân cụm dữ liệu
Tiếp thị hiệu quả dựa trên việc phân tích cơ sở dữ liệu khách hàng đã mua hàng trong quá khứ, từ đó xác định các nhóm khách hàng có sở thích tương đồng Bằng cách này, doanh nghiệp có thể triển khai các hình thức tiếp thị và khuyến mại phù hợp, đáp ứng nhu cầu và sở thích riêng biệt của từng nhóm khách hàng.
Sinh học: phân loại động vật và thực vật dựa trên các đặc điểm của chúng
Thư viện: phân loại các đầu sách dựa trên các thông tin của sách
Bảo hiểm: nhận dạng, phân loại các nhóm người mua bảo hiểm theo các mức khác nhau; phát hiện đƣợc giả mạo, gian lận
Quy hoạch: phân loại các nhóm nhà ở theo loại, theo giá trị và theo vị trí địa lý
Nghiên cứu động đất: phân lớp các tâm động đất quan sát đƣợc để xác định những vùng nào là vùng nguy hiểm
WWW: phân loại tài liệu,…
1.4.5 Yêu cầu của phân cụm dữ liệu
CÁC PHƯƠNG PHÁP VÀ THUẬT TOÁN PHÂN CỤM DỮ LIỆU
Phương pháp phân cụm phân hoạch
Kỹ thuật này chia một tập dữ liệu có n phần tử thành k nhóm cho đến khi xác định được số lượng cụm cần thiết Số lượng cụm được thiết lập là các đặc trưng đã được chọn trước.
Phương pháp này hiệu quả trong việc xác định các cụm hình cầu trong không gian Euclidean Nó cũng dựa vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu có mối quan hệ gần gũi.
Các thuật toán phân cụm
Các thuật toán phân cụm dựa trên mật độ
Các thuật toán phân cụm dựa trên lưới
Các thuật toán phân cụm dựa trên mô hình
Các thuật toán phân cụm phân cấp
Các thuật toán phân cụm phân hoạch
Thuật toán COBWEB v.v v.v v.v v.v v.v với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác
Phương pháp này không thể xử lý các cụm có hình dạng kỳ quặc hoặc mật độ điểm dày đặc Các thuật toán phân hoạch dữ liệu gặp khó khăn lớn trong việc xác định nghiệm tối ưu toàn cục, vì chúng phải xem xét tất cả các cách phân hoạch có thể Do đó, thực tế thường tìm kiếm giải pháp tối ưu cục bộ bằng cách sử dụng hàm tiêu chuẩn để đánh giá chất lượng cụm và hướng dẫn quá trình phân hoạch dữ liệu.
Phương pháp phân cụm này bắt đầu bằng cách khởi tạo một phân hoạch ban đầu cho tập dữ liệu thông qua ngẫu nhiên hoặc heuristic, sau đó liên tục tinh chỉnh cho đến khi đạt được phân hoạch mong muốn Các thuật toán phân cụm phân hoạch tập trung vào việc cải thiện tiêu chuẩn phân cụm bằng cách tính toán độ tương tự giữa các đối tượng dữ liệu và sắp xếp các giá trị này Thuật toán sẽ chọn một giá trị trong dãy sắp xếp sao cho hàm tiêu chuẩn đạt giá trị tối thiểu Ý tưởng chính của thuật toán phân cụm phân hoạch tối ƣu cục bộ là áp dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm.
K-means là thuật toán phân cụm trong đó các cụm đƣợc định nghĩa bởi trung tâm của các phần tử trong cụm đó Phương pháp này dựa trên độ đo khoảng cách của các đối tƣợng dữ liệu trong cụm Trong thực tế, nó đo khoảng cách tới trung tâm của các đối tƣợng dữ liệu trong cụm (trung tâm của một cụm dữ liệu đƣợc coi nhƣ là giá trị trung bình của các đối tƣợng dữ liệu trong cụm đó) Nhƣ vậy nó cần khởi tạo một tập trung tâm các cụm ban đầu, và thông qua đó nó lặp lại các bước gồm gán mỗi đối tượng tới cụm mà trung tâm gần, và tính toán lại trung tâm của mỗi cụm trên cơ sở gán mới cho các đối tƣợng Quá trình lặp này dừng khi các trung tâm hội tụ
Hình 2.2: Xác lập ranh giới các cụm ban đầu
Trong phương pháp k-means, đầu tiên, bạn chọn một giá trị k và ngẫu nhiên xác định k trung tâm cho các đối tượng dữ liệu Sau đó, tính toán khoảng cách giữa từng đối tượng dữ liệu và trung tâm của mỗi cụm để xác định các phần tử tương tự, từ đó thêm chúng vào cụm tương ứng Dựa trên khoảng cách này, bạn có thể tính toán trung bình mới cho từng cụm và lặp lại quy trình cho đến khi tất cả các đối tượng dữ liệu được phân chia thành k cụm rõ ràng.
Thuật toán k-means nhằm mục đích tạo ra k cụm dữ liệu {C1, C2, , Ck} từ một tập dữ liệu gồm n đối tượng trong không gian d chiều, với mỗi đối tượng được biểu diễn bởi Xi = (xi1, xi2, , xid), với i từ 1 đến n Mục tiêu của thuật toán là tối ưu hóa hàm tiêu chuẩn bằng cách giảm thiểu tổng khoảng cách giữa các đối tượng và tâm cụm của chúng.
2 ( ) đạt giá trị tối thiểu
Trong đó: m i là trọng tâm của cụm C i , D là khoảng cách giữa hai đối tƣợng
Hình 2.3: Tính toán trọng tâm của các cụm mới
Trọng tâm của một cụm là vectơ mà mỗi phần tử của nó là trung bình cộng của các thành phần tương ứng trong các đối tượng vectơ dữ liệu của cụm đó Thuật toán yêu cầu tham số đầu vào là số cụm k và đầu ra là các trọng tâm của các cụm dữ liệu Khoảng cách Euclide thường được sử dụng để đo khoảng cách D giữa các đối tượng dữ liệu, vì dễ dàng lấy đạo hàm và xác định các cực trị tối thiểu Hàm tiêu chuẩn và độ đo khoảng cách có thể được điều chỉnh tùy thuộc vào ứng dụng hoặc quan điểm của người dùng.
Thuật toán k-means bao gồm các bước cơ bản được trình bày như sau:
Input: Số cụm k và các trọng tâm cụm {m j } k j=1
Output: Các cụm C[i] (1 i k) và hàm tiêu chuẩn E đạt giá trị tối thiểu
Chọn k trọng tâm {m j } k j=1 ban đầu trong không gian R d (d là số chiều của dữ liệu) Việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm
Để tính toán khoảng cách cho mỗi điểm X i (1 ≤ i ≤ n), bạn cần xác định khoảng cách từ điểm đó đến từng trọng tâm m j (1 ≤ j ≤ k) Sau khi tính toán, hãy xác định trọng tâm gần nhất cho mỗi điểm.
Bước 3: Cập nhật lại trọng tâm Đối với mỗi 1 j k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng các vectơ đối tƣợng dữ liệu
Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi
Một số chú ý khi áp dụng thuật toán K-means:
+ Kết quả của thuật toán luôn có k cụm dữ liệu đƣợc tạo thành
+ Trong mỗi cụm dữ liệu thì luôn có ít nhất một phần tử dữ liệu
+ Các cụm không giao nhau (một phần tử dữ liệu thuộc vào một cụm dữ liệu duy nhất)
+ Các phần tử dữ liệu của một cụm gần với trọng tâm của cụm đó hơn các phần tử dữ liệu của các cụm khác
Thuật toán k-means tuần tự được chứng minh là hội tụ với độ phức tạp tính toán O((3nkd)τT flop), trong đó n là số đối tượng dữ liệu, k là số cụm, d là số chiều, τ là số vòng lặp, và T flop là thời gian thực hiện các phép tính cơ bản Một thách thức trong quá trình thực hiện là xử lý các nút thắt khi có nhiều trung tâm có cùng khoảng cách từ một đối tượng, có thể giải quyết bằng cách gán ngẫu nhiên các đối tượng cho cụm hoặc xáo trộn vị trí của chúng Mặc dù k-means có thể áp dụng cho tập dữ liệu lớn nhờ vào khả năng phân tích phân cụm đơn giản, nhưng nó chỉ hiệu quả với dữ liệu số và các cụm hình cầu, đồng thời nhạy cảm với nhiễu và các phần tử ngoại lai Hình 2.4 minh họa một số hình dạng cụm dữ liệu được phát hiện bởi k-means.
Hình 2.4: Một số dạng cụm dữ liệu khi áp dụng thuật toán K-means
Kết quả của thuật toán k-means phụ thuộc vào các tham số đầu vào như số cụm k và các trọng tâm khởi tạo Nếu các trọng tâm khởi tạo quá khác biệt so với các trọng tâm tự nhiên, kết quả phân cụm sẽ không chính xác, dẫn đến việc các cụm dữ liệu khám phá không khớp với thực tế Hiện tại, chưa có giải pháp tối ưu nào để lựa chọn các tham số đầu vào, và phương pháp phổ biến nhất là thử nghiệm với nhiều giá trị k khác nhau để tìm ra giải pháp tốt nhất.
Thuật toán PAM (Partition Around Medoids) là một phiên bản mở rộng của thuật toán k-means, được thiết kế để xử lý hiệu quả dữ liệu nhiễu và các phần tử ngoại lai PAM sử dụng các đối tượng medoid, là những điểm đại diện cho trung tâm của mỗi cụm, giúp giảm thiểu ảnh hưởng từ các điểm xa Khác với k-means, nơi các trọng tâm dễ bị tác động bởi những điểm ngoại lai, medoid của PAM ít bị ảnh hưởng hơn Quá trình khởi tạo của PAM bao gồm việc chọn k đối tượng medoid và phân phối các đối tượng còn lại vào các cụm tương ứng, đảm bảo sự tương đồng tối đa với medoid trong cụm.
Trong thuật toán PAM, một đối tượng không phải medoid Oj sẽ thuộc về cụm có medoid Om nếu khoảng cách d(Oj, Om) là nhỏ nhất so với tất cả các đối tượng medoid khác Chất lượng của mỗi cụm được đánh giá dựa trên độ phi tương tự trung bình giữa các đối tượng và medoid tương ứng, với độ phi tương tự được xác định qua các phép đo khoảng cách PAM khởi đầu bằng việc chọn k đối tượng medoid ngẫu nhiên và thực hiện hoán chuyển giữa medoid O m và một đối tượng O p không phải medoid nhằm cải thiện chất lượng phân cụm Quá trình này tiếp tục cho đến khi không còn cải thiện nào, và chất lượng phân cụm được đánh giá thông qua hàm tiêu chuẩn, với kết quả tối ưu đạt được khi hàm này ở mức tối thiểu.
PAM tính giá trị Cjmp cho tất cả các đối tƣợng Oj để làm căn cứ cho việc hoán chuyển giữa Om và Op
O m : là đối tƣợng medoid hiện thời cần đƣợc thay thế;
O p : là đối tƣợng medoid mới thay thế cho O m ;
O j : là đối tƣợng dữ liệu (không phải medoid) có thể đƣợc di chuyển sang cụm khác;
O j,2 : là đối tƣợng medoid hiện thời gần đối tƣợng O j nhất
Có bốn cách tính khác nhau cho mỗi trường hợp C jmp : Trường hợp 1: Giả sử Oj hiện thời thuộc về cụm có đại diện là Om và
O j tương tự với O j,2 hơn O p, nghĩa là khoảng cách giữa O j và O p lớn hơn hoặc bằng khoảng cách giữa O j và O j,2 (d(O j, O p) ≥ d(O j, O j,2)) O j,2 là đối tượng medoid thứ hai gần nhất với O j trong số các medoid Do đó, khi thay thế O m bằng đối tượng medoid mới O p, O j sẽ thuộc về cụm có đối tượng đại diện là O j,2 Giá trị hoán chuyển Cjmp được xác định theo cách này.
Cjmp = d(Oj, Oj,2) - d(Oj, Om) (1) Giá trị Cjmp là không âm
Trong trường hợp 2, Oj hiện thuộc về cụm có đại diện là Om, nhưng mức độ tương đồng giữa Oj và O j,2 thấp hơn so với Op (tức là d(Oj, Op) < d(Oj, Oj,2)) Nếu Om được thay thế bằng Op, Oj sẽ chuyển sang cụm có đại diện là Op Do đó, giá trị Cjmp được xác định theo cách này.
Cjmp = d(Oj, Op) - d(Oj, Om) (2)
Giá trị Cjmp có thể là âm hoặc dương
Phương pháp phân cụm phân cấp
Phương pháp xây dựng phân cấp dựa trên các đối tượng dữ liệu bằng cách sắp xếp tập dữ liệu thành cấu trúc hình cây thông qua kỹ thuật đệ quy Hai cách tiếp cận phổ biến của kỹ thuật này là hòa nhập nhóm (bottom-up) và phân chia nhóm (top-down).
Kỹ thuật tiếp cận bottom-up bắt đầu từ việc khởi tạo từng đối tượng dữ liệu với các cụm riêng biệt Sau đó, các đối tượng được hòa nhập dựa trên độ đo tương tự, chẳng hạn như khoảng cách giữa hai trung tâm của các nhóm Quá trình này tiếp tục cho đến khi tất cả các nhóm được hợp nhất thành một nhóm duy nhất, hoặc cho đến khi các điều kiện dừng thỏa mãn Phương pháp này áp dụng chiến lược tham lam trong quá trình phân cụm.
Kỹ thuật tiếp cận top-down bắt đầu bằng việc sắp xếp tất cả các đối tượng dữ liệu vào một cụm duy nhất và sau đó chia nhỏ các cụm này Trong mỗi vòng lặp thành công, một cụm lớn được tách ra thành các cụm nhỏ hơn dựa trên giá trị của một phép đo tương tự cho đến khi mỗi đối tượng dữ liệu trở thành một cụm riêng biệt hoặc khi điều kiện dừng được thỏa mãn Phương pháp này áp dụng chiến lược chia để trị, giúp tối ưu hóa quá trình phân cụm dữ liệu.
Hình 2.5: Chiến lược phân cụm phân cấp
Trong thực tế, việc áp dụng các phương pháp phân cụm dữ liệu thường kết hợp cả phân cụm phân hoạch và phân cụm phân cấp, cho phép cải thiện kết quả từ phương pháp phân cấp thông qua bước phân cụm phân hoạch Hai phương pháp này là những phương pháp phân cụm cổ điển, và hiện nay đã có nhiều thuật toán cải tiến dựa trên chúng được áp dụng rộng rãi trong lĩnh vực khai phá dữ liệu.
Thuật toán Birch (Balanced Iterative Reducing and Clustering using Hierarchies) thường được áp dụng cho các tập dữ liệu lớn, cho phép lưu trữ các đại lượng thống kê thay vì toàn bộ đối tượng dữ liệu trong bộ nhớ Thuật toán giới thiệu hai khái niệm quan trọng: cụm đặc trưng, được định nghĩa là một bộ ba (n, LS, SS), trong đó n là số điểm trong cụm, LS là tổng số giá trị thuộc tính, và cây phân cụm đặc trưng (cây CF), là cấu trúc cây cân bằng dùng để lưu trữ và mô tả các cụm tóm tắt.
SS là tổng bình phương của các điểm dữ liệu, trong khi cây CF là cấu trúc cân bằng lưu trữ bộ ba này Các đại lượng thống kê chuẩn, như độ đo khoảng cách, có thể được xác định từ cây CF Hình 2.6 minh họa một ví dụ về cây CF, cho thấy rằng tất cả các nút trong cây lưu trữ tổng các đặc trưng của cụm CF, trong khi các nút lá lưu trữ đặc trưng của các cụm dữ liệu.
Hình 2.6: Cây CF được sử dụng bởi thuật toán BIRCH
Cây CF bao gồm các nút trong và nút lá, trong đó nút trong chứa các nút con, còn nút lá không có nút con Nút trong lưu trữ tổng hợp các đặc trưng cụm (CF) của các nút con Đặc điểm của cây CF được xác định bởi hai tham số chính.
Yếu tố nhánh (Branching Factor - B): Nhằm xác định số tối đa các nút con của một nút lá trong của cây, và
Ngưỡng (Threshold - T) là khoảng cách tối đa giữa bất kỳ cặp đối tượng nào trong nút lá của cây Khoảng cách này được gọi là đường kính của các cụm con được lưu trữ tại các nút lá.
Hai tham số này có ảnh hưởng đến kích thước của cây CF Thuật toán BIRCH thực hiện nhƣ sau:
Thuật toán BIRCH thực hiện qua các bước cơ bản như sau:
1 Các đối tƣợng dữ liệu lần lƣợt đƣợc chèn vào cây CF, sau khi chèn hết các đối tƣợng thì thu đƣợc cây CF khởi tạo Một đối tƣợng được chèn vào nút lá gần nhất tạo thành cụm con Nếu đường kính của cụm con này lớn hơn T thì nút lá đƣợc tách ra Khi một đối tƣợng thích hợp đƣợc chèn vào nút lá, tất cả các nút trỏ tới gốc của cây đƣợc cập nhật với các thông tin cần thiết
2 Nếu cây CF hiện thời không có đủ bộ nhớ trong khi tiến hành xây dựng một cây CF nhỏ hơn: kích thước của cây CF được điều khiển bởi tham số T và vì vậy việc chọn một giá trị lớn hơn cho nó sẽ hòa nhập một số cụm con thành một cụm, điều này làm cho cây
CF nhỏ hơn Bước này không cần yêu cầu đọc dữ liệu lại từ đầu nhƣng vẫn đảm bảo hiệu chỉnh cây dữ liệu nhỏ hơn
3 Thực hiện phân cụm: các nút lá cây CF lưu trữ các đại lượng thống kê của các cụm con Trong bước này, BIRCH sử dụng các đại lƣợng thống kê này để áp dụng một số kỹ thuật phân cụm, ví dụ nhƣ k-means và tạo ra một khởi tạo cho phân cụm
4 Phân phối lại các đối tƣợng dữ liệu bằng cách dùng các đối tượng trọng tâm cho các cụm được khám phá từ bước 3: đây là một bước tùy chọn để duyệt lại tập dữ liệu và gán lại nhãn cho các đối tượng dữ liệu tới các trọng tâm gần nhất Bước này nhằm để gán nhãn cho các dữ liệu khởi tạo và loại bỏ các đối tƣợng ngoại lai
BIRCH, với cấu trúc cây CF, cho phép phân cụm dữ liệu nhanh chóng và hiệu quả cho các tập dữ liệu lớn và có sự tăng trưởng theo thời gian Độ phức tạp tính toán của BIRCH là tuyến tính, với thời gian thực hiện khoảng O(n), chỉ cần quét dữ liệu một lần và thực hiện một lần phân cụm lại tùy chọn Mặc dù BIRCH có khả năng kết hợp các cụm gần nhau và xây dựng lại cây CF, mỗi nút trong cây CF chỉ lưu trữ một số lượng hữu hạn Tuy nhiên, thuật toán này gặp khó khăn khi xử lý các cụm không có hình dạng cầu, do nó sử dụng khái niệm bán kính hoặc đường kính để xác định ranh giới các cụm BIRCH hoạt động tốt với dữ liệu số khi sử dụng khoảng cách Euclide, nhưng tham số T có ảnh hưởng lớn đến kích thước và tính tự nhiên của các cụm Việc sắp xếp dữ liệu có thể dẫn đến việc các đối tượng của cụm bị ảnh hưởng bởi các cụm khác, và BIRCH không thích hợp cho dữ liệu đa chiều.
Thuật toán CURE (Clustering Using REpresentatives) giải quyết vấn đề phân cụm không hiệu quả khi có các phần tử ngoại lai bằng cách sử dụng các điểm đại diện nằm rải rác trong không gian dữ liệu Các điểm này được chọn để mô tả các cụm và được tạo ra bằng cách lựa chọn các đối tượng phân tán trước, sau đó "co lại" về trung tâm cụm Quá trình này lặp lại, cho phép đo lường tỉ lệ gia tăng của các cụm Trong mỗi bước, hai cụm có các điểm đại diện gần nhau sẽ được hòa nhập, cải thiện khả năng phân loại và xử lý các ngoại lệ.
Hình 2.8: Khái quát thuật toán CURE
Thuật toán CURE cho phép khám phá các cụm có hình dạng không phải hình cầu thông qua việc đại diện nhiều điểm cho mỗi cụm Việc co lại các cụm giúp giảm thiểu ảnh hưởng của các phần tử ngoại lai, cho thấy khả năng xử lý tốt trong trường hợp có những yếu tố này CURE cũng hiệu quả với các hình dạng và kích thước khác nhau, đồng thời tỉ lệ tốt với cơ sở dữ liệu lớn mà không làm giảm chất lượng phân cụm Hình 2.9 dưới đây minh họa quá trình xử lý của CURE.
Phương pháp phân cụm dựa trên mật độ
Kỹ thuật phân cụm dựa trên mật độ xác định các đối tượng dữ liệu thông qua hàm mật độ, trong đó mật độ được xác định bởi số lượng đối tượng lân cận trong một ngưỡng cụ thể Khi một đối tượng dữ liệu đã được xác định, nó có thể phát triển thêm các đối tượng mới miễn là số lượng lân cận vượt qua ngưỡng đã định Phương pháp này cho phép phát hiện các cụm dữ liệu với hình dạng đa dạng và có khả năng xử lý tốt các phần tử ngoại lai hoặc nhiễu Tuy nhiên, việc xác định các tham số mật độ cho thuật toán là thách thức lớn, vì chúng ảnh hưởng đáng kể đến kết quả phân cụm.
Thuật toán DBSCAN là phương pháp phân cụm dựa trên mật độ, giúp phát hiện các cụm có hình dạng bất kỳ trong không gian dữ liệu, ngay cả khi có nhiễu.
Nó định nghĩa cụm là tập tối đa các điểm liên thông mật độ
Phân cụm dựa trên mật độ là phương pháp xác định các đối tượng liên thông có mật độ cao, trong đó những đối tượng không thuộc cụm được coi là nhiễu Thuật toán DBSCAN hoạt động bằng cách kiểm tra số lượng đối tượng láng giềng, yêu cầu mỗi cụm phải có ít nhất MinPts đối tượng Để xác định sự tồn tại của một cụm, mỗi đối tượng trong cụm cần có ít nhất một đối tượng khác trong cùng cụm với khoảng cách nhỏ hơn ngưỡng Eps.
DBSCAN tìm tất cả các đối tượng mà các láng giềng của nó thuộc về lớp đã xác định, tạo thành một cụm được xác định bởi tập hợp các đối tượng liên thông mật độ Thuật toán lặp lại quá trình tìm kiếm khi các đối tượng liên lạc mật độ từ các đối tượng trung tâm, có thể dẫn đến việc kết hợp nhiều cụm có mật độ liên lạc Quá trình này kết thúc khi không còn điểm mới nào có thể được thêm vào bất kỳ cụm nào.
DBSCAN là một thuật toán phân cụm mạnh mẽ, có khả năng phát hiện các cụm với hình dạng bất kỳ và ít bị ảnh hưởng bởi thứ tự của dữ liệu đầu vào Thuật toán này hoạt động bằng cách sử dụng hai tham số quan trọng: Eps và MinPts, để kiểm soát mật độ của các cụm DBSCAN khởi đầu với một điểm ngẫu nhiên và xây dựng mật độ láng giềng dựa trên các tham số này Tuy nhiên, việc xác định giá trị tối ưu cho Eps và MinPts thường gặp khó khăn, thường phải dựa vào kinh nghiệm hoặc chọn ngẫu nhiên Độ phức tạp tính toán của DBSCAN là O(n²), nhưng có thể được cải thiện xuống O(nlogn) nếu áp dụng các chỉ số không gian để xác định láng giềng Thuật toán này rất hữu ích cho các tập dữ liệu lớn đa chiều, mặc dù khoảng cách Euclide được sử dụng để đo sự tương tự giữa các đối tượng nhưng không hiệu quả cho dữ liệu đa chiều.
Hình 2.12: Hình dạng các cụm khi áp dụng thuật toán DBSCAN
Trong bài viết này, chúng ta sẽ tìm hiểu về khái niệm lân cận với ngưỡng Eps tại một điểm p, được ký hiệu là N Eps (p) Cụ thể, N Eps (p) được định nghĩa là tập hợp các điểm q thuộc tập dữ liệu D, trong đó khoảng cách giữa p và q không vượt quá Eps, tức là N Eps (p) = {q ∈ D | dist(p, q) ≤ Eps}.
Để một điểm p nằm trong cụm C, cần có ít nhất MinPts điểm trong vùng N Eps (p) Việc xác định số điểm tối thiểu này là một thách thức, vì nếu MinPts quá lớn, chỉ những điểm thực sự trong cụm mới đủ tiêu chuẩn, trong khi các điểm ở rìa không thể đáp ứng yêu cầu Ngược lại, nếu MinPts quá nhỏ, mọi điểm sẽ bị gộp vào cùng một cụm.
Theo định nghĩa, chỉ những điểm thực sự nằm trong cụm mới được coi là điểm thuộc vào cụm, trong khi các điểm ở biên không thỏa mãn điều kiện này Điều này xảy ra vì lân cận với ngưỡng Eps của điểm biên thường ít hơn so với lân cận của điểm nhân Để giải quyết vấn đề này, có thể đưa ra tiêu chuẩn mới: một điểm p thuộc vào cụm C nếu tồn tại một điểm q sao cho p nằm trong N Eps (q) và số điểm trong N Eps (q) lớn hơn số điểm tối thiểu Điều này dẫn đến ba phép đo để mô tả thuộc tính của các điểm dữ liệu: mật độ liên lạc trực tiếp, mật độ liên lạc, và mật độ liên thông.
Một điểm p đƣợc gọi là liên lạc trực tiếp từ điểm q với ngƣỡng Eps nếu:
2 ||NEsp(q)|| ≥ MinPts (điều kiện nhân), điểm q gọi là điểm nhân
Liên lạc trực tiếp thể hiện tính phản xạ và đối xứng giữa hai điểm nhân, trong khi nếu một trong hai điểm không phải là điểm nhân, tính đối xứng sẽ không còn Định nghĩa 3 đề cập đến mật độ liên lạc, một khái niệm quan trọng trong việc phân tích mối quan hệ giữa các điểm.
Một điểm p được xem là có thể liên lạc từ một điểm q nếu tồn tại một chuỗi các điểm p = p1, p2, , pn = q, trong đó mỗi điểm pi+1 có thể liên lạc trực tiếp với điểm pi với i từ 1 đến n-1, và điều này được xác định bởi các tham số Eps và MinPts.
Hai điểm biên trong một cụm C có thể không liên lạc với nhau nếu cả hai không thỏa mãn điều kiện nhân Định nghĩa 4 liên quan đến mật độ liên thông.
Điểm p được xem là liên thông với điểm q dựa trên tham số Eps và MinPts khi có tồn tại một điểm O mà cả hai điểm p và q đều có thể kết nối thông qua các tham số này Tính chất của mật độ liên thông là đối xứng và phản xạ.
H ình 2.13: Mật độ liên lạc và mật độ liên thông Định nghĩa 5: Cụm
Giả sử D là một tập hợp các điểm dữ liệu, một tập con C không rỗng của D được gọi là một cụm nếu nó thỏa mãn hai điều kiện dựa trên các tham số Eps và MinPts.
1 Với mọi p, q D, nếu p C và q có thể liên lạc đƣợc từ p theo Eps và MinPts thì q C
2 Với mọi p, q C, p liên thông với q theo Eps và MinPts Định nghĩa 6: Nhiễu
Trong tập dữ liệu D, các cụm C1, C2, , Ck được xác định dựa trên tham số Eps và MinPts Điểm dữ liệu nhiễu được định nghĩa là những điểm không thuộc vào bất kỳ cụm nào, tức là N = {p | với mọi i = 1, ,k, p không thuộc Ci}.
Với hai tham số Eps và MinPts cho trước, có thể khám phá các cụm theo hai bước:
- Bước 1: Chọn một điểm bất kỳ từ tập dữ liệu ban đầu thỏa mãn điều kiện nhân
- Bước 2: Lấy tất cả các điểm liên lạc với điểm nhân đã chọn để tạo thành cụm
Bổ đề 1: Giả sử p là một điểm trong D, ||NEps(p)|| ≥ MinPts, tập O {o | o D và o có thể liên lạc từ p theo Eps và MinPts} là một cụm theo Eps và MinPts
Cụm C không phải là duy nhất, nhưng mỗi điểm trong C đều có khả năng liên lạc với bất kỳ điểm nhân nào trong cụm, do đó, C chứa một số điểm liên thông với điểm nhân tùy ý.
Phương pháp phân cụm dựa trên mô hình
Phương pháp phân cụm dựa trên mô hình nhằm khám phá các phép xấp xỉ tốt của các tham số mô hình để khớp với dữ liệu hiệu quả Các chiến lược phân cụm có thể là phân hoạch hoặc phân cấp, tùy thuộc vào giả định về cấu trúc dữ liệu Phương pháp này cố gắng kết hợp dữ liệu với các mô hình toán học, giả định rằng dữ liệu được sinh ra từ hỗn hợp phân phối xác suất cơ bản Có hai cách tiếp cận chính trong phân cụm dựa trên mô hình: mô hình thống kê và mạng nơron Phương pháp này tương tự như phân cụm dựa trên mật độ, phát triển các cụm riêng biệt để cải tiến mô hình đã xác định, nhưng không nhất thiết phải bắt đầu với số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm.
Thuật toán EM là một phương pháp dựa trên mô hình, mở rộng từ thuật toán k-means, gán các đối tượng vào các cụm theo xác suất phân phối Phân phối Gaussian thường được sử dụng để tối ưu hóa tham số thông qua hàm logarit khả năng, giúp mô hình hóa xác suất cho dữ liệu Mặc dù EM có khả năng phát hiện nhiều hình dạng cụm khác nhau, nhưng thời gian lặp lâu để xác định tham số tốt dẫn đến chi phí tính toán cao Một số cải tiến cho EM đã được đề xuất dựa trên các đặc tính của dữ liệu, bao gồm việc nén, sao lưu trong bộ nhớ và hủy bỏ Các đối tượng sẽ bị hủy bỏ khi có nhãn phân cụm chắc chắn, được nén khi thuộc về cụm quá lớn và được lưu lại trong các trường hợp khác.
Thuật toán được chia thành hai bước và quá trình đó được lặp lại cho đến khi vấn đề đƣợc giải quyết:
Thuật toán đƣợc biểu diễn chi tiết nhƣ sau:
4 Lặp lại bước 2 và 3 cho đến khi đạt được kết quả
COBWEB là một phương pháp biểu diễn dữ liệu theo cặp thuộc tính-giá trị, tạo ra cây phân lớp tương tự như BIRCH nhưng với cấu trúc khác Mỗi nút trong cây phân lớp đại diện cho một khái niệm dữ liệu, với tất cả các điểm dưới nút đó cùng thuộc về một nhóm COBWEB sử dụng công cụ phân loại để quản lý cấu trúc cây, từ đó hình thành các cụm dựa trên độ tương tự giữa các đối tượng Cấu trúc cây có thể được hợp nhất hoặc phân tách khi thêm nút mới Hai phương pháp cải tiến cho COBWEB là CLASSIT và AutoClass.
Thuật toán này tạo ra một cây phân lớp theo thứ tự tăng dần bằng cách chèn các đối tượng từng bước Mỗi khi một đối tượng mới được chèn vào, thuật toán sẽ duyệt toàn bộ cây từ gốc xuống dưới.
Thuật toán đƣợc trình bày nhƣ sau:
1 Khởi tạo cây bắt đầu là một nút trống
2 Sau đó thêm vào từng nút một và cập nhập lại cây cho phù hợp tại mỗi thời điểm
3 Cập nhập cây bắt đầu từ lá bên phải trong mỗi trường hợp, sau đó cấu trúc lại cây
4 Quyết định cập nhập dựa trên sự phân hoạch và các hàm tiêu chuẩn phân loại.
Giải thuật COBWEB tại mỗi nút sẽ xem xét bốn khả năng: Insert, Create, Merge và Split, và lựa chọn khả năng có hàm giá trị CU tốt nhất cho quá trình.
ỨNG DỤNG CÁC THUẬT TOÁN PHÂN CỤM VỚI DỮ LIỆU NGÀNH BẢO HIỂM XÃ HỘI
Những khái niệm chung về Bảo hiểm xã hội
Người lao động sẽ trích một phần tiền lương hoặc tiền công của mình để đóng vào quỹ BHXH, nhằm nhận được khoản trợ cấp một lần hoặc hàng tháng, tùy thuộc vào từng trường hợp cụ thể trong quá trình tham gia BHXH.
Hiện nay, mức đóng bảo hiểm xã hội (BHXH) là 20% trên tiền lương và tiền công hàng tháng của người lao động Trong đó, người lao động đóng 5% và người sử dụng lao động đóng 15%.
Tỷ lệ đóng BHXH sẽ được Nhà nước điều chỉnh tăng lên theo từng giai đoạn trong tương lai (quy định trong Luật BHXH), cụ thể như sau:
+ Từ năm 2010 là 22% (trong đó người lao động đóng 6% và người chủ sử dụng lao động đóng 16%)
+ Từ năm 2012 là 24% (trong đó người lao động đóng 7% và người chủ sử dụng lao động đóng 17%)
+ Từ năm 2014 trở đi là 26% (trong đó người lao động đóng 8% và người chủ sử dụng lao động đóng 18%)
Phân cấp tổ chức của Cơ quan BHXH hiện nay nhƣ sau:
+ BHXH Việt Nam: cơ quan quản lý toàn quốc về BHXH, BHYT Chịu trách nhiệm hoàn toàn trước Thủ tướng chính phủ
BHXH các tỉnh, thành phố là cơ quan quản lý các vấn đề liên quan đến bảo hiểm xã hội (BHXH) và bảo hiểm y tế (BHYT) tại cấp tỉnh, thành phố Các cơ quan này hoạt động dưới sự chỉ đạo và quản lý của Cơ quan BHXH Việt Nam.
BHXH huyện, thị là cơ quan quản lý các vấn đề liên quan đến bảo hiểm xã hội (BHXH) và bảo hiểm y tế (BHYT) tại cấp huyện, thị Cơ quan này chịu trách nhiệm và được quản lý bởi cơ quan BHXH cấp tỉnh, thành phố tương ứng.
Hiện nay bảo hiểm xã hội Việt Nam đang thực hiện các chế độ bảo hiểm xã hội đƣợc chia thành 2 nhóm chính nhƣ sau: a Chế độ ngắn hạn
Các chế độ BHXH ngắn hạn cho phép người lao động hưởng nhiều lần trong suốt quá trình tham gia bảo hiểm xã hội Trong thời gian nhận các chế độ này, người lao động vẫn tiếp tục đóng BHXH, đảm bảo quyền lợi lâu dài của mình.
Trong chế độ ốm đau, người lao động có thể trải qua nhiều lần ốm trong suốt quá trình tham gia bảo hiểm xã hội (BHXH) và được hưởng chế độ ốm đau tương ứng Trong thời gian nhận chế độ ốm đau, người lao động vẫn tiếp tục tham gia BHXH.
Chế độ BHXH ngắn hạn bao gồm các chế độ sau:
Chế độ dưỡng sức bao gồm chế độ BHXH một lần và hàng tháng Người lao động chỉ được hưởng chế độ này một lần trong toàn bộ thời gian tham gia BHXH Đối với chế độ tai nạn lao động và bệnh nghề nghiệp, người lao động có quyền tiếp tục tham gia BHXH hoặc ngừng tham gia Tuy nhiên, với các chế độ khác, khi người lao động hưởng một trong các chế độ này, họ bắt buộc phải ngừng tham gia BHXH.
Khi nhận chế độ BHXH một lần, người lao động chỉ nhận trợ cấp duy nhất một lần Ngược lại, khi hưởng các chế độ BHXH hàng tháng, người lao động sẽ nhận tiền trợ cấp đều đặn mỗi tháng.
Khi người lao động nhận chế độ hưu trí, điều này có nghĩa là họ không còn tham gia vào bảo hiểm xã hội (BHXH) nữa và chỉ được hưởng chế độ này một lần duy nhất.
Chế độ BHXH một lần và hàng tháng bao gồm các chế độ sau:
+ Trợ cấp BHXH một lần
+ Chế độ tai nạn lao động
+ Chế độ bệnh nghề nghiệp
Người lao động đủ điều kiện hưởng chế độ BHXH có thể nhận trợ cấp một lần nếu không đủ điều kiện nhận chế độ hàng tháng Cụ thể, trong trường hợp tai nạn lao động, nếu mức suy giảm khả năng lao động dưới 35%, người lao động chỉ nhận trợ cấp một lần Ngược lại, nếu mức suy giảm từ 35% trở lên, họ sẽ được hưởng chế độ BHXH hàng tháng.
Hiện tại, hình thức tham gia bảo hiểm xã hội (BHXH) duy nhất là BHXH bắt buộc Các nội dung và vấn đề liên quan đến hình thức này được quy định chi tiết trong Luật bảo hiểm xã hội số 71/2006/QH11, ban hành ngày 29 tháng 06 năm 2006.
Vào năm 2006, Quốc hội nước Cộng hòa xã hội chủ nghĩa Việt Nam đã ban hành Nghị định số 152/2006/NĐ-CP ngày 22 tháng 12 năm 2006 của Chính phủ, cùng với Thông tư số 03/2007/TT-BLĐTBXH ngày 30 tháng 01 năm 2007 của Bộ Lao động - Thương binh và Xã hội.
Trong các văn bản quy định, rõ ràng xác định những người lao động phải tham gia BHXH bắt buộc, mức đóng góp BHXH cũng như các chế độ BHXH mà họ được hưởng trong quá trình tham gia Bên cạnh đó, cũng nêu rõ các điều kiện cần và đủ để người lao động có thể nhận các chế độ này.
Bài viết quy định các vấn đề liên quan đến Bảo hiểm xã hội (BHXH), bao gồm tổ chức bộ máy của các cơ quan BHXH, cơ chế tài chính áp dụng, chức năng và nhiệm vụ của các cơ quan BHXH các cấp, cũng như chế tài xử lý vi phạm luật BHXH.
Luật bảo hiểm xã hội đã đề cập đến việc phát triển hình thức tham gia BHXH tự nguyện và bảo hiểm thất nghiệp Dự kiến, hình thức tham gia BHXH tự nguyện sẽ được triển khai vào năm 2008, trong khi bảo hiểm thất nghiệp sẽ được áp dụng từ năm 2009.
Cơ sở dữ liệu bảo hiểm xã hội
Do đặc thù của ngành bảo hiểm xã hội, hiện nay dữ liệu của ngành đang đƣợc chia thành 2 nhóm chính nhƣ sau:
3.2.1 Cơ sở dữ liệu người đang tham gia BHXH, BHYT
Cơ sở dữ liệu này còn đƣợc gọi là cơ sở dữ liệu thu BHXH (tạo nguồn thu cho cơ quan BHXH)
Do tính phức tạp và quy mô dữ liệu, hiện tại chỉ một số tỉnh nhất định có cơ sở dữ liệu đầy đủ về người lao động tham gia BHXH và BHYT Các tỉnh còn lại vẫn chưa đủ khả năng và điều kiện để xây dựng hệ thống dữ liệu này Vì vậy, Cơ quan BHXH Việt Nam vẫn chưa có cơ sở dữ liệu toàn diện về người lao động đóng BHXH và người tham gia BHYT.
Dữ liệu loại này đƣợc chia làm 2 loại nhƣ sau:
+ Người lao động đồng thời tham gia cả BHXH và BHYT
+ Người chỉ tham gia BHYT
3.2.1.1 Dữ liệu người lao động đồng thời đóng cả BHXH và BHYT
Dữ liệu này chiếm tỷ lệ lớn trong cơ sở dữ liệu của ngành Bảo hiểm xã hội (BHXH), với khoảng 8 triệu người lao động tham gia cả BHXH và Bảo hiểm y tế (BHYT) tính đến hết quý 2 năm 2007 Dữ liệu được phân chia thành hai phần chính, trong đó phần thông tin quá khứ của người lao động là một yếu tố quan trọng.
Lưu trữ quá trình công tác của người lao động là rất quan trọng, bao gồm các thay đổi về mức đóng BHXH, BHYT và nơi làm việc Thông tin này cần được ghi nhận từ thời điểm người lao động bắt đầu tham gia BHXH cho đến hiện tại, nhằm theo dõi tất cả những thay đổi trong quá trình làm việc của họ.
Lưu thông tin về tình trạng hiện tại của người lao động: làm ở đơn vị nào, nghề nghiệp, chức vụ gì, mức lương hàng tháng,…
Việc chia thông tin của người lao động thành hai phần là cần thiết để quản lý hiệu quả từ khi họ bắt đầu tham gia BHXH cho đến khi không còn tham gia nữa Thông tin này cần được lưu trữ trong thời gian dài, có thể lên đến hàng chục năm, với phần thông tin trước hầu như không thay đổi, trong khi phần thông tin hiện tại có thể thay đổi thường xuyên Do đó, việc tách biệt thông tin giúp việc quản lý trở nên dễ dàng hơn.
Tính phức tạp của dữ liệu BHXH nằm ở việc lưu trữ toàn bộ thông tin của người lao động từ khi bắt đầu tham gia cho đến khi họ không còn tham gia nữa Điều này bao gồm việc ghi nhận thông tin liên quan đến chế độ BHXH mà họ hưởng hàng tháng, cho đến khi họ qua đời.
Trong quá trình tham gia bảo hiểm xã hội (BHXH), người lao động có thể nhận các chế độ BHXH ngắn hạn hoặc dài hạn Việc xét hưởng chế độ BHXH của người lao động dựa trên thời gian tham gia BHXH Nếu không đủ điều kiện để nhận các chế độ BHXH hàng tháng, họ sẽ được hưởng các chế độ BHXH ngắn hạn hoặc một lần.
3.2.1.2 Dữ liệu người chỉ tham gia BHYT
Tính đến quý 2 năm 2007, BHXH Việt Nam quản lý gần 40 triệu người tham gia BHYT, bao gồm cả BHYT bắt buộc và tự nguyện Mặc dù số lượng lớn, nhưng dữ liệu của nhóm chỉ tham gia BHYT lại chiếm dung lượng lưu trữ nhỏ hơn do thông tin đơn giản hơn so với người lao động tham gia cả BHXH và BHYT Cơ sở dữ liệu của người tham gia BHYT chỉ chứa thông tin hiện tại mà không lưu trữ thông tin quá khứ, dẫn đến dung lượng nhỏ hơn so với cơ sở dữ liệu của những người tham gia đồng thời cả hai loại bảo hiểm.
Bao gồm những loại đối tƣợng sau: a Người tham gia BHYT bắt buộc
+ Những người đang hưởng các chế độ BHXH hàng tháng
+ Đại biểu hội đồng nhân dân các cấp
+ Một số khác: nạn nhân chất độc màu da cam, người có công,…
Mức đóng hàng tháng cho bảo hiểm y tế (BHYT) tự nguyện được tính bằng 3% của mức lương tối thiểu hiện hành Số tiền này được trích từ ngân sách nhà nước và chuyển vào quỹ bảo hiểm xã hội (BHXH), do đó người tham gia không cần phải đóng thêm phí.
Hộ gia đình, thành viên các tổ chức, hội, đoàn thể có thể tham gia bảo hiểm y tế (BHYT) tự nguyện với mức đóng cố định theo năm, khác với BHYT bắt buộc tính theo tháng Mỗi đối tượng tham gia như học sinh, sinh viên, hộ gia đình hay các tổ chức sẽ có mức đóng khác nhau, và số tiền này do người tham gia tự chi trả.
Dữ liệu này có tính chất xã hội đặc trưng, dẫn đến sự thay đổi ít về số lượng và thông tin liên quan Thông thường, dữ liệu được phát sinh theo chu kỳ hàng năm.
Hàng năm, để xác định người nghèo, Sở Lao động Thương binh và Xã hội các tỉnh, thành phố lập danh sách gửi đến cơ quan Bảo hiểm xã hội (BHXH) cùng cấp Cơ quan BHXH sẽ in thẻ Bảo hiểm y tế (BHYT) dựa trên danh sách này và chuyển lại cho Sở Lao động Thương binh và Xã hội để phát cho người tham gia Quy trình này thường diễn ra vào khoảng tháng 11 hoặc tháng 12 hàng năm.
Học sinh và sinh viên cần mua bảo hiểm y tế (BHYT) để đảm bảo quyền lợi sức khỏe Các trường học sẽ lập danh sách học sinh tham gia BHYT và gửi cho cơ quan bảo hiểm xã hội (BHXH) Cơ quan BHXH sẽ in thẻ BHYT và chuyển lại cho các trường để phát cho học sinh, sinh viên Quy trình này diễn ra hàng năm vào khoảng tháng 7 hoặc tháng 8, nhằm chuẩn bị cho năm học mới.
+ Các loại khác cũng được thực hiện tương tự,…
Dữ liệu tham gia bảo hiểm y tế (BHYT) của những người đang hưởng chế độ bảo hiểm xã hội (BHXH) hàng tháng sẽ được cập nhật khi có sự thay đổi Khi có thêm một người được hưởng chế độ BHXH hàng tháng, cơ quan BHXH cần nhanh chóng in thẻ BHYT cho người đó.
3.2.2 Cơ sở dữ liệu người đang hưởng các chế độ BHXH hàng tháng
Cơ sở dữ liệu chi BHXH, do BHXH quản lý, hiện đang theo dõi hơn 2 triệu người hưởng chế độ BHXH hàng tháng.
Có 2 loại dữ liệu của người hưởng các chế độ BHXH hàng tháng:
Cơ sở dữ liệu của người lao động sau khi ngừng tham gia BHXH chứa thông tin quan trọng về việc chuyển sang hưởng các chế độ BHXH hàng tháng Tuy nhiên, không phải mọi người lao động đều đủ điều kiện để nhận các chế độ này; họ cần phải đáp ứng các tiêu chí như thời gian công tác, điều kiện làm việc và tuổi đời Thông tin này được thu thập từ cơ sở dữ liệu BHXH, và dựa trên toàn bộ quá trình công tác, mức lương tham gia BHXH, cũng như thời gian làm việc, chúng ta có thể xác định mức hưởng BHXH hàng tháng cho từng người lao động.
Áp dụng các thuật toán phân cụm vào cơ sở dữ liệu của ngành bảo hiểm xã hội
Hiện nay, mức hưởng hàng tháng của người lao động sau khi nghỉ việc phụ thuộc vào điều kiện công tác và tuổi đời Các chính sách BHXH của Nhà nước đã có nhiều thay đổi qua từng thời kỳ, dẫn đến sự chênh lệch đáng kể trong mức hưởng giữa những người lao động có điều kiện tương tự Mặc dù Nhà nước đã thực hiện nhiều lần điều chỉnh từ năm 2004 đến 2007 nhằm đồng nhất mức hưởng cho những người lao động có điều kiện làm việc và tuổi đời gần giống nhau, nhưng vẫn còn tồn tại sự khác biệt trong mức hưởng hàng tháng.
Gần đây, các điều chỉnh trong Luật bảo hiểm xã hội bắt buộc đã được thực hiện nhằm thu hẹp khoảng cách về mức hưởng hàng tháng giữa những người đang nhận các chế độ BHXH Những thay đổi này, bao gồm các số liệu 204, 205, 93, và 94, hướng tới việc nâng cao quyền lợi cho người lao động và đảm bảo công bằng trong hệ thống bảo hiểm xã hội.
Lấy một ví dụ về điều chỉnh mức hưởng hàng tháng của những người hiện đang hưởng các chế độ BHXH hàng tháng: Nghị định số 93/2006/NĐ-
Vào ngày 07 tháng 09 năm 2006, Chính phủ đã ban hành nghị định điều chỉnh lương hưu và trợ cấp BHXH, trong đó quy định mức điều chỉnh cho những người hưởng chế độ BHXH hàng tháng được phân thành 4 loại Cụ thể, những người có lương cao sẽ nhận mức điều chỉnh thấp hơn, trong khi những người có lương thấp sẽ được điều chỉnh nhiều hơn.
+ Tăng 10% mức hưởng hàng tháng đối với những người khi về hưu có mức lương dưới 3.99
+ Tăng 8% mức hưởng hàng tháng đối với những người khi về hưu có mức lương từ 3.99 đến dưới 6.92
+ Tăng 6% mức hưởng hàng tháng đối với những người khi về hưu có mức lương từ 6.92 đến dưới 7.64
+ Tăng 4% mức hưởng hàng tháng đối với những người khi về hưu có mức lương từ 7.64 trở lên
Theo Nghị định, Nhà nước đang thực hiện các điều chỉnh nhằm thu hẹp khoảng cách giữa mức hưởng của người nhận chế độ BHXH hàng tháng Cụ thể, những người có mức lương cao sẽ được điều chỉnh ít hơn, trong khi những người có lương thấp sẽ nhận được mức điều chỉnh nhiều hơn.
Chúng tôi sẽ nhóm các loại mức hưởng theo từng chế độ, từ đó tiến hành phân tích và đánh giá để đưa ra kết luận và phương hướng thực hiện trong tương lai, nhằm giải quyết hiệu quả vấn đề này.
Phương pháp thực hiện sử dụng thuật toán phân cụm dữ liệu để nhóm các loại chế độ hưởng khác nhau, từ đó xác định mức hưởng trung bình cho từng nhóm Dựa trên các kết quả này, chúng ta có thể đề xuất các phương hướng điều chỉnh nhằm giảm thiểu sự chênh lệch trong mức hưởng hàng tháng của người hưởng các chế độ.
3.3.3 Chương trình mô phỏng thuật toán PCDL K-means Áp dụng thuật toán Kmeans với dữ liệu đối tượng hưởng BHXH hàng tháng của ngành BHXH
Chương trình mô phỏng thuật toán phân cụm dữ liệu K-means với dữ liệu đối tượng hưởng BHXH hàng tháng của ngành BHXH
Hình 3.1: Chương trình mô phỏng thuật toán PCDL Đưa các thông tin cho chương trình:
- Đường dẫn đến CƠ Sở Dữ LIệU đối tượng hưởng BHXH hàng tháng
- Trung tâm khởi tạo ban đầu của từng cụm
Ví dụ có thể đưa thông tin đầu vào cho chương trình như sau:
Hình 3.2: Khởi tạo các thông số cho chương trình
Sau khi thực hiện, chương trình cho kết quả như sau:
Hình 3.3: Kết quả thực hiện thuật toán