Vấn đề đối với phân cụm dữ liệu đã luôn được tìm hiểu rộng rãi trong giới datamining ( đào dữ liệu ) cũng như machine learning vì những ứng dụng của dữ liệu trong việc tổng hợp, học, phân cụm và cũng như là marketing hướng đối tượng. Trong một chu kì dữ liệu được coi như là một kho báu, việc thiếu sót đặt tên một cách khoa học khiến cho việc phân cụm dữ liệu được coi như là một mô hình ngắn gọn có thể hiểu dưới hai cách là tổng hợp hoặc là mô hình tự sinh. Vấn đề cơ bản của phân cụm có thể được hiểu như sau: Phân cụm là quá trình nhóm một tập các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tượng tự. Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau trong cùng một cụm và phi tương tự với các đối tượng trong cụm khác. Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nghiên cứu phương pháp phân cụm liệu để phân loại khách hàng Khoá Luận Tốt Nghiệp Đại Học Hệ Chính Quy Ngành: Cơng nghệ kỹ thuật Hà nội 05/2023 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Xuân Mạnh Nghiên cứu phương pháp phân cụm liệu để phân loại khách hàng Khố Luận Tốt Nghiệp Đại Học Hệ Chính Quy Ngành: Công nghệ kỹ thuật Cán hướng dẫn: Trần Cao Quyền Hà nội 05/2023 Tóm Tắt Tóm tắt: Vấn đề phân cụm liệu tìm hiểu rộng rãi giới datamining ( đào liệu ) machine learning ứng dụng liệu việc tổng hợp, học, phân cụm marketing hướng đối tượng Trong chu kì liệu coi kho báu, việc thiếu sót đặt tên cách khoa học khiến cho việc phân cụm liệu coi mơ hình ngắn gọn hiểu hai cách tổng hợp mơ hình tự sinh Vấn đề phân cụm hiểu sau: Phân cụm q trình nhóm tập đối tượng thực thể hay trừu tượng thành lớp đối tượng tượng tự Một cụm tập hợp đối tượng liệu mà phần tử tương tự cụm phi tương tự với đối tượng cụm khác Một cụm đối tượng liệu xem nhóm nhiều ứng dụng Từ khoá: Data Mining, Phân cụm liệu, Data clustering Mục Lục Chương 1: Tổng quan phân cụm liệu 1.1 Giới thiệu phân cụm liệu 1.2 Các yêu cầu phân cụm 1.3 Các loại liệu tìm hiểu phân cụm 1.4 Một số phương thức sử dụng phân cụm Chương 2: Các phương pháp phân cụm liệu 2.1 Mô hình phân cấp phân 2.1.1 Agglomerative clustering 2.1.1.1 Liên kết đơn hoàn thiện 2.1.1.2 Phương pháp gom cụm dạng trung bình nhóm 2.1.1.3 Ward’s Criterion 2.1.1.4 Thuật tốn phân cụm phân cấp theo nhóm 2.1.1.5 Cơng thức cập nhật độ khác biệt Lance-Williams 2.1.2 Phân cụm chia tổ 2.1.2.1 Một số vấn đề phân cụm chia tổ 2.1.2.2 Giải thuật phân chia phân cấp 2.1.2.3 Phân cụm dựa khung nhỏ 2.1.3 Các thuật toán phân cụm phân cấp khác 2.2 Mơ hình K-means 2.3 Mơ hình dựa mật độ 2.3.1 DBSCAN 2.3.2 DENCLUE Chương 3: Một số ứng dụng phân cụm liệu để phân loại khách hàng 3.1 Mô liệu khách hàng theo mơ hình phân cấp 3.2 Mơ liệu khách hàng theo mơ hình k-means Tài liệu tham khảo: ● ● ● ● ● [1] Data Clustering- Algorithms and Applications, pp 2-19 [2] Data Clustering- Algorithms and Applications, pp 89-92, pp.100-105,pp 111-116 [3] Partitional Clustering Algorithms, pp 2-10 [4] An Overview on Clustering Methods - Soni Madhulatha [5] Research on k-means Clustering Algorithm: An Improved k-means Clustering Algorithm, Shi Na ● [6] Efficient algorithms for agglomerative hierarchical clustering methods, William H E Day & Herbert Edelsbrunner ● [7] Data Mining and Knowledge Discovery Handbook Lời cam đoan Tơi xin cam đoan khóa luận cơng trình nghiên cứu riêng cá nhân tôi, không chép tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Nội dung lý thuyết khóa luận tơi có sử dụng số tài liệu tham khảo trình bày phần tài liệu tham khảo Các số liệu, chương trình phần mềm kết khóa luận trung thực chưa công bố công trình khác Chương 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU Ở chương tìm hiểu qua phân cụm liệu số phương pháp phân cụm liệu 1.1: Giới thiệu phân cụm liệu Phân cụm nhìn từ góc độ tự nhiên việc bình thường mà làm thực hàng ngày Khơng phân cụm cịn có ý nghĩa quan trọng người để phân loại thực thể khác sống Phân cụm sử dụng nhiều lĩnh vực nhận dạng mẫu, phân tích liệu, xử lý ảnh, nghiên cứu thị trường, Một số ứng dụng mà vấn đề việc phân cụm trở nên quan trọng kể đến như: ● ● Bước trung gian cho vấn đề khai thác liệu khác: phân cụm coi dạng tổng hợp liệu, nên thường coi bước trung gian quan trọng cho nhiều vấn đề liên quan đến đào liệu việc phân class hay phân tích ngoại lệ Việc tổng hợp liệu đặc biệt liệu phức tạp cách ngắn gọn thường có ích cho ứng dụng liên quan đến chun ngành.[1] Sàng lọc kết hợp: phương pháp lọc kết hợp, phân cụm cung cấp tổng hợp người dùng tương tự Các đánh giá cung cấp từ người dùng khác ● ● ● ● sử dụng cho phương pháp lọc Thường ứng dụng để cung cấp lời khuyên ( recommendations ) cho nhiều ứng dụng khác nhau.[1] Phân chia khách hàng: Ứng dụng giống với phương pháp lọc tên, ứng dụng chia khách hàng giống thành nhóm dựa liệu người dùng riêng biệt Điểm khác lớn việc phân cụm khách hàng sàng lọc liệu sử dụng cho việc phân cụm khách hàng liệu mà sử dụng để phân biệt người dùng khác không đánh giá sơ bộ.[1] Tổng hợp liệu: nhiều phương pháp phân cụm có mối quan hệ mật thiết với phương pháp giảm chiều liệu Những phương pháp coi dạng tổng hợp liệu Và việc tổng hợp thường có nhiều ứng dụng hữu ích nhiều việc ví dụ tạo liệu đại diện, [4] Nhận diện xu hướng linh hoạt: nhiều dạng thuật toán linh hoạt dòng sử dụng để nhận diện xu hướng rộng rãi ứng dụng liên quan đến mạng xã hội Trong ứng dụng này, liệu phân cụm cách linh hoạt theo dạng luồng sử dụng để xác định thay đổi theo quy luật định Ví dụ luồng liệu dạng liệu đa chiều, luồng chữ, liệu luồng thời gian, hay định hướng Những xu hướng kiện quan trọng xác định nhờ phương pháp phân cụm [1] Phân tích liệu đa phương tiện: nhiều dạng tài liệu ảnh, đoạn phim, âm rơi vào loại liệu đa phương tiện Việc xác định phân đoạn tương tự áp dụng vào nhiều thứ, ví dụ việc xác định phân mảnh nhạc hay ảnh tương tự Trong nhiều trường hợp liệu dạng đa thức chứa nhiều loại liệu khác nhau, lúc vấn đề trở nên phức tạp khó xử lý nhiều [4] Ngồi ứng dụng việc phân tích liệu mạng xã hội hay sinh học áp dụng rộng rãi thời điểm Tuy ứng dụng đề cập đến bên khơng phải tất sử dụng thời điểm song chúng thể đa dạng ứng dụng mà việc phân cụm liệu sử dụng xã hội Việc phân cụm liệu thương rơi vào số hạng mục sau [1] ● Technique-centered ( tập trung vào kỹ thuật ): việc phân cụm vấn đề biết đến rộng rãi, nên việc có tồn nhiều phương thức kỹ thuật xác suất, kỹ thuật dựa vào khoảng cách, kỹ thuật dựa vào mật độ, hay kĩ thuật dựa giảm chiều liệu, Đã sử dụng trình phân cụm Mỗi kỹ thuật có lợi bất lợi riêng chúng sử dụng tốt vài tình hay miền vấn đề khác Những loại liệu liệu chiều cao, big data, hay luồng liệu có vấn đề trở ngại riêng yêu cầu kỹ thuật chuyên biệt ● Data-Type Centered ( tập trung vào loại liệu ): ứng dụng khác tạo nhiều loại liệu khác với đặc điểm khác Bản chất liệu ảnh hướng nhiều đến việc lựa chọn phương pháp trình phân vùng Hơn số loại liệu khó xử lý thuộc tính chúng ● Additional Insights from clustering variation ( quan niệm biến thể phân cụm ): số thông tin loại phân cụm khác ví dụ như: visual analysis, supervised analysis, ensemble analysis hay multiview analysis sử dụng để lấy thêm thông tin Hơn vấn đề thẩm định phân cụm quan trọng với góc nhìn để lấy thêm thơng tin hiệu suất phân cụm 1.2 Các yêu cầu phân cụm ● Có khả mở rộng: Nhiều thuật tốn phân cụm làm việc tốt với tập liệu nhỏ chứa 200 đối tượng, nhiên, sở liệu lớn chứa nhiều đối tượng lên đến số hàng triệu Việc phân cụm tập liệu lớn ảnh hưởng tới kết lớn tính chất có khả mở rộng thích ứng với có sở liệu lớn yêu cầu quan trọng phân cụm [4] ● Khả thích nghi với kiểu thuộc tính khác nhau: Nhiều thuật toán thiết kế cho việc phân cụm liệu có kiểu khoảng Tuy vậy, nhiều ứng dụng địi hỏi việc phân cụm nhiều loại liệu khác Do việc thích ứng với dạng liệu với nhiều thuộc tính yêu cầu lớn phân cụm liệu ● Khám phá cụm với hình dạng bất kì: Các thuật toán phân cụm xác định cụm dựa phép đo khoảng cách Euclidean hay khoảng cách Manhattan Các thuật toán dựa phép đo hướng tới việc tìm kiếm cụm hình cầu với mật độ kích cỡ tương tự Tuy nhiên, cụm có hình dạng Do đó, việc phát triển thuật tốn khám phá cụm có hình dạng việc quan trọng ● Tối thiểu lượng tri thức cần cho xác định tham số đầu vào: thuật toán yêu cầu người dùng đưa vào tham số định phân tích phân cụm, kết thường dựa nhiều vào tham số đầu vào Trong có tham số khó để xác định cách xác tập liệu có lượng đối tượng lớn Điều dẫn đến trở ngại không nhỏ cho người dùng mà cịn làm khó để điều chỉnh chất lượng phân cụm [4] ● Khả thích nghi với liệu nhiễu: Hầu hết sở liệu thực chứa đựng liệu ngoại lai, liệu lỗi, liệu chưa biết liệu sai Một số thuật tốn phân cụm có tính chất nhạy cảm với loại liệu dẫn đến chất lượng phân cụm bị suy giảm ● Độ nhạy cảm thấp với thứ tự liệu đầu vào: Tương tự thuật toán có nhạy cảm với thứ tự liệu đầu vào điều dẫn đến kết khác với mức độ nhạy thứ tự liệu thuật tốn Do tuỳ vào trường hợp thuật toán phù hợp độ nhạy cần lựa chọn để đưa phân cụm chất lượng cao ● Số chiều lớn: Một sở liệu hay kho liệu chứa số chiều số thuộc tính khác Nhiều thuật toán phân cụm áp dụng tốt cho liệu với số chiều thấp ( từ 2-3 chiều ) Người ta đánh giá việc phân cụm có chất lượng tốt áp dụng cho sở liệu có từ ba chiều trở lên Nó thách thức đối tượng liệu cụm không gian với số chiều lớn, đặc biệt xét khơng gian với số chiều lớn thưa có độ nghiêng cao [4] ● Phân cụm ràng buộc: Nhiều ứng dụng thực tế cần thực phân cụm dạng loại ràng buộc khác Giả sử cơng việc bạn lựa chọn vị trí cho số trạm rút tiền tự động thành phố Để định dựa điều này, bạn phân cụm hộ gia đình xem xét mạng lưới sông đại lộ, yêu cầu khách hàng vùng ràng buộc Một số nhiệm vụ đặt tìm nhóm liệu có trạng thái phân cụm tốt thoả mãn ràng buộc ● Dễ hiểu dễ sử dụng [1] 1.3 Các loại liệu tìm hiểu phân cụm Các loại liệu riêng biệt có ảnh hưởng lớn đến lựa chọn thuật toán để phân cụm Đa số thuật toán phân cụm thiết kế với ý đồ để xử lý loại liệu dạng số Tuy nhiên, điều khơng cịn với đa phần tình thực tế mà liệu lấy từ nhiều loại khác rời rạc, thời gian, cấu trúc Ở mục nói độ ảnh hưởng loại liệu khác lên giai đoạn phân cụm [1] ● Phân cụm liệu phân loại: Dữ liệu phân loại thường phổ biến sở liệu Điều thuộc tính liệu thực giới tính, chủng tộc, zip code, Đều có tính chất rời rạc khơng có thứ tự Trong nhiều trường hợp liệu cịn bị trộn mà thuộc tính lương số giới tính hay zip code lại phân loại khác Một dạng đặc biệt liệu phân loại liệu market basket ( giỏ chợ ) mà tất thuộc tính nhị phân Dữ liệu phân loại dẫn đến nhiều thách thức cho thuật toán phân cụm ○ Khi thuật toán dự vào việc sử dụng tính chất tương đồng hay chức khoảng cách, tiêu chuẩn khơng cịn sử dụng Những điểm tương đồng cần định nghĩa cho liệu phân loại ○ Nhiều thuật toán phân cụm k-means hay k-median tạo phân cụm đại diện mean hay median điểm liệu phân cụm Trong nhiều trường hợp số liệu mean hay median thường định nghĩa liệu dạng số cần điều chỉnh phù hợp cho liệu rời rạc ■ Khi liệu bị trộn, vấn đề trở nên khó thuộc tính khác cần phải xử lý theo cách không đồng nhất, chức tương tự cần tính tốn rõ ràng cho tính không đồng ■ Một điều cần lưu ý số mơ hình phân cụm chịu trách nhiệm cho nhiều dạng liệu số khác Ví dụ như, số mơ hình dựa theo khoảng cách ( hay tương đồng ) chức liệu lưu Do đó, chức tương đồng định nghĩa liệu lưu trước đó, phương pháp phân tích phân cụm sử dụng cách hiệu Phân cụm quang phổ loại phương pháp sử dụng với gần tất loại liệu miễn chức tương đồng định nghĩa Bất cập phương pháp phương pháp lớn lên theo bậc kích cỡ ma trận đồng dạng Mơ hình sinh tổng hợp hố dễ dàng loại liệu khác nhau, mơ hình sinh định nghĩa cho thành phần hỗn hợp Các thuật toán phổ biến 10