6. Bố cục của luận văn:
2.3.1 Phân cụm dữ liệu
Phân cụm là một kỹ thuật quan trọng được ứng dụng trong khai phá dữ liệu, nĩ thuộc lớp các phương pháp học khơng giám sát trong học máy với mục đích tìm kiếm, phát hiện ra các cụm của các mẫu dữ liệu tìm ẩn trong tập dữ liệu lớn để từ đĩ cung cấp các thơng tin quan trọng cho việc đưa ra một quyết định. Cĩ rất nhiều định nghĩa khác nhau về kỹ thuật phân cụm, nhưng tất cả các định nghĩa đĩ đều thể hiện bản chất chính của kỹ thuật phân cụm là cách thức
Pl-39
tìm cách nhĩm các đối tượng đã cho vào các cụm, sao cho các đối tượng trong cùng một cụm tương tự nhau và các đối tượng khác cụm thì khơng tương tự nhau.
Cụm (Clusters) cĩ thể được định nghĩa là tập hợp các điểm cĩ vector đặc trưng gần nhau. Trong kỹ thuật phân cụm, để quyết định cho một dữ liệu thuộc cụm dữ liệu nào nĩ phụ thuộc vào khoảng cách của dữ liệu đĩ với tâm cụm. Việc tính tốn khoảng cách cĩ thể phụ thuộc vào từng loại dữ liệu, trong đĩ khoảng cách Euclid được sử dụng phổ biến nhất.
Hình 2.3: Hình ảnh một ví dụ phân cụm dữ liệu trong thuật tốn K-Means
Mục đích của phân cụm là tìm ra bản chất bên trong các nhĩm của dữ liệu. Các thuật tốn phân cụm (Clustering Algorithms) đều sinh ra các cụm (clusters). Tuy nhiên, khơng cĩ tiêu chí nào là được xem là tốt nhất để đánh hiệu quả của phân tích phân cụm, điều này tùy thuộc vào mục đích của phân cụm như: giảm chiều dữ liệu (data reduction) hoặc phát hiện ngoại lai ( outlier detection), … Vì vậy, để đáp ứng được mục đích phân cụm thì người dùng phải cung cấp các tiêu chuẩn phù hợp với mục đích cơng việc.
Trong học máy, phân cụm dữ liệu được xem là học khơng giám sát. Vì nĩ đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các dữ liệu chưa biết trước về lớp hay các thơng tin về tập ví dụ huấn luyện. Trong nhiều trường hợp, khi phân lớp được xem vấn đề học cĩ giám sát thì phân cụm dữ liệu là một bước trong phân lớp dữ liệu, trong đĩ phân cụm dữ liệu sẽ khởi tạo các lớp cho phân
Pl-40
lớp bằng cách xác định các nhãn cho các nhĩm dữ liệu.
Trong quá trình phân cụm dữ liệu thì vấn đề trở ngại lớn nhất đĩ là nhiễu (noise). Nhiễu xuất hiện do trong quá trình thu thập thơng tin, dữ liệu thiếu chính xác hoặc khơng đầy đủ. Vì vậy chúng ta phải khử nhiễu trong quá trình phân cụm.