Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 120 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
120
Dung lượng
208,88 KB
Nội dung
Trước tiên em gửi lời cảm ơn chân thành sâu sắc tới các thầy cô giáo ở Vi , các thầy cô trong trường ph à N đã tận tình truyền đạt, giảng dạy cho em những kiến thức, kinh nghiện quý báu trong suốt thời gian qua. Đặc biệt em xin gửi lời cảm ơn đến PGS.TS Lễ Bá D đã tận tình giúp đỡ, trực tiếp chỉ bảo em trong suốt thời gian làm luận văn. Trong thời gian làm việc với Thầy, em không những tiếp thu thên nhiều kiến thức bổ ích mà còn học được tinh thần làm việc, thái độ nghiên cún khoa học nghiêm túc, hiệu quả. Đây là những điều rất cần thiết cho em trong quá trình học tập và công tác. Sau cùng xin gửi lời cảm ơn chân thành tới gia đình, bạn bè đã động viên, đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cún và hoàn thành đề tài này. Hà N Học viên Nguy L Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong luận văn này là trung thực và không trùng lặp với các đề tài khác. Tôi cũng xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc. Học viên Nguy Th м 1.1.1. 41 2.1.5. 2.1.6. 2.1.7. DANH M 2.1.8. 2.1.9. DANH M CÁC HÌNH MINH H 2.1.5. CSDL 2.1.6. Cơ sở dữ liệu 2.1.7. PCDL 2.1.8. Phân cụm dữ liệu 2.1.9. KPDL 2.1.10. Khai phá dữ liệu 2.1.11. B NU 2.1.12. Phân tử nơron chiên thăng 2.1.13. M LP 2.1.14. MultiLayer Perception 2.1.15. B AM 2.1.16. Bidirectional Associative Memory 2.1.17. S OM 2.1.18. Self Organizing Map 2.1.19. V Q 2.1.20. Vector Quantization 2.1.21. L VQ 2.1.22. Learning Vector Quantization 2.1.23. M ST 2.1.24. Minimal Spanning Tree 2 2.1.10. 2.1.11. 2.1.63. Hình 2.1.64. Mô hình Mạng Nơron Kohonen 2.1.65. Hình 2.1.66. Mô hình Mạng Nơron Kohonen thông thường 2.1.67. Hình 2.1.68. Phân tử nơron chiên thăng BMU 2.1.69. Hình 2.1.70. Các vùng lân cận 2.1.71. Hình 2.1.72. Ư- matrix biêu diên cho SOM 2.1.73. Hình 3.1 2.1.74. Giải nén file ‘PHANCUMANH.rar’ và mở file ‘ setup_PH ANCUM ANH’ 2.1.75. Hình 3.2 2.1.76. Sau đó vào Debug và cài đặt file ‘setup.exe’ 2.1.77. Hình 3.3 2.1.78. Băt đâu quá trình cài đặt 2.1.79. Hình 3.4 2.1.80. Close đê hòa tât quá trình cài đặt 2.1.81. Hình 3.5 2.1.82. Chương trình đã cài đặt xong và file chạy chương trình nằm trên màn hình destop ‘WindowsFormsApplicationl .exe’ 2.1.83. Hình 3.6 2.1.84. Giao diện của chương trình 2.1.85. Hình 3.7 2.1.86. Nhân nút chọn ảnh đê phân cụm ảnh được chọn 2.1.87. Hình 3.8 2.1.88. Kêt quả phân cụm ảnh vừa chọn 2.1.89. Hình 3.9 2.1.90. Phân cụm ảnh ngâu nhiên với Ngang 20, dọc 30 và ngưỡng là 500 2.1.91. Hình 2.1.92. Ngâu nhiên với ngang 70, dọc 30, ngưỡng 50 2.1.25. Hình 2.1.26.N 2.1.27. Hình 1.1 2.1.28.Biểu đồ các dạng dữ liệu 2.1.29. Hình 1.2 2.1.30. Biêu đô quy mô dữ liệu 2.1.31. Hình 1.3 2.1.32. Thiết lập đế xác định danh giới các cụm ban đầu 2.1.33. Hình 1.4 2.1.34. Tính toán trọng tâm các cụm mới 2.1.35. Hình 1.5 2.1.36.Khái quát thuật toán Cure 2.1.37. Hình 1.6 2.1.38. Các cụm dừ liệu được khám phá bởi thuật toán Cure 2.1.39. Hình 1.7 2.1.40. Hình dạng các cụm được tạo bởi thuật toán DBSCAN 2.1.41. Hình 1.8 2.1.42. Các cách mà cụm có thê đưa ra 2.1.43. Hình 2.1 2.1.44.Mô hình nơron sinh học 2.1.45. Hình 2.2 2.1.46. Mô hình nơron nhân tạo cơ bản 2.1.47. Hình 2.3 2.1.48. Mô hình mạng nơron 3 lớp 2.1.49. Hình 2.4 2.1.50. Mô hình học giám sát 2.1.51. Hình 2.5 2.1.52. Mô hình học không giám sát 2.1.53. Hình 2.6 2.1.54. Mô hình mạng perceptron một lớp 2.1.55. Hình 2.7 2.1.56. Mô hình Mạng perceptron nhiều lớp 2.1.57. Hình 2.8 2.1.58. Mô hình mạng hồi quy một lớp 2.1.59. Hình 2.9 2.1.60. Cấu trúc của mạng Hopfield 2.1.61. Hình 2.1.62.Cấu trúc của mạng BAM 3 2.1.12. M 1. Lý do ch ài 2.1.13. Trong bối cảnh ứng dụng công nghệ thông tin ngày càng tăng, dữ liệu phát sinh từ hoạt động quản lý, kinh doanh, tố chức ngày càng nhiều. Các công ty, tổ chức cần phải nhanh chóng đưa ra các quyết định bằng cách xử lý nhiều yếu tố với quy mô và tính phức tạp ngày càng tăng. Đe có quyết định chính xác nhất. Ngoài việc dựa trên các yếu tố liên quan trụ’c tiếp đến vấn đề, người ra quyết định còn dựa trên kinh nghiệm bản thân và thông tin có được từ các hoạt động trước đó. Dần đến một nhu cầu thực tế là cần có các phương pháp phân cụm, xử lí dữ liệu thu thập được để làm căn cứ ra quyết định. 2.1.14. Phân cụm dữ liệu (PCDL) là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Yì thế, có thế coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ 2.1.15. Hiện nay, các phương pháp phân cụm đã và đang được phát triển [7] và áp dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu được phát triển trên cơ sở của các phương pháp đó như: 2.1.16. Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số. 2.1.17. Phân cụm khái niệm: Kỹ thuật này được phát triến áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lí. 4 2.1.18. Phân cụm mờ: Sử đụng kỹ thuật mờ để PCDL. Các thuật toán thuộc loại này chỉ ra lược đồ phân cụm thích họp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử các dữ liệu không chắc chắn [1], [3]. 2.1.19. Mạng noron cho phân cụm [1], [4]. 2.1.20. Một trong số các trở ngại gặp phải khi ứng dụng mạng nơ-ron cho phân cụm cần phải có sự hỗ trợ đầy đủ kiến thức lý thuyết và phương pháp ứng dụng. Trong khi các nghiên cún về mạng nơ-ron nhân tạo thường úng dụng vào một bài toán cụ thể, kết quả nghiên cún khó có khả năng kế thừa, phát triển để ứng dụng rộng rãi cho các bài toán tương tự. Vì vậy việc nghiên cứu chuyên sâu, đầy đủ và mang tính ứng dụng thực tiễn cao là hết sức cần thiết. Với các lí do trên em chọn đề tài “S noron cho phân c 2.1.21.li à 2. M ên c 2.1.22. Tìm hiểu các đặc trưng của mạng nơ-ron nhân tạo, khả năng và các nguyên tắc để ứng dụng thành công mạng nơ-ron nhân tạo trong thực tế. Tìm hiểu về phân cụm dữ liệu. Nghiên cứu ứng dụng mạng nơ-ron nhân tạo vào lớp bài toán phân cụm dữ liệu. 3. Nhi ên c 2.1.23. Tìm hiểu nghiên cứu về mạng noron nhân tạo và phân cụm dữ liệu. Xây dựng phần mềm cho phép người sử dụng mô phỏng và ứng dụng nhanh chóng mạng noron nhân tạo để giải quyết các bài toán thuộc lóp bài toán phân cụm dữ liệu. 4. à ph ên c 2.1.24. Đối tượng nghiên cứu là lớp bài toán phân cụm dữ liệu, sử dụng mạng nơron nhân tạo. Phạm vi nghiên cứu là lý thuyết ứng dụng mạng nơ-ron nhân tạo cho bài toán phân cụm dữ liệu, ứng dụng mạng noron kohonen trong phân cụm dữ liệu. 2.1.25.5. 2.1.26. Phương pháp nghiên cứu tài liệu: nghiên cứu lý thuyết và ứng dụng mạng nơron nhân tạo trong phân cụm dữ liệu. 2.1.27. Phương pháp thực nghiệm: đi sâu nghiên cún ứng dụng mạng nơ-ron nhân tạo bắt đầu từ bước chuẩn bị dữ liệu, bao gồm các kỹ thuật cho việc trích chọn đặc trưng, làm sạch dữ liệu, tiền xử lý, kiến trúc mạng, cách huấn luyện và kiểm tra mạng. Thực hiện phân tích ứng dụng mạng nơ-ron vào một số bài toán của mỗi lóp bài toán. Từ các phân tích từng bài toán, tác giả xây dựng thành quy trình, các chỉ dẫn mang tính ứng dụng thực tiễn cao có thể ứng dụng nhanh chóng cho các bài toán tương tụ* của các lóp bài toán trên. 2.1.28. Xây dựng phần mềm mô phỏng mạng nơ-ron: phân tích, thiết kế phần mềm hướng đối tượng với các tính năng cho phép người sử dụng thực hiện giải các bài toán thực tế bằng mạng nơ-ron nhân tạo. Lập trình phần mềm, phần mềm có giao diện trực quan chạy trên hệ điều hành Windows. 5. Gi 2.1.29. Đe tài làm rõ khả năng ứng dụng của mạng nơ-ron trong phân cụm dữ liệu. Cách đê xác định bài toán nào thích họp đê giải bang mạng nơ-ron. Xây dựng thành quy trình với các bước thực hiện cụ thể cho việc giải bài toán phân cụm dữ liệu bằng mạng nơ-ron. 2.1.30. т 1.1. Khái ni vàm êu с 1.1.1. Khái ni 2.1.31. Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng, còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. 2.1.32. Phân cụm dữ liệu là một kỹ thuật trong Khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn quan trọng trong tập dữ liệu lớn tò đó cung cấp thông tin tri thức hũu ích cho việc ra quyết định. 2.1.33. Không giống như phân lóp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thế coi phân cụm dữ liệu là một cách học bằng quan sát trong khi phân lớp dữ liệu là học bằng ví dụ 2.1.34. Ngoài ra, phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm. Phân cụm dữ liệu đang là vấn đề mở và khó vì người ta cần phải đi giải quyết nhiều vấn đề cơ bản về dữ liệu để nó phù họp với nhiều dạng dữ liệu khác nhau như dữ liệu chứa nhiễu do quá trình thu thập thiếu chính xác, không tường minh hoặc là các đối tượng dữ liệu khuyết thiếu thông tin về môt số thuộc tính hoặc dữ liệu hỗn họp đang ngày càng tăng trong các hệ quản trị dữ liệu [7]. 1.1.2. M êu с 2.1.35. Mục tiêu của phân cụm dữ liệu là xác định được bản chất nhóm trong tập dữ liệu chưa có nhãn. Nó có thế là không có tiêu chuấn tuyệt đối “tốt” mà 2.1.36. có thể không phụ thuộc vào kết quả phân cụm. Vì vậy, nó đòi hỏi người sử dụng phải cung cấp tiêu chuẩn phân cụm một cách rõ ràng theo cách mà kết quả phân cụm sẽ đáp ứng yêu cầu. 2.1.37. Hiện nay chưa có một phương pháp phân cụm tồng quát nào có thể giải quyết chọn vẹn cho tất cả các dạng cấu trúc dữ liệu. Hơn nữa, các phương pháp phân cụm cần có một cách thức biểu diễn cấu trúc của dữ liệu, và với mỗi cách thức biểu khác nhau sẽ có tương ứng một thuật toán phân cụm phù họp. 1.1.3. Các yêu c 2.1.38. Phân cụm là một thách thức trong lĩnh vực nghiên cứu ở chỗ những ứng dụng tiềm năng của chúng được đưa ra ngay chính những yêu cầu đặc biệt của chúng. Sau đây là những yêu cầu cơ bản của phân cụm trong KPDL: 2.1.39. Có khả năng mở rộng: Nhiều thuật toán phân cụm dữ liệu làm việc tốt với những tập dữ liệu nhỏ chứa ít hơn 200 đối tượng, tuy nhiên một cơ sở dữ liệu lớn có thể chứa tới hàng triệu đối tượng. Việc phân cụm với một tập dữ liệu lớn có thể làm ảnh hưởng tới kết quả. Vậy làm thế nào để chúng ta phát triên các thuật toán phân cụm có khả năng mở rộng cao đôi với các CSDL lớn? 2.1.40. Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật toán được thiết kế cho việc phân cụm dữ liệu có kiểu khoảng (kiểu số). Tuy nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, như kiểu nhị phân, kiểu tường minh (định danh - không thứ tự), và dữ liệu có thứ tụ’ hay dạng hỗn họp của những kiểu dữ liệu này. 2.1.41. Khám phá các cụm với hình dạng bất kỳ: Nhiều thuật toán phân cụm xác định các cụm dựa trên các phép đo khoảng cách Euclidean và khoảng cách Manhattan. Các thuật toán dựa trên các phép đo như vậy hướng tới việc tìm kiếm các cụm hình cầu với mật độ và kích cỡ tương tự nhau. Tuy nhiên, một cụm có thể có bất cứ một hình dạng nào. Do đó, việc phát triển các thuật toán có thế khám phá ra các cụm có hình dạng bất kỳ là một việc làm quan trọng. 2.1.42. Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: Nhiều thuật toán phân cụm yêu cầu người dùng đưa vào những tham số nhất định trong phân tích phân cụm (như số lượng các cụm mong muốn). Ket quả của phân cụm thường khá nhạy cảm với các tham số đầu vào. Nhiều tham số rất khó để xác định, nhất là với các tập dữ liệu có lượng các đối tượng lớn. Điều này không những gây trở ngại cho người dùng mà còn làm cho khó có thể điều chỉnh được chất lượng của phân cụm. 2.1.43. Khả năng thích nghi với dữ liệu nhiễu: Hầu hết những CSDL thực đều chứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai. Một số thuật toán phân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụm thấp. ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, khi được đưa ra với các thứ tự khác nhau thì với cùng một thuật toán có thể sinh ra các cụm rất khác nhau. Do đó, việc quan trọng là phát triến các thuật toán mà ít nhạy cảm với thứ tự vào của dữ liệu. 2.1.44. Số chiều lớn: Một CSDL hoặc một kho dữ liệu có thể chứa một số chiều hoặc một số các thuộc tính. Nhiều thuật toán phân cụm áp dụng tốt cho dữ liệu với số chiều thấp, bao gồm chỉ từ hai đến 3 chiều. Người ta đánh giá việc phân cụm là có chất lượng tốt nếu nó áp dụng được cho dữ liệu có từ 3 chiều trở lên. Nó là sự thách thức với các đối tượng dữ liệu cụm trong không gian với số chiều lớn, đặc biệt vì khi xét những không gian với số chiều lớn có thể rất thưa và có độ nghiêng lớn. 2.1.45. Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới các loại ràng buộc khác nhau. Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng thái phân cụm tốt và thỏa mãn các ràng buộc. 2.1.46. Dễ hiểu và dễ sử dụng: Người sử dụng có thể chờ đợi những kết quả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng. Nghĩa là, sự phân cụm có thể cần được giải thích ý nghĩa và ứng dụng rõ ràng. Với những yêu cầu đáng lưu ý này, nghiên cứu của ta về phân tích phân cụm diễn ra như sau: Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác và cách chúng có thể gây ảnh hưởng tới các phương pháp phân cụm. Thứ hai, ta đưa ra một cách phân loại chung trong các phương pháp phân cụm. Sau đó, ta nghiên cứu chi tiết mỗi phương pháp phân cụm, bao gồm các phương pháp phân hoạch, phân cấp, dựa trên mật độ, Ta cũng khảo sát sự phân cụm trong không gian đa chiều và các biến thể của các phương pháp khác. 1.1.4. Các kỉ à các thu c tính trong phân c 2.1.47. Thuật toán phân cụm dữ liệu có rất nhiều kiểu dữ liệu. Một thuộc tính duy nhất có thế được có như nhị phân, rời rạc, hoặc liên tục. Thuộc tính nhị phân có chính xác hai giá trị, như là đúng hoặc sai. Thuộc tính rời rạc có một số hữu hạn các giá trị có thể, vì thế kiểu dữ liệu nhị phân là một trường hợp đặc biệt của dữ liệu rời rạc. Quy mô dữ liệu chỉ ra tầm quan trọng tương đối của các con sô, cũng là một vân đề quan trọng trong phân cụm dữ liệu. Vì vậy dữ liệu được chia thành các kiểu như sau: 2.1.48. 2.1.93. 2.1.94.Hình 1.1 : Bi [...]... 2.1.216 này: 2.1.217 Phân cụm thống kê: dựa trên các khái niệm phân tích hệ thống, người ta sử dụng các độ đo tương tự để phân hoạch các đối tượng nhưng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số 2.1.218 2 Phân cụm khái niệm: áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lý 2.1.219 Phân cụm mờ: sử dụng kỹ thuật phân cụm mờ để phân cụm dữ liệu, các thuật... toán phân cụm dữ liệu mờ FCM giống như k-means đều sử dụng chung một chiến lược phân cụm dữ liệu FCM chia phân tập dữ liệu ban đầu thành c cụm mờ, trong đó mỗi đối tượng dữ liệu thuộc về các cụm được xác định bởi một hệ số là độ phụ thuộc Ưjk € [0, 1] (k là chỉ số của cụm và i biểu thị số thứ tụ’ của đối tượng dữ liệu trong tập dữ liệu ban đầu), hệ số uik này để chỉ quan hệ giữa các đối tượng với cụm dữ. .. hợp này chủng ta nên áp dụng lý thuyết về tập Mờ trong phân cụm dữ liệu để giải quyết cho trường hợp này, cách thức này được gọi là Phân cụm Mờ 2.1.228 Phân cụm Mờ là phương pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu có thể thuộc về hai hay nhiều cụm thông qua bậc thành viên 2.1.229 Năm 1969, Ruspini đã giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc của cụm dữ liệu và đề xuất một thuật toán... 1.3.1 Phân с T 2.1.223 Phân cụm dữ liệu hiện nay đã được áp dụng rất nhiều trong cuộc sống của chúng ta Chang hạn, trong ngành bưu điện thường hay phân loại thư theo mã nước, trong nước lại phân theo mã tỉnh/thành phố, sau đó lại được phân theo quận/huyện tiếp theo là phân theo xã/phường để gửi thư Đó chính là một ứng dụng của bài toán phân cụm rõ (phân cụm cứng) Vậy phân cụm rô là gì? 2.1.224 Phân cụm. .. một mẫu ngẫu nhiên từ tập dữ liệu ban đầu Phân hoạch mẫu này thành nhiều nhóm dữ liệu có kích thước bàng nhau 2.1.173 Ý tưởng chính ở đây là: phân hoạch tập mẫu thành p nhóm dữ liệu bằng nhau, kích thước của mỗi phân hoạch là n / p (n là kích thước của mẫu) 2.1.174 Phân cụm các điểm của mỗi nhóm: Thực hiện phân cụm dữ liệu cho các nhóm cho đến khi mỗi nhóm được phân thành n /pq cụm (với q>l) 2.1.175 Loại... nhóm dữ liệu sao cho mỗi phần tủ’ dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi nhóm dữ liệu có tối thiểu một phần tử dữ liệu Thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham đế tìm kiếm nghiệm 2.1.76 Dưới đây là một số thuật toán được sử dụng rộng rãi: 2.1.77 Thu-Means: 2.1.78 Ý t : dựa trên độ đo khoảng cách của các đối tượng dữ liệu trong cụm Thực tế, nó đo khoảng cách tới... dữ liệu trình bày ở 2.1.73 trên, thuộc tính định danh và thuộc tính có thứ tự gọi chung là thuộc tính hạng mục (Categorical), thuộc 2.1.74 tính khoảng và thuộc tính tỉ lệ được gọi là thuộc tính số (Numeric) 1.2 M n trong phân c 1.2.1 Các thu 2.1.75 Ý tưởng chung của thuật toán trong phân cụm phân cụm phân hoạch: phân một tập dữ liệu có n phần tử cho trước thành k nhóm dữ liệu sao cho mỗi phần tủ’ dữ. .. 1.2.5 Phân 2.1.208 c ên mô hình Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thế sử dụng chiến lược phân cụm phân hoạch hoặc chiến lược phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách mà chúng tinh chỉnh các mô hình này để nhận dạng ra các phân hoạch Các thuật toán áp dụng theo... có thẻ áp dụng đối với tập dữ Hậu lớn 2.1.114 K-means không có khả năng tìm ra các cụm không lồi hoặc các cụm có hình dạng phức tạp, chỉ áp dụng với dữ liệu số Nó không khắc phục được nhiễu và các phần tử ngoại lai 2.1.115 Chất lượng phân cụm phụ thuộc vào nhiều tham số đầu vào như: số cụm k và k trọng tâm khởi tạo ban đầu 2.1.116 Số lượng và các tham số là do người dùng nhập, nên nếu đầu vào khác nhau... lượng phân cụm không thay đổi 2.1.165 Ngoài ra, phân cụm phân hoạch còn có thêm một số thuật toán CLARA, thuật toán CLARANS 1.2.2 Các thu toán trong phân c 2.1.166 Thu 2.1.167 Phân cụm phân cấp sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Cây phân cụm có thế được xây dựng theo hai phương pháp tông quát: Phương pháp Topdown và phương . toán phân cụm dữ liệu, sử dụng mạng nơron nhân tạo. Phạm vi nghiên cứu là lý thuyết ứng dụng mạng nơ-ron nhân tạo cho bài toán phân cụm dữ liệu, ứng dụng mạng noron kohonen trong phân cụm dữ liệu. 2.1.25.5. 2.1.26 hiểu về phân cụm dữ liệu. Nghiên cứu ứng dụng mạng nơ-ron nhân tạo vào lớp bài toán phân cụm dữ liệu. 3. Nhi ên c 2.1.23. Tìm hiểu nghiên cứu về mạng noron nhân tạo và phân cụm dữ liệu. Xây dựng. dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai. Một số thuật toán phân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụm thấp. ít nhạy cảm với thứ tự của các dữ liệu vào: