Tìm hiểu về kĩ thuật phân cụm

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Giới thiệu chung

Cách mạng khoa học kỹ thuật đã tạo ra những bước tiến vượt bậc trong mọi lĩnh vực của đời sống kinh tế và xã hội Một trong những thành công nổi bật của cuộc cách mạng này là sự bùng nổ thông tin, dẫn đến khối lượng dữ liệu mà con người thu thập và lưu trữ ngày càng gia tăng nhanh chóng Các cơ sở dữ liệu (CSDL) hiện nay chứa đựng nhiều tri thức chưa được khai thác Tuy nhiên, với khối lượng dữ liệu khổng lồ, việc khám phá và rút ra thông tin hữu ích trở nên vô cùng khó khăn.

Nhu cầu tìm kiếm tri thức trong cơ sở dữ liệu ngày càng tăng cao, dẫn đến sự hình thành của lĩnh vực mới – Khai thác dữ liệu (Data Mining).

Khám Phá tri thức và Quá trình Khám phá tri thức

Khám phá tri thức trong cơ sở dữ liệu (CSDL) là quá trình tìm kiếm và phát hiện những tri thức có giá trị, cần thiết, và tiềm ẩn mà chưa được biết đến trong các CSDL lớn.

Khám phá tri thức và khai phá dữ liệu, mặc dù mới xuất hiện, đã được nghiên cứu và ứng dụng rộng rãi trên toàn cầu Tại Việt Nam, kỹ thuật này còn tương đối mới mẻ nhưng đang được chú trọng nghiên cứu và dần đưa vào ứng dụng trong những năm gần đây.

Những vấn đề được quan tâm là phân lớp nhận dạng mẫu, luật kết hợp, phân

Tiểu luận triết học mác lê nin cụm dữ liệu, phần tử dị biệt, …

Theo Fayyad, Piatetsky-Shapiro, Smyth, việc nghiên cứu phát triển lĩnh vực khám phá tri thức trong CSDL (Knowledge Discovery in

Database) nhằm giải tình trạng “ngập tràn thông tin mà vẫn thiếu thốn tri thức”.

Khám phá tri thức trong cơ sở dữ liệu (CSDL) là một lĩnh vực đang được nghiên cứu và phát triển nhanh chóng Nhiều thuật ngữ khác nhau, như chiết lọc tri thức, thường được sử dụng để chỉ cùng một khái niệm này.

(Knowledge Extraction), Phát hiện thông tin (Information Discovery),

Thu hoạch thông tin (Inforation Harvesting), Khai quật dữ liệu (Data

Archaeology), và Xử lý mẫu dữ liệu (Data Pattern Processing).

Năm 1989, Fayyad, Smyth và Piatestsky-Shapiro định nghĩa Khám phá tri thức trong cơ sở dữ liệu (hay còn gọi là khai phá dữ liệu) là một quá trình quan trọng nhằm nhận diện các mẫu giá trị, mới mẻ và hữu ích tiềm năng trong dữ liệu.

1.2.2 Quá trình khám phá tri thức

Quá trình Khám phá tri thức trong CSDL gồm các bước:

- Trích lọc dữ liệu (Data Selection)

Tiểu luận triết học mác lê nin

Là bước trích chọn những tập dữ liệu cần được khai thác từ các tập dữ liệu lớn (Databases, Datawarehouses) banđầu theo một số tiêu chí nhất định.

- Tiền xử lý dữ liệu (Data Preprocessing)

Tiền xử lý dữ liệu là một bước quan trọng trong quá trình khai phá dữ liệu, thường bị xao lãng Bước này bao gồm làm sạch dữ liệu để xử lý dữ liệu không đầy đủ, nhiễu và không nhất quán; rút gọn dữ liệu thông qua các phương pháp nén, histograms và entropy; và rời rạc hóa dữ liệu dựa vào histograms và phân khoảng Sau khi hoàn thành, dữ liệu sẽ trở nên nhất quán, đầy đủ, được rút gọn và rời rạc hóa Nếu không thực hiện đúng quy trình tiền xử lý, dữ liệu có thể dẫn đến kết quả sai lệch nghiêm trọng.

- Biến đổi dữ liệu (Data transformation)

Là bước chuẩn hóa và làm mịn dữ liệu để đưa về dạng thuận lợi nhất nhằm phục vụ cho mục đích khai thác ở bước sau.

Khai phá dữ liệu là bước quan trọng nhất trong quá trình khám phá tri thức, đòi hỏi nhiều thời gian và công sức Quá trình này áp dụng các kỹ thuật phân tích, chủ yếu là các phương pháp từ lĩnh vực thống kê và học máy, nhằm phát hiện ra những mẫu và thông tin hữu ích từ dữ liệu lớn.

Machine Learning) nhằm khai thác, trích chọn được các mẫu thông tin, các mối liên hệ đặc biệt trong dữ liệu.

- Đánh giá và biểu diễn tri thức (Knowledge Representation &

Sử dụng các kỹ thuật hiển thị dữ liệu để trình bày mẫu thông tin và mối liên hệ trong dữ liệu đã khai thác, giúp người dùng dễ dàng tiếp cận qua đồ thị, cây, bảng biểu và luật Bước này cũng bao gồm việc đánh giá tri thức khám phá theo các tiêu chí nhất định.

Khai phá dữ liệu

Có rất nhiều nguồn định nghĩ và khái niệm về Data Mining:

Khai phá dữ liệu (data mining) là quá trình tính toán nhằm phát hiện các mẫu trong bộ dữ liệu lớn, kết hợp giữa máy học, thống kê và hệ thống cơ sở dữ liệu Mục tiêu chính là trích xuất thông tin từ dữ liệu và chuyển đổi nó thành cấu trúc dễ hiểu Quá trình này không chỉ bao gồm phân tích thô mà còn liên quan đến quản lý dữ liệu, xử lý dữ liệu trước, xây dựng mô hình và suy luận thống kê Ngoài ra, nó còn bao gồm việc đo lường các yếu tố thú vị, xem xét các khía cạnh phức tạp và xuất kết quả dưới dạng cấu trúc được phát hiện, cũng như hình ảnh hóa và cập nhật thông tin trực tuyến.

"khám phá kiến thức trong cơ sở dữ liệu" hoặc KDD.”

Data mining là một tập hợp các phương pháp tính toán và thuật toán được áp dụng cho các cơ sở dữ liệu lớn và phức tạp nhằm loại bỏ chi tiết ngẫu nhiên và khám phá các mẫu, quy luật tiềm ẩn Đây là một công nghệ tiên tiến hiện nay, cho phép khai thác kiến thức quý giá thông qua việc phân tích khối lượng lớn dữ liệu và lưu trữ chúng ở nhiều cơ sở dữ liệu khác nhau.

Theo Investopedia, data mining là quá trình mà các công ty áp dụng để chuyển đổi dữ liệu thô thành thông tin có giá trị Thông qua việc sử dụng phần mềm chuyên dụng, họ có thể phát hiện các quy luật, mẫu và mối tương quan tiềm ẩn trong lượng dữ liệu lớn Điều này giúp các công ty hiểu rõ hơn về khách hàng, từ đó phát triển các chiến lược tiếp thị hiệu quả, tăng doanh số và giảm chi phí.

Data Mining là quá trình khám phá và phân tích một lượng lớn dữ liệu nhằm phát hiện các mẫu và quy tắc có ý nghĩa Quá trình này giúp biến dữ liệu thô thành thông tin giá trị, hỗ trợ ra quyết định và tối ưu hóa quy trình kinh doanh.

Tiểu luận triết học Mác-Lênin đóng vai trò quan trọng trong nghiên cứu khoa học dữ liệu, giúp khai thác và sử dụng thông tin có giá trị từ dữ liệu Việc áp dụng triết lý này hỗ trợ quá trình đưa ra dự báo và quyết định trong tương lai, nâng cao hiệu quả phân tích dữ liệu.

1.3.2 Quy trình Khai phá dữ liệu

Quy trình Khai phá dữ liệu thông thường gồm 10 bước (theo tiến trình

Để tối ưu hóa việc sử dụng Data mining, chúng ta cần nghiên cứu lĩnh vực cụ thể nhằm xác định tri thức quan trọng cần chắt lọc Việc này giúp định hướng rõ ràng và tiết kiệm thời gian, tránh lãng phí vào những thông tin không cần thiết.

- Tạo tập tin dữ liệu đầu vào

Ta xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu trữ và xử lý.

Trong bước tiền xử lý, chúng ta loại bỏ những dữ liệu không cần thiết và tinh chỉnh cấu trúc của dữ liệu, đồng thời mã hóa chúng để thuận tiện cho quá trình xử lý sau này.

Thông thường, khi làm việc với các tập dữ liệu lớn, số lượng tổ hợp có thể tăng lên rất nhanh, cụ thể với n chiều sẽ có 2^n tổ hợp Điều này dẫn đến việc tiêu tốn nhiều tài nguyên trong quá trình xử lý tri thức Để giảm thiểu vấn đề này, việc sử dụng phương pháp Rough set là rất cần thiết để giảm số chiều của dữ liệu.

Để đạt được mục đích khai thác dữ liệu, việc chọn tác vụ phù hợp là rất quan trọng Các tác vụ khai thác dữ liệu thường gặp bao gồm phân loại, hồi quy, phân cụm và phát hiện bất thường.

- Chọn các thuật giải Khai thác dữ liệu

- Khai thác dữ liệu: Tìm kiếm tri thức

Sau khi tiến hành các bước trên thì đây là bước chính của cả quá trình, ta sẽ tiến hành khai thác và tìm kiếm tri thức.

- Đánh giá mẫu tìm được

Cần đánh giá lại các tri thức đã tìm được để xác định những tri thức hữu ích có thể áp dụng, đồng thời loại bỏ những tri thức dư thừa và không cần thiết.

Ta trình bày tri thức đã thu thập dưới dạng ngôn ngữ tự nhiên, giúp người dùng dễ dàng hiểu và tiếp cận những thông tin đó.

- Sử dụng các tri thức vừa khám phá.

1.3.3 Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong khai phá dữ liệu

Vấn đề khai phá dữ liệu có thể được phân chia theo lớp các hướng tiếp cận chính sau:

1.3.3.1 Phân lớp và dự đoán

Phương pháp này nhằm đưa ra các dự đoán dựa trên việc suy diễn từ dữ liệu hiện có Các kỹ thuật chính bao gồm phân lớp và hồi quy, giúp phân tích và dự đoán các xu hướng trong dữ liệu.

Tiểu luận triết học Mác - Lê Nin liên quan đến việc phân loại đối tượng vào các lớp đã được xác định trước, như phân loại bệnh nhân dựa trên hồ sơ bệnh án hoặc phân loại vùng địa lý theo dữ liệu thời tiết Phương pháp này thường áp dụng các kỹ thuật máy học như cây quyết định và mạng nơron nhân tạo để thực hiện quá trình phân loại hiệu quả.

Phương pháp phân cụm dữ liệu nhằm mục tiêu nhóm các điểm dữ liệu trong cơ sở dữ liệu thành các cụm, trong đó các điểm dữ liệu trong cùng một cụm có độ tương đồng cao, trong khi các điểm không cùng cụm có sự tương đồng thấp Điểm mạnh của phương pháp này là khả năng phát hiện các cấu trúc hữu ích và các cụm đối tượng trực tiếp từ dữ liệu mà không cần bất kỳ tri thức cơ sở nào.

Phân cụm dữ liệu, tương tự như cách tiếp cận học máy, được coi là phương pháp "học không có thầy" và không yêu cầu định nghĩa trước các mẫu dữ liệu huấn luyện Điều này cho phép phân cụm dữ liệu hoạt động như một cách học bằng quan sát, khác với phân lớp dữ liệu, nơi học bằng ví dụ Trong quá trình phân cụm, kết quả các cụm thu được không thể được biết trước, do đó cần có sự đánh giá từ các chuyên gia Phân cụm dữ liệu thường được áp dụng trong các lĩnh vực như phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu và phân loại trang.

Web … Ngoài ra, phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác

1.3.3.3 Phân lớp dữ liệu và hồi quy

Phân cụm dữ liệu

Phân cụm dữ liệu là một trong những hướng nghiên cứu trọng tâm của lĩnh vực khai phá dữ liệu (Data Mining) và lĩnh vực khám phá tri thức.

Phân cụm nhằm mục đích nhóm các đối tượng có tính tương đồng cao vào cùng một cụm, trong khi đảm bảo độ bất tương đồng giữa các cụm là lớn Điều này cung cấp thông tin và tri thức hữu ích cho việc ra quyết định.

Phân cụm dữ liệu là quá trình chia nhỏ một tập dữ liệu ban đầu thành các nhóm, trong đó các phần tử trong cùng một cụm có sự tương đồng cao với nhau.

Các cụm dữ liệu có sự tương đồng giữa các phần tử trong cùng một cụm, trong khi các phần tử ở các cụm khác lại có sự khác biệt Số lượng cụm dữ liệu có thể được xác định dựa trên kinh nghiệm hoặc thông qua các phương pháp phân cụm tự động.

Sau khi xác định các đặc tính của dữ liệu, bước tiếp theo là tìm phương pháp phù hợp để đo khoảng cách giữa các đối tượng Điều này liên quan đến việc sử dụng các hàm đo sự giống nhau giữa các cặp đối tượng dữ liệu, với mục tiêu chính là tính toán độ tương tự.

Độ tương tự (Similar) và độ phi tương tự (Dissimilar) giữa các đối tượng dữ liệu là những khái niệm quan trọng trong phân tích dữ liệu Khi giá trị của hàm đo độ tương tự tăng lên, điều đó cho thấy sự giống nhau giữa các đối tượng dữ liệu cũng tăng theo Ngược lại, hàm đo độ phi tương tự có mối quan hệ tỉ lệ nghịch với độ tương tự, nghĩa là khi độ tương tự cao, độ phi tương tự sẽ giảm.

Trong phân cụm dữ liệu, nhiễu (noise) là vấn đề lớn nhất cần giải quyết Nhiễu phát sinh từ việc thu thập thông tin không chính xác hoặc không đầy đủ Do đó, việc khử nhiễu là cần thiết để nâng cao chất lượng phân cụm dữ liệu.

Các bước chính trong quá trình phân cụm dữ liệu:

- Xây dựng hàm tính độ tương tự

- Xây dựng các tiêu chuẩn phân cụm

- Xây dựng mô hình cho cấu trúc cụm dữ liệu

- Xây dựng thuật toán phân cụm và các xác lập các điều kiện khởi tạo.

- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm

Phân cụm dữ liệu là một bài toán trong lĩnh vực học máy không giám sát, được áp dụng phổ biến để khai thác thông tin từ dữ liệu.

2.1.2 Một số ví dụ về Phân cụm dữ liệu

Phân cụm dữ liệu có thể được ứng dụng trong nhiều lĩnh vực khác nhau trong đời sống Ví dụ như:

Thương mại hiện nay đang chú trọng vào việc xác định nhóm dịch vụ được người tiêu dùng ưa chuộng nhất thông qua việc phân tích dữ liệu thu thập từ cơ sở dữ liệu bán hàng Việc này giúp các doanh nghiệp nắm bắt xu hướng tiêu dùng và tối ưu hóa chiến lược tiếp thị của mình.

Phân cụm dữ liệu là một phương pháp quan trọng trong việc biểu diễn dữ liệu Gene, giúp tổ chức và phân tích các phép đo gene một cách hiệu quả Việc áp dụng phân cụm không chỉ tối ưu hóa quá trình xử lý dữ liệu mà còn nâng cao khả năng nhận diện các mẫu và mối quan hệ trong tập hợp dữ liệu gene.

DNA Microarray là một tấm thủy tinh hoặc nhựa trên đó có gắn các đoạn DNA thành các hang siêu nhỏ Một tập hợp dữ liệu biểu diễn

Gene có thể được biểu diễn thành một ma trận giá trị thực Dữ liệu

Gene sẽ được phân cụm theo 2 cách Cách thứ nhất là nhóm các mẫu

Gene tương đồng có thể được hiểu là việc nhóm các dòng của ma trận D Một phương pháp khác là tổ chức các mẫu khác nhau dựa trên các hồ sơ tương ứng, ví dụ như nhóm các cột của ma trận D.

Phân cụm dữ liệu đóng vai trò quan trọng trong lĩnh vực sức khỏe tâm lý, giúp thúc đẩy và duy trì sức khỏe, cải thiện hệ thống chăm sóc sức khỏe, cũng như hỗ trợ công tác phòng chống bệnh tật và chăm sóc người khuyết tật Trong quá trình phát triển hệ thống chăm sóc sức khỏe, việc phân cụm dữ liệu cho phép xác định các nhóm dân cư có khả năng được hưởng lợi từ các dịch vụ cụ thể, từ đó nâng cao hiệu quả chăm sóc và hỗ trợ sức khỏe cộng đồng.

Phân cụm dữ liệu là một công cụ quan trọng trong nghiên cứu thị trường, giúp phân đoạn thị trường và xác định mục tiêu Qua việc phân chia thị trường thành các cụm có ý nghĩa, ví dụ như nhóm tuổi khác nhau, nghiên cứu hành vi tiêu dùng trở nên dễ dàng hơn.

- Phân cụm dữ liệu trong hoạt động phân đoạn ảnh: Phân đoạn ảnh là việc phân tích mức xám hay màu của ảnh thành các lát đồng nhất.

Trong phân đoạn ảnh, phân cụm dữ liệu thường được dùng để phát hiện biên của đối tượng trong ảnh.

- Trong địa lý: Phân lớp các động vật và thực vật và đưa ra các đặc trưng chung của chúng.

Web Mining là quá trình phân cụm dữ liệu, giúp khám phá các nhóm tài liệu quan trọng và có ý nghĩa trong môi trường Web Các lớp tài liệu này hỗ trợ việc khai thác tri thức từ dữ liệu, mở ra cơ hội mới cho việc phân tích và hiểu biết sâu sắc hơn về thông tin trực tuyến.

2.1.3 Các kiểu dữ liệu và độ đo tương tự

Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm sao cho các đối tượng trong cùng một cụm “tương tự”.

Việc tính toán khoảng cách giữa các đối tượng cho phép phân chia chúng thành các cụm khác nhau dựa trên độ tương tự Hàm tính độ tương tự giúp xác định mức độ tương đồng giữa hai đối tượng; giá trị của hàm càng lớn thì sự tương đồng càng cao và ngược lại.

Hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự.

Trong phân cụm dữ liệu, các đối tượng cần phân tích có thể bao gồm con người, ngôi nhà, tiền lương và các thực thể phần mềm Những đối tượng này thường được mô tả thông qua các thuộc tính của chúng.

Có hai cách phân loại các kiểu thuộc tính: Dựa trên kích thước miền (Domain size) và Dựa trên hệ đo (Measurement Scale).

2.1.3.1 Phân loại dữ liệu dựa trên kích thước miền

ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU

Phân đoạn ảnh

Phân đoạn ảnh là một yếu tố quan trọng trong nhiều lĩnh vực, đóng vai trò như một lĩnh vực nghiên cứu chính của phân cụm dữ liệu Quá trình phân đoạn ảnh phụ thuộc vào hệ thống phân tích hình ảnh, hình thức và cấu hình của ảnh, bộ chuyển đổi để chuyển đổi sang ảnh kỹ thuật số, cùng với đầu ra cuối cùng của hệ thống.

Phương pháp phân cụm dữ liệu đã được công nhận trong việc phân đoạn ảnh từ hơn ba thập kỷ trước, với các nỗ lực tiên phong vẫn là nền tảng hiện tại Cốt lõi của phương pháp này là xác định các véc tơ đặc tính tại mỗi điểm ảnh, bao gồm hàm số mật độ của ảnh và hàm số vị trí của điểm ảnh đó.

Tính năng trong clustering đóng vai trò quan trọng trong việc chuyển đổi hình ảnh và vị trí các phép đo thành các đặc điểm cụ thể Các cụm trong không gian tính năng phản ánh các phân đoạn hình ảnh, giúp nhận diện và phân loại hiệu quả hơn.

3.1.1 Định nghĩa phân đoạn ảnh:

Phân đoạn ảnh là quá trình tách ảnh đầu vào thành các miền riêng biệt, với mỗi miền đại diện cho một đối tượng, được gọi là ảnh con Để phân biệt các đối tượng này, mỗi ảnh con sẽ được gán nhãn riêng, tạo điều kiện thuận lợi cho các bước xử lý tiếp theo Thực chất, phân đoạn ảnh là một phép đối sánh mẫu, trong đó mỗi ảnh con chứa các thuộc tính như mật độ, màu sắc và kết cấu.

Là ảnh đầu vào với Nr dòng và Nc cột và giá trị quan sát xij với điểm ảnh (i, j), phép phân đoạn ảnh có thể được biểu diễn thành:

Bài viết chứa một tập hợp con các kết nối tọa độ điểm ảnh, trong đó không có đoạn nào chia sẻ vị trí điểm ảnh (s1 ∩ sj = ∅ ∀ i ≠ j), và phép chọn của các phân đoạn bao toàn bộ hình ảnh.

Xem xét sự hữu dụng của việc tạo ngưỡng một mức xám đơn giản để phân đoạn một ảnh cường độ tương phản cao Ảnh thang đo xám gốc

Hình trên biểu diễn một ảnh thang đo sang của mã vạch của một sách giáo khoa được scan trên một máy quét hình phẳng

Kết quả của tác vụ tạo ngưỡng cơ bản nhằm phân chia miền tối sáng trên vùng mã vạch được biểu diễn rõ ràng Các bước nhị phân hóa này thường được áp dụng trong hệ thống nhận diện ký tự, giúp tăng cường độ chính xác Quá trình tạo ngưỡng tác động đến điểm ảnh, phân chia chúng thành hai nhóm dựa trên phép đo cường độ một chiều.

Nhiều phân đoạn áp dụng cả hai phương pháp đo quang phổ và không gian, như máy quét quang phổ trong viễn thám Phép đo tại mỗi điểm ảnh tương ứng trực tiếp với nội dung của một mẫu.

Kết quả của việc tạo ngưỡng

3.1.2 Phân đoạn ảnh dựa vào phân cụm dữ liệu:

Hình ảnh của một hệ thống được mô tả trong phạm vi phân khúc

Hoffman và Jain đã áp dụng phân cụm bình phương lỗi trong không gian sáu chiều tính năng để tạo ra phân khúc đầu ra cho các phân đoạn Kỹ thuật này được cải tiến bởi Flynn và Jain và đã được sử dụng trong một so sánh có hệ thống gần đây về phân đoạn hình ảnh Do đó, đây có thể được xem là một trong những giới hạn kỹ thuật phân cụm lâu đời nhất, đã được triển khai trên nhiều hình ảnh khác nhau.

Tại mỗi điểm ảnh (i, j) trong hình ảnh đầu vào, các đo lường 3D được ký hiệu là (x_ij, y_ij, z_ij), trong đó x_ij là hàm tuyến tính của j (số cột) và y_ij là hàm tuyến tính của i (số hàng) Để ước lượng bề mặt 3D, một láng giềng k × k quanh (i, j) được sử dụng, cho phép tính toán n_ij = (n_ij^x).

Tại tọa độ (i, j), quá trình thường bắt đầu bằng việc xác định ít nhất một ô vuông phẳng phù hợp với các điểm 3D xung quanh Các véc tơ tính năng cho điểm ảnh tại (i, j) được biểu diễn dưới dạng sáu chiều, bao gồm các thành phần x, y, z và n.

Trong quá trình phân cụm, không phải tất cả các véc tơ tính năng của từng điểm ảnh đều được áp dụng do những lý do thực tiễn Việc xác định một phân khúc thông qua các véc tơ tính năng này là rất quan trọng để tối ưu hóa quy trình phân cụm.

Thuật toán CLUSTER, một phiên bản mở rộng của k-means, được áp dụng để gán nhãn phân đoạn cho từng điểm ảnh trong tập dữ liệu Nó có khả năng xác định nhiều cụm khác nhau, giúp cải thiện độ chính xác trong việc phân tích và xử lý hình ảnh.

Hoffman và Jain đã thử nghiệm với nhiều kỹ thuật phân nhóm khác nhau nhằm tối ưu hóa hiệu suất và độ chính xác Một trong những lợi thế nổi bật của phương pháp CLUSTER là khả năng tạo ra chuỗi cụm đầu ra, trong đó mỗi phân nhóm được sắp xếp theo thứ tự sản lượng và thống kê sự kết hợp giữa các cụm phân tách và phân tán Phân cụm tối ưu hóa các số liệu thống kê này được chọn làm một trong những cụm tốt nhất, với mỗi điểm ảnh trong hình ảnh được gán nhãn phân đoạn theo các trung tâm cụm gần nhất Tuy nhiên, khoảng cách tối thiểu không đảm bảo rằng phân đoạn được kết nối trong mặt phẳng hình ảnh, dẫn đến việc một thành phần kết nối sẽ gán nhãn mới cho các khu vực được chia sẻ trong cùng một nhóm Các bước tiếp theo bao gồm xét nghiệm bề mặt và sáp nhập các bản vá liền kề, kiểm tra sự hiện diện của mép nhăn hoặc nhảy cạnh giữa các phân đoạn gần nhau và ước lượng các thông số bề mặt.

Phân đoạn ảnh bằng phân cụm dữ liệu c ) b ) d )

Tiểu luận triết học Mác - Lê Nin bao gồm các phần chính như: Ảnh đầu vào, mặt bằng chính tắc của hình ảnh được chọn, và bước đầu phân đoạn với 19 nhóm giải pháp Những nội dung này sẽ giúp làm rõ các khía cạnh cơ bản của triết học Mác - Lê Nin trong việc phân tích và áp dụng vào thực tiễn.

CLUSTER 1000 sáu chiều mẫu từ hình ảnh như là một mẫu thiết lập d) Kết quả phân đoạn cuối cùng sau khi đã xử lý

Một hệ thống phân chia hình ảnh cho kết cấu được mô tả bởi Jain và

Farrokhnia đã áp dụng bộ lọc Gabor để trích xuất 28 định hướng và tính năng chọn lọc các kết cấu từ các láng giềng của từng điểm ảnh Sau đó, số lượng tính năng này được giảm xuống thông qua một quy trình lựa chọn tính năng, và các tính năng kết quả được tiền xử lý trước khi được nhóm lại bằng phương pháp CLUSTER.

Nhận dạng đối tượng và ký tự

Việc sử dụng các phân nhóm để xem nhóm đối tượng 3D cho mục đích công nhận đối tượng trong phạm vi dữ liệu đã được mô tả trong

Dorai và Jain đề cập đến các thuật ngữ liên quan đến việc xem một hình ảnh của một đối tượng từ bất kỳ góc nhìn nào Hệ thống này hoạt động theo cách tiếp cận phụ thuộc vào quan điểm, nhằm giải quyết vấn đề nhận diện đối tượng Mỗi đối tượng được công nhận sẽ được đại diện thông qua một thư viện hình ảnh chứa nhiều đối tượng tương tự.

Đối tượng 3D có nhiều ý nghĩa khác nhau, và mục tiêu của việc này là tránh sự kết hợp không rõ ràng giữa các hình ảnh Một chủ đề phổ biến là lập chỉ mục đối tượng, trong đó sử dụng hình ảnh chưa biết để chọn ra một tập hợp con các đối tượng trong cơ sở dữ liệu để so sánh và loại bỏ các điểm không liên quan Một trong những phương pháp tiếp cận là đánh chỉ sử dụng các khái niệm về các lớp xem, trong đó mỗi lớp xem đại diện cho một tập hợp các điểm chất lượng tương tự của đối tượng.

Đối tượng được phân loại thành các lớp dựa trên hình dạng tương đồng của các đặc điểm phổ Mỗi hình ảnh đầu vào tạo ra một véc tơ tính năng mô tả đối tượng, trong đó các tính năng véc tơ m l được tính toán bằng cách tổng hợp phân phối quang phổ H(h) từ dữ liệu phạm vi Điều này được thực hiện bằng cách xây dựng biểu đồ các giá trị chỉ số hình dạng liên quan đến bề mặt cong và tích lũy tất cả các đối tượng điểm ảnh vào từng thùng Việc bình thường hóa quang phổ giúp loại bỏ ảnh hưởng của diện tích đối tượng khác nhau, đảm bảo tính chính xác trong việc tính toán m l.

Với moment trung tâm khác m p 2 ≤ p ≤ 10 được định nghĩa là: m p = ∑ h (h−m l ) p H(ℎ)

Do đó các véc tơ đặc tính được biểu thị bằng R = ( m 1, m 2, …, m 10) nằm trong khoảng [-1,1]

Tại o = { O1, O2, …, On } là một tập hợp n đối tượng 3D trong cơ sở dữ liệu M D, cảnh thứ i của đối tượng j, Oij, được biểu diễn dưới dạng (Lij, Rij), trong đó Lij là nhãn của đối tượng và Rij là véc tơ đặc tính của nó.

Cho một tập đối tượng đại diện R i = {( L i j , R i j ), … ( L i j , R i j )} mà mô tả m cảnh của i đối tượng, mục tiêu là để lấy ra một phần của cảnh p i = {

Các cụm C 1 i , C 2 i ,… , C ki i trong p i chứa các cảnh của đối tượng thứ i, được phân loại dựa trên sự khác biệt giữa các thời điểm và các đặc trưng của hình quang phổ Các biện pháp so sánh giữa R i j và R k i được xác định để đánh giá sự tương đồng giữa các cảnh.

Phân cụm dữ liệu Cảnh (Views):

Hình dưới đây minh họa một tập hợp con các điểm của Rắn hổ mang được sử dụng trong thử nghiệm, trong đó hình dạng quang phổ được coi là véc tơ đặc tính và tính năng của nó được xác định Cảnh của từng đối tượng được phân loại dựa trên sự khác biệt D giữa véc tơ thời điểm của chúng thông qua kết nối Đề án clustering thứ bậc (Jain và Dubes 1988) Kết quả là các nhóm thứ bậc được hình thành từ 320 cảnh của đối tượng Rắn hổ mang.

Tiểu luận triết học Mác-Lênin trình bày một dendrogram thể hiện sự phân cấp của 9 đối tượng khác nhau Dendrogram này được cắt ở các mức độ khác nhau, như 0,1 hoặc thấp hơn, nhằm tạo ra các cụm nhỏ gọn và cách biệt Kết quả clustering cho thấy quan điểm của từng đối tượng rơi vào một số cụm khác nhau Các trọng tâm của mỗi cụm được xác định dựa trên trung bình của véc tơ thời điểm tương ứng với các lượt xem trong cụm đó.

Một tập con các cảnh của ảnh Rắn hổ mang được chọn từ 320 cảnh

Dorai và Jain (1995) đã chứng minh rằng việc phân nhóm dựa trên sự phù hợp của các đối tượng với các tiêu chí về tính chính xác và số lượng cần thiết cho phân loại chính xác Các đối tượng được tổ chức thành các cụm nhỏ gọn và đồng nhất, đảm bảo tính đồng nhất trong quá trình phân loại.

Tiểu luận triết học mác lê nin chứng tỏ sức mạnh của cluster dựa trên sơ đồ tổ chức xem và phù hợp với đối tượng có hiệu quả

Cấu trúc của một nhóm gồm 320 cảnh của một tác phẩm điêu khắc con rắn hổ mang

Kỹ thuật nhận dạng ký tự vào phân cụm dữ liệu, được phát triển bởi Connell và Jain (1998), giúp nhận diện lexemes trong văn bản viết tay cho mục đích công nhận độc lập của nhà văn Sự thành công của hệ thống nhận dạng chữ viết phụ thuộc vào mức độ chấp nhận của người sử dụng Hệ thống nhận dạng cho nhà văn yêu cầu một lượng lớn dữ liệu đào tạo để đạt được độ chính xác cao hơn so với các hệ thống độc lập Ngược lại, hệ thống độc lập cần nhận ra nhiều phong cách văn bản để phục vụ người dùng cá nhân Khi phong cách văn bản biến đổi, việc phân biệt giữa các lớp khác nhau trở nên khó khăn do sự chồng chéo trong không gian đặc tính Một giải pháp cho vấn đề này là tách dữ liệu từ các phong cách viết khác nhau thành các lớp con, gọi là lexemes, để đại diện cho các phần dữ liệu dễ nhận diện hơn.

Tiểu luận triết học mác lê nin dàng được tách ra từ các dữ liệu của các tầng khác hơn mà lexemes thuộc

Trong hệ thống này, chữ viết được số hóa thông qua tọa độ (x, y) và vị trí của cây bút cùng trạng thái điểm bút (lên hoặc xuống) với tỷ lệ lấy mẫu ổn định Sau khi thực hiện các bước lấy mẫu lại, bình thường hóa và làm mịn, mỗi nét bút được biểu diễn dưới dạng chuỗi biến điểm dài Một phương pháp đo lường dựa trên đàn hồi mẫu lập trình phù hợp và năng động được áp dụng để tính toán khoảng cách giữa hai nét bút.

Sử dụng các khoảng cách tính toán, một ma trận gần nhau được áp dụng cho từng loại chữ số Mỗi biện pháp ma trận khoảng cách cung cấp thông tin cho một lớp chữ số cụ thể Các chữ số trong một lớp đặc biệt được nhóm lại trong một thực nghiệm nhằm tìm ra một số lượng nhỏ các nguyên mẫu Quá trình phân cụm được thực hiện thông qua một chương trình chuyên dụng.

CLUSTER là phương pháp phân nhóm hiệu quả nhất cho từng giá trị K trong một khoảng nhất định, với K đại diện cho số lượng cụm dữ liệu cần phân vùng Dự đoán cho thấy rằng lỗi bình phương trung bình (MSE) giảm dần một cách liên tục theo hàm của K.

K Các “tối ưu” giá trị của K được chọn bằng cách xác định trong biểu đồ của MSE và K Khi đại diện cho một cụm chữ số của một mẫu thử nghiệm duy nhất, tốt nhất nhận diện kết quả được công nhận đã thu được bằng cách sử dụng các chữ số đó là gần nhất để tới trung tâm cụm Sử dụng sơ đồ này, tỷ lệ nhận diện chính xác lên đến 99,33 %.

Khai phá dữ liệu

Trong những năm gần đây, khối lượng dữ liệu ngày càng gia tăng, đòi hỏi sự phát triển của các thuật toán để trích xuất thông tin có giá trị từ kho dữ liệu khổng lồ Việc tìm kiếm những thông tin hữu ích giữa một lượng lớn dữ liệu được gọi là khai phá dữ liệu.

Khai phá dữ liệu có thể áp dụng cho các mối quan hệ, giao dịch và cơ sở dữ liệu không gian, cùng với các kho dữ liệu lớn có cấu trúc.

World Wide Web Có nhiều dữ liệu trong hệ thống khai thác sử dụng

Tiểu luận triết học Mác - Lê Nin hiện nay có nhiều ứng dụng thực tiễn, như việc Cục Ngân khố Hoa Kỳ phát hiện các hoạt động rửa tiền, hay Hiệp hội Bóng rổ Quốc gia sử dụng triết lý này để huấn luyện các huấn luyện viên nhận diện xu hướng và mô hình chơi của cầu thủ Bên cạnh đó, triết học cũng giúp phân loại các mô hình hành vi của trẻ em trong hệ thống chăm sóc nuôi dưỡng, góp phần nâng cao hiệu quả trong công tác xã hội.

1996) Một số tạp chí gần đây đã có những vấn đề đặc biệt về khai phá dữ liệu (1996 Cohen, Cross 1996, Wall 1996)

3.3.1 Khai phá dữ liệu bằng phương pháp tiếp cận:

Khai phá dữ liệu, tương tự như phân cụm dữ liệu, là một hoạt động thăm dò quan trọng Phương pháp phân cụm dữ liệu rất phù hợp để khai phá dữ liệu, thường được sử dụng như một bước khởi đầu trong nhiều quy trình khai phá dữ liệu Nhiều phương pháp khai phá dữ liệu áp dụng phân cụm để phân khúc cơ sở dữ liệu, tạo mẫu tiên đoán và trực quan hóa dữ liệu hiệu quả.

Phân đoạn là phương pháp phân cụm dữ liệu trong khai phá dữ liệu, giúp tổ chức cơ sở dữ liệu thành các nhóm đồng nhất Phương pháp này không chỉ hỗ trợ nén dữ liệu bằng cách làm việc với các cụm thay vì từng cá nhân, mà còn giúp nhận diện các đặc điểm của dân số tùy thuộc vào mục đích cụ thể, chẳng hạn như tiếp thị cho người cao tuổi.

Thuật toán K-means (Faber 1994) được áp dụng để phân cụm điểm ảnh trong hình ảnh Landsat, với mỗi điểm ảnh chứa 7 giá trị từ các vệ tinh khác nhau, bao gồm cả hồng ngoại Việc phân tích 7 giá trị này là thách thức đối với con người mà không có sự hỗ trợ Các điểm ảnh được nhóm thành 256 cụm, và mỗi điểm ảnh được gán giá trị của cụm trung tâm Hình ảnh sau đó được hiển thị với thông tin không gian nguyên vẹn, cho phép người xem xác định các khu vực quan tâm như đường cao tốc hoặc rừng và gán nhãn cho chúng Hệ thống sẽ nhận diện các điểm ảnh khác trong cùng một nhóm như là ví dụ cho khái niệm đã được xác định.

Tiểu luận triết học Mác - Lê Nin về dự đoán mẫu nhấn mạnh tầm quan trọng của việc phân tích dữ liệu trong thống kê Phương pháp này thường liên quan đến việc kiểm tra các mô hình giả thuyết mà các nhà phân tích đã hình dung Khai thác dữ liệu giúp người dùng phát hiện các giả thuyết tiềm năng trước khi áp dụng các công cụ thống kê Dự đoán mẫu sử dụng phân nhóm để tổ chức dữ liệu, từ đó suy luận ra các quy tắc để mô tả các nhóm và đề xuất các mô hình Chẳng hạn, người đăng ký tạp chí có thể được phân loại theo nhiều yếu tố như tuổi tác, giới tính, và thu nhập, nhằm tìm ra những mẫu đặc trưng trong nhóm kết quả.

Hình ảnh từ các cơ sở dữ liệu lớn có thể hỗ trợ nhà phân tích trong việc xác định các nhóm và nhóm con tương tự WinViz (Lee và Ong 1996) là một công cụ khai thác dữ liệu trực quan cho phép xuất ra nguồn gốc cụm như các thuộc tính mới Ví dụ, ngũ cốc ăn sáng có thể được phân nhóm dựa trên các yếu tố như calo, đạm, chất béo, natri, chất xơ, carbohydrate, đường, kali và vitamin Khi người dùng quan sát các cụm kết quả, họ có thể đề xuất các thuộc tính cho WinViz Hệ thống cho thấy một trong những cụm được đặc trưng bởi hàm lượng kali cao, và các nhà phân tích nhận diện các sản phẩm trong nhóm này như "gia đình ngũ cốc", dẫn đến kết luận rằng "ngũ cốc chứa nhiều chất kali".

3.3.2 Khai phá dữ liệu có cấu trúc lớn:

Khai phá dữ liệu thường áp dụng cho cơ sở dữ liệu quan hệ giao dịch, đồng thời xác định các lĩnh vực tiềm năng để sử dụng làm tính năng Gần đây, đã có nghiên cứu về cơ sở dữ liệu có cấu trúc lớn như World Wide Web (Etzioni 1996).

Gần đây, các nỗ lực phân biệt văn bản Web đã được thực hiện thông qua việc sử dụng từ ngữ và các chức năng của chúng, như được nêu bởi Maarek và Shaull (1995) Tuy nhiên, sự hạn chế về kích thước bộ mẫu đào tạo có nhãn và chiều sâu đã ảnh hưởng lớn đến thành công của việc tự động phân loại tài liệu Web dựa trên các tính năng từ ngữ.

Phương pháp phân cụm K-means đã được áp dụng để nhóm 5190 từ thành 10 nhóm, với kết quả ấn tượng là 92% các từ rơi vào một cụm duy nhất Điều này cho phép loại bỏ các cụm lớn để phục vụ cho việc khai thác dữ liệu Trong bối cảnh bình thường, các từ không xuất hiện thường xuyên sẽ tập trung thành các nhóm lớn khoảng 4000 từ, trong khi các thuật ngữ cụ thể sẽ xuất hiện trong các tài liệu liên quan đến điều kiện nhất định, như bằng sáng chế Sau khi loại bỏ cụm lớn nhất, các cụm nhỏ hơn có thể được sử dụng để xây dựng các truy vấn tìm kiếm tài liệu liên quan trên Web.

3.3.3 Khai phá dữ liệu trong Cơ sở dữ liệu địa chất:

Khai thác cơ sở dữ liệu đóng vai trò quan trọng trong thăm dò và sản xuất dầu mỏ, giúp tối ưu hóa quy trình trong ngành công nghiệp này Chi phí cho mỗi khoan mới thường rất cao, do đó, việc áp dụng hệ thống khoan hiệu quả có thể giảm đáng kể chi phí sản xuất tổng thể.

Tiến bộ trong công nghệ khoan và thu thập dữ liệu đã giúp các công ty dầu mỏ thu thập lượng lớn dữ liệu địa vật lý từ giếng sản xuất và các trang web thăm dò Những dữ liệu này được tổ chức thành các cơ sở dữ liệu lớn, cho phép áp dụng kỹ thuật khai thác dữ liệu để phân tích mối quan hệ giữa các hiện tượng quan sát và các thông số Các mối quan hệ này sau đó có thể được sử dụng để định lượng dầu và khí đốt một cách chính xác.

Chất lượng trữ lượng tốt phục hồi với hàm lượng hydrocarbon cao đang bị mắc kẹt trong các trầm tích xốp, bao quanh bởi nhiều loại đá cứng, giúp ngăn chặn sự rò rỉ dầu khí.

Tiểu luận triết học Mác-Lênin nhấn mạnh tầm quan trọng của trầm tích xốp trong việc dự trữ và phục hồi tài nguyên hiệu quả Việc phát triển các phương pháp đáng tin cậy và chính xác để dự đoán trầm tích từ dữ liệu thu thập là cần thiết nhằm ước tính tiềm năng dầu khí Các chuyên gia thường áp dụng công thức tính toán độ xốp: Độ xốp = K e −F(x 1 , x 2 , … ,x m ) Depth.

Mã vùng so với bản đồ đơn vị địa tầng của một khu vực nghiên cứu

Thuật toán phân cụm dữ liệu K-means đã được sử dụng để xác định một tập các đồng nhất cấu trúc địa chất nguyên thủy ( g 1, g 2,…, g m ).

Tiêu đề	Tìm Hiểu Về Kĩ Thuật Phân Cụm
Tác giả	Nguyễn Văn Hoàng, Lê Đăng Huy, Nguyễn Văn Hưng, Hoàng Thị Hường
Trường học	Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành	Công Nghệ Thông Tin Và Kinh Tế Số
Thể loại	Báo Cáo Chuyên Đề Tự Chọn
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	44
Dung lượng	816,52 KB