Giả sử ta có một tập hữu hạn X = {x1, x2, …, xm} các đối tượng, mỗi đối tượng xi được đặc trưng bởi n tham số nào đó ( như vậy ta hoàn toàn có thể coi X là một tập con, hữu hạn trong không gian Euclid n chiều Rn). Vấn đề đặt ra là: Hãy chia tập X thành K tập con G1, G2, …, GK ( với K ≥ 2); sao cho:
i. Gi ; với i = 1, 2, . ., k
ii. Gi Gj ; với i, j ; i≠j và 1 ≤ i,j ≤ K (2.1) iii. Gi X
k
i
1
Sao cho tổn thất là bé nhất và tốc độc chấp nhận được trong thực tế.
Bài toán này có ý nghĩa thực tiễn quan trọng trong nhiều lĩnh vực Khoa học Kỹ thuật, Tin học, Kinh tế Xã hội và đặc biệt là trong An ninh Quốc phòng, như: phân biệt giọng nói của một đối tượng hình sự nào đó với giọng nói của người khác; hoặc phân biệt các ngôn ngữ tự nhiên thuộc một lớp các ngôn ngữ nào đó trong An ninh thông tin khi kiếm soát tự động thư tín điện tử Internet…
23 i. Trường hợp số K là đã biết. ii. Trường hợp số K là chưa biết.
Cách giải quyết bài toán nhận dạng các ngôn ngữ tự nhiên:
1. Xây dựng cơ sở dữ liệu về đặc trưng của các ngôn ngữ.
2. Xây dựng ma trận chuyển trạng thái cho ngôn ngữ đã cho trong cơ sở dữ liệu; tính ước lượng ma trận chuyển trạng thái tương ứng cho mỗi ngôn ngữ.
3. Giải quyết bài toán nhận dạng các ngôn ngữ tự nhiên trong trường hợp số lớp K là đã biết và số lớp K là chưa biết.