Học máy là một lĩnh vực nghiên cứu liên quan đến các thuật tốn học từ các mẫu cĩ sẵn. Phân loại là một bài tốn cơ bản và quan trọng trong học máy, cĩ ứng dụng rộng rãi trong rất nhiều lĩnh vực. Thuật tốn phân loại sử dụng các thuật tốn học máy học cách gán nhãn lớp cho các mẫu. Một ví dụ dễ hiểu là phân loại email là "spam" hoặc "khơng phải spam". Phân loại thuộc về loại học máy cĩ giám sát (supervised learning) trong đĩ các dữ liệu đầu vào bao gồm các thuộc tính của mẫu và nhãn lớp tương ứng. Phân loại được ứng dụng trong nhiều lĩnh vực như phê duyệt tín dụng, chẩn đốn y tế, tiếp thị mục tiêu, v.v.
Bài tốn phát hiện bệnh nhân tâm thần phân liệt thể paronoid dựa vào tín hiệu EEG là một trong các ứng dụng của thuật tốn phân loại trong lĩnh vực chẩn đốn y tế. Dữ liệu đầu vào là các đặc trưng được trích xuất từ tín hiệu EEG của
49 các đối tượng khỏe mạnh và đối tượng tâm thần phân liệt; cùng với nhãn lớp tương ứng (dương tính hoặc âm tính). Vì nhãn lớp chỉ cĩ hai trường hợp (dương tính hoặc âm tính) nên đây là bài tốn phân loại hai lớp, hay phân loại nhị phân.
Phần này trình bày một số bộ phân loại cơ bản trong học máy cĩ thể ứng dụng vào phân loại tín hiệu của bệnh nhân tâm thần phân liệt thể paranoid và các đối chứng khỏe mạnh.
Tùy thuộc vào cách sử dụng dữ liệu đầu vào, các giải thuật học máy được phân loại thành 2 loại chính là học cĩ giám sát và học khơng giám sát.
• Học cĩ giám sát (Supervised Learning): Các dữ liệu đầu vào được gán nhãn (nhãn hay gọi là đầu ra), quá trình học là quá trình suy luận mối quan hệ giữa đầu vào và đầu ra. Từ mối quan hệ này cĩ thểxác định đầu ra cho dữ liệu mới. Các bộ dữ liệu này (gồm dữ liệu và nhãn) được gọi là dữ liệu huấn luyện. Học cĩ giám sát sẽ xem xét các tập huấn luyện này để từ đĩ cĩ thể đưa ra dự đốn đầu ra cho một đầu vào mới. Ví dụ như dự đốn giá nhà hay phân loại email.
• Học khơng giám sát (Unsupervised Learning): Học khơng giám sát sử dụng những dữ liệu chưa được gán nhãn để suy luận. Phương pháp này thường được sử dụng để tìm phân cụm tập dữ liệu. Do khơng cĩ nhãn (đầu ra được xác định trước) nên khơng cĩ phương pháp đánh giá được cấu trúc vừa tìm ra.
Bài tốn phát hiện chứng tâm thần phân liệt cĩ đầu vào là các cặp dữ liệu điện não và nhãn (bệnh nhân hoặc đối chứng khỏe mạnh), do đĩ sử dụng phương pháp học cĩ giám sát.
Trong bài tốn phân loại, cĩ rất nhiều bộ phân loại với các thuật tốn, ứng dụng và hiệu suất rất khác nhau. Với bài tốn phân loại nhị phân, cĩ thể kểđến một vài thuật tốn phân loại hiệu quả như Support Vector Machine, Decision Tree, K-Nearest Neighbor, Nạve Bayes…