3.3 Học máy và các bộ phân loại
Học máy (Machine Learning) là một lĩnh vực của khoa học máy tính giúp cho máy tính khả năng học mà khơng cần được lập trình rõ ràng. Các hệ thống sử dụng học máy cung cấp khả năng tự động học hỏi và cải thiện từ kinh nghiệm. Phân loại (classification) là một bài tốn cơ bản và phổ biến trong học máy, được áp dụng trong rất nhiều lĩnh vực như tín dụng, tiếp thị, chẩn đốn y tế, .... Một ứng dụng điển hình là bài tốn phân loại thư rác. Phát hiện bệnh nhân tâm thần phân liệt thể Paranoid dựa vào tín hiệu EEG là một trong các ứng dụng của thuật tốn phân loại trong lĩnh vực chẩn đốn y tế. Dữ liệu đầu vào là các đặc trưng được trích xuất từ tín hiệu điện não của các đối tượng khỏe mạnh và bệnh nhân tâm thần phân liệt được gán nhãn lớp tương ứng; 1 tương ứng với bệnh nhân (dương tính) hoặc 0 tương ứng với người khỏe mạnh (âm tính). Vì nhãn lớp chỉ cĩ hai trường hợp (dương tính hoặc âm tính) nên đây là bài tốn phân loại nhị phân.
3.3.1 Các phương pháp học
Tùy thuộc vào cách sử dụng dữ liệu đầu vào, các giải thuật học máy được phân loại thành 2 loại chính là học cĩ giám sát và học khơng giám sát.
●Học cĩ giám sát (Supervised Learning): Phần lớn các ứng dụng học máy
thực tế đều sửdụng phương pháp học cĩ giám sát. Trong phương pháp này, các dữ
liệu đầu vào được gán nhãn (hay cịn gọi là đầu ra), quá trình học là quá trình suy luận mối quan hệ giữa đầu vào và đầu ra. Mục đích của phương pháp học này là xây dựng hàm ánh xạ từ dữ liệu đầu vào đến dữ liệu đầu ra; để cĩ thể dự đốn các biến đầu ra cho dữ liệu đầu vào mới. Các bộ dữ liệu của phương pháp này (gồm dữ liệu và nhãn) được gọi là dữ liệu huấn luyện. Học cĩ giám sát xem xét các tập huấn luyện này để cĩ thể đưa ra dự đốn đầu ra cho một đầu vào mới. Ví dụ như phân loại email rác hay dự đốn giá nhà.
34
● Học khơng giám sát (Unsupervised Learning): Phương pháp học khơng giám sát sử dụng những dữ liệu chưa được gán nhãn để suy luận; do đĩ, thường được sử dụng để tìm phân cụm tập dữ liệu..
Bài tốn phát hiện chứng tâm thần phân liệt thể Paranoid cĩ đầu vào là các cặp dữ liệu điện não và nhãn (bệnh nhân hoặc đối chứng khỏe mạnh), do đĩ sử dụng phương pháp học cĩ giám sát.
3.3.2 Các tập dữ liệu trong học máy
Quá trình xây dựng một mơ hình học máy cĩ thể tĩm gọn lại trong các bước
như trong Hình 4-6, dữ liệu sau khi thu thập, làm sạch và chuẩn hĩa được tính tốn
các đặc trưng cho từng nhĩm đối tượng, xây dựng các mơ hình học máy phù hợp với từng yêu cầu cụ thể, cuối cùng là đánh giá mơ hình vừa xây dựng dựa trên một số thơng số (sẽ được trình bày ở phần ngay sau).