Nhận dạng mẫu và bài toán phân loại

Một nhiệm vụ phổ biến khác trong nhận dạng dữ liệu là phân dữ liệu nhận được thành các nhóm với các đặc điểm biết trước. Ví dụ, phân loại trạng thái của đối tượng dựa trên các thông số đo đạc được thành các trạng thái bình thường và trạng thái hư hỏng. Để thực hiện việc phân loại, trước hết cần định nghĩa thế nào là bình thường và hư hỏng. Sau đó, dữ liệu thu được sẽ được so sánh với mục tiêu bình thường hay hư hỏng đã được định nghĩa. Nói cách khác, nhiệm vụ của bài toán phân loại là gán nhãn cho dữ liệu nhận được theo nhãn (mục tiêu) đã được định nghĩa trước. Như vậy, thuật toán phân loại thuộc về học có thầy (Supervised learning). Ở đây, cần có dữ liệu đã được gán nhãn trước dùng để huấn luyện cho mô hình (training data). Mô hình sau khi được huấn luyện sẽ có khả năng nhớ các mẫu dữ liệu với các nhãn phù hợp và có thể sử dụng để phân loại dữ liệu mới. Quá trình này tương tự như việc học kinh nghiệm của con người. Khi đã có kinh nghiệm, con người có khả năng suy luận để nhận dạng các tình huống tương tự trong thực tế.

Bảng 3-2. So sánh phân cụm và phân loại

Thuật toán phân cụm Thuật toán phân loại

Học không có thầy (unsupervised learning) Học có thầy (supervised learning) Dữ liệu có ít thông tin, không biết trước số nhóm Biết trước số nhóm

Trích xuất đặc điểm bằng cách tự tìm thuộc tính từ

dữ liệu (tính tương tự/không tương tự)

Phân loại bằng cách tham chiếu dữ liệu cho trước với nhãn đã cho

Hình 28. Mô hình phân cụm và phân loại

Thuật toán phân loại

Bài toán phân loại được thực hiện theo thuật toán học có thầy như mô tả ở Hình 29. Giống như các thuật toán xử lý dữ liệu khác, bài toán được định nghĩa và dữ liệu yêu cầu cho bài toán được thu thập và xử lý sơ bộ. Công việc xử lý sơ bộ có thể sử dụng các công cụ lọc nhiễu (noise, outlier filtration), làm trơn (smoothing) hay chuẩn hóa (standardization) để làm mất đơn vị của các đại lượng vật lý. Dữ liệu thu thập được cho bài toán phân loại là dạng dữ liệu có gán nhãn (labels), với giá trị các biến đo được và đích (nhãn) tương ứng.

Hình 29. Thuật toán huấn luyện cho bài toán phân loại

Dạng chung của dữ liệu sử dụng để huấn luyện mô hình phân loại như ở Bảng 3-3. Trong đó, x1 - xn là giá trị các biến đặc điểm đặc trưng cho trạng thái của đối tượng trong không gian n chiều. Cột cuối là giá trị nhãn hay là đích (target) của véc tơ dữ liệu tương ứng (các nhãn chính là tập hợp các trạng thái cần được phân loại, số nhãn chính là số trạng thái được định nghĩa).

Dữ liệu sau khi xử lý được chia thành hai bộ: bộ dữ liệu cho huấn luyện và bộ dữ liệu kiểm tra. Bộ dữ liệu huấn luyện được đưa vào mô hình nhằm đảm bảo rằng mô hình “nhớ” các giá trị của biến thuộc tính với nhãn tương ứng. Sau đó, mô hình được kiểm tra bằng cách sử dụng bộ dữ liệu kiểm tra. Một mô hình được huấn luyện tốt sẽ có khả năng nhận dạng đúng các giá trị đích khi đưa vào các mẫu dữ liệu kiểm tra. Độ chính xác của mô hình được huấn luyện được đánh giá bằng tỷ số giữa số mẫu nhận dạng đúng và tổng số mẫu kiểm tra.

Nếu mô hình được huấn luyện có độ chính xác thấp có thể do chất lượng dữ liệu đầu vào không tốt (dữ liệu không đặc trưng cho các trạng thái của đối tượng), số lượng mẫu dữ liệu không đủ, dữ liệu chưa được xử lý phù hợp, hay thuật toán sử dụng cho bài toán phân loại không phù hợp. Khi đó cần phải xem xét lại bài toán để điều chỉnh cho phù hợp.

Mô hình sau khi được huấn luyện với độ chính xác cao có thể sử dụng như là một bộ phân loại. Khi đó, nếu đưa vào mô hình một véc tơ dữ liệu mới (chưa có nhãn hay đích), mô hình sẽ gán mẫu dữ liệu đó vào một trong các nhãn trạng thái đã quy định.

By Assoc. Prof. PhD. Le Van Diem – Faculty of Marine Engineering VIETNAM MARITIME UNIVERSITY

Bảng 3-3. Dạng bảng dữ liệu huấn luyện mô hình phân loại

Thứ tự mẫu Biến x1 Biến x2 … … Biến xn Loại 1 Tốt 2 Xấu … Hư hỏng … … N …

Như vậy, bài toán phân loại có thể được mô tả qua hai bước: Xây dựng mô hình (Model construction) và sử dụng mô hình (Model usage).

Model construction:

- Định nghĩa một tập hợp các lớp trạng thái mong muốn (labels/targets);

- Các mẫu dữ liệu được thu thập thuộc về một trong các lớp trạng thái đã định nghĩa hay thu thập có chủ đích. Ví dụ, người ta đặt động cơ diesel ở các chế độ bình thường, hư hỏng vòi phun, hư hỏng xéc măng, v.v., và đo lại dữ liệu tương ứng ở các trạng thái đó;

- Bộ dữ liệu sử dụng để xây dựng mô hình gọi là training data;

- Mô hình phân loại được mô tả dựa trên các thuật toán như: classification rules, decision trees, or mathematical formulae.

Model usage:

- Mô hình đã xây dựng được dùng để phân loại dữ liệu mới (nhận dạng, gán dữ liệu mới vào một trong các lớp trạng thái);

- Cần phải đánh giá độ chính xác của mô hình xây dựng trước khi sử dụng;

- Dữ liệu kiểm tra (testing data) được đưa vào phân loại sử dụng mô hình xây dựng được. Độ chính xác là tỷ lệ các mẫu kiểm tra được mô hình phân loại chính xác; - Test data set phải độc lập với training data set.

Có thể sử dụng các giải thuật phân loại dữ liệu khác nhau sau: - Phân loại với cây quyết định (decision tree);

- Phân loại với luật xác suất Bayesian; - Support Vector Machines;

- Phân loại với mạng nơ ron nhân tạo (neural networks); - Phân loại với k phần tử cận gần nhất (k-nearest neighbor);

- Phân loại với suy diễn dựa trên tình huống (case-based reasoning); - Phân loại dựa trên thuyết tiến hoá gen (genetic algorithms); - Phân loại với lý thuyết tập thô (rough sets);

- Phân loại với lý thuyết tập mờ (fuzzy sets).

Support Vector Machines tu Support Vector Machines toán phân loại. Trong mô hình cùng với nhãn của chúng thuộ xem một điểm dữ liệumớisẽ đư một vector p-chiều, và ta mu (hyperplane) p − 1 chiều. Đây được dữ liệu. Một lựa chọn h 30).

Ta có một tập huấn luyện

vớiyimang giá trị 1 hoặc −1 thựcp-chiều. Ta cần tìm siêu p

điểm có .

Hình 30. Siêu phẳng

Mỗi siêu phẳng đều có th

với “ ” kí hiệu cho tích vô hướ xác định khoảng cách giữa gố

Chúng ta cần chọn và ở xa nhau nhất có thể trong kh các phương trình

Nếu dữ liệu huấn luyện có phẳng của lề sao cho không c chúng đến tối đa có thể.

Khoảng cách (trực giao) t

tuyến tính

es là một công cụ phổ biến trong luật học máy đư ình học có giám sát, thuật toán được cho trước m ộc một trong hai lớp cho trước. Mục tiêu của thu được thuộc về lớp nào. Mỗi điểm dữ liệu được b uốn biết liệu có thể chia tách hai lớp dữ liệu bằ Đây gọi là phân loại tuyến tính. Có nhiều siêu phẳ

hợp lý trong chúng là siêu phẳng có lề lớn nhất n gồmnđiểm có dạng:

−1, xác định một trong hai lớp của điểm . M u phẳng có lề (margin) lớn nhất chia tách các điểm

ng với lề cực đại cho một SVM phân tách dữ liệu t

thể được viết dưới dạng một tập hợp các điểm t

ớng và là một vectơ pháp tuyếncủa siêu ph ốc tọa độ và siêu phẳng theo hướng vectơ pháp tu và để cực đại hóa lề, hay khoảng cách giữa hai khi vẫn phân chia được dữ liệu. Các siêu mặt ấy đư

và

có thể được chia tách một cách tuyến tính, thì ta c có điểm dữ liệu nào ở giữa chúng và sau đó tăng ) từ điểm xi đến mặt hyperplane w.x + b = 0 là:

được sử dụng cho bài một số điểm dữ liệu thuật toán là xác định c biểu diễn dưới dạng ằng một siêu phẳng ẳng có thể phân loại t giữa hai lớp (Hình Mỗi là một vectơ m có và các u thuộc hai lớp thỏa mãn: phẳng. Tham số tuyến .

ai siêu mặt song song y được xác định bằng a có thể chọn hai siêu ăng khoảng cách giữa

b11

b12 b21 b22

By Assoc. Pro || || | | w x w⋅ i +b , với ||w|| là Bằng hình học, khoảng c cực tiểu của giá trị . Để kiện sau, với mỗi ta có:

hoặc

Có thể viết gọn lại như sa

Tóm lại, ta có bài toán tốiư Cực tiểu hóa (theo Thuật toán trên cũng có t trường hợp dữ liệu không thể phẳng phân tách dữ liệu thành phân tách các dữ liệu huấn luy phẳng với các ví dụ được gán đ Thuật toán k láng giềng gầ

Khi dữ liệu được biểu diễ thành nên khái niệm láng giền thuật. Một giả định quan trọng thái của đối tượng thuộc cùng gian dữ liệu, một vùng dữ liệu sẽ phản ánh cùng một loại tr các bộ dữ liệu có cùng kiểu sẽ chúng sẽ là “láng giềng” của n này, có thể phát triển một thuậ nhưng hiệu quả gọi là “k - Thuật toán k-nearest neighbor

- Có tập dữ liệu p thuộc tính và (labels/targets) – d - Khi có dữ liệu m khoảng cách từ d data points đã b huấn luyện;

rof. PhD. Le Van Diem – Faculty of Marine Engi VIETNAM MARITIME UNIVERSITY là norm của w.

cách giữa hai siêu phẳng được xác định là đảm bảo không có điểm dữ liệu nào trong lề, ta

thuộc lớp thứ nhất,

thuộc lớp thứ hai. ư sau với mọi :

i ưu hóa sau:

) giá trị với điều kiện (với m ó thể được mở rộng cho bài toán phân loại nhiều ể phân tách tuyến tính, nghĩa là không thể tìm nh hai lớp, có thể sử dụng thuật toán lề mềm để ch luyện tốt nhất có thể, và đồng thời cực đại hóa kho

n đúng nhãn.

ần nhất (k-nearest neighbor)

ễn dưới dạng các phần tử trong không gian nhi ng.Giả sử chúng ta muốn dự báo trạng thái củ ng đặt ra là các phản ứng tương tự của đối tượng ng một lớp. Trong không

uvới các điểm gần nhau trạng thái. Nói khác đi, ẽ phân bố gần nhau vào a nhau. Dựa trên ý tưởng ật toán học rất đơn giản láng giềng gần nhất”. or thực hiện như sau: phân loại với các biến

và biết trước loại dữ liệu huấn luyện; mới cần phân loại, tính

data point mới đến các biết trong tập dữ liệu

Unknow

Hình 31. Phâ

gineering

. Như vậy, cần tìm ta thêm vào các điều

mọi )

u hơn hai lớp. Trong m được một siêu mặt chọn một siêu phẳng hoảng cách giữa siêu

ều chiều thì sẽ hình ủa một đối tượng kỹ ng sẽ phản ánh trạng

wn record

- Chọn k số data points lân cận với điểm dữ liệu mới và gán cho nó nhãn nào có số điểm dữ liệu nhiều nhất trong k điểm lân cận đã chọn.

Trong ví dụ trên Hình 32, với k = 3 thì số điểm dữ liệu mang nhãn “+” chiếm tuyệt đối. Như vậy, điểm dữ liệu mới sẽ thuộc về lớp mang nhãn “+”. Tương tự, trên Hình ---, nếu chọn k là các giá trị khác nhau (1, 2 hoặc 3), điểm dữ liệu mới có thể được phân loại khác nhau. Nếu k = 1, dữ liệu sẽ thuộc về lớp mang nhãn “-”. Khi k = 2, dữ liệu mới không thể phân loại do số điểm lân cận mang nhãn “+” và nhãn “-” là như nhau (đều là 1). Khi tăng k = 3, điểm dữ liệu mới sẽ thuộc về lớp mang nhãn “+” do số điểm lân cận mang nhãn này chiếm đa số (2 so với 1).

Hình 32. Phương pháp k-nearest neighbor với các giá trị k khác nhau

Đối với biến trị khoảng cách, với dữ liệu dạng số thường chọn khoảng cách Euclidean: − = i i i q p q p d( , ) ( )2 .

Dễ thấy việc chọn giá trị k sẽ ảnh hưởng đến kết quả bài toán phân loại. k quá nhỏ thì kết quả dễ bị ảnh hưởng bởi nhiễu, nếu k quá lớn thì nhiều phần tử lân cận chọn được có thể đến từ các lớp khác (Hình 33).

X X X

(a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor

By Assoc. Prof. PhD. Le Van Diem – Faculty of Marine Engineering VIETNAM MARITIME UNIVERSITY

Chương 4- Mạng nơron nhân tạo và một số ứng dụng trong chẩn đoán kỹ

thuật 4.1. Giới thiệu chung

Phương pháp hiện đại giải các bài toán phi tuyến phức tạp

Toán học truyền thống (giải tích, đại số, logic) được phát triển cùng với sự phát triển của lịch sử nhân loại. Ngày nay, toán học truyền thống được ứng dụng để giải các bài toán thực tế trong tất cả các lĩnh vực của đời sống. Ví dụ việc áp dụng các hàm giải tích tuyến tính, đa thức, hàm mũ, logarithm, v.v., để giải các bài toán thực tế. Khi đó quan hệ giữa các biến vào và ra của mô hình là quan hệ rõ được mô tả bằng các hàm toán học đã biết. Những mô hình như vậy được gọi là mô hình tham số (Hình 34). Trong trường hợp quan hệ giữa các biến vào và ra của mô hình không biết trước hoặc không cần biết trong khuôn khổ nhiệm vụ nghiên cứu thì mô hình được gọi là mô hình không tham số hay mô hình hộp đen (Hình 35). Mô hình hộp đen thường được ứng dụng khi không biết rõ các quan hệ giữa các biến vào và ra, hoặc khi quan hệ giữa chúng quá phức tạp để có thể giải bằng các công cụ toán học thông thường.

Hình 34: Mô hình tham số và không tham số

Thực tế có rất nhiều bài toán đa biến và không tuyến tính mà việc áp dụng các công cụ toán học truyền thống, hay mô hình tham số, để giải là rất khó khăn và thường không đem lại kết quả tốt. Cùng với sự phát triển của công nghệ tính toán số, ngày nay nhiều mô hình trí tuệ nhân tạo (Artificial Intelligent1) được phát triển đã giúp giải quyết những bài toán như vậy tốt hơn nhiều.

Các khái niệm như Trí tuệ nhân tạo (Artificial Intelligent), Thuật máy học (Machine Learning) hay Lập trình tuyến tính (Linear Programing) ngày càng trở nên phổ biến và trở thành các công cụ tính toán hiệu quả để giải các bài toán phi tuyến, đa tham số.

Bằng những thuật toán thích nghi phù hợp, dạng mô hình này cho phép tính toán các thông số đầu ra trong khi các quan hệ bên trong mô hình là ẩn đối với người nghiên cứu. Mạng nơ ron nhân tạo (Artificial Neural Networks – ANN) là một trong những dạng mô hình như vậy.

Hình 35: Mô hình hộp đen (Black box)

Mạng nơ ron nhân tạo – Hệ thích nghi (Neural Adaptive System)

Dựa trên cơ sở mô phỏng khả năng tư duy, tính toán và đưa ra kết luận của bộ não con người, mạng nơ ron nhân tạo được xây dựng bằng cách “học” từ các số liệu đưa vào (giống như con người học kinh nghiệm từ thực tế cuộc sống). Mạng sau khi được học từ các dữ liệu cho trước sẽ cho phép tính toán (nhận dạng) để đưa ra các kết luận trong hiện tại và tương lai. Bằng cách như vậy, có thể áp dụng công nghệ ANN trong nhiều lĩnh vực khoa học kỹ thuật và đời sống, trong đó có nhiệm vụ chẩn đoán và dự báo kỹ thuật.

Hình 36: Nơ ron sinh học và nơ ron nhân tạo

Mạng nơ ron nhân tạo có thể hiểu là một mô hình xử lý thông tin bao gồm số lượng lớn các mối gắn kết cấp cao để xử lý các yếu tố làm việc trong mối liên hệ giải quyết vấn đề rõ ràng.

người. Một số dạng mô hình ứng dụng Trí tuệ nhân tạo gồm có Hệ chuyên gia (Expert System), Logic mờ (Fuzzy logic), Mạng nơ ron nhân tạo (ANN), Thuật tiến hóa (Evolutionary computation), Thuật di truyền (Genetic

By Assoc. Prof. PhD. Le Van Diem – Faculty of Marine Engineering VIETNAM MARITIME UNIVERSITY

ANNs giống như con người, được học bởi kinh nghiệm, lưu những kinh nghiệm hiểu biết và sử dụng trong những tình huống phù hợp trong hiện tại hoặc dự đoán tương lai.

Có thể so sánh sự tương tự giữa trí óc con người với mạng nơ ron nhân tạo qua bài toán

Nhận dạng mẫu và bài toán phân loại

Cơ sở lý thuyết về ANN

Một số dạng mạng ANN