Huấn luyện mơ hình phân loại

3.5.6.1 Lựa chọn và xây dưng mơ hình phân loại

Cĩ nhiều kiểu mơ hình ANN với mơi loại cĩ những ưu điểm và nhược điểm riêng của nĩ. Trong quá trình nghiên cứu đề tài này ở đồ án nâng cao, chúng tơi nhận thấy mơ hình ANN theo kiến trúc Cascade Forward Neural Network (CFNN) cho kết quả tốt nhất về thời gian huấn luyện và hiệu quả phân loại khi áp dụng cho mục tiêu nghiên cứu của chúng tơi. Ngồi ra, theo

[57] đã khảo sát, CFNN cũng cho kết quả tốt hơn so với nhiều mơ hình khác. Vì vậy trong nghiên cứu này chúng tơi quyết định sử dụng mơ hình này để phân loại trạng thái cảm xúc.

Kiến trúc của CFNN là tương tự như kiến trúc mạng Multi-Layer-Perceptron nhưng bổ sung thêm các liên kết cho mơi nơ-ron ở các lớp với tất cả các nơ-ron ở lớp phía sau của nĩ. Mối liên kết thêm này cĩ tác dụng tăng tốc độ huấn luyện của mơ hình khi cĩ một các đặc trưng trội hơn so với đặc trưng khác vì giá trị và trọng số của nĩ se được truyền thẳng đến các lớp kế tiếp mà khơng cần thơng qua hàm truyền của lớp mạng mà nĩ thuộc về.

Hình 3.24 Kiến trúc của CFNN [57].

Với kiến trúc này, hàm số của output ở mơi lớp h trong mạng CFNN se là hàm tổng của tất cả các input của lớp đĩ và tất cả các input trước đĩ:

Oh = fh(Ih, Ih-1, …, Iinput)=Ih*Wh + Ih-1*Wh-1+…+Iinput*Winput + bh (32)

Với h là lớp đang xét,Oh hay fh là đầu ra của lớp h, Ih là vector input của lớp thứ h và Iinput là vector dữ liệu đầu vào để huấn luyện (Input ban đầu của mạng). Tương tự, Wh và bh lần lượt là vector Weight và giá trị bias tại lớp thứ h.

Việc lựa chọn cấu trúc của một mơ hình như số lớp ẩn, số nơ-ron ở mơi lớp cĩ ảnh hưởng lớn đến hiệu quả huấn luyện và phân loại của mơ hình đĩ. Việc xác định các thơng số này cĩ nhiều cách được đưa ra nhưng chưa thực sự cĩ cách nào chuẩn hố cho nên khi huấn luyện cần thực hiện việc lựa chọn các thơng số nhiều lần để xác định mơ hình tối ưu nhất. Một vài điều cần lưu ý khi lựa chọn các thơng số này như [16]:

- Số nơ-ron khơng được quá ít hoặc quá nhiều dẫn đến tình trạng “underfit” hoặc “overfit”. Quá ít là khi số nơ-ron khơng đủ để tạo thành một giới hạn phân tách các các nhĩm input ở mơi lớp. Quá nhiều là khi số nơ-ron tạo thành giới hạn ơm sát tồn bộ các nhĩm input dẫn đến mơ hình này chỉ đúng đối với dữ liệu đã dùng để huấn luyện.

- Số lớp ẩn thường từ 1 đến 3 lớp tuỳ vào độ phức tạp trong sự phân bố của các nhĩm input. Nếu các nhĩm input cĩ thể phân tách nhau bằng một đường cong hoặc một mặt phẳng thì ta chỉ cần một lớp ẩn. Nếu sự phân bố của các nhĩm cĩ thể phân chia thành các khối (cụm) trong khơng gian 3 chiều thì ta se chọn thường từ 2 đến 3 lớp ẩn tuỳ vào số cụm của nhĩm input.

Trong nghiên cứu này, để cĩ thể xác định được các tham số phù hợp, chúng tơi xem xét sự phân bố của kết quả giảm chiều dữ liệu nlPCA trên từng thành phần chính sau khi giảm chiều (các PC). Cụ thể, chúng tơi se xem xét tổng quát liệu với bao nhiêu đường thẳng thì cĩ thể chia miền cho dữ liệu trên PC đĩ.

Quy trình huấn luyện của một ANN se được nhĩm thực hiện như sơ đồ trong Hình 3.25 bên dưới.

Hình 3.25 Tĩm tắt quá trình huấn luyện một mơ hình ANN.

3.5.6.2 Mã hĩa về dạng số cho nhãn dữ liệu

Trước khi huấn luyện, nhãn của mẫu dữ liệu se được mã hĩa thành dạng số. Nghiên cứu này sử dụng phương pháp mã hĩa theo vecto toạ độ, với độ dài vecto là số lớp cần phân loại. Mơi phần tử trong vecto se đại diện cho một lớp. Thơng thường thì giá trị ở mơi phân tử se ở dạng nhị phân: “cĩ” và “khơng”. Nếu nhãn của dữ liệu thuộc lớp nào thì giá trị tại phần tử tương ứng se là “cĩ”, và các phần tử cịn lại của vecto se là “khơng”. Giá trị số của “cĩ” và “khơng”

thường là 1 và 0, hoặc 1 và -1. Ví dụ, cĩ 4 lớp cần phân loại là A, B, C, D thì giá trị vecto mã hĩa kiểu 1 0 se là: - A: [ 1 0 0 0]; - B: [ 0 1 0 0]; - C: [ 0 0 1 0]; - D: [ 0 0 0 1];

Trong nghiên cứu này, giá trị “cĩ” được chọn là 1 và giá trị “khơng” được chọn là -1 nhằm tối đa hơn cho khả năng phân loại của mơ hình. Như vậy, hai lớp căng thẳng và thư giãn trong nghiên cứu này se được mã hĩa như sau:

- Căng thẳng : [ 1 -1]; - Thư giãn : [-1 1];

Khi mã hĩa kiểu vecto như trên cho 2 trạng thái, ta cũng cĩ thể xem hai giá trị của vecto ứng với toạ độ x và y trên trục toạ độ descartes để biểu diễn kết quả phân loại dưới dạng khơng gian 2 chiều. Và khi chiếu lên trục toạ độ 2 chiều ta cĩ thể thấy 2 trạng thái cĩ toạ độ lần lượt nằm ở gĩc phần tư thứ hai (thư giãn) và thứ tư (căng thẳng), xem hình 3.12. Việc mã hĩa theo vecto tọa độ này đem lại 2 lợi thế.

+ Thứ nhất, kết quả huấn luyện se được phân chia thành 2 miền trên mặt tọa độ, vừa thuận tiện cho việc trực quan hĩa kết quả vừa giúp kêt quả cĩ thể phân thành các số rời rạc. Việc chia miền được thực hiện dựa vào đường thẳng d: y=x+b (b là hệ số tự do) như sau:

- Do trạng thái căng thẳng nằm ở gĩc phần tư thứ tư , tức bên dưới đường thẳng d nên khi thay tọa độ vào hàm số f(x,y) =y-x-b thì se thu được giá trị âm, tương tự trạng thái thư giãn se cho giá trị dương do nằm ở gĩc phần tư thứ hai, tức phía trên của đường thẳng d.

- Từ thuộc tính âm dương vừa nêu, nếu ta tính giá trị hàm dấu của f(x,y) là sign(f(x,y)) của output (đã được mã hĩa thành tọa độ) se thu được giá trị đơn của việc phân loại là -1 hoặc 1. Theo mối quan hệ giữa tọa độ của trạng thái căng thẳng và thư giãn vừa nêu trên, ta suy ra được trạng thái căng thẳng là -1 và trạng thái thư giãn là 1.

+ Thứ hai, nếu muốn mở rộng đầu ra ở dạng phần trăm để ứng dụng vào thực tế, ta chỉ cần tính tỉ lệ của giá trị output so với giá trị (1-(-1))=2. Ta tính được điều này là do quy ước mơi phần tử của vecto mã hĩa đại diện cho việc cĩ hay khơng của một lớp. Như vậy, nếu giá trị output càng gần 1ở hạng tử nào thì tỷ lệ mà output thuộc về lớp tương ứng với hạng tử đĩ càng cao. Trong nghiên cứu này, do giới hạn của giá trị mã hĩa là -1 đến 1 nên đẻ tính tỷ lệ phần trăm, ta chia hai giá trị output rồi nhân với 100 se thu được gái trị phần trăm cho từng loại cảm xúc.

Hình 3.26 Mơ tả việc mã hĩa cho hai trạng thái để chia miền cho kết quả phân loại. Giá trị b=0, d: y=x.

Trong nghiên cứu này, để cĩ thể tính được các chỉ số thống kê khi dùng phương pháp ma trận nhầm lẫn chúng tơi se sử dụng giá trị đơn (thu được từ hàm dấu) khi hệ số b=0 => d: y=x.

Trạng thái căng thẳng (stress)

Tiến trình thu nhận dữ liệu