Kiến trúc LeNet 5

Một phần của tài liệu Mô hình đánh giá cảm xúc của người học dựa trên đa dữ liệu (Trang 46)

- VGG 16

VGG 16 là mạng nơ-ron tích chập được đề xuất bới Karen Simonyan và Andrew Zisserman [59] vảo năm 2014 và đạt độ chính xác 92.7% khi huấn luyện trên tập dữ liệu ImageNct. VGG 16 dược đặc trưng bởi sự dơn gián cua nó với 16 lớp bao gồm các lóp tích chập và lớp dược kết nổi đầy dù. Karen và Andrew chi sứ dụng các lớp tích chập có kích thước 3x3. max pooling có kích thước 2x2 và hai lớp dược kết nối dầy dù. mỗi lởp có 4.096 nút sau dó dược

Hình 2.21. Kiến trúc mạng VGG 16 [59], ■ ResNet

Convokihon hcrrvi.n.-, (5X5) SLDsampting

_____ ________

CoiYOktOon _ . Cocvoution awwxKlril Output (5X5) s**™**'* <5X5) tayer

Input Feature Map Peaw<e Mao FeMureMap Feature Map

ResNet là viết tắt cùa Residual Network là mạng nơ-ron tích chập được đè xuắt bời Kairmng He và cộng sự (60) vào năm 2015. Mơ hình nãy đà vơ cũng thành cơng, giành được vị trí cao nhát tại cuộc thi phân loại ILSVRC 2015 với độ lồi là 3.57%.

Những mạng CNN dược thiết kể có nhiều lớp có the giãi quyết dược các vấn dề phức tạp hiệu quà hon. Tuy nhiên, khi số lượng lớp cùa mạng nơ-ron tăng lèn. mức độ chính xác có thê bị bão hịa và giâm dẩn sau một thời điếm. Kct quá là hiệu suất cua mơ hình xấu đi do gặp phai vấn đề vanishing gradient hoặc exploding gradient. ResNet được tạo ra vói mục đích giai quyết van đề này.

Giãi pháp mà ResNet đưa ra là sử dụng kết nối tẩt. Các kết nối tắt giúp giữ thông tin không bị mất bang cách kết nối từ lớp trước dó tới lớp phía sau và bó qua một vài lớp trung gian. Một khối như vậy được gọi là một Residual block.

Hình 2.22. Residual block |60|.

ResNet có thiết kế lớp tích chập tương tự như VGG nhưng có nhiều lớp hơn. Một số kiến trúc ResNet như ResNet 18. ResNet 34. ResNet 50. ResNet lOl.ResNet 152.

X identity

U)CÍ ÍMllX iXltpMtsưe M-U)CÍ 5O.Uyct lObụtr 152-laycc cowl 112x112 7x7. 64.Mnde2

3x 3 ÌIMX pool xtrúle 2 <x»tft'2a 56x56 !***lxa 3x3.M ] " [ 3x3.64 1! 3x3.64 I x3 lxl.64 3x3.64 1x1.256 x3 lxl.64 3x3.64 lxl.256 X3 lxl.64 3x3.64 lxl.256 x3 coffrJjt . 28 3x3.12*13x3.12* J [ 3x3.128l 3x3. 128 x4 Ixl. 128 3^3.128 lxl.512 x4 ■ 1X1. 128 3x3.128 lxl.512 x4 1X1.128 3x3.128 lxl.512 X* 14x14 3XJ.2J6 1JxX2S6 Ị [ 3x3.256 ị3x3.256 xó 1x1.256 3x3.256 1x1.1024 x6 lxl.256 3x3.256 Ixl. 1024 x2 3 lxl.256 3x3. 256 lxl.1024 X3 6 com5-Ã 7x7 3x3.512 13x3.512 J • ị 3*3.512l 3x3.512 X3 1x1.512 3x3.512 lxl.2048 x3 lxl.512 3x3.512 1x1,2048 x3 lxl.512 3x3.512 1x1.2048 x3 Ixl overage pool. 1 OOO-đ fc. MơítnuA

FLS l.s> ÌCP 3.6 X lừ1 3.8 X lơ1 7.6x10” 11.3x11/'

Hình 2.23. Bảng chi tiết kiến trúc mạng ResNet |60]. 2.5. Phuong pháp đánh giá mơ hình phân lóp

Đánh giá mơ hình là một phần quan trọng khi xây dựng một mơ hình học máy hiệu qua. Đánh giá mờ hĩnh giúp chúng ta lựa chọn được mơ hình phù hợp nhất dổi với bài tốn cùa mình. Có rất nhiều cách dề đánh giá một mơ hình phân lớp. Tuỳ vào nhừng bìu toán khác nhau mà chúng ta sứ dụng các phương pháp khác nhau. Một số phương pháp thưởng được sư dụng là: độ chính xác (accuracy), ma trận nhầm lần (confusion matrix), độ chuẩn xác (precision), độ phu (recall) và độ dung hòa (Fl- score).

Xét ví dụ một bộ phân loại xuất ra liệu chữ cái đầu vào có phái là “A" hay khơng. Chúng ta gọi lớp A là Positive, lớp còn lại (Not A) là Negative. Khi thực hiện bài tốn phân loại, có 4 trường hợp dự đốn có the xây ra:

Báng 2.1. Định nghĩa các giá trị cho việc đánh giá mơ hình.

Thực tế

A (Positive) Not A (Negative)

Du doán

A (Positive) TP FP

Not A (Negative) FN TN

- TP (True Positive): đối tượng ớ lớp Positive, mơ hình phân đối tượng vào lỏp Positive.

kip Negative.

- FP (False Positive): đổi lượng ờ lớp Negative, mơ hình phân đối tượng vào lớp Positive

- FN (False Negative): dối lượng ờ lớp Positive, mỏ hình phân dối tượng vào lóp Negative.

Nhùng chi số trên sè là cơ sờ để lính toán nhừng metric như accuracy, precision, recall, fl - score.

Accuracy

Độ chính xác (accuracy) là tỷ lệ giữa sổ trường hợp được dự đoán đúng trên tồng số trường hợp trong lập dử liệu. Phạm VI giá trị cua dộ chính xác từ 0-1. Giá trị càng lớn thì độ chính xác càng cao. Độ chính xác dược tính theo cơng thức:

TP+TN

Accuracy = ' _ (2.33)

TP + TN + FP + FN

Confuse matrix

Ma trận nhằm lần (confuse matrix) là một ma trận hai chiều the hiện số lượng diêm dừ liệu thuộc vào một lớp và được dự đoán rơi vào một lớp. Báng 2.2. Ma trận nhầm lẫn vói 4 phân lớp 161 Ị. Thực tế A B c D A KHI 0 0 0 B 80 9 1 1 c 10 0 8 0 D 10 1 1 9

Precision và Recall

VỚI bài toán phân loại mà dừ liệu cùa các lớp phân bố khơng đồng đều. có một phép đo hiệu qua thường được sứ dụng là Precision - Recall. Xét bài toán phân loại nhị phân, la xem một trong hai lớp là positive, lớp còn lại là negative.

Precision là tý lộ giữa số trường hợp dự doán đúng trong sổ những trường hợp

dược dự dốn là positive. Cơng thức cùa precision như sau:

Recall là tý lệ dự đoán chinh xác các trường hợp positive trên tồn bộ các mẫu

thuộc nhóm positive. Cơng thức cùa recall như sau:

(2.35)

Precision và Recall có giá trị trong khoảng (0.11. hai giá trị này càng gân với 1 thì mơ hình càng chính xác. Precision càng cao đồng nghĩa với các diem được phân loại càng chính xác. Recall càng cao cho the hiện cho việc ít bó sót các điềm dừ liệu đúng.

Fl-Score: Một mơ hình tốt khi cá precision và recall đều cao. Tuy nhiên, trong

một số trường hợp hai giá trị precision và recall quá chênh lệch. Đề dánh giá cùng lúc cà precision và recall, ta sứ dụng độ đo Fl -Score. Fl-Score là trung binh điều hịa giừa precision và recall:

Chương 3. MƠ HÌNH ĐÈ XT ĐÁNH GIÁ CẤM xúc 3.1. Yêu cầu bài toán

Mục liêu của bài lốn là nhận diện được cám xúc trên khn mặt cúa người học trong các video thịng thường cua kíp học, làm cơ sớ đè người dạy đê có được những phàn hồi cùa người học một cách nhanh chóng và chính xác. Qua dó. giúp người dạy nám bắt tâm lý cùa từng người học và đánh giá dược chất lượng cùa bài dạy dề diều chinh giáo án và thay dổi phương pháp dạy học cho phù hợp. góp phần nâng cao chất lượng dạy và học trực tuyền.

Bài tốn nhận dừ liệu đằu vào là video khn mặt cua người học trong các hyp học trực tuyền.

precis ion= TP

TP + FP (2.34)

Irecall.precision

Bãi toán cỏ đau ra là một trong bày loại căm xúc cùa người học: hạnh phúc, ngạc nhiên (cảm xúc tích cực); buồn rầu, sợ hãi, giận dữ, ghê tởm (câm xúc tiêu cực); bình thường (trung tính).

3.2. Mơ hình đề xuất

Mơ hình đề xuất gồm hai giai đoạn: giai đoạn huấn luyện và giai đoạn kiêm tra. Ớ giai đoạn huấn luyện, dừ liệu dầu vào là ánh thưởng và anh nhiệt, phương phãp lìm ROI [31] được sư dụng đè rút trích đặc trưng ánh nhiệt và HOG được sữ dụng để nít trích đặc trưng cho ánh thường. Ờ giai đoạn kiềm tra, dữ liệu dầu vào là các video thông thường, chúng dược tách ra thành nhiêu khung hình và tiến hành xử lý theo các bước: phát hiện khn mặt. rút trích dặc trưng và phần loại. Chúng tôi thực hiện phát hiện khuôn mặt dựa vào dặc trưng Haarlike kết hợp Adaboost được cài săn trong bộ thư viện OpenCV. Phương pháp nãy được thực hiện bang cách sừ dụng hàm detectMultiScale trong OpenCV. Mơ hình đề xuất tổng quát như Hình 3.1.

3.3.1. Cơ sớ dữ liệu Kotani Thermal Facial Emotion

❖ Giới thiệu cơ sỡ dù liệu KTFE

Trong luận văn này, chúng tôi để xuất sứ dụng cơ sờ dừ liệu cám xúc khuôn mặt nhiệt Kotani Thermal Facial Emotion (K'l FE) đê nghiên cứu phân tích cam xúc khn mặt với những lý do sau dãy:

Cơ sờ dù liệu KTFE chứa bày cám xúc lự phát cúa 28 đổi tượng lừ I I đến 32 tuổi. Cơ sở dữ liệu (CSDL) bao gồm các video câm xúc trên khn mặt có thế nhìn thấy và nhiệt.

Cơ sớ dừ liệu KTFE có một số ưu diem [33]:

- Đây là cơ sơ dừ liệu nhiệt - thường tự nhiên đầu tiên, giúp các nhà nghiên cứu về cám xúc trên khn mặt có nhiều cách tiép cận thực tế hơn.

- Cơ sớ dừ liệu này đà khác phục lồi trề thời gian mà các cơ sớ dừ liệu cù gặp phái khi thực nghiệm.

- Các tác già đà có một số nghiên cứu về cơ sờ dừ liệu cua minh và thu được một số két qua đê hồ trợ các nhà nghiên cứu sư dụng cơ sờ dừ liệu này.

Hình 3.2. Mẩu ành thường và ảnh nhiệt cua bay căm xúc [33].

❖ Tiền xừ lý dũ liệu

Cơ sờ dữ liệu thô KTFE gồm các đoạn video dược lưu trong 7 thư mục tương ứng với 7 loại cám xúc (Giận dữ - Angry. Ghê tơm - Disgust. Sợ hãi - Fear. Hạnh phúc - Happy. Bình thường - Neutral. Buồn rầu - Sad, Ngạc nhiên Surprise). Ten lập tin được đật theo tên đối tượng tham gia thực nghiệm. MỎI dối tượng gồm có 2 tập tin ghi lại q trình the hiện cam xúc (tập tin có phần mớ rộng *.AVI chửa các frame ánh thường và phàn mớ rộng *.svx chứa các frame ảnh nhiệt). Camera NEC R300 được sir dụng đề thu video màu thơng thường và nhiệt.

Hình 3.3. Thư mục hru trữ dữ liệu thô KTFE.

Từ những tập tin trên chúng tôi tiền thành xây dựng hộ dữ liệu ành thường và nhiệt dể hỗ trợ nhận diện cám xúc bảng cách sừ dụng phần mềm InfReC NS9500 Professional (NS9500 PRO).

Hình 3.4. Tập tin dũ liệu nhiệt thơ hiến thị trên giao diện phần mềm NS9500PRO.

■ Dừ liệu ảnh thường:

Đê xây dựng bộ dừ liệu anh thường, chúng tôi tạo thư mục “Visible”. Trong thư mục này có các thư mục con đại diện cho các cám xúc, bao gơm:

V o 1 s«x* UtuVà L*'ite mx) fteđ toe see W2V2012&18W WIMt 5356 K3 09/22/20)2810™ SYXMe 15X3»

«3

ộfựW?0r>94ÍÌAV AVI r,i» 2.7) ô3

WOHôôi AM SY<ằã ã ll.1Wô? OAW20U5<W AVI Ne MU OAW/2OBS18PM SXM. 171.444 <3 09/22,701? T.s?™ AVinie 5X240 OV22/20V?5?PM SVXMr 1H563 <" XW2CH Ĩ.I4PM AVIf.lt 24» a SYX lli?

MỰ22/2Ũ131133 AM AVI file l.UOtì 09/22/20)3 1133 AM wxwe 54302 0 O?/i?.’20l32>i™ AVI »4? fóỉ$w 07/19,2013 234 SVXF.M 03502*3 03723,7014 1125 AM AVI Me 1.4WX3 OXftVXiK 1125 AM svx Fh»

>\7 t/2D1-. A’ AVI,-. MI.’ <3 03/24,7013*24™ SVXMe 151495 0 OựtV20l21OdOM4 AVlAk 4211 0 09/13/2012 W30PM SYXFfe 170X36 0 ớlAXl > KH ã Nr-ơMi Kwre • ftVrtaral artrtfnHyA a ChnvttWftl ] Í fruitful *4 svx “ cucnọ^cvưa’ (iK'Kj'Mjfrflwx • ứư/xvĩ!* •»? • tecarcoríi kTorirvMmlwx • Kr-vwatMl KeW'-trjlSVX • th5rw-r.ty.5i khifAftc-.tratSVX • KhMtev KfKMMuSVX • tannrttf tomnew nv •i kii-MjiM’ k»:'Jnr/4l y/< •• V f I > IhnK V 3 JOCt^ds : ■ ) *n Dc<»wit > ♦ Dedric** » / VưMỉ > ► I VOCvi > £.Wn*3W5 4C> V CWftlUi' > DcrjiW* V Ktrc *w Depot H«w Neutral I so s*pme

Giận dừ (Angry). Ghê tởm (Disgust). Sợ hãi (Fear). Hạnh phúc (Happy). Binh thưởng (Neutral). Buồn rầu (Sad). Ngạc nhiên (Surprise) đế lưu dừ liệu anh thưởng. Với mồi câm xúc chúng tôi tiến hành tách các frame ánh thành các tập tin hình anh thường và lưu vào thư mục căm xúc tương ứng trong “Visible”.

ỉỉình 3.5. Tập tin ánh thường sau khi được tách.

Từ các tập tin hình ánh thường thu dược, chúng tơi sử dụng thuật tốn Viola- Jones dể phát hiện khn mặt. sau dó cát ánh khn mặt. Chúng tơi tiếp tục thực hiện cân bang sáng cho các hình anh này.

Hình 3.6. Hình ảnh khn mặt trước và sau khi thực hiện cân bằng sáng.

Đổi VỚI video chửa các frame ánh nhiệt, chúng tôi xây dựng bộ dừ liệu ánh nhiệt gồm các tập tin ánh nhiệt và bộ dừ liệu ma trận nhiệt gồm các lập tin*.CSV.

Anh nhiệt: chúng tôi tạo thư mục “Thermal". Trong thư mục này có các thư

mục con dại diện cho các câm xúc. bao gồm: Giận dữ ( Angry). Ghê tởm (Disgust). Sợ hãi (Fear), Hạnh phúc (Happy). Binh thường (Neutral). Buồn rầu (Sad). Ngạc nhiên (Surprise) đế lưu dừ liệu ảnh nhiệt. Với mồi câm xúc chúng tôi liền hành tách các frame ánh thành các tập tin hình ánh vả lưu vào thư mục

câm xúc tương ứng trong “Thermal".

Hình 3.7. Tập tin ãnh nhiệt sau khi được tách.

Ma trận nhiệt: chúng tôi tạo thư mục “CSV”. Trong thư mục này có các thư

mục con dại diện cho các cám xúc. bao gồm: giận dữ (Angry), ghê tởm (Disgust), sợ hãi (Fear), hạnh phúc (I lappy), binh thường (Neutral), buồn (Sad). ngạc nhiên (Surprise). Với mỗi cam xúc chúng tồi trích xuất nhiệt độ tại mỗi điềm anh và lưu dưới dạng tập tin *.C’SV vào thư mục cam xúc tương ứng trong “CSV”. Một tập tin

*.csv là một ma trận nhiệt đại diện cho một frame ánh nhiệt. A 1 c ơ 1, , f_________ H ____1_________J_________•______—.L______- M M 0 r 0 ã s 1 1 t 1 1 1 ô oe > 4 o r T B M I **• V 1 > 5 > t I f » t ? » u M > t * t 1 It 0 * ».' r.*It XM x.*r !ôã xn MM 11X1 111 xir KA4 K * 1 t K r?H MM M.»? MX MB MB KM MX M? KB MJ MJ? /4 1 MB ?4J? Mt MII l»w 1 1 M B B M x«» I4B M »4 M»r A 14 X V M r> »4 u M ’» M »• 14 r» M M M.»l X ã X u KM V 1 M U IXô MM. MM |«M Me* MW A 14 MM MH MB J4H MW MA 14» Mt MU J*A* c J

-C taK KB M?ế K?4 K.B M.»i Kit MA Mt MB MX MA ÁU MU J-.lt .XU X K •AA-

M ll

tl 1HJ X’I AM? KP XJ3 MK III 11» Mn KB MB 34TT lit XII XX MO Xli 14A4

B M M B M M 7? MB M?> HW MA M.n KM MB Ml? K H Mil MA? •'4 V MU MW M X u *r»> 1 M . M •» XI MA MIX u 14 Ke M n K r> -M •. >• rv X V MU MAI MU MU IU1 ư 1 4 » K » K 1«. KW MW » 144 MB MK KB MB Mn MW MU /4*5 M* MB MA? M

J4 B K A M ẦM í MA MU t M KB MM MJJ M?; K* J‘A> MW KAI J-Al KM MJ* 44>z * 4 « :l A1M I X A M 11»: MB XU MH t 14f X/1 HD MB M.v JIM XD XU KAI xm xtr KB i A M I M MM MJ? /4 7? MB MM MB MX M MB MM MM MM MU MW MW Mir *4AA Ì t M 1 M X-’X X -•» M X/’ MH MH MA M»r J" «1 M 11 M*> MB M tr J4A u ĩ » rrM A?M A K I«B MB MF) t M MH Mtr MW MU MA? J4W MU KM MW MM MW n : « M KÍV MU MB « M l A MX Ỉ1Ỉ MW /4M MA/ MU /4ô J-M /4U MM JW u >

B M XU > KTt XV MM t M 111 Ml? KB Mir JIM KM X 1ằ liu :in xôl 1U4?

n t * ã X A M <♦> HB MX MM A M MA KU MU MA? MM Je.v >ôw /4 if MW MW > ã Ỉ4M Mtr 14.x- ĩ ' t M MUMU A KH MI MA 7 i«« MB MM HB MU MM Mil ? M MX MM J4W

« K?? M.B MB MM At MAt M4A /441 /•A? MU M 41 14.ỲÁ .•4 A . z M.V? >

1 X 81x B H xtl 1111 MB MX n icn M< MB HU MU JIU :« « :I»J 7 1 MX- »

? B VM A’H HO XM MB MU MW KI? MU MW KM MM MAS MU MU MW M M » H 1

1 * r>> <ôã> M M»» MB MA MA re 14 XU MM M n MB >ãằ ;ôằ M u .40 M 1444

V u M 1 MU MA? MAỈ MV MK MH Mtl MW N*> MU MM MA MW MM MW MW

n M M

.W WK ôã MA/ MB M>? MB XU MA.* X • MV Mt MfS K-4 Z1M MX. KW

Một phần của tài liệu Mô hình đánh giá cảm xúc của người học dựa trên đa dữ liệu (Trang 46)

Tải bản đầy đủ (DOCX)

(80 trang)
w