Kết chương 3

Một phần của tài liệu 622 (Trang 107)

Chương 3 của luận án đã trình bày các kết qu nghiên c u vả ứ ề nh n d ng c m xúc ậ ạ ả

tiếng Việt nĩi dựa trên c c mơ hình nh n dá ậ ạng GMM cùng với các t p tham s c ậ ố đặ trưng khác nhau.

T kừ ết quả nhận dạng cĩ thể thấy rằng, GMM là m t mơ hình khá thích h p cho ộ ợ

nhận dạng cảm xúc tiếng Việt. Tỷ ệ l nhận dạng vớ ậi t p ngữ ệ li u c m xúc tiả ếng Việt ph thuụ ộc cả người nĩi và nội dung đạ ớt t i 99,97% khi sử ụ d ng tập tham sốprm87.

Đối với ng liữ ệu độ ậc l p c ảngười nĩi và n i dungộ , t l nhỷ ệ ận dạng đạt 97,58% khi sử

dụng tập tham sốprm79 kết hợp với biến thể LogF0NormMinMax c aủ 0. Kết quả

107

nhầm lẫn với nhau là bu n-ồ bình thường và vui-tức. Với những kết quả nhận dạng đã

được phân t ch ví à áđ nh giá trong chương này, luận án đề xu t m t mơ hình tấ ộ ốt để

nhận dạng cảm xúc ti ng Viế ệ ớt v i GMM là c n ph i kầ ả ết h p ợ MFCC, các đặc trưng

ph ổ và đặc biệt là tần số cơ bản 0và biến thể ủ c a 0. T ừcác thử nghiệm cũng cho

th y, ấ khơng nhất thiết sử ụ d ng đầy đủ c b ả ộ87 tham số mà trong trường hợp chỉ ầ c n kết hợp b ộtham sốprm60 với F0 và bi n th ế ểF0 cũng đã đạt đượ ỷ ệc t l nh n d ng ậ ạ

trung bình lớn hơn 90%. Cĩ thể thấy rằng, số lượng tham số tăng lên thì thời gian

tính tốn cũng tăng theo. Tùy theo ứng d ng c th và yêu cụ ụ ể ầu độ chính xác nh n ậ

dạng cần thiết mà cĩ thể ự l a chọn số lượng tham s sao cho dung hịa gi a thố ữ ời gian

tính tốn và độchính xác nhận d ng. ạ

Tiếp theo trong chương 4 sẽ trình bày về nhận dạng cảm xúc ti ng Vi t nĩi sế ệ ử d ng ụ

mơ hình DCNN sâu. Đây là mộ ỹt k thu t nh n d ng mậ ậ ạ ới được s d ng trong nh ng ử ụ ữ năm gần đây và đã mang lại hi u qu t t khi khai thác mệ ả ố ạng nơron học sâu.

Các kết qu nghiên c u íả ứ ch nh của chương đã đượ3 c cơng bố trong các bài báo s ố

1, 3, 6, 7 trong danh m c các cơng trình nghiên c u c a lu n ánụ ứ ủ ậ :

1.Nghiên cứu và thử nghiệm nhận dạng phương ngữ ế ti ng Việt, Tạp chí Khoa học và Cơng nghệ, ĐHSPKT Hưng Yên, số4, ISSN 2354 0575, trang 96-101. - 3. Cảm xúc trong ti ng nĩi và phân tích th ng kê ngế ố ữ liệu cảm xúc tiếng Việt,

Chuyên san Các cơng trình Nghiên c u, Phát triứ ển và Ứng dụng Cơng nghệ

Thơng tin, Tạp chí Bưu chính Viễn thơng, t p V 1, s 15 (35), trang 86ậ - ố -98 . 6. Ảnh hưởng của đặc trưng phổ tín hi u tiệ ếng nĩi đến nh n d ng c m xúc ti ng ậ ạ ả ế

Việt, Kỷ ế y u Hội ngh khoa h c cơng nghị ọ ệ qu c gia lố ần th X, Nghiên cứ ứu cơ

bản và ứng dụng cơng nghệ thơng tin, Đà Nẵng, trang 36-43.

7. GMM for emotion recognition of Vietnamese, Journal of Computer Science and Cybernetics, V.33, N.3, pp.229-246.

108

Chương 4. NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NĨI S Ử

DỤNG MƠ HÌNH CNND

Chương 3 đã trình bày các nghiên cứu nh n d ng c m xúc ti ng Viậ ạ ả ế ệt theo mơ hình GMM. Với GMM, đây là mơ hình mang tính truyền th ng khơng t n nhi u th i gian ố ố ề ờ để hu n luy n và nh n d ng và ch cấ ệ ậ ạ ỉ ần xác định mơ hình theo b ba tham sộ ố (các

véctơ kỳ vọng, các ma trận hiệp phương sai và các trọng s cho ố M thành phần). Trong

khi đĩ, với mạng nơron nĩi chung, kiến trúc mạng nơron ấ r t phong phú nên khảnăng

khai thác mơ hình mạng nơron cho các ứng d ng là r t l n. ụ ấ ớ

Trong số các mạng nơron, Convolutional Neural Network (CNN – Mạng nơron

l y ấ chập) là một trong những mơ hình Deep Learning tiên ti giúp xây dến ựng được những hệ thống thơng minh với độ chính xác cao hiện nay như hệ th ng l n x ố ớ ửlý

ảnh Facebook, Google hay Amazon đã đưa vào sản ph m c a mình nh ng chẩ ủ ữ ức năng

thơng minh nh n diậ ện khuơn mặt người dùng, phát triển xe hơi tự lái hay máy giao hàng tựđộng... CNN đượ ử ục s d ng nhi u trong các bài tốn nh n d ng các ề ậ ạ đối tượng trong nhả . Chương này tr nh bì ày cá kc ết qu th nghi m nh n d ng c m xúc ti ng ả ử ệ ậ ạ ả ế

Việt sử ụ d ng mơ hình DCNN.

4.1 Mơ hình ạng nơron lm ấy chập

Mạng nơron ấl y chập CNN là m trong nhột ững thuật tốn học sâu cho kết quả ố t t nhất hiện nay trong hầu hết các bài tốn về ị th giác máy như phân lớp, nh n d ng. ã ậ ạ Đ

cĩ nhiều cơng tr nh nghiên cì ứu ứng dụng mơ h nh CNN trong nhiì ều lĩnh vực khác

nhau như nhận d ng hình nh [195], x lý tín hi u ti ng nĩi [196], nh n d ng c m ạ ả ử ệ ế ậ ạ ả

xúc theo gương mặt [197] nh, ận dạng người nĩi [198] nh, ận d ng c m xúc ti ng nĩi ạ ả ế

[199] [200] [201] [202] [203] [204], [205] [206] , , , , , , cũng như trong nhiều nhi m v ệ ụ

phân tích dữ ệ li u lớn [207], [208].

Trong [209], các tác giảđã sử ụ d ng DCNN 3 lớp để nhận dạng 7 c m xúc a ngả củ ữ

liệu tiếng Đức: vui, buồn, t c, sứ ợ hãi, ghê t m, chán nở ản, bình thường. Kết quả nh n ậ

dạng đúng trung bình các cảm xúc t 56,38%.đạ

V ề cơ bản CNN là một ki u mể ạng ANN truy n thề ẳng, trong đĩ kiến trúc chính gồm nhiều thành phần được ghép nối với nhau theo c u trúc nhi u t ng bao gấ ề ầ ồm: l y ấ

chập (Convolution), lấy gộp (Pooling), kích ho t phi tuy n (ạ ế Non-linear activation) và kết nối đầy đủ (Fully-connected).

4.1.1 Lấy chập

Lấy chập l thao tácà đầu tiên quan trọng nhất trong cấu trúc của mạng học sâu CNN. Phép lấy chập dựa trên lý thuy t x lý tín hi u sế ử ệ ố, thực hiện các xử lý về ặ m t tốn h c tính y chọ lấ ập đểgiúp trích xuất được những thơng tin quan trọng từ d liữ ệu.

109

lo i nhạ ả , đầu vào là m t ộ ảnh được biểu diễn b ng mằ ảng 32×32 ×3 các giá trị pixel (mỗi phần tử của mảng cĩ giá trong khotr ị ảng từ 0 đến 255 biểu diễn cư ng đờ ộ sáng của pixel tại một điểm).

Để ự th c hi n lệ ấy chập, một bộ ọ l c (filter) cịn gọi là kernel được di chuy n qua các ể

v ị trí trên tồn b ộma trậ ản nh. B lộ ọc này thực chất là mộ ử ổ cĩ kích thướt c a s c ×

(kí hi u ệ = ) chứa các số(các sốnày chính là trọng sốhay tham số Kích thướ). c của bộ ọc thườ l ng là nhỏ (ch ng hẳ ạn 3×3 hoặc lớn nhất là 5×5) B l. ộ ọc sẽdi chuyển t ừtrái qua phải, từtrên xuống dướ ới bưới v c dịch chuy n ể = 1cho cảhai chiều, vị trí đầu tiên c a bủ ộ ọ l c là gĩc trên bên trái Thao tác l y ch. ấ ập được th c hiự ện tại các vị

trí mà b l c ộ ọ đi qua Ý nghĩa củ. a thao tác l y chấ ập là xác định khả năng xuất hi n các ệ

mẫu tại các vị trí nhấ ịt đ nh trong nh. M i mả ỗ ẫu được bi u di n b ng trể ễ ằ ọng số ủ c a cửa s ổ tương ứng với một bộ ọ l c. Mỗi vị trí c b l s ủa ộ ọc ẽ tính được một giá tr theo cơng ị

th c: ứ

= + (4.1)

Trong cơng thức (4.1), bao gồm các điể ảm nh ph n m trong phổ ằ ạm vi cửa sổ đang quét, ả ử kích thướgi s c b l c 5×5 s cĩ 25 m nh ph ộ ọ ẽ điể ả ổ được quét. Số lượng tham s cho m t l p l y ch p số ộ ớ ấ ậ ẽ là K×(5×5)+1), trong đĩ K là số loại bộ ọ l c khác

nhau đã được dùng cho l p l y chớ ấ ập đĩ. Kcũng bằng số lượng ảnh ánh x u ra c a ạ đầ ủ

lớp lấy chập này.

Sau khi trượ ộ ọt b l c qua t t c các vấ ả ị trí và lấy chập s ẽ được m t mộ ảng v i m i giá ớ ỗ

tr ị là các sốđược tính bằng cách lấy chập theo cơng th c trên. ứ Đối với ví d mụ ảng

đầu vào c a nh trên ủ ả ở ta được m ng 28×28×1 các giá trả ị. Mảng này được g i là ánh ọ

x ạ kích hoạt (activation map) hay ánh xạ đặc trưng (feature map). Lý do cĩ mảng 28×28 vì cĩ 784 vị trí khác nhau để ộ ọ b l c 5×5 cĩ thểkhớp trên ảnh 32×32, 784 giá tr ị này được ánh xạ thành mảng 28×28. Hình 4.1 mơ t ả bướ ấc l y ch p cho ví dậ ụ ả nh

đầu vào cĩ kích thước 32×32, đầu ra là ánh xạ đặc trưng cĩ kích thước 28×28.

Hình 4.1 Mơ tả bước lấy chập dùng ộ lb ọc kích thước 5×5

S ố nơron đầu vào 32×32 S ố nơron lớp ẩn thứ nh t 28×28 ấ

B lộ ọc

110

Hình 4.2 mơ tả ấ l y chập trên một phầ ản nh đầu vào với mảng giá tr ị cĩ kích thước 8×8 B l. ộ ọc dịch chuyển 5×5 s ẽdi chuyển qua tồn bộ ph n ầ ảnh và thao tác lấy chập

được áp d ng cho 25 nút trên cụ ửa sổ b lộ ọc. Giả thiết ma trận trọng số ủ c a bộ ọ l c cĩ các giá trị đề u là 0,5. Kết quả thu đượ ởc đầu ra là một mảng ánh xạ đặc trưng cĩ kích

thước 4×4. V i m i ơ vuơng màu lam và màu lớ ỗ ục tượng trưng cho cửa sổ ộ ọ b l c s ẽ được tính tốn (l y ch p) cho ra m t giá trấ ậ ộ ị tương ứng ở đầu ra. Bước trượt sẽkiểm sốt bộ ọ l c lấy chập khắ ảp nh vào. Mặc định, m i l n bỗ ầ ộ ọ l c sẽ ị d ch chuyển đi một

đơn vị ố lượng đơn vị. S mà b l c dộ ọ ịch đi được gọi là bước trượt (stride).

2 3 0 4 1 6 3 4 0 5 4 3 2 2 1 2 4 3 6 8 4 3 9 3 3 4 3 5 7 3 1 1 1 5 3 2 8 6 1 0 7 9 6 4 3 8 0 7 4 3 7 6 8 9 2 0 0 6 5 3 9 6 3 7 45 50 47,5 44,5 54,5 58 51 46,5 61,5 66,5 61 54 60,5 69 59 54,5

Hình 4.2Mơ tả chi tiết lấy chập dùng bộ ọ l c kích thư c 5×5 ớ

Hình 4.3Mơ tả bướ ấy chập cc l ủa mạng nơron dùng ộ ọc kích thước 5×5 b l

Mảng giá trịđầu vào 8×8 Mảng giá trị u đầ ra 4×4 Convolutional vào1 vào2 vào3 vào4 vào5 vào6 ra2 ra1 vào30 vào29 vào28

111

Thao tác lấy chập trên Hình 4.2 cĩ thểđược bi u di n minh h a b ng biể ễ ọ ằ ểu đồ m ng ạ nơron như Hình 4.3. Các giá trị đầu vào và đầu ra của mạng được bi u di n b ng m t ể ễ ằ ộ

nút v i trớ ọng số kế ối là 0,5. Đốt n i với m ng giá tr ả ịảnh đầu vào kích thước 8×8 s cĩ ẽ

64 nút vào (vào1…vào64) và 16 nút ra (ra1…ra16). V trí thị ứ nhất của bộ ọ l c ứng với màu lam, vị trí th hai ng v i màu l c. ứ ứ ớ ụ

Chú ý r ng, ằ các tham số của bộ ọ l c (trọng số) được gi nguyên khi bữ ộ lọc di chuyển qua nh ả đầu vào. Điều này cho phép bộ ọ l c cần được huấn luyện nhận ra một số đặc

trưng trong dữ liệu vào. i vĐố ới nhận dạng ảnh, cĩ th hể ọc để nh n bi t các hình dậ ế ạng

như đoạn th ng, c nh và các hình d ng phân bi t khác. Vì thẳ ạ ạ ệ ếbướ ấc l y chập cịn được gọi là ánh xạđặc trưng. Tuy nhiên, để phân loạ ố ởi t t, mỗ ầi t ng l y chấ ập thường c n ầ

nhiều bộ ọ l c. Ví dụ, Hình 4.4 s dử ụng 3 bộ ọc cĩ kích thướ l c 5×5 với đầu vào là nh ả

màu kích thước 32×32, đầu ra của lấy chập là ánh xạ đặ trưng xế c p ch ng cĩ kích ồ thước 28×28×6 .

Hình 4.4Mơ tả bước ấy chậl p của mạng nơron dùng 3 b l c kích thư c 5×5 ộ ọ ớ

Sử dụng lấy chập cĩ những ưu điểm sau:

+ Giảm số lượng tham số Ở: ANN truyền thống, các nơron ở ớp trướ l c sẽ kế ốt n i tới tất cả các nơronở ớ l p sau (fully connected) gây nên tình trạng quá nhiều tham

s cố ần học. Đây là nguyên nhân chính gây nên tình trạng quá kh p (overfiting) ớ

cũng như làm tăng thời gian hu n luy n. Vi c s dấ ệ ệ ử ụng lấy chậ trong đĩ cho phép p chia sẻ ọ tr ng sốliên kết (shared weights), cũng như thay vì sử ụ d ng k t nế ố ầi đ y

đủ (fully connected) s s dẽ ử ụng trường ti p nh n c c b (local receptive fields) ế ậ ụ ộ

giúp giảm tham số.

+ Các tham s trong quá trình số ử ụ d ng lấy chập hay giá trị ủ c a các filter kernel s- ẽ được h c trong quá trình hu n luy n. ọ ấ ệ

Convolutional 6 3 B lộ ọc 5×5×3 32 32 28 28

112

4.1.2 Kích ho t phi tuy n ạ ế

V ề cơ bản, lấy chập là một phép biển đổi tuyến tính. Nếu tất cả các nơron được tổng hợp bởi các phép biến đổi tuy n tính thì m t mế ộ ạng nơron đều cĩ thểđưa về dưới dạng một hàm tuyến tính. Khi đĩ mạng ANN s ẽ đưa các bài tốn về ồ h i qui logistic (logistic regression). Do đĩ, sau m i l p l y chỗ ớ ấ ậ đầp, u ra c a ánh xủ ạ ấ l y chập được cho qua hàm kích ho t ạ phi tuyến .

Một số hàm kích hoạt phi tuyến thường dùng như ReLU (Rectified Linear Unit), ELU (Exponential Linear Unit) [210]. ReLU cĩ hàm kích hoạt d ng ạ ( ) =

(0, ) cho các giá trị vào. V ề cơ bản, hàm này s ẽ thay đổi tất cả các giá trị kích hoạt âm thành 0 và tăng tính phi tuyến c a mơ hình và tồn mủ ạng mà khơng ảnh

hưởng t i l p l y ch p. Hàm ELU cĩ dớ ớ ấ ậ ạng như (4.2) với > 0:

( ) = (exp( ) 1) < 00 (4.2)

Hàm ReLU th c hiự ện tính tốn đơn giản hơn ELU. Tuy nhiên, các nghiên cứu gần

đây cho th y vi c s d ng hàm LU cho ấ ệ ử ụ E hi u su t tệ ấ ốt hơn.

4.1.3 Lấy gộp

Lấy gộp (pooling) hay cịn gọi subsampling ho c downsamplặ ing là một trong những thành phần tính tốn chính trong c u trúc CNN. Xét vấ ề mặt tốn h c, l y g p ọ ấ ộ

thực chất là quá trình tính tốn trên ma trậ đần u vào trong đĩ mục tiêu đạt được sau khi tính tốn là giảm kích thước ma trận nhưng vẫn làm n i bổ ật lên được đặc trưng

cĩ trong ma trận đầu vào.

Trong CNN tốn t, ử pooling được th c hiự ện độ ậc l p trên m i kênh màu cỗ ủa ma tr n ậ ảnh đầu vào. Cĩ nhiều tốn tử pooling như sum-pooling, m -pax ooling, L2- pooling song max-pooling thường được sử ụ d ng. Về ặt ý nghĩa m , max-pooling xác

định v ịtrí cho tín hiệu m nh nh t khi áp dạ ấ ụng một loạ ộ ọ . Điều này cũng tương i b l c t ự như là bộ ọ l c phát hiện vị trí đối tượng trong bài tốn phát hiện đối tượng trong

ảnh. Nhìn chung, b l c ộ ọ di chuyể thườn ng cĩ kích thước = 2 và bước trượt = 2

được dùng ph bi n. Cổ ế ĩ ít các thiết lập sử ụ d ng b lộ ọc di chuyển cĩ kích thước = 3

và = 2. Và hiếm cĩ thi t lế ập kích thướ ớc l n hơn 3. Do kích thước b l c di chuyộ ọ ển quá l n ớ cĩ thể ẽ ẫn đế s d n mất mát m t s thơng tin hộ ố ữu ích, điều này làm cho hiệu suất nhận dạng kém đi.

Hình 4.5 là ví dụ ề ạng nơron lấ v m y gộp s d ng tốn tử ụ ử max-pooling (lấy gộp cực đại) .

Hình 4.5 a) là cách th c pooling xứ ửlý đối với mộ ầt đ u vào là kết quả ủ c a nhi u bề ộ

lọc ( = 64), kích thước của đầu vào là 224×224×64 được th c hi n v i ự ệ ớ = 2, = 2, đầu ra s ẽ cĩ kích thước 112×112×64 . Hình 4.5 b) mơ t chi tiả ết cách thức ho t ạ động c a max-ủ pooling trong đĩ = 2, = 2và kết quả đầu ra ma trận tương ứng.

113

Hình 4.5Ví dụ ử ụ s d ng max-pooling

Padding (đệm) là kỹ thu t ậ thêm các pixel bên ngồi hình nh. Vả ớ CNN, thười ng

dùng zero padding nghĩa là các giá trị pixel thêm vào đều bằng 0. Nên trong quá trình

lấy gộ , để ảp b o tồn thơng tin cho ảnh đầu vào thường sử ụ d ng padding v i giá trớ ị

Một phần của tài liệu 622 (Trang 107)

Tải bản đầy đủ (PDF)

(150 trang)