1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt

129 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Phương Pháp Chuẩn Hóa Văn Bản Và Nhận Dạng Thực Thể Định Danh Trong Nhận Dạng Tiếng Nói Tiếng Việt
Tác giả Nguyễn Thị Thu Hiền
Người hướng dẫn PGS.TS. Lương Chi Mai, TS. Nguyễn Thị Minh Huyền
Trường học Học viện Khoa học và Công nghệ
Chuyên ngành Hệ thống thông tin
Thể loại luận án
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 129
Dung lượng 1,15 MB

Cấu trúc

  • 1.1. Xửlý ngônngữtựnhiên (18)
  • 1.2. Nhậndạngtiếngnói (22)
  • 1.3. Chuẩnhóavănbản (27)
  • 1.4. Nhậndạngthựcthểđịnhdanh (35)
  • 1.5. Tổng quanvềdữliệu (45)
  • 1.6. KếtluậnChương 1 (47)
  • 2.1. Môhìnhxửlýchuỗi (48)
  • 2.2. Môhìnhbiểudiễntừ (55)
  • 2.3. Môhình gánnhãnchuỗi (61)
  • 2.4. Học đatácvụ (64)
  • 2.5. Kết luậnchương 2 (67)
  • 3.1. Bàitoán (68)
  • 3.2. Xâydựngdữliệu (69)
  • 3.3. Kiếntrúcmôhình (71)
  • 3.4. Kết quảthựcnghiệm (79)
  • 3.5. KếtluậnChương 3 (84)
  • 4.1. Bàitoán (86)
  • 4.2. Tổng quan dữliệu (87)
  • 4.3. Nhậndạngthựcthểđịnh danh theo hướngtiếp cậnĐườngống (88)
  • 4.4. Nhậndạngthựcthểđịnh danh theo hướngtiếp cậnE2E (98)
  • 4.5. KếtluậnChương 4 (109)

Nội dung

Xửlý ngônngữtựnhiên

Ngôn ngữ là một trong những khía cạnh nhận thức quan trọng nhất củacon người Ngôn ngữ tự nhiên đề cập đến bất kỳ ngôn ngữ viết hoặc nói đượcphát triển một cách tự nhiên để con người có thểgiao tiếp với nhau[1].XLNNTN là một lĩnh vực con trong khoa học máy tính, k ết hợp giữa trítuệnhân tạo và ngôn ngữ học tính toán XLNNTN tậptrung xử lý tương tác giữacon người và máy tính sao cho máy tính có th ể hiểu hay bắt chước được ngônngữ của con người Ra đời vào những năm 40 của thế kỷ 20, XLNNTN trảiqua các giai đoạn phát triển tương ứng với các phương pháp, mô hìnhxửlýkhác nhau như: dựa vào tập luật, dựa vào thống kê, dựa vào học máy, và đặcbiệtlàhọc sâutrongthập kỉ vừaqua.

Các công cụ như phân tích, nhận dạng cảm xúc, nhận dạng thực thể địnhdanh,phântíchcúpháp, ngữnghĩa, đãgiúpXLNNTNtrở thànhchủđềhấp dẫn để nghiên cứu trong nhiều lĩnh vực khác nhau như dịch máy,trích xu ấtthôngtin,tómtắtvănbản,trảlờicâuhỏitựđộng, NhiềuứngdụngXLNNTN trên các thiết bị thông minh xuất hiện ở khắp mọi nơi, thu hút đượcnhiều sự quan tâm của cộng đồng như Siri của Apple, Google Translate củaGoogle, hay Alexa của Amazon, hệ thống trợ lý ảo Intelligent Personal AgentcủaHyundai,nhàthôngminhXiaomi,

XLNNTNc ó t h ể đ ư ợ c c h i a r a t h à n h h a i n h á n h l ớ n , b a o g ồ m x ử l ý tiế ngnóivà xửlý vănbản Xửlý tiếng nóit ậ p t r u n g n g h i ê n c ứ u , p h á t t r i ể n các thuật toán, chương trình máy tính xử lý ngôn ngữ của con người ở dạngtiếng nói Các ứng dụng quan trọng của xử lý tiếng nói bao gồm nhận dạngtiếng nói và tổng hợp tiếng nói Nếu như nhận dạng tiếng nói là chuyển ngônngữ từ dạng tiếng nói sang dạng văn bản thì ngược lại, tổng hợp tiếng nóichuyểnngônngữtừdạngvănbảnthànhtiếngnói Xửlývănbảntậptrungvào phân tích d ữ liệu văn bản Các ứng dụng quan trọng của xử lý văn bảnbaogồmtìmkiếmvà truy xuất thôngtin,dịchmáy, tómt ắ t v ă n b ả n , h a y kiểm tra lỗi chính t ả tự động Xử lý văn bản đôi khi được chia tiếp thành hainhánh nhỏ hơn bao gồm hiểu văn bản và sinh văn bản Nếu như hiểu văn bảnliên quan tới các bài toán phân tích văn bản thì sinh văn bản liên quan tớinhiệmvụtạoravănbảnmới[2].

Xử lý tiếng nói và xử lý văn bản không hoàn toàn độc lập mà có mốiliên quan với nhau Văn bản được xử lý tốt giúp hệ thống tổng hợp tiếng nóiđược thuận lợi, nâng cao độ chính xác.X ử l ý t i ế n g n ó i c ũ n g t ạ o r a c á c v ă n bản với các đặc điểm riêng Vấn đề xử lý văn bản sau nhận dạng tiếng nói làmột tháchthức cần được giảiquyết Luậnáncũng đặtr a v ấ n đ ề c ầ n c h u ẩ n hoá văn bản và nhận dạng thực thể định danh cho văn bản đầu ra của nhậndạngtiếngnóitiếngViệt.

Theo xu thế phát triển chung của thế giới, XLNNTN tiếng Việt cũngđượcnghiêncứuhơnmộtthậpkỉquavớinhiềubàitoánkhácnhauchocảxử lý văn bản và xử lý tiếng nói Đồng thời, nhiều công cụ đã được công bố giúphỗ trợ tốt hơn cho các nghiên cứu như: vnTokenizer (hệ tách từ tiếng Việt),Viettagger (hệ gán nhãn từ loại tiếng Việt), VietChunker(hệ phân tích c ụm từtiếng Việt),…

Cộng đồng nghiên cứu đã phát triển mạnh mẽ, có tínhgắnkết hơn kể từkhihộ i t h ả o x ử l ýn g ô n n g ữ v à tiếngn ó i t i ế n g V i ệ t( V i e t n a m e s e L a n g u a g e and Speech Processing - VLSP)được tổ chức lần đầu tiên vào năm 2012 Hộithảo đã trở thành diễn đàn thường niên của cộng đồng nghiên cứu về tiếngViệt Đây là nơi chia sẻ các kết quả nghiên cứu, tổ chức các cuộc thi đánh giáhiệu quả của cáccông cụ xử lí ti ếng Việt, thu hút được rất nhiều đội tham giavàchothấysựlớnmạnhcủacộngđồngqua từngnăm. Đáng chú ý là thông qua VLSP, những bộ dữ liệu chuẩn có gán nhãn đãđược cung cấp nhằm phục vụ cộng đồng nghiên cứu về xử lý ngôn ngữ vàtiếng nói tiếng Việt Luận án đã sử dụng bộ dữ liệu của VLSP 2018 cho mụcđíchnghiêncứu.

Mặc dù, XLNNTN đã mang đến công cụ mạnh mẽ với những lợi ích tolớn và đã có những tiến bộ vượt bậc trong những năm gần đây, tuy nhiên,XLNNTNvẫncònnhiềuthách thức,đặcbiệt,vớingônngữtiếngViệt.

Kaddari và các cộng sự [3] đã đưa ra một số thách thức đối với lĩnh vựcXLNNTN,baogồm:

Trong hiểu ngôn ngữ tự nhiên, những khó khăn đến từ việc trích xuấtngữ nghĩa từvăn bản,nắm bắt cácmối quan hệ ngôn ngữh o ặ c n g ữ n g h ĩ a giữa các cặp thuật ngữ từ vựng, xác định ngữ cảnh và nghĩa của một từ theongữcảnh,xácđịnh vàhiểungôn ngữtheo cáccáchdiễn đạtkhácnhau, Đối với sinh ngôn ngữ tự nhiên, vấn đề khó khăn gặp phải là thiếu dữliệuvà vănbảntạorathiếumạch lạc,nhấtquán.

Ngoài ra, thách thức cho các nghiên cứu trong lĩnh vực này là thiếu bộdữliệu,đặcbiệtđốivớingônngữcónguồnngữliệuhạnchế.Việcsửdụng cáckỹthuậtxửlýngônngữtrêncácngônngữnàykhôngmanglạikếtquảkhảq u a n n h ư v ớ i c á c n g ô n n g ữ c ó t à i n g u y ê n p h o n g p h ú T h á c h t h ứ c n à y hiện đang được giải quyết từ nhiều góc độ như sử dụng kĩ thuật học chuyểngiao,họctăngcường,

Các mô hình h ọc sâu cho XLNNTN không đưa ra lờigiải thích cho cácdựđoán,đâylàlýdotạisaocácmôhìnhhọcsâunàyđượccoilà “hộpđen”. Đồngthời,cácmô hìnhXLNNTNhi ện tại không có khảnăngpháthiện và diễn giải cảm xúc được thể hiện qua ngôn ngữ, vấn đề này đặc biệtquantrọngtrongcáchệthốngxửlýtiếngnói.

Bên cạnh những thách thức chung, ngôn ngữ tiếng Việt còn mangnhữngđ ặ c t h ù r i ê n g c ủ a m ộ t n g ô n n g ữ đ ơ n l ậ p , c ó t h a n h đ i ệ u v à c á c đ ặ c trưng khácgâykhókhănkhixửlý.Cụthể:

Ngôn ngữ tiếng Việt chứa đựng các từ đồng âm, từ đồng nghĩa, từ mỉamai,châmbiếm.BêncạnhcáctừthuầnViệt,tiếngViệtcòncórấtnhiềutừvay mượn từ các ngôn ngữ khác để tạo ra từ mới, cũng là một yếu tố khiếnngônn g ữ t i ế n g V i ệ t t r ở n ê n p h ứ c t ạ p h ơ n N g o à i r a , đ ặ c t r ư n g v ù n g m i ề n cũng là một trở ngại trong xử lý tiếng Việt khi có rất nhiều các từ, cụm từmang tính địa phương cao, chỉ được sử dụng hạn chế ở một số vùng miền(NghệAn,HàTĩnh,QuảngNgãi,Huế, ).

Việc nghiên cứu cấu trúc từ (một hay nhiều âm tiết) đóng vai trò rất quantrọng trong quá trình nghiên c ứu tiếng Việt Trong các hệ thống tìm kiếmthông tin văn bản trên các tiếng Châu Âu, người ta có thể xác định các từ nhờvào các khoảng trắng phân cáchtừvà chọn các từ đặc trưng cho nội dung vănbản (dựa vào tần suất xuất hiện của từ) làm chỉ mục mà hiệu quả tìm kiếm vẫnchấpnhậnđược.ĐốivớitiếngViệt,điềunàytrởnênkhókhănbởinếuchỉ xác định từ dựa vào các khoảng trắngphân cách thì có th ể chỉ nhận được cáctiếng vô nghĩa, do đóđộchính xác c ủa hệ thống sẽ rất thấp Theocác nhàngôn ngữhọc đãthốngkê,tiếngViệt cóđến80%làcác từhaitiếng.

Vấn đề khó khăn tiếp theo có thể kể đến chính là xác định từ loại cho từtrongtiếngViệtphứctạphơncáctiếngchâuÂudokhôngthểdựavàocácđặctínhđặcbiệtvề hìnhtháihọccủatừđể xácđịnhloạitừ.

Mặc dù XLNNTN gặp rất nhiều khó khăn, thách thức, nhưng vẫn chothấy tiềm năng và lợi ích to l ớn trên phạm vi rộng cho bất kỳ doanh nghiệp,lĩnh vực nào, với cácứ n g d ụ n g c ụ t h ể n h ư n h ậ n d ạ n g c h ữ v i ế t , n h ậ n d ạ n g tiếngn ó i , t ổ n g h ợ p t i ế n g n ó i , d ị c h t ự đ ộ n g , t ó m t ắ t v ă n b ả n , t ự đ ộ n g t h ê m dấu,t á c h t ừ , L u ậ n á n t ậ p t r u n g n g h i ê n c ứ u m ộ t t r o n g n h ữ n g ứ n g d ụ n g quantr ọ n g t r o n g XLNNTN l à nhậndạ ng t h ự c th ểđ ị n h d a n h t r o n g vănb ả n đầu ra của ASR tiếng Việt Phần tiếp theo sẽ trình bày sơ lược về hệ thốngASR, các đặc trưng của văn bản đầu ra của ASR có thể ảnh hưởng tới nhậndạngthựcthể địnhdanhvà các nghiêncứuliênq u a n t ớ i v i ệ c c h u ẩ n h ó a dạngvănbảnnày.

Nhậndạngtiếngnói

Nhận dạng tiếng nói được Yu và Deng [4] định nghĩa:“là một thuật ngữđược sử dụng để mô tả các quy trình, công nghệ và phương pháp cho phéptương tác giữa người và máy tínhtốthơn thông qua việc dịch tiếng nói củacon người sang định dạng văn bản” Nói một cách ngắn gọn, ASR là cách đểmáy tính nh ận dạng và dịch ngôn ngữ nói thành văn bản Đólà một cách đểconngười tương tác với máy tính b ằng giọng nói giống như cách con ngườitương tác với nhau, giúp cho máy tính có th ể hiểu mọi từ đượcnói, trong bấtkỳmôitrường nóinào,hoặcbởibấtkỳ người nóinào.

CácnghiêncứuvềASRđãthuhútnhiềusựquantâmtrongnhiềuthậpkỷ qua nhờ các tiềm năng ứng dụng của nó Nhiều tiến bộ quan trọng trongcông nghệ ASR đã từng bước được chinh phục và ngày càng trở nên phổ biếntrong nhiều ứng dụng Có thể kể đến ở đây là các hệ thống dịch máy tự độngnhưphầnmềmSiricủaApple,GoogleTranslatecủaGoogle;hệthốngASRc óthểđánhgiáđộphátâmchínhxáccủangườihọcnhưphầnmềmhọctiếng

Anh Elsa Speak; tương tác rảnh tay với các thiết bị điện thoại thông minh, ôtô, thiết bị tự động trong gia đình như hệ thống nhà thông minh Xiaomi, trợ lýảo Intelligent Personal

Agent của Hyundai Ngoài ra, ASR còn được sử dụngđểxâydựngcáctổngđàitrảlờitựđộng,hệthốnghỗtrợliênlạc thôngtin,

Trong các ứng dụng đó, việc xử lý hiệu quả hệ thống ASR liên quan rấtnhiều đến việc đánh giá văn bản đầu ra Một cách phổ biến nhất thường đượcsử dụng để đánh giá hiệu suất của hệ thống ASR chính làWER S ố liệu WERdựat r ê n k h o ả n g c á c h L e v e n s h t e i n , đ o l ư ờ n g s ố l ầ n c h è n , x ó a v à t h a y t h ế trong mộtchuỗi [5].Tỷlệlỗitừđược tínhnhưsau:

(1.1) trong đó,Ilà số lần chèn,Dlà số lần xóa,Slà số lần thay thế vàNlà số từtrong vănbản. Đôi khi, tỷ lệ nhận dạng từ (Word Recognition Rate - WRR) là một biếnthể của WER cũng có thể là được sử dụng để đánh giá hiệu suất của ASR vàđượctínhbằngcôngthức sau:

Hệ thống ASR đã đạt đến một mức độ tin cậy nhất định, tuy nhiên, vănbản đầuracủahệthốngASR cònchứa mộtsốlỗitừ,như:

-Chèn từ: vídụ“vấn nạn tin giả trong đợt dịch Covid-19”nhận dạngthành “vấnnạntin giảmạotrongđợtdịchCovid-19”

- Xóa từ: vídụ“ Thu hẹp khoảng cách số để tiến tới một Việt Namsốtoàn diện”nhận dạng thành“Thu hẹp khoảng cách số để tiến tới một ViệtNam toàndiện”

-Thay thế từ: vídụ“miền Trung gồng mình tránh bão”nhận dạng thành“miền Trungđồnghànhtránhbão”

Ngoài ra, các văn bản đầu ra của hệ thống lõi ASR cũng cần được xử lýđể có thể sử dụng như văn bản viết thông thường Bảng 1.1 dưới đây cho thấycác điểm khác biệt giữa văn bản đầu ra ASR và văn bản viết dạng chuẩn, vớicácvídụ cụ thểtrongtiếng Việt.

Bảng1.1:ĐiểmkhácbiệtgiữavănbảnđầuraASRvàvănbảnviếtdạngchuẩn Điểmkhác biệt Vídụ

Gần đây, Việt Nam đangtíchcựctriểnkhaiGiáo dụcS T E M t r o n g C h ư ơ n g trìnhGiáodụcPhổthông. gầnđâyviệtnamđangtíchcự ctriểnkhaigiáodụcstemtr ongchương trìnhgiáodụcphổthông

Các từ tên riêng nước ngoài,các chữ viết tắt không đượcnhậndạngchínhxác

-kênh diu tút/ kênh diutúp/ kênh iu túp/ kênh diutube,

Kiểusố,kiểutiềntệnhậndạngt hành kiểu chữcái

- ViệtNamh ư ớ n g đ ế n m ụctiêu trở thành Quốcgia số vàonăm2030

- việtnamhướngđếnmục tiêu trở thành quốcgia số vào nămhai nghìnkhôngtrămbamươi(/ haikhôngbamươi)

- haitámđ ô / h a i m ư ơ i tám đôla, Địachỉemailhoặcđịachỉwebsite hay các siêu liên kếtthườnglàmộtcụmtừmộtliênt ụcvàcóquychuẩnnhưngbịnhậ ndạngt h à n h cáctừ,cụmtừk hôngtuântheoquytắcchuẩn,rất dàivà rờirạc

- địa chỉ email của tôi làhien.math@tnue.edu.vn

- việt nam nét chấm vi en( / việtnamnétchấmvênờ ) là báo điện tử chínhthống củaviệtnam

- địa chỉ email của tôi làhiền chấm mát a còng tênờu e c h ấ m e đ u c h ấ m vien

Tất cảcác điểm khác biệt này dẫn đến văn bản ASR khó hiểu và hạn chế khảnăngsửdụngvănbảnASRtrongrấtnhiềuứngdụngXLNNTNnhưdịchmáy,trảlời câu hỏi, trích xuất thông tin, Chínhvì v ậy, để cải thiện khả năng hiểu và sửdụngchocácmụcđíchtiếptheo,vănbảnASRcầnphảiđượcxửlýcáclỗitừ,loạibỏcáctừvông hĩa(vídụ:à,ừ,ờ)vàchuẩnhóalạibằngcáchchuẩnhóadữliệukiểusố,ngàytháng,chuẩnhoángôn ngữnướcngoàivàkhôiphụcdấucâu,viếthoa.Vănbảncuốisẽcócấutrúctốtvàdễhiểuhơnsovới vănbảnbanđầuđượctạobằngASR.Hình1.1dướiđâyminhhọavềcácvấnđềcầnthựchiệnđểtăng chấtlượngvănbảnđầuracủahệthốngASR:

Hình 1.1: Minh họa các vấn đề cần thực hiện để tăng chất lượng văn bảnđầu racủaASR 1.2.3 Hệthống nhậndạngtiếng nóitiếngViệt

Mặc dù phải đối mặt với nhiều vấn đề khó khăn, đặc biệt là sự hạn chếtài nguyên ngôn ngữ, nhưng với sự nỗ lực của các nhà nghiên cứu, các côngty, tập đoàn trong nước trong thời gian qua như VAIS (Vietnam AI System),Viettel, Zalo, FPT,… các hệ thống ASR tiếng Việt ngày càng được nâng caochấtlượngvàđãđạtđếnmộtmứcđộtincậynhấtđịnh.Hiệnnay,ViệtNamđã có một số hệ thống nhận dạng tiếng nói như Origin-STT, Viettel 1 , Vbee…Năm 2021, trong nghiên cứu đối sánh giữa các hệ thống ASR tiếng Việt tạiViệt Nam, Cao Hồng Nga và các cộng sự [6] đã đánh giá các hệ thống ASRtiếng Việt từ các công ty hàng đầu của Việt Nam hiện nay như VAIS,

1 https://viettelgroup.ai/service/asr nhạc.Mặcdùsốlượngmẫucònkhiêmtốnnhưngcũngđãchothấysựvượttrội của VAISvàViettel sovớicác hệthốngcònlại(Bảng 1.2).

Có thể nói, tại thời điểm nghiên cứu, hệ thống ASR của VAIS là mộttrong các hệ thống cho kết quả tốt trên bộ dữ liệu VLSP Đồng thời, nghiêncứusinhcũngđãđượccôngtyVAISđồngýhỗtrợsửdụnghệthốngASRc ho mục đích nghiên cứu liên quan đến văn bản đầu ra của hệ thống ASR Dovậy, các thực nghiệm trong luận án đã sử dụng hệ thống này để đánh giá cácmôhìnhđềxuất. Đối với hệ thống ASR tiếng Việt, tại VLSP đã sử dụng tỷ lệ lỗi âm tiết(SyER) thay vìtỷlệ lỗi từ để đánh giá hiệu suất của hệ thống ASR [7].Nguyên nhân là do tronghệthống chữ viết tiếng Việt, dấu cách được dùng đểngăn cách giữa các âm tiết thay cho các từ. Một từ có thể bao gồm từ một đếnsáu âm tiết, và nhiệmvụ tìm raranh giớigiữacác từ là vôc ù n g q u a n t r ọ n g Tỷlệlỗiâm tiếtđượctínhnhưsau:

(1.3) trong đó,Slà số lần thay thế,Dlà số lần xóa,Ilà số lần chèn,Clà số lượngâm tiếtđúngvàNlàsố lượngâm tiếttrongvănbảnN =(S+D+ C).

Bên cạnh việc tăng hiệu suất của hệ thống ASR thì việc chuẩn hóa vănbản đầu ra của ASR cũng là một vấn đề được nhiều nhà nghiên cứu tập trungcảithiện.Phầntiếptheo, nghiêncứusẽtrìnhbàytổngquanvềvấnđề này.

Chuẩnhóavănbản

Các lỗi chèn,x ó a , t h a y t h ế t ừ t r o n g v ă n b ả n đ ầ u r a c ủ a A S R c ó t h ể được cải thiện khi gia tăng hiệusuất của hệ thống ASR.

Mộtk h i h ệ t h ố n g ASRđạthiệuquả ca o thìtỉlệlỗitừsẽgiảmđiđángkể.Bêncạnhyêucầu cảit h i ệ n h ệ t h ố n g A S R t h ì vấnđ ề k h ó k h ă n n h ấ t v à l u ô n đ ư ợ c c á c n h à nghiênc ứ u t ậ p t r u n g x ử l ý đ ó l à v i ệ c k h ô i p h ụ c d ấ u c â u , c h ữ h o a N h ữ n g dấu hiệunày hoàn toànbịbỏ qua trong văn bản đầur a c ủ a A S R [ 8 ] n h ư n g lại rất hữu ích trong d ịch máy, tóm tắt văn bản hay trích xu ất thông tin, Việc khôi phục viết hoa bao gồm khôi phục từ đầu tiên của một câu và cácdanhtừ riêng Viết hoa chính là vi ệc xác định chính xác d ạng của từ, phânbiệt giữa bốn loại: tất cả các chữ cái viết thường, tất cả các chữ cái viết hoa,chỉ viết hoa chữ cái đầu tiên của âm tiết và chữ hoa hỗn hợp bao gồm một sốchữ cái viết hoa và một số chữ cái viết. Đồng thời, trong ngôn ngữ, đối vớinhững câu dài, một cấu trúc ngữ pháp sử dụng nhiều dấu câu sẽ tốt hơn mộtcấu trúc ngữ pháp tương tự mà bỏ qua các dấu câu. Khôi phục dấu câu lànhiệm vụ chèn chúng vào cácvịtrí thích h ợp trong một văn bản đầu vàokhôngcóbấtkỳdấucâunào.

HệthốngASRxửlýđốivớihaidạngtiếngnói,mộtlà,tiếngnóidàinhư bản tin thời sự, bài phát biểu họp Quốc hội, hai là, các đoạn hội thoạingắn như trò chuyện, tin nhắn thoại, Theo Coniam [9], trong việc xây dựnggiao diện người - máy sử dụng ngôn ngữ tự nhiên, hay còn được gọi là“chatbots”, một trong những điều khó khăn gặp phải là người sử dụng khôngnhất quán dấu câu và cách viết hoa Đồng thời, tác giả lập luận rằng

“đối vớicác câu ngắn do chatbots tạo ra liệu những vấn đề khôi phục dấu câu, chữ hoacó thể được coi là quan trọng nữa hay không” Đặc biệt, trong trường hợp tinnhắn văn bản ngắn (SMS), trò chuyện, hoặc các hoạt động blog khác, mọingười cũng thường bỏ qua cách viết hoa và dấu câu [10] Chính vì điều này,nghiên cứu trong luận án cũng chỉ tập trung xử lý trênv ă n b ả n đ ầ u r a c ủ a tiếng nóidài.

VớihệthốngASRxửlýtiếngnóidài,vănbảnđầuracủaASRkhôngcódấu câu nên thường là các chuỗi dài vô hạn, rất khó để xử lý Các nhà nghiêncứu khi xử lý vấn đề khôi phục dấu câu, chữ hoa cũng đặc biệt quan tâm tớiviệc phân đoạn chuỗi câu đầu vào và thường cắt ngẫu nhiên trong khoảng 20-30 từ [11], hay 20-50 từ [12], độ dài tối đa 100 từ [13], 128 từ [14], 150 từ[15], Việccắtbaonhiêuthìhợplýlàmộtvấnđềcầnphảixemxét.

Trong ngôn ngữ, đối với những câu dài, một cấu trúc ngữ pháp sử dụngnhiều dấu câu sẽ tốt hơn một cấu trúc ngữ pháp tương tự mà bỏ qua các dấucâu Khôi phục dấu câu là nhiệm vụ chèn các dấu câu như dấu chấm, dấuphẩy,dấuc h ấ m hỏi,dấug ạ c h n g a n g , d ấ u c h ấ m than, v à o cácv ị tr íthíchh ợp trong một văn bản đầu vào không có bất kỳ dấu câu nào.T u y n h i ê n , v ì tần suất dấu phẩy và dấu chấm xuất hiện nhiều hơn những dấu khác nên hầuhếtnghiên cứu chỉtập trungvào những dấu này[16],[17],[18],

Viết hoa chính là vi ệc xác định chínhxác d ạng của từ Có bốn dạng từ:tấtcảcácchữcáiviếtthường,tấtcảcácchữcáiviếthoa(thườnglàtrườnghợpc homộtsốcụmtừviếttắtnhấtđịnh),chỉviếthoachữcáiđầutiêncủaâm tiết (các âm tiết bắt đầu của câu và các âm ti ết trong cácdanh từ riêng) vàchữ hoa hỗn hợp bao gồm một số chữ cái viết hoa và một số chữ cái viếtthường (đây là trường hợp đối với một số danh từ riêng, như “McDonald”).Việc khôi phục viết hoa bao gồm khôi phục từ đầu tiên của một câu và cácdanhtừriêng(têncủangười,tổ chức,địa điểm, )[19].

Mặt khác, quy tắc viết hoa chữ cái đầu âm tiết thứ nhất của một câuhoàn chỉnh: sau dấu chấm, sau dấu chấm hỏi, sau dấu chấm than, điều này chothấy sự liên quan giữa chữ hoa và dấu câu Các nghiên cứu thường chỉ tậptrung giải quyết một nhiệm vụ cụ thể là khôi phục dấu câu hoặc chữ hoa Kếtquả nghiên cứu xử lý đơn lẻ như vậy không thể giúp cải thiện hiệu quả vănbảnđầuracủaASR,dẫnđếngầnđâyxuấthiệncáchướngnghiêncứu tíchhợp cả hai nhiệm vụ Ngay cả khi xử lý tíchhợpthì việc xác định khôi phụcdấucâuhaychữhoatrướccũnglàmộtvấnđềvìthứtựxửlýcũngcóthểsẽ ảnh hưởng lẫn nhau cũng như đến kết quả cuối cùng [15] Phần tiếp theo, luậnánsẽtrìnhbàyvềcácphươngphápxử lýtheocáchướngnày.

Một trong những phướng pháp triển khai ban đầu cho viết hoa tự độnglà dựa trên tập luật, nghĩa là sử dụng nguyên tắc xác định phần bắt đầu củamột câu mới để chỉ ra kítựđược viết hoa [20] Ngoài viết hoa kítựđầu câu,kítựđầu tiên của các âm tiết bên trong câu cũng có thể được viết hoa trongtrường hợp tên riêng nên cách ti ếp cận khả thi hơn đó làdựa vào từ điển Tuynhiên, theo Mikheev [21] rất khó để xác định được đúng các danh từ riêng.Chính vì v ậy, tác giả đã đề xuất đánh giá các từ khó xác định nàytrong toànbộ tài liệu và đưa ra quyết định viết hoa dựa trên kết quả thu thập được Cácnghiên cứu chỉ ra rằng, hệ thốngdựa trên luật khó duy trì vì chúng có th ể liêntụcyêucầubổ sungcác luậtmới.

Mô hình ngôn ng ữ là mô hình tính xác su ất giúp dự đoán từ tiếp theotrong chuỗi các từ Mô hình ngôn ng ữ tính xác su ất của một từw k cho trướctrong ngữ cảnh củan-1từ trước đów k-1 , w k-2 , , w k-(n-1) Xác suất này có thểđược biểu thịbởiP(w k | w k-1 , w k-2 , , w k-(n-1) ) Các nghiênc ứ u v ề k h ô i p h ụ c dấu câu và mô hình k ết hợp dựa trên mô hình ngôn ng ữn-gram đã được đềxuất [22] Các nghiênc ứ u c h o r ằ n g n h ư ợ c đ i ể m c ủ a m ô h ì n h n-gram làkhôngđ á n h g i á đ ư ợ c n g ữ c ả n h c ủ a t o à n b ộ c â u , d o đ ó , t r o n g n h i ề u t r ư ờ n g h ợpk h ô n g t h ể đ ư a r a m ộ t x á c s u ấ t c h í n h x á c Đ ồ n g t h ờ i , n g a y c ả v ớ i c á c tàing uyênmáytínhngàynayvềkhảnănglưutrữvàxửlý,cácmôhìnhcósốnc a ovẫnkhóx ửlýdoyêucầulưutr ữ củachúng Đểsửdụngdễdànghơnc á c m ô h ì n h n- gram lớn hơn, một số phương pháp cắt dữ liệu đã đượcđềxuất[23].

Theo các nhà nghiên cứu, viết hoa hay dấu câu có thể được coi là mộtvấn đề gán nhãn tuần tự Với một chuỗiW=w o w 1 w 2 …w n , mô hìnhdựđoánchuỗiviếthoaC=c 0 c 1 c 2 … c n vớic i làAL(AllLowercase),FU(FirstUppercase),AU(AllUppercase),MC(MixedCa se)tươngứngvớitấtcảviết thường,viếthoachữđầutiên,viếthoatấtcảvàviếthoatrộnlẫn.Tươngtự,dự đoán dấu câuE=e 0 e 1 e 2 …e n trong đóe i biểu thị một dấu câu hoặc không códấu câu nào Một số nghiên cứu sử dụng mô hình Entropyc ực đại (MaximumEntropy- M E )

- MEMM) [26] cho cả hai nhiệm vụ Mặc dù, HMM, MEMM đều là mô hìnhhữu hạn trạng thái theo xác suất, nhưng nếu HMM chỉ phụ thuộc vào trạngthái hiện tại thì MEMM còn phụ thuộc vào các trạng thái trước đó Điều đógiúp cho MEMM giải quyết được hạn chế nói trên của mô hình HMM. Tuynhiên khi áp dụng vào thực tế, với tập dữ liệu huấn luyện khá lớn, khả năngphânn h á n h c ủ a c á c t r ạ n g t h á i c a o t h ì t í n h c h í n h x á c c ủ a m ô h ì n h b ị ả n h hưởng rấtlớn.Đâychínhlàhạn chếlớnnhấtcủa môhình MEMM.

Trường ngẫu nhiên có điều kiện (Conditional Random Field - CRF)cũng là mô hình xác suất được sử dụng để phân đoạn và gán nhãndữliệuchuỗi [27] CRF có ưu điểm hơn so với MEMM và các mô hình Markov khácdo CRF là một mô hình đồ thị vô hướng, cho phép CRF có thể định nghĩaphân phối xác suất của toàn bộ trạng thái Các mô hình s ử dụngCRF được đềxuất khôi phục dấu câu [28], viết hoa

[29] được cho là cải thiện hơn rất nhiềusov ớ in- gramc h o c ả t i ế n g A n h v à t i ế n g T r u n g T u y n h i ê n , h ầ u n h ư c á c nghiên cứu khôi phục dấu câu, chữ hoa thường sử dụng kết hợp CRF ở lớpcuối cùngcủakiếntrúc mạngnơ-ron.

Gầnđ â y , c á c n g h i ê n c ứ u đ ã s ử d ụ n g k i ế n t r ú c m ạ n g n ơ - r o n c h o b à i toán khôi phục dấu câu, chữ hoa Với tiếp cận mạng nơ-ron, có thể đưa ra môhình mạng cho cả mức từ và mức ký tự Trong trường hợp thứ nhất, đầu rathườngđượccoinhưdấucâutheosaumộttừđầuvào.Trườnghợpmứckýtự, mô hìn h dự đoán dấu câu sẽ đưa ra cùng với kýtự trống (dấu cách) Hơnnữa, trong trường hợp đầu vào là các từ, các giá trị mã hóa từ thường được sửdụng Giải pháp này cho phép tái sử dụng các bộ mã hóa từ đã được tiền huấnluyện giúp nâng cao hiệu năng của mô hìnhvớilượng dữ liệu huấn luyện hạnchếchobài toáncụthể.

Susanto và các cộng sự [30] đã đề xuất sử dụng mạng nơ-ron hồi quy(Recurrent Neural Network - RNN) ở cấp ký tự để xử lý sai lệch trong cáctrường hợp viết hoa trộn lẫn (vídụ:MacKenzie) RNN đã chứng minh sự hữuích trong việc lập mô hìnhdữliệu tuần tự Tại mỗi thời điểm bướct, nó nhậnmột véc-tơ đầu vàox t và trạng thái ẩn trước đóh t−1 , và tạo ra trạng thái ẩntiếp theoh t Các công thức lặp lại khác nhau dẫn đến các mô hình RNN khácnhau Các kết quả cho thấy, phương pháp tiếp cận mức kítựkhả thi cho viếthoa và RNN có hiệu suất cạnh tranh hơn so với CRF ở cùng cấp ký tự.

Ngoàira,nócòngiảiquyếthiệuquảnhữngtừnằmngoàitừđiểnnhưngkhókhăn khi xửlýcác câudài.

Môhìnhmạngnơ-ronhồiquyhaichiều(BidirectionalR e c u r r e n t Neural Network) cóthêm một tầng ẩn cho phép xử lý dữ liệu theo ngữ cảnhdài với chiều ngược lại một cách linh hoạt hơn so với RNN truyền thống Tilkvà các cộng sự [31] đã kết hợp mô hình này với cơ chế chú ý để hướng sự sựchú ý khi cần thiết giúp khôi phục dấu chấm câu đạt hiệu quả tốt hơn trên cáctậpdữliệuvềtiếngAnh(IWSLT2011) vàtiếngEstonia trước đây.

Nhậndạngthựcthểđịnhdanh

NERl à mộtb à i t o á n t iề nđ ề c h o c á c hệt hố ng v ề hiểung ôn n g ữ h a y khai phá văn bản, đã được quan tâm nghiên cứu trên thế giới từ đầu nhữngnăm1990.Đếnnăm1995,hộithảoquốctếchuyênđềM e s s a g e Understanding Conference - MUC lần thứ 6 mới bắt đầu tổ chức đánh giá cáchệ thống NER cho tiếng Anh Tại hội thảo CoNLL năm 2002 và 2003, các hệthống NER cũng đánh giá cho tiếng Hà Lan, Tây Ban Nha, Đức và Anh Gầnđây, tiếp tục có các cuộc thi về NER được tổ chức như GermEval 2014 chotiếngĐứchayVLSPchotiếngViệttừnăm2012.

Trong ngôn ngữ học không có một định nghĩa chính thức thế nào là mộtthực thể định danh Với ý tưởng là tìm ki ếm trong vănbản tên người, tên tổchức, địa điểm, thời gian, tiền tệ, vàmục tiêu là trích ch ọn trong văn bảncác từ, cụm từ có cùng một thể loại, thuật ngữ này được hai tác giả Sundheimvà Grishman giới thiệu lần đầu tiên tại hội nghị MUC-6 [39]:“Nhận dạngthực thể định danh là một quá trình xác định tìm kiếm các từ hoặc cụm từ cónghĩa từ văn bản ngôn ngữ tự nhiên phân loại thành các nhóm duy nhất đượcđịnh nghĩa trước đó như: tên người, tên tổ chức, ngày giờ, địa điểm, con số,tiền tệ…”

Aggarwal, C C [40] cũng đã phát biểu về bài toán nhận dạng thực thểđịnhdanhnhưsau:“Bàitoánnhậndạngthựcthểđịnhdanhlàbàitoánx ác định thực thể có tên từ các văn bản dưới dạng tự do và phân lớp chúng vàomộttậpcáckiểuđượcđịnhnghĩatrướcnhưtênngười,tổchứcvàđịa điểm.”

Thựct h ể đ ị n h d a n h c ó r ấ t n h i ề u k i ể u k h á c n h a u p h ụ t h u ộ c v à o đ ặ c trưngcủa loại dữ liệu, miềndữ liệu hay mục đíchcủa hệ thốngứ n g d ụ n g nhận dạng thực thể Năm 2011, dự án Quaero đã đưa ra một định nghĩa mởrộng về thực thể định danh, trong đó, các thực thể cơ sở được kết hợp để xácđịnh những thực thể phức tạp hơn Vídụ,thực thể tên tổ chức được chia chitiết hơn là tên tổ chức chínhphủ,tổ chức giáo dục hay tổ chức thương mại.Định nghĩa mở rộng được phát biểu như sau:“nhận dạng thực thể định danhbaogồmv i ệ c p h á t h i ệ n , p h â n l o ạ i v à p h â n t á c h c á c t h ự c t h ể ” [ 4 1 ] N g o à i cácl o ạ i t h ự c t h ể đ ị n h d a n h t h ô n g t h ư ờ n g , c á c l o ạ i t h ự c t h ể đ ị n h d a n h c ó dạng văn bản của các ngành đặc biệt như y sinh, quân sự cũng nhận đượcnhiềusựquantâm.

1.4.2 Tầmquan trọngcủabàitoán nhận dạngthực thểđịnhdanh

Thực thể định danh là một trong những thông tin chính thường đượctrích chọnđể ứng dụngtrongcácnhiềulĩnhvựckhácnhau.

Trong hệ thống hỏi đáp tự động, mục tiêu là tìm câu tr ả lời trong mộtđoạnvănbản.Điềuquantrọnglà phảip h á t h i ệ n c á c t h ự c t h ể đ ị n h d a n h trong văn bảnvì cáccâutr ả lờithườngliênq u a n đ ế n c á c t h ự c t h ể đ ị n h danh Theo nghĩa đó, hầu hết các hệ thống hỏi đáp đều kết hợp một số dạngcôngc ụ n h ậ n d ạ n g t h ự c t h ể đ ị n h d a n h , g i ú p đ ơ n g i ả n h ó a c ô n g v i ệ c m ộ t cáchđángkể.

Khi thực hiện khai thác thông tin, nhiều mối quan hệ là sự liên kết giữacác thực thể định danh Phát hiện ra các thực thể định danh là điều quan trọngđối với hệ thống để có thể trích xuất thông tin liên quan Việc phân loại saimột thực thể định danh có thể dẫn đến việc trích xuất thông tin sai Các thựcthể định danh cũng có vai trò quan trọng trong quá trình d ịchmáy Hệ thốngcần phải nhận ra chúng một cách chính xác vì d ịch sai hoặc bỏ một thực thểđịnh danhcóthểthayđổiýnghĩacủa câu.

Trongtóm tắt văn bản, mục tiêu là trích xu ất thông tin liên quan từ cáctài liệu. Thông tin liên quan thường bao gồm ngày tháng, địa điểm, con ngườivà tổ chức. Tất cả các danh mục này có thể được phát hiện bằng hệ thốngNER Điều này sẽ đảm bảo rằng hệ thống sẽ không loại trừ thông tin có liênquanquantrọngtrongphầntóm tắt. Đối với hệ thống ASR, theo Yadav và các cộng sự [42] thông tin vềthực thể định danh cũng có ý nghĩa quan trọng trong hệ thống khai thác thôngtin và hữu ích trong nhi ều ứng dụng như tối ưu côngcụ tìm kiếm, phân loạinội dung cho các nhà cung cấp tin tức và đề xuất nội dung Đôi khi, NER từtiếng nói còn sử dụng cho ứng dụng hỗ trợ quyền riêng tư, ví dụ trong các bảnghi âmy tếcầnsửdụngthôngtinNER đểẩn thông tin tên bệnhnhân[43].

Hầuhếtcáccôngty,đánhgiátrựctuyếnđượcdùngđểthuthậpphảnhồi của khách hàngn h ằ m p h á t t r i ể n k i n h d o a n h V í dụ:sử dụng hệ thốngNERđểpháthiệncácvịtríđượcđềcậpthườngxuyênnhấttrongphảnhồi tiêu cực của khách hàng, điều này có thể giúp chủ doanh nghiệp tập trung vàomộtchinhánhvănphòngcụ thể.

Nhiều ứng dụng hiện đại như Netflix, YouTube, Facebook, dựa vàohệ thống khuyến nghị để tạo ra trải nghiệm khách hàng tối ưu Rất nhiều hệthống này dựa vào nhận dạng thực thể định danh để đưa ra đề xuất dựa trênlịchsửtìmkiếm củangườidùng.

Thước đo đánh giá thích hợp cho hệ thống NER có thể giúp chúng taphân tích điểm mạnh và điểm yếu của hệ thống và so sánh giữa các kiến trúcvới nhau.

Cácsốđođánhgiáđiểnhìnhđượcsửdụngchonhậndạngthựcthểlàđộc hínhxác(precision-P),độphủ(recall-R)vàđộđoF1(F1-measure)

𝑅𝐹1𝑁𝐸_𝑡𝑟𝑢𝑒 𝑁𝐸_𝑟𝑒𝑓 2∗𝑃∗𝑅 𝑃+𝑅 trong đó:N E _ r e f : là số thực thể trong dữ liệu gốc,NE_sys: là số thựcthểđ ư ợ c đ ư a r a b ở i h ệ t h ố n g ,N E _ t r u e:l à số t h ự c t h ể đ ư ợ c h ệ t h ố n g g á n nhãnđúng.

1.4.4 TháchthứcchobàitoánNERtrongvănbảnđầuracủaASRtiếngViệt Để đạt được kết quả tốt, hệ thống NER yêu cầu một lượng dữ liệu đángkể cho mục đích huấn luyện Đối với các ngôn ngữ nhiều tài nguyên như tiếngAnh, tiếng Trung, việc lấy dữ liệu không khó, tuy nhiên, điều này không dễđốivớitiếngViệtdochưacódữliệuvănbảnđầuraASRcógánnhãnNERđủ lớn phục vụ cho huấn luyện, đánh giá Đã có rất nhiều nghiên cứu về NERcho văn bản tiếng Việt thông thường, tuy nhiên, xử lý bài toán này cho vănbản đầu ra của ASR tiếng Việt lại rất hạn chế, điều này khiến cho việc có mộtbộ dữ liệu công bố chuẩn hay việc so sánh các kết quả thử nghiệm gặp nhiềukhó khăn Những thách thức cho bài toán NER trong văn bản đầu ra của ASRtiếng Việt cóthểkểđếnnhưsau:

Các thực thể định danh thường được viết hoa, vìvậyhệ thống dựa vàocách viết hoa để phát hiện chúng Trong khi đó, các văn bản đầu ra của ASR,việc viết hoa bịb ỏ q u a g â y k h ó k h ă n c h o h ệ t h ố n g Đ ồ n g t h ờ i , c á c v ă n b ả n đầu ra của ASR không có cấu trúc câu Vấn đề trong câu không tồn tại bất kỳmột loại dấu câu nào thực sự là một khó khăn và không dễ dàng để phân đoạnhoặcphân tíchcâu đượcchínhxác.

Việc xác định biên của một từ trong tiếng Việt khó khăn hơn so với cácngôn ngữ khác, do tiếng Việt thuộc loạihình ngôn ng ữ đơn lập, tức là, một từcó thể được tạo nên bởi một hoặc nhiều tiếng, vídụ:thủ_đô, câu_lạc_bộ,uỷ_ban_nhân_dân,

Yêu cầu hệ thống có khả năng phân biệt loại thực thể Vídụ:câu nói“tôi yêu hà giang”thìhà giangcót h ể đ ề c ậ p đ ế n t ê n n g ư ờ i h o ặ c t ê n đ ị a danh,tùythuộcvàongữcảnhmàđốitượng đóxuấthiện.

Tên riêng cũng đặt ra những thách thức nhất định cho hệ thống NER.Do không có nhiều ràng buộc về tên riêng nên có thể khiến hệ thống bỏ quahoặc nhầm nó vớimột thực thể khác Ví d ụ:“đây là củ chi”thì cũng có thểđólàtêncủamộtđịadanhlàCủChi,nhưngcũngcóthểđólàmộtcâuhỏiđâylàc ủgìtheotiếngđịa phươngcủangườimiềnTrung. Đặc biệt, lỗi ASR làm cho các thực thể định danh bị bỏ sót hoặc cácthực thể định danhbịn h ậ n d ạ n g s a i N ế u m ộ t h o ặ c n h i ề u t ừ c ấ u t h à n h t h ự c thể địnhdanh bị nhận dạng sai thì r ất khó để nhận ra đúng thực thể định danh.Ngược lại, ngay cả khi tất cả các từ cấu thành thực thể định danh được nhậndạng chính xác, cũng có thể không nhận ra đúng thực thể định danh do thiếungữcảnhtrongvănbảnđầuracủa ASR.Vídụ:“thờithanhxuânđãqua”quahệ thống ASR nhận dạng sai thànhthời anh xuân đã quavà hệ thống NERnhậndạnganhxuânlàthựcthểđịnhdanh.

Tên nước ngoài, tên viết tắt trong văn bản đầu ra ASR cũng có thể bịnhận dạng theo nhiều phiênbản khác nhau, ví d ụ:“Cộng hòa

Angola”khiqua hệ thống ASR có thể nhận dạng thànhc ộ n g h ò a ă n g g ô l a / c ộ n g h ò a a n gôla/cộnghòaăn goala/cộnghòaăngla,

Hiện tượng đồng âm khác nghĩa trong tiếng Việt phổ biến hơn các ngônngữ Ấn- Â u, vídụ:“trườngtôicónhiều lan”thìlancóthểl à t h ự c t h ể đ ị n h danh chỉtênngười,nhưng cũngcóthểchỉlàcâylan,hoalan.

NER là một trong những nền tảng chính để hiểu ngôn ngữ nói Phươngpháp phổ biến để trích xuất các thực thể định danh từ tiếng nói là thông quaphương pháp đường ống Cách tiếp cận này tuân theo quy trình hai bước, (i)xử lý tín hiệu tiếng nói bằng cách sử dụng hệ thống ASR và xuất ra văn bảntươngứngvà(ii)g ắ n thẻNERtrênvănbảnđượctạorabởihệthốngASR.

Gầnđây,cáchtiếpcậnE2Eđ ã đ ư ợ c đ ề x u ấ t v ớ i m ụ c đ í c h l à g á n n h ã n t r ự c tiếpc á c t h ự c t h ể đ ị n h d a n h t ừ h ệ t h ố n g A S R [ 4 5 ] T ổ n g q u a n n g h i ê n c ứ u đượctrìnhbày theotừnghướng tiếp cận.

1.4.5.1 Cácnghiên cứuliênquan theo hướng tiếpcậnđườngống

Theo mô hình đường ống, các nghiên cứu NER cho văn bản đầu ra củaASR được tiếp cận theo cách truyền thống như dựa trên luật, học máy và cáchtiếpcậndựatrênhọcsâu.Tronggiaiđoạnđầutiên,Kimvàcộngsự[46]đãđề xuất nhận dạng thực thể định danh trên văn bản đầu ra của ASR dựa trêntập luật Ưu điểm của phương pháp là yêu cầu lưu trữ nhỏ, có thể mở rộng cácluật Tuy nhiên, nhược điểm là các quy tắc cần được xây dựng thủ công, đặcbiệt khi đầu vào là văn bản đầu ra của ASR thì thông tin viết hoa cho thực thểđịnh danh sẽ không còn nữa, do đó việc lấy thông tin ngôn ngữ cần thiết đểxây dựng các luật sẽ khó khăn Để khắc phục điều này, rất nhiều các nghiêncứudựa trênhọc máyđã được các nhà nghiêncứuđềx u ấ t n h ư m ô h ì n h HMM [47], mô hình entropycựcđại (ME) [48], CRF [49], [50], HMM-CRF[51], máy véc-tơ hỗ trợ (SVM) [52] và tập trung chủ yếu cho tiếng Anh, tiếngTrung, tiếng Nhật, tiếng Pháp Việc kết hợp sử dụng phân đoạn lại(re-segmentation), phân lớp sau(post- classification), sử dụngn-best từ hệ thốngASR hay kiến trúc đa tầng cho phép gán nhãn NER theo từng cấp độ đã giúpcải thiện đáng kể các mô hình Các nghiên c ứu cũng chỉ ra rằng cần kết hợpthêm các đặc trưng về âm tiết, kết hợp các thông tin dấu câu, chữ hoa và cảithiện lỗitrongvănbảnđầuracủaASR đểtănghiệu suấtNER.

Tổng quanvềdữliệu

Để có nguồn dữ liệu lớn cho mục đích huấn luyện các mô hình, cácnghiên cứu đã có nhiều phương án khác nhau.V ớ i b à i t o á n k h ô i p h ụ c d ấ u câu, chữ hoa, hầu hết các nghiên cứu thực hiện thu thập dữ liệu từ các trangtiểu thuyết [13], tin tức [14], [38], sau đó, các văn bản được bỏ dấu câu, chữhoavớitỉ lệlỗitừlà0%[63],[16],[64].

VềdữliệuthựcnghiệmchobàitoánN E R , M d h a f f a r v àcáccộngsự[65]nhậnđịnhrằngcácmôhìnhhi ểungônngữnói(SpokenLanguageUnderstanding - SLU) cần một lượng lớn dữ liệu để huấn luyện, trong khi đó,các nghiên cứu phải đối mặt với trường hợp không có sẵn dữ liệu huấn luyệntừ tiếng nói và văn bảngán nhãn NER tươngứng.Việc đểcóthểcóm ộ t lượngdữliệutiếngnóicógánnhãnlớnvẫncòngặprấtnhiềukhó khănvà không kinh tế Một số giải pháp gần đây đã được đề xuất để khắc phục vấn đềnày. Caubrière và các c ộng sự [66] đềxuất áp dụng phương pháp học tậpchuyển giao để tận dụng các dữ liệu gán nhãn sẵn có cho các nhiệm vụ SLUchung cho từng nhiệm vụ cụ thể Trong [67], các tác giả đề xuất tạo tiếng nóitổng hợp để mở rộng tập dữ liệu nhỏ có liên quan tới dữ liệu gán nhãn Cáchtiếp cận này cũng đã được đề xuất để tăng dữ liệu trong ASR [68] hoặc vớivăn bảnđầuracủatiếngnói[69].

Hiện nay, chưa có một bộ dữ liệu văn bản đầu ra ASR cho tiếng Việt cógán nhãn dấu câu, chữ hoa hay thực thể định danh chuẩn, phục vụ cho mụcđínhnghiên cứu Chính vì v ậy, luận án cần xây dựng các bộ dữ liệu phù hợpđểcóthểhuấn luyệnchocácmôhìnhđềxuấttrongluận án. Để phục vụ cho mục đích huấn luyện và đánh giá mô hình chuẩn hoávăn bản đầu ra của hệ thống ASR trong Chương 3, nghiên cứu cần xây dựngbộ dữ liệu lớn, tập văn bản này được xóa định dạng (bỏ dấu câu, chuyển chữhoathànhchữthường).

Bộ dữ liệu văn bản và âm thanh đã gán nhãn mẫu phục vụ mục đíchhuấn luyện và đánh giá mô hình cho bài toán NER theo hướng tiếp cận đườngống và E2E trong Chương 4 được tận dụng từ bộ dữ liệu văn bản NER VLSP2018 2 Tương ứng với tập văn bản chuẩn này là tập văn bản được xóa địnhdạng và dữ liệu thu âm với các giọng đọc khác nhau, trong môi trường khácnhau Đồngthời, để tiết kiệm chi phí thu âm, tất cả dữ liệu văn bản của VLSPsẽ sử dụng hệ thống TTS của Google để tạo ra dữ liệu âm thanh tổng hợp Sauđó, bộ dữ liệu âm thanh tổng hợp sẽ qua hệ thống ASR của VAIS để được bộdữliệuvănbảnphụcvụhuấnluyện môhình NERE2E.

Chi tiết về các bộ dữ liệu sẽ được mô tả cụ thể trong Chương 3 vàChương4.

2 DữliệutừcuộcthiNERt ạ i HộithảoV L S P (VietnameseLanguageandSpeechP r o c e s s i n g ) 2018:https://vlsp.org.vn/ vlsp2018/ner

KếtluậnChương 1

Trong Chương1 nghiên cứu sinh đã trình bày t ổng quan về XLNNTN,các khó khăn trong xử lý ngôn ngữ tiếng Việt Nhận dạng thực thể định danhlà mộtbài toánquantrọng trong XLNNTN, nhưng lạigặp phảinhiềuk h ó khăn đối với văn bản đầu ra của ASR Do đó, những nghiên cứu về đặc trưngvăn bản đầu ra ASR, các vấn đề cần giải quyết và tổng quan các nghiên cứuliên quangiúp chuẩn hóa văn bản đầu ra ASR đã được trình bày Bên c ạnhviệc giới thiệu cơ bản về bài toán NER, tầm quan trọng của bài toán và cáchthức đánh giá hệ thống, nghiên cứu cũng đưa ra những thách thức đối với bàitoán NER trong văn bản đầu ra của ASR tiếng Việt và các nghiên cứu liênquan để từ đó xác định những nội dung cần giải quyết Đồng thời, Chương 1cũng đã giới thiệu tổng quan về các bộ dữ liệu sử dụng trong luận án, việctriểnkhai chitiếtbộdữliệunàytươngứngvớitừng bàitoánvàcácbộdữliệuđặctrưng khácsẽđượcgiớithiệu cụ thểtrong cácChương3vàChương4.

Phầntiếptheo,chương2sẽtrìnhbàynhữngkiếnthứcnềntảngc h o việcnghiêncứu,ph áttriểncácphươngpháphiệuquảchocácmôhìnhhọcsâu trong việc chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhậndạngtiếngnóitiếngViệt.

Vấnđềkhôiphụcchữhoa,dấucâuchovănbảnđầuracủaASRgiúptốiưuhệth ốngASRsẽđượctiếptụctrìnhbàytrongChương3.Trọngtâmcủaluậná n v ề n h ậ n d ạn gt h ự cthểđịnh d an h c h o v ă n bả nđ ầu r a c ủ a A S R cũng được đề xuất theo hai hướngtiếp cận đườngố n g , t i ế p c ậ n đ ầ u - c u ố i , trong đó chứngminh được giảt h u y ế t v i ệ c k ế t h ợ p m ô h ì n h k h ô i p h ụ c d ấ u câu, chữ hoa sẽ giúp cải thiện hiệu suất mô hình NER và cácth ực nghiệm, kếtquả,đốisánhsẽđượcgiớithiệuchi tiếttrong Chương4.

Hiện nay, có rất nhiều mô hình h ọc sâu đã được áp dụngthành công vàchứng tỏ hiệu suất cao trong nhiều lĩnh vực và bài toán khác nhau Mô hìnhhọc sâu đóng vai trò quan trọng trong XLNNTN như hiểu ngôn ngữ tự nhiên,dịch máy, phân loại văn bản, sinh văn bản tự động,…Chương 2 trình bày chitiết về một số mô hình học sâu cho xử lý chuỗi, mô hình biểu diễn từ và môhình gán nhãn chu ỗi Những kiến thức nền tảng này là cơ sở quan trọngđểđịnh hướng việc đề xuất các mô hìnhchu ẩn hoá và nhận dạng thực thể địnhdanh cho văn bản đầu ra của ASR tiếng Việt trongC h ư ơ n g 3 , C h ư ơ n g

4 Đồng thời, Chương 2 cũng giới thiệu về phương pháp học đa tác vụ, cho phépmột mô hình h ọc được nhiều tác vụ cùngmột lúc, giúp mô hình cóthểhọcđược nhiều thông tin từ các tác vụ khác nhau và cải thiện khả năng tổng quáthóa.Chương 4 sẽ áp dụng phương pháp này để thiết kế một mô hình nhậndạngthựcthể địnhdanhtheohướngE2E.

Môhìnhxửlýchuỗi

CónhiềumôhìnhđượcsửdụngđểxửlýchuỗitronglĩnhvựcXLNNTN như HMM, RNN, LSTM Mô hình RNN và LSTMcó kh ả năngduy trì thông tin ng ữ cảnhqua các trạng thái ẩn, nhưng vẫn tồn tại vấn đề mấtmát thông tin dài hạn Với các chuỗi dài, thông tin từ các vị trí xa nhau cóthểbị mất đi hoặc không đủ để ảnh hưởng đến quá trình d ự đoán.Trong quá trìnhlan truyền ngược (backpropagation) và huấn luyện, việc tính toán đối với cácchuỗi dài có thể trở nên phức tạp và tốn nhiều thời gian Ngoài ra, cả HMM,RNN và LSTM đều không cókhả năng chútrọngv à o n g ữ c ả n h t o à n c ụ c trong chuỗi, chỉ xem xét thông tin từ vị trí trước hoặc gần đó Điều này có thểhạn chế khả năng mô hình hóa mối quan hệ phức tạp giữa các từ trong ngônngữ tự nhiên Mặc dù LSTM được thiết kế để giải quyết vấn đề mất mát thôngtin dài hạn trong RNN, nhưng cũng không phải là giải pháp hoàn hảo cho xửlý các chuỗidữliệurấtdài.

GRU (Gated Recurrent Unit) là một biến thể của RNN nhằm giải quyếtmộtsốhạnchếcủaRNNvàLSTM,như:cấutrúcđơngiản,ítthamsốhơn,dođó, có thể thực hiện tính toán nhanh hơn so với LSTM, có khả năng xử lý cácchuỗi dữ liệu dài tốt hơn so với RNN truyền thống Do đó, luận án đã sử dụngGRU cho thiết kế mô hình nhận dạng thực thể định danh theo hướng tiếp cậnđường ống.Phầntiếptheosẽtrìnhbàychitiếtvềmôhìnhnày.

RNN thíchhợpđể nắm bắt các mối quan hệ giữa các kiểu dữ liệu tuần tựvàcó trạngtháiẩnlặp lại(recurrenthidden state)nhưsau[70]:

ℎ 𝑡 = 𝑔 (𝑊𝑥 𝑡 + 𝑈ℎ 𝑡−1 + 𝑏) (2.2) trong đó,𝑥𝑡là véc-tơ ầu vào đầu vào m-chiềutại thời điểmt,ℎ𝑡là trạng thái ẩn n-chiều,glà hàm kích ho ạt (theo điểm), chẳng hạn như hàm logistic,hàm tiếptuyến hyperbol hoặc đơn vị tuyến tính được chỉnh lưu (Rectified Linear Unit -ReLU), và𝑊,𝑈và𝑏lần lượt là các tham số có kích thước thíchhợp(haitrọngsốvàđộlệch).Cụthể,trongtrườnghợpnày,𝑊 l àmatrận𝑛×𝑚,𝑈là matrận𝑛× 𝑛, và𝑏làma trận(hoặcvéc-tơ)𝑛× 1.

Có thể nhận thấy rằng, rất khó để nắm bắt sự phụ thuộc khoảng cách xa(long- term) bằng cách sử dụng mô hình RNN vì các gradient có xu hướng suybiến hoặc loại bỏ với các chuỗi dài Mô hình GRU[70] đã được đề xuất đểgiải quyết vấn đề này Sự khác biệt chính giữa RNN thông thường và GRU làGRU hỗ trợ việc kiểm soát trạng tháiẩ n Đ i ề u n à y c ó n g h ĩ a l à c ó c á c c ơ c h ế đểquyếtđịnhkhinàonêncậpnhậtvàkhinàonênxóatrạngtháiẩn.

Mô hình GRU giảm tín hiệu cổng thành hai so với mô hình LSTM Haicổng được gọi là cổng cập nhật (update gate)𝑧𝑡v à m ộ t c ổ n g đầu vào ặ t l ạ i

 b z :véc-tơđộlệch (bias) b Cổng đặtl ạ i Côngthứctín htoán: r(t)=𝜎(W r *x(t) +U r *h(t-1)+b r ) (2.4) Saukhitínhtoáncổngcậpnhậtvàcổngđặtlại,chúngđượcsửdụngđểtínhtoánhiddens tatemới tạithờiđiểm hiệntại:

 ⊙:phépnhânvôhướng(element-wisemultiplication) Cuối cùng, hidden state mớih(t)được tính bằng cách kết hợp hiddenstatetrướcđóvà hiddenstate mới: h(t)=(1 -z(t))⊙h(t-1)+z(t)⊙h'(t) (2.6) Đâylàcôngthứccơbảnđểtínhtoáncổngcậpnhậtv à c ổn g đ ặ t l ạ i trong mô hình GRU Cáctham s ố W, U và b là các ma trận trọng số và véc-tơđộ lệchđượchọctrongquátrìnhhuấnluyệnmôhình.

Mặc dù vậy, GRU cũng tồn tại một số hạn chế khi xử lý các chuỗi dữliệu rất dài như: có khả năng mất mát thông tin quan trọng trong quátrình x ửlý chuỗi, vẫn giới hạn về khả năng mô hình hóa mối quan hệ phức tạp trongchuỗi, cần nhiều tham số để huấn luyện, do đó làm tăng yêu cầu về lượng dữliệuhuấn luyện vàtàinguyêntính toán.

Sựrađờicủa môhìnhTransformerđãtạorabướcđộtphámới,giúpmôhìn hxửlýhiệuquảvớinhiềutácvụkhácnhau,đồngthờihạnchếđược một số nhược điểm của RNN và các biến thể của nó như LSTM hay GRU.Transformer có khả năng chú trọng tất cả các từ trongc h u ỗ i đ ầ u v à o , c h o phép mô hình có cái nhìn rõ ràng và toàn di ện về ngữ cảnh trong chuỗi. Đồngthời, Transformer có khả năng học các mối quan hệ không phụ thuộc chuỗitrongdữliệu,họcbiểudiễntừngữphứctạpvàmôhìnhh ó a s ựt ư ơ n g t á c phức tạp giữa các thành phần của chuỗi Đặc biệt, Transformer có thể đượchuấnluyện và tính toán song song m ột cách hiệu quả trên phần cứng nhờ vàosự phụ thuộc không đáng kể giữa các vị trí trong chuỗi, điều này giúp tăng tốcquá trình hu ấn luyện và dự đoán của mô hình.Chínhvì v ậy, luận án đã ápdụng mô hình Transformer trong thi ết kế mô hình chuẩn hoávăn bản đầu racủa ASR tiếng Việt ở Chương 3 Phần tiếp theo sẽ giới thiệu về kiến trúc vàcáccơchếđặctrưngriêng của mô hình.

Hình 2 1 mô tả chi tiết kiếntrúc mô hình h ọc chuyển giao TransformerdoVaswanivàcác cộngsựđềxuất [32].

Transformerlàmôhìnhh ọcsâu,trongđósửdụngcơchếchúý(attention) để tính toán ảnh hưởng của các biến đầu vào đến kết quả đầu ra.Mô hình này được dùng phổ biến trong lĩnh vực XLNNTN, tuy nhiên gần đâycònđượcpháttriển cho cácứng dụngkhácnhưthịgiácmáy,xửlý tiếng nói.

Giống như những mô hình d ịch máy khác, kiếntrúc tổng quan của môhình Transformer bao gồm hai phần chính là b ộ mã hóa(Encoder)và bộ giảimã(Decoder).Trong mô hình Transformer,b ộ mã hoá chịu trách nhiệm xử lýđầuvàovàbiểudiễncáctừhoặccâuthànhcácvéc- tơbiểudiễncóýnghĩa.Bộgiảimãcónhiệmvụchuyểnđổibiểudiễncủađầuvàot hànhmộtchuỗiđầura.

MôhìnhTransformersửdụngnhiềukhốimãhóavàkhốigiảimãđểxửlý dữ liệu Mỗi khối bao gồm một tầng tự chú ý đa đỉnh (multi-head self-attention)vàmạngnơ-rontruyềnthẳng(feed- forwardnetwork).Tầngtựchúý đa đỉnh cho phép mô hình h ọc các biểu diễn đa chiều của câu, trongkhimạngnơ-rontruyềnthẳnghọccácbiểudiễn phituyến củatừngvịtrí.

Tự chú ý (Self-Attention): là một cơ chế quan trọng trong mô hìnhTransformer, cho phép mô hình xác định mức độ quan trọng của các từ trongcâu bằngcách tính toán m ột trọng số cho mỗi từ dựa trên tương quan với cáctừ khác Điều này giúp mô hình hi ểu được mối quan hệ ngữ nghĩavà cú pháptrong câu.

Cơchếchúýđađỉnh(Multi-HeadAttention):TrongmôhìnhTransformer, mỗi tầng tự chú ý sử dụng cơ chế chú ý đa đỉnh Cơ chế này chophép mô hình h ọc các biểu diễn đa chiều của câu bằngcách tính toán chú ý từnhiều không gian biểu diễn khác nhau, giúp tăng khả năng học các mối quanhệ phức tạp trong câu Việc sử dụng cơ chế chú ý đa đỉnh giúp mô hìnhhọcđượcn h i ề u k h í a c ạ n h k h á c n h a u c ủ a c â u và cungc ấ p b i ể u d i ễ n p h o n g p h ú hơn chodữliệuđầuvào. a Bộmã hoá

- Đầu vào và biểu diễn từ (Input Embeddings): Đầu vào của bộ mã hoá làmột chuỗi các từ hoặc câu được biểu diễn dưới dạng các véc-tơ từ Trước khiđi vào bộ mã hoá, cáctừđầu vào được chuyển thành các véc-tơ biểu diễn từ.Các véc-tơ từ này có thể được học từ dữ liệu huấn luyện hoặc sử dụng cácphương phápnhưWord2Vec hoặcGloVe.

- Mãhóavịtrí(PositionalEncoding):Trướckhiđượcđưavàobộmãhoá,cácvéc- tơbiểudiễntừđượckếthợpvớimãhóavịtríđểcungcấpthôngtinvềvị trí của từtrong câu Mã hóa vị trí là m ột loạt véc-tơ có cùng kích thước vớivéc- tơtừvàđượctínhtoándựatrênvịtrítươngứngcủatừtrongcâu.

- Multi-headSelf-Attention: Trong quá trình này, m ỗi từ trong câu tươngtácvớicáctừkháctrongcùngmộtcâuđểtínhtoántrọngsốattentionc h o từng từ. Quá trình attention cho phép b ộmã hoá biết được mức độ quan trọngcủacác từtrongcâuvàxâydựngbiểudiễncóýnghĩa.

- Mạngnơ-rontruyềnthẳng(Feed-forwardNetwork):Sauquátrìnhtựchúý, biểu diễn từ tiếp tục được đưa qua một mạng nơ-ron gọi là mạng nơ-rontruyền thẳng Mạng này bao gồmhai lớp liên kết đầy đủ với một hàm kích ho ạtnhưReLU,giúptăngcườngkhảnăngbiểudiễnvàkháiquáthóacủabộmãhoá.

- Kết hợp thông tin (Residual Connections): Trong mỗi tầng của bộ mãhoá, thông tin đầu vào ban đầu được kết hợp với đầu ra của quá trình tự chú ývà mạng nơ-ron truyền thẳng thông qua kết hợp thông tin Kết hợp thông tingiúp truyền thông tin từ đầu vào qua các tầng mã hoá và đảm bảo rằng thôngtinquantrọngkhôngbịmấtmáttrongquátrìnhbiểudiễn. b Bộgiảimã

Môhìnhbiểudiễntừ

Trong lĩnh vực XLNNTN, biểu diễn từ (word embedding) là quá trìnhbiểu diễn từ thành các véc-tơ số thực trong không gian đa chiều Mỗi thànhphần trong véc-tơ biểu diễn mô tả một thuộc tính nào đó của từ, vídụnhư ýnghĩa, ngữ cảnh, tần suất xuất hiện, v.v Việc mã hóa dạng véc-tơ số thực chocác từ giúp máy tính có th ể xử lý được các tác vụ liên quan đến ngôn ngữtựnhiên, đặcbiệtlàkhảnăngứngdụngcácmôhìnhhọcmáychoXLNNTN

Biểu diễn từ có thể được tạo ra bằng cách sử dụng nhiều phương phápkhácnhaunhưWord2Vec,GloVe,FastText,BERT,… đượcxâydựngsaochocácphéptoánvéc- tơgiữacáctừcũngcóýnghĩa,cáctừcóýnghĩagầngũihoặcthườngxuấthiệncùngnhautrongvănbảns ẽcócácvéc- tơgầnnhau.Điềunàychophépmôhìnhhiểuđượccácmốiquanhệngữnghĩaphứctạpgiữacáctừ

Có thể nhận thấy, việc lựa chọn Word2Vec hay GloVe phụ thuộc vàonhiều yếu tố như tác vụ cụ thể, kích thước dữ liệu, và ngôn ngữ được sử dụng.Vềquymôdữliệu,Word2Vecthườnghoạtđộngtốttrêncácbộdữliệunhỏvàcó thể đạt kết quả tốt khi dữ liệu ít Trong khi đó, GloVe thường được sử dụngtrên các tập dữ liệu lớn hơn và có thể tạo ra các biểu diễn từ vựng phong phúhơn. Đối với tính cú phápvà ng ữ nghĩa, nếu Word2Vec thường cho kết quả tốthơn trong việc “bắt chước” các mối quan hệ ngữ nghĩa như "vua - nữ hoàng"hay "ông - bà" thì GloVe có xu hướng tạo ra các biểu diễn vector chứa nhiềuthôngtinvềcúphápvàtầnsuấttừ.Mặtkhác,Word2Veccầnmộtsốlượnglớn vòng lặp để huấn luyện, trong khi GloVe thường huấn luyện nhanh hơn vì sửdụngmộtmatrậntầnsốtừcókíchthướcnhỏhơn.Đặcbiệt,Word2Vecthườngkhông lưu trữ nhiều thông tin về cú pháp của từ, tập trung chủ yếu vào ngữnghĩa.Chínhvìvậy,đểphùhợpvớibộdữliệuvàmụcđíchchuẩnhoávănbảnđầuracủaASRti ếngViệt,luậnánđãlựachọnsửdụngWord2Vecchocácmôhìnhđềxuất,phầntiếptheosẽtrìnhb àychitiếtvềkĩthuậtnày.

2.2.1 Word2Vec Được phát triển bởi Tomas Mikolov và các cộng sự tại Google vào năm2013, Word2Vec là một kỹ thuật biểu diễn véc-tơ từ để giải quyết các vấn đềXLNNTN nâng cao Nó có thể lặp lại trên một kho văn bản lớn để tìm hiểucác liên kết hoặc sự phụ thuộc giữa các từ. Word2Vec xác định mối quan hệngữ nghĩa giữatừ bằngcách dự đoán từ hiệntại dựa trên ngữcảnhx u n g quanh nó hoặc ngượclại Kết quảc ủ a W o r d 2 V e c l à c á c b i ể u d i ễ n v é c - t ơ t ừ , cóthểđượcsửdụngtrongcácmôhìnhhọcmáykhácnhau[71].

Word2Veccungcấphaibiếnthểdựatrênmạngnơ-ron:CBOW(Continuous Bag of Words) và Skip-gram Hình2 2 dưới đây minh hoạ vềhoạtđộngcủa CBOWvàSkip- gram [71].

CBOW dự đoán từ hiện tại dựa trên ngữ cảnh xung quanh nó Đầu vàocủaC B O W làm ộ t c ử a s ổ c á c t ừ x u n g q u a n h t ừ h i ệ n t ạ i v à mụct i ê u l à d ự đoánt ừ h i ệ n t ạ i S k i p - g r a m , n g ư ợ c l ạ i v ớ i C B O W , S k i p - g r a m c ố g ắ n g d ự đoán ngữ cảnh xung quanh từ hiện tại dựa trên từ hiện tại Skip-gram lấy từhiệntạivàdựđoáncác từtrongngữcảnhxungquanhnó.

Cả CBOW và Skip-gram đều xây dựng trên ý tưởng rằng các từ có xuhướng xuất hiện cùng nhau trong cùng một ngữ cảnh sẽ có ý nghĩa tươngđồng Khi mô hình Word2Vec được huấn luyện, các véc-tơ embedding từđượchọcsaochocáctừcócùngngữ cảnhgầnnhautrongkhônggianembedding. Đểhuấn luyệnWord2Vec,cầnthựchiệncácbướcsau:

 Chuẩn bị dữ liệu: Dữ liệu huấn luyện cho Word2Vec là một tập vănbản lớn Dữ liệu này có thể là một tập các văn bản tự do, từ các nguồn nhưsách, bài báo, trang web, v.v Trước khi huấn luyện, dữ liệu cần được tiền xửlý bằng cách loại bỏ các ký tự đặc biệt, chuyển đổi chữ hoa thành chữthường,…vàthựchiệncácbướcxửlýngônngữtựnhiênkhác.

 Xây dựng từ điển: Trước khi huấn luyện Word2Vec, cần xây dựngmột từ điển từ vựng từ tập dữ liệu huấn luyện Từ điển này sẽ định danh vàgán mộtchỉsốduynhấtchomỗitừtrongtậpdữliệu.

 Tạocặptừ- ngữcảnh:TrongquátrìnhhuấnluyệnWord2Vec,cặptừ

- ngữ cảnh được tạo từ các câu trong tập dữ liệu Một cặp từ - ngữ cảnh gồmmộtt ừ đ í c h ( t a r g e t w o r d ) v à c á c t ừ x u n g q u a n h n ó t r o n g n g ữ c ả n h K í c h thướccủa ngữ cảnh được xác định bằng cửasổtrượt (window size),v í dụ:nếu cửa sổtrượt là 2, thì các t ừ xung quanh từ đích trong khoảng

 Xây dựng mô hình CBOW hoặc skip-gram: Sau khi tạo các cặp từ - ngữ cảnh, ta sẽ sử dụng chúng để huấn luyện mô hình Word2Vec Mô hìnhCBOW và skip-gram đượcxây dựngdựa trênmạng nơ-ron đat ầ n g

T r o n g quá trình hu ấn luyện, các biểu diễn véc-tơ từsẽ được cập nhật để giảm thiểusai số giữa dự đoán và mục tiêu thực tế Quá trình hu ấn luyệnthường sử dụngcác phương pháp tối ưu hóa như stochastic gradient descent (SGD) để điềuchỉnh cáctrọngsố.

 Trích xuất biểu diễn véc-tơ từ: Sau khi huấn luyện hoàn thành, cácbiểu diễn véc-tơ từ có thể được trích xuất từ mô hình Các véc -tơnày có thểđượcsửdụngđểbiểudiễntừngtừtrongkhônggian.

Sau khi đã trích xuất các biểu diễn véc-tơ từ từ mô hình Word2Vec,chúng cóthể được sửdụngđểthựchiệncác tácvụtrongXLNNTN.

Khicómộtlượngdữliệulớn vàcần môhìnhhọcbiểu diễntừngữphứctạp, giúp nắm bắt được các mối quan hệ tương quan giữa từ trong câu, hiểuđược ý nghĩa của từ trong ngữ cảnh cụ thể và tạo ra các biểu diễn phù hợp thìcácmôhìnhh ọcsâutrởlênphùhợphơn.VớisựrađờicủamôhìnhTransformer, nhiều biến thể mới được mở rộng và đạt được nhiều thành côngtrongn h i ề u t á c v ụ X L N N T N , b a o g ồ m p h â n l o ạ i v ă n b ả n , d ị c h m á y , t r í c h xuất thông tin và nhiều tác vụ khác Luận án đã cải tiến mô hìnhB E R T c h o dữliệutiếngViệtkhiđềxuấtmôhìnhnhậndạngthựcthểđịnhdanh.Phần tiếp theo sẽtrìnhbàykiếnthức cơsởvềBERT.

BERT (Bidirectional Encoder Representations from Transformers) làmột mô hình ngônngữhọc sâu, được giới thiệu bởi Jacob Devlin và các cộngsựtạiGoogle Researchvàonăm2018.

Kiếntrúc chung: Mô hình BERT có ki ến trúc mạng học sâu sử dụngnhiều tầng mã hoá Transformer Tuy nhiên, điểm đặc biệt của BERT là sửdụng hai biểu diễn từ: biểu diễn từ đầu vào (input representation) và biểu diễntừđầu ra (output representation)[72].

Tiền huấn luyện: BERT được huấn luyện trước trên dữ liệu lớn vàkhông có nhãn sẵn, quá trình này g ọi là tiền huấn luyện.Trong tiền huấnluyện, mô hìnhhọccách dự đoán từ bịẩ n đ i t r o n g m ộ t n g ữ c ả n h c â u Đ i ề u này giúp mô hình hi ểu được mối quan hệ giữa các từtrong câu và xây dựngmộtbiểudiễntừphongphú.

Tinh chỉnh (Fine-tuning): Sau quátrình ti ền huấn luyện, mô hìnhBERTđượctinhchỉnhtrêncáctácvụcụthể.Tinhchỉnhlàquátrìnhhuấnluyệntiếp theo trên một tập dữ liệu có nhãn sẵn cho các tác vụ như phân loại văn bản,dịch máy, trích xuất thông tin, và nhiều tác vụ khác Quá trình tinh ch ỉnh giúpmô hình BERT chuyển đổi biểu diễn từ thông qua việc điều chỉnh các tham sốđểphùhợpvớicác tác vụ cụ thể.

Môhình gánnhãnchuỗi

Softmax là một hàm kích ho ạt thường đượcsử dụng trong các mô hìnhphân loại đa lớp để chuyển đổi đầu ra của mạng thành một phân phối xác suất.Softmax thường được áp dụng cho lớp đầu ra cuối cùng của mô hình để tínhtoánxác suấtdựđoánchomỗilớp.

𝑆 𝑖 =∑ ∞ 𝑒 𝑥 𝑗 (2.7) trongđó,x i đạidiệnchođầuvàocủamộtvéc-tơgồmKsốthực,S i đạidiệncho kết quả chuẩn hóa các đầu vào thành một phân phối xác suất gồmKxácsuất tỉ lệ với các giá trị mũ Do phép mũ,S i luôn là giá trị dương Khi áp dụngcho phân phối xác suất từ một số lượng lớn đặc trưng, hàm softmax thườngđượcđặtsaulớpfullyconnected.

Hàm softmax chuyển đổi các giá trị đầu vào thành một phân phối xácsuất, trong đó giá trị đầu ra của mỗi lớp nằm trong khoảng từ 0 đến 1 và tổngcủa tất cả các giá trị đầura bằng 1 Điều này cho phép coi các giá tr ị đầu ranhưxác suất dựđoánchomỗilớp.

Khi sử dụng hàm softmax trong một mô hình phân lo ại đa lớp,đầu racủamôhìnhsẽlàmộtvectơxácsuấtcócùngkíchthướcvớisốlượnglớp.Giátrị tươngứngvớimỗilớptrongvectơđầurathể hiệnxácsuấtdựđoáncho lớpđó.Lớpvớixác suấtcaonhấtsẽđược chọnlàlớpdựđoán.

Hàmsoftmaxthườngđượcsửdụngkếthợpvớihàmcross- entropyđểđolườngsựkhácbiệtgiữaphânphốixácsuấtdựđoánvàphânphốixácsuấtthựctế của các lớp Việc tối thiểu hóa hàm cross-entropy thông qua việc điều chỉnhcáctrọngsốmạngsẽtạoramộtmôhìnhphânloạicókhảnăngdựđoántốt.

Một lợi ích quan trọng của hàm softmax là nó là một hàm liên tục vàkhảv i , đ i ề u n à y r ấ t h ữ u í c h t r o n g v i ệ c t í n h t o á n đ ạ o h à m đ ể c ậ p n h ậ t c á c trọng số trong quá trình hu ấn luyện mạng nơ-ron Việc sử dụnghàm softmaxkhôngchỉ hữu ích trong các tác v ụ phân loại đa lớp, mà còn có thể được ápdụng trong các bài toán khác như xác định mức độ tin cậy của dự đoán hoặctạo ra mộtphânphốixácsuấttừcácgiátrịđầuvào.

Tuy nhiên, hàm softmax cũng có một số hạn chế Khi số lượng lớp rấtlớn, việc tính toán và x ử lý đồng thời các giátrị mũ có thể trở nên phức tạp vàtốn nhiều thời gian tính toán Đồng thời, hàm softmax không kháng nhiễu, cónghĩa là nếu có sự biếnđộng mạnh trong giá trị đầu vào, các giá tr ị xác suấtđầu racóthể dễdàngbị lệchvàdẫnđếnsailệchtrongdựđoán.

Trường ngẫu nhiên có điều kiện (Conditional Random Fields - CRFs)được đề xuất bởi Lafferty và đồng nghiệp vào năm 2001 Đây là một mô hìnhđồ thị xác suất vô hướng, kết hợp các đặc điểm của mô hình Markov ẩn và môhình entropy t ối đa. CRFslà một trường hợp đặc biệt của mô hình Markovngẫu nhiên, giải quyết vấn đề thiên vị nhãn do mô hình Markovẩn gây ra.Ngoài ra, đặc điểm ngữ cảnh có thể được xem xét để lựa chọn đặc trưng tốthơn CRFs được sử dụng để tính toán m ật độ phân phối xácsuất điều kiện củamộtt ậ p h ợ p b i ế n n g ẫ u n h i ê n đ ầ u r a k h á c d ự a t r ê n m ộ t t ậ p h ợ p b i ế n n g ẫ u nhiênđầuvào.MộtmôhìnhCRFschungđượcthểhiệntrongHình2.5[75]

Trong mô hình trên, chu ỗi quan sát được biểu diễn bởix 1, x 2, , x T vàchuỗi trạng thái ẩn được biểu diễn bởiy 1 , y 2 ,…, y T , vìvậyhình ảnh trên đạidiện chogiátrịquansátx i vày i-1 ,y i ,y i1 có liênquan. Ý tưởng cơ bản của CRF là mô hình phân b ố xác suất có điềukiện củacác biến đầu ra (vídụ:nhãn) cho trước các biến đầu vào (ví d ụ: đặc trưng).Biểu diễntoánhọc nhưsau: trongđó:

𝑦=( 𝑦1,…,𝑦 𝑛 )làmộtchuỗicácbiếnđầura (vídụ:nhãn) 𝑥= ( 𝑥 1 ,…,𝑥 𝑛 )làmộtchuỗicácbiếnđầuvào(vídụ: đặctrưng) Z(x) là một hệ số chuẩn hóa đảm bảo các xác suất có tổng bằng 1 trêntất cảcác chuỗiđầura cóthểcó

-𝜑 𝑖(𝑦 𝑖 ,𝑦 𝑖−1 ,𝑥 𝑖 )là một hàm ặc trưng ánh xạ biến ầu ra hiện tại đầu vào đầu vào 𝑦 𝑖 , biếnđầu ra trước đó𝑦{ 𝑖−1}và biến ầu vào tương ứng đầu vào 𝑥𝑖thành một iểm số có giá đầu vào trịthực.

Cót h ể n h ậ n t h ấ y , tùyt h u ộ c v à o y ê u c ầ u c ụ t h ể c ủ a tá c v ụ đ ể c ó t h ể lựachọ nCRFhoặcSoftmax.VớiSoftmax,q u á t r ì n h h u ấ n l u y ệ n v à d ự đoánt h ư ờ n g n h a n h hơnd o tínhđ ơ n giảnvà khôngy ê u c ầ u t í n h t o á n phứctạ p như CRF Đồng thời, Softmax thường được sử dụng cho các tácvụđơngiản hơn và có dữ liệu huấn luyện ít hơn Với CRF, giải quyết được sự phụthuộcngữcảnhtrong chuỗivà tạora cácchuỗinhãnliên tụchơn,phùhợpvới cáctácvụgán nhãnchuỗi.Trong khi đó,Softmax xửl ý m ỗ i n h ã n đ ộ c lập, không có khả năng mô hình hóa mối quan hệ giữa các nhãn Mặt khác,CRF có khả năng xử lý các chuỗi dữ liệu dài hơn so với Softmax Nếu ởSoftmax, mỗi nhãn độc lập được dự đoán độc lập và không có thông tin vềngữc ả n h t o à n b ộ c h u ỗ i t h ì CRFc ó k h ản ă n g x e m x é t c á c n h ã n t r ư ớ c đ ó trongc h u ỗ i , g i ú p t ạ o r a c á c c h u ỗ i n h ã n l i ê n t ụ c v à g i ả i q u y ế t c á c v ấ n đ ề nhưhiệntượngphụthuộctrênp h ạ m vidài ( l o n g - r a n g e dependencies).Đặc biệt,CRF thường được sử dụng để đánhg i á c ù n g l ú c n h i ề u n h ã n t r o n g chuỗid ữ l i ệ u Đ i ề u n à y c ó l ợ i k h i c ầ n đ á n h g i á v à t ố i ư u t o à n b ộ c h u ỗ i nhãnm ộ t c á c h t o à n d i ệ n , t h a y v ì c h ỉ x e m x é t t ừ n g n h ã n đ ộ c l ậ p C h í n h v ì vậy,l uậ ná n đ ãl ự a ch ọn s ử dụngC R F đ ể g á n c h u ỗ i tr on g c á c m ô h ì n h đ ề xuấ tc ủ a c á c b à i t o á n c h u ẩ n h o á v ă n b ả n v à nhậnd ạ n g t h ự c t h ể đ ị n h d a n h chovăn bảnđầuraASRtiếngViệt.

Học đatácvụ

Conngườicóthểhọcnhiềun h i ệ m v ụ c ù n g m ộ t l ú c T r o n g q u á trìnhh ọct ậ p , c o n ngườic ó t h ể sửd ụ n g n h ữ n g k i ế n t h ứ c đ ã h ọ c t r o n g mộtn h i ệ m v ụ đ ể h ọ c m ộ t n h i ệ m v ụ k h á c L ấ y c ả m h ứ n g t ừ k h ả n ă n g h ọ c tậpc ủ a c o n n g ư ờ i , h ọ c đ a t á c v ụ c ó m ụ c đ í c h l à c ù n g h ọ c n h i ề u n h i ệ m vụliênqu anđể kiến thức chứa trongmộtn h i ệ m v ụ c ó t h ể đ ư ợ c t ậ n d ụ n g bởic á c n h i ệ m v ụ k h á c v ớ i h y v ọ n g c ả i t h i ệ n h i ệ u s u ấ t t ổ n g q u á t h ó a c ủ a tấtcảcácnhiệmvụ[76].

Với giả thuyết rằng, mô hình khôi phục dấu câu, chữ hoa có thể cungcấp thêm các thông tin, hỗ trợ tốt hơn và giúp nâng cao hiệu quả nhận dạngthựcthểđịnhdanh,luậnánđãtậndụngtrithứcvềcácphươngpháphọctậpđa tác vụ và tác vụ phụ trợ để đề xuất mô hình nhận dạng thực thể định danhcho văn bản đầu ra của ASR theo hướng E2E Vậy MTLlà gì? có nh ữngphương pháp nào? ý nghĩa của tác vụ phụ trợ? sẽ tiếp tục được nghiên cứutrình bàydướiđây.

TheoZangvàcộngsự,MTLđượcđịnhnghĩanhưsau:“Vớimnhiệm vụhọc{𝑇}𝑖=1t r o n gđótấtcảcácnhiệmvụhoặcmộttậphợpconcủachúng

𝑖𝑚 có liên quan với nhau, học đa tác vụ nhằm mục đích họcmnhiệm vụ cùngnhau để cải thiện việc học mô hình cho từng nhiệm vụ𝑇𝑖bằng cách sử dụngkiếnthức cótrongtấtcảhoặc mộtsốnhiệm vụ.”[77]

MTL có rất nhiều cách sử dụng khác nhau, tuy nhiên trong học sâuthường sử dụng hai phương pháp là chia sẻ tham số cứng (HardParameterSharing)vàchiasẻthamsố mềm (Soft Parameter Sharing) [78].

Chia sẻ tham số cứng là một phương pháp được sử dụng rất nhiều trongmạng Nơ-ron Phương pháp này được thực hiện bằng cách chia sẻ các tầng ẩngiữa tất cả các tác vụ, trong khi vẫn giữ một số tầng đầu ra dành riêng cho tácvụ,nhưcó thểthấy trongHình2.6.

Chia sẻ tham số cứng giảm hiện tượng quá khớp (overfitting) rất tốt.Việc chia sẻ các tầng ẩn giữa các nhiệm vụ sẽ ép buộc mô hình phải họcnhững biểu diễn tổng quát thích h ợp ở trên nhiềunhiệm vụ, nhờ vậy mà khảnăngoverfittingvàomộtnhiệmvụ cụthểnào đósẽgiảm đi rấtnhiều.

Hình2.6:Môhìnhphươngphápchiasẻthamsốcứng 2.4.2.Chia sẻthamsố mềm

Trong chia sẻ tham số mềm, mỗi tác vụ có mô hình riêng v ới cácthamsố riêng, tuy nhiên khoảng cách của các tham số giữa các nhiệm vụ sau đó sẽđược ràng buộc để khiến các tham số này có mức độ tương đồng cao giữa cácnhiệmvụ,nhưtrongHình2.7.

Hình2.7:Môhìnhphươngphápchiasẻthamsốmềm 2.4.3.Tác vụ phụtrợ

Trong nhiều trường hợp, mô hìnhchỉquant â m t ớ i h i ệ u s u ấ t c ủ a m ộ t tác vụ cụ thể, tuy nhiên để tận dụng được những lợi íchmà MTL mang l ại, cóthể thêm vào một số tác vụ liên quan với mục đích là cải thiện thêm hiệu suấttrên tác vụ chính Các tác v ụ này được gọi là các tác vụ phụ trợ (Auxiliarytask) Việc sử dụng các tác vụ phụ trợ như thế nào là vấn đề đã được nghiêncứu từ lâu, tuy nhiên không có bằng chứng lý thuyết chắc chắn việc sử dụngcáctácvụphụtrợnào sẽđemlạisựcảithiện chotácvụchính.

Một trong những cân nhắc chính khisửdụng học tập đa tác vụ vớimạng nơ- ron học sâu là xác định tầng nào sẽ được chia sẻ Trong XLNNTN,côngviệcgầnđâytậptrungvàoviệctìmkiếmcáchệthốngphâncấpnhiệ mvụđểhọcđatác vụđược tốthơn.

Học đa tác vụ có hàm mất mát cuối cùng là tổng trọng số của các hàmmất mátthànhphần

𝐿 𝑓𝑖𝑛𝑎𝑙 = ∑ 𝑇 𝜆 𝑖 𝑓 𝑖 (2.9) trongđóTlàsốlượngtácvụ,𝜆 𝑖l à trọngsốcủamỗihàmmấtmát.Việcchọncáctrọngsố𝜆 𝑖thích h ợpchomỗitác vụlàrấtquantrọng Lựachọnmặc định là coi tất cả các nhiệm vụ như nhau bằng cách đặt𝜆1= ⋯ = 𝜆 𝑇= 𝑐 vớiclàhằngsốtùyý.

𝒯 1v à 𝒯 2 ư ợ c đầu vào lấymẫuvớixácsuấtlầnlượtlà𝑝 1 và𝑝 2n ế u 𝑝 1= 2𝑝 2 ,xácđịnh

𝒯 1với 𝜆 1= 2 𝜆 2 Do đó, việc điều chỉnh tỷ lệ lấy mẫu của các tác vụ khácnhau có tác dụngtươngtựnhưviệc gán cáctrọngsốkhácnhau.

Việc tìm kiếm một tác vụ phụ trợ phần lớn dựa trên giả định rằng tác vụphụ trợ phải liên quan đến nhiệm vụ chính theomộtcách nào đó và nó sẽ hữuíchchoviệcdựđoán tácvụchính.

Bàitoán

Như đã trình bày trong mục 1.3, khôi phục dấu câu và chữ hoa đối vớivăn bản đầu ra của ASR là cần thiết, giúp văn bản dễ hiểu và được coi nhưbước tiền xử lý quan trọng để áp dụng cho các bài toán XLNNTN khác Luậnán xác định những vấn đề chính trong nghiên c ứu và các giải phápcụ thể khixửlýbài toánnàynhưsau: Đầu vào:văn bản đầu ra của hệ thống ASR tiếng

ViệtĐầu ra:văn bản được khôi phục dấu câu, chữ hoaPhạm vinghiêncứu:

- Về dữ liệu: Xây dựng bộ dữ liệu lớn phục vụ cho mục đích huấn luyệntheo mô hìnhhọcsâu Nghiên cứu khôi phục dấu câu, chữ hoa trên các đoạnvăn bảntiếngnóidàinhưbảntinthờisự,bàiphátbiểuhọp Quốc hội,

- Vềdấucâu:Tậptrungkhôiphụcbaloạidấucâulàdấuchấm,dấuphẩy,dấuchấ m hỏi.

- Vềchữhoa:Phânbiệt2nhãnchínhlàchữthường,chữhoa.Xửlýkhôiphụcviếthoac hữcáiđầutiêncủaâmtiết.Khôngxửlýcácnhãnnhưchữhoatrộn lẫn (McDonald, TOUSlesJOURS, ) hay chữ hoa toàn bộ (FPT, IBM, )Hướnggiảiquyết:

- Đềxuấtmộtcáchphânđoạnchuỗiđầuvàovà hợpnhấtđầura,trongđóquantâm tớingữcảnhcủa các từxungquanhđoạn cắt.

Hình3.1d ư ớ i đ â y l à m ộ t v í d ụ m i n h h o ạ 3 m ô t ả đ ầ u v à o , đ ầ u r a của k h ô i phụcdấucâuvàchữhoađối vớivănbản đầuraASR.

Hình 3.1: Minh hoạ đầu vào, đầu ra của khôi phục dấu câu, chữ hoa đối vớivănbảnđầuraASR

Xâydựngdữliệu

3.2.1 Thuthậpdữliệu vănbảntừInternet Để có nguồn dữ liệu văn bản đầu ra của ASR tiếng Việt đủ lớn chonghiên cứu và tập trung chính cho vi ệc huấn luyện mô hìnhCaPu, bộ dữ liệuText CaPu đượcnghiêncứuthuthậptừcáctrangtintứcđiệntửViệtNambao

3 https://vietnamnet.vn/dai-su-truong-co-quan-dai-dien-phai-luon-neu-cao-tinh-than-vi-nhan-dan-phuc-vu-2120064.html gồmvietnamnet.vn,dantri.com.vn,vnexpress.net Đây là các tài liệu tin tứcchính thốngvàsửdụngngônngữ,ngữphápchuẩn.

Bộ dữ liệuText CaPu được chuyển về chữ thường và loại bỏ các dấu câuđể mô phỏng giống với đầu ra của ASR Nghiên cứu cũng giữ nguyên các dữliệu kiểu số, ngày tháng và không có lỗi từ (chèn, xóa, thay thế từ) trong vănbản.Bộ dữ liệunày cũng đượcchia thành bộhuấn luyệnText CaPu-train , b ộđánhgiáText CaPu-vl vàbộkiểm traText CaPu-test

Một số lượng lớn các dấu câu có thể được xem xét cho văn bản đầu racủa ASR, bao gồm: dấu phẩy, dấu chấm, dấu chấm than, dấu chấm hỏi, dấuhai chấm, dấu chấm phẩy, dấu gạch ngang, dấu ngoặc đơn và dấu ngoặc kép.Tuy nhiên, hầu hết các dấu hiếm khi xảy ra trong văn bản Do đó, hầu hết cácnghiên cứu, kể cả với ngôn ngữ giàu tài nguyên, đều tập trung vào khôi phụccác dấu cơ bản như dấu chấm, dấu phẩy và có thể thêm dấu chấm hỏi [18],[64] Nghiên cứu cũng chỉ tập trung cho ba dấu câu cơ bản là dấu chấm, dấuphẩy, dấu chấm hỏi Bảng 3.1 cung cấp thông tin số lượng nhãn cho từng loạidấu câu và viết hoa, viết thường trong bộ dữ liệu huấn luyện và bộ dữ liệukiểm tra, bao gồm,chữ hoa (U), chữ thường (L), không chứa dấu câu ($), dấuchấm (.),dấuphẩy (,)và dấuchấmhỏi(?)

Kiếntrúcmôhình

(1) Bước một, văn bản đầu ra của ASR tiếng Việt sẽ được đưa qua mô- đun phânđoạn chồnglấnđểcắtchuỗiđầuvào.

(2) Bướchai,môhìnhkhôiphụcdấucâu,chữhoa(RecoveringCapitalizatio n and Punctuation - CaPu)sẽ lấy các phân đoạn được cắt xử lýsong songvàtạoramộtdanhsáchnhãn dấucâu,chữhoađầura.

(3) Cuối cùng, sử dụng mô-đun hợp nhất đoạn chồng lấn để hợp nhấtkếtquảđầu rađượcgánnhãn tươngứng vớivănbảnđầu vào.

Trong đó, luận án đã đề xuất một kĩ thuật mới xử lý việc cắt chuỗi vănbản đầu vào, hợp nhất chuỗi đầu ra , đồng thời, thiết kế một mô hìnhhọcsâu cho mục đích khôi phục dấu câu, chữ hoa Chi tiết mô hình và các đềxuấtđượctrìnhbàyc h i tiếtởphần3.3.1 và3.3.2.

3.3.1 Đềxuất xửlýphânđoạnchuỗi đầu vào vàhợp nhấtchuỗiđầura Đầu vào của mô hình CaPu là văn bản đầu ra của ASR Văn bản nàykhông có dấu câu nên thường là một chuỗi dài bất định, rất khó để các môhìnhxửlý Do đó, trước khi đưa vào mô hình, chuỗi đầu vào thường được cắtthành các đoạn có độ dài cố định, giúp cải thiện khả năng xử lý độc lập hoặccácphầnsongsong.

Các nghiên cứu có liên quan đặc biệt quan tâm tới việc phân đoạn chuỗicâuđầuvàovàthườngxửlýtheohướngcắtngẫunhiêntrongkhoảng20-30từ

[11], hay 20-50 từ [12] Tuy nhiên, theo cách tiếp cận này, các từ xungquanh ranh giới của phần cắt không có đủ thông tin ngữ cảnh nên dự đoánthường thiếu chínhxác.

Vídụminhhọa trong Hình 3.3 cho thấy từ“trọng”trong đoạn cắt thứhaikhôngđủngữcảnhxungquanh đểkhôiphụcđúngchữhoa. Đểk h ắ c p h ụ c h ạ n c h ế đ ó , n g h i ê n c ứ u đ ã đ ề x u ấ t m ộ t k ỹ t h u ậ t m ớ i nhằm xử lý cắt, ghép chuỗi bằng cách cắt có chồng lấn với ý tưởng chính lànhằm đảm bảo các đoạn cắt thu được có đủ ngữ cảnh của các từ để môhình CaPudựđoán tốt nhất Sau khi xử lý các đoạn cắt có chồng lấn, thựchiệnhợpnhấtcácđoạnnàythànhchuỗiđầuracủachuỗibanđầu.

Hình 3.4 mô tả chi tiết về kiến trúc này, bao gồm ba thành phần: phânchia đoạn chồng lấn, mô hình CaPu, và h ợp nhất các đoạn chồnglấn Có thểthấy, câu đầu vào được chia thành ba đoạn, các đoạn được xếp chồng Sau khiqua mô hình CaPu, các đoạn được nhận dạng, trong đó cụm từ“Nguyễn PhúTrọng”ở giữa đoạn thứ hai có nhiều ngữ cảnh xung quanh nên nhận dạngchính xác hơn các từ“phú”ở đoạn 1 và“trọng”ở đoạn 3. Cuối cùng, cácđoạnsẽđược hợpnhấtchồnglấnđểracâusaukhôiphục.

Phần tiếp theo sẽ trình bày c ụ thể phương pháp phân đoạn chồnglấn vàcáchthứchợpnhấtkếtquảđầura.

3.3.1.1.Phânđoạnchồnglấn Đối với mô-đun phân đoạn chồng lấn, hướng giải quyết được đề xuất làchia nhỏ chuỗi đầu vào thành các đoạn có kích thước cố định, với phần chồnglấn chiếm một nửa độ dài đoạn cắt Hình3.5 dưới đây mô tả cách phân đoạnchồng lấn.

Có thểmôtảhình thức cáchphânđoạnchồnglấn nhưsau: Độ dài đoạn cắt được chọn là một số chẵn các từ Gọillà độ dài đoạncắt,klà độdàiđoạnchồnglấn,khiđótacól=2k.

Mỗi chuỗi từ đầu vàoSchứantừ kí hiệu làw 1 , w 2 , , w n sẽ được cắtthành⌈𝑛/𝑙⌉+⌈(𝑛 − 𝑘)/𝑙 ⌉đoạn chồng lấn, trong đó, đoạn cắt thứilà chuỗicon các từ [w (i-1)k+1 , …, w (i+1)k ] Trong nghiên cứu đã khảo sát các giá trị củal,kvàbằngthực nghiệm đã lựachọncác giátrịnàychophùhợp.

Sau khixửlý,cầnhợp nhấtcácđoạnnhưtrong mụcsau.

Vì câu đầu vào được phân chia thành các đoạn chồng lấn, do đó, với vấnđề hợp nhất các đoạn chồng lấn, cần phải xác định được những từ nào sẽ đượcbỏđivàtừnào sẽđược giữtrong phầnhợpnhấtcủacâucuốicùng.

Gọiclà độ dài đoạn sẽ giữ lại hay loại bỏ trong các đoạn chồng lấn Đểđơn giản cho tính toán, l ấy𝑐 =⌊𝑘/2⌋.Theo quansát, cáctừcuối của đoạnchồng lần thứ nhất và các từ đầu tiên trong đoạn chồng lấn thứ hai (các từxung quanh đoạn cắt) sẽ không có nhiều ngữ cảnh Do vậy, thuật toán sẽ loạibỏ đoạn𝑐thuộc cuối đoạn chồng lấn

(1) (phần gạch chéo) và giữ lại đoạn𝑐ởđoạn chồng lấn (2) (phấn chấm) Theo đó, các từ còn lại của đầu đoạn chồnglấn (1) được giữ lại và các từ còn lại ở đầu đoạn chồng lấn (2) sẽ bị loại bỏ.Điều này đảm bảo cho các từ ở phần chống lấn được giữ lại luôn ở giữa cácđoạn, sẽ có nhiều ngữ cảnh giúp cho việc khôi phục được chính xác hơn Cácđoạn loại bỏ và giữ lại của các phần chồng lấn sẽ được lặp lại cho các phânđoạn chồnglấntiếptheo.

Như vậy, theo Hình 3.7, các đoạn loại bỏ sẽ được gạch chéo Phần hợpnhấtsaughépnốiđược môtảnhưsau.

[𝑤 1 ,…𝑤 2𝑘−𝑐 ]+∑ 𝑛−1 [𝑤 (𝑖−1)𝑘+𝑐 ,…𝑤 𝑖𝑘+𝑐 ]+[𝑤 𝑛−2𝑘+𝑐 ,…𝑤 𝑛 ] (3.1) Hình3.8 mô tảcácđoạn𝑐trongkhoanhnétđứtsẽbị loạibỏ vàcácđoạn

𝑐trong khoanh nét liền sẽ được giữ lại Điều này giúp cho các từ ở các phầnchồng lấn được giữ lại có nhiều ngữ cảnh để mô hìnhdựđoán đạt hiệu suấtcao hơn Do đó,câu ghép nối cuối, từ “Đinh” và dấu phẩy được nhận dạngchính xáctrong câuhợp nhấtcuối cùng.

Hình3.8:Hợpnhấtcácđoạnchồngchéodựatrênthamsố𝑐 3.3.2 Thiếtkếmôhìnhhọcsâu chomục đíchkhôiphụcdấu câu,chữhoa

Tổng quan các nghiên cứu về khôi phục dấu câu, chữ hoa cho văn bảnđầu ra của ASR đã được trình bày chi ti ết trong mục 1.3 của Chương 1 Có thểthấy, các hướng nghiên cứu trước đây thường tập trung xử lý một nhiệm vụ cụthể, khôi phục dấu câu, hoặc khôi phục chữ hoa Điều này khiến cho việc cảithiệnmôhìnhASRkhôngđạtđượchiệuquảtốiưu.Mộtsốcácnghiêncứugầnđây đã xử lý kết hợp khôi phục dấu câu, chữ hoa trong một mô hình, tuy nhiêntiếp cận theo hướng khôi phục chữ hoa trước, sau đó khôi phục dấu câu vàngược lại Điều này ảnh hưởng đến kết quả của mô-đun sau và rất khó để xácđịnh nên thực hiệnmô-đun nào trước, mô-đun nào sau [15] Chính vì v ậy, luậnántíchhợpđồngthờikhôiphụcdấucâuvàchữhoatrongcùngmộtmô-đun.

Mặt khác, cácmô hình h ọc sâu gần đây đã chứng minh được tính hiệuquảtrongnhiềutácvụXLNNTNtrongđócóxửlýkhôiphụcdấucâu,chữho a [18], [79] Các mô hình truy ền thống trong XLNNTNchủ yếu sử dụngkiến trúc tuần tự chuỗi tới chuỗi (Sequence-to-Sequence) dựa trên các mạngnơ-ron hồi quy (RNN) Nhược điểm của các mạng RNN là tốc độ xử lý chậmdo phải xử lý câu đầu vào một cách tuần tự, đồng thời cũng hạn chế trong việcbiểudiễnsựphụthuộcxagiữacáctừtrongmộtcâu.MôhìnhTransformer

[32] có thể giải quyết gần như triệt để các vấn đề nói trên Transformer khôngxử lý các phần tử trong một chuỗi một cách tuần tự Nếu dữ liệu đầu vào làmột câu ngôn ngữ tự nhiên, Transformer không cần phải xử lý phần đầu câutrước rồi mới tới phần cuối câu Do tính năng này, Transformer có thể tậndụng khảnăng tínhtoán songsong của GPU vàgiảmthờigian xửlý đángkể. Để gán nhãn cho chuỗi đầu ra của Transformer, có thể sử dụng một lớpSoftmax hoặc một lớp CRF Tuy nhiên, CRF thường được sử dụng trong cácbài toán gán nhãn chu ỗi vì khả năng mô hình hóa các ràngbuộc giữa các nhãnliên tiếp trong chuỗi CRF có thể giải quyết được nhược điểm sai lệch nhãn docác nhãn độc lập với nhau của mô hình Markov ẩn Trong khi đó, Softmaxthường được sử dụng trong các bài toán phân lo ạido khả năng tính xác suấtcho mỗi lớp CRFs là một lớp các phương pháp mô hình hóa thống kê thườngđược áp dụng trong nhận dạng mẫu và học máy, và được sử dụng để dự đoáncấu trúc [27], [80] Trong mô hình CRF, các nút ch ứa dữ liệu đầu vào và cácnút chứa dữ liệu đầu ra được kết nối trực tiếp với nhau, trái với kiến trúc củaLSTM hoặc BiLSTM trong đó các đầu vào và đầu ra được kết nối gián tiếpqua các ô nhớ CRF có thể được sử dụng để gán nhãn tên riêng v ới đầuvào làcácđặctrưngcủamột từđượcrút tríchthủcông.

Luậnánt h i ế t kếsử dụngmôhìnhTransformerEncoder kếthợpvớiCRF đểkhôi phụcdấu câu vàchữhoachovăn bản đầu racủaASRtiếng Việt. Hình 3.9 giới thiệu mô hình CaPu đề xuất cho bài toán khôi phục dấucâu và chữ hoa cho văn bản đầu ra ASR tiếng Việt gồm các thành phần: bộbiểudiễnvéc- tơtừ(WordEmbedding),TransformerEncodervàCRF.

Mô hình đề xuất sử dụng cấp độ từ để đưa vào lớp biểu diễn véc-tơ từ(Word Embedding) Đây là bước ánh xạ các từ sang dạng véc-tơ để mô tả tấtcả các từ trong từ điển sang một không gian véc-tơ biểu diễn ngôn ngữ haycũng có thể hiểu là một hình thức mã hóa từ Ý tưởng chính là đưa các từ quamột tầng biểu diễn véc-tơ từ trước khi được đưa vào các tầng khác của mạng.Điều này giúp các mô hình h ọc sâu có thể xử lý các từ ngữ trong văn bản trênkhôngg i a n v é c - t ơ b i ể u d i ễ n n g ô n n g ữ , đ ồ n g t h ờ i g i ả m b ớ t ả n h h ư ở n g v ề chiềuđốivớicácm ô hìnhngônngữ[81].

Kết quảthựcnghiệm

NghiêncứuđãtiếnhànhthựcnghiệmtrêncácmôhìnhLSTM,Transformer và mô hình m ới đề xuất Transformer Encoder- CRF Các môhình được xây dựng dựa trên thư viện Fairseq [82] LSTM và Transformer làmôhìnhmãhóa- giảimã.Mỗimôhìnhcóhaitầngmãhóa,haitầnggiảimãvàcókíchthướclớpẩngiốngnhaulà1 024.MộtđiểmkhácbiệtcủaTransformersovớiLSTMlàTransformercósố đỉnhchúýlà4. Để so sánh trong cùng điều kiện, Transformer Encoder - CRF cũng có sốtầng mã hóa là 4, mỗi tầng có 4 đỉnh chú ý và có cùng kích thước ẩn là 1024.Kích thước biểu diễn véc-tơ cả ba mô hình là 256.B ảng 3.2 cho thấy số lượngcác tham số của ba mô hình, qua đó cho thấy số tham số của mô hình đề xuấttương đương với mô hìnhLSTM và ch ỉ bằng 1/5 số tham số của mô hìnhTransformer.

Thực nghiệm được huấn luyện trên GPU NVIDIA 2080Ti Kho ngữ liệubao gồm 85triệutừ.Kíchthướcđoạnngẫunhiênlà 4đến 22từ.

(*)Đơnvị:1.000 Để huấn luyện mô hình, nghiên c ứu sử dụng thuật toán tối ưu Adam[83]với hàm mất mát là giá trị âm của logarit hàm hợp lí (negative log-likelihood).Độ đo để đánh giá là độ đo F1 Các tham số huấn luyện được cho ở bảng 3.3dướiđây:

Hình3.11 dưới đây hiển thị biểu đồ so sánh với kết quả của các mô hìnhLSTM,T r a n s f o r m e r , T r a n s f o r m e r E n c o d e r - C R F v ớ i c á c k í c h t h ư ớ c p h â n đoạn khác nhau, từ 4 đến 20 từ và trong các trường hợp sử dụng hoặc khôngsửdụnghợpnhấtđoạnchồnglấn.

Có thể nhận thấy rằng, các mô hình s ử dụng hợp nhất đoạn chồnglấnluônchokếtquảtốthơn.Đặcbiệt,ởmôhìnhđềxuấtlàTransformerEncoder

- CRF,k ế t q u ả s ử d ụ n g h ợ p n h ấ t c ó k ế t q u ả c a o n h ấ t l à 0.88.K ế t q u ả x á c nhận giả thuyết của nghiên cứu rằng việc bổ sung thêm ngữ cảnh bằng cáchphânđoạn,hợp nhấtcácđoạn chồnglấn sẽgiúpcảithiện môhình.

Nghiêncứutrìnhbàyk ếtquảcủamôhìnhđềxuấtTransformerEncoder - CRF khi áp dụng hoặc không áp dụng hợp nhất đoạn chồng lấn vàcũng chỉ thống kê trong các nhãn (‘U’ ‘.’ ‘,’ ‘?’), bỏ qua các nhãn (‘L’‘$’), vìsốlượngchínhxácnhiều, nênkhôngcầnthiếtđể sosánhhiệuquả.

Bảng 3.4 trình bày s ự so sánh giữamô hìnhTransformer Encoder -CRF khi áp dụng và không áp dụng hợp nhất chồng lấn cho thấy sự vượt trộicủa phương pháp hợp nhất đoạn chồng lấn so với không sử dụng khi điểm F1trên tấtcảcáclớpđược cảithiệnđángkểtừ0.01đến0.05.

Kết quả cho thấy rằng các từ ở đoạn giữa phần xếp chồng lấn cung cấpcho mô hình nhiều thông tin dự đoán hơn và quá trình hợp nhất có thể chọnphầnthíchhợpcủakhuvựcxếp chồngnày.

Bảng 3.4: So sánh kết quả mô hình Transformer Encoder - CRF khi áp dụngvà khôngápdụnghợpnhất chồnglấn

CRFkhông áp dụng hợp nhấtchồng lấn

Kếtquảchocácm ô hìnhsửdụngđầuragánnhãnvàvănbảnthôngthườngđượcsos ánhtrongHình3 1 2 , trongđó,môhìnhLSTMvàmôhình

Transformer với văn bản thông thường có kết quả tốt hơn so với sử dụng đầuragánnhãn.

Nghiên cứu cho thấy, mô hình s ử dụng đầura gán nhãn được giảm kíchthước và suy luận nhanh hơn Vì vậy, nghiên cứu chỉ tập trung đánh giá môhình đề xuất - Transformer Encoder - CRF với đầu ra này Biểu đồ cho thấymôhìnhđềxuấtchokếtquảtốtnhất. Đồng thời, ma trận lỗi(Confusion matrix)trong Hình 3.13 cũng chothấy phần trăm dự đoán đúng/sai lệch các nhãn dấu câu, chữ hoa cho mô hìnhđềxuấtTransformer Encoder-CRF.

Ma trận lỗi chứng minh khả năng khôi phục đúng chữ thường, chữ hoavàk hô ng d ấ u r ấ t c a o ( 0 8 6 -

Kết quả so sánh thời gian thực thi của ba mô hình có đầu ra được gánnhãn vàvăn bản chuẩn hóa thông thường được hiển thị trong Bảng 3.5s với2080ti(GPU),batch_size128.Vớiđầuragánnhãn,cácmôhìnhcóthờigianxử lý nhanh hơn, thậm chí còn cho thấy hiệu suất vượt trội khi nó được sửdụng vớimô hìnhđượcđềxuấtTransformerEncoder- CRF.

Bảng3.5:Sosánhtốcđộxửlý(tokens/second) Đầu ra Transformer LSTM TransformerE ncoder-CRF

KếtluậnChương 3

Chương 3 đã xây dựng mô hình kết hợp Transformer Encoder và CRFcho mục đích khôi phục viết hoa và dấu câu với văn bản đầu ra của ASR tiếngViệt.Cóthểnói,đónggópchính củanghiêncứulàđềxuấtgiảiphápphânchia và hợp nhất đoạn chồng lấn trong chuỗi đầu vào, đầu ra Cách tiếp cậnnày nhằm mục đích cải thiện khả năng trích xuất thông tin theo ngữ cảnh vàhiệu suất làm việc với văn bản dài Sau khi đánh giá, phương pháp đề xuất thểhiệnhiệusuấtvượttrộicảvềtốcđộvàđộchínhxác.Trongcùngđiềukiệnvới mô hình Transformer,thìTransformer Encoder - CRF cung cấp một sốlượng tham số nhỏ hơn đáng kể, từ đó giúp làm tăng tốc độ xử lý Phươngpháp hợp nhất đoạn chồng lấn cho thấy hiệu suất tốt hơn việc không sử dụnghợp nhất từ 0.01 đến 0.05 của độ đo F1 Ngoài ra, việc sử dụng văn bản đầu rađượcgánnhãncũngcải thiệnhiệusuất của hệthống.

Tuy nhiên,mô hình v ẫn còn tồn tại một số hạn chế cần cải tiến trongthời giantớibaogồmviệckhôiphụctrênvănbảncóchứalỗitừcủa đầurahệ thống ASR, đồng thời, thử nghiệm trên bộ dữ liệu của ngôn ngữ khác để cóđối sánhgiữa cácphương pháp.

Trong những chương tiếp theo, nghiên cứu đề xuất tíchhợpmô-đunCaPu với mô hình NER cho văn bản đầu ra của ASR tiếng Việt và giả thuyếtrằngviệckếthợp nhưvậysẽgiúpcảithiệnhiệusuất mô hìnhNER.

CHƯƠNG 4: NHẬN DẠNG THỰC THỂ ĐỊNH DANH CHO VĂN

Nhận dạng thực thể định danh (NER) là một nhiệm vụ quan trọng làmtiền đề cho nhiều lĩnh vực XLNNTN như truy xuất thông tin, tóm tắt văn bản,dịch máy, Tuy nhiên, bên cạnh những thành tựu đạt được từ NER cho cácvăn bản viết, vấn đề NER với văn bản đầu ra của ASR vẫn còn gặp nhiều khókhăn do phải đối mặt với các lỗi phiên âm, từ ngoài từ điển hay thiếu các đặctrưng quan trọng của thực thể định danh Các nghiên cứu cho vấn đề này mớichủ yếu tập trung cho các ngôn ngữ giàu tài nguyên như tiếng Anh, tiếngPháp, tiếng Trung Quốc Việc nghiên cứu về

NER cho ASR tiếng Việt - đượccoilàngônngữhạnchếtàinguyên,vớinhiềuđặctrưngriênglàcầnthiếtvàcó ý nghĩa trong các ứng dụng thực tiễn Trong nội dung Chương 3 này sẽtrình bày chi ti ết về bài toánNER và đề xuất mô hình, xây d ựng dữliệu, đưara kết quả thực nghiệm nhằm đánh giá, so sánh các giải phápc h o N E R c ủ a văn bản đầu ra của ASR tiếng Việt theo cách tiếp cận đường ống truyền thốngvàcáchtiếpcậnE2E.

Cách tiếp cận đường ống truyền thống dựa trên giả thuyết rằng việc kếthợp một mô hình khôi phục dấu câu và chữ hoa như mô hình CaPu sẽ cungcấp thông tin hữu ích làm đầu vào giúp mô hình NER đạt hiệu suất cao hơn.Cách tiếp cậnE2E là một quy trình phức hợp từ đầu đến cuối, giúp hệ thốnghoạt động thuận tiện hơn, tránh được những lỗi lan truyền qua các bước giảicác bài toán trung gian Giải pháp E2E cho bài toán NER đề xuất mô hình giảiquyết đồng thời cả hai bài toán khôi phục dấu câu, chữ hoa và nhận dạng thựcthể định danh Kết quả nghiên cứu về hai cách tiếp cận được công bố trongcôngtrình[CT 4], [CT6].

Bàitoán

Đầu vào:VănbảnđầuracủaASR tiếngViệt. Đầu ra:Gán nhãnthựcthểđịnh danhtheohướng tiếpcậnđường ốngvàE2E.

-Về dữ liệu: Văn bản dài, từ vựng lớn Hệ thống ASR phục vụ đánh giácóWERlà4.85%.

-Về thực thể định danh: Nhận dạng ba loại thực thể chính là tên người,têntổ chứcvà tênđịađiểm.

- Đối với cách tiếp cận đường ống, nghiên cứu đề xuất kết hợp mô hìnhCaPu vào hệ thống với mục đích nâng cao hiệu suất mô hình NER Cách tiếpcậnE2E,sửdụng tiềnhuấnluyệnmô-đunCaPu chomôhình.

Tổng quan dữliệu

Bộ dữ liệu thứ nhất,Text CaPu , là một bộ dữ liệu lớn bao gồm cácv ă n bản tin tức được lấy từ các trang báo điện tử của Việt Nam Tập văn bản nàyđược xóa định dạng (bỏ dấu câu, chuyển chữ hoa thành chữ thường) và gánnhãn dấu câu, chữ hoa phục vụ cho mục đích huấn luyện mô hình chuẩn hoávănbảnđầuracủahệthốngASR.

Bộdữliệuthứhai,Text ViBERT ,là bộdữliệuhuấnluyệnmôhìnhViBERT thu thập từ nhiều miền trên Internet bao gồm tin tức, luật, giải trí,Wikipedia,

Bộ dữ liệu thứ ba,Text VLSP , là bộ dữ liệu văn bản đã gán nhãn NER củaVLSP

2018 Tập văn bản chuẩn này được sử dụng để huấn luyện mô hìnhNERtheocáchtiếpcận đườngống.

Bộ dữ liệu thứ tư,Text VLSP-TTS-ASR , là bộ dữ liệu để huấn luyện mô hìnhNER theo tiếp cận E2E Đầu tiên, dữ liệu tiếng nói được tổng hợp từ văn bảnhuấn luyện của bộ dữ liệu NER VLSP 2018 sử dụng hệ thống TTS củaGoogle Sau đó dữ liệu tiếng nói này được đưa qua hệ thống ASR của VAISđểthuđượcvănbảnđầuraASR.

Cả hai cách tiếp cận đường ống và E2E đều sử dụng một bộ dữ liệu thuâm bởi bốn giọng đọc trong môi trường khác nhau từ bộ dữ liệu kiểm tra NERcủa VLSP 2018 với 26 giờ âm thanh Sau đó, bộ dữ liệu âm thanh này đượcđưa qua hệ thống ASR của VAIS (với WER bằng 4.85%) để nhận được bộ dữliệu văn bản đầu ra của ASR,Text VLSP-Audio-ASR để phục vụ cho mục đích đánhgiácác môhìnhđềxuất. Đồng thời, bộ dữ liệu kiểm tra VLSP chuẩnText VLSP-test hay bộ dữ liệuVLSP được xóa định dạngText VLSP-UnCaPu , cũng được sử dụng để đánh giá vàsosánhmôhìnhtrongcácđiềukiệnđầuvàokhácnhau.

Chi tiết xây dựng dữ liệu cho từng cách tiếp cận sẽđược trình bày c ụ thểtrongmục4.3.3vàmục4.4.2.

Nhậndạngthựcthểđịnh danh theo hướngtiếp cậnĐườngống

Mục 1.4.5.1, Chương 1 của luận án đã trình bày tổng quan về cácphương pháp NER cho tiếng nói theo hướng tiếp cận Đường ống Quá trìnhnhận dạng thực thể định danh từ tiếng nói thực hiện tuần tự qua các bước: đầutiên hệ thống ASR tạo ra các văn bản, sau đó, hệ thống NER gắn thẻ các thựcthểđ ị n h d a n h t ừ v ă n b ả n đ ầ u r a c ủ a A S R C ó t h ể n ó i , h ư ớ n g t i ế p c ậ n n à y đ ược ưu tiên lựa chọn nghiên cứu bởi tính đơn giản của hệ thống bằng cáchchia nhỏ để xử lý từng mô-đun con, dễ xử lý từng phần và không đòi hỏi hệthốngtínhtoánlớn, đặcbiệt,đốivớicácphươngpháphọcsâu.

(2) Tiếp theo, qua mô hình CaPu, văn bản đầu ra của ASR sẽ được khôiphụcdấucâu,chữhoa.

(3) Cuốicùng,từmôhìnhCaPu,thôngtincủacácthựcthểđượcgánnhã nbằng cáchsửdụng môhìnhNER. theot h ủ t ư ớ n g p h ạ m m i n h c h í n h t ì n h h ì n h d ịc hcovidđangrấtphứctạpởkhuvựcđôngnamá

TheoThủtướngPhạmMinhChính,tìnhhìnhdịchCovidđa ng rấtphứctạpở khuvựcĐôngNamÁ.

Dấucâuvàchữhoađóngmộtvait r ò q u a n t r ọ n g t r o n g v i ệ c c u n g cấpýn ghĩacủacâu,làmộttrongnhữngt h ô n g t i n k h ô n g t h ể t h i ế u c ầ n cungc ấ p t r o n g m ô h ì n h N E R , t u y n h i ê n , t h ô n g t i n n à y t h ư ờ n g b ị b ỏ q u a tronghệthống ASR.Năm2020,Mayhewvàcáccộngs ự [ 8 4 ] đ ã t h ử nghiệmt i ề n h u ấ n lu yệ n b ộ n h ậ n d ạ n g c h ữ h o a trong v ăn b ả n t r ư ớ c k h i k ế t hợp với mô hình NER đối với dữ liệu tiếng Anh và cho thấy mô hình khôiphụcc h ữ h o a cóth ểc u n g c ấp th ôn g t i n bổ su n g g i ú p h ệthống c ải t h i ệ n í t nh ất0 3 đ i ể m F 1 C h í n h v ì vậy,t r o n g n g h i ê n c ứ u n à y , n g h i ê n cứus i n h cũngđ ặ t g i ả t h u y ế t m ô h ì n h C a P u s ẽh ỗ t r ợ t ă n g h i ệ u s u ấ t m ô h ì n h N E R chovă nbảnđầuraASRtiếngViệt.

Hình4 2 b i ể u d i ễ n m ô h ì n h C a P u đ ư ợ c đ ề x u ấ t n h ằ m k h ô i p h ụ c d ấ u câu và chữ hoa cho văn bản đầu ra của ASR Mô hình đề xuất và các kết quảthực nghiệm đã được trình bày chi ti ết trong Chương 3 của luận án, đồngthờiđược công bố trong các công trình (CT2), (CT3), (CT5) c ủa nghiêncứu sinhvàcác cộngsự.

Các mô hình h ọc sâu cho XLNNTN cần một lượng dữ liệu rất lớnđể cóthể cho ra kết quả tốt Vì vậy, vấn đề đặt ra: làm thế nào để tận dụng đượcnguồndữliệuvôcùnglớncósẵnđểgiảiquyếtbàitoán?Đâylàtiềnđềchokỹ thuật mới là học chuyển giao (Transfer Learning) ra đời Với học chuyểngiao, các mô hình "chung" nh ất với tập dữ liệu khổng lồtrên Internet đượchuấn luyện trước và có thể được "tinh chỉnh" cho các bài toáncụthể Nhờ cókỹt h u ậ t n à y m à kếtq u ả c h o c á c b à i t o á n đ ư ợ c c ả i t h i ệ n r õ r ệ t , k h ô n g c h ỉ trong XLNNTN mà còn trong các lĩnh vực khác như thị giác máy, BERT làmột trong những mô hình được sử dụng nhiều trong học chuyển giao bởi cóthểápdụng trongnhiềubàitoánkhácnhau.

Có thể nói, BERT và các biến thể mô hìn hđang trở thành xu hướng vàsẽ định hướng các thuật toán XLNNTN trong tương lai Điều này thúc đẩy sửdụng mô hìnhBERT trong nghiên c ứu luận án để xây dựng bộ biểudiễn ngônngữchotiếngViệt.

Cụ thể, nghiên cứu này đã đề xuất sử dụng kiến trúc RoBERTa [34](một công thức cải tiến cho huấn luyện mô hình BERT) và hu ấn luyện trênkho ngữ liệu tiếng Việt để tạo ra một mô hìnhngôn ng ữ được huấn luyệntrước (Pre-trained language models) Do giới hạn về năng lực tính toán, môhình huấn luyện đã giảm số lượng lớp ẩn, số đỉnh chú ý và kích thước từ biểudiễn véc-tơ từ mô hình kiến trúc cơ sở RoBERTa và được đặt tên là ViBERT.Hình 4.3 mô tả thiết kế mô hình

NER, trong đó, ViBERT được sử dụng đểnhúngcâuđầuvào.CácmôhìnhGRUhaichiềuvàcáclớpCRFđượcgắnvào đầuViBERT đểphânloạinhãnthựcthểcủa mỗitừđầu vào.

Nghiêncứucủachúngtôiđãgiảmkíchthướccủamôh ì n h RoBERTa base triển khai trong fairseq [82] để tạo ra ViBERT Mô hình nàychứa 4 tầng mã hóa tương ứng với với 4 tầng trongRoBERTa base Số lượngđỉnh tự chú ý cũng giảm từ 12 xuống 4 so với mô hìnhRoBERTa base Mỗi mẫuhuấnluyệnchứa tốiđa 512 token.

ViBERT được huấn luyện bằng cách sử dụng kích thước mỗi batch là512v à t ố c đ ộ h ọ c l ớ n n h ấ t l à 0 0 0 0 3 v ớ i 3 0 0 0 b ư ớ c c ậ p n h ậ t k h ở i đ ộ n g Tổngcácbướccậpnhậtlà800.000.ThựcnghiệmsửdụnghaiGPUN vidia

2080Ti(12GBchotừngGPU)trong5tuần.Bảng4.1môtảcácthamsốcấutrúcvàhu ấnluyệnmô hìnhViBERT.

Tầng mã hóaĐỉnh tự chú ýKíchthướcbatch Tốcđộ họclớnnhất SốbướccậpnhậtkhởiđộngTổn g các bước cập nhậtThuật toán tốiưu

4 4 512 3×10 -4 3×10 3 8×10 5 Adam Cài đặt mô hình NER s ử dụng ViBERT để biểu diễntừ và có 4 lớpGRU hai chiều với kích thước ẩn của ô GRU là 512 CRF được sử dụng tronglớp đầu ra để tạo ra 7 nhãn (B-X, I-X, O trong đó X trong bộ {ORG, PER,LOC}).Giốngnhư[34],mô hình nàycũng được tốiưu hóa bằngcáchs ử dụng Adam, kích thước batch là 64 và quá trình hu ấn luyện hội tụ sau 30bước lặp.

Vấn đề dữ liệu NER cho tiếng nói gặp nhiều khó khăn, đến thời điểmhiện tại, chưa có một tập dữ liệu chuẩn cho nhiệm vụ NER của tiếng nói tiếngViệt.Cóhaicáchtiếpcậnmàluậnánxemxétlàtạobộdữliệutiếngnóitừtập dữ liệu NER hoặc ngược lại Việc ghi lại âm thanh từ việc đọc văn bản đãcó gán nhãn NERdễdàng hơn nhiều so với việc gắn thẻ NER trên bản ghi âmASR.Nghiêncứu xâydựng các bộdữliệuriêngchotừngmụcđích:

Trong mô hình CaPu, các d ấu câu được xử lý bao gồm(“.” , “,”, “?”),nghiên cứu chia dữ liệu thành các phân đoạn có phạm vi ngẫu nhiên từ 4 đến20từ.BộdữliệuText CaPu- train đượcthuthậptựđộngtừcáctrangtintứcđiệntửc h í n h t h ố n g c ủ a V i ệ t N a m b a o g ồ m v i e t n a m n e t v n , d a n t r i c o m v n , vnexpress.net, và được mã hóa như mô tả trong Chương 2 Tổng số dữ liệusửdụngđểhuấnluyện môhìnhnàylàhơn300triệumẫu.

Mô hình ViBERT c ần một kho dữ liệu lớn để huấn luyện,nghiên cứu đãsử dụng bộ dữ liệuText ViBERT với 50GB văn bản, khoảng 7.7 tỷ từ thu thập dữliệutừnhiềumiềntrênInternetbaogồmtintức,luật,giảitrí,Wikipedia, Do sự đa dạng của các kiểu gõ mã hóa tiếng Việt trên Internet, nghiên cứucũng sử dụng thư viện Visen (4) để thống nhất phương pháp mã hóa Mô hìnhViBERT được huấn luyện bằng cách sử dụng kho dữliệu xử lýt h e o t h u ậ t toán Byte-Pair- Encoding (BPE) BPE được thiết lập để xuất ra kích thước từvựng 50nghìntừ. Năm 2016, phương pháp BPE được đề xuất [85], có khả năng tách từtheo mức nhỏ hơn từ và lớn hơn ký tự được gọi là từ con (subword). PhươngphápBPEsẽthốngkêtầnsuấtxuấthiệncủac á c t ừ c o n v à t ì m c á c h g ộpchúng lại nếu tần suất xuất hiện là lớnnhất Tiếp tục quá trình g ộp từ con chotới khi không tồn tại các từ con để gộp nữa, sẽ thu được tập các từ con chotoàn bộ văn bản mà mọi từ đều có thể biểu diễn được thông qua tập từ connày.P h ư ơ n g p h á p đ ã đ ư ợ c á p d ụ n g ở h ầ u h ế t c á c p h ư ơ n g p h á p X L N N T

N hiện đại như BERT, RoBERTa,DistilBERT, XLMNet Kết quảápdụngtokenizetheo phương pháp mới đã cải thiện được độ chính xác trên nhi ều tácvụ dịch máy, phân loại văn bản, dự báo câu tiếp theo, hỏi đáp, dự báo mốiquanhệvănbản.

Bộ dữ liệu văn bản chuẩnText VLSP là bộ dữ liệu NER cho tiếng Việt đãđược xây dựng trong VLSP VLSP 2018 [44] là tập dữ liệu tốt nhất hiện nayđểđánhgiáhệthốngNER chotiếngViệt.

4 https://github.com/nguyenvulebinh/visen

Bộ dữ liệu NER của VLSP cung cấp một tập dữ liệu đáng tin cậy đểhuấn luyện và đánh giá hiệu suất của các mô hình NER ti ếng Việt.Các tàinguyên này có sẵn cho mục đích nghiên cứu thông qua trang web VLSPvlsp.org.vn/resources [CT1] Thống kê chi tiết của bộ dữ liệu này được thểhiệnởBảng 4.2dướiđây:

Bảng4.2:Thống kêbộdữliệu NER củaVLSP 2018

Tập dữ liệu PER ORG LOC MICS Tổng

Sử dụng bộ dữ liệuText VLSP-Audio-ASR thu âm từ bộ dữ liệu NER của VLSP2018 và đưa qua hệ thống ASR, cụ thể: Dữ liệu văn bản đầu ra của ASR dùngđểkiểm thử mô hình NER chính là đầur a t h u đ ư ợ c q u a b ộ A S R c ủ a V A I S với dữ liệu đầu vào âm thanh tiếng nói được ghi âm của tập dữ liệu kiểm tracủa dữ liệu NER VLSP 2018 Dữ liệu tiếng nói được tạo bởi bốn người đọctrong các môi trường khác nhau tạo ra tổng cộng hơn 26 giờ âm thanh Cácthực thể cần được trích xuất là tên người (PER), tên tổ chức (ORG) và tên địađiểm (LOC) Dữ liệu gốc ở định dạng XML và chứa các thực thể ở các cấplồng nhau Để dễ dàng so sánh với các kết quả nghiên cứu công bố trong [44],dữl i ệ u đ ã đ ư ợ c c h u y ể n đ ổ i s a n g đ ị n h d ạ n g C o N L L N E R v à chỉp h á t h i ệ n thựcthểởcấpđộ đầutiên.

Nhậndạngthựcthểđịnh danh theo hướngtiếp cậnE2E

Chương1,mục1.4.5.2đãtrìnhbàytổngquannghiêncứuNERchotiếngnóitheohướngE2E. HầuhếtcáccôngbốđềucónguồnngữliệuphongphúnhưtiếngAnh,tiếngPháp,tiếngTrungQuốc,đ ồngthời,cáckếtquảchưacảithiệnđáng kể so với tiếp cận đường ống Các tác giả nhận định rằng lỗi của văn bảnđầuraASRluônlàmộttháchthứcvàdữliệulớngiúpmôhìnhđạthiệusuấtcaohơn[54].Đồngt hời,việckếthợphuấnluyệntrướcchữhoasẽbổsungthôngtingiúp cải thiện mô hình NER [55] Theo hiểu biết của nghiên cứu sinh, cho tớithời điểm hiện tại, chưa có công bố nào về NER cho văn bản đầu ra tiếng nóitiếng Việt theo hướng E2E Mặc dù còn nhiều thách thức, nhưng có thể nhậnthấy,khilượngdữliệuhuấnluyệnđủlớn,môhìnhE2Esẽgiúptốiưuhóaquátrìnhhuấnluyệ n,tấtcảcácthamsốcủamôhìnhđượchuấnluyệnđồngthời,cácsai số phát sinh giữa các thành phần đều được tính toán do đó giảm thiểu đượclỗi lan truyền qua từng mô-đun Việc huấn luyện và suy luận sử dụng mô hìnhE2Eđơngiảnhơncũngnhưthuậntiệnhơnchoviệcđưamôhìnhnhậndạngvàoứng dụng Chính vì v ậy, việc nghiên cứu mô hình E2E choNER của tiếng nóitiếngViệtlàcầnthiếtvàcóýnghĩathựctiễn.Mặcdùvậy,việcthiếtkếmôhìnhE2Esẽđòihỏi sựtíchhợpmứcđộcaocácmôhìnhthànhphầnvàomộtmôhìnhchung nhất, bỏ qua các khâu trung gian,khiến cho quá trình thi ết kế khó khănhơn Đồng thời, nó đòi hỏi các thuật toán huấn luyện mô hình nâng cao nhưphươngp h á p c h i a s ẻ t r ọ n g s ố ( W e i g h t t y i n g ) , h ọ c đ a t á c v ụ (

M u l t i - t a s k Learning), CáchtiếpcậnhuậnluyệnđatácvụđãđượcápdụngđểđềxuấtmôhìnhE2Etrongluậ nán.Phầntiếptheo,nghiêncứusẽtrìnhbàyvềnộidungnày.

Luận án sử dụng ý tưởng từ học đa tác vụ cho nhiệm vụ nhận dạng thựcthể định danh theo hướng E2E với mong muốn tác vụ khôi phục dấu câu, chữhoa sẽ bổ trợ, giúp mô hình NER được nhận dạng tốt hơn Phần tiếp theo sẽtrình bàymô hìnhđềxuấttheocáchtiếp cậnnày.

Hình4.6biểudiễnmôhìnhE2Eđượcđềxuất,baogồmluồngNERchínhdựatrêncấutrúc đườngốngkếthợpvớimộtluồngnhậndạngdấucâu,chữhoacóvaitròbổsungthôngtinvềdấucâuv àchữhoachokhâunhậndạngthựcthểđịnhdanh.DữliệuđưavàomôhìnhlàvănbảnđầuracủaASR tiếngViệtkhôngdấu câu, không chữ hoa có độ dàin.Trong quá trình nh ận dạng, một số câu xuấthiệnnhữnglỗinhưthaythế,chèn,vàxóakhiếnchoquátrìnhnhậndạngthựcthểđịnh danh trở nên khó khăn hơn Câu đầu vào được đưa qua bộ biểu diễn ngônngữ tiếng Việt ViBERT Ở nghiên cứu này, tiếp cận học chuyển giao được ápdụng với mô hình ViBERT là mô hình đã được tiền huấn luyện và được giữnguyêntrongmôhìnhE2Eđượcđềxuấtởđây.ĐầuracủaViBERTlàmộtmatrậncókíchthư ớc(nx768)làmộtbiểudiễndạngmatrậncủacâuđầuvào.Matrậnbiểudiễnnàyđượcđưađồngthời đếnbakhối:(1)Khốitríchxuấtthôngtinbổ trợ dấu câu, chữ hoa, (2) khối nhận dạng NER, và (3) khối học bổ trợ nhậndạngdấucâuchữhoaCaPutheocơchếhọcđatácvụ.

EViBERT =ViBERT(I) (3.2) Đầu ra của bộ ViBERT chứa các mã nhúng theo ngữ cảnh của từng từmã đầu vàow i Để tránh hiện tượng quá khớp, nghiên cứu đã thêm một lớpDropoutvớitỷ lệ0.1trênđầuracủabộViBERT.

(1) Khối trích xuất thông tin bổ trợ CaPu gồm có khối gán nhãn CaPu(CaPu tagger) là một mô hình đã được tiền huấn luyện theo phương pháp vàcấu trúc như đã trình bày ở Chương 3, trong đó đầu ra bổ sung thêm một khốimã hóa CaPu có nhiệm vụ mã hóa các nhãn dấu câu, chữ hoa nhằm bổ sungthông tin về dấu câu, chữ hoa cho khối NER Để phù hợp với dữ liệu là vănđầu ra của ASR, mô hình gãn nhãn CaPu này ti ếp tục được tinh chỉnh trongquá trình hu ấn luyện chung của cả mô hình E2E Đầu ra của khốimã hóaCaPulàvéctơ𝑇 𝐶𝑎𝑃𝑢 ∈ℝ 𝑛×𝑑

T CaPu u_tagger(E ViBERT ) (3.3) Khốim ã hóaC a P u ( C a P u t a g e m b e d d i n g ) t h ự c c h ấ t l à mộtm ạ n g n ơ ron truyền thẳng hai lớp có đầu vào là một véc tơT CaPu có độ dàiNlà độ dàicủa câu đầu vào với các phần tử là các nhãn CaPu được xác định bởi khối gánnhãnCaPu.ĐầuracủakhốimãhóaCaPulà mộtmatrận𝐸 𝐶𝑎𝑃𝑢∈ ℝ 𝑛×𝑑 c h ứ a thôngtin mãhóacủacác nhãn CaPu của cầu đầuvào.

(2) Khối NER là khối đảm nhiệm tác vụ chínhcủamô hình Khối nàygồm có đầu vào là ma trận biểu diễn của câu đầu vào bởi ViBERT được kếthợp với ma trận mã hóa CaPu tag là đầu ra của khối (1) Việc kết hợp với đầura của khối (1) sẽ cung cấp thêm thông tin bổ trợ về dấu câu, chữ hoa, giúpchoviệcgánnhãnNER sẽchínhxáchơn.

Việc kết hợp ma trận mã biểu diễn véc-tơ ViBERT với ma trận mãnhúngCaPu để bổ sung thông tin về dấu câu, chữ hoa được thực hiện bởi khốiMLP_concat.Thayvìkếthợpthôngtinbằngcácphéptoánhọcthôngthường

𝑖=0 giữa hai ma trận, trong mô hình này s ử dụng một mạng nơ ron truyềnthẳnghailớpẩnvớiđầuvàolàmatrậnghépcủahaimatrậnmãnhúng[𝐸 𝐶𝑎𝑃𝑢 &𝐸 𝑉𝑖𝐵

𝐸𝑅𝑇] ∈ ℝ 𝑛×2×𝑑 ĐầuracủakhốiMLP_concatlàmatrậnm ã nhúng𝐸𝐶𝑎𝑃𝑢−𝑉𝑖𝐵𝐸𝑅𝑇∈ ℝ 𝑛×𝑑 Việc kết hợp mã nhúng sử dụng mạng nơ rontruyềnthẳngchophéphuấnluyệnbộkếthợpđểcóthểcậpnhậtcáctrọngsốcủanómộtcáchlin hhoạttheodữliệuhuấnluyện.

E CaPu-ViBERT =MLP_concat(E CaPu ,E ViBERT ) (3.5) MạngGRUmãhóachuỗiđầuvàothànhmộtchuỗicácbiếnẩn(h 1 ,

h n )sử dụng cácv é c - t ơ n à y c ù n g v ớ i m ộ t l ớ p S o f t m a x đ ể t ạ o r a m ộ t c h u ỗ i các quyết định phân loại độc lập Điều này đã khá thành công trong các nhiệmvụ như gắn thẻ POS Tuy nhiên, NER là một nhiệm vụ phụ thuộc nhiều hơnvào ngữpháp và cáctừngữ cảnh trong câu Ví d ụ: nếu một mã thông báođược đặt trước nhãn 'B- PERSON', thìkhảnăng nhãn tiếp theo là 'I-PERSON'là rất cao và ngược lại, khả năng nhãn tiếp theo là 'I-ORG' là rất nhỏ Do đó,mộtlớp đầu rachophép dựđoán cócấutrúccó thểrất hữuích.

LớpCRF ngaysaulớp GRUcho phép dựđoántuầnt ự đ ó C R F s ử dụng các véc- tơ ẩn là đầu ra từ GRU làm phép đoP∈R n×k và ma trận chuyểntrạng tháiA∈R (k+2)×(k+2) , ma trận này có thể sử dụng các phép đotrước đó vàtrong tương lai để dự đoán lớp hiện tại.nlà số từ trong chuỗi vàklà số nhãnđầu ra Ma trậnAlà ma trận vuông kích thước(k +

2)vìy 0 vày n+1 là nhãn đầuvà nhãn cuối Với hai ma trận này, hàm đánh giá của một chuỗi đầu ra nhấtđịnh đượctínhbằng:

𝑝(𝑦|𝑋)= exp (𝑠(𝑋,𝑦)) 𝑍(𝑋) (3.7) trong đóZ(X)làtổnglũytích củaexp(s(X,y))vớitấtcảkhảnăngy.

𝑒𝑛𝑐 trậnn à y s ử d ụ n g b ộ m ã h ó a l à m ộ t m a n g n ơ - r o n t r u y ề n t h ẳ n g c ó m a t r ậ n trọngsốchínhlàma trậnchuyểnvịcủakhốimãhóa CaPutrongkhối(1).Đầura của khối này chính là xác su ất của các nhãn CaPu tương ứng với câu đầuvàovàhàmmấtmátđượctínhdựatrêncácnhãn CaPu.Cóthểnóirằng bộ mãhóa ở khối này và khối mã hóa CaPu có kết nối với nhau theo cơ chế chia sẻtham số [87], trong đó, ma trận trọng số của CaPu Embedding được sao chéptừma trậnchuyểnvịcủabộmãhóaởkhối(3) theo côngthức sau.

𝑊 𝑒𝑚𝑏 = 𝑊 𝑇 (3.8) trong đó,W emb là ma trận trọng số của bộ mã hóa nhãn CaPu,W enc là ma trậntrọng số của bộ Encoder Cơ chế chia sẻ trọng số giúp giảm bớt số lượng thamsố của mô hình giúp quá trình hu ấn luyện nhanh hơn, đồng thời làm hạn chếhiệntượngquákhớpdosốlượngtham sốquálớn.

Quá trình huấn luyện của mạng được thực hiện theo tiếp cận E2E vớiphương pháp huấn luyện đa tác vụ là tác vụ NER và CaPu Trong đó, tác vụNER được coi là tác vụ chính còn tácv ụ CaPu là tác vụ phụ trợ (Auxiliarytask) Giá trị mất mát của mô hình E2E được tính bằng tổng có trọng số củahaigiátrị mấtmátcủahaitácvụ:

𝐿 𝑚𝑡𝑙 = 𝛼𝐿 𝑁𝐸𝑅 + 𝛽 𝐿 𝐶𝑎𝑃𝑢 (3.9) trongđó,𝛼 l àtrọngsốcủagiátrịmấtmátcủatácvụNERvà𝛽 làtrọngsốcho giá trị mất mát của tác vụ CaPu Việc chọn𝛼và𝛽phụ thuộc vào mức độquan trọng của từng tác vụ Trong nghiên cứu này, tác vụ NER được coi là tácvụchính,tácvụCaPulàtácvụphụtrợ,dođó𝛼,𝛽 ượcđầu vào lựachọn𝛼=0.6và

Mặcdùtrongmôhìnhhợpnhấtcósửdụngcácmôhìnhtiềnhuấnluyện như ViBERT, CaPu theo tiếp cận học chuyển giao, tuy nhiên trong quátrình huấn luyện, toàn bộ các tham số mô hình được cập nhật theo thuật toánlan truyền ngược với cùng một hàm mất mátL mtl và trên cùng một luồng đồthị tính toán v ới tiếp cận học đa tác vụ, cho nên có thể nóimô hình được đềxuấtlàmộtmôhìnhhợpnhất.Hơnnữa,t r o n g q u á trìnhs u y d i ễnđ ể n h ậ n dạng thực thể định danh, dữ liệu là văn bản đầu ra của ASR được đưa qualuồng đồ thị tính toán duy nh ất đến đầu ra nhận dạng NER màkhông phải quacác bước trung gian làm phát sinh thời gian cũng như sai số Do đó có thể nóimô hình được đề xuấtlà mô hình E2E đầy đủ Quá trình hu ấn luyện mô hìnhtheotiếpcận E2E đượcmôtảtrongthuậttoán sau:

9: PNER=NER_tagger(MLP_concat(EcaPu,EViBERT)

10: PcaPu CaPuTagger(Encoder(EViBERT))11: end for

13: Sử dụng thuật toán lan truyền ngược để cập nhật chung các thamsốcủa mô hìnhE2E b ằng cách tối thiểu hóa hàm mất mátL mtl theotừngbatch.

Chuyển văn bản sang tiếng nói

Xử lý nhận dạng tiếng nói

So sánh tỉ lệ lỗi ASR của TTS và thu âm

KếtluậnChương 4

Chương 4 đã đề xuất mô hình NER cho hệ thống ASR tiếng Việt theohướng tiếp cận đường ống và E2E Thực nghiệm đã chứng minh hiệu quả củaviệc kết hợp mô hình CaPu giúp tăng hiệu suất mô hình NER Luận án đã giớithiệubộdữliệuđầutiênchonghiêncứuNERchovănbảnđầuracủaASRtiếngViệt.Đồngthời,ng hiêncứucũngtrìnhbàytácđộnghiệuquảcủamôhìnhngônngữ được huấn luyện trước cho ngôn ngữ tiếng Việt để áp dụng cho nhiệm vụNERvàđãđạtđượckếtquảkhảquantrênbộdữliệuNERcủaVLSP2018.

Mô hình E2Ekếtquả tốt hơn nhưng chưa đáng kể so với mô hình đườngống(0.0067 với văn bản đầu ra của ASR và 0.0037 đối với văn bản chuẩn bỏdấu câu, chữ hoa) Việc kết hợp mô hìnhhọctập đa tác vụ với mô hình khôiphục dấu chấm câu và chữ hoa đã tăng điểmF1 lên xấp xỉ 0.05 và cải thiện rõrệt 0.14 điểm F1 của mô hình NER khi áp d ụng cho vănbản chuẩn bỏ chữhoa,dấucâu.

Văn bản đầu ra của một hệ thống nhận dạng tiếng nói thường cần đượchậu xử lí,vớicác yêu cầu chuẩn hoá về dấu câu, chữ hoa, chữ thường Bêncạnh đó, nhận dạng các thực thể định danh cũng là một bài toán quan trọng,cho phép khai thác văn bản thu được hiệu quả hơn Luận án này tập trung đềxuấtm ô h ì n h c h u ẩ n h ó a v ă n b ả n đ ầ u r a c ủ a A S R t i ế n g V i ệ t , c á c m ô h ì n h N

ER cho văn bản đầu ra của ASR tiếng Việt Kết quả nghiên cứu chínhcủaluận ánđược trìnhbàynhưsau:

1.Xâydựng các bộdữ liệu ban đầu phụcvụcho thựcnghiệmcácm ô hình chuẩn hoá và nhận dạng thực thể định danh cho văn bản đầu ra của hệthốngASRtiếngViệt.

2.Thiết kế mô hình Transformer Encoder - CRF cho bài toán khôi phụcviết hoa và dấu câu cho văn bản đầu ra của ASR tiếng Việt Luận án đề xuấtcách phân chia đoạn mới cho câu đầu vào sử dụng phân đoạn, hợp nhất cácđoạn chồng lấn, giúp các từ xung quanh đoạn cắt có nhiều ngữ cảnh để nhậndạng được chính xác hơn Đầu ra của mô hình là văn bản tiếng Việt có đầy đủdấu câu, chữ hoa, giúp tăngđộ chính xác c ủa quá trình nh ận dạng thực thểđịnh danhởbước tiếptheo.

3.Đề xuất mô hình biểu diễn ngôn ngữ tiền huấn luyện cho văn bản tiếngViệt với tên gọi ViBERT dựa theo kiến trúc RoBERTa Mô hình được huấnluyện dựa trên tập dữ liệu lớn văn bản tiếng Việt chính thống để biểu diễnngôn ngữ tiếng Việt trong không gian véc-tơ giúp tăng hiệu quả áp dụng cácthuật toán học sâu trong XLNNTN tiếng Việt Mô hình được áp dụng vào cácmô-đunbiểu diễnvéc-tơtừchocácmôhìnhN E R tiếptheo.

4.Xây dựng mô hình đường ống cho bài toán NER tiếng nói tiếng Việt.Nghiên cứu cho thấy tác động hiệu quả của mô hình biểu diễn ngôn ngữ đượctiền huấn luyện ViBERT để áp dụng cho nhiệm vụ NER trên văn bản đầu racủaASRtiếngViệtvàđãđạtđượckếtquảkhảquan.Đồngthờinghiêncứu cũng chứng tỏ được tầm quan trọng của việc kết hợp mô hình CaPu vào chuẩnhóa văn bản đầu vào cho mô hình NER giúp cải thiện đáng kể hiệu suất củamô hình.

5.Thiết kế mô hình E2E giải quyết bài toán NER cho tiếng nói tiếng Việtcùng với các đề xuất mới như kỹ thuật chia sẻ tham số, kỹ thuật huấn luyện đatác vụ Bên cạnh thực nghiệm cho thấy đạt hiệu suất tương đương mô hìnhđường ống, mô hình E2E còn cho thấy ưu thế của việc tíchhợphệ thống trênmột mô hình duy nhất giúp thuận lợi cho quá trình hu ấn luyện, giảm thiểusaisố phát sinh giữa các thành phần, tăng tốc độ thực thi, tăng khả năngt r i ể n khaitrongcácứngdụngthựctiễn.

Từ những kết quả đạt được, luận án cũng đặt ra các vấn đề cần tiếp tụcđượcnghiêncứutrongthờigian tới:

1.Nghiêncứugiảiphápgiảm thiểusựảnhhưởngcủalỗidữliệutron gvăn bản đầu ra của ASR, đồng thời, bổ sung bộ dữ liệu từ điển NER chuẩnmực phục vụ cho mục đích huấn luyện nhằm nâng cao chất lượng mô hìnhNER tiếngViệt.

2.Thực nghiệm NER cho khôi phục chữ hoa, giúp hệ thống E2E ASRđượccảithiệnhơn.

3.Thực nghiệm các mô hình đề xuất trong nghiên cứu này với các bộ dữliệu tiếng Anh, Trung Quốc, đã công bố để có đối sánh về tính hiệu quả củamô hình.

5.Tiếp tục cải tiến mô hình E2E và các thuật toán huấn luyện tương ứngđểđạthiệusuất tốthơnchobàitoánNERtiếngnóitiếngViệt.

[CT1] Nguyen Thi Minh Huyen, Ngo The Quyen, Vu Xuan Luong, Tran

MaiVu,NguyenThiThuHien,“VLSPsharedtask:NamedEntityRecognit ion”, Journal of Computer Science and Cybernetics, V.34,N.4,p.283-

[CT2].ThuHienNguyen,ThaiBinhNguyen,VuBaoHungN g u y e n , Truong

Quoc Do, Chi Mai Luong, Minh Huyen Nguyen,“RecoveringCapitalization for Automatic Speech

Recognition of Vietnamese usingTransformerandChunkMerging”,Proceedingsofthe11 th Internatio nalconferenceonKnowledgeandSystemsEngineering(KSE),p.430- 434,2019.

[CT3] Thai Binh Nguyen, Vu Bao Hung Nguyen,Thu Hien Nguyen,

NgocPhuong Pham, The Loc Nguyen, Quoc Truong Do, Chi Mai Luong,“Fast andAccurate Capitalization and Punctuation for

Proceedings of the COCOSDA, Philippines, p 1-5, doi:10.1109/O- COCOSDA46868.2019.9041202,2019.

[CT4] Thai Binh Nguyen, Quang Minh Nguyen,Thu Hien

Nguyen,QuocTruong Do, Chi Mai Luong,“Improving Vietnamese

Named EntityRecognition from Speech Using Word Capitalization and PunctuationRecoveryModels”,

ProceedingsoftheInterspeech,p.4263-4267,Shanghai,China,2020. [CT5].ThuHien Nguyen,Thai BinhNguyen,Ngoc PhuongPham,QuocTruong

Do,Tu LucLe,Chi MaiLuong,“Toward Human-

FriendlyASRSystems:RecoveringCapitalizationandPunctuationforVie tnameseText”,IEICETRANSACTIONSonInformationandSystems,Vo l.E104-D,No.8,p.1195-1203 (SCIE,Q3),2021.

[CT6].Thu Hien Nguyen, Thai Binh Nguyen, Quoc Truong Do, Tuan

EndnamedentityrecognitionforVietnamesespeech”,Proceedinginthe25 thconferenceoftheOriental COCOSDA,p.193-197,979-8-3503-9855-7© 2022IEEE2022.

Machado,L.,Chapman,W.W.,“Naturallanguageprocessing:anintroducti on”,JournaloftheA m e r i c a n Medical Informatics Association, https// doi.org/10.1136/amiajnl-2011-000464v,vol.18,no.5, pp.544-551,2011. [2].Khurana,D.,Koli,A.,Khatter,K.,Singh,S.,“Naturallanguageprocessing:

State of the art, current trends and challenges”, Multimediatools and applications,82(3),pp.3713-3744,2023.

[3].Kaddari, Z., Mellah, Y., Berrich, J., Belkasmi, M G., Bouchentouf, T.,“NaturalLanguage Processing: Challenges andFuture

Directions”,Artificial Intelligence and Industrial Applications:Artificial

IntelligenceTechniques for Cyber-Physical, Digital Twin Systems andEngineeringApplications,SpringerInternationalPublishing,vol.144,pp.23 6-246,2021.

[4].L.Yu,D.Deng,“AutomaticSpeechRecognition”,Vol.1.Berlin:SpringerLond on.https://doi.org/10.1007/978-1-4471-5779-3,2016.

[5].Morris,A.C.,Maier,V.,Green,P.,“FromWERandRILtoMERandWIL:improve d evaluation measures for connected speechrecognition”,

TheEighthInternationalConferenceonSpokenLanguageProcessing,2004. [6].Nga, C H., Li, C T., Li, Y H., Wang, J C.,“A Survey of VietnameseAutomatic Speech Recognition”,2021 9th International

Conference onOrangeTechnology(ICOT),IEEE,pp.1-4,2021.

[7].T h a n h , P.V.,Huy,D.D.,Thanh,L.D.,Tan,N.D.,Anh,D.T.D.,Trang,

N.T.T.,“ASR-VLSP2021:Semi- supervisedEnsembleModelforVietnamese Automatic Speech

[8].Batista,F.,Caseiro,D.,Mamede,N.,Trancoso,I.,“Recoveringcapitalization and punctuation marks for automatic speech recognition:Case study for Portuguese broadcast news”, SpeechCommunication,50(10),pp.847-862,2008.

[9].Coniam, D ,“Evaluating the language resources of chatbots for theirpotential in English as a second language”,ReCALL, vol 20, no.

[10] Nebhi, K., Bontcheva, K., Gorrell, G.,“Restoring capitalization in#tweets”, Proceedings of the 24th International Conference on

[11] Cho,E.,Niehues,J.,Waibel,A.,“NMT- basedsegmentationandpunctuationinsertionforreal-

Courtland,M.,Faulkner,A.,McElvain,G.,“Efficientautomaticpunctuation restorationusingbidirectionaltransformerswithrobustinference”,Proceeding s of the 17th International Conference on SpokenLanguageTranslation,pp.272-279,2020.

[13] Pham, T., Nguyen, N., Pham, Q., Cao, H., Nguyen, B.,“Vietnamesepunctuation prediction using deep neural networks”, SOFSEM

2020:TheoryandPracticeofComputerScience:46thI n t e r n a t i o n a l C onference on Current Trends in Theory and Practice of Informatic,Proceedings46,SpringerInternationalPublishing,pp.388-

[14].Tran,H.,Dinh,C.V.,Pham,Q.,Nguyen,B.T.,“AnEfficientTransformer-Based

Model for Vietnamese Punctuation Prediction”, Advances andTrendsinArtificialIntelligence.FromTheorytoPractice:34thInternational ConferenceonIndustrial,EngineeringandOtherApplicationsofAppliedIntellig ent Systems, IEA/AIE 2021, Proceedings, Part II 34, SpringerInternationalPublishing,pp.47- 58,2021.

C a p i t a l i z a t i o n andPunctuationRecoveryModels”,Proceedingsof theAnnualConference of theInternationalSpeech CommunicationAssociation,INTERSPEECH,pp.3884-3888),2022.

Lu,W.,Ng,H.T.,“Betterpunctuationpredictionwithdynamicconditionalra ndomfields”,Proceedingsofthe2010conferenceonempirical methods in natural language processing (EMNLP), pp 177-186,2010.

[17] Batista,F.,Caseiro,D.,Mamede,N.,Trancoso,I.,“Recoveringpunctuation marks for automatic speech recognition”, Eighth

[18] A Vāravs, A., Salimbajevs,“Restoring punctuation and capitalizationusingtransformermodels”,StatisticalLanguageandS p e e c h Processing:6thInternationalConference,Proceedings6,SpringerInternat ional Publishing,pp.91-102,2018.

[19] Lita, L V., Ittycheriah, A., Roukos, S., Kambhatla, N.,“Truecasing”,Proceedingsofthe41stAnnualMeetingoftheAssociation forComputationalLinguistics,pp.152-159,2003.

[20] Rayson, S J., Hachamovitch, D J., Kwatinetz, A L., Hirsch, S. M.,“Autocorrectingtext typed into aword processing document”,U.S.PatentNo.5,761,689.Washington,DC:U.S.PatentandTra demarkOffice,1998.

[21] Mikheev,A.,“Aknowledge- freemethodforcapitalizedworddisambiguation”,Proceedingsofthe37thA nnualMeetingoftheAssociationforComputationalLinguistics,pp.159- 166,1999.

[22] Caranica, A., Cucu, H., Buzo, A., Burileanu, C.,“Capitalization andpunctuationrestorationforRomanianlanguage”,U n i v e r s i t y Poli tehnicaofBucharestScientificBulletin,77(3),pp.95-106,2015.

[23] Pauls, A., Klein, D.,“Faster and smaller n-gram language models”,Proceedingsofthe49thannualmeetingoftheAssociationforComp utational Linguistics: Human Language Technologies, pp 258-267,2011.

Batista,F.,Trancoso,I.,Mamede,N.,“Automaticrecoveryofpunctuationma rksandcapitalizationinformationforIberianlanguages”,IJointSIG-IL/

MicrosoftWorkshoponSpeechAnLanguage Technologies for Iberian Languages, Porto Salvo, Portugal,pp.99-102,2009.

[25] Hasan, M., Doddipatla, R., Hain, T.,“Multi-pass sentence-end detectionof lecture speech”, Fifteenth Annual Conference of the

[26] Chelba, C., Acero, A.,“Adaptation of maximum entropy capitalizer:Little data can help a lot”, Computer Speech & Language,

[27] Lafferty, J., McCallum, A., Pereira, F C.,“Conditional random felds:Probabilisticmodelsforsegmentationandlabelingsequencedata”,Pro ceedingseighteenthInternational Conference on Machine Learning(ICML

Lu,W.,Ng,H.T.,“Betterpunctuationpredictionwithdynamicconditionalr andomfelds”,Proceedingsofthe2010conferenceonempiricalmethods innatural languageprocessing,pp.177-186,2010.

[29] Wang, W., Knight, K., Marcu, D.,“Capitalizing machine translation”,Proceedings of the Human Language Technology

Conference of theNAACL,MainConference,pp.1-8,2006.

[30] Susanto, R H., Chieu, H L., Lu, W.,“Learningtocapitalize withcharacter- levelrecurrentneuralnetworks:anempiricalstudy”,Proceedings of the

2016 Conference on Empirical Methods in

[31] Tilk,O.,Alumọe,T.,“Bidirectionalrecurrentneuralnetworkwithattention mechanism for punctuation restoration”, Interspeech, vol 08-12-

[32].Va sw an i, A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,

A N., Polosukhin, I.,“Attention Is All You Need”,Advances in neuralinformationprocessing systems,pp.5998-6008,2017.

T o u t a n o v a , K ,“Bert: Pre- trainingofdeepbidirectionaltransformersforlanguageunderstanding”,Pro ceedings of the 2019 Conference of the North American Chapter oftheAssociationforComputationalLinguistics:HumanLanguageTechnol ogies,Volume1,Minneapolis,Minnesota.AssociationforComputationalLi nguistics.pp.4171-4186,2019.

[34] Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Stoyanov, V.,“Roberta:Arobustlyoptimizedbertpretrainingapproach”,Internationa lConferenceonLearningRepresentations(ICLR),2020.

[35] Rei, R., Guerreiro, N M., Batista, F.,“Automatic truecasing of videosubtitles using BERT: a multilingual adaptable approach”,

Alam,F.,Khan,T.,Alam,A.,“PunctuationRestorationusingTransformerMode lsforResourceRichandPoorLanguages”,ProceedingsSixthWorkNoisyUs er-generatedText,pp.132-142,2020.

[37] N Đ Dân,Tiếng Việt (dùng cho đại học đại cương) Nhà xuất bản Giáodục,2000.

[38] Tran,N.L.,Le,D.M.,Nguyen,D.Q.,“BARTpho:Pre-trainedSequence-to-

SequenceModelsforVietnamese”,ProceedingsoftheAnnualConferenceof theInternationalSpeechCommunicationAssociation,INTERSPEECH,pp. 1751-1755,2022.

[39] Grishman, R., Sundheim, B M.,“ M e s s a g e u n d e r s t a n d i n g c o n f e r e n c e - 6: A brief history”, COLING 1996 Volume 1: The

[41] Grouin,C.,Rosset,S.,Zweigenbaum,P.,Fort,K.,Galibert,O , Quintard, L.,“Proposal for an extension of traditional named entities:From guidelines to evaluation, an overview”, Proceedings of the

[42] Yadav, H., Ghosh, S., Yu, Y., Shah, R R.,“End-to-end Named

EntityRecognitionfromEnglishSpeech”,ProceedingsoftheAnnualConfer ence of theInternationalSpeech Communication

[43].Cohn,I.,Laish,I.,Beryozkin,G.,Li,G.,Shafran,I.,Szpektor,I.,Matias,Y.,“Audio de-identification: A new entity recognition task”, NAACL HLT2019-

“VLSP shared task: Named entity recognition”, Journal of

[45] Ghannay,S.,Caubrière,A.,Estève,Y., Camelin,N.,Simonnet,E.,Laurent, A., Morin, E.,“End-to-end named entity and semantic conceptextractionfromspeech”,IEEESpokenLanguageT e c h n o l o g y

[46] Kim, J H., Woodland, P C.,“A rule-based named entity recognitionsystem for speech input”, Sixth International Conference on

[47] Palmer,D.D.,Ostendorf,M.,Burger,J.D.,“Robustinformationextraction fromspoken languagedata”,Eurospeech,1999.

[48] Zhai, L., Fung, P., Schwartz, R., Carpuat, M., Wu, D.,“ U s i n g n - b e s t lists for named entity recognition from chinese speech”,

Proceedings ofHLT-NAACL2004:Short Papers,pp.37-40,2004.

“ N a m e d e n t i t y recognitioninspeechtranscriptsfollowinganextendedt a x o n o m y ” ,First Workshop on Speech, Language and Audio in Multimedia, vol.1012,pp.61-65,2013.

[50].Paaò,G.,Pilz,A.,Schwenninger,J.,“Namedentityrecognitionofspokendocumentsusi ngsubwordunits”,IEEEInternationalConferenceonSemanticComputing,p p.529-534,doi:10.1109/ICSC.2009.78,2009.

[51] Alam, F., Zanoli, R.,“A combination of classifiers for named entityrecognitionontranscription”,EvaluationofNaturalLanguageandSp eech Tools for Italian: International Workshop (EVALITA), pp 107- 115,2012.

[52] Sudoh, K., Tsukada, H., Isozaki, H.,“Incorporating speech recognitionconfidenceintodiscriminativenamedentityrecognitionofs p e e c h data”,Proceedingsofthe21stInternationalConferenceonComputational

Linguistics and 44th Annual Meeting of the AssociationforComputationalLinguistics,pp.617- 624,2006.

[53] Li, J., Sun, A., Han, J., Li, C.,“A Survey on Deep Learning for

NamedEntityRecognition”,IEEETransactionsonKnowledgeandDataEng ineering,vol.34,no.1,pp.50-70,2020v.

[54] Porjazovski, D., Leinonen, J., Kurimo, M ,“Named Entity

Recognitionfor Spoken Finnish”, Proceedings of the 2nd International

Workshop onAI for Smart TV Content Production, Access and Delivery, pp 25-29,doi:10.1145/3422839.3423066,2020.

[55] Mayhew, S., Nitish, G., Roth, D.,“Robustn a m e d e n t i t y r e c o g n i t i o n with truecasing pretraining”, Proceedings of the AAAI Conference onArtificialIntelligence,Vol.34,No.05,pp.8480- 8487,2020.

[56] Jannet, M A B., Galibert, O., Adda-Decker, M., Rosset, S.,“How toevaluate ASR output for named entity recognition?”, Sixteenth

AnnualConferenceoftheInternationalSpeechCommunicationAssociation ,Interspeech,vol.2015-Janua,no.2,pp.1289-1293,2015.

[57].Ch en , B.,Xu,G.,Wang,X.,Xie,P.,Zhang,M.,Huang,F.,“AISHELL-

NER: Named Entity Recognition from Chinese Speech”, ICASSP 2022-

2022 IEEE International Conference on Acoustics, Speech and SignalProcessing (ICASSP),pp.8352-8356,2022.

[58].Ghannay, S., Caubriere, A., Esteve, Y., Laurent, A., Morin, E.,“End-to- end named entity extraction from speech”, Proceedings of the

AnnualConferenceoftheInternationalSpeechCommunicationAssociation (INTERSPEECH),https://doi.org/10.48550/arXiv.1805.12045,2018.

[59] Caubrière, A., Rosset, S., Estève, Y., Laurent, A., Morin, E.,“Where arewe in named entity recognition from speech?”, Proceedings of the

[60].Yadav, H., Ghosh, S., Yu, Y., Shah, R R.,“End-to-end named entityrecognitionfromEnglishspeech”,ProceedingsoftheAnnualConfere nceoftheInternationalSpeechCommunicationAssociation,INTERSPEECH,pp 4268-4272,2020.

[61] Pasad, A., Wu, F., Shon, S., Livescu, K., Han, K J.,“On the use ofexternal data for spoken named entity recognition”, NAACL 2022 - 2022ConferenceoftheNorthAmericanChapteroftheAssociationforComputati onalLinguistics:HumanLanguageTechnologies,Proceedings oftheConference,pp.724-737,2022.

N g u y e n , T T , Phan, X H.,“Named entity recognition for vietnamese spoken texts anditsapplicationinsmartmobilevoiceinteraction”,IntelligentInformation andDatabaseSystems:8thAsianConference,ACIIDS2016,DaNang,Vietn am,March14-16,2016,Proceedings,PartI8,pp.

[63] Gravano, A., Jansche, M., Bacchiani, M.,“Restoring punctuation andcapitalizationintranscribedspeech”,2009IEEEInternationalConfere nceonAcoustics,SpeechandSignalProcessing,pp.4 7 4 1 - 4744,2009.

[64].Re i, R , B a t i s t a , F , G u e r r e i r o , N M , C o h e u r , L , “ M u l t i l i n g u a l simultaneous sentence end and punctuation prediction”,

[65] Mdhaffar, S., Duret, J., Parcollet, T., Estève, Y.,“End-to-end model fornamed entity recognition from speech without paired training data”,ProceedingsoftheAnnualConferenceoftheInternationalSpeechCo mmunicationAssociation,INTERSPEECH,pp.4068-4072,2022.

[66] Caubrière, A., Tomashenko, N., Laurent, A., Morin, E., Camelin, N.,Esteve, Y ,“Curriculum-based transfer learning for an effective end-to- endspokenlanguageunderstandinganddomainportability”,Proceedingso ftheAnnualConferenceoftheInternationalSpeechCommunicationAssocia tion,INTERSPEECH,pp.1198-1202,2019.

[68] Laptev, A., Korostik, R., Svischev, A., Andrusenko, A., Medennikov, I.,Rybin, S.,“You do not need more data: Improving end_to-end speechrecognition by text-to-speech data augmentation”, 13th

InternationalCongress on Image and Signal Processing, BioMedical Engineering andInformatics (CISP-BMEI),pp.439-444,2020.

[69] Kano, T., Sakti, S., Nakamura, S.,“End-to-end speech transla_tion withtranscodingbymulti-tasklearningfordistantlanguagepairs”,IEEE/A

CM Transactions on Audio, Speech, and Language Processing,vol.28,pp.1342-1355,2020.

[70] Dey, R., Salemt, F M.,“Gate-variants of gated recurrent unit

(GRU)neural networks”, Midwest Symposium on Circuits and Systems, pp.1597-1600,2017.

IEEE5thAdvancedInformationTechnology,E l e c t r o n i c a n d A u t o m a t i o n C o n t r o l C o n f e r e n c e I n s t i t u t e ofElectrical andElectronicsEngineers Inc.,pp.1697-1701,2021.

[72].Devlin,J.,Chang,M.W.,Lee,K.,Toutanova,K.,“Bert:pre- trainingofdeepbidirectionaltransformersforlanguageunderstanding”,NAAC

- 2019 Conference of the North American Chapter of the Association forComputational Linguistics: HumanLanguage Technologies - Proceedings oftheConference,vol.1,pp.4171-4186,2019.

[73].Taher,E.,Hoseini,S.A.,Shamsfard,M.,“Beheshti-NER:Persiannamedentity recognition using BERT”, Proceedings of the First InternationalWorkshop onNLP Solutions for Under Resourced Languages (NSURL2019)co- locatedwithICNLSP2019,pp.37-42,2019.

Gao,Y.,Liu,W.,Lombardi,F.,“Designandimplementationofanapproximat e softmax layer for deep neuralnetworks”, Proceedings

IEEEInternationalSymposiumonCircuitsandSystems.InstituteofElectricalan dElectronics Engineers Inc. https://doi.org/10.1109/iscas45731.2020.9180870,pp.1-5,2020.

[75] Gao, W., Zhao, S., Zhu, S., Ren, S.,“Research on Entity Recognition inAerospaceEngineFieldsBasedonConditionalRandomF i e l d s ”,Jour nal of Physics: Conference Series (Vol 1848) IOP Publishing Ltd.https://doi.org/10.1088/1742-6596/1848/1/012058,2021.

[77].Zhang,Y.,Yang,Q.,“Asurveyonmulti- tasklearning”,IEEETransactionsonKnowledgeandDataEngineering,vol.34(

[78] Ruder, S.,“Neural transfer learning for natural language processing”,PhD Thesis.NUIGalw.,2019.

[79] Christensen, H., Gotoh, Y., Renals, S.,“Punctuation annotation usingstatistical prosody models”, ProceedingsoftheISCA Workshop onProsodyin SpeechRecognitionand Understanding,pp.35-40,2001.

Ngày đăng: 19/09/2023, 11:01

HÌNH ẢNH LIÊN QUAN

Hình   2.   1   mô   tả   chi   tiết   kiếntrúc   mô   hình   h   ọc   chuyển   giao TransformerdoVaswanivàcác cộngsựđềxuất [32]. - Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt
nh 2. 1 mô tả chi tiết kiếntrúc mô hình h ọc chuyển giao TransformerdoVaswanivàcác cộngsựđềxuất [32] (Trang 51)
Hình 3.4 mô tả chi tiết về kiến trúc này, bao gồm ba thành phần: phânchia đoạn chồng lấn, mô hình CaPu, và h ợp nhất các đoạn chồnglấn - Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt
Hình 3.4 mô tả chi tiết về kiến trúc này, bao gồm ba thành phần: phânchia đoạn chồng lấn, mô hình CaPu, và h ợp nhất các đoạn chồnglấn (Trang 73)
Hình 3.9 giới thiệu mô hình CaPu đề xuất cho bài toán khôi phục dấucâu và chữ hoa cho văn bản đầu ra ASR tiếng Việt gồm các thành phần:  bộbiểudiễnvéc-tơtừ(WordEmbedding),TransformerEncodervàCRF. - Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt
Hình 3.9 giới thiệu mô hình CaPu đề xuất cho bài toán khôi phục dấucâu và chữ hoa cho văn bản đầu ra ASR tiếng Việt gồm các thành phần: bộbiểudiễnvéc-tơtừ(WordEmbedding),TransformerEncodervàCRF (Trang 77)
Bảng 3.4 trình bày s ự so sánh giữamô hìnhTransformer Encoder -CRF khi áp dụng và không áp dụng hợp nhất chồng lấn cho thấy sự vượt trộicủa phương pháp hợp nhất đoạn chồng lấn so với không sử dụng khi điểm F1trên tấtcảcáclớpđược cảithiệnđángkểtừ0.01đến0.0 - Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt
Bảng 3.4 trình bày s ự so sánh giữamô hìnhTransformer Encoder -CRF khi áp dụng và không áp dụng hợp nhất chồng lấn cho thấy sự vượt trộicủa phương pháp hợp nhất đoạn chồng lấn so với không sử dụng khi điểm F1trên tấtcảcáclớpđược cảithiệnđángkểtừ0.01đến0.0 (Trang 81)
Bảng 4.4: Đánh giá mô hình NER đề xuất theo cách tiếp cận đường ống vớicáckiểuvănbản đầuvàokhácnhau - Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt
Bảng 4.4 Đánh giá mô hình NER đề xuất theo cách tiếp cận đường ống vớicáckiểuvănbản đầuvàokhácnhau (Trang 96)
Hình 4.5 chứng minh kết quả của mô hình CaPu trên văn bản chuẩn bỏdấu câu và chữ hoa. Độ chínhxác c ủa khôi phục ký tự viết hoa là 0.85 - Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt
Hình 4.5 chứng minh kết quả của mô hình CaPu trên văn bản chuẩn bỏdấu câu và chữ hoa. Độ chínhxác c ủa khôi phục ký tự viết hoa là 0.85 (Trang 97)
Bảng 4.5: Tỉ lệ lỗi của TTS-ASR và REC-ASR trên dữ liệu kiểu số, dữ  liệungoạilạivàcác lỗikhác - Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng việt
Bảng 4.5 Tỉ lệ lỗi của TTS-ASR và REC-ASR trên dữ liệu kiểu số, dữ liệungoạilạivàcác lỗikhác (Trang 106)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w