1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ Hệ thống thông tin: Phát triển kỹ thuật chắt lọc tri thức trong học suốt đời đối với miền dữ liệu văn bản

128 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát triển kỹ thuật chắt lọc tri thức trong học suốt đời đối với miền dữ liệu văn bản
Tác giả Nguyễn Thị Chăm
Người hướng dẫn PGS. TS. Hà Quang Thụy
Trường học Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Chuyên ngành Hệ thống thông tin
Thể loại Luận án tiến sĩ
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 128
Dung lượng 37,98 MB

Nội dung

Danh mục các ký hiệu và chữ viet tắtKý hiệu Cụm từ tiêng Việt Cụm từ tiếng Anh Viết tắt tiếng Việt được dùng trong luận ánCSTT/KB Co sở tri thức Knowledge Base HKLV Học khi làm việc/học

Trang 1

ĐẠI HOC QUOC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYEN THỊ CHAM

Chuyên ngành : Hệ thống thông tin

Mã số : 9480104.01

LUẬN AN TIEN SĨ HỆ THONG THONG TIN

NGUOI HUONG DAN KHOA HOC: PGS TS HA QUANG THUY

HA NOI - 2023

Trang 2

Lời cam đoan

Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi Các két quả được viét chung với các tác giả khác déu được sự dong ý của các đồng

tác giả trước khi đưa vào luận án Các két quả nêu trong luận án là trung thực

và chưa từng được công bồ trong các công trình nào khác.

Nghiên cứu sinh

Nguyễn Thị Chăm

Trang 3

Lời cảm ơn

Đối với tôi, thời gian học nghiên cứu sinh và thực hiện luận án tại Bộ môn Các

Hệ thống thông tin - Khoa Công nghệ thông tin - Trường Đại học Công nghệ, Đạihọc Quốc gia Hà Nội dưới sự hướng dẫn khoa học của PGS.TS Hà Quang Thụy làkhoảng thời gian vô cùng quý giá và có ý nghĩa đặc biệt quan trọng.

Dé hoàn thành được luận án, ngoài những nỗ lực của bản thân là những định

hướng, chỉ dẫn của các Thay, Cô; su chia sẻ, đồng hành các anh chị em NCS, các

đồng nghiệp và gia đình Lời đầu tiên tôi xin bày tỏ lòng biết ơn sâu sắc tớiPGS.TS Hà Quang Thụy, người luôn nghiêm khắc, nghiêm túc, tận tâm trongnghiên cứu khoa học; Sự động viên và chỉ dan của Thay đã giúp tôi có nhiều động

lực vượt qua các giai đoạn khó khăn trong quá trình nghiên cứu; giúp tôi vượt lên

chính mình để từng bước tiếp cận và đạt được những thành công nhất định tronglĩnh vực nghiên cứu của mình, cũng như trưởng thành, tự tin hơn trên con đườngnghiên cứu khoa học Thầy đã tạo cho chúng tôi một môi trường làm việc tích cực,hiệu quả tại Phòng thí nghiệm Khoa hoc dữ liệu và Công nghệ tri thức -

DS&KTLab.

Tôi xin bày tỏ lòng biết ơn PGS.TS Nguyễn Trí Thành đã tận tình hướng dẫn

và truyền đạt các kinh nghiệm nghiên cứu trong quá trình tôi thực hiện luận án,người đã chỉ dẫn tôi những bước đầu tiên để cài đặt thực nghiệm cũng như hoàn

thiện các bài báo khoa học.

Tôi xin trân trọng cảm ơn các Thầy Cô trong các Hội đồng đánh giá luận án:

GS TS Nguyễn Thanh Thủy, PGS TS Lương Chi Mai, PGS.TS Đỗ Văn Thành,

PGS.TS Đặng Văn Đức, PGS TS Lê Hồng Phương, PGS.TS Đỗ Trung Tuấn,PGS.TS Nguyễn Ngọc Hóa, PGS.TS Nguyễn Trí Thành, PGS.TS Trần Đăng

Hưng, PGS.TS Phạm Văn Cường, PGS.TS Bùi Thu Lâm, PGS.TS Nguyễn Long

Giang, PGS.TS Phạm Ngọc Hùng, PGS.TS Trần Trọng Hiếu, PGS.TS Nguyễn

Hải Châu, PGS.TS Phan Xuân Hiếu, TS Nguyễn Thị Hậu, TS Lê Hồng Hải đãđóng góp các ý kiến chuyên môn quý giá dé tôi hiểu tường tận hơn các van đề

nghiên cứu và hoàn thiện tốt nhất luận án của mình

il

Trang 4

Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự TS Phạm Thị Ngân,

TS Lê Hoàng Quỳnh, TS Bùi Thị Hồng Nhung, TS Nguyễn Văn Quang,ThS Nguyễn Minh Châu, ThS Vương Thi Hồng, ThS Cấn Duy Cát, CN Tran

Minh Tươi đã hỗ trợ tôi thực hiện các công trình nghiên cứu; Tôi cũng luôn ghi nhớ

những sẻ chia từ các đồng đội của tôi TS.Vũ Ngọc Trình, TS Nguyễn Thị HồngKhánh, TS Lê Thị Thanh Lưu, TS Phạm Thanh Huyền, TS Nguyễn Văn Thẩm,

TS Nguyễn Thọ Thông, NCS Nguyễn Thị Thùy Anh, NCS Nguyễn Khánh Tùng

va các bạn giảng viên trẻ tại DS&KTLab Vuong Thị Hải Yến, Nguyễn Thị CamVân, Phạm Quỳnh Trang Chúng tôi luôn đồng hành, cùng nhau chia sẻ những ýtưởng nghiên cứu, những khó khăn cũng như những niềm vui khi đạt được các kết

quả mong đợi.

Tôi xin bày tỏ lời cảm ơn sâu sắc tới các nhà khoa học B Liu, Z Chen, S Wang và cộng sự đã cung cap các bộ phân mêm va dữ liệu rat hữu ích, giúp tạo nên tảng thuận lợi đê luận án triên khai thực nghiệm.

Tôi xin chân thành cảm ơn Ban lãnh đạo, tập thé các Thầy Cô giáo, các Nhakhoa học của Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, PGS.TS Lê

Sỹ Vinh, PGS.TS Phạm Ngọc Hùng, PGS.TS Nguyễn Phương Thái đã giúp đỡ vềchuyên môn và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học tập và nghiên

cứu Cảm ơn các chuyên viên Nguyễn Thị Minh Thanh, Nguyễn Thị Lan Hương,

Phạm Thị Mai Bảo, Tạ Thị Hồng Hạnh, Nguyễn Khánh Ly, Chu Thị Khánh Huyền

đã hỗ trợ tôi trong quá trình hoàn thiện hồ sơ bảo vệ luận án

Tôi trân trọng cảm ơn Đảng ủy, Ban Giám hiệu Trường Đại học Y Dược HảiPhòng đã tạo điều kiện thuận lợi cho tôi trong quá trình nghiên cứu; cảm ơn cácđồng nghiệp Bộ môn Tin học, Khoa KHCB đã luôn hỗ trợ, chia sẻ và động viên tdi

Tôi đặc biệt gửi lời cảm ơn người bạn đời - TS Bùi Đức Quang luôn tin

tưởng, yêu thương, ủng hộ, đồng hành và dành mọi điều kiện tốt đẹp dé tôi đượcthực hiện mong muốn của mình là hoàn thành bậc học tiễn sĩ Cam ơn những yêuthương của hai con Bùi Phương Tuệ, Bùi Quốc Phong, những cố gắng mỗi ngày củacác con đã trở thành động lực dé tôi từng bước hoàn thiện chính mình và giúp tôihoàn thành nhiệm vụ học tập này Tôi luôn trân quý và biết ơn tình cảm của nhữngngười thân trong gia đình, của Ba, của Bồ và hai người Mẹ cũng như tình cảm củacác anh chị em đã chia sẻ, là chỗ dựa tinh thần vững chắc cho tôi trong suốt chặng

đường học tập và nghiên cứu ý nghĩa vừa qua.

lil

Trang 5

Luồi CAM GOAN 2-0 5-5 5 5< 5 5 9 9 96.0.0009 000 000009.009 0 900 40050049.06096 i LOT CAM ƠïN 5 55 6 5 E5 9E 599 90.0 0900.50.0900 000900095009 00090090000 9600 ii MUC lục _ G5 G G 5S 9 ọ9 Họ HH TH 00.0.0001 180004.080046 0806 iv

Danh mục các ký hiệu va chữ Viet ẦĂ o- <- 5s HH n0 ngu vii Danh mục các Dang - << < < 5s 9 0 0.00 0008.060 X

Danh mục các hình VE d << <9 991 9 0 0 0008 050000005.m xii

Mở GAUL sssssssssssssscssssssssscsssssesscssssssssssssssessssnesssssssesssseesssneesssnsesssnscessssssssssessssnesesssseesss 1

Chuong 1 Khai quat về học máy suốt đời, chat loc tri thức và mô hình chủ dé

\n 000303 9

1.1 Học máy suốt đỜI HH HH HH 000000000000000000000000000000008008P 9

1.1.1 Sơ lược về lịch sử tiên hóa - - <1 1k2 91H TH ng ng n rưy 91.1.2 Định nghĩa và khung hệ thống học máy suốt 6 (0) set 111.1.3 So sánh HMSD với các kiêu hoc máy truyền thống liên quan 161.1.4 Học thế giới mở và học khi làm vIỆC - 5 5 + +2 kE+svesseesses 171.1.5 Hệ thông học ngôn ngữ không dừng NELL - 20 1.1.6 Thách thức đôi với học máy suôt đỜII - «+ «+ sxcsxcseeeserseeseree 221.2 Chắt lọc tri thức +settttttttttttttttttttttttttttttttinnttnnnrnrnnniee 24

1.2.1 Giới thiệu vê chat lọc tri thỨcC - 6 + + 2x 9x9 ng ng nh ngư 24

1.2.2 Chat lọc tri thức trong học SUOt đỜI che 26

1.3 Mô hình chủ đề suốt CỦỜI 0 HC HH 0.00100000090896 27

1.3.1 Mô hình chủ đề ân -¿- 2c £+SE+EE+EE£EEEEEEEEEEE211211271 7121121121 27

1.3.1.1 Mô hình chủ đề truyền thống -¿- 5 22 5+22x2z+czx+srxesrxee 271.3.1.2 Mô hình chủ đề hiện đặại - + 25s x+2E2EE+EEtEEcrEerrxerkrrrerex 311.3.2 Mô hình chủ dé suốt đời -¿¿+22++22++t2Exxt2EEtttrrtrtrrrrrrrrrrrrrree 31

1.3.2.1 Dimh nghia eee cescccesecessecesceesseceeecsseeceseeceseeeseeeeeeeesaeeeeeneeeeeeees 311.3.2.2 Mô hình chủ dé suốt đời LTM oon eecseeecssseeessseeeessneecesneessnneeessneesens 331.3.2.3 Mô hình chủ dé suốt đời AMC cccccsccxesrrrrrrrrrrrrrres 371.3.2.4 Thiếu sót của LTM và AMC - : ccc:¿+cvxvsrtrtrrrrrtrrrrrrrrrrrres 391.3.3 Đánh giá chất lượng mô hình chủ đề -¿- ¿s2 s++x++z++zx++rsz 40

1.4 Liên hệ với nghiên cứu trong luận án << s5 «5< sss 5s 5599529 41 1.5 Cac độ do đánh giá hiệu năng phân lớp -s «eesecssesses 42

1.6 Ket luận Chương << 5G 5G << 999 909909 93605.04004665605666 44

1V

Trang 6

Chương 2 Mô hình chủ đề suốt đời miền gần .2- 2-2 s2 s2 se ssess 45

2.1 Bốn mô hình chủ đề suốt đời hiện địại -. -s- 5 ssssess=sessesse 45

2.1.1 Mô hình chủ đề suốt đời với tri thức tự học RUTM-§K 46

2.1.2 Mô hình chủ đề suốt đời với xếp hạng đa dạng JUTMMR 482.1.3 Mô hình hóa chủ đề nơ-ron suốt đời LNTM - 2c c2+cz+cssrxerxcres 49 2.1.4 Mô hình cộng tác suốt đời LCM -¿-2¿©2¿22++2z++cx+ezxe+rxrzreeee 50 2.1.5 Nhận XÉt - - HH HH TH HT nh Hệ 512.2 Mô hình chủ đề suốt đời miền gần CD-AMC e«ceeeeeeeseeere 51

2.2.1 Ý tưởng mô hình chủ đề suốt đời miền gần 2 - + s+cs+cs+ce2 52 2.2.2 Miễn gần -¿- ¿S21 tk 1 E10111112112112111111 111111111111 111111 xe 53

2.2.2.1 Các độ đo miền gan — 53

2.2.2.2 Định nghĩa miền gần - 2: 2+EE+EE£EE2EE2EEEEEEEEEEEEEEErkrrkrrkx 552.2.3 Mô hình chủ đề suốt đời miền gan ¬— 562.2.4 Thuật toán mô hình chủ đề suốt đời miễn gần CD-AMC 582.2.5 Phan mềm thực thi mô hình chủ đề suốt đời miền gần 60

2.3 Mô hình chủ đề suốt đời miền gần cho phân lớp đa nhãn văn bản tiếng

VIE , HH CC HH HH 000040050 005000 90 60

2.3.1 Phát biểu bài toán : ©+++++xtttEEkxtttEkkrrttrtrrttrtrrtrirrrrrerriee 60

2.3.2 Mô hình giải quyẾ -.- 2-2-2 2+1 2E12E127121121121111 111211111 61

2.3.3 Thực nghiệm và nhận X€t - G6 + 31113119 119311311 811 re 62

2.3.3.1 Cac tap i0 nCỊIiaaiađai) 62

2.3.3.2 Kịch ban thực nghiỆm - - c2 3+ E32 ESErirrrrrrrerrrrrrree 64

2.3.3.3 Két quả thực nghiệm và nhận X€t ee eesceseeceseeceneeeseceseeeeaeeeeneeee 65

2.3.4 Kiểm định hiệu năng CD- “AMC so với LDA va AMC 672.4 Mô hình chủ đề suốt đời miền gần theo bộ phân lớp quá khứ 69

2.4.1 Mô hình chủ đề suốt đời miền gần CCD-AMC 2- 2755: 69

2.4.2 Ap dụng vào bài toán phân lớp quan điỂm 2 -¿z+s+++sz+‡ 70

2.4.2.1 Các tập dữ lIỆu - tt SH HH TH ng HH ng gà 71

2.4.2.2 Kịch bản thực nghiỆm - - - c3 32132113 E9 E1 EErrrrrerreree 72

2.4.2.3 Kết quả thực nghiệm và nhận xét - 2 2 + x2x++z++zxvrxres 72

2.5 Kết luận Chương 2 << ss©csSse©ssEssEEsEEseEssEssExsersersesssrrserserssssse 76

Chương 3 Mô hình chủ đề suốt đời miền gần hướng đích 77

3.1 Mô hình chủ đề hướng dich - 2s 5< s2 sssse se =ssessessesserssesse 77

3.1.1 Bai tOam 153 78

3.1.2 MG himh TTM 00 =a 78

3.2 Dé xuất mô hình chủ dé suốt đời miền gần hướng đích 81

3.3 Mô hình chú đề suốt đời miền gần hướng dich cho phân lớp da nhãn van

DAN tiéng Vit 031.77 83

3.3.1 Phát biểu bài tOAN ees eecesseecessneeeesseeeessnesessneessssecesnneeesnnsessneessneeesnnesee 83

3.3.2 Mô hình giải QuyẾT - 2: ©5¿©S2+E<EEeEEEEE2E1E7171121121171711 1111 E1 84

3.3.3 Thực nghiệm và nhận X€t - 2< E31 E91 E39 E39 E11 re 86

Trang 7

3.3.3.1 ng 86 3.3.3.2 Kịch ban thực nghiỆm - c5 22+ SE **E*EESEEEErerrrrrrrrrerrreerrke 873.3.3.3 Két quả thực nghiệm và nhận XÉt - - 5 S51 * + s+skseserese 893.4 Kết luận chương 3 . -s- << s° s£ sSs£ss£SsEs£EseEseEsESsEEsEssEsevsersersersee 92

Chương 4 Chắt lọc tri thức học sâu suốt đời và áp dụng vào nhận dạng thực

thé y sinh tiếng Viet sec se csssserserseEseEssersersersersserserserssrse 93

4.1 Năm nghiên cứu liên quan về nhận dạng thực thé có tên 93

4.1.1 Mô hình chat lọc tri thức MTM-STM cho nhận dạng thực thé có tên 93 4.1.2 Mô hình chất lọc tri thức đa hạt nhận dạng thực thé có tên 94

4.1.3 Mô hình học liên lục nhận dạng thực CRON (| - -cscx+cczvrxsxez 95

4.1.4 Mô hình DeepLML-NER nhận dạng thực thể có tên tiếng Việt 96

4.1.5 Mô hình xây dựng tập dit liệu tiếng Việt nhận dạng thực thé bệnh nhânCOVID-~19 111 .ẢẢ 97

4.2 Mô hình HMSĐ BiLSTM-KD-NER chắt lọc tri thức học sâu nhận dạng

4.2.3.1 Biểu diễn đầu vào -:-©5¿©52+2E+EEEE2E1221271711211211 111.1 crxe 102 4.2.3.2 Mô hình Bi-LSTM trong BiILSTM-KD-NER - - 103

hy 0o 103

4.3 Áp dụng mô hình BiLSTM-KD-NER vào nhận dạng thực thế COVID-19

¡100777 ).).) 104

4.3.1 Tập dữ liệu y sinh tiếng Việt dùng cho nhận dạng thực thể COVID-19.104

4.3.2 HAM MUC i2 05 - aa :::::ƑÔỞÔố 1104.3.3 Kết quả thực nghiệm và nhận X€t - 5 +12 £**kE+sseesseeesse 1104.4 Kết luận chương 4 «se +s£+xs©xse+se©veExsetxeetsertserkserssrrssrre 113

{80 00 114

Kết quả chính của luận án ° 2s s° s2 ©ssSs£seEssessesserserssesssssee 114Hạn chế của luận án -° 2s s£ s22 ©Ss£EsEs9ESsESSEEsEEseEssEssersersersssssee 115

Định hướng nghiên cứu tiẾp theo -s s-s°sssssseessessessesssrssessessse 116

Danh mục công trình khoa hoc của tác giả liên quan tới luận án 117 Tài liệu tham Khao o 5< G 5G 5 %9 S999 9 4 94.9 000 000091 9.66 118

VI

Trang 8

Danh mục các ký hiệu và chữ viet tắt

Ký hiệu Cụm từ tiêng Việt Cụm từ tiếng Anh

Viết tắt tiếng Việt được dùng trong luận ánCSTT/KB Co sở tri thức Knowledge Base

HKLV Học khi làm việc/học tại chỗ Learning on the Job

Học máy suốt đời Lifelong Machine Learning

HMSD Học liên tục Continual Learning

Học không dừng Never-Ending Learning

HTGM Học thé giới mở Open World Learning

MHCĐSĐ_ | Mô hình chu đề suốt đời Lifelong topic model

PLNPSĐ Phân lớp nhị phân suốt đời Lifelong binary classification

TINT/AI Tri tué nhan tao Artificial intelligence

Viết tat tiếng Anh được dùng trong luận án

Phân lớp quan điêm mức khía | Aspect-based sentiment

ABSC wpe ae

canh classification

Hoc mô hình chu dé với tri

thức phai-di-cting va tri thir | TOPIC modeling wíh

AMC R Roa 8 : Automatically generated

must-không-thê-đi-cùng được sinh tự | 5 :

^ link and Cannot-link

động

BiLSTM Mạng bộ nhớ dài ngăn hạn hai | Bidirectional Long Short-Term

chiêu Memory

BiLSTM- Mô hình chat lọc tri thức học | Bidirectional LSTM-Knowledge

KD-NER sâu BiLSTM suôt đời nhận | Distillation-Named Entity

dạng thực thê có tên (luận án) Recognition

CCD-AMC _ | Hee mô hình chủ dé CD-AMC | C1 sifier-based CD-AMCtheo bộ phân lớp (luận án)

CD-AMC Học mo binh chu de Suot doi Close Domain-AMCAMC miên gân (luận án)

Học gia tăng, phân câp, liên tục | Continual, Hierarchical, CHILD See ak :va phat trién Incremental Learning and

Vil

Trang 9

CNN Mạng nơ-ron tích chập Convolutional Neural Networks

DoNADE er cac

EBNN Mang no-ron giai thich Kalandtion-Based Neural

FIM Khai pha tập mục phô biến Frequent Itemset Mining

GPU Mô hình Pólya Urn tổng quát | General Pólya Urn Model

KBC Hoàn thiện cơ sở tri thức Knowledge Base Completion

KBL Bộ học dựa trên tri thức Knowledge-Based Learner

KD Chat lọc tri thức Distilins Knowledee

KG Đồ thi tri thức Knowledge Graph

KR Bộ suy luận tri thức Knowledge Reasoner

KL-D Phân kỳ Kullback-Leibler Kullback-Leibler Devergence

LCM Mô hình cộng tác suốt đời Lifelong Collaborative Model

LDA M6 hinh chu dé an an Latent Dirichlet Allocation

LNTM toe hà hình chủ đề nơ-ron Modlise Neural Topic

LSTM Mang bộ nhớ dài ngắn hạn Long Short-Term Memory

LTM Bo vee mô hình chủ dé suot đời Lifelong Topic Model Learner

MIS-FIM Khai pha mau phô bien theo | Multiple Minimum Supports

nhiêu ngưỡng hồ trợ tôi thiêu Frequent Itemset Mining

MKM Bộ khai pha siêu tri thức Meta-Knowledge Miner

MKS Kho siêu tri thức Meta-Knowledge Store

Narrow AI/ Trí tuệ nhân tao hẹp Narow/W eak Artificial

Weak AI Intelligence

NELL Bộ học ngôn ngữ không dừng Never-Ending Language NER Nhân dan thục th ‘dink danh Named Entity Recognition

NMT Dich may mang no-ron Neural Machine Translation

OOKB Thực thé ngoài co sở tri thức Out-of-knowledge-base

Vili

Trang 10

PIS Kho tri thức quá khứ Past Information Store

PMI Thông tin tương hỗ điểm Pointwise Mutual Information

^ 13 > aX ke aye dy Regularized Lifelong Topic

RLTM-SK | Mô hình chủ de suốt đời chính | Model with Self-learningquy với tri thức tự học

Knowledge SAL Học tăng cường dir liệu chon | Selective-Data Augmentation

lọc Learning

SG D6 thi thanh phan tir Subword Graph

TCD-AMC Mô hình chủ đề suốt d on mien Targeted Topic CD-AMCgân hướng đích (luận án)

TKM Be khai phá tri thức hướng tác Task-based Knowledge Miner

TM Bộ quản lý tác vụ Task Manager

TMPB Tập mục pho biến Frequent Itemset

TIM Mô hình chủ đề hướng đích Targeted Topic Model

Thuật ngữ khong có viết tat được dùng trong luận án

Bộ khai pha tri thức tac vu

Hoc chuyên đồi/học thích ứngmiên

Transfer Learning/

Domain Adaptation Learning Hoc da nhiém theo 16 Batch Multi-Task Learning

Học tăng cường Reinforcement Learning

Học tăng cường su ét đời Lifelong Reinforcement

Learning

Hoc trực tuyến đơn nhiệm One-Task Online MachinLearning

Quên nghiêm trọng Catastrophic Forgetting

Hoc mé-ta/Siéu hoc Meta-Learning

(tri thức) không-thê-đi-cùng Cannot-Link (tri thức) phải-đi-cùng Must-Link

1X

Trang 11

Danh mục các bảng

Bang 1.1 Ma trận nhằm lẫn - 2-2: ¿5£ E£SE£EE£2EE2EEEEEEEEEEEEEEEEEEEEEEEEkrrkrrkrrei 42Bảng 2.1 Phân bố dit liệu theo năm nhãn trong tập dữ liệu Horels - 62Bảng 2.2 Đặc điểm dữ liệu đa nhãn của tập dữ liệu Hotels -. ‹+ - 63Bảng 2.3 Các tập dữ liệu của các miền khác nhau - ¿2©5¿2xz+z++zx++>s+ 64Bảng 2.4 Kiểm tra miền gần (V: Mức từ vựng, W: Mức từ tốp đầu, T: Mức chủ đề,

C: Gan, Y: Có, N: Không) cv kg ngư, 65

Bảng 2.5 Kết quả của các kịch bản thực nghiệm của LDA, AMC, CD-AMC (P là độ

chính xác, R là độ hôi tưởng, F1 là độ đo hai hòa) - - ‹ 66

Bảng 2.6 Tập mẫu 20 giá trị quan sát về độ đo hiệu năng F1 và độ cải thiện hiệu

năng của CD-AMC so với LDA và AMC - se nseseeeieeirey 68

Bảng 2.7 Kiểm định giả thuyết giá trị trung bình của quan thé với giá trị o

0805 11 69Bảng 2.8 Tỷ lệ các đánh giá âm đối với 20 miền sản phẩm [22] - 71Bảng 2.9 Độ đo F1 kết quả phân lớp cây quyết định theo ba kịch bản với ba kích

thước chủ đê và năm kích thước tập dữ liệu miên hiện tại; CCD-AMC10,

3008:2117 73

Bang 2.10 Độ đo F1 kết quả phân lớp Bayes đơn giản theo ba kịch bản với ba kích

thước chủ dé và năm kích thước tập dữ liệu miên hiện tại 74

Bang 2.11 Độ đo F1 kết quả phân lớp k-NN theo ba kịch bản với ba kích thước chủ

dé và năm kích thước tập dữ liệu miên hiện tại - - - 555 <+>+ 75

Bang 2.12 Độ đo F1 kết quả phân lớp MLP theo ba kịch bản với ba kích thước chủ

đê và năm kích thước tập dữ liệu miên hiện tạI 5 5< +<<+ 75Bảng 3.1 Các thành phan trong mô hình và thuật toán TTM [99] - 79Bảng 3.2 Các tập dữ liệu thực nghiệm từ các miền khác nhau - - 5 cc5¿ 86

Bảng 3.3 Các khía cạnh va quan điểm của các đánh giá trong tập dữ liệu 87Bang 3.4 Các tham số cài đặt của mô hình TTM va CNN -csccc=s+ 88Bang 3.5 Kết quả của hệ thống có đầy đủ các thành phần (tỷ lệ %) 89

Trang 12

Bảng 3.6 Kết quả của các kịch bản thực nghiệm (tỷ lệ %) Số in đậm là giá trị lớn

nhất, số in nghiêng là giá trị lớn thứ hai trong mỗi cột 90

Bang 3.7 Kết quả của một số mô hình khác trên cùng tập dữ liệu thực nghiệm 9 I

Bảng 4.1 Bảng tóm tắt các trường hợp được gán nhãn cho mỗi loại thực thể 107Bảng 4.2 Phân bó tập dữ liệu giữa các miền quá khứ và hiện tại - 109Bảng 4.3 Phân tích hiệu năng của hệ thống -2- 5¿©2++2+++£x++zxrzrzrrseee 110

XI

Trang 13

Danh mục các hình vẽ

Hình 0.1 Một thống kê công bố khoa học về học máy suốt đời và chắt lọc tri thức

trong cơ sở dữ liệu DBILP << E1 19119119119 1 ng ng 5Hình 0.2 Các chủ đề nghiên cứu về học máy suốt đời [22] trong luận án 6Hình 0.3 Bố cục của luận án - 2-2 ©5£+E£2EE+EE£EE2E12E127171121122121 21.21 cEE xe 8Hình 1.1 Kiến trúc hệ thống NELL [12] ¿2-2 +2 ££2££2££+E£+E££Eezxzrxzrxzxe2 10Hình 1.2 Kiến trúc hệ thống HMSD [22] - 2 E+SE+2E2EE2EEEEEEEEErEkerkrrkrrex 12Hình 1.3 Kiến trúc kết hợp học thế giới mở và học khi làm việc [66] 19Hình 1.4 Kiến trúc hệ thống NELL [77] - 2 2 + ++2E£+E£+£++£x+zE++E++rxerxezez 20Hình 1.5 Khung nhìn chat lọc tri thức [38] -. -2- 2 5¿+2++x++zxzxx+zxesrxz 25Hình 1.6 Chat lọc tri thức ngôn ngữ suốt đời [25] - 2-2 2s +x+cx+zs+zszse2 26Hình 1.7 So sánh các thuật toán điều hợp (adapters), phát lại bộ nhớ (Memory

Replay) va học liên tục dựa trên chat loc mô hình đào tạo trước [53] .27

Hình 1.8 Mô hình biểu diễn LDA [85] (các hình chữ nhật biểu diễn các quá trình

Hình 1.9 Kiến trúc mô hình LTM [22] ¿2-2 2 E2 E+EE+E£EE+EeEE+EeEEeEerkererxers 34Hình 1.10 Kiến trúc mô hình AMC [22] 2¿- 2 + +2E+2£++£E+£xezxezzezrxerxeres 37Hình 2.1 Lựa chọn miền quá khứ cung cấp mô hình (MH) chủ đề (mô hình chủ đề

các tác vụ Tạ và Tạ) đê xây dựng mô hình chủ dé tác vụ hiện tại Ty44

Hình 2.2 Mô hình chủ đề suốt đời miền gần CD-AMC của luận án 56Hình 2.3 Mô hình ứng dụng CD-AMC vào phân lớp đa nhãn của luận án 61 Hình 3.1 Mô hình TTM [98, 99] cccscccscsssesssessssssessecssecssssssessecssecsssssecssecsnecseessecaseess 79Hình 3.2 Sơ đồ xây dựng MH CDSD miền gần hướng dich - 82

Hình 3.3 Khung học sâu phân lớp đa nhãn dựa trên MH CDSD miền gần hướng

h0 .Ắ LỎ 85Hình 4.1 Mô hình chắt lọc tri thức MTM-STM cho nhận dạng thực thé có tên [73]94Hình 4.2 Sơ đồ mô hình chắt lọc tri thức đa hạt (câu đầu vào ví dụ “She taught at

Columbia University”) [105] cccccccssecsessesseeeeeeeeeseeeseceeeceeeeaeeseeeneeeaeens 95

Xil

Trang 14

Hình 4.3 Hai sơ đồ Teacher-AddNER (trái) và Teacher-ExtendNER (phải) [78] 96Hình 4.4 Biểu diễn đặc trưng tiền tố [79] -¿- 2 E+E+2E+2EE+EESEEeEEErrkrrkerkerer 97Hình 4.5 Sơ đồ kiến trúc BiLSTM-KD-NER chat lọc mô hình học sâu suốt đời

cho nhận dạng thực thé có tÊN - - 5 22c 332313911 3111811111 1 re 99Hình 4.6 Kiến trúc chat lọc tri thức học sâu suốt đời nhận dạng thực thé có tên 101Hình 4.7 Sơ đồ các bước thu thập dit liệu gan nhãn y sinh về COVID-19 105Hình 4.8 Gan nhãn dit liệu y sinh Covid-19 tiếng Việt -2 5¿©c5c55c+: 108Hình 4.9 So sánh F1 dựa trên sự thay đổi kích thước của tập dữ liệu quá khử 112

Hình 4.10 So sánh F1 dựa trên sự thay đôi ngưỡng quyết định của mô hình phân lớp

BiLSTM-KD-NER 0111 113

xiii

Trang 15

Mo đầu

Học máy suốt đời (Lifelong Machine Learning, “học suốt đời”!, sau đây viếttắt là HMSĐ), còn được gọi là học liên tục (Continual Learning) hoặc học khôngdừng (Never-ending learning), là một kiểu học máy mới, liên tục tiếp nhận và thực

hiện các tác vụ học, lưu trữ lại các tri thức đã học được, chọn lựa các tri thức đã

được lưu lại trước đó để hỗ trợ việc giải quyết hiệu quả các tác vụ học mới xuấthiện [22, 59, 77] Học máy suốt đời nhằm hướng tới một thế hệ học máy mới “tựanhư con người” (“Học máy 2.0” [22]), giải quyết được một số thách thức từ cách

học cô lập của học máy truyền thống, đặc biệt là thách thức về yêu cầu tập dữ liệu

đầu vào phải có kích thước đủ lớn, một yêu cau rất khó thực hiện đối với các hệthống ứng dụng thực tiễn

Những nghiên cứu đầu tiên về HMSĐ xuất hiện trong giai đoạn 1994-1995với các công trình nghiên cứu của S Thrun và T M Mitchell [92, 93, 94] và của M.

B Ring [88] M B Ring đề cập tới khả năng học gia tăng, phân cấp, liên tục vàphát triển của hệ thống CHILD (Continual, Hierarchical, Incremental Learning and

Development) S Thrun và T M Mitchell trình bày tường minh hơn các đặc trưng HMSĐ cơ bản của thuật toán EBNN (Explanation-Based Neural Network): sử dụng

mạng nơ-ron (Neural Network) như một dạng biểu diễn tri thức, tiến hành học quynạp và học phân tích; các tác giả nhân mạnh mối quan tâm khoa học quan trọngphat sinh trong HMSD là thu nhận, biéu diễn, chuyển giao và sử dụng tri thức quákhứ Hai cụm công trình trên đây chưa chỉ ra một cách tường minh về các thànhphần của một hệ thống HMSĐ

Theo thời gian, các vấn đề về quản lý dòng tác vụ, trích xuất tri thức và lưutrữ chúng vào cơ sở tri thức, lựa chọn tri thức quá khứ hữu ích để hỗ trợ việc giảiquyết tác vụ hiện tại nhăm nâng cao hiệu năng tác vụ học hiện tại, v.v trong HMSDngày càng được làm sáng tỏ hơn, toàn diện hơn và sâu sắc hơn A Carlson và cộng

! Trong luận án này, từ “học” không đi kèm từ “máy” cũng được hiểu là “học máy”.

Trang 16

sự [12] giới thiệu phiên bản đầu tiên của bộ học ngôn ngữ không dừng NELL

(Never-Ending Language Learner)? bao gồm sáu thành phan là cơ sở tri thức, bộtích hợp tri thức và bốn hệ thống con thành phần khác; NELL hoạt động liên tục từnăm 2010 tới nay, đã có hơn 4100 tác vụ học thành phần [12, 77] và được coi là hệ

thống HMSD tiêu biểu đang tồn tại trong thực tiễn D L Silver và cộng sự [90]

phát biểu định nghĩa HMSD và đưa ra một khung HMSD với hai thành phần chính

là hệ thống học quy nap và cơ sở tri thức chứa tri thức tông thé và tri thức miền;việc lựa chọn tri thức và chắt lọc tri thức giữa hai thành phần cũng được mô tả D.Isele và cộng sự [51] cung cấp một khung hệ thống HMSĐ có dòng tác vụ xuất hiệntheo thời gian va các thuật toán lựa chọn tri thức quá khứ cho tác vụ hiện tại cũngnhư vấn đề cập nhật cơ sở tri thức Trong [22], Z Chen và B Liu đưa ra định nghĩa

và một khung hệ thống HMSD toàn điện với các thành phan quan lý dòng tác vụ, cơ

sở tri thức, quản lý tri thức và bộ học tác vụ sử dung tri thức quá khứ từ cơ sở tri thức.

Việc đưa các khung HMSĐ áp dụng vào người máy và hệ thống hội thoại tự

động hình thành nên các dạng thức HMSD đặc biệt như học thế giới mở world learning) hay học khi làm việc (Learning on the Job, hoặc “học tại chỗ”) Học

(Open-thế giới mở hướng tới các hệ thong HMSD giải quyết được vấn đề xuất hiện các thêhiện mới mà không thé học được nếu chỉ sử dụng không gian các khái niệm trong

“thế giới hiện có” của hệ thống (chăng hạn, một người máy giao tiếp gặp một kháchhàng mới, chưa từng xuất hiện trong cơ sở tri thức của nó) [3, 8, 22, 33, 34, 99,103] Học khi làm việc hướng tới các hệ thống HMSĐ giải quyết được vấn đề tươngtác với con người và môi trường để tăng cường cơ sở tri thức của hệ thống và giảiquyết các tác vụ mới nảy sinh qua tương tác, chăng hạn, một hệ thống hội thoại tựđộng (ví dụ, chatbot) tương tác với những người sử dụng hệ thống dé thu thập đượccác dit kiện, tri thức mới vào cơ sở tri thức của nó dé hỗ trợ đưa ra câu phản hồi của

người hiện tại có chứa các thực thé, quan hệ chưa có trong co sở tri thức của nó [66,

67, 68, 97] Học sâu suốt đời là mô hình giải quyết các hiện tượng không mongmuốn từ học sâu như hiện tượng quá tập trung vào các khái quát hóa cục bộ màchưa cho được các khái quát hóa cận biên (extreme generalization) [24] hoặc hiện

tượng quên nghiêm trọng khi học tác vụ mới [22, 32, 55, 58, 60].

? http://rtw.ml.cmu.edu/rtw/

Trang 17

Đã hình thành nhiều nhóm nghiên cứu chuyên sâu về HMSĐ trên thế giới,điển hình là các nhóm nghiên cứu của Tom Mitchell và cộng sự tai Carnegie Mellon

University, Hoa KỳỶ, Bing Liu và cộng sự tại University of Illinois at Chicago, Hoa Ky’, Eric Eaton va cộng sự tai University of Pennsylvania, Hoa Kỳ”, Vincenzo

Lomonaco va cộng sự tai University of Pisa, Y° Tom Mitchell và cong su tién hanh

các nghiên cứu khởi thủy về HMSD [92, 93, 94] Bing Liu và cộng sự tập trung hơnvào HMSĐ trong xử lý ngôn ngữ tự nhiên dựa trên một quá trình nhiều năm nghiên

cứu về khai phá dữ liệu văn bản (bao gồm khai phá web [62, 63], khai phá quan

điểm [64, 65]); nhóm nghiên cứu của Bing Liu đã cung cấp các tài nguyên (mãchương trình và tập dữ liệu) tới cộng đồng nghiên cứu”, đồng thời, hai cuốn sách[20, 22] cung cấp một khung nhìn toàn diện và chuyên sâu về HMSD Eric Eaton và

cộng sự tập trung hơn vào các phương pháp HMSD đa nhiệm liên tục trong thời

gian dài, chuyển giao tri thức giữa các tác vụ học máy, trí tuệ nhân tạo (TTNT)tương tác kết hợp với học tích cực và phát triển ứng dụng các phương pháp như vậy

vào người máy, y học chính xác và các hệ thống bền vững Vincenzo Lomonaco là

một tiến sĩ trẻ, năng động đã triển khai các hoạt động về học liên tục với nhiều công

bố khoa học, tập trung vào các chủ đề về khoa học nơ-ron, học sâu suốt đời và ứng

dụng, khung phát triển TTNT bền vững: thư viện nguồn mở tham khảo cho học liên

tục AvalancheŠ (Vincenzo Lomonaco là tác giả phát hành) nhận được sự quan tâm

rộng rãi của cộng đồng nghiên cứu về HMSĐ

Học máy suốt đời có tầm quan trọng đặc biệt đối với phân tích dữ liệu văn

bản [6, 20, 22, 55] (cũng như đối với phân tích dữ liệu ảnh [59, 72]) Theo Z Chen

và B Liu [22], có ba lý do áp dụng HMSD vào các miền dữ liệu văn bản: (i) các từ

và cụm từ gần như có nghĩa tương tự trong mọi miền ứng dung và mọi bài toán, (ii)các câu trong mọi miễn có cùng cú pháp hoặc ngữ pháp, (iii) hầu như tất cả các bàitoán khai phá văn bản liên quan chặt chẽ với nhau, chúng liên kết và tác động lẫnnhau theo một số cách thức nào đó Trong bối cảnh chung đó, mô hình chủ đề suốtđời (CDSD: Lifelong topic) là một dang HMSD không giám sát, được phát triển từ

Trang 18

mô hình chủ đề biểu diễn văn bản truyền thống [7], sử dụng tri thức từ mô hình chủ

dé của các tác vụ xử lý văn bản trong quá khứ dé hỗ trợ việc xây dựng mô hình chủ

dé cho tác vụ xử lý văn bản hiện tại [22] Hai MH CDSD điển hình là LTM(Lifelong Topic Model) [17] và AMC (topic modeling with Automatically

generated must-link and Cannot-link) [18].

Vấn đề lựa chọn va sử dụng tri thức quá khứ hỗ trợ tác vụ hiện tại trở thànhmột thách thức lớn đối với HMSD, đặc biệt khi các miền dữ liệu quá khứ là rất khácbiệt nhau [22] Đầu tiên, cách thức nhận biết một mâu tri thức có thực sự đúng làđiều tối quan trọng, bởi vì tri thức quá khứ không đúng có thê rất có hại do tính lantruyền nhiều vòng của HMSĐ Tiếp đó, cách thức nhận biết và lựa chọn tri thức quá

khứ có áp dụng được cho một tác vụ mới cũng quan trọng không kém bởi vì mỗi

miền quá khứ có thé chỉ đóng góp một lượng tri thức nhỏ hữu ích (thậm chí có miềnquá khứ không có đóng góp gi) cho tác vụ mới Chat lọc tri thức, một kiểu họcchuyên giao từ một mô hình giàu tri thức, phức tạp va cồng kénh đã được huấn

luyện trước (được gọi là mô hình giáo viên: Teacher model) tới một mô hình đơn

giản hơn mà trong hầu hết trường hợp là nhỏ hơn (được gọi là mô hình sinh viên:

Student model) [38, 42] Chat loc tri thức là một giải pháp hữu hiệu để lựa chọn tri

thức hữu dụng học được từ quá khứ dé hỗ trợ tác vụ hiện tại trong HMSD, trong đó

cơ sở tri thức của hệ thống đóng vai trò là mô hình giáo viên và tác vụ hiện tại đóngvai trò mô hình sinh viên Một số kết quả nghiên cứu áp dụng chat lọc tri thức vàoHMSD đã được công bố, chang hạn như [25, 49, 53, 54, 78, 101]

Mục tiêu xây dựng các mô hình và hệ thống HMSD tiếp cận được với cáchhọc của con người đã thúc đây việc nghiên cứu, phát trién các khung hệ thống vàphương pháp HMSD Đồng thời, xu thé phát triển một cách mạnh mẽ các hệ thốngTri tuệ nhân tạo hep (Narrow Artificial Intelligence: Narrow AI hay Weak AI), đặcbiệt là các hệ thống người máy, hệ thống hội thoại tự động tạo nên một động lực tolớn thúc đây sự phát triển các mô hình HMSD áp dụng vào các miền ứng dụng đadạng, đặc biệt là ứng dụng vào các miền dữ liệu xử lý văn bản và xử lý ảnh Số

lượng công bố khoa học về HMSD và chat lọc tri thức đã tăng lên rất nhanh chóng

trong khoảng năm năm trở lại đây, như được minh họa ở Hình 0.1.

Tám thách thức chính đối với HMSĐ [22] đặt ra nhiều vấn đề nghiên cứuhấp dẫn cần giải quyết, nảy sinh ra các câu hỏi và chủ đề nghiên cứu cho các luận

án tiến sĩ trên thé giới (một số luận án như vậy được giới thiệu sơ bộ tại Chương 1

của luận án này) Luận án này hướng tới một số chủ đề thuộc khung chung các chủ

4

Trang 19

đề nghiên cứu trong HMSĐ [22] như được minh họa ở Hình 0.2 Cụ thể hơn, luận

án tập trung phát triển một số kỹ thuật chat lọc tri thức trong HMSĐ, giải đáp hai

câu hỏi nghiên cứu chính về chuyền giao tri thức hữu dụng từ mô hình giáo viên (cơ

sở tri thức của hệ thống HMSĐ) tới mô hình sinh viên (tác vụ hiện tại) đối với miền

Hình 0.1 M6t thống kê công bố khoa học về hoc máy suốt đời và chất lọc tri thức

trong cơ sở dữ liệu DBLP?

Đầu tiên, luận án quan tâm tới câu hỏi nghiên cứu về chắt lọc tri thức trong

học MH CĐSĐ Hai MH CDSD là LTM [17] va AMC [18] tiến hành việc lựa chọn

và sử dụng hai kiểu mâu tri thức là must-link (các cặp hai từ cần thuộc vào cùngmột chủ đề, được luận án gọi là “phải-đi-cùng”) và cannot-link (các cặp hai từ

không thể thuộc vào cùng một chủ đề mà cần thuộc vào hai chủ đề phân biệt, đượcluận án gọi là “không-thể-ấi-cùng”) Z Chen [19] đưa ra nhận định rằng giả định

của LTM (và AMC) cho răng tất cả các miền quá khứ đều liên quan và hữu ích chomiền hiện tại không phải lúc nào cũng đúng Tác giả khuyến nghị rằng có thể sửdụng độ đo khoảng cách phân kỳ JS (JS-Divergence) dé đo độ liên quan giữa haimiền, từ đó lựa chọn một tập con các miền quá khứ phù hợp (thay vì mọi miền quá

33c

°Theo truy van “lifelong learning”, “continual learning” va “knowledge distillation” vào ngày 30/05/2023 Số lượng công bố trong các năm 1996-2010 được tính theo từng giai đoạn 5 năm Dãy số “Học suốt đời/Học liên tục” chỉ dẫn tổng số lượng các bài báo theo truy vấn “lifelong learning” với số lượng các bài báo theo truy van “continual learning” có trừ đi số lượng các bài theo truy vấn “lifelong learning continual”.

Trang 20

khứ) để trích chọn tri thức nhằm hỗ trợ mô hình hóa chủ đề cho miễn hiện tại, tuynhiên, việc thi hành khuyến nghị trên đây chưa được thực thi trong [20, 22] cũngnhư trong bốn nghiên cứu học mô hình CDSD kế tiếp [43, 61, 87, 102] Nhằm góp

phần thực thi khuyến nghị trên đây của Z Chen [19], dựa trên khung nhìn không

gian các giả thuyết với tác vụ học hiện tại [94], luận án đề xuất mô hình chủ đề suốtđời miền gần CD-AMC (Close Domain - AMC) theo tiếp cận xác định các miềnquá khứ “gần với miền hiện tại” và chắt lọc tri thức từ chúng để hỗ trợ nâng caohiệu qua mô hình chủ đề miền hiện tại

Học suốt đời (học liên tục, học không dừng)

Học Học sâu Hoc không hội thoại

Hình 0.2 Các chủ dé nghiên cứu về học máy suốt đời [22] trong luận án

Tiếp đó, luận án chú ý câu hỏi nghiên cứu liên quan tới chat lọc tri thức kiêu

mạng nơ-ron bộ nhớ dài-ngắn hạn (Long Short Term Memory: LSTM) [42] trong

bài toán trích xuất thông tin suốt đời nhận dạng thực thể có tên Dù cho, các kết quảnghiên cứu chat lọc tri thức mạng nơ-ron đã được công bó, tuy nhiên, nghiên cứu

HMSD chit loc tri thức kiểu LSTM là rất hiếm, đặc biệt trong miền văn bản y sinh

tiếng Việt Mô hình chit lọc tri thức hoc sâu suốt đời LSTM nhận dạng thực thể ysinh tiếng Việt (BiLSTM-KD-NER: Bidirectional LSTM-Knowledge Distillation-Named Entity Recognition) do luận án đề xuất nhằm góp phan bù dap sự thiếu hut

này.

Như vậy, mục tiêu của luận án là phát triển các kỹ thuật chat lọc tri thứctrong HMSD đối với miền dữ liệu văn bản, tập trung vào chắt lọc tri thức học MHCDSD và chat lọc tri thức học sâu suốt đời kiều mạng nơ-ron bộ nhớ dai-ngan hanLSTM.

Trang 21

Đối tượng nghiên cứu của luận án là các kỹ thuật chắt lọc tri thức trong các

hệ thống HMSĐ (mô hình chủ đề suốt đời và học sâu suốt đời) đối với miền dữ liệu

văn bản và áp dụng các kỹ thuật chắt lọc tri thức này

Phạm vi nghiên cứu của luận án được giới hạn ở việc phát triển kỹ thuật

chat lọc tri thức trong học suốt đời miền dữ liệu văn bản và áp dụng chúng

Luận án sử dụng phương pháp nghiên cứu kết hợp: vừa tiến hành phân tích

định tính các khái niệm và mô hình từ hệ thống tài liệu liên quan để đề xuất cácdạng chắt lọc tri thức phù hợp trong học MH CDSD và học sâu LSTM suốt đời vừa

tiến hành các nghiên cứu định lượng thông qua việc triển khai các mô hình thực

nghiệm đề kiểm chứng, đánh giá kết quả đối với các đề xuất của luận án

Tham gia vào dòng nghiên cứu trên thé giới về chat lọc tri thức trong HMSD,

luận án có các đóng góp chính sau đây:

- Dé xuất thuật toán và MH CDSD miền gần CD-AMC phát triển từ MH

CDSD AMC của Z Chen và B Liu [18] với giải pháp chat lọc tri thứcphải-đi-cùng và tri thức khéng-thé-di-ciing chi từ các miền quá khứ gầnthay vì từ tat cả các miền quá khứ [ChamNTI] Đề xuất hai cách thức xácđịnh miền gần đối với miền dữ liệu hiện tại (dựa trên tập từ — tập chủ dé

trong CD-AMC và dựa trên các bộ phân lớp văn bản quá khứ trong

CCD-AMC (Classifier-based CD-CCD-AMC)), áp dụng vào tác vụ phân lớp đa nhãntiếng Việt [ChamNTI] và tác vụ phân lớp quan điểm tiếng Anh[ChamNT2], đồng thời, tiến hành đánh giá thực nghiệm các mô hình đềxuất Hơn nữa, luận án đã tiến hành kiểm định thống kê một mẫu theophân phối-t (one-sample t test) về kỳ vọng quan thé giả thuyết khi chưa

biết độ lệch chuẩn quần thể để minh chứng mô hình đề xuất thực sự có

hiệu năng cao hơn so với AMC [ChamN T1].

Đề xuất MH CDSD miền gần hướng đích TCDAMC (Targeted CD

-AMC) kết hop MH CDSD miền gần CD-AMC của luận án với mô hìnhchủ đề hướng đích TTM (Targeted Topic Model) của S Wang và cộng sự

[98] và áp dụng vào tác vụ phân lớp đa nhãn trích xuất khía cạnh trong

khai phá quan điểm tiếng Việt [ChamNT3]

- _ Đề xuất mô hình HMSD chit lọc tri thức tham số mô hình học sâu

BiLSTM-KD-NER cho tác vụ nhận dạng thực thể y sinh tiếng Việt vàtiền hành thực nghiệm kiêm chứng, đánh giá đề xuất này [ChamNT4]

Trang 22

Bồ cục của luận án gôm phân mở dau va bon chương nội dung, phan kêt luận

và danh mục các tài liệu tham khảo Những nội dung chính của từng chương luận án

được giới thiệu ở Hình 0.3.

Chương 1 Khái quát về học máy suốt đời, chat lọc tri thức

và mô hình chủ dé suốt đời

Giới thiệu về học máy suốt đời (sơ lược lịch sử, định nghĩa và khung hệ thống, so sánh với năm kiểu học

máy truyền thống gan gũi, học thé giới mở - học khi làm việc, hệ thông NELL), chat lọc tri thức, mô hình

chủ đề suốt đời (hai mô hình LTM— AMC), liên hệ với nghiên cứu trong luận án và các độ đo đánh giá mô

hình phân lớp sử dụng trong luận án.

Chương 2 Mô hình chủ đề suốt đời miền gần Chương 4 Chat lọc tri thức

Giới thiệu bồn mô hình chủ dé suốt đời gân đây, trình bày ý tưởng và dé học sâu suôt đời và

xuất thuật toán mô hình chủ dé suốt đời miền gân CD-AMC, khung hệ | | 4P dụng vào nhận dang thực

thé y sinh tiêng Việt

Giới thiệu bốn mô hình chắt lọc tri thức hoặc học sâu suốt đời nhận dang thực thé và một mô hình nhận đạng thực thể y sinh

tiếng Việt, đề xuất mô hình

Chương 3 Mô hình chủ dé suốt đời miền gần hướng đích chắt lọc tri thức học sâu suốt

TH Hàn tt pea Ân CÁC c4 cabin sreza „sa -a_ | | đời nhận dang thực thể y sinh

Giới thiệu mô hình chủ đê hướng dich, đê xuât mô hình chủ dé miễn gan :Á HA R An da

tiêng Việt, xây dựng tập di

hướng đích TCD-AMC, áp dụng mô hình đề xuất vào phân lớp đa nhãn liêu triển khai thưc nghiêm va

văn bản tiếng Việt dựa trên học sâu và triển khai thực nghiệm đánh giá đánh giá mô hình đề xuat.

mô hình dé xuât ~

Hình 0.3 Bo cục của luận án

Trang 23

Chương 1 Khái quát về học máy suốt doi,

chat loc tri thức và mô hình chủ đề suốt đời

Chương đầu tiên của luận án trình bày một cách hệ thống những nội dung cơbản nhất về HMSD, chat lọc tri thức và MH CDSD Mục thứ nhất giới thiệu sơ lược

về lich sử tiến hóa HMSD, định nghĩa và hệ thống HMSĐ [22], hai dạng HMSĐ

đặc biệt là học thế giới mở va học khi làm việc, phân biệt HMSD với năm kiểu họcmáy truyền thống gần gũi nhất với HMSD, hệ thống học ngôn ngữ không dừngNELL, tám thách thức chính đối với nó Hai mục tiếp theo giới thiệu về chat lọc trithức (bao gồm chắt lọc tri thức trong HMSĐ) và mô hình chủ đề suốt đời (mô hìnhchủ đề truyền thống và mô hình chủ đề trong HMSĐ) Liên hệ cụ thể các chủ đềtrên đây với các nghiên cứu trong luận án được giới thiệu trong mục tiếp đó Mụccuối cùng giới thiệu các độ đo hiệu năng phân lớp được sử dụng trong luận án

1.1 Học máy suốt đời

1.1.1 Sơ lược về lịch sử tiến hóa

Học máy suốt đời được khởi đầu từ hệ thống CHILD của M B Ring [88] và

hệ thống EBNN của S Thrun và T M Mitchell [76, 91, 92, 93, 94] Lay cảm hứng

từ việc học liên tục của một người máy nhận dạng nhãn ô trong một mê cung, hệthống CHILD hướng tới ba khả năng: (i) tự chủ, nhận thông tin đầu vào, tạo kết quađầu ra có thé tác động tới thông tin nhận được, gan trong số tin cậy tới các hành vitạo kết quả (mong muốn hoặc không mong muốn); (ii) các hành vi này có khoảng

thời gian dài tùy ý, có nghĩa là, thời lượng của các hành vi là không bị một giới hạn

đặt trước; (11) cần thu nhận các hành vi mới hữu dụng và tránh thu nhận hành vi

mới không hữu dụng Đây chi là các phát biểu sơ khai nhất về HMSD Hệ thốngEBNN lây cảm hứng từ việc học nhận dạng vật thể qua ảnh màu của một ngườimáy, được tích hợp từ hai chiến lược học mạng nơ-ron và học dựa trên phân tích.Chiến lược học mạng nơ-ron (mức cơ sở với tập dữ liệu đầu vào) cho phép EBNN

học từ dữ liệu nhiễu khi không có kinh nghiệm học trước và học được tri thức đặc tả

miền để chuyển giao cho các tác vụ học tiếp theo Chiến lược học dựa trên giải

Trang 24

thích (mức mê-ta với tập tri thức học được từ quá khứ) sử dụng tri thức đặc tả miền

từ kinh nghiệm dé giải thích dữ liệu, cung cấp chỉ dẫn tổng quát hoá theo một cách

hiểu được và đặc tả miền, nhờ đó, cho phép EBNN rút gọn nhu cầu về dữ liệu huấnluyện (do được bù dap bang tri thức đặc tả miền đã học) Các đặc trưng HMSĐ cơ

bản đã được đề cập trong EBNN

2 ee eee meee eee nee eee meee eeeneenns

Cac hé théng con thanh phan

Hình 1.1 Kiến trúc hệ thong NELL [12]

Vào năm 2010, A Carlson và cộng sự [12] giới thiệu về Hệ thống học ngônngữ không dừng NELL Hệ thống NELL bao gồm Cơ sở tri thức, Bộ tích hợp tri

thức và bốn hệ thống con thành phần là Bộ học mẫu khớp nối CPL (Coupled Pattern

Learner), Bộ mở rộng tập cho ngôn ngữ theo khớp nối CSEAL (Coupled SEAL:Coupled Set Expander for Any Language), Bộ phân loại hình thái khớp nối CMC

(Coupled Morphological Classifier) và Bộ học luật RL (Rule Learner) Như mô tả

trên Hình 1.1, bốn hệ thống con thành phần có chức năng cung cấp ứng viên niềmtin (belief) dé đưa vào cơ sở tri thức Các ứng viên này sau đó được Bộ tích hợp trithức đánh giá để chọn lọc ra các niềm tin Tài nguyên (niềm tin và ứng viên niềmtin) từ cơ sở tri thức hỗ trợ bốn hệ thống con thành phan xử lý các dit liệu mới từnguồn dữ liệu Hệ thống NELL được coi là hệ thống HMSD tiêu biéu hiện có trongthực tiễn, hoạt động liên tục từ năm 2010 tới nay, đã phát triển được hơn 4100 tác

vụ học vào năm 2018 [77] (xem Mục 1.1.5).

Toi năm 2013, D L Silver và cộng sự [90] đưa ra một định nghĩa chính thức về

hệ thống HMSĐ: (i) Học nhiều tác vụ từ một hoặc nhiều miền trong suốt vòng đời;

(ii) lưu trữ và duy trì hiệu suất và hiệu quả tri trức; (iii) sử dụng hiệu suất và hiệu

10

Trang 25

qua tri thức quá khứ Như vậy, hai điểm nỗi bat trong định nghĩa HMSD của D L.Silver và cộng sự là học liên tục nhiều tác vụ từ nhiều miền và lưu trữ, duy trì và sử

dụng hiệu suất (sử dụng tốt không gian nhớ và tính toán nhanh, v.v.) và hiệu quả(đạt kết quả tốt so với mục tiêu đặt ra, chăng hạn ngăn ngừa việc tiễn cử/sử dụng tri

thức lỗi, bổ sung giả thuyết mới không được làm giảm độ chính xác giả thuyết

cũ/mới, v.v.) Khung HMSĐ này có các điểm nhấn về phân tầng tri thức (tri thức

phổ quát và tri thức miễn), lựa chọn tri thức va chat lọc tri thức

D Isele va cộng sự [51, 89] giới thiệu một khung hệ thống HMSĐ tường minh

dòng tác vụ xuất hiện theo thời gian, kho lưu trữ tri thức đã học được trong quá khứ,dong tri thức quá khứ được chọn lọc để hỗ trợ việc giải quyết tác vụ học hiện tại,cập nhật kho tri thức bằng tri thức mới cũng như tri thức quá khứ được tinh chỉnhqua giải quyết tác vụ hiện tại

Hệ thống hóa và phát triển dòng nghiên cứu về HMSĐ, Z Chen và B Liu[20, 22] đã đưa ra một định nghĩa về hệ thống HMSD và khung hoạt động hệ thốngnày; chúng được coi là toàn diện nhất cho tới hiện nay về các thành phan và yếu tốcủa HMSD Các mục con tiếp theo sẽ giới thiệu về định nghĩa, khung hệ thống vàmột số yếu tố trong khung HMSD này

1.1.2 Định nghĩa và khung hệ thống học máy suốt đời

Định nghĩa 1.1 Học máy suốt đời [20, 22]

Học máy suốt đời (HMSĐ) là một quá trình học liên tục Ở thời điểm bat

kỳ, bộ học đã thực hiện một dãy N tác vụ Tì, T;, , Ty (được gọi là tác vụ quá khứ)

có các tập dir liệu tương ứng là D,, D;, , Dy Các tác vụ quá khứ có thê thuộc các

kiểu khác nhau và từ các miền bài toán khác nhau Khi xuất hiện tác vụ mới Ty+1(được gọi là tac vụ hiện tai) với tập dữ liệu Dy, của nó, bộ học cần tận dụng trithức quá khứ trong co sở tri thức (CS TT) S dé giúp hoc tác vu Ty„¡ Tác vu hiện tại

có thể nhận được từ bên ngoài hoặc do bộ học tự phát hiện Mục đích của HMSDthường là làm tối ưu hiệu năng của tác vụ hiện tại Ty„¡ song nó cũng có thé làm tối

ưu hiệu năng của bat ky tác vụ nào thuộc tap các tác vu {Tì, Tạ, , Ty } khi coi toàn

bộ các tác vụ còn lại (bao gồm Ty41) như là các tác vụ quá khứ CSTT lưu giữ trithức đã được học và đã được làm giàu trong quá trình học các tác vụ quá khứ Saukhi hoàn thành tác vụ học Ty, CSTT được cập nhật bang tri thức thu được từ việchọc tác vụ Ty41 (chang hạn, các kết quả trung gian và kết quả cuối cùng) Kiểm tratính nhất quán, suy luận và khai phá tổng hợp tri thức mức cao là các tác vụ cập

11

Trang 26

nhật CSTT điển hình Lý tưởng nhất, bộ học suốt đời cần phải có năng lực: (1) học

và hoạt động trong môi trường mở, ở đó nó không chỉ áp dung mô hình hoặc tri

thức đã học để giải quyết tác vụ mà còn phát hiện ra các tác vụ mới cần phải học;

(2) học cách cải thiện hiệu năng mô hình khi ứng dụng hoặc thử nghiệm mô hình đãhọc, giống như con người sau khi được huấn luyện vẫn tự đào tạo khi làm việc déhọc tốt hon và làm việc tốt hơn

Định nghĩa 1.1 chỉ ra năm đặc điểm chính của HMSD là (i) quá trình học liêntục, (ii) tích lũy và duy trì tri thức trong CSTT, (iii) sử dụng tri thức quá khứ đã tíchlũy được dé giúp việc hoc trong tương lai, (iv) phát hiện các tác vu mới, (v) học khilàm việc hoặc học theo công việc Năm đặc điểm này tạo ra sự khác biệt của HMSĐ

so với các kiêu học máy truyền thống gan gũi với nó (xem mục con 1.1.3)

được lưu lại

Hình 1.2 mô tả kiến trúc điển hình của hệ thống HMSD [22] với sáu thành

phần cơ bản: Bộ quản lý tác vụ, Bộ học dựa trên tri thức, Bộ khai phá tri thứchướng tác vụ, Cơ sở tri thức, Mô hình, Ứng dụng

e Cơ sở tri thức (CSTT): (Knowledge Base: KB) lưu trữ tri thức đã học từ

các tác vụ quá khứ và có bốn thành phần con chính là Kho tri thức quá

khứ (Past Information Store: PIS), Kho siêu tri thức (Meta-Knowledge

12

Trang 27

Store: MKS), Bộ khai phá siêu tri thức (Meta-Knowledge Miner: MKM),

Bộ suy luận tri thức (Knowledge Reasoner: KR).

Kho tri thức quá khứ lưu trữ thông tin kết quả từ việc học trong quá khứ

như: (i) dữ liệu sốc, (ii) kết quả trung gian, (iii) mô hình/mẫu kết quả tác

vụ học Thông tin hoặc tri thức cần giữ lại phụ thuộc vào tác vụ và thuậttoán học Đối với một hệ thống HMSD, người dùng cần quyết định trithức cần giữ lại dé giúp học tác vụ mới

Kho siêu tri thức MKS lưu trữ tri thức được khai phá hoặc hợp nhất từKho tri thức quá khứ PIS và từ chính MKS.

Bộ khai phá siêu tri thức MKM khai phá tri thức mức cao hon (được gọi

là siêu tri thức) trong Kho tri thức quá khứ PIS và Kho siêu tri thức MKS.

Bộ suy luận tri thức KR suy luận dựa trên tri thức trong MKS và PIS détạo ra tri thức chất lượng tốt hơn, phù hợp với tác vụ hiện tại (ngoại trừNELL và một số ít các hệ thống HMSĐ khác, hầu hết các hệ thốngHMSD hiện tại chưa có thành phần này)

Bộ học dựa trên tri thức (Knowledge-Based Learner: KBL) sử dụng tri

thức quá khứ để nâng cao hiệu năng của tác vụ học mới và gồm hai thànhphần con là Bộ khai phá tri thức tác vụ (Task knowledge miner) và Bộ họctận dụng tri thức.

Bộ khai phá tri thức tác vụ sử dung tri thức hoặc thông tin trong CSTT dé

khai phá hoặc xác định tri thức phù hợp với tác vụ hiện tại.

B6 học tận dung tri thức sử dụng tri thức quá khứ đã được xác định vào việc học tác vụ mới hiệu quả hơn.

Bộ khai phá tri thức hướng tac vụ (Task-based Knowledge Miner:

TKM) khai phá tri thức dành riêng cho tác vụ mới từ CS TT.

Mô hình học được của tác vụ hiện tại, có thé là mô hình dự báo, phân lớp,phân cụm hoặc mô hình chủ đề, hay một chắt lọc tri thức cho học tăngCường, v.V.

Ứng dụng là việc áp dụng thực tiễn mô hình kết quả của tác vụ mới, theo

đó, hệ thống HMSĐ cũng học được tri thức mới và phát hiện các tác vụ

mới để cung cấp cho Bộ học dựa trên tri thức nhằm cải tiến mô hình

13

Trang 28

e Bộ quản lý tác vụ (Task Manager: TM) tiếp nhận va quản lý các tác vụ

được đưa tới hệ thống, xử lý việc chuyên đôi tác vụ và đưa tác vụ học mới

tới Bộ học dựa trên tri thức KBL theo cách suốt đời

Quy trình HMSĐ: Bộ quản lý tác vụ gán một tác vụ mới cho KBL (đã chohoặc tự động phát hiện) Sau đó, sự trợ giúp của CSTT, KBL tạo ra mô hình đầu racho ứng dụng, gửi thông tin hoặc tri thức cần lưu giữ cho CSTT Trong khi thựchiện, ứng dụng có thể phát hiện các tác vụ mới (sẽ được gửi tới Bộ quản lý tác vụ)

và các tri thức mới (sẽ được gửi tới CSTT).

Định nghĩa 1.1 dù vẫn còn một số hạn chế cần được tiếp tục hiệu chỉnh và bồsung song nó được coi là định nghĩa HMSĐ toàn diện nhất hiện nay [6, 22, 32, 60,86] và các hệ thống HMSĐ hiện có chưa đạt được đầy đủ năm đặc điểm chính của

HMSĐ, ngay cả hệ thong HMSD tiêu biểu nhất hiện nay là hệ thong NELL.

Nhiều luận án tiến sĩ trên thế giới đã tập trung giải quyết các vấn đề hấp dẫn

từ các câu hỏi nghiên cứu được nảy sinh trong nghiên cứu phát triển các mô hìnhhọc máy suốt đời Như đã được đề cập trong [20, 22, 59], luận án tiễn sĩ của M B

Ring [88], của S Thrun [93] được coi là hai tài liệu quan trọng khởi thủy của

HMSĐ A Bendale [4] hình thức hóa hệ thống nhận dạng thế giới mở (với yêu cầu

liên tục cập nhật các lớp đối tượng bổ sung, mạnh mẽ với các lớp chưa biết và có thời gian tạm dừng hoạt động tối thiểu), đề xuất thuật toán NNO (Nearest Non-

Outlier) để nhận biết thực thể thuộc lớp chưa biết và các giải pháp tương ứng với

các khía cạnh học với dữ liệu trực tuyến, mô hình hoc gia tăng và tinh chỉnh hoạt

động nhận dạng trực quan M Mishra [74] đề xuất khung mô hình hóa quan hệ tác

vụ trong học đa nhiệm suốt đời, hai thuật toán mô hình hóa quan hệ tác vụ trongkhung cảnh động (cùng hai thuật toán trong khung cảnh tĩnh) dựa trên ý tưởng sửdụng các hàm tuyến tính phân vùng không gian tác vụ để phân cụm tập tác vụ, vàqua đó, xác định quan hệ giữa các tác vụ A Freytag [35] đề xuất các kỹ thuật vào

hệ thống nhận dạng trực quan suốt đời: kỹ thuật khai thác các thuộc tính sẵn có từbiéu đồ nhân giao nhau (histogram intersection kernels) dé học mô hình quá trình

Gau-xơ quy mô lớn, kỹ thuật học tích cực suốt đời yêu cầu một lớp mới cho một

ảnh chưa biết (được mở rộng tới kịch bản nhiều nhãn lớp cho các ảnh chưa biết), kỹthuật (giám sát, không giám sát, phi tham số) phát hiện các đặc trưng và đặc tả mẫu(exemplar-specific patch features); các kỹ thuật này được đánh giá theo các chuânphố biến dé minh chứng về tính hiệu quả

14

Trang 29

Khai thác lợi thé của học liên tục dé tạo ra các mô hình, giải pháp khắc phục

hiện tượng quên nghiêm trọng của học mạng nơ ron là chủ đề nghiên cứu của một

số luận án tiến sĩ A Besedin [5] đề xuất khung phân lớp ảnh trực tuyến DCGAN(Deep Convolutional Generative Adversarial Networks) để tái tao đữ liệu nhăm bù

dap sự thiếu hụt di liệu quá khứ và tránh được tình trạng quên nghiêm trọng(catastrophic forgetting), dé xuất một khung học liên tục với ràng buộc bộ nhớ sửdụng các bộ mã hóa tự động (auto-encoders) thay cho DGAN trong việc phân phốiluồng dit liệu A Dutt [30] sử dụng hệ thống phân cấp nhãn ngữ nghĩa (semanticlabel hierarchy) dé giải quyết van đề thay đổi không gian nhãn, đề xuất các kỹ thuậtcải thiện việc chọn và tạo mẫu tir một mô hình tổng quát và so sánh với cách thức

học đồng thời nhiều tác vụ, đề xuất một kiến trúc đào tạo mang phức tạp cho phép

song song hóa việc đào tạo và cho ra các mô hình kết quả nhỏ hơn.V Lomonaco

[70] định nghĩa một khung học liên tục với ba kịch bản học (đa nhiệm, đơn nhiệm

tăng dần và đa nhiệm gia tăng), đề xuất một số điểm chuẩn (benchmarks) học liên

tục (thiết kế lại Seq-NORB, Seq-COILI00, Seq-iCubWord28 và thiết kế mới

CORe50, 3D-VizDOOM Maze), đề xuất các chiến lược học liên tục SST

(Semi-Supervised Tuning), CWR (Copy-weights with Re-imt), CWR+ va ARI (Architectand Regularize) có thiết kế nhẹ va hiệu qua về bộ nhớ A E Khatib [56] nhận địnhrằng hiện tượng quên nghiêm trọng là thủ phạm chính dẫn tới hiệu năng kém củahọc mạng nơ-ron trong hệ thống học liên tục, từ đó đưa ra các giải pháp như ước

tính tầm quan trọng của đơn vị mới dựa trên việc phân tách lớp, sử dụng các biểu

diễn lâu bền dựa trên học máy không giám sát mà không kèm theo phạt, sử dụng bộnhớ tái phát nhỏ nhằm nâng cao độ tương tự liên tác vụ T Lesort [60] đề nghị mộtkhung học liên tục cho phép thiết lập chặt chẽ thuật toán học liên tục (phương pháp,phạm vi và đánh giá) để giải quyết hiện tượng quên nghiêm trọng từ học máy mạngnơ-ron, chứng minh phát lại tạo sinh (generative replay) là phương pháp duy nhấtcho phép học phân lớp từng bước ngay cả khi không có nhãn tác vụ, đề xuấtphương pháp “phát lại theo điều kiện” (conditional replay) và thuật toán DiscoRL(Distillation for Continual Reinforcement learning) để tao ra các mẫu chưa biết vatổng quát hóa cao

Áp dụng học liên tục vào một số miền ứng dụng cũng là chủ đề của một sốluận án tiến sĩ D Philps [86] đề xuất khung CLA (continual learning augmentation)cho phép tích lũy tri thức nhờ thu nhận tri thức một cách tuần tự để giải quyết vẫn

đề trôi khái niệm (concept drift) khi học liên tục của các hệ thống học trong cácmiền tài chính dựa trên các giải pháp cấu trúc bộ nhớ dãy thời gian, tăng cường bộ

15

Trang 30

nhớ cho bộ học đơn giản, sử dụng công hồi tưởng (Recall-gate) và công nhớ

(Remember-gate) dựa trên thay đổi còn sót lại Hướng tới hệ thống học liên tục hoạt

động trên các thiết bị nhúng, G Hocquet [46] đề xuất: (i) mang nơ-ron OvA-INN

(One-versus-All Invertible Neural Network) sử dụng một tập các mạng nơ-ron INN(Invertible Neural Networks) được huấn luyện độc lập ma mỗi INN được huấnluyện cho mỗi lớp, (ii) một quy trình dao tạo tối ưu việc sử dụng bộ nhớ cho OvA-INN, (iii) một giải pháp trích xuất đặc trưng dựa trên các INN thành phan

1.1.3 So sánh HMSD với các kiểu học máy truyền thống liên quan

Một vài đặc điểm của HMSĐ cũng đã được đề cập trong một số kiểu họcmáy truyền thống Năm kiểu học máy truyền thống liên quan nhất với HMSĐ là họcchuyển đổi (transfer learning), học đa tác vụ/đa nhiệm theo lô (batch multi-tasklearning), học trực tuyến đơn nhiệm (one-task online machine learning), học tăngcường (reinforcement learning) và học mé-ta/siéu hoc (meta-learning) [22] Dướiđây đề cập sơ bộ về năm kiểu học máy truyền thong nay va chi ra điểm khác biệt

giữa chúng với HMSĐ:

e Học chuyên đôi còn được gọi là học thích ứng miền (domain adaptation),

cho phép liên kết một miền nguồn B có nhiều dữ liệu có nhãn tới mộtmiền đích A có rất ít hoặc thiếu ví dụ mẫu nhằm sử dụng tài nguyên từmiền nguồn B vào việc học ở miễn đích A Giả thiết quan trọng trong họcchuyên đổi là miền nguồn B cần “tương tự” với miền dich A; điều đó chophép dữ liệu, tri thức từ miền nguồn B sử dụng được cho học miền đích A.Chuyên đổi ví dụ có nhãn/đặc trưng dữ liệu/dấu hiệu đặc trưng miềnnguồn thành ví dụ có nhãn/đặc trưng dữ liệu/dấu hiệu đặc trưng miền đích

là những kiểu chuyển đổi dữ liệu/tri thức điển hình từ miền nguồn B tớimiền đích A Học chuyên đổi không học liên tục và không tích lũy trithức, là một chiều từ miền nguồn sang miền đích và đòi hỏi hai miền

(nguồn và đích) là tương tự nhau Các đặc điểm này khác biệt rất lớn với

năm đặc điềm chính của HMSD

e Học đa tác vụ/đa nhiệm theo lô là kiểu học đồng thời nhiều tác vụ/bài toán

T = {T¡,T;, T„y}, mỗi tác vụ T; có dữ liệu học D; nhằm mục tiêu tối ưuhóa hiệu năng cho toàn bộ N tác vu Học đa nhiệm theo lô cần một giả

thiết là các tác vụ trong T cần liên quan chặt với nhau, chang hạn, dữ liệu

của mọi tác vụ T; là trong cùng một không gian, các mô hình tác vụ “tựa”

16

Trang 31

trên một mô hình tong quát, cùng sử dụng chung một tập đặc trưng Mục đích chia sẻ thông tin hỗ trợ việc học của học đa nhiệm theo lô là một

phần của HMSĐ Học đa nhiệm theo lô không tích lũy tri thức, không học

liên tục va như vậy hoc đa nhiệm theo lô là khác biệt hoàn toàn với

HMSD Lưu ý là học đa nhiệm trực tuyến tiễn hành việc lưu giữ lại trithức cho học về sau cũng là một dạng của HMSĐ

Học trực tuyến đơn nhiệm trong đó các phần tử đữ liệu được xuất hiệntuần tự theo một thứ tự nhất định; khi phần tử đữ liệu mới xuất hiện, môhình học hiện tại được cập nhật để đạt được mức phù hợp tốt nhất Họctrực tuyến đơn nhiệm là một mô hình học theo ghi nhớ, chỉ thực hiện một

tác vụ học theo thời gian, không lưu trữ tri thức, không sử dụng tri thức từ

các miền quá khứ và như vậy có sự khác biệt lớn với HMSD

Học tăng cường là cách học theo tiếp cận tương tác “thử, đánh giá lỗi vàthưởng” trong môi trường động Học tăng cường nhằm mục đích thử vàđánh giá lỗi trong mỗi bước tương tác: (i) nhận đầu vào chứa trạng tháimôi trường hiện tại; (ii) Chọn một hành động trong tập hành động có thểcho tác động làm thay đổi môi trường, (iii) Tính lại giá trị trạng thái môitrường dé thưởng hoặc phạt Học tăng cường nhằm đạt được quỹ đạo tối

ưu hóa mục tiêu ánh xạ trạng thái hành động dé cực đại tổng thưởng trongmột thời gian dài Như vậy, học tăng cường chỉ học một tác vụ và ở mộtmôi trường, không tích lũy và sử dụng tri thức, vì vậy, nó khác biệt về bảnchất với HMSĐ

Học mê-ta nhằm mục đích huấn luyện một siêu mô hình (meta-model) từmột lượng lớn tác vụ đề thích ứng nhanh chóng với một tác vụ mới chỉ vớimột vài ví dụ dựa trên giả định chính là mọi tác vụ cũ và tác vụ mới là từ

cùng một phân phối; như vậy học mê-ta cũng có sự khác biệt lớn với

HMSĐ.

1.1.4 Học thế giới mở và học khi làm việc

Học máy giám sát truyền thống dựa trên giả định thé giới đóng (closed-worldasumption) theo đó moi đôi tượng dữ liệu mới cân được gan nhãn thuộc vê một(hoặc một s6) lớp đã biết khi huấn luyện mô hình Giả định như vậy không còn phù

hợp với các ứng dụng thực tiễn trong môi trường mở và năng động Học thế giới mở(còn được gọi nhận dạng/phân lớp thế giới mở hoặc TTNT thế giới mở (open-world

17

Trang 32

AD)) ngày càng trở nên quan trọng; điều cốt lõi của học thế giới mở (HTGM) củatác tử TTNT tự trị là nó cần nhận ra được những thứ chưa biết từ môi trường và học

những thứ chưa biết đó dé tác tử TTNT tự trị ngày càng trở nên thông minh hơn!9,

G Fei và cộng sự [33] phát biểu về HTGM dưới dạng học phân lớp tích lũytri thức như sau:

e Tại một thời điểm cụ thể, bộ HTGM đã xây dựng mô hình phân lớp đa lớp

Fy dựa trên toàn bộ dữ liệu của N lớp quá khứ: DP = {D,, Dp, , Dy} với

các nhãn lớp tương ứng Ÿ# ={I,l;, ,l„} Khi gặp một đối tượng dữ

liệu cần phân lớp, Fy phân lớp đối tượng dữ liệu đó vào một trong các lớp

đã biết 1, € Y hoặc đặt nó vào tập bị từ chối R; R có thể chứa các thé

hiện từ một hoặc nhiều lớp chưa biết (sau đây gọi là lớp mới)

e Hệ thống hoặc người dùng xác định tập C các lớp mới trong R và thu thập

dữ liệu huấn luyện cho các lớp mới này

e Gia sử k lớp mới trong € đã có đủ dữ liệu huấn luyện Bộ HTGM tiến

hành học bộ phân lớp cho k lớp này dựa vào đữ liệu học (các thể hiện mới

là ví dụ dương, các ví dụ dương của các lớp quá khứ là ví dụ âm) Mô

hình Fy được cập nhật thành mô hình F„„„ sau khi bổ sung k bộ phân lớpmới và cập nhật một số bộ phân lớp cũ liên quan tới k lớp mới nay

Như vậy, HTGM là một dạng HMSD với tác vụ Ty,, là xây dựng bộ phân

lớp k lớp chưa biết (lớp mới) dựa trên các bộ phân lớp đã biết Cơ sở tri thức của hệthống HTGM chứa mô hình quá khứ Fy và mọi tap dit liệu huấn luyện quá khứ

A Bendale và T E Boult [3], A Bendale [4] phát biểu HTGM dưới dạngnhận dạng thế giới mở như sau: Giải pháp nhận dạng thế giới mở là một bộ năm[F,@, v, L, I] trong đó:

1 Một hàm nhận dạng tập mở đa lớp (multi-class open set recognition

function) F(x): R¢ › N sử dụng hàm véc-tơ @(x) của các hàm nhận dạng

đo được (measurable recognition functions) ƒ,(x) trên mỗi lớp i, cùng với

một bộ dò tìm thứ chưa biết (novelty detector) (@): RỂ >> [0,1] với yêu

cầu các hàm nhận dạng trên mỗi lớp ƒ,(œ)eH: R4 > R với i € K, là các

!9 https://www.cs.uic.edu/~liub/open-classification.html Truy cập ngày 05/11/2021.

18

Trang 33

hàm nhận dạng tập mở quản lý rủi ro không gian mở (manage open space

ns _ Jo fy@de NA a Pe _ pi ,

risk) dưới dang Ro (f,) = Fee fycod Bộ dò tìm mới v(g): R' + [0,1] xác

định xem kết quả trên véc-tơ các hàm nhận dạng có phải từ một lớp chưabiết (0) hay không

2 Quá trình gán nhãn L(x): R# > Nt được áp dung cho dữ liệu lạ U; tại

thời điểm £, tạo ra dữ liệu có nhãn D;{(y;,x;)} với y, = L(y) Vx; € Ut

Giả sử việc gán nhãn m lớp mới tim thấy, khi đó tập các lớp đã biết sẽ trởthành K,4, = K,U { + 1,i+ 2, ,í + mì.

3 Một hàm học gia tăng l,(0; D,):H' 6» Hm hoc mở rộng quy mô va bố

sung các ham đo được ƒ,.,(),ƒ,,„(), , ƒ;,„() mà mỗi hàm trong đó

quản lý rủi ro không gian mở, thành véc-tơ của các hàm nhận dạng đo

được.

( Bộ quản lý tác vụ GÌ? eee oe eres `

4 hién théi \

4 Ty Ty, aes Tye Trea 2 Cac tác vụ mới |

„Các tac vụ học từ quá khứ { Cáctậcvuhocở tuo được phát hiện

tte ứng dung |,

Dữ liệu huan luyện mới ị

Tri thức thu được

,_ từứng dụng

Hình 1.3 Kiến trúc kết hợp học thé giới mở và học khi làm việc [66].

K Cao và cộng sự [11] đề xuất một hệ thong HTGM ban giám sát, trong đó

tập ví dụ học gồm dữ liệu có nhãn từ n lớp đã biết và dữ liệu không nhãn thuộc n

lớp đã biết và các lớp chưa biết (lớp mới); hệ thống cần gán nhãn cho các dữ liệuthuộc các lớp đã biết, phát hiện ra các lớp mới, xây dựng bộ phân lớp cho từng lớpmới này và gán nhãn cho các dữ liệu thuộc từng lớp mới.

Học khi làm việc (HKLV: Learning on the job) là kiều HMSĐ mà việc khaithác tri thức được tiến hành không chỉ theo tri thức quá khứ có trong hệ thống mà

19

Trang 34

còn qua tương tác với môi trường (bao gồm người sử dụng) đề thu nhận dữ kiện, tri

thức hỗ trợ việc học tác vụ mới [66, 67, 68] HKLV thường được ứng dung trong

các hệ thống hội thoại tự động hoặc người máy tự trị [68, 97]

Hai tác vụ điển hình đối với cơ sở tri thức trong hệ thống HKLV là hoànthiện cơ sở tri thức (Knowledge Base Completion) liên quan tới suy luận tri thức

nội bộ cơ sở tri thức và thực thé ngoài cơ sở tri thức OOKB base) liên quan tới xử lý thứ chưa biết ở thế giới mở

(out-of-knowledge-Học khi làm việc thường song hành với HMSD như được B Liu [66] mô tả ở Hình 1.3.

1.1.5 Hệ thống học ngôn ngữ không dừng NELL

Bộ tích hợp

tri thức

Niém tin

ứng viên |

Bộ phan lop Bộ mở rộng tap

= = ie in ái cho ngôn ngữ

mâu bu nôi khớp nỗi bắt kỳ °

CMC SEAL

tích cực niêm tin phân lớp ảnh tol

học được văn bản Web từ niêm tin cũ NEIL on gyLE OntExt

OpenEval PRA

Hình 1.4 Kiến trúc hệ thong NELL [77]

T M Mitchell và công sự [77] nhận định rằng để thực sự hiểu được quátrình học của con người hoặc máy móc thì cần xây dựng được các chương trình máytính học giống như con người trong thực tế, kết quả là, hệ thống học ngôn ngữkhông dừng NELL được ra đời vào tháng 01/2010 và NELL đã trở thành một hệthống HMSD tiêu biểu, học cách đọc Web 24 giờ/ngày liên tục từ khi khởi động tớinay NELL được coi là một hệ thống phần mềm có kiến trúc không ngừng đượcphát triển để cho phép các tác tử thông minh học được nhiều kiểu kiến thức, họcliên tục tự giám sát trong nhiều năm, học tốt hơn theo thời gian dé hình thành cáctác vụ học mới với các biểu diễn mới Từ bốn thành phần con, NELL đã được mởrộng thành chín thành phần con (giữ lại ba thành phần con CPL, CMC, SEAL củaCSEAL) như mô tả ở Hình 1.4.

20

Trang 35

Mô tả đầu vào — đầu ra của hệ thống NELL như sau [12, 77]:

Cho trước:

e_ Một ontology xuất phát xác định hàng trăm danh mục (như Thể thao, Vận

động viên, v.v.) và các mối quan hệ nhị phân giữa các thành viên của các

danh mục này (ví dụ, AthletePlaysSport (x, y)).

e Khoảng một tá ví dụ huấn luyện có nhãn cho mỗi danh mục và cho mỗi

quan hệ (ví dụ vê danh mục Thé thao có thé bao gôm các từ/cụm từ “bóng

chày” và “bóng đá”).

e Một bộ sưu tập 1,233 tỷ trang Web do nhóm nghiên cứu thu thập Ngoài

ra, Google cấp cho NELL quyền truy cập hàng ngày 100000 truy vấn tìmkiếm giao diện chương trình ứng dụng API của Google (GoogleApplication Program Interface).

e Tương tác hệ thống — con người không thường xuyên (ví dụ, thông qua

trang Web công khai của NELL!’).

Thực hiện:

e Đọc (trích xuât) thêm niêm tin có độ tin cậy cao từ Web, xóa đi những

niêm tin cũ không chính xác, đưa vào CS TT ngày càng nhiêu niêm tin mà

mỗi niêm tin có độ tin cậy cao hơn và cội nguôn của nó.

¢ Học đọc càng tốt hơn qua từng ngày

Toi năm 2018 [77], cơ sở tri thức của NELL đã tích lũy được khoảng 120 triệu ứng viên niêm tin được kết nôi với nhau.

Hai thành phần chính là Hệ thống tác vụ học không dừng và Hệ thống khớp

nối của NELL được giới thiệu tong quát như dưới đây:

e Hệ thống tác vụ học của NELL bao gồm: () Phân lớp danh mục (mỗi

danh mục yêu cầu năm/sáu bộ phân lớp danh mục riêng: đặc trưng xâu ký

tự, phân bố ngữ cảnh văn bản xung quanh cụm từ trong Cơ sở tri thức,

phân bố ngữ cảnh văn bản xung quanh cụm từ theo tìm kiếm Web hiệnthời, cấu trúc HTML trang Web chứa cụm từ dựa trên SEAL (Set

!Í htip:/rtw.ml.cmu.edu

21

Trang 36

Expander for Any Language), ảnh tương ứng cụm từ theo tìm kiếm đaphương thức NEIL (Never Ending Image Learner), các véc-tơ nhúng từ đã

học của cụm danh từ); (ii) Phân lớp quan hệ (sử dụng Bộ học mẫu ngữ

cảnh CPL và OpenEval); (iii) Nhận dạng thực thé; (iv) Luật suy luận giữa

các bộ ba niềm tin

e Hệ thống khớp nối với hơn một triệu khớp nối của NELL bao gồm:

(i) Khớp nối đồng đào tao đa khung nhìn; (ii) Khớp nối tập con/tập chứa;(iii) Khớp nối loại trừ đa nhãn; (iv) Khớp nối các quan hệ theo kiêu đối số;(v) Khớp nối luật Horn đối với các bộ ba quan hệ

Hệ thống tác vụ học và Hệ thống khớp nối của NELL cũng được mở rộngtheo thời gian [77].

1.1.6 Thách thức đối với học máy suốt đời

Tiềm năng áp dụng HMSD là rat lớn, song nó mới thê hiện được thành côngtrong một số ứng dụng cụ thé, trong khi đó hệ thống HMSD thực sự kiểu như NELL

là hiếm thấy và hiệu năng HMSĐ vẫn còn rất khiêm tốn Như T M Mitchell và

cộng sự [77] nhận định là chúng ta vẫn đang ở giai đoạn đầu trong nghiên cứu

phương pháp HMSD, gần như không chi ra được một hệ thống HMSD làm việc, córat ít hiểu biết về các kiến trúc một hệ thống HMSD thành công trong một thời giandài mà tránh được thách thức khi "bão hòa" kiến thức học được Một số thách thứcđiển hình đối với các hệ thống HMSĐ đã được chỉ ra [22]:

e Tính đúng dan của tri thức Cách thức nhận biết một mau tri thức có

đúng hay không là điều tối quan trọng đối với HMSD, bởi vi tri thức quákhứ không đúng có thé rất có hại Do HMSD là quá trình học liên tục chonên lỗi có thể được lan truyền từ các tác vụ trước sang tác vụ tiếp theo vàngày càng có nhiều lỗi hơn Van dé này cần được giải quyết hoặc giảm

thiểu ở mức độ đủ mạnh dé đảm bảo rằng HMSĐ thực sự hiệu qua

e_ Khả năng áp dung tri thức Cách thức nhận biết một mẫu tri thức quá

khứ có áp dụng được cho một tác vụ mới hay không cũng rất quan trọng

Dù cho một mau tri thức đúng và có thé áp dụng được trong ngữ cảnh các

tác vụ quá khứ, nhưng nó có thể không áp dụng được cho tác vụ hiện tại

do sai ngữ cảnh Giải quyết được vấn đề này thì HMSĐ mới hiệu quả, tuynhiên, vẫn chưa có một phương pháp chung nào được đề xuất Các nghiên

22

Trang 37

cứu sâu hon là rat cân thiệt va cân đặt trong môi quan hệ mật thiét với van

đê về tính đúng dan của tri thức.

e Biểu diễn va suy luận tri thức Vì một một cơ sở tri thức luôn là thành

phần cốt lõi của HMSĐ cho nên biểu diễn và suy luận tri thức cũng rất

quan trọng Suy luận tri thức cho phép nhận được tri thức mới từ tri thứchiện có để dùng vào học tác vụ mới Ở các hệ thống HMSĐ hiện có, trithức chủ yêu được giới thiệu theo nhu cầu trực tiếp của thuật toán hoặcứng dụng học cụ thể, chúng vẫn chưa có khả năng suy luận (ngoại trừNELL có một số khả năng suy luận hạn chế) Chỉ có rất ít nghiên cứu giảiquyết các câu hỏi về dạng tri thức nào là quan trọng, cách biểu diễn chúng

ra sao và những loại khả năng suy luận tri thức nào là hữu ích trong ngữ cảnh HMSD.

© Học với các tác vụ thuộc nhiều loại và/hoặc từ các miền khác nhau

Phan lớn các nghiên cứu HMSD hiện tại tập trung vào nhiều tác vụ cùngloại do việc sử dụng tri thức quá khứ sẽ dễ dàng hơn Đối với các tác vụthuộc loại khác nhau nhưng có liên quan (ví dụ, nhận dạng thực thể vàtrích xuất đặc trưng), có thể tạo kết nối giữa các loại tác vụ để cho phépchuyên tri thức quá khứ từ loại tác vụ này sang loại tác vụ khác; hệ thốngNELL đã nỗ lực để hiện thực điều này Lý tưởng nhất là việc tạo kết nối

đó được thực hiện tự động, song rất khó khăn vì kết nối cần được thực

hiện qua một số tri thức cấp cao hơn mà vốn cần được học riêng

HMSD cần tri thức cấp cao dé thu hẹp khoảng cách giữa các tác vụ thuộccác miền khác nhau, tìm ra sự liên quan hoặc tương đồng giữa các tác vụ

để đảm bảo khả năng áp dụng tri thức và đây cũng là một thách thứckhông nhỏ Khi mà mỗi miền chỉ đóng góp một lượng tri thức nhỏ hữu ích(thậm chí một số miền không đóng góp gì) cho tác vụ mới, vì vậy, đápứng tri thức cấp cao càng trở nên thách thức hơn

e_ Học tự tạo động lực: Học thê giới mở chưa được hầu hết các thuật toán

học giám sát hiện có thực hiện, vì vậy, HMSĐ cần có khả năng tự tạođộng lực dé phát hiện các thực thé, các khái niệm chưa từng xuất hiện vatiến hành học hiệu quả đối với các thực thé, khái niệm này

se Học tự giám sát: Dé hiệu quả, hệ thống HMSD cần tự học liên tục theo

cách tự giám sát bằng cách thu thập phản hồi hoặc manh mối ấn hoặc hiện

23

Trang 38

từ người dùng hoặc môi trường như thông tin có giám sát để hệ thống có

ví dụ học.

e_ Học ngôn ngữ tự nhiên suốt đời: Xử lý ngôn ngữ tự nhiên là một trong

những miền ứng dụng phù hợp nhất cho HMSD vi các tác vụ xử lý ngônngữ tự nhiên đều có liên quan chặt chẽ với nhau, đồng thời, các từ hoặccụm từ giống nhau thường được sử dụng với cùng một ý nghĩa giống nhautrong các miền khác nhau

e_ Học theo thành phan: Học theo thành phần có khả năng rat quan trọng

đối với HMSĐ, trong đó, học tổng hợp từ nhiều thành phan rat quan trọng

vì nó cho phép hệ thong HMSD chia sẻ và biên soạn tri thức ở bat kỳ mức

chỉ tiết nào Cộng tác trí tuệ nhóm cũng là một thách thức nữa đối với hệ

thống HMSD được đặt ở các tác tử tự trị khác nhau (vi dụ, xe tự lái) trongviệc cộng tác trao đổi dữ kiện và tri thức dé nhận biết tốt hơn về môi

trường thế giới mở

Trong thời gian gần đây, các phương pháp trong HMSĐ để giải quyết vấn đềquên nghiêm trọng từ học mạng nơ-ron đã nhận được sự quan tâm đặc biệt [22, 32,

55, 58, 60] Nhóm phương pháp phát lại (replay), đặc biệt là phát lại tạo sinh

(generative replay) chứng tỏ có ưu thế đặc biệt so với các nhóm phương pháp còn

lại là chính quy hóa (Regularization), kiến trúc động (Dynamic Architecture), nhắclại (Rehearsal) [60].

1.2 Chat lọc tri thức

Như đã được đề cập (Hình 0.1), chắt lọc tri thức là một chủ đề nghiên cứuthời sự, có sự phát triển nhanh chóng ké từ năm 2019 trở đi

1.2.1 Giới thiệu về chat lọc tri thức

Chat lọc tri thức là một kiểu học chuyển giao thông qua một hệ thống giáoviên — sinh viên, trong đó một mô hình đơn giản và nhỏ hơn (được gọi là mô hìnhsinh viên) được huấn luyện dựa trên việc chuyển giao tri thức từ một mô hình phức

tạp và công kénh hơn đã được huấn luyện trước (được gọi là mô hình giáo viên)

[38, 42, 45] J Gou và cộng sự [38] đưa ra một khung khái quát về chắt lọc tri thứcnhư được chỉ ra ở Hình 1.5.

24

Trang 39

Truyén tri thức Mô hình sinh viên

mô hình sinh viên có kích thước tương đương cũng đã được đề xuất [25, 69] Sự

phát triển và thành công vượt bậc của học sâu cho kết quả là tri thức được chắt lọc

trong các hệ thông chat lọc tri thức thường là tri thức về mô hình mạng nơ-ron (nhưminh họa ở Hình 1.5) M Gupta và P Agrawal [42] tổng hợp 12 cặp chắt lọc trithức học sâu trong xử lý ngôn ngữ tự nhiên là Standard KD, FitNets, Sobolev, FSP Method, Co-distillation, Teacher Assistant, Teacher Ensemble, Patient KD (PKD-Skip), Patient KD (PKD-Last), Tiny BERT, MiniLMT, Distilling to LSTM Đồngthời, mô hình giáo viên có thé chuyên giao tri thức đa dạng cho mô hình sinh viêntrong các hệ thống chắt lọc tri thức Đặc biệt, nó là phương pháp tốt trong các càiđặt có một lượng đủ lớn dit liệu không nhãn với ba kiểu chat lọc tri thức điển hình

là học hợp tác, đa giáo viên (rất hữu ích trong môi trường dịch máy mạng nơ-ron)

và chat lọc bộ chuyển đổi

Chat lọc tri thức rất hiệu quả khi cài đặt giải quyết các van dé phức tạp như

xử lý đa ngôn ngữ, phân lớp với số lượng rất lớn các lớp và dịch máy mạng nơ-ron(Neural Machine Translation: NMT) [42].

2 https://gpt3demo.com/apps/mt-nlg-by-microsoft-and-nvidia-ai Truy cập ngày 07/11/2021.

25

Trang 40

1.2.2 Chat lọc tri thức trong học suốt đời

Từ năm 2017 tới nay, ngày càng có nhiều các biến thể chất lọc tri thức dựatrên học suốt đời được phát triển theo phương pháp siêu học hoặc/và nhằm giảiquyết vấn đề quên nghiêm trọng của học sâu trong học suốt đời [38]

ngôn ngữ suốt đời ngôn ngữ suốt đời

Hình 1.6 Chat lọc tri thức ngôn ngữ suốt đời [25].

Y-S Chuang và cộng sự [25] dé xuất một mô hình chắt lọc tri thức ngôn ngữ

suốt đời (Lifelong Language Knowledge Distillation: L2KD), trong đó, mô hình

giáo viên và mô hình sinh viên có cùng kích thước Như được minh họa ở Hình 1.6,

mỗi khi gặp một tác vụ mới, một mô hình giáo viên được huấn luyện, sau đó, mô

hình học ngôn ngữ suốt đời (đóng vai trò là mô hình sinh viên) thu nhận tri thức

(“bắt chước hành vi”) từ mô hình giáo viên đó Mô hình giáo viên được huấn luyệnmỗi khi một tác vụ mới xuất hiện, có cùng kích thước với mô hình sinh viên, được

sử dụng chỉ một lần cho tác vụ mới đó và được loại bỏ sau khi được sử dụng là

những điểm khác biệt của mô hình L2HD so với các mô hình chắt lọc tri thức thôngthường.

X Jin và cộng sự [53] đề xuất một khung áp dụng mô hình ngôn ngữ đảo tạotrước được liên tục cập nhật trong HMSD để thích ứng với dữ liệu mới xuất hiệnlàm gia tăng miền và thay đổi các phân phối dữ liệu hiện có Các tác giả từng bước

huấn luyện trước mô hình đảo tạo trước với các thuật toán học liên tục khác nhau

theo dữ liệu gia tăng miền được sắp xếp theo thời gian Hình 1.7 (bên phải) cung

cấp giải pháp chắt lọc tri thức và học liên tục của các tác giả đáp ứng thách thức sự

thay đổi dữ liệu, trong đó, sử dung ƒZ dé biểu diễn các bộ điều hợp cho tác vụ t, Xmm

va x, ký hiệu các lô nhỏ các ví dụ được đưa từ bộ nhớ và dòng dit liệu tương ứng.

26

Ngày đăng: 29/06/2024, 05:56