Luận văn thạc sĩ Khoa học máy tính: Ứng dụng mạng nơ ron đồ thị cho bài toán rút trích quan hệ giữa các thực thể trên tập dữ liệu tiếng việt

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA——————–

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCMCán bộ hướng dẫn khoa học:

PGS.TS Quản Thành ThơCán bộ chấm nhận xét 1:PGS.TS Đỗ Văn NhơnCán bộ chấm nhận xét 2:PGS.TS Võ Thị Ngọc Châu

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 11 tháng 07 năm 2023.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, họchàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 Chủ tịch: TS Nguyễn Đức Dũng2 Thư ký: TS Trương Thị Thái Minh

3 Phản biện 1: PGS.TS Võ Thị Ngọc Châu4 Phản biện 2: PGS.TS Đỗ Văn Nhơn5 Uỷ viên: TS Bùi Thanh Hùng

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

KỸ THUẬT MÁY TÍNH

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: PHẠM ĐĂNG KHOAMSHV: 1970590Ngày, tháng, năm sinh: 04/09/1992Nơi sinh: Đắc LắcChuyên ngành: Khoa học Máy tínhMã số : 8480101

I TÊN ĐỀ TÀI: ỨNG DỤNG MẠNG NƠ RON ĐỒ THỊ CHO BÀI TOÁN RÚTTRÍCH QUAN HỆ GIỮA CÁC THỰC THỂ TRÊN TẬP DỮ LIỆU TIẾNG VIỆT( GRAPH NEURAL NETWORK FOR RELATION EXTRACTION IN

VIETNAMESE DATASET )II NHIỆM VỤ VÀ NỘI DUNG:

- Rút trích quan hệ giữa các thực thể tiếng Việt bằng phương pháp ứng dụng các kỹthuật xử lý ngôn ngữ tự nhiên, các mô hình học sâu và đặc biệt là mô hình GNN.- Nghiên cứu và đề xuất các phương pháp nhằm cải thiện độ chính xác của mô hình.- Thực nghiệm và đánh giá kết quả của các phương pháp đề xuất.

III.NGÀY GIAO NHIỆM VỤ : 09/05/2022

IV.NGÀY HOÀN THÀNH NHIỆM VỤ: 09/06/2023V.CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ.

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, Em xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TSQuản Thành Thơ, người đã dành thời gian hướng dẫn và giúp đỡ em trongsuốt quá trình nghiên cứu và hoàn thành luận văn này Em đã nhận đượcnhiều lời khuyên, chia sẻ kinh nghiệm từ Thầy trong giai đoạn phát triển đềtài, cũng như sự hỗ trợ và chỉ dẫn của Thầy đã giúp em vượt qua những khókhăn, thách thức trong quá trình hiện thực và hoàn thành đề tài.

Em cũng xin gửi lời cảm ơn đến các Thầy, Cô trong khoa Khoa Học vàKỹ Thuật Máy Tính đã truyền đạt rất nhiều kiến thức và kinh nghiệm choem trong suốt quá trình học tập, cũng như các bạn cùng khoá học đã luôngiúp đỡ, trao đổi và chia sẻ kinh nghiệm với em trong quá trình học tập vànghiên cứu Đặc biệt là sự hỗ trợ của bạn Lê Hoàng, do thầy hướng dẫn giớithiệu, đã giúp đỡ em nhiều trong quá trình tìm hiểu và định hướng đề tàiluận văn.

Em cũng xin gửi lời cảm ơn đến ban lãnh đạo và đồng nghiệp tại công tyMulti-it nơi em đang làm việc Công ty đã tạo điều kiện thuận lợi, đặc biệtlà việc sắp xếp công việc và thời gian linh động trong thời gian học tập vàcũng như hoàn thành luận văn Đồng thời em cũng đã nhận được sự hỗ trợvà động viên của các đồng nghiệp trong thời gian vừa học tập, vừa làm việctại công ty.

Cuối cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè những người luôndành sự ủng hộ, quan tâm, động viên và là nguồn động lực cho em trong suốtquá trình học tập, nghiên cứu và thực hiện đề tài luận văn.

Nếu không nhận được sự động viên, hỗ trợ đỡ từ mọi người, chắc chắnem không thể hoàn thành tốt luận văn này Một lần nữa em xin dành sự biếtơn và trân trọng những hỗ trợ, giúp đỡ và động viên của tất cả mọi ngườitrong thời gian thực hiện luận văn, cũng như suốt thời gian tham gia khoáhọc.

Trang 5

TÓM TẮT LUẬN VĂN

Rút trích quan hệ là tác vụ quan trọng trong bài toán rút trích thông tin, kếtquả của bài toán rút trích quan hệ có thể hỗ trợ cho nhiều ứng dụng khácnhau như hệ thống hỏi đáp, xây dựng cơ sở tri thức Bài toán rút trích quanhệ giữa các thực thể là bài toán tương đối phức tạp và nhiều hướng tiếp cận.Trong nội dung của đề tài luận văn này, học viên tập trung vào bài toánhọc có giám sát, với phương pháp ứng dụng Graph Neural Network - GNN(Mạng Nơ-ron Đồ Thị), một hướng tương đối mới, để giải quyết bài toán rúttrích quan hệ giữa các thực thể trên tập dữ liệu tiếng Việt Trong nội dungđề tài này, học viên thực hiện các công việc.

• Tìm hiểu thêm về GNN, thử nghiệm phương pháp ứng dụng mạngGNN cho bài bài toán rút trích quan hệ giữa các thực thể tiếng việt,với mong muốn đóng góp một ứng dụng tham khảo và giúp mở rộngthêm phương pháp giải quyết bài toán rút trích quan hệ, với dữ liệutiếng Việt bằng việc ứng dụng mô hình GNN trên tập dữ liệu tiếngViệt là VLSP-2020-RE [1] Trong đó, việc xử lý dữ liệu cho phù hợpyêu cầu của bài toán, với dữ liệu tiếng Việt là trọng tâm.

• Sử dụng BERT trong quá trình embedding các vector từ đầu vào, đểtăng chất lượng embedding và cải thiện kết quả đầu ra.

• Thử nghiệm mô hình và tìm hiểu ảnh hưởng của cạnh nút, qua việcđiều chỉnh số cạnh so với mô hình đầy đủ qua đó đánh giá các chọnlựa cho việc định hướng và điều chỉnh mô hình.

Trang 6

ABSTRACT OF DISSERTATION

Extracting relations is an important task in information extraction, and theresults of relation extraction can provide support for various applicationssuch as question-answering systems and knowledge base construction Theproblem of extracting relations between entities is relatively complex andhas multiple approaches In the content of this thesis, the researchers focuson the supervised learning problem, applying the GNN method, a relativelynew approach, to address the problem of extracting relations between enti-ties in Vietnamese datasets Through this thesis, the researchers perform thefollowing tasks:

• Further investigate GNN and experiment with applying GNN to tract relations between Vietnamese entities, aiming to contribute areference application and expand the methods for solving relation ex-traction problems with Vietnamese data The application is performedon the VLSP-2020-RE Vietnamese dataset Processing the data ap-propriately according to the requirements of the Vietnamese relationextraction task is crucial to obtain suitable data for the training pro-cess.

ex-• Utilize BERT for embedding input word vectors to enhance ding quality and improve output results.

embed-• Experiment with the model, including studying the impact of edgenodes by removing some edge nodes from the complete model, therebyevaluating choices for model orientation and adjustment to optimizecomputational costs.

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn tốt nghiệp: “ỨNG DỤNG MẠNG NƠ RONĐỒ THỊ CHO BÀI TOÁN RÚT TRÍCH QUAN HỆ GIỮA CÁC THỰCTHỂ TRÊN TẬP DỮ LIỆU TIẾNG VIỆT” là công trình nghiên cứu củabản thân Những phần sử dụng tài liệu tham khảo trong luận văn đã đượcnêu rõ trong phần tài liệu tham khảo Các số liệu, kết quả trình bày trongluận văn là hoàn toàn trung thực, nếu sai tôi xin chịu hoàn toàn trách nhiệmvà chịu mọi kỷ luật của bộ môn và nhà trường đề ra.

Học viên

Phạm Đăng Khoa

Trang 8

Mục lục

Chương 1 GIỚI THIỆU ĐỀ TÀI 1

1.1 Giới thiệu đề tài 1

1.2 Mô tả bài toán rút trích quan hệ giữa các thực thể 3

1.3 Mục tiêu và nhiệm vụ của luận văn 5

1.4 Giới hạn đề tài 5

1.5 Đóng góp của luận văn 6

1.6 Tóm tắt nội dung 7

Chương 2 CƠ SỞ KIẾN THỨC 8

2.1 Mô hình Artificial Neural Network - ANN 8

2.2 Mô hình Recurrent Neural Network - RNN 11

2.3 Mô hình Long Short-Term Memory 16

2.4 Cơ chế Attention 21

2.5 Mô hình Graph Neural Network - GNN 25

Chương 3 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 30

Chương 4 MÔ HÌNH ĐỀ XUẤT 35

Trang 9

4.4.2 Kết quả thực nghiệm và thảo luận 49

Chương 5 KẾT LUẬN 52Tài liệu tham khảo 55

Trang 10

Danh sách hình vẽ

1.1 Mô tả bài toán rút trích quan hệ giữa các thực thể và trong

bài toán rút trích thông tin (Information Extraction) 22.1 Các thành phần cơ bản của một nơ-ron thần kinh sinh học

[2] 82.2 Cấu trúc của một perceptron 102.3 Cấu trúc mô hình Recurrent Neural Network 122.4 Cơ chế hoạt động của perceptron trong mô hình Recurrent

Neural Network 132.5 Cơ chế hoạt động của perceptron trong mô hình Long Short-

Term Memory 192.6 Kiến trúc mô hình Bidirectional LSTM 212.7 Một số ứng dụng của đồ thị [3] 252.8 Sơ đồ thể hiện pipeline cơ bản [3] khi xây dựng một GNN model 262.9 Tích chập 2 chiều và tích chập trên đồ thị [3] 272.10 Quá trình tổng hợp và cập nhật trong GNN [3] 282.11 Công thức tổng quát và các hàm tính toán cơ bản của cơ chế

tổng hợp và cập nhật [3] 293.1 Các mốc quan trọng của bài toán rút trích quan hệ sử dụng

GNN[4] 303.2 Các bài báo chính tham khảo trong đề tài luận văn sử dụng

GNN - hướng non-syntactic và sử dụng cạnh 313.3 Tham khảo cách thức xây dựng cạnh, nút [5] 313.4 Tham khảo mô hình Edge Oriented Graph - EOG [6] 32

Trang 11

4.1 Mô hình đề xuất dựa trên mô hình tham khảo 364.2 Dữ liệu tập VLSP [1] với định dạng gốc 434.3 Dữ liệu tập VLSP [1] với định dạng yêu cầu 434.4 Biểu đồ mô tả số lượng quan hệ trong từng record dữ liệu

của tập train và dev 47

Trang 12

Danh sách bảng

1.1 Ví dụ về thực thể và quan hệ trong câu [1] 42.1 Các trường hợp xảy ra với độ dài đầu vào và đầu ra của mô

hình RNN 122.2 biểu diễn các từ trong câu theo vector embedding 232.3 thể hiện độ tập trung của từ Q đối với từng từ trong câu 243.1 Các loại quan hệ và cặp thực thể tương ứng trong tập VLSP-

RE 2020 [1] 334.1 Xây dựng các cạnh của đồ thị [7] 384.2 Các tham số chính cho mô hình GNN edge orientation 484.3 Kết quả thực nghiệm của mô hình GNN - EoG (Edge orien-

tation Graph) so với các phương pháp khác trên tập dữ liệu

tiếng việt VLSP-2020-RE 494.4 Kết quả thực nghiệm so sánh việc sử dụng toàn bộ cạnh và

loại bỏ một số cạnh 50

Trang 13

Chương 1

GIỚI THIỆU ĐỀ TÀI

Trong giai đoạn bùng nổ thông tin như hiện nay, dữ liệu ngày càng nhiềuvà đa dạng hơn bao giờ hết, điều này giúp ích cho quá trình tìm kiếm thôngtin, tri thức nhưng cũng đặt ra nhiều thách thức trong quá trình chọn lọc vàxử lý thông tin Bài toán đặt ra là làm sao máy tính có thể có thể hiểu đượcthông tin từ dữ liệu để trợ giúp con người, đặc biệt với các dữ liệu dạng phicấu trúc như văn bản, với yêu cầu phải hiểu được ngữ nghĩa của văn bản.

Một trong những hướng tiếp cận để giải quyết vấn đề này là sử dụngmáy tính để chú thích dữ liệu với cấu trúc mong muốn, đồng thời sử dụngkinh nghiệm rằng: khi đọc tài liệu, người đọc thường chú tới các mối quanhệ giữa các thực thể Trong đó, thực thể có thể là danh từ hoặc cụm danhtừ, chẳng hạn như: tên người, tên tổ chức, tên địa điểm Nhiệm vụ của máytính là nhận ra các thuộc tính về mặt ngữ nghĩa trong các câu văn để có thểchú thích một cách chính xác Theo đó, rút trích quan hệ giữa các thực thể làbước đóng vai cốt yếu trong xây dựng một ứng dụng hiểu ngôn ngữ tự nhiên(Understanding Natural Language).

Trang 14

Hình 1.1: Mô tả bài toán rút trích quan hệ giữa các thực thể và trong bàitoán rút trích thông tin (Information Extraction)

Rút trích quan hệ giữa các thực thể (Relation Extraction) là công việcxác định quan hệ về mặt ngữ nghĩa của các cặp thực thể trong văn bản Tập

các thực thể sử dụng trong quá trình phân loại mối quan hệ, thường là kếtquả của bài toán trước đó, là bài toán nhận diện thực thể có tên NamedEntity Recognition - NER, trong ngữ cảnh của một bài toán đầy đủ end-to-end Tuy vậy, dữ liệu đầu vào có thể là tập dữ liệu tạo bằng phương pháp

bất kỳ, chẳng hạn tự đánh nhãn, không nhất thiết là từ kết quả của bài toánNER.

Trang 15

Kết quả của bài toán rút trích quan hệ giữa các thực thể có nhiều ứngdụng khác nhau, chẳng hạn như hệ thống hỏi đáp (Question answering), rúttrích thông tin (Entity Extraction), đặc biệt trong việc hỗ trợ thông tin chocác cơ sở tri thức (Knowledge Bases), phục vụ cho một hệ thống thông tin cụthể của ứng dụng web hay các từ điển, hệ thống thông tin lớn như WordNetThesaurus, FreeBase, DBPedia

Rút trích quan hệ giữa các thực thể là bài toán tương đối phức tạp vànhiều hướng tiếp cận Nội dung của đề tài luận văn này tập trung vào bàitoán học có giám sát, với phương pháp "Ứng dụng Mạng nơ-ron đồ thị chobài toán rút trích quan hệ giữa các thực thể trên tập dữ liệu tiếng Việt".Graph Neural Network - GNN (Mạng nơ-ron đồ thị) [8] là mô hình có thểứng dụng vào nhiều bài toán, nhưng chưa có nhiều tham khảo, ứng dụng đốivới tiếng Việt và có thể phát triển nhiều hơn trong tương lai.

thực thể

Mô hình có đầu vào là:

− Một câu (xét bài toán ở mức rút trích quan hệ trong một câu - intrasentence), bao gồm một tập thực thể và một tập các quan hệ có thểxảy ra với một cặp thực thể.

− Tập E = {e1, e2, em} gồm m loại thực thể.− Tập R = {r1, r2, rn} gồm n loại quan hệ.

Trong đó, các thực thể có loại thuộc tập E trong câu đã được xác địnhtrước từ bài toán rút trích thực thể, là bài toán tiền xử lý của bài toán rút tríchquan hệ giữa các thực thể hoặc từ một tập dữ liệu cho trước nhất định.

Trang 16

Mô hình có đầu ra là:

− Quan hệ (có thể có) < em1, em2, rj >, trong đó em1, em2 đã được chotrước, rj ∈ R.

Bảng 1.1: Ví dụ về thực thể và quan hệ trong câu [1]

Ví dụ: Tại buổi họp báo ông Nguyễn Quang Huyền,Phó Cục trưởng [Cục Quản lý và giám sát Bảo Hiểm]

[Bộ Tài chính] cho biết.

AFFILIATION(liên kết)

Nguyễn Quang Huyền

ORGANIZATIONCục Quản lý và giám sát

Bảo HiểmAFFILIATION

(liên kết)

Nguyễn Quang Huyền

ORGANIZATIONBộ tài chínhPART - WHOLE

(bao gồm)

ORGANIZATIONCục Quản lý và giám sát

Bảo Hiểm

ORGANIZATIONBộ tài chính

Trang 17

1.3.Mục tiêu và nhiệm vụ của luận văn

Đề tài hướng tới mục tiêu rút trích quan hệ giữa các thực thể tiếng Việtbằng phương pháp ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên, các môhình học sâu và đặc biệt mô hình Graph Neural Network - GNN (Mạng nơ-ron đồ thị) Với dữ liệu đầu vào là các đoạn văn tiếng Việt, chứa nhiều thôngtin, thực thể và mối quan hệ có thể có giữa các thực thể.

Từ mục tiêu tổng quát, học viên sẽ từng bước xử lý các vấn đề dưới đâyđể giải quyết bài toán:

− Tìm hiểu và sử dụng các kĩ thuật trong xử lí ngôn ngữ tự nhiên, cácmô hình học sâu Đặc biệt là việc tìm hiểu về các đặc trưng của môhình GNN, cơ chế hoạt động và kết hợp với các phương pháp học sâu.− Tìm kiếm tập dữ liệu dữ liệu tiếng Việt, xử lý dữ liệu phù hợp với yêu

cầu đầu vào của mô hình dùng GNN.

− Đưa ra đề xuất cải thiện hiệu suất của mô hình dựa trên thực nghiệm.− Đánh giá khả năng ứng dụng mô hình GNN với tập dữ liệu tiếng Việt

và hiểu thêm về các đặc trưng, tính chất của mô hình.

Nội dung của đề tài Ứng dụng mạng nơ-ron đồ thị cho bài toán rút tríchquan hệ giữa các thực thể trên tập dữ liệu tiếng Việt sẽ được giới hạn nhưsau:

− Dữ liệu được sử dụng trong đề tài là văn bản tiếng Việt Cụ thể làtập dữ liệu VLSP-2020-RE [1], là tập dữ liệu cho bài toán rút tríchquan hệ giữa các thực thể đối với tiếng Việt Nguồn dữ liệu từ VLSP

Trang 18

(Vietnamese Language and Speech Processing, CLB Xử lý ngôn ngữvà tiếng nói tiếng Việt).

− Áp dụng các mô hình học sâu Bi-LSTM [9], GNN để huấn luyện dữliệu.

− Sử dụng GNN và tìm hiểu phương thức xây dựng nút, cạnh trên đồ thịcho bài toán rút trích quan hệ giữa các thực thể, với phương pháp làdựa trên các đặc trưng cạnh của đồ thị để xác định quan hệ có thể giữacác thực thể.

− Đánh giá kết quả dự đoán dựa trên độ đo micro F1-score.

Đóng góp chính của đề tài là việc xử lý và thử nghiệm tập dữ liệu tiếngViệt đối với mô hình GNN cho bài toán rút trích thực thể tiếng Việt.

Trong luận văn, học viên có hai đề xuất để có thể ứng dụng mô hình hiệuquả hơn với tập dữ liệu tiếng Việt trên mô hình GNN:

− Với đặc thù mô hình có sử dụng các nút câu và xây dựng nhiều liênkết cạnh nên kích thước tính toán sẽ lớn nếu đoạn văn gồm quá nhiềucâu Nếu đoạn văn có quá nhiều câu, đoạn văn sẽ được tách các đoạnvăn bản có nhiều câu thành các đoạn nhỏ hơn, mới có thể huấn luyệnđược nhưng vẫn đảm bảo khả năng dự đoán kết quả.

− Sử dụng BERT tiếng Việt, cụ thể là PhoBERT [10] mã hoá các véc tơtừ cho dữ liệu đầu vào.

Trang 19

1.6.Tóm tắt nội dung

Nội dung của luận văn gồm 5 chương:

− Chương 1 GIỚI THIỆU ĐỀ TÀI: Nêu lý do chọn đề tài Ứng dụng

mạng nơ-ron đồ thị cho bài toán rút trích quan hệ giữa các thực thểtrên tập dữ liệu tiếng Việt, mô tả bài toán rút trích quan hệ, tập dữ liệu

được sử dụng, phương pháp đánh giá.

− Chương 2 CƠ SỞ KIẾN THỨC: Trình bày cơ sở kiến thức cơ bản về

deep learning, Artificial Neural Network, Recurrent Neural Network,Long Short-Term Memory, Attention.

− Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN:

Giới thiệu các công trình nghiên cứu liên quan tới phương pháp Ứngdụng mạng nơ-ron đồ thị cho bài toán rút trích quan hệ giữa các thựcthể trên tập dữ liệu tiếng Việt.

− Chương 4 MÔ HÌNH ỨNG DỤNG: Trình bày cụ thể về mô hình

GNN sẽ được ứng dụng cho bài toán Rút trích quan hệ cho tập dữliệu tiếng Việt Đề xuất tiền xử lý dữ liệu, sử dụng BERT [11] trong

embedding dữ liệu đầu vào và các kết quả thực nghiệm.

− Chương 5 KẾT LUẬN: Tổng kết các kết quả, vấn đề còn tồn tại,

đóng góp của luận văn Đưa ra hướng mở rộng, phát triển đề tài trongtương lai.

Trang 20

Chương 2

CƠ SỞ KIẾN THỨC

Artificial Neural Network - ANN (Mạng nơ-ron nhân tạo) [12] thườngđược gọi đơn giản là Neural Network - NN (Mạng nơ-ron), là hệ thống tính

toán lấy cảm hứng từ mạng nơ-ron sinh học cấu thành của não người.

ANN gồm một tập hợp các đơn vị hoặc gọi là nút được kết nối với nhau,

gọi là các nơ-ron(tế bào thần kinh) nhân tạo ANN mô phỏng một cách đơn

giản các nơ-ron, mỗi kết nối của ANN, giống như kết nối thần kinh trongnão sinh học Các nơ-ron liên kết và truyền tín hiệu đến các nơ-ron khác vàcó đặc điểm là có nhiều đầu vào nhưng chỉ có một đầu ra.

Nơron thần kinh sinh học là đơn vị cơ bản của hệ thống thần kinh trong

cơ thể người và động vật Nó gồm một tế bào (soma), các nhánh dẫn truyềnxung thần kinh (dendrites) để nhận tín hiệu, và một sợi dẫn truyền xung thầnkinh (axon) để truyền tín hiệu đi (ngõ ra) như trong hình 2.1.

Hình 2.1: Các thành phần cơ bản của một nơ-ron thần kinh sinh học [2]

Trang 21

Nơ-ron thần kinh hoạt động bằng cách tiếp nhận các thông tin đưa vào

từ các đuôi gai (dendrites), tính toán và tổng hợp tại thân nơ-ron (cell body),sau đó lan truyền kết quả đến các nơ-ron khác thông qua sợi trục (axon).

Một tế bào nơ-ron nhân tạo (perceptron) của mô hình học sâu (deeplearning) cũng sẽ nhận nhiều tín hiệu, sau đó xử lý và truyền kết quả đi cho

các nơ-ron liên kết với nó.

− Tín hiệu tại một kết nối là một số thực và giá trị đầu ra của mỗi nơ-ronđược tính bằng hàm phi tuyến tính có tham số, để tổng hợp các giá trịđầu vào của nó.

− Các kết nối được gọi là các cạnh Các nơ-ron và các cạnh có trọng sốđể điều chỉnh tăng hoặc giảm cường độ của tín hiệu tại một kết nốitrong quá trình huấn luyện.

− Nơ-ron có thể có ngưỡng sao cho tín hiệu chỉ được gửi đi khi tín hiệutổng hợp vượt qua ngưỡng đó.

Trong ví dụ hình 2.2, đơn vị tế bào thần kinh sẽ thực hiện:− Nhận vào ba giá trị: x1, x2, x3

− Tính tổng có trọng số và nhân giá trị theo trọng số tương ứng w1, w2,

w3 và thêm vào đó một số hạng b (bias).

− Cuối cùng, chuyển tổng kết quả qua một hàm sigmoid để có kết quảlà một số giữa 0 và 1.

Ví dụ trên đây sử dụng hàm sigmoid là hàm kích hoạt, trong trường hợp tổngquát có thể sử dụng hàm kích hoạt khác thay cho hàm sigmoid.

Khi kết hợp nhiều perceptron với nhau sẽ tạo nên mô hình ANN gồmnhiều tầng (layer), tùy theo mục đích thiết kế mỗi tầng sẽ có nhiệm vụ riêng.

Trang 22

− Tầng đầu vào (input layer) là tầng đầu tiên nhận dữ liệu đầu vào.− Tầng ẩn (hidden layer)nằm giữa, gồm các phép tính toán chuyển đổi

dữ liệu đầu vào cho ra dữ liệu đầu ra trung gian Số lượng tầng ẩn,không có giới hạn cụ thể, tùy theo mục đích thiết kế Khi có nhiều

hơn 1 tầng ẩn ANN sẽ được gọi là mô hình Deep learning (học sâu)

− Tầng kết quả (output layer) là tầng cuối cùng chứa dữ liệu đầu ra.

Hình 2.2: Cấu trúc của một perceptron

Trang 23

2.2.Mô hình Recurrent Neural Network - RNN

Văn bản là dữ liệu dạng chuỗi tuần tự, với ý nghĩa của từng từ phụ thuộcvào vị trí của nó trong câu Mỗi từ trong văn bản đều mang theo thông tinvà sự liên kết giữa các từ đóng vai trò quan trọng trong việc hiểu và xử lývăn bản.

Recurrent Neural Network - RNN (mạng nơ-ron hồi quy) [14] là một

mạng nơ-ron được thiết kế đặc biệt để xử lý dữ liệu chuỗi, bao gồm ngônngữ tự nhiên, giúp mô hình "nhìn thấy" và hiểu được ý nghĩa của các từtrong ngữ cảnh bằng cách xử lý và khai thác thông tin hiệu quả từ chuỗi tuầntự.

RNN có khả năng lưu lại trạng thái hiện tại và cho phép thông tin từ quákhứ truyền đi và tác động đến quá trình xử lý từ tiếp theo Nhờ đó, giúp choRNN có khả năng xử lý và hiểu được ý nghĩa của văn bản dựa trên sự phụthuộc giữa các từ và vị trí của chúng trong câu Chính vì vậy, RNN trở thànhmột công cụ mạnh mẽ trong xử lý ngôn ngữ tự nhiên, dịch máy, nhận dạnggiọng nói, và nhiều ứng dụng khác liên quan đến dữ liệu dạng chuỗi.

Trang 24

Hình 2.3: Cấu trúc mô hình Recurrent Neural NetworkMột mô hình RNN cơ bản có thể được mô tả như sau:

− Đầu vào: x1, x2, xt là các vector đầu vào biểu diễn thành phần thứt của chuỗi dữ liệu được đưa vào.

− Trạng thái ẩn: h1, h2, ht là trạng thái ẩn tại thời điểm t, cũng là ngõvào cho nơ-ron kế tiếp.

− Đầu ra: y1, y2, yt ngõ ra tại thời điểm t.

Trong ví dụ hình 2.3, độ dài chuỗi dữ liệu đầu ra đúng bằng với độ dàichuỗi dữ liệu đầu vào Nhưng đối với mô hình RNN, độ dài của chuỗi đầuvào và đầu ra có thể thay đổi tùy thuộc vào từng bài toán cụ thể Chuỗi đầuvào thể có độ dài bất kỳ, điều này cho phép xử lý các dữ liệu có độ dài khácnhau Tương tự, chuỗi đầu ra cũng có thể có độ dài linh hoạt, tùy thuộc vàoyêu cầu của bài toán.

Bảng 2.1: Các trường hợp xảy ra với độ dài đầu vào và đầu ra của mô hìnhRNN

Trường hợpĐộ dài dữ liệu đầu vàoĐộ dài dữ liệu đầu ra

Trang 25

Quá trình biến đổi các vector đầu vào xt và ht−1 sang các vector đầu raht và yt tại bước xử lý dữ liệu thứ t là quá trình huấn luyện các bộ trọng sốcủa các ma trận Wxh, Whh và Why được thực hiện bởi perceptron với các phéptính toán được sắp xếp theo các thứ tự sau

Hình 2.4: Cơ chế hoạt động của perceptron trong mô hình RecurrentNeural Network

1 Tính tích của xt và ma trận trọng số Wxh.2 Tính tích của ht−1 và ma trận trọng số Whh.

3 Thực hiện phép tổng của hai tích trên với giá trị của bias, sau đó đưakết quả qua hàm tanh sẽ thu được giá trị của hidden state ht;

ht = tanh(Wxh xt+Whh ht−1+ b) (2.1)

4 Dữ liệu đầu vào là kết quả của hàm so f tmax có giá trị tham số là tích

Trang 26

của ma trận trọng số Why và hidden state ht.

yt = so f tmax(Why ht) (2.2)

Trong mạng RNN, quá trình biến đổi các vector đầu vào xt và ht−1 sangcác vector đầu ra ht và yt được thực hiện bằng cách sử dụng các ma trậntrọng số và hàm kích hoạt.

1 Đầu tiên, vector đầu vào xt và vector trạng thái trước đó ht−1 được kếthợp để tạo ra vector zt:

zt = Wxh xt +Whh ht−1+ bh (2.3)Trong đó:

− Wh là ma trận trọng số cho phép ánh xạ từ vector đầu vào zt sangvector kết hợp zt.

− Whh là ma trận trọng số cho phép ánh xạ từ vector trạng tháitrước đó ht−1 sang vector kết hợp zt.

− bh là vector điều chỉnh nếu có.

2 Sau đó, zt được truyền qua hàm kích hoạt phi tuyến tính để tạo ra tor trạng thái hiện tại ht và tính toán vector đầu ra ytt Thông thường,hàm kích hoạt được sử dụng trong RNN là hàm tanh hoặc hàm sig-moid.

3 Cuối cùng, vector trạng thái hiện tại ht kết hợp ma trận trọng số Wy

Trang 27

yt = so f tmax(Why ht + by) (2.5)Trong đó:

− Why là ma trận trọng số cho phép ánh xạ từ vector trạng thái hiệntại ht sang vector đầu ra yt.

− by vector điều chỉnh nếu có.

4 Quá trình này được lặp lại cho để tạo ra các vector trạng thái và vector

đầu ra tương ứng Sau đó, quá trình lan truyền ngược (back tion) được sử dụng để điều chỉnh các ma trận trọng số và cập nhật mô

propaga-hình RNN trong quá trình huấn luyện.

Trang 28

2.3.Mô hình Long Short-Term Memory

Mô hình Long Short-Term Memory (LSTM) là một loại mạng nơ-ronhồi quy (RNN) được thiết kế để giải quyết vấn đề "đạo hàm biến mất" (gra-dient vanishing) trong mạng RNN truyền thống RNN được thiết kế để xửlý dữ liệu tuần tự, nhưng khi chuỗi đầu vào tương đối dài, RNN có thể sẽkhông đáp ứng được yêu cầu dự đoán ngày càng cao của con người Đặcđiểm của dữ liệu tuần tự là thông tin phía sau nó phụ thuộc vào thông tinphía trước nên cần một mô hình có thể nhớ các từ trước đó lâu hơn và dàihơn Thêm vào đó, cần có sự chọn lọc thông tin cần lưu lại tại mỗi bước xửlý thay vì ghi nhớ tất cả thông tin trước đó, vì có thể thông tin phía sau chỉliên quan đến một số thông tin phía trước.

Để giải quyết vấn đề này, mô hình LSTM ra đời dựa trên kiến trúc củamô hình RNN Tuy nhiên, dữ liệu đầu vào của mô hình LSTM không chỉ làxt và ht−1 như mô hình RNN mà còn yêu cầu có thêm giá trị trạng thái hiện

tại (cell state) ct−1.

Mô hình LSTM sử dụng các cổng để kiểm soát việc thông tin được lưutrữ và loại bỏ trong cell state Các cổng này bao gồm: Cổng quên (Forgetgate), Cổng đầu vào (Input gate) và Cổng đầu ra (Output gate) Nhờ có cáccổng này, mô hình LSTM có khả năng nhớ các thông tin quan trọng trongchuỗi dài và loại bỏ các thông tin không cần thiết.

Một số đặc tính chính của mô hình LSTM bao gồm:− Khả năng xử lý các chuỗi dữ liệu dài.

− Khả năng nhớ các thông tin quan trọng trong chuỗi dài.− Khả năng loại bỏ các thông tin không cần thiết.

Trang 29

truyền thống.

LSTM sử dụng cơ chế gating phức tạp hơn nhiều so với RNN để điềuchỉnh thông tin trong quá trình tính toán của từng perceptron hình 2.5 là môtả lại cơ chế gating trong LSTM :

1 Cơ chế tổng hợp thông tin từ trạng thái ẩn trước đó:

− Đầu tiên, LSTM tính toán và tổng hợp thông tin từ trạng thái ẩntrước đó ht−1 và dữ liệu đầu vào xt Quá trình này tương tự nhưperceptron trong mô hình RNN.

− Thông tin Ct được tính bằng công thức:e

Ct = tanh(Wc [ht−1, xt] + bc) (2.6)

2 Cổng Quên (forget gate):

− Cổng Quên quyết định tỷ lệ giữ lại bao nhiêu thông tin từ vectortrạng thái cell trước ct−1.

− Quá trình này được thực hiện bằng cách áp dụng các phép tínhlên vector trạng thái ẩn trước ht−1 và vector dữ liệu đầu vào xt,sau đó thông qua hàm sigmoid, giá trị ft được tính bằng côngthức:

Trang 30

ut = σ (Wu [ht−1, xt] + bu) (2.8)4 Xác định cell state mới:

− Dựa trên kết quả từ các bước trước đó, giá trị của cell state mớict được tính toán.

− Công thức tính ct:

ct = ft∗ ct−1+ ut ∗ eCt (2.9)

5 Cổng Xuất (output gate):

− Cổng Xuất quyết định tỷ lệ lấy thông tin từ trạng thái cell trướcct−1 để trở thành giá trị trạng thái ẩn mới ht.

− Công thức tính ot:

ot = σ (Wo∗ [ht−1, xt] + bo) (2.10)

6 Tính giá trị ẩn mới (hidden state):

− Cuối cùng, giá trị hidden state mới ht được tính toán dựa trêngiá trị cell state ct và giá trị cổng xuất ot.

− Công thức tính ht:

ht = ot∗ tanh(ct) (2.11)

Trang 31

Hình 2.5: Cơ chế hoạt động của perceptron trong mô hình LongShort-Term Memory

Mặc dù mô hình LSTM (Long Short-Term Memory) đã giải quyết mộtsố vấn đề của mô hình RNN truyền thống, nhưng nó vẫn tồn tại một số điểmđó là vấn đề mất mát "thông tin xa" và khả năng mô hình hoá các "phụ thuộcdài" Trong LSTM, cổng quên giúp điều chỉnh thông tin từ quá khứ, nhưngnó không giải quyết hoàn toàn vấn đề mất mát thông tin xa Các thông tinquan trọng từ những bước thời gian xa trong quá khứ vẫn có thể bị mất đi.Cũng vậy, trong những trường hợp phụ thuộc có độ dài lớn, LSTM có thểgặp khó khăn trong việc xử lý và ghi nhớ thông tin đó.

hình 2.5 Bi-LSTM (Bidirectional LSTM) kết hợp hai mô hình LSTMngược chiều nhau, gồm một mô hình LSTM từ trái sang phải và một môhình LSTM từ phải sang trái, sau đó kết hợp kết quả của cả hai mô hình đểcho ra kết quả mong muốn Nhờ vào việc sử dụng cơ chế hai chiều để tậndụng thông tin từ quá khứ và tương lai, khả năng mô hình hóa và biểu diễn

Trang 32

thông tin của mô hình sẽ được cải thiện hình 2.6.

Bi-LSTM có các các đặc trưng giúp cải thiện khuyết điểm của LSTMnhư:

− Khả năng hiểu bối cảnh toàn diện và tăng khả năng tích luỹ thông tin:Việc tích hợp thông tin từ cả quá khứ và tương lai cho phép mô hìnhhiểu bối cảnh toàn diện của dữ liệu tuần tự Điều này giúp cải thiệnkhả năng mô hình hóa phụ thuộc dài và đảm bảo không bỏ sót thôngtin quan trọng Nhờ nắm được thông tin tổng quát, khả năng biểu diễnvà xử lý dữ liệu tuần tự phức tạp được cải thiện.

− Giảm thiểu vấn đề mất mát thông tin xa: Mô hình Bi-LSTM giúp giảmthiểu vấn đề mất mát thông tin ở trong chuỗi dữ liệu xảy ra ở LSTM.Thông qua việc tích hợp thông tin từ cả hai hướng, Bi-LSTM tăngcường khả năng ghi nhớ thông tin từ quá khứ và tương lai.

− Tăng độ phức tạp và khả năng học: Mô hình Bi-LSTM có cấu trúcphức tạp hơn LSTM thông thường, đòi hỏi nhiều tham số hơn và tínhtoán phức tạp hơn Điều này cung cấp khả năng mô hình hóa và biểudiễn phức tạp hơn.

Mặc dù mô hình Bi-LSTM (Bidirectional LSTM) có nhiều ưu điểm sovới LSTM truyền thống, nhưng nó cũng có một số nhược điểm:

− Độ phức tạp tính toán lớn do cấu trúc phức tạp hơn LSTM, dẫn đếnviệc đòi hỏi nhiều tài nguyên tính toán hơn làm tăng yêu cầu bộ nhớcủa mô hình.

− Cũng vậy, do tính phức tạp và số lượng tham số lớn quá trình huấnluyện của mô hình Bi-LSTM có thể mất thời gian lâu hơn so với

Trang 33

− Nguy cơ overfitting: Với độ phức tạp cao, Bi-LSTM có nguy cơ caohơn về overfitting khi mô hình được huấn luyện trên tập dữ liệu nhỏ.

− Hiện tượng tự mã hóa self-encoding: xảy ra khi mô hình sao chép

thông tin từ một chuỗi sang chuỗi khác mà không cần hiểu nghĩa haycấu trúc của dữ liệu, làm giảm khả năng hiểu và biểu diễn thông tin.Tuy nhiên, các nhược điểm trên không xảy cho tất cả các trường hợp vàtuỳ vào bài toán và tập dữ liệu cụ thể, việc ứng dụng Bi-LSTM hợp lý sẽgiúp cải thiện kết quả của mô mình.

Hình 2.6: Kiến trúc mô hình Bidirectional LSTM

Trước khi attention xuất hiện, các mô hình xử lý ngôn ngữ thường dựavào trạng thái ẩn của mạng nơ-ron để tổng hợp thông tin Tuy nhiên, cơ chếnày không đảm bảo khả năng tập trung vào các phần quan trọng của câu.Năm 2017 sự ra đời của bài báo "Attention Is All You Need" [15] giới thiệucơ chế mới cho phép mô hình tập trung vào những phần quan trọng và phụthuộc ngữ nghĩa của câu, thay vì chỉ dựa vào máy trạng thái ẩn Attentionnhanh chóng trở thành một công cụ quan trọng trong xử lý ngôn ngữ tự

Trang 34

nhiên, đóng góp vào việc cải thiện hiệu suất và chất lượng của các mô hìnhxử lý ngôn ngữ Nhờ đó, thúc đẩy mạnh mẽ quá trình xử lý dữ liệu tuần tự vàđược ứng dụng hiệu quả trong các lĩnh vực như: dịch máy, nhận dạng giọngnói, xử lý ngôn ngữ tự nhiên.

Cơ chế attention ra đời nhằm giải quyết một số hạn chế của các mô hìnhtruyền thống, bằng cách cho phép mô hình:

− Tập trung vào các thành phần quan trọng của dữ liệu.

− Giúp mô hình hiểu và tạo ra mối quan hệ giữa các phần tử trong dữliệu, giúp cải thiện khả năng dự đoán và trích xuất thông tin.

Công thức cơ bản của attention được biểu diễn như sau:

Attention(Q, K,V ) = so f tmax(Q ∗ KT/sqrt(dk)) ∗ V (2.12)Trong đó:

− Q là vector truy vấn (query) được sử dụng để tìm kiếm thông tin quantrọng.

− K là tập hợp các vector khóa (keys) chứa thông tin ngữ nghĩa.

− V là tập hợp các vector giá trị (values) tương ứng với các vector khóa,

chứa thông tin chi tiết.

Công thức trên tính toán sự tương quan giữa truy vấn (Q) và các khóa (K),sau đó ánh xạ sự tương quan này vào các giá trị (V) để tạo ra kết quả cuốicùng.

Các bước thực hiện cơ chế attention như sau:

1 Tính toán độ tương quan giữa truy vấn Q và các khóa K bằng cáchnhân ma trận Q với ma trận chuyển vị của K và chia cho căn bậc hai

Trang 35

2 Áp dụng hàm softmax lên ma trận tương quan để đảm bảo tổng cácgiá trị trong mỗi hàng bằng 1, tạo thành một ma trận trọng số.

3 Nhân ma trận trọng số với ma trận giá trị V để tạo ra kết quả cuốicùng.

Xét ví dụ minh họa cách hoạt động của cơ chế attention và khả năng tậptrung vào thành phần quan trọng Ví dụ: yêu cầu tạo biểu đồ attention chocâu "I love to read books" Attention sẽ thực hiện các bước sau:

1 Embedding Vector

Bảng 2.2: biểu diễn các từ trong câu theo vector embedding

từ trong câuvector embedding

"I" Q = [0.2, 0.5, 0.8]"love" K1 = [0.6, 0.3, 0.1]"to" K2 = [0.7, 0.4, 0.2]"read" K3 = [0.9, 0.6, 0.3]"books" K4 = [0.3, 0.1, 0.5]

2 Tính toán attention score: Để tính toán attention score giữa từ Q và K,chúng ta sử dụng công thức Attention:

(Q, K) = so f tmax(Q ∗ KT/sqrt(dk)) (2.13)Trong đó, dk là chiều của vector embedding (trong ví dụ này dk = 3).Đầu tiên, chúng ta tính toán dot product giữa Q và K1:

Q∗ K1T = [0.2, 0.5, 0.8] ∗ [0.6, 0.3, 0.1]T = 0.26 (2.14)