1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Trích xuất quan hệ trên Tiếng Việt sử dụng nhiều cách tiếp cận trong việc biểu diễn đường đi phụ thuộc ngắn nhất giữa các thực thể

68 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Trích xuất quan hệ trên Tiếng Việt sử dụng nhiều cách tiếp cận trong việc biểu diễn đường đi phụ thuộc ngắn nhất giữa các thực thể
Tác giả Nguyen Hung Trung Hieu, Trinh The Hien
Người hướng dẫn Do Trong Hop
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học dữ liệu
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 68
Dung lượng 36,08 MB

Nội dung

Trong đề tài này, nhóm đã sung vào bộ dữ liệu Tiếng Việt một tập dữ liệuphục vụ cho bài toán nàytrích xuất quan hệ có kích thước trên 10000 câu, cùng đa dạng các nhãn quan hệ hơn 19 nhãn

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

NGUYEN HÙNG TRUNG HIẾU — 20521323

TRINH THE HIẾN - 20521310

KHÓA LUẬN TÓT NGHIỆP

TRÍCH XUAT QUAN HE TREN TIENG VIET SỬ DỤNG

NHIEU CACH TIEP CAN TRONG VIEC BIEU DIEN

DUONG DI PHU THUỘC NGAN NHAT GIỮA CAC

THUC THE

Vietnamese Relation Extraction using Many Approaches of

Representing the Shortest Path Dependency between Entities

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

DO TRONG HOP

TP HO CHi MINH, 2024

Trang 2

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

TigầYy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 3

LỜI CẢM ƠN

Đề hoàn thành được bài khóa luận tốt nghiệp này, bên cạnh những có gắng, nỗ

lực đã bỏ ra trong suốt quá trình hoàn thiện, nhóm chúng em không thể không

kế đến sự giúp đỡ của quý Thay/Cé trường Dai học Công Nghệ Thông Tin

ĐHQG-HCM.

Lời đầu tiên, em xin trân trọng cảm ơn và bày tỏ lòng biết ơn sâu sắc đến TS

Đỗ Trọng Hợp và TS Trần Văn Thành, cũng như là ThS Tô Quốc Huy là cán

bộ phản biện của nhóm, là những người đã hướng dẫn tận tình, hỗ trợ và động

viên nhóm chúng em trong thời gian học tập, tìm hiểu và hoàn thiện bài khóa

luận tốt nghiệp này

Em cũng xin được gửi lời cảm ơn đến các quý thầy cô trường Đại học Công

Nghệ Thông Tin, đặc biệt là với các thầy cô thuộc khoa Khoa học và Kỹ thuật

thông tin Mọi người đã giúp nhóm chúng em học được nhiều kiến thức quý

báu, đồng thời tạo dựng một môi trường học tập linh hoạt và thoải mái cùng cácđồng đội trong lớp Khoa học dit liệu 2020 Đó là những bước đệm vững chắc

giúp nhóm chúng em hoàn thành tốt khóa luận tốt nghiệp

Cuối cùng, chúng em xin chân thành cảm ơn gia đình, bạn bè và các anh chị đã tiếpthêm động lực thúc đây và mang đến sự hỗ trợ cần thiết; điều này đã giúp chúng em

có thé hoàn thiện bài khóa luận tốt nghiệp này một cách tốt nhất

Mặc dù đã dành nhiều thời gian và nỗ lực trong quá trình thực hiện, chúng em

nhận thức được rằng có thé có những sai sót khó tránh khỏi vì sự hạn chế về

kiến thức và kinh nghiệm của nhóm chúng em Vì vậy chúng em mong nhận

được sự đóng góp ý kiến từ phía quý thầy, cô Những ý kiến này không chỉ giúpchúng em hoàn thiện kiến thức mà còn nâng cao kỹ năng dé áp dụng trong công

việc tương lai.

Trang 4

Chương 1 MỞ ĐẦU 22 - SE SE 911211211 215211111117111111E 11111111111 c0 2

IIRACiuiii án 2

1.2 Mục tiêu và phạm vi nghiÊn CỨU <5 + + + E+kEEeeeeeeerereeeeeeee 2Chương 2 CÁC NGHIÊN CỨU LIEN QUAN -¿- 2+s+£xz£x++xzrserxee 6Chương 3 CƠ SỞ LÝ THUYÊT - 2-22 +¿22++2E++EE++EE2EEtEE+erxesrxrrrreee 10

3.1 Biểu diễn từ (Word embedding) - - s seSx+E++E+EEzEerEerkerkerkerkerkee 10

3.1.1 Ma hóa One-ho( Gv HS ng nhớt 103.1.2 Phương pháp đếm 2-©2¿+22+EE+EEEEEEEEEEEEEEEEEEEEEErkerkerree 11

3.1.3 Biểu diễn phân tán (Distributed represenftations) -. - 123.1.4 PhoBERT: Mô hình ngôn ngữ cho Tiếng Việt - 14

3.2 Phân tích cú pháp phụ thuộc (Dependency parsing) -«« «+ 18

3.3 Mạng Nơ-ron hồi quy (RNN)) c.sssssesssesssssssessssssesssessecssecssscssssseessecssseseeasecs 213.4 Mạng trí nhớ ngắn hạn định hướng dài hạn (LSTM) - 23Chương 4 BỘ DU LIEU TIENG VIỆT DE XUẤTT - 2 2 2 +cs+cs+zsz +2 27

4.1 Bo dữ liệu sốc: SemEval-2010 Task 8 - 5 +++2<<scc+++sseeeeces 27

4.2 Quy trình dịch và sửa 0 31

Chương 5 CÁC PHƯƠNG PHÁP TIẾP CẬN - 2 2 ++£x+2EzEzrxerxcrez 37

5.1 Chuỗi lưu vị trí của đường đi phụ thuộc nhắn nhất . - 37

Trang 5

6.1 Đánh giá về bộ dữ liệu -¿- 5¿©2+£22++2E+2EE2EEEEEESEEEEkrrkrerkrerkrrrres 416.2 Đánh giá kết quả mô hình 2: 5c £2++x+2E++EE++EE+2Exzxxerkesrxrrrrees 48

x00 D A.AA' ' 53

Chương 7 KET LUAN.ioeccececcsccsccssssssssescsscssessessesscseesscsvssessessessssucsessessessessessesnease 55

Chương 8 HƯỚNG PHAT TRIEN.Aww.ccceccsscsscsssessessesssessessesseessessessessessesseeseeseees 56

Trang 6

DANH MỤC HÌNH

Hình 1.1: Minh họa đường đi phụ thuộc ngắn nhất trên Tiếng Anh 3Hình 1.2: Sơ đồ tổng quát các bước thực hiện trong bài toán -s-: 5Hình 2.1: Mô hình BERT-based đề xuất của nhóm tác giả -: - 6Hình 3.1: Minh họa cho One-hot encoding trong biểu diễn từ . 10

Hình 3.12: Lớp cong quên và công thức tính toán liên quan -:-:- 25

Hình 3.13: Lớp công vào và công thức tính toán liên quan của tế bào LSTM 25Hình 3.14: Cập nhật thông tin trên trạng thái tế bào và công thức tính toán liên quan

của tế bào LTSM cà 222 12200 HH HH re 26

Hình 3.15: Lớp cong xuất và công thức tính toán liên quan của tế bào LSTM 26

Hình 4.1: Thống kê lỗi thuộc nhóm ảnh hưởng đến đánh dấu thực thể 32

Hình 4.2: Thống kê lỗi ảnh hưởng tới ngữ nghĩa câu -2- 2 c5 5scs+zszse2 34

Hình 5.1: Minh hoạ cây cú pháp phụ thuộc và đường đi phụ thuộc ngắn nhất giữa

Trang 7

DANH MỤC BANG

Bang 4.1: Bang thé hiện một số số liệu thống kê và tập nhãn của bộ dữ liệu ở bộ dit

liệu SemEval-2010 Task § 2- 22 ©S£©SE2EE£EEESEEEEE2EE12712221211711 2712112 cre 30

Bảng 6.1: Số điểm dữ liệu ở mỗi nhãn quan hệ ở bộ dữ liệu trước và sau khi chỉnh

Bảng 6.2: So sánh kết quả từ mỗi phương pháp huấn luyện trên dữ liệu dich tự động

và dữ liệu được chỉnh SỬa - <2 1E 111231111111 8531111 119993 1kg key 49 Bang 6.3: Độ đo F1 của từng nhãn quan hệ ở dữ liệu trước và sau khi được chỉnh

sửa từ phường pháp ImỘI - «11x HH HT TH HH HH 51

Bảng 6.4: Ma trận nhằm lẫn thu được của phương pháp một trên bộ dữ liệu sau khi

chỉnh sửa từ phương pháp ImỘI - - + 22212 E911 E951 kEEkErerrkrrrerree 51 Bảng 6.5: So sánh hiệu quả của mô hình trên từng tập thuộc tính 52

Trang 8

DANH MỤC TỪ VIET TAT

Từ được viết tắt Từ viết tắt

BERT Bidirectional Encoder

Representations from Transformersand

GRU Gated recurrent unit

LSTM Long Short-Term Memory

RE Relation extraction

RNN Recurrent Neural Networks SDP Shortest path dependency

Trang 9

TOM TAT KHÓA LUẬN

Trích xuất quan hệ có nhiều ứng dụng trong thực tế như tối ưu tìm kiếm thông tin,

xây dựng sơ đồ tri thức cũng như hỗ trợ cho các tác vụ khác trong xử lý ngôn ngữ

tự nhiên Trong đề tài này, nhóm đã sung vào bộ dữ liệu Tiếng Việt một tập dữ liệuphục vụ cho bài toán nàytrích xuất quan hệ có kích thước trên 10000 câu, cùng đa

dạng các nhãn quan hệ hơn (19 nhãn) so với các bộ đữ liệu tiếng việt hiện tại Với

hy vọng tac vụ này sẽ được nghiên cứu rộng rãi hơn, khác với các bai toán được

quan tâm nhiều, đã có đữ liệu và nghiên cứu áp dụng cho Tiếng Việt như nhận diệncảm xúc, nhận diện bình luận tiêu cực , thì bài toán trích xuất quan hệ vẫn chưa

được nhiêu cộng đông quan tâm.

Bộ dữ liệu được tạo ra bằng phương pháp dịch thuật từ nguồn dữ liệu Tiếng Anh, là

bộ SemEval 2010 Task 8 — một bộ dữ liệu nỗi tiêng và phô biến đối với bài toán

trích xuất quan hệ ở quốc tế Với cách tiếp cận này, nhóm sẽ có cơ sở dé so sánh vớicác phương pháp đã có của tiếng anh Trong quá trình việt hóa, nhóm cũng đã xây

dựng các quy trình kiểm và sửa lỗi rõ ràng, thống kê và so sánh ảnh hưởng tới mô

hình với các sửa đôi dữ liệu.

Đối với các phương pháp tiếp cận, cách tiếp cận chính trong bài là phương pháp

feature-based, kết hợp các yếu tố, đặc trưng của ngôn ngữ và các mô hình học sâu

hiện đại Nhóm cũng đã áp dụng PhoBERT — một mô hình ngôn ngữ tiên tiến trongtiếng việt dé tăng hiệu quả hiểu từ ngữ của mô hình Nhận thấy việc xác định quan

hệ giữa hai thực hệ trên câu không nhất thiết phải sử dụng toàn bộ các thông tin trêncâu, mà chỉ cần tập trung vào một số từ nhất định và cốt lõi mà xác định quan hệ,

được gọi là đường đi phụ thuộc ngắn nhất, nhưng chưa có nghiên cứu nao tập trungvào cách triển khai đặc trưng này lên mô hình, cũng như là, phương pháp này cũng

chưa được thực hiện trên tiếng việt mà hầu như chỉ có có trên tiếng anh Vì vậy,

nhóm cũng đã dé cập và so sánh nhiều phương pháp biểu diễn đường đi phụ thuộc

ngắn nhất khác nhau Kết quả thu được cao nhất là 0.8 trên độ đo macro F1 trong số

nhiều phương pháp trình bày

Trang 10

Chương 1 MỞ ĐẦU

1.1 Giới thiệu bài toán

Trích xuất quan hệ (relation extraction) đóng vai trò quan trọng trong việc trích xuất

thông tin có cấu trúc từ các nguồn không có cấu trúc như văn bản thô Bài toán này

vai trò quan trọng trong việc xây dựng sơ đồ tri thức (knowledge graph) — một hệ

thống kết nối tất cả thông tin từ nhiều nguồn lại với nhau một cách có ý nghĩa, được

thé hiện bang các thực thé (entity) như khái niệm, đối tượng, sự kiện Chăng hạn

như Google Knowledge Graph ra mắt vào năm 2012 và tới giờ đã có trên 500 tỷ sự

kiện về 5 tỷ thực thé khác nhau, giúp cung cấp thông tin chính xác nhất tới người

dùng khi từ khóa được truy vấn

Các ví dụ về cơ sở dit liệu tri thức rất đa dạng từ các mối quan hệ gia đình, sự liên

kết trong xã hội tới các lĩnh vực đặc biệt như y tế, với các bài toán như phân tích

quan hệ giữa các thành phần đinh dưỡng, yếu tố sinh học, vi khuẩn và các biéu hiệnsức khoẻ Điều này giúp chúng ta tìm kiếm thông tin một cách nhanh chóng và hiệuquả trong việc nghiên cứu, quản lý thông tin, hoặc hỗ trợ quyết định

Ngoài ra, bài toán trích xuất quan hệ còn hỗ trợ cho các tác vụ hỏi đáp

(question-answering) Băng cách trích xuất các quan hệ từ văn bản và kết hợp với các công cụ

và mô hình hỏi đáp, ta có thé tìm kiếm và trả lời câu hỏi của người dùng dựa trên

thông tin quan hệ trong văn bản Ví dụ, nếu một câu hỏi yêu cầu "Thủ đô của Pháp

là gì?", một hệ thống trích xuất mối quan hệ có thé xác định thực thé "Pháp" là mộtđất nước và mối quan hệ "thủ đô của" trong một đoạn văn, từ đó có thể sử dụng détrả lời câu hỏi Điều này cung cấp một phương pháp mạnh mẽ dé truy xuất thông tin

cụ thê và chính xác.

1.2 Mục tiêu và phạm vi nghiên cứu

Trong lĩnh vực xử lý ngôn ngữ tự nhiên ở Tiêng Việt, khác với các bai toán được

quan tâm nhiêu, đã có di liệu và nghiên cứu áp dụng cho Tiêng Việt như nhận diện cảm xúc, nhận diện bình luận tiêu cực , thì bài toán trích xuât quan hệ vẫn chưa

Trang 11

được nhiều cộng đồng quan tâm Đầu tiên, chỉ có một bộ dữ liệu phục vụ cho bài

toán này từ tổ chức cuộc thi VLSP 2020, tuy nhiên, tập dữ liệu này khá ít, các nhãn

quan hệ vẫn tương đối đơn giản và không đa dạng

Vì vậy, mục tiêu đầu tiên của nhóm là bé sung vào tập dữ liệu Tiếng Việt một

nguồn dữ liệu phục vụ cho bài toán trích xuất quan hệ có kích thước tương đối

(10000 câu) và đa dạng các nhãn quan hệ hơn (19 nhãn) với hy vọng tác vụ này sẽ

được nghiên cứu rộng rãi hơn.

Hiện nay đã có nhiều công trình khoa học nghiên cứu bài toán này Trong đó

phương pháp sử dung dependency parsing (phân tích phụ thuộc), cụ thé là các từ

trong câu sẽ xem như một cấu trúc cây, đường đi có hướng giữa các nót chính là

quan hệ ngữ pháp phụ thuộc giữa chúng Trên thực tế, để đánh giá mối quan hệ giữa

hai thực thê trong câu, ta không cần tất cả các từ trong câu mà chỉ cần một số lượng

từ nhất định là cốt lõi và liên quan đến quan hệ đó Vận dụng phương pháp nói trên,dependency parsing được phát triển thành shortest dependency parsing, chính là

đường đi ngắn nhất xét trên cây ngữ pháp giữa hai thực thể đã cho, ta sẽ đùng

những từ trên đường đi dé đánh giá quan hệ

poured

”~ %

gallons have been into

ON \trillion of [region],

Trang 12

Mặc dù đã có nhiều công trình khai thác phương pháp trên, cùng với những mô hình

học sâu tiên tiến, nhưng dé biéu diễn, đánh dau phần đường đi ngắn nhất nói trên,

vẫn chưa được nhiều bài báo so sánh Với chúng tôi, dé cho ra được một kết quả với

độ chính xác tốt, những mô hình học phức tạp là cần thiết, nhưng phan biéu diễn dữliệu (data representation) lại thường bị ngó lơ Và biểu diễn các đặc trưng dữ liệu

tốt, thì mới có thể khai thác tối ưu được mô hình học phía sau Ngoài ra, các dự án,

nghiên cứu tác vụ trích xuất quan hệ trên tiếng việt hầu như tập trung xoay quanh

việc áp dụng một hoặc nhiều các mô hình ngôn ngữ hiện đại cho Tiếng Việt như

PhoBERT, XLM-RoBERTa (XLM-R), mà chưa đầu tư vào các yếu tô bản chất của

của ngôn ngữ như ngữ pháp, từ loại

Như vậy, mục tiêu thứ hai của nhóm là xây dựng mô hình thực nghiệm, tiếp cận

theo phương pháp featured-based, kết hợp các đặc điểm ngôn ngữ lại với nhau

Trong đó, tập trung vào yếu tô tìm ra các thông tin trên câu có ảnh hưởng nhiều

nhất đến mỗi quan hệ cần xác định bằng các quan hệ ngữ pháp giữa từ với từ Đồngthời, đề ra nhiều cách tiếp cận về mặt xử lí, biêu diễn dữ liệu cho cùng một ý tưởng

trên, cũng như so sánh hiệu năng mô hình trên tập dữ liệu mới Ba phương pháp

nhóm sẽ sử dụng trong bài và sẽ được trình bày chỉ tiết ở sau là:

- _ Chuỗi lưu vị trí của đường đi phụ thuộc nhắn nhất

- Don vị phụ thuộc

- Cây LSTM

Trang 13

1 Đánh dau sai e1

2 Đánh dau sai e2

3 Đảo trật tự e1 va e2

Bộ dữ liệu Kiem lỗi va phân loại

SemEval- 1 Thiếu tir

Hình 1.2: Sơ đồ tong quát các bước thực hiện trong bài toán

Tông quát, bài toán sẽ nhận đâu vao va dau ra cụ thê như sau:

- Pau vào: Một câu Tiếng Việt bất kỳ, có đánh dấu sẵn hai thực thể cần xác

định quan hệ

- Pau ra: Quan hệ ngữ nghĩa dựa hai thực thé đã được dé cập dựa trên tập

quan hệ đã được huân luyện, cũng như chiêu của quan hệ.

Trang 14

Chương2 CÁC NGHIÊN CỨU LIÊN QUAN

Đối với bối cảnh tiếng việt, như chúng tôi đã trình bày chỉ có 1 nguồn dữ liệu đángtin cậy là từ tô chức cuộc thi VLSP 2020 Bộ dữ liệu này được thu thập từ các trangbáo điện tử, bao gồm có 3 quan hệ có chiều (LOCATED, PART-WHOLE,

ORGANIZATION-AFFILIATION) và một quan hệ không chiều

(PERSONAL-SOCIAL) Theo nhóm đạt kết quả cao nhất trong cuộc thi (Thuat Nguyen va Hieu

Man Duc Trong, 2020) [1], các phương pháp được sử dụng xoay quanh việc thử

nghiệm mô hình ngôn ngữ BERT Cụ thể, theo hình 2.1, nhóm tác giả đã sử dụng

hai mô hình BERT-based hỗ trợ tiếng việt là PhoBERT [2] và XLM-RoBER Ta

(XLMR) [3] dé sinh ra vector nhúng (embedding vector) cho mỗi cặp thực thé trên

từng câu, riêng đối với PhoBERT base đã được fine-tuned với thông số learning

rate là E-05 Sau đó kết hợp các vector đó lại (sử dung pooling, element-wise) thành

một vector nhúng tông hợp duy nhất, sau đó được đưa vào một mạng neuron gồm

nhiều lớp với 7 units (số nhãn cần phân loại) và hàm softmax activation ở lớp cuốicùng Kiến trúc được thê hiện như hình bên dưới Kết quả thu được là 72.06 trên độ

đo micro-averaged F1-score.

=) (8) (%)J sJ Ie Lš)J L-) GIGI &J (⁄) & le

Hình 2.1: Mô hình BERT-based đề xuất của nhóm tác giả

Trang 15

Đối với bối cảnh tiếng anh, các phương pháp học giám sát được chứng minh là có

hiệu quả hơn trong việc phát hiện quan hệ so với phương pháp học không giám sát,

tuy nhiên, hiệu qua còn phụ thuộc vào chất lượng của các đặc trưng được thiết kế.

Các phương pháp trích xuất các đặc trưng phức tạp được chia làm 2 nhóm tiếp cận:feature-based và kernel-based.

Đối với phương pháp feature-based, các yếu tô phân loại như chuỗi từ, cây ngữ

pháp, từ loại được chuyên thành các vector thuộc tính (Kambhatla, 2004;

Suchanek et al., 2006) Zhou và các cộng sự (2005) [6]) xây dựng một tập hợp các

đặc trưng được tạo ra với mỗi mối quan hệ trong dữ liệu dùng dé huấn luyện, và

một bộ phân loại sẽ trích xuất một quan hệ Kambhatla (2004) [7] đã xây dựng môhình Maximum Entropy với các đặc trưng được lay từ các từ ngữ (word), loại thực

thé (entity type), mức đề cập (mention level), sự chồng chéo (overlap), cây phụ

thuộc (dependency tree) và cây phân tích cú pháp (parse tree) Mô hình đã đạt được

52.8 điểm F1 trên 24 ACE relation subtypes Tuy nhiên phương pháp này đòi hỏi

các nghiên cứu chuyên môn về lĩnh vực ngôn ngữ khi tìm kiếm các tập đặc trưng tối

ưu, cũng như tính hiệu quả của cách biéu diễn chúng khi chuyền thành các vector

z

LỆ

SO.

Còn đối với kernel-based, phương pháp này giảm gánh nặng cho phan xử lý thuộc

tính (feature-engineering) có cau trúc với KNN (K-Nearest neighbor) và SVM

(Support-vector machine) là hai vi dụ phổ biến Băng cách tính toán sự tương đồnggiữa hai đối tượng, kernel methods triển khai các thuật toán quy hoạch động

(dynamic programming) có thé học được những đặc trưng ngầm trên không gian

vector lớn hơn Điều này giúp giảm thiêu số lượng đặc trưng cần được tạo ra một

cách rõ ràng và tốn kém Theo Aron Culotta, Jeffrey Sorensen [4], nghiên cứu đã

xây dựng một mạng SVM cho bài toán, sau đó định nghĩa một tree-kernel cho cây

phân tích cú pháp phụ thuộc tăng cường, kết hợp với mô hình SVM để trích xuất

quan hệ Cách tiếp cận tree-kernel đã vượt trội so với bag-of-word kernel, suy ra

Trang 16

phương pháp biêu diễn có câu trúc nay trên câu hiệu quả hơn trong bài toán xác

định và phân biệt các môi quan hệ.

mm “Troops advanced near Tikrit.”

-Word troops -Word near -Word Tikrit

d-POS NNS d-POS IN d-POS NP

g-POS noun g-POS preposition g-POS noun

Chunk-Type NP | Chunk-Type | PP 5 Chunk-Type NP

Entity-Type person _ Entity-Type _—— Entity-Type | geo-political

Entity-Level name Entity-Level ` a Entity-Level name

WordNet 77? | WordNet - ` WordNet ???

Relation-arg ARG | Relation-arg - Ả Relation-arg ARG_B

Hình 2.2: Cay phân tích cú pháp phụ thuộc tang cường

Với sự nồi lên của các phương pháp học sâu (deep learning), các nghiên cứu gần

đây cũng tập trung huấn luyện các mạng nơ ron để học đặc trưng Mạng tích chập

(CNNs) và mạng thần kinh hồi quy (RNNs) đã được sử dụng rộng rãi trong trích

xuất mối quan hệ Với mạng tích chập, Liu và các cộng sự (2013) [12] với mô hìnhdựa trên CNN đã đạt được kết qua 83.8% điểm F1 trên bộ dữ liệu ACE Hay Zeng

cùng các cộng sự (2014) [13] đề xuất một mô hình dựa trên CNN đã vượt qua SVM

và mô hình dựa trên Max Entropy với 82.7% điểm F1 trên bộ dit liệu

SemEval-2010 Task 8 Với mạng thần kinh hồi quy, Zhang va Wang (2015) [14] đã trình bay

mô hình dựa trên RNN kết hợp với chỉ số về vị trí thực thé (entity position

indicators) và được thực nghiệm trên hai bộ đữ liệu là SemEval-2010 Task 8 với kết

quả tốt nhất là 79.6% điểm F1 và KBP37 với kết quả tốt nhất là 58.8% điểm F1, cao

hơn so với mô hình dựa trên CNN từ 1-2% trên bộ dữ liệu SemEval-2010 Task 8 và

3-7% trên bộ dữ liệu KBP37 Ngoài ra còn có Zhu và các đồng nghiệp (2019) [15]

Trang 17

với mô hình dựa trên Graph Convolutional Network (GCNs) được dé xuất và thé

hiện kết quả tốt hơn so với các mô hình dựa trên CNN và RNN Gần đây, Amir DN

Cohen, Shachar Rosenman và Yoav Goldberg (2021) đã đề xuất hệ thống two-way

span-prediction với kết quả trên bộ dữ liệu SemEval Task 8 2010 cao nhất đạt 91.9

Trang 18

Chương 3 CƠ SỞ LÝ THUYET

3.1 Biểu diễn từ (Word embedding)

Các mạng nơ-ron và các mô hình tính toán khác hoạt động chủ yếu với dữ liệu

sé Trong lĩnh vực Thị giác máy tinh (Computer Vision), chăng hạn như nhận diện

đối tượng (object detection) va phân loại (classification), thông tin trong hình anh

thường được biểu diễn chi tiết và đầy đủ thông qua các pixel Chúng ta có thé đưa

hình anh qua các mạng nơ-ron tích chập (CNN) dé trích xuất thông tin từ hình ảnh

đó Tuy nhiên, đối với đữ liệu văn bản, thông tin không chỉ chứa trong các pixel màcòn liên quan đến ý nghĩa ngữ nghĩa giữa các từ Vì vậy, chúng ta cần một cách dé

biểu diễn dữ liệu văn bản về các con số một cách hiệu quả

3.1.1 Mã hóa One-hot

Ý tưởng đầu tiên là ta có thé sử dung biéu diễn one-hot (one-hot encoding) Dé

đại diện cho mỗi từ, ta sẽ tạo một vector có độ dài bằng số lượng từ vựng và tất

cả các phan tử trong vector đó sẽ có giá trị bang 0, sau đó gan giá trị 1 cho vị trị

tương ứng với từ đó trong vector one-hot này.

One-het encoding

Hình 3.1: Minh họa cho One-hot encoding trong biểu diễn từ

Quan sát bảng trên, ta nhận thấy có 3 vấn đề khi biểu diễn dữ liệu dạng văn bản

dưới dạng one-hot encoding:

- Chi phí tính toán lớn: Khi dữ liệu có sỐ lượng từ lớn, độ dài của vector hot ngày càng tăng Trong thực tế, dit liệu văn bản có thể chứa hàng triệu từ, gây

one-khó khăn cho tính toán và lưu trữ.

10

Trang 19

- Thiếu giá tri thông tin: Các vector one-hot chủ yếu chứa giá trị 0, và chỉ cómột vị trí duy nhất mang giá trị 1 Trái lại, thong tin trong dữ liệu văn bảnthường nằm trong mối quan hệ giữa các từ và ý nghĩa của chúng One-hot vectorkhông thể biéu diễn được mối quan hệ này, vì nó chỉ đánh chỉ mục theo thứ tự từđiển mà không chứa thông tin về vị trí hay ngữ nghĩa trong một ngữ cảnh cụ thê.

Đề khắc phục điều này, thường sử dụng mô hình như RNN hoặc LSTM để trích

xuất thông tin về vị trí từ Cách tiếp cận khác là sử dụng mô hình transformer,loại bỏ hoàn toàn lớp word embedding hay RNN và thêm positional encoding và

self-attention.

- Độ khái quát yếu: Ví dụ, ta có ba từ cùng chỉ một khái niệm "người mẹ”:

"mẹ", "má", "bam" Tuy nhiên, từ "bam" thường xuất hiện hiếm trong tiếngViệt Khi sử dụng one-hot encoding, khi đưa vào mô hình huấn luyện, từ "bằm"

có thể bị phân vào các class khác nhau do cách biểu diễn khác nhau của nó

Trong khi đó, khi sử dụng word embedding, với khả năng biểu diễn vị trí và ngữ

nghĩa, từ "bam" sẽ có vị trí gần với hai từ còn lại Điều này phù hợp với mụctiêu của embedding, giúp mô hình hiêu được mối quan hệ giữa từng từ

3.1.2 Phương pháp đếm

Phương pháp này được sử dụng dé tính toán mức đồng xuất hiện giữa các từ, từ

đó đo lường mức độ liên quan ngữ nghĩa Bằng cách thống kê số lần hai từ xuấthiện cùng nhau, ta xây dựng một ma trận đồng xuất hiện Ví dụ, trong ma trận

đồng xuat hiện, từ "cơm" và "cá" có xuất hiện cùng nhau nhiều lần, cho thay

chúng có ý nghĩa tương đồng và sẽ được đặt gần nhau trong không gian vector

biểu diễn

Tuy nhiên, phương pháp này đối mặt với một nhược điểm khi dữ liệu quá lớn

Một số từ có tần suất xuất hiện cao nhưng lại không mang nhiều thông tin (ví

dụ: "a", "an", "the" trong tiếng Anh) Nếu ta thống kê cả số lượng dữ liệu này,

tần suất của những từ này sẽ làm mờ giá trị của những từ mang nhiều thông tin

nhưng xuất hiện ít hơn

11

Trang 20

Đề giải quyết van đề này, có một giải pháp là điều chỉnh lại trọng số của dữ liệu

dé phù hợp với bài toán cụ thé Một thuật toán phô biến được sử dụng dé giải

quyết van dé này là TF-IDF Trong thuật toán này, TF (tần suất xuất hiện của

một từ trong tài liệu) va IDF (hệ sỐ nghịch đảo tần suất xuất hiện trong các tài

liệu) được kết hợp dé giảm trọng số của những từ xuất hiện nhiều nhưng khôngmang nhiều thông tin

3.1.3 Biểu diễn phân tán (Distributed representations)

Phương pháp này được phát triển dé vượt qua những hạn chế của các phương

pháp tiếp cận trước đó Phương pháp này sử dụng một mạng neural network cómột hoặc nhiều layer để tính toán sự tương đồng ngữ nghĩa giữa các từ và dự

đoán từ tiếp theo dựa trên các từ xung quanh (context word) Một context word

có thé là một hoặc nhiều từ Mikolov đã giới thiệu phương pháp này vào năm

2013 Trong bài báo đầu tiên, tác giả đã giới thiệu 2 kiến trúc mạng để học ma

trận nhúng từ Đặc diém của hai kiến trúc mạng này là chi phí tính toán sẽ thấp

hơn so với NNLM Trong bài báo thứ hai, tác giả đã đưa ra các giải pháp dé cải

thiện tốc độ huấn luyện và độ chính xác của mô hình Hai cấu trúc được giới

thiệu:

- Continuous Bag-Of-Words (CBOW)

Phương pháp CBOW sử dung ngữ cảnh của mỗi từ lam đầu vào và có gang

dự đoán từ tương ứng với ngữ cảnh Vi dụ, với câu "Hôm nay tôi di hoc",

phương pháp CBOW sẽ sử dụng duy nhất từ "học" làm ngữ cảnh đầu vào và

cố gang dự đoán từ "đi" Cu thé hon, CBOW sử dụng mã hóa one-hot của tu

đầu vào và đo lỗi đầu ra của mạng nơ ron đối với mã hóa one-hot của từ mục

tiêu ("di").

Ngoài ra, chúng ta có thể xây dựng các kiến trúc dự đoán một từ băng nhiều

từ xung quanh Trong quá trình dự đoán từ mục tiêu, mô hình sẽ học được

12

Trang 21

cách biêu diễn vectơ của từ mục tiêu.

Mô hình Skip-gram một phương pháp học nhúng từ dao ngược của mô hình

CBOW Cho trước một vị trí ngữ cảnh, mô hình Skip-gram sẽ đưa ra phân bố

xác suất của mỗi từ ở vị trí đó Trong cả hai trường hợp, mạng sử dụng lan

truyền ngược dé học cách biéu diễn vecto của từ

Theo Mikolov, tác gia của word2vec, cả hai phương pháp CBOW và

Skip-gram đều có những ưu điểm và nhược điểm riêng Skip-Skip-gram hoạt động tốtvới lượng dữ liệu nhỏ và có thể hoạt động với tập từ vựng có chứa các từhiếm Mặt khác, CBOW có thé học trong thời gian ngăn và cho ra các biểudiễn tốt hơn cho các từ thông dụng

13

Trang 22

3.1.4 PhoBERT: Mô hình ngôn ngữ cho Tiếng Việt

PhoBERT là mô hình ngôn ngữ được huấn luyện sẵn dành riêng cho tiếng Việt

đầu tiên Từ “Pho” trong cái tên “PhoBERT” là tên của một món ăn phô biến ở

Việt Nam Mô hình được xây dựng trong giai đọan mô hình ngôn ngữ được

huấn luyện sẵn BERT trở nên vô cùng phô biến cùng các biến thê đa dạng của

nó góp phần phát triển hiệu suất của các mô hình trong lĩnh vực xử lý ngôn ngữ

tự nhiên Tuy nhiên, BERT và các biến thể của nó phần lớn đã bị giới hạn trong

tiếng Anh và sẽ không đạt được kết quả tốt tương tự đối với các ngôn ngữ khác

Dé giải quyết van dé nay, ta có thé áp dung một trong hai cách: cách một là huấnluyện lại một mô hình mang kiến trúc BERT với dữ liệu dành riêng cho ngôn

ngữ đó; cách hai là sử dụng một mô hình ngôn ngữ multilingual dựa trên BERT

đã được huấn luyện sẵn PhoBERT được xây dựng theo cách đầu tiên

14

Trang 23

Tương tự như BERT, PhoBERT cũng được giới thiệu với hai phiên ban:

PhoBERTbase với 12 transformers block và PhoBERTbase với 24

btransformers block Cả hai đều có cùng kiến trúc với BERTbase va BERTlarge

và cách tiếp cận pre-training tương tự với RoBERTa, một mô hình cải tiến của

BERT, nhằm tối ưu quy trình pre-training và dat được hiệu suất mạnh mẽ hơn

Về van dé dữ liệu dùng dé huấn luyện, trước khi PhoBERT xuất hiện, các mô

hình ngôn ngữ được huấn luyện trên tiếng Việt đã gặp hai thách thức sau:

- Wikipedia tiếng Việt là bộ dữ liệu duy nhất được dùng dé huấn luyện, và nó

cũng là bộ dữ liệu tiếng Việt duy nhất có mặt trong pretraining data (dữ liệuđược sử dụng dé huấn luyện một mô hình ngôn ngữ lớn chưa được huấn

luyện trước đó) được sử dụng bởi tất cả các mô hình ngôn ngữ đa ngôn ngữngoại trừ XLM-R Tuy nhiên bộ dữ liệu tiếng Việt này có kích thước khánhỏ (khoảng 1GB khi chưa nén), trong khi các mô hình ngôn ngữ được huấn

luyện sẵn có thể tiếp tục được cải thiện thêm một cách đáng kế băng cáchcung cấp thêm nhiều pretraining data hơn

- Moi mô hình ngôn ngữ monolingual va multilingual dựa trên BERT thường

không nhận ra được sự khác biệt giữa các âm tiết và các word tokens trong

tiếng Việt Giải thích cho việc này là vì khi các từ được tạo thành từ nhiều

âm tiết, ví dụ như “tên lửa”, thì khoảng cách sẽ được dùng để phân tách các

âm tiết đó ra Đây là sự khác biệt trong cách sắp xếp các âm tiết trong từ củatiếng Việt Xem xét đoạn văn có 6 âm tiết sau: “Tôi là một nghiên cứu viên”

có thé tạo thành 4 từ: “Tôi là một nghiên cứu viên”

Đề giải quyết van đề đầu tiên, PhoBERT đã được huấn luyện với một bộ dit liệupre-training có kích thước 20GB Bộ dữ liệu này là sự kết hợp của hai corpus:

đầu tiên là Vietnamese Wikipedia Corpus với kích thước khoảng 1GB, và bộ thứ

hai được lấy từ Vietnamese News Corpus sau khi trải qua quá trình sàng lọc

nhằm loại bỏ các bài viết có nội dung tương tự nhau hoặc cái bai viết bị trùng

lặp Bộ thứ hai sau khi được sàng lọc có kích thước khoảng 19GB Để giải

15

Trang 24

quyết vấn đề thứ hai, nhóm nghiên cứu đã áp dụng RDRSegmenter từ thư viện

VnCoreNLP để thực hiện phân đoạn xử lý tách từ và câu trên bộ dữ liệu

pre-training Kết quả là 145 triệu câu đã được tách từ (gần 3 tỷ word tokens) Tuy

nhiên, khác với mô hình RoBERTa, fastBPE được áp dụng dé phan doan cac

câu văn thành các Subword Units, sử dụng bộ từ vựng gồm 64.000 loại

subwords Trung bình sẽ có khoảng 24,4 subword token cho mỗi câu.

Về mặt tối ưu hóa mô hình PhoBERT, RoBERTa đã được sử dụng thông qua

thư viện fairseq Độ dài tối đa (maximum length) đã được thiết lập là 256

subword token, từ đó tạo ra khoảng 145M x 24.4 / 256 = 13.8 triệu “sentence

block” Thuật toán tối ưu Adam cũng đã được áp dụng cho PhoBERT Các

thông số khác như batch size, learning rate đã được thiết lập phù hợp dé chạy

trên 4 GPU V100 (mỗi GPU khoảng 16GB) Mô hình chạy trong 40 epochs với

thông số learning rate tăng dan mỗi 2 epochs) Mô hình PhoBERTbase đã được

huấn luyện trong 3 tuần và sau đó là PhoBERTlarge trong 5 tuần

Sau khi hoàn thành mô hình, các thử nghiệm đánh giá khả năng và hiệu suất của

PhoBERT đã được thực hiện ở các nhiệm vụ thuộc lĩnh vực xử ly ngôn ngữ tự

nhiên đối với tiếng Việt như: gán nhãn từ loại (Part-of-speech tagging), phân

tích sự phụ thuộc về cú pháp (Dependency parsing), nhận dạng thực thé trong

câu (Named-entity recognition), suy luận ngôn ngữ tự nhiên (Natural language

inference) Ở đây mô hình PhoBERT đã được tinh chỉnh (fine-tuned) sao cho

phù hợp với mỗi nhiệm vụ khác nhau.

16

Trang 25

POS tagging (word-level) Dependency parsing (word-level)

Model Acc | Model LAS/UAS

XLM-Roase 96.2 | Biaffine w/ XLM-Rpase 76.46 / 83.10

XLM-Riarge 96.3 | Biaffine w/ XLM-Riarge 75.87 / 82.70

PhoBERTpase 96.7 | Biaffine w/ PhoBERThase 78.77 / 85.22

PhoBERTiarge 96.8 | Biaffine w/ PhoBERTiarge 77.85 / 84.32

NER (word-level) NLI (syllable- or word-level)

VnCoreNLP-NER 88.6 | BiLSTM-max 66.4

VNER 89.6 | mBiLSTM 72.0

BiLSTM-CNN-CRF + ETNLP 91.1 | multilingual BERT 69.5

VnCoreNLP-NER + ETNLP 91.3 | XLMwumetum 76.6

XLM-Roase 92.0 | XLM-Rbase 75.4

XLM-Riarge 92.8 | XLM-Riarge 79.7

PhoBERTnase 93.6 | PhoBERT›a;e 78.5

PhoBERTiarge 94.7 | PhoBERTiarge 80.0

Hình 3.4: Độ chính xác của PhoBERT với tác vụ phổ biến

Tùy vào các nhiệm vụ mà hiệu suất của mô hình được đánh giá bằng các chỉ số

khác nhau: với nhiệm vụ Gán nhãn từ loại và Suy luận ngôn ngữ tự nhiên thì chỉ

sé Accuracy được áp dung; nhiệm vu NER phù hop với chi số F1 score; riéng

nhiệm vu Dependency parsing được áp dung hai chỉ số là LAS (Labelled

Attachment Score) va UAS (Unlabelled Attachment Score) Chi số UAS là tỷ lệphan trăm các từ trong câu được gan đúng quan hệ mà không cần đúng nhãn củaquan hệ đó Còn chỉ số LAS là tỷ lệ phần trăm các từ trong câu được gán đúng

cả quan hệ và nhãn của quan hệ đó.

Bảng được thé hiện trong hình so sánh các chỉ số đánh giá hiệu suất, độ chính

xác của PhoBERT với các mô hình đã từng cho ra kết quả tốt nhất từng được

báo cáo trước đó Rõ ràng rằng PhoBERT đã cho thấy chỉ số đánh giá hiệu suất

cao hơn trên cả 4 nhiệm vụ:

17

Trang 26

e Với nhiệm vu gan nhãn từ loại (POS tagging): PhoBERT đã đạt được độ

chính xác cao hơn hắn 0.8% hơn hai mô hình SOTA trước đó từng đạt được

khoảng 96%.

e Với nhiệm vụ phân tích sự phụ thuộc về cú pháp (Dependency parsing):

PhoBERT đã cải thiện sức mạnh của mô hình Biaffine parser va đạt được chỉ

số UAS và LAS cao hơn khoảng 4%

e Với nhiệm vụ nhận dạng thực thé trong câu (Named-entity recognition): cả

hai phiên ban của PhoBERT đều đạt được chỉ số F1 score cao hơn hai mô

hình SOTA trước đó có cơ sở dựa trên đặc trưng và mạng thần kinh nhân tạo(neuron network) là VnCoreNLP-NER và BiLSTM-CNN-CRF.

e V6i nhiệm vụ suy luận ngôn ngữ tự nhiên (Natural language inference):

PhoBERT đã thể hiện vượt trội hơn cả mô hình đa ngôn ngữ được huấnluyện sẵn XLM-R trong khi sử dụng ít thông số hơn rất nhiều: 135 triệu

(PhoBERToase) so với 250 triệu (XLM-Roase); 370 triệu (PhoBERTiarge) SO với

560 triệu (XLM-Riarge).

Qua các thực nghiệm trên, chúng ta thấy được sự khả dụng của PhoBERT khi

mô hình này hoạt động tốt hơn mô hình đa ngôn ngữ tốt nhất vào thời điểm đó làXLM-R Chúng tôi tin rằng PhoBERT sẽ hỗ trợ chúng tôi rất nhiều trong bài

nghiên cứu của mình.

3.2 Phan tích cú pháp phụ thuộc (Dependency parsing)

Trong việc xử lý ngôn ngữ tự nhiên, phân tích mối quan hệ giữa các từ trong một

câu là một khía cạnh cực kỳ quan trọng Điều này có thê được áp dụng trong nhiềuvan đề khác nhau dé giúp máy tính hiéu ngôn ngữ tự nhiên một cách tốt nhất Khi

chúng ta đọc một câu, chúng ta có thê nhận ra rang các từ trong câu thường có môi

quan hệ phụ thuộc vào nhau Ví dụ, trong câu:

Anh ay đang viết báo cáo rất chăm chỉ

18

Trang 27

Chúng ta có thé nhìn thay động từ chính của câu là "đi", và người thực hiện hành

động đó là "Anh ấy", từ "báo cáo" cũng là một bổ ngữ cho động từ "viết", và từ "rấtchăm chỉ" cũng là một bé ngữ cho động từ "viết" Mối quan hệ phụ thuộc giữa các

từ trong câu được gọi là quan hệ ngữ pháp, một lĩnh vực quan trọng và cực kỳ quan

trọng trong Xử lý Ngôn ngữ Tự nhiên (NLP).

Trong quan hệ ngữ pháp, luôn có một động từ được chọn làm trung tâm của câu.

Tất cả các từ khác trong câu sẽ kết nối trực tiếp hoặc gián tiếp với động từ trung tâm

này Cấu trúc này có thể được biéu diễn dưới dang cây phân tích cú pháp, trong đó

động từ trung tâm được chọn làm gốc

Bo da ăn cái bánh ở công viên

Hình 3.5: Minh họa phân tích cú pháp phụ thuộc trên câu Tiếng Việt

Một quan hệ phụ thuộc thể hiện bằng 1 mũi tên có hướng Theo quy ước phổ biến

trong các tài liệu về cú pháp phụ thuộc thì có quy định các thông tin như sau:

- head: đầu không có mũi tên, là từ được bỗ nghĩa

- dependent: đầu có mũi tên, là từ bổ nghĩa

- label: quan hệ phụ thuộc giữa 2 từ này.

Một số nhãn ngữ pháp phụ thuộc phổ biến là:

- nsubj (Nominal subject): chủ ngữ, chủ thé

- dobj (Direct object): tan ngữ trực tiếp

- nmod (Nominal modifier): danh từ bổ nghĩa

19

Trang 28

- amod (Adjectival modifier): tinh từ bổ nghĩa

- nummod (Numeric modifier): số từ bố nghĩa

- ccomp (Clausal component): Mệnh dé thanh phan

- xcomp (Open clausal component): Mệnh đề thành phan mở rộng

- aux (Auxiliary): phụ từ, trợ động từ

Đề biểu diễn các mối quan hệ phụ thuộc trong một câu, phương pháp thông dụng là

sử dụng biéu diễn của các cặp từ trong câu Một công cụ phân tích cú pháp phụ

thuộc phổ biến 1a Stanford Parser Đối với cộng đồng tiếng Việt, có nhiều công cụ

hỗ trợ, phố biến nhất là vncorenlp và underthesea.Đồ thị cú pháp phụ thuộc sẽ có

các tính chât sau:

- _ Liên thông yếu (có xét hướng)

- _ Mỗi mục từ có chính xác một cạnh đi vào (trừ root là không có cạnh di vào)

- _ Không có chu trình

- _ Nếu có nmục từ trong câu (ké cả root) thì đồ thị có chính xác (n-1) cạnh

Nhờ cách mô hình hóa như vậy, phân tích cú pháp phụ thuộc có thé biéu diễn được

những ngôn ngữ có trật tự từ tự do Điều này làm cho phân tích cú pháp cấu trúc

cụm trở nên không phù hợp với những ngôn ngữ có nhiều quy tắc chặt chẽ trong

cấu trúc câu Tuy nhiên, điều đó không có nghĩa là chỉ cần sử dụng cấu trúc cụm

cho phân tích ngôn ngữ có trật tự từ xác định hoặc chỉ sử dụng cấu trúc phụ thuộc

cho phân tích ngôn ngữ có trật tự từ tự do.

Ngoài việc áp dụng trong bài toán trích xuất quan hệ như đã trình bày, phân tích cú

pháp phụ thuộc còn có các ứng dụng khác, ví dụ như trong dịch máy (machine

translation), giúp đảm bảo cấu trúc ngữ pháp và trật tự từ chính xác khi dịch giữa

20

Trang 29

các ngôn ngữ.

She has a gray cat Cô_ ấy có một con_ mèo xám

has có

g Ss, geensubj dobj nsubj dobj

“ N ——> sB„ `

She cat Cô ấy con _mèo

il » yf Nw

a gray một xám

Hình 3.3: Cây phân tích cú pháp phụ thuộc trong dịch thuật

She has a gray cat Cô_ ấy có một con_ mèo xám

has có

SN, “A Emnsubj dobj nsubj dobj

⁄ GY g-— xShe cat Cô ây con_ mèo

il ay, /

a gray một xám

Hình 3.6: Cây phân tích cú pháp phụ thuộc trong dịch thuật

3.3 Mạng Nơ-ron hồi quy (RNN)

Mạng nơ-ron hồi quy, có nguồn gốc từ mạng nơ-ron truyền thang, là một ý tưởng về

một phiên bản cải tiến của mạng nơ-ron như một giải pháp nhằm xử lý dữ liệu mang

tính trình tự - một van đề của mạng nơ-ron bình thường Như đã biết, mạng nơ-ron

bao gồm 3 lớp chính là: input layer, hidden layer, output layer; đặc biệt đầu vào vàđầu ra của mô hình độc lập với nhau Vì vậy, mô hình sẽ không phù hợp với những

bài toán dạng chuỗi như hoàn thành cau, vì để có thé dự đoán từ tiếp theo trong

câu thì sẽ kết quả sẽ phụ thuộc vào vị trí của từ đó trong câu và những từ đằng trước

nó Qua đó, RNN ra đời với đề xuất về việc sử dụng bộ nhớ thông qua trạng thái an

(hidden state) nhằm lưu lại thông tin từ dữ liệu đã được xử lý trước đó, mô hình sẽ

21

Trang 30

dựa vào đó đê có thê đưa ra các dự đoán chính xác nhât cho đên bước dự đoán hiện

tại.

Vệ mặt câu trúc, RNN là một dạng mạng nơ-ron sử dụng trạng thái ân và cho phép

dau ra ở bước trước đó được dùng làm đâu vào ở bước tiép theo Cau trúc của nó

được thể hiện ở hình dưới:

Nếu như với mạng no-ron nhận đữ liệu x qua input layer va đi qua hidden layer h

và cho ra kết quả ở output layer là y thì với RNN, ở mỗi bước £ các input xếf” sẽ

<t-1> ở bước trước đó là (£ — 1) bằng hàm g, déđược kết hợp với hidden layer là a

tính toán ra hidden layer a!> ở bước hiện tại t và output là y<* sẽ được tính toán

từ a“f; W là các tập trọng số Như vậy kết qua từ các bước tính toán trước đã được

“shi nhớ” bằng cách kết hợp thêm a<°~!> dé tính ra a“f” nhằm làm tăng độ chính

xác cho những dự đoán ở bước hiện tại.

Quá trình tính toán cụ thể có thể được trình bày dưới công thức toán học như sau:

ast? = g,(a<t->, x<) =, (W,„a<t~1> + „xế? + ba)

<t> _ <t>

yr" =W› (Wyaa + by)

với 3 hệ số mới là Wigs Way, Mùa Đối với mạng nơ-ron chỉ sử dụng một ma trận

trọng số W duy nhất thì RNN lại sử dụng 3 ma trận trọng số cho hai quá trình tính

toán: WZ„„ kết hợp với “bộ nhớ trước”, hay hiddent state ở bước trước đó, là h*t"1>;

W,x kết hợp với dữ liệu xế?” dé tính toán trạng thái ân của bước hiện tại là h“f, từ

22

Trang 31

đó kết hợp với W,q đề tính ra y< Các ham gy, g2 là các hàm kích hoạt như

sigmoid, tanh, relu Quá trình tính toán được thé hiện qua hình ảnh dưới

Hình 3.§: Giao tiếp giữa các công trong câu trúc tế bào RNN

RNN đã cho thay ưu điểm của nó khi có thê xử lý dữ liệu có tính tuần tự một cách

hiệu quả như văn bản, giọng nói và dữ liệu theo thời gian Nó có thé chia sẻ và thayđổi trong số sao cho phù hợp qua các bước chạy, qua đó nâng cao hiệu quả huấn

luyện mô hình Đồng thời RNN có thê xử lý dữ liệu đầu vào có độ dài bất kỳ, một

điều không thể đối với mạng nơ-ron truyền thăng Tuy nhiên, tốc độ tính toán của

RNN cũng sẽ chậm hơn nhiều so với các mô hình mạng nơ-ron khác, làm tăng thêmthời gian huấn luyện Nó cũng dễ gặp tình trạng vanishing/exploding gradient, dẫnđến hiện tượng mat mát thông tin đã học được ở các bước trước đó và làm cản trở

quá trình huấn luyện mô hình

3.4 Mạng bộ nhớ dài-ngắn (LSTM)

Một điểm nổi bật ở RNN là ý tưởng của nó về việc “ghi nhớ” thông tin học được

trước đó dé dự đoán cho hiện tại Tuy nhiên chúng không phải lúc nào cũng đáp

ứng được điều đó Ví dụ cho câu: “các toa nhà trong thành pho” thì khi đọc tới

“các tòa nhà trong thành” là đủ dé đoán được từ tiếp theo là “pho” mà không cần

23

Trang 32

thêm thông tin từ các câu văn trước đó Trong tình huống này khoảng cách tới thông

tin cần dé dự đoán là rất ngắn nên RNN có thé học được Tuy nhiên trong nhiều tình

huống ta sẽ cần nhiều ngữ cảnh hơn để suy ra Ví dụ: dự đoán từ cuối trong câu “tôi

sinh ra ở Hải Phòng Tôi nói giọng Bắc” Rõ ràng rằng không có ngữ cảnh

“sinh ra ở Hải Phòng” ta không thé đoán ra được giọng trong câu sẽ là giọng nào

Thực tế đã cho thấy, khi khoảng cách với thông tin cần thiết càng xa thì RNN càng

khó nhớ và không học được nữa.

Mạng trí nhớ ngắn hạn định hướng dài hạn — mạng LSTM - là một dạng đặc biệt

của RNN, được dé xuất dé giải quyết van đề phụ thuộc xa (long-term dependency)

mà RNN không thé vượt qua Ưu điểm của nó là khả năng ghi nhớ thông tin trong

thời gian dài là đặc tính mặc định của nó mà không cần trải qua huấn luyện.

LSTM có cấu trúc tương tự như RNN, điểm khác biệt cũng chính là ý tưởng của

LSTM, đó là trạng thái tế bào (cell state), cũng là bộ nhớ thông tin của nó Chúng

chạy xuyên suốt mô hình và ít tương tác tuyến tính nên thông tin có thé được truyền

đi mà không lo bị thay đổi Các cổng là nơi duy nhất có thê thêm, bớt thông tin

trong trang thái tế bào LSTM có 3 cổng như vậy đề duy trì và kiểm soát trạng thái

tê bào.

Hình 3.9: Trạng thái tế bào trong tế bào LSTM

Bước đầu tiên được thực hiện của LSTM là quyết định xem thông tin nào trong

trang thái tế bào cần phải bị loại bỏ Quyết định nay được đưa ra bởi tang cổng quên(forget gate layer) Nó sẽ lay đầu vào là trạng thái ân ở bước trước đó là h,_; va dit

24

Trang 33

liệu đầu vào ở bước t là x¡ Và trả về kết quả là một số năm trong khoảng [0,1] cho

mỗi số trong trạng thái tế bào là Œ;_¡ Dau ra là 1 cho thấy thông tin sẽ được giữ lại,

còn kết quả là 0 thì thông tin sẽ bị xóa bỏ

Hình 3.10: Lop cổng quên và công thức tính toán liên quan

Bước tiếp theo là quyết định xem thông tin mới nào sẽ được lưu vào trạng thái tế

bào Đầu tiên thông tin sẽ được đưa vào tang cong vào (input gate layer) dé quyết

định thông tin nào được cập nhật Tiếp theo là hàm tanh tạo ra một vec-tơ cho thông

tin mới là C, dé thêm vào trạng thái tế bào.

ip = 0 (Wj-[he_1, 2%] + b,)

C; = tanh(We-|h¿T-i,+¿| + be)

Hình 3.11: Lớp công vào và công thức tính toán liên quan của tế bào LSTM

Sau đó là lúc cập nhật trạng thái tế bào cũ là C,_, vào trạng thái mới Œ¿ Ta sẽ nhân

trang thái cũ với f, , kết quả từ cổng quên, dé bỏ đi thông tin được quyết định là cần

quên đi trước đó Sau đó là thêm i, + C, dé cập nhật thông tin mới vào trạng thái tếbào.

25

Trang 34

bào cần được xuất ra Sau đó ta nhân nó với trạng thái tế bào đã qua hàm tanh đề có

được giá trị đầu ra mong muôn.

Ngày đăng: 02/10/2024, 02:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w