Cơ chế hoạt động của perceptron trong mơ hình Recurrent

Một phần của tài liệu Ứng dụng học sâu vào xây dựng mô hình rút trích thông tin (Trang 26)

Chương 5 KẾT LUẬN

2.6 Cơ chế hoạt động của perceptron trong mơ hình Recurrent

Neural Network

1. Tính tích của xt và ma trận trọng sốWxh. 2. Tính tích của ht−1 và ma trận trọng sốWhh.

3. Thực hiện phép tổng của hai tích trên với giá trị của bias, sau đó đưa kết quả qua hàmtanhsẽ thu được giá trị của hidden stateht;

4. Dữ liệu đầu vào là kết quả của hàm so f tmaxcó gái trị tham số là tích của ma trận trọng sốWhy và hidden stateht.

yt =so f tmax(Why ht) (2.4)

2.3. Mơ hình Long Short-Term Memory

Mơ hình RNN là mơ hình được thiết kế để xử lý các dữ liệu dạng chuỗi. Tuy nhiên, với yêu cầu về kết quả dự đốn ngày càng cao của con người thì RNN vẫn chưa đáp ứng được nếu dữ liệu dạng chuỗi đầu vào có độ dài tương đối lớn. Vì đặc điểm của dữ liệu chuỗi là thơng tin đứng sau phụ thuộc vào các thông tin đứng trước nên cần một mơ hình có khả năng nhớ được các từ phía trước lâu hơn và dài hơn. Bên cạnh đó, mơ hình cần chọn lọc thơng tin để nhớ tại mỗi bước xử lý chứ không nhớ tất cả các thông tin vì trong thực tế thơng tin đứng sau chỉ liên hệ đến một phần trong số các thông tin đứng trước.

Nhằm giải quyết vấn đề này, mơ hình Long Short-Term Memory (LSTM) [6] ra đời dựa trên kiến trúc của mơ hình RNN. Tuy nhiên, dữ liệu đầu vào của mơ hình LSTM khơng chỉ là xt và ht−1 như mơ hình RNN mà cịn cần giá trị cell statect−1. Cụ thể hơn, phương thức hoạt động của từng percep-

tron trong mơ hình LSTM được thiết kế phức tạp với cơ chế gating như mơ tả trong Hình 4.5 theo từng bước như sau:

1. Bước đầu tiên sẽ tính tốn và tổng hợp thơng tin từ hidden state trước đóht−1và dữ liệu đầu vàoxt như cách perceptron trong mơ hình RNN thực hiện:

e

Ct =tanh(Wc [ht−1, xt] +bc) (2.5) 2. Cổng quên(forget gate) là phần quyết định sẽ giữ lại bao nhiêu phần

của vector cell state trước ct−1 với việc thực hiện phép tính tốn đối với vector hidden state trước ht−1 và vector biểu diễn thành phần dữ liệu thứ t, sau đó đưa kết quả qua hàm sigmoid:

ft =σ(Wf [ht−1, xt] +bf) (2.6) 3. Cổng cập nhật (update gate) là phần quyết định sẽ giữ lại bao nhiêu phần từ vector hidden state trước ht−1 và vector dữ liệu xt với phép tính sau:

ut =σ(Wu [ht−1, xt] +bu) (2.7) 4. Từ kết quả của bước 1, 2 và 3 có thể xác định được giá trị của cell

state ct bằng công thức:

ct = ft∗ct−1+ut ∗Cet (2.8) 5. Cổng xuất(output gate) là phần quyết định lấy bao nhiêu phần giá trị cell state trước ct−1 để trở thành giá trị của hidden state ht bằng phép tính:

ot =σ(Wo [ht−1, xt] +bo) (2.9) 6. Cuối cùng là phép tính giá trị hidden state ht từ giá trị của cell statect

ở bước 4 vàot ở bước 5 như sau:

Hình 2.7: Cơ chế hoạt động của perceptron trong mơ hình Long Short-Term Memory

Kết hợp các perceptron có cấu trúc như Hình 4.5 sẽ cấu tạo thành mơ hình LSTM với chiều huấn luyện từ trái sang phải (chiều xi). Mơ hình này gọi là mơ hình LSTM một chiều. Điểm yếu của mơ hình này là chỉ có khả năng dự đốn với độ chính xác cao khi được cung cấp một vài thông tin ở phần đầu của chuỗi dữ liệu. Nhằm khắc phục điểm yếu này, các nhà nghiên cứu khoa học đã đề xuất việc kết hợp hai mơ hình LSTM ngược chiều nhau. Điều này có nghĩa là hệ thống sẽ huấn luyện dữ liệu với mơ hình LSTM chiều từ trái sang phải, đồng thời huấn luyện dữ liệu với mơ hình LSTM chiều từ phải sang trái, sau đó kết hợp kết quả của cả hai mơ hình và thực hiện tác vụ dự đốn của bài tốn. Mơ hình kết hợp này được gọi làBidirec-

tional LSTM - BiLSTM có kiến trúc như Hình 2.8.

Hình 2.8: Kiến trúc mơ hình Bidirectional LSTM

2.4. Cơ chế Attention

Cơ chế Attention được đề xuất lần đầu tiên bởi Bahdanau và cộng sự vào năm 2015 [7] với mục đích cải tiến hiệu quả của bài tốn machine translation(dịch máy). Sau đó, vào năm 2017, Vaswani và cộng sự đã công bố bài báo "Attention Is All You Need" [8]. Cả hai bài báo này đã thực sự gây được tiếng vang rất lớn trong cộng đồng các nhà nghiên cứu về các mơ hình học máy. Theo thống kê của trang scholar.google.com, tính đến tháng

5 năm 2021 thì cả hai bài báo này, mỗi bài đã được trích dẫn bởi khoảng 20.000 bài báo khoa học khác. Điều này có thể chứng tỏ được hiệu quả của cơ chế Attention khi được áp dụng vào các bài tốn xử lý ngơn ngữ tự nhiên là rất lớn và chưa có cơ chế hay mơ hình nào thay thế được.

Thực tế, cơ chế Attention đều áp dụng được với tất cả các bài toán xử lý dữ liệu dạng chuỗi với mơ hình học máy có áp dụng RNN và Seq2Seq [9]. Tuy nhiên, để dễ hiểu thì nên bắt đầu với việc áp dụng cơ chế Attention cho

bài tốn machine translation như mơ hình được đề xuất lần đầu tiên.

Mục tiêu của Bahdanau và cộng sự là xây dựng mơ hình dịch máy gồm hai phầnEncoder-Decoder(Seq2Seq), trong đóEncoderlà phần học và rút trích thơng tin từng từ trong câu ngơn ngữ gốc bằng mơ hình RNN.Decoder

là phần học cách dịch những thông tin đã học được trong phần Encoder thành câu ngơn ngữ dịch. Trong Hình 2.9 là mơ hình Seq2Seq minh họa việc dịch câu tiếng Việt sang câu tiếng Anh.

Hình 2.9: Kiến trúc mơ hình Sequence-to-Sequence cho bài tốn dịch từtiếng Việt sang tiếng Anh tiếng Việt sang tiếng Anh

Bahdanau và cộng sự đã nhận thấy rằng, trong từng bước xử lý của phần Decoder chỉ cần dùng một phần liên quan trongcontext vector , kết quả của q trình Encoder, là đủ thơng tin để dự đốn từ tiếp theo trong câu ngơn

ngữ dịch. Phương pháp này được đặt tên làAttentionlà cơ chế tạo sự chú ý đến những phần thông tin liên quan đến việc dự đốn trongEncoderthay vì là tất cả thơng tin như hầu hết các cơng trình nghiên cứu về học máy trước đó.

Các bước áp dụng cơ chế Attention trong bài tốn machine translation (Hình 2.10) được mơ tả chi tiết như sau:

nhân vô hướng (dot product như cơng thức dưới đây. Trong đó ht là vector hidden state của bước xử lý thứ t trong phần Decoder và h¯s là tập hợp các vector hidden state của từng từ trong phần Encoder.

score(htT, h¯s) =hTt h¯s (2.11) 2. Tính attention weight bằng cách đưa kết quả tính attention score

qua hàm so f tmax

αts =so f tmax(score(hTt , h¯s)) (2.12) 3. Tính context vector bằng phép tính tổng các tích số của attention

weight và vector hidden state của từng từ trong phần Encoder

ct =∑

s

αts h¯s (2.13)

4. Tạo phân phối xác suất attention distribution là tích của ma trận trọng sốWc và ma trận gộp của context vectorvàht là vector hidden state của bước xử lý thứt trong phầnDecoder

Pt =Wc [ct; ht] (2.14) 5. Cuối cùng là đưa attention distribution qua hàm tanh để có được

attention vector

Như vậy, sau khi hồn thành các phép tính trên và thu được kết quả là

attention vector chứa một phần thông tin của Encoder được chú ý tại thời điểmt. Đến bước này, ta có thể đưa ra kết quả dự đốn từ tiếp theo trong câu ngơn ngữ dịch bằng cơng thức:

b

y=Wy [at; ht] (2.16)

Hình 2.10: Mơ phỏng q trình áp dụng cơ chế Attention trong bài toándịch câu tiếng Việt sang câu tiếng Anh dịch câu tiếng Việt sang câu tiếng Anh

Chương 3

CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Hình 3.1: Các mốc quan trọng của bài tốn rút trích đồng thời thực thể vàquan hệ theo hướng span-based. quan hệ theo hướng span-based.

Hình 3.1 thể hiện các cột mốc quan trọng trong quá trình phát triển của các nghiên cứu cho bài tốn rút trích thơng tin dựa trênspan-based, từ thời

điểm mà phần lớn các nghiên cứu vẫn còn sử dụng BIO/BLOU để biểu diễn một thực thể, và đa phần các mơ hình truyền thống cịn được xây dựng theo hướngpipeline (các mơ hình rút trích thực thể, rút trích quan hệ được huấn luyện độc lập, đầu ra của tác vụ rút trích thực thể sẽ là đầu vào của mơ hình rút trích quan hệ), cho đến khi cơng trình đầu tiên về cách biểu diễn một thực thể dưới dạng span-based ra đời (2017). Đi theo đó là các cơng trình sử dụng span-based kết hợp mơ hình đa tác vụ (multi-task). Với sự ra đời của BERT [10], các mơ hình đa tác vụ kết hợp với BERT chứng minh sự cải thiện đáng kể. Và khi BERT đã làm rất rất tốt việc làm giàu thông tin cho

các vector biểu diễn thực thể, nhiều cơng trình nghiên cứu đã chứng minh rằng mơ hình đa tác vụ khơng cịn là những mơ hình tốt nhất, thay vào đó là sự trở lại của các mơ hìnhpipeline.

3.1. Hướng tiếp cận span-based

Một trong những vấn đề đầu tiên trong bài tốn rút trích thực thể và quan hệ là làm thế nào để biểu diễn một thực thể, vì mỗi thực thể khơng chỉ đơn thuần là một từ mà là một cụm từ. Trước năm 2017, phương pháp BIO/BILOU được sử dụng chủ yếu, theo đó mỗi từ trong câu sẽ được gán 1 nhãn (tag) đánh dấu vị trí của từ nó trong thực thể: B-begin, I-inside, L- last, O-outside, U-unit. Tuy nhiên, nhược điểm rất lớn của phương pháp này là mỗi từ chỉ có thể được gán cho một nhãn duy nhất, do đó trong trường hợp chồng chéo thực thể (overlapping entities), hai hoặc nhiều thực thể cùng chứa một từ thì BIO/BILOU khơng thể diễn tả được hết các thực thể có trong câu.

Ví dụ câu “Ford’s Chicago plant employs 4,000 workers”. Trong câu

trên cảChicagoChicago plant đều là thực thể và cùng chứaChicago.

Do đó, năm 2017 Lee [1] đã đề xuất phương phápspan-based, sử dụng span(mỗispan là một cụm từ) để biểu diễn thực thể. Phương pháp này liệt kê tất cả cácspancó thể có trong câu, xem mỗispanlà một mẫu cho đầu vào của mơ hình. Ví dụ cácspanđược liệt kê ở câu trên: [’Ford’, ’Ford Chicago’, ’Ford Chicago plan’, ’Ford Chicago plan employee’,. . . ’workers’]. Như vậy việc bị trùng lặp thực thể sẽ được giải quyết.

Tuy nhiên ta hồn tồn có thể nhận ra vấn đề lớn khác của phương pháp

span-based là số lượng span được liệt kê trong một câu rất lớn, từ đó dẫn đến việc tổng số cặp quan hệ giữa hai thực thể bùng nổ tới con sốO(n4), với

hệ có thể sinh ra, Lee giới hạn độ dài của mỗispan, giới hạn số lượng span

trong mỗi câu, và dùngbeam searchđể lọc ra cácspancó khả năng làentity mentioncao.

Tiếp theo, sau khi đã có danh sách các span, việc cần làm là tìm cách

để biểu diễn các span thành vector. Từ câu đầu vào, tác giả đưa vào mạng BiLSTM, sau đó với mỗispan, trích xuất được head-word vectorxi , và size embeddingφ(i). Mộtspanđược biểu diễn dưới dạng:

gi = [xSTART∗ (i),x∗END(i),xi,φ(i)] (3.1)

Vớix∗START(i) vàx∗END(i) lầnn lượt là vector biểu diễn từ đầu tiên và cuối cùng

củaspansau lớp BiLSTM.

Cơng trình nghiên cứu này giải quyết bài tốn coreference resolution

(tìm các từ đồng tham chiếu với nhau và gom thành một cụm) chứ không phải về rút trích thực thể và quan hệ. Tuy nhiên ý tưởng về việc biểu diễn thực thể dưới dạng span và sử dụng mơ hình end-to-end để giải quyết bài tốn đã mở ra hướng nghiên cứu cho nhiều bài báo khoa học sau này, có cơng trình trong số đó đang đạt SOTA (state of the art) cho bài tốn rút trích đồng thời thực thể và quan hệ.

3.2. Mơ hình đa tác vụ cho bài tốn rút trích quan hệ và thực thể.

3.2.1. Mơ hình đa tác vụ.

Các mơ hình rút trích thực thể và quan hệ truyền thống [11] [12] [13] thường sử dụng mơ hình pipeline để rút trích thực thể và quan hệ. Trong các mơ hình này, các thực thể rút trích được từ mơ hình thực thể sẽ được sử

dụng để rút trích quan hệ giữa các thực thể. Điều này dẫn đến nguy cơ lỗi lan truyền (cascading errors), nghĩa là nếu mơ hình rút thực thể dự đốn sai hoặc thiếu thực thể, sẽ dẫn đến mơ hình quan hệ cũng bị sai theo. Đồng thời các mơ hình xây dựng theo hướng pipeline, thông tin về quan hệ giữa các

thực thể sẽ khơng đóng góp được gì cho việc dự đốn loại thực thể. Do đó Yi Luan [14] đã đề xuất mơ hình multi-task cho bài tốn rút trích thực thể và quan hệ. Theo đó đầu vào của 2 tác vụ rút trích thực thể và rút trích quan hệ chia sẻ chung các mẫu, cụ thể ở đây là cácspantheo [1].

Từ câu nói đầu vào, (1) mơ hình đưa qua lớp word-embedding sử dụng BiLSTM, (2) sau đó mơ hình liệt kê tất cả các span có thể có trong câu và biểu diễspandưới dạng vector, (3) từ các span có được lần lượt đưa qua các lớp FFNN cho tác vụ coreference resolution , rút trích thực thể và rút trích quan hệ, (4) Hàm mất mát (loss) của 3 tác vụ được cộng dồn lại với nhau và thực hiện cập nhật trọng số cho mơ hình.

Hình 3.2: Mơ hình SciIE

Có thể thấy trong mơ hình sciIE, việc dự đốn quan hệ giữa hai thực thể

MORAparse không bị ảnh hưởng bởi tác vụ rút trích thực thể bởi chúng được thực hiện độc lập với nhau, điểm chung là hàm mất mát sẽ được tính

từ tổng mất mát của các tác vụ này. Cách tính mất mát này của mơ hình sẽ giúp phần nào cung cấp, chia sẻ thông tin từ tác vụ cho nhau, từ đó làm giàu thơng tin chospan.

3.2.2. Sử dụng đa tác vụ kết hợp đồ thị

Hình 3.3: Ví dụ cho thấy sự tương tác, hỗ trợ lẫn nhau giữa các tác vụ rúttrích thực thể, quan hệ. trích thực thể, quan hệ.

Việc dùng mơ hình multi-task, chia sẻ chung các span được tuy phần nào đã chia sẻ thông tin từ các tác vụ cho nhau, tuy nhiên việc khai khác các thông tin từ quan hệ, coreference resolution vẫn chưa thật sự tối ưu. Trong hình trên, việc Tom đang ở StartbucksTom, đồng thời Mike có quan hệ “PER-SOC” sẽ góp phần rút trích được thơng tin làMikeđang ởStartbucks.

Do đó, Yi Luan [15] đã bổ sung thêm hai lớp Coreference Propagation LayerRelation Propagation Layer cho mơ hình multi-task sciIE [14] trước đó. Đây là hai đồ thị thể hiện thơng tincorereference và quan hệ giữa cácspan. Theo đó, mỗi node trên đồ thị được xây dựng từ cácspan, và các

cạnh trên đồ thị tương ứng thể hiện thông tin corereference resolution và quan hệ giữa cácspanvới nhau. Ví dụ trong đồ thịcorereference resolution,

cạnh giữa hai spanThis thingit sẽ có trọng số cao hơn so với cạnh giữa hai spanTomitThis thingit cùng chỉ một vật là xe đạp của Tom.

Sau khi đã xây dựng được đồ thị với các node và cạnh, mơ hình thực hiện cập nhật giá trị cho các node ( tương ứng với một span) dựa theo các trọng

Hình 3.4: Mơ hình DyGIE

khác biệt của mơ hình, việc cập nhật trọng số của các node dựa trên mối liên hệ của nó với các node cịn lại góp phần làm giàu thêm thông tin ngữ cảnh của một node. Cuối cùng mơ hình kết hợp thơng tin của mỗispantừ 2 đồ thị

corereference resolution và quan hệ lại với nhau để biểu diễn thành vector chospanvà đưa vào FFNN để phân lớp thực thể và quan hệ.

3.3. BERT ra đời và sự trở lại của hệ thốngpipeline

Từ khi cơng trình của Lee [1] ra đời, xu hướng sử dụngspanđể biểu diễn một thực thể trở nên ngày càng phổ biến, cùng với đó là các phương pháp sử sử dụng mơ hình end-to-end cho bài tốn rút trích thơng tin. Song về

Một phần của tài liệu Ứng dụng học sâu vào xây dựng mô hình rút trích thông tin (Trang 26)

Tải bản đầy đủ (PDF)

(72 trang)