ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA
-PHẠM LƯƠNG HÀO
TRÍCH XUẤT THƠNG TIN THỰC THỂ VÀQUAN HỆ TRONG VĂN BẢN TIẾNG VIỆT BẰNG
MƠ HÌNH ĐỒ THỊ ĐỘNG
Chun ngành: KHOA HỌC MÁY TÍNHMã số: 8.48.01.01
LUẬN VĂN THẠC SĨ
Trang 2CÔNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM
Cán bộ hướng dẫn khoa học:PGS.TS Quản Thành Thơ
Cán bộ chấm nhận xét 1:TS Lê Thanh Vân
Cán bộ chấm nhận xét 2:PGS.TS Đỗ Văn Nhơn
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQGTp HCM ngày 10 tháng 7 năm 2023
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:1 Chủ tịch: PGS.TS Phạm Trần Vũ
2 Thư ký: TS Nguyễn Lê Duy Lai3 Phản biện 1: TS Lê Thanh Vân4 Phản biện 2: PGS.TS Đỗ Văn Nhơn5 Ủy viên: TS Mai Hoàng Bảo Ân
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quảnlý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOAHỌC VÀ KỸ THUẬT MÁY TÍNH
Trang 3ĐẠI HỌC QUỐC GIA TP.HCMCỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMTRƯỜNG ĐẠI HỌC BÁCH KHOAĐộc lập - Tự do - Hạnh phúc
—————————— —————————
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Phạm Lương Hào MSHV: 2070634Ngày, tháng, năm sinh: 29/04/1998 Nơi sinh: Bình ĐịnhChuyên ngành: Khoa học máy tính Mã số: 8480101
I TÊN ĐỀ TÀI: TRÍCH XUẤT THÔNG TIN THỰC THỂ VÀ QUAN HỆTRONG VĂN BẢN TIẾNG VIỆT BẰNG MƠ HÌNH ĐỒ THỊ ĐỘNG(EXTRACTING ENTITY AND RELATION INFORMATION INVIETNAMESE DOCUMENTS USING DYNAMIC GRAPH MODEL)II NHIỆM VỤ VÀ NỘI DUNG:
- Rút trích thơng tin thực thể và quan hệ trong văn bản tiếng Việt ứng dụngkĩ thuật học sâu, xử lý ngôn ngữ tự nhiên và sử dụng mơ hình đồ thị động.- Đề xuất và hiện thực các phương pháp tiếp cận để giải quyết bài toán.- Thực nghiệm và đánh giá các phương pháp đề xuất.
III NGÀY GIAO NHIỆM VỤ: 06/02/2023
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 09/06/2023
V CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ
Tp HCM, ngày 09 tháng 06 năm 2023
CÁN BỘ HƯỚNG DẪNHỘI ĐỒNG NGÀNH
(Họ tên và chữ ký)(Họ tên và chữ ký)
PGS.TS Quản Thành Thơ
TRƯỞNG KHOA
Trang 4LỜI CẢM ƠN
Sau một thời gian tiến hành triển khai nghiên cứu, em cũng đã hoàn thànhnội dung luận văn Luận văn được hồn thành khơng chỉ là cơng sức của bảnthân tác giả mà cịn có sự giúp đỡ, hỗ trợ tích cực của nhiều cá nhân và tập thể.
Trước hết, em xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TS QuảnThành Thơ, thầy là người hướng dẫn trực tiếp trong quá trình thực hiện luậnvăn, các ý kiến đóng góp của thầy đã giúp em hình thành và hoàn thiện nhiềuý tưởng Hơn hết thầy là người đã truyền cảm hứng cho em rất nhiều về niềmđam mê với học máy, học sâu, và xử lí ngơn ngữ tự nhiên.
Em xin gửi lời cảm ơn đến toàn thể anh, chị, em đồng nghiệp trong côngty ZaloPay, ngân hàng số Cake by VPBank đã luôn tạo điều kiện cho emtrong quá trình học và thực hiện luận văn tốt nghiệp.
Em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, các anh, chịcùng lớp cao học đã luôn động viên, quan tâm giúp đỡ em trong quá trìnhhọc tập và thực hiện luận văn.
Trang 5TĨM TẮT LUẬN VĂN
Rút trích thực thể và quan hệ là một trong những nhiệm vụ quan trọng nhấttrong khai thác thông tin Mọi thứ bao gồm danh từ, tên và địa chỉ, và mộtmối quan hệ là mối quan hệ ngữ nghĩa giữa hai thực thể Phương pháp truyềnthống thường sử dụng các mơ hình "đường ống", coi các công việc này là cácthành phần riêng biệt của đường ống Điều này dẫn đến lỗi xếp tầng từ tácvụ nhận dạng thực thể sang tác vụ trích xuất quan hệ Hơn nữa, các mơ hình"đường ống" này khơng thể chứng minh sự đóng góp của nhiệm vụ trích xuấtquan hệ đối với vấn đề nhận dạng thực thể Do đó, trong luận văn này, tácgiả tập trung vào cơng việc trích xuất quan hệ và thực thể chung, đây là mơhình đầu cuối để trích xuất thực thể và quan hệ, tác giả đề xuất ba cải tiếnđối với hiệu suất của mơ hình cơ sở:
• Sử dụng thơng tin loại thực thể vào dự đốn quan hệ: tác giả sử dụngthông tin loại thực thể cho việc dự đoán loại quan hệ giữa hai thực thể.Trong đó tác giả dùng thêm cổng cập nhật để lọc ra lượng thông tincần dùng từ loại thực thể nhằm hạn chế vấn đề lỗi xếp chồng từ lớpnhận dạng thực thể lan sang lớp nhận dạng quan hệ.
• Sử dụng thơng tin của quan hệ vào dự đốn loại thực thể: để phần nàochia sẻ thông tin từ việc rút trích quan hệ cho việc rút trích thực thể,sau khi rút trích quan hệ, học viên nhúng thơng tin của loại quan hệvào hai thực thể cấu thành quan hệ, và thực hiện phân lớp thực thể,mỗi thực thể lúc này được gắn thêm nhãn thể hiện thực thể đó có đónggóp vào mối quan hệ nào hay khơng Điều này cung cấp thêm thơng tincho mơ hình, giúp cải thiện độ chính xác.
Trang 6ABSTRACT OF DISSERTATION
Extracting entities and relationships is one of the most important tasks in in-formation extraction Everything includes nouns, names, and addresses, anda relationship is the semantic connection between two entities Traditionalmethods often use "pipeline" models, treating these tasks as separate compo-nents in the pipeline This leads to cascading errors from the entity recognitiontask to the relationship extraction task Furthermore, these "pipeline" mod-els fail to demonstrate the contribution of the relationship extraction task tothe entity recognition problem Therefore, in this thesis, the author focuseson the joint extraction of entities and relationships, which is an end-to-endmodel for extracting entities and relationships The author proposes threeimprovements for the performance of the base model:
• Utilizing entity type information for relationship prediction: The authorincorporates entity type information to predict the relationship typebetween two entities A gating mechanism is used to filter the necessaryinformation from entity types, aiming to mitigate the cascading errorsfrom the entity recognition layer to the relationship recognition layer.• Incorporating relationship information for entity prediction: To some
extent, sharing information from relationship extraction to entity ex-traction, after extracting relationships, the model embeds the relation-ship type information into the entities forming the relationrelation-ship andperforms entity classification Each entity is labeled to indicate whetherit contributes to a specific relationship or not This provides additionalinformation to the model and improves accuracy.
Trang 7LỜI CAM ĐOAN
Tơi xin cam đoan luận văn tốt nghiệp: "TRÍCH XUẤT THÔNG TINTHỰC THỂ VÀ QUAN HỆ TRONG VĂN BẢN TIẾNG VIỆT BẰNG MƠHÌNH ĐỒ THỊ ĐỘNG" là cơng trình nghiên cứu của bản thân Những phầnsử dụng tài liệu tham khảo trong luận văn đã được nêu rõ trong phần tài liệutham khảo Các số liệu, kết quả trình bày trong luận văn là hồn tồn trungthực, nếu sai tơi xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của bộmôn và nhà trường đề ra.
Học viên
Trang 8Mục lục
1 Giới thiệu đề tài 1
1.1 Tổng quan và Động lực 1
1.2 Mục tiêu đề tài 3
1.3 Giới hạn đề tài 3
1.4 Đối tượng nghiên cứu 4
1.5 Cấu trúc luận văn 5
2 Các công trình liên quan 62.1 Các mơ hình mới 7
2.2 Làm giàu dữ liệu 12
2.3 Bổ sung thông tin cho mô hình 14
2.4 Sử dụng mơ hình kết hợp 163 Kiến thức nền tảng 183.1 Tích chập rời rạc 183.2 Hàm kích hoạt 183.2.1 Hàm kích hoạt Softmax 183.2.2 Hàm kích hoạt ReLU 19
3.3 Giải thuật xuống đồi (Gradient Descent) 19
3.4 Hàm lỗi cross entropy 19
3.5 Mạng nơ ron nhân tạo (Artifical neuron network) 20
3.6 Mơ hình mạng nơ ron hồi quy (Recurrent neural network - RNN) 223.7 Mơ hình mạng bộ nhớ ngắn - dài hạn (Long Short - TermMemory - LSTM) và Bi-LSTM 24
3.8 Cơ chế Attention 27
3.8.1 Cơ chế Attention cho mơ hình seq2seq 28
3.8.2 Các loại cơ chế Attention 29
3.9 Mơ hình Transformer 30
Trang 93.10.1 Mơ hình BERT 33
3.10.2 Mơ hình RoBERTa 35
3.10.3 Mơ hình PhoBERT 36
4 Phương pháp nghiên cứu 384.1 Tiền xử lý dữ liệu 39
4.2 Mơ hình đồ thị động đa tác vụ 42
4.2.1 Lớp biểu diễn từ (Token representation layer) 44
4.2.2 Lớp lan truyền đồng tham chiếu (Coreference propaga-tion layer) 44
4.2.3 Lớp lan truyền quan hệ (Relation propagation layer) 454.2.4 Lớp dự đoán cuối cùng (Final prediction layer) 46
4.2.5 Huấn luyện 465 Kết quả thực nghiệm 485.1 Tập dữ liệu 485.2 Phương pháp đánh giá 515.3 Hiện thực mơ hình 525.4 Kết quả thực nghiệm 52
5.4.1 Vai trò của lớp mã hóa từ 53
5.4.2 Bổ sung thêm quan hệ có hướng 545.4.3 Lan truyền đồng tham chiếu trong xác định quan hệ 54
6 Tổng kết 56
Trang 10Danh sách hình vẽ
2.1 Kiến trúc tổng quan của mơ hình DyGIE++ 10
2.2 Hiệu suất của các biến thể BERT trên các tác vụ và bộ dữ liệu 132.3 Một số ví dụ mơ tả các cách đánh dấu 14
2.4 Tổng quan về mơ hình NER và RE với bộ đánh dấu nổi 15
3.1 Mạng nơ ron sinh học và mạng nơ ron nhân tạo 20
3.2 Cấu tạo cơ bản của một nút nơ ron 21
3.3 Mạng nơ ron nhân tạo nhiều lớp (Multilayer perceptron) 22
3.4 Mô hình RNN 23
3.5 Minh hoạ mô-đun lặp lại của LSTM 25
3.6 Kiến trúc tổng quan của mơ hình Bi-LSTM 26
3.7 Cơ chế Attention cho mơ hình seq2seq 28
3.8 Kiến trúc Transformer 31
3.9 Quá trình tính tốn của Self-Attention 32
3.10 Kiến trúc mơ hình BERT 34
3.11 Dữ liệu đầu vào của mô hình BERT 34
4.1 Minh họa cho dữ liệu tiếng Việt [4] 41
4.2 Kiến trúc mơ hình đồ thị động cho tiếng Việt - VNDyGIE 43
5.1 Số lượng từ trên tập huấn luyện và kiểm tra 50
Trang 11Danh sách bảng
3.1 Các loại cơ chế Attention trên mơ hình seq2seq 295.1 Các loại quan hệ trong VLSP 2020 495.2 Phân bố các loại quan hệ trong tập dữ liệu 505.3 Tác động của bộ rút trích thơng tin lên kết quả dự đốn quan hệ 535.4 Kết quả rút trích thơng tin khi bổ sung mối quan hệ 545.5 Tác dụng của lan truyền đồng tham chiếu trong xác định quan
Trang 12Chương 1
Giới thiệu đề tài
1.1Tổng quan và Động lực
Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP ) là một lĩnhvực nghiên cứu quan trọng nhằm nghiên cứu, phát triển các phương pháp vàcơng nghệ giúp máy tính hiểu, tương tác với ngôn ngữ con người một cách tựnhiên Trong lĩnh vực này, một trong những chủ đề đáng chú ý là trích xuấtthơng tin thực thể và quan hệ từ văn bản.
Trích xuất thơng tin thực thể và quan hệ từ văn bản là quá trình nhậndạng và chiết xuất các thông tin quan trọng như tên người, địa điểm, tổ chức,quan hệ giữa chúng từ các đoạn văn bản Nhiệm vụ này địi hỏi máy tínhphải có khả năng hiểu và phân tích ngữ cảnh, cấu trúc câu, ngữ nghĩa củavăn bản để xác định được thông tin cần thiết.
Đối với tiếng Việt, việc trích xuất thơng tin thực thể và quan hệ trở nênđặc biệt phức tạp do ngơn ngữ này có những đặc điểm riêng Ví dụ, tiếngViệt sử dụng nhiều từ ngữ ghép và từ khơng có dấu, gây khó khăn trong việcphân tách và nhận dạng các thực thể Ngoài ra, ngữ cảnh văn hóa và ngữnghĩa phong phú của tiếng Việt cũng địi hỏi sự hiểu biết sâu về ngơn ngữ vàvăn hóa để đảm bảo tính chính xác và đúng đắn của q trình trích xuất.
Trang 13thống trích xuất tri thức.
Trong bối cảnh trí tuệ nhân tạo phát triển nhanh chóng, có nhiều cơngnghệ và ý tưởng mới đã xuất hiện nhằm giải quyết các bài tốn ngơn ngữ tựnhiên một cách hiệu quả hơn Trong số đó, các bài tốn như trích xuất thơngtin thực thể, trích xuất quan hệ và tách từ đã đạt được những kết quả đángkể Tuy nhiên, để đáp ứng yêu cầu ngày càng phức tạp của trí tuệ nhân tạotrong xử lý ngơn ngữ tự nhiên, các hệ thống máy tính khơng chỉ phải giảiquyết riêng lẻ từng bài tốn một, mà còn phải xử lý đồng thời nhiều tác vụkhác nhau.
Một cách tiếp cận đơn giản để giải quyết vấn đề này là sử dụng nhiều mơhình khác nhau, mỗi mơ hình chịu trách nhiệm giải quyết một bài tốn nhỏcụ thể, đóng góp vào bài tốn lớn hơn Phương pháp này có ưu điểm là dễthực hiện và đơn giản, tuy nhiên, nó yêu cầu sử dụng nhiều tài ngun phầncứng do mỗi mơ hình xử lý ngơn ngữ tự nhiên có kích thước lớn với nhiềutrọng số Hơn nữa, việc sử dụng nhiều mơ hình có thể dẫn đến vấn đề lỗi theothác chảy, chẳng hạn, trong trường hợp trích xuất thơng tin quan hệ, ta cầntrích xuất thơng tin thực thể trước, sau đó sử dụng các thực thể này để tríchxuất quan hệ Nếu q trình trích xuất thơng tin thực thể khơng đạt hiệusuất cao, sẽ ảnh hưởng đến bước phát hiện quan hệ.
Trang 141.2Mục tiêu đề tài
Mục tiêu của đề tài này là trích xuất thơng tin về thực thể và quan hệtrong văn bản tiếng Việt bằng cách áp dụng các kỹ thuật xử lý ngôn ngữ tựnhiên, mô hình học sâu, và đặc biệt là một mơ hình mới là mạng nơ ron đồthị động đa tác vụ Hệ thống được xây dựng dựa trên dữ liệu đầu vào là cácđoạn văn dài, chứa nhiều thông tin, thực thể và quan hệ đa dạng Mục tiêucụ thể là tìm hiểu loại thực thể và quan hệ cụ thể có trong văn bản, để cungcấp một tổng quan thơng tin cho người đọc.
Để đạt được điều đó, tác giả sẽ đi giải quyết từng vấn đề cụ thể sau:• Tìm kiếm, thu thập và lựa chọn tập dữ liệu tiếng Việt thích hợp, chứa
thơng tin về thực thể và quan hệ để sử dụng trong quá trình kiểm travà đánh giá;
• Nghiên cứu các cơng trình nghiên cứu mới nhất trên thế giới trong lĩnhvực trích xuất thơng tin từ văn bản, xác định thực thể và quan hệ.Nghiên cứu về mơ hình mạng nơ ron đồ thị kết hợp tính ngữ cảnh;• Lựa chọn phương pháp tiếp cận, mơ hình mạng, kiến trúc xử lý và các
cơng nghệ phù hợp cho tập dữ liệu tiếng Việt;
• Tiến hành các thí nghiệm để kiểm tra và đánh giá phương pháp tiếpcận được đề xuất, từ đó rút ra ưu điểm và nhược điểm của nó.
1.3Giới hạn đề tài
Với khn khổ của một luận văn thạc sĩ với thời gian nghiên cứu giới hạnnên phạm vi nghiên cứu của cũng được giới hạn như sau:
• Ngơn ngữ của dữ liệu được sử dụng trong nghiên cứu này là tiếng Việt.• Các dữ liệu được sử dụng cho việc huấn luyện, kiểm tra, đánh giá có
đầy đủ nhãn
• Được phép áp dụng các nghiên cứu, cơng trình đã được cơng bố màkhông cần chứng minh lại.
Trang 151.4Đối tượng nghiên cứu
Luận văn này thực hiện nghiên cứu trên các đối tượng sau:
• Dữ liệu dạng văn bản tiếng Việt của bài tốn rút trích thơng tin từ vănbản, bao gồm xác định loại thực thể và loại quan hệ.
• Các mơ hình học sâu liên quan đến xử lý ngơn ngữ tự nhiên như: RNN,LSTM, BERT.
• Các mơ hình rút trích thơng tin từ văn bản sử dụng kiến trúc đồ thị,có sử dụng thơng tin ngữ cảnh của văn bản.
Trang 161.5Cấu trúc luận văn
Nội dung của luận văn này gồm 6 chương.
• Chương 1 Giới thiệu đề tài: đề cập tới lí do chọn đề tài, giới thiệungữ cảnh, tình hình chung liên quan đến bài tốn, những khó khăn,thách thức của đề tài và q trình thực hiện nghiên cứu, sau đó trìnhbày về mục tiêu, phạm vi và cấu trúc luận văn.
• Chương 2 Các cơng trình liên quan: giới thiệu các cơng trình nghiêncứu khoa học liên quan đến đề tài trích xuất thơng tin được tham khảotrong q trình thực hiện nghiên cứu này.
• Chương 3 Kiến thức nền tảng: trình bày những kiến thức nền tảngvề các cách xử lý dữ liệu, các mơ hình học máy, cũng như các kĩ thuậtđược sử dụng trong luận văn.
• Chương 4 Phương pháp đề xuất: trình bày vào bài tốn cụ thể củađề tài, đưa ra những vấn đề và các phương pháp giải quyết đã được ápdụng Trong đó, trình bày chi tiết cách thực hiện, kiến trúc hệ thống vàmơ hình đề xuất, bao gồm cả các thư viện và cơng nghệ áp dụng Đâychính là nền tảng cho phần đánh giá và kiểm thử tiếp theo.
• Chương 5 Kết quả thực nghiệm: trình bày các tập dữ liệu được sửdụng, các thông tin cơ bản và dữ liệu mẫu Sau đó, tác giả giới thiệutừng thí nghiệm đã được tiến hành và đánh giá các kết quả thí nghiệmthu được.
Trang 17Chương 2
Các cơng trình liên quan
Trích xuất thơng tin (Information Extraction) [12] là nhiệm vụ trích xuấttự động thơng tin có cấu trúc từ các tài liệu khơng có cấu trúc hoặc báncấu trúc mà máy có thể đọc được và các nguồn được biểu diễn điện tử khác.Trong hầu hết các trường hợp, hoạt động này liên quan đến việc xử lý cácvăn bản ngôn ngữ của con người bằng phương pháp xử lý ngôn ngữ tự nhiên.Các hoạt động gần đây trong xử lý tài liệu đa phương tiện như chú thích tựđộng và trích xuất nội dung ra khỏi hình ảnh/ âm thanh/ video/ tài liệu cóthể được coi là trích xuất thơng tin Dữ liệu ngơn ngữ tự nhiên thường đượchiểu là loại dữ liệu khơng có cấu trúc Tuy nhiên, trong thực tế, dữ liệu vănbản được tạo nên bởi nhiều cấu trúc nhưng hầu hết đều không rõ ràng khiếnq trình tìm kiếm và phân tích thơng tin trở nên khó khăn hơn Mục tiêucủa việc nghiên cứu các phương pháp rút trích thơng tin là tự động chuyểnđổi dữ liệu từ dạng khơng có cấu trúc sang dạng có cấu trúc ngữ nghĩa, từđó tiến hành phân tích, xác định và phân loại các thực thể tồn tại trong vănbản cũng như các mối quan hệ giữa các thực thể đó Trong một số trườnghợp, hệ thống cịn có khả năng sinh ra các loại thơng tin ẩn khác bằng cáchsuy luận từ những thông tin về thực thể và mối quan hệ đã được rút tríchtrước đó Tất cả các thơng tin, kết quả của quá trình này thường được lưu lạinhằm phục vụ cho các tác vụ khác trong hệ thống; do đó, các tác vụ sau cóđạt hiệu quả cao hay khơng đều phụ thuộc một phần vào thơng tin rút tríchđược ở tác vụ này.
Các cơng trình nghiên cứu cho bài tốn trích xuất thơng tin có thể đượcchia thành 4 hướng chính:
Trang 18của dữ liệu đoạn văn Các bài báo này thường tập trung vào cải thiệnbước nhúng thông tin, chuyển đổi thông tin từ văn bản sang dạng véctơ để mơ hình học, cũng như thay đổi kiến trúc mạng chính dựa trênnhững phân tích về đặc điểm của văn bản.
• Làm giàu dữ liệu: Ngơn ngữ có rất nhiều từ vựng, và cách diễn đạttừ để tạo thành câu văn cũng vô cùng phong phú Do đó, mơ hình sẽhoạt động tốt hơn nếu được học trên tập dữ liệu lớn, phong phú, cótính bao quát Tuy nhiên, việc thu thập được dữ liệu lớn đáp ứng ucầu như vậy là một cơng việc khó khăn, địi hỏi rất nhiều cơng sức cũngnhư tiền của Nhằm mục đích tăng lượng dữ liệu cung cấp cho mơ hìnhhọc, với một lượng cơng sức bỏ ra chấp nhận được, các tác giả đã lựachọn áp dụng các kĩ thuật làm giàu dữ liệu [7]
• Bổ sung thơng tin cho mơ hình: Lĩnh vực trí tuệ nhân tạo, máy họcnói chung hay xử lý ngơn ngữ tự nhiên đã xuất hiện được một khoảngthời gian, và có sự bùng nổ gần đây Bài tốn trích xuất thơng tin từ vănbản là một bài tốn ngun tử, đóng vai trò tiên quyết trong hầu hếtcác tác vụ xử lý ngôn ngữ tự nhiên dạng văn bản Do vậy, các nghiêncứu sinh, các nhà khoa học đã tìm hiểu và phát triển ra những phươngpháp, mơ hình hoạt động tốt trên những tập dữ liệu sẵn có Tuy nhiên,với lượng thông tin cố định được cung cấp tại những tập dữ liệu khiêmtốn ban đầu, ta khó có thể vượt qua được các thành tựu đi trước, đểđạt được kết quả tốt hơn Vì thế, một số bài báo [26] [25] đã tiến hànhtìm tịi các thơng tin mới, hữu ích giúp mơ hình có thêm cơ sở để đưara quyết định.
• Sử dụng mơ hình kết hợp: Ngồi các phương pháp kể trên, đối vớidữ liệu tiếng Việt, tác giả một số bài báo [21] sử dụng kết hợp các mơhình đơn vào trong một mơ hình kết hợp để giải quyết bài tốn Ý tưởngchính của phương pháp này là tận dụng lợi thế của từng mơ hình đơncho các dữ liệu khác nhau, và dùng cơ chế đóng góp trọng số để lấy kếtquả dự đốn cuối cùng.
2.1Các mơ hình mới
Trang 19Framework for Information Extraction using Dynamic Span Graphs [17] đượccông bố vào năm 2019 Phần lớn các bài tốn trích xuất thơng tin yêu cầuviệc định danh và phân loại các cụm từ, bao gồm xác định danh tính thực thể(naming entity recognition - NER), trích xuất quan hệ (relation extraction),phân giải đồng tham chiếu (coreference resolution), Với quan sát rằng, kiếnthức từ việc học tác vụ này có thể hữu ích với các tác vụ còn lại, tác giả YiLuan cùng các đồng sự đã lồng ghép các tác vụ trên vào trong một luồngthực thi như sau: phân giải đồng tham chiếu → xác định danh tính thực thể→ trích xuất quan hệ.
Tác giả phát triển một nền tảng trích xuất thông tin lấy tên là DyGIEđược sử dụng để nhận dạng và phân loại các thực thể, quan hệ, và đồng thamchiếu trong một mơ hình đa tác vụ DyGIE duyệt qua tất cả các cụm từtrong từng câu và tính tốn các véc tơ chứa thơng tin ngữ cảnh cục bộ chomỗi cụm từ Mơ hình sử dụng đồ thị động để kết hợp thơng tin tồn cục vàobiểu diễn của các cụm từ Trong quá trình huấn luyện, mơ hình xác định cácđoạn văn bản giống nhất và coi chúng như các nút trong cấu trúc đồ thị Cáccung trong đồ thị được đánh trọng số tin cậy tương ứng với đồng tham chiếuvà quan hệ giữa các nút Sau đó, các biểu diễn cụm từ được tinh chỉnh bằngcách sử dụng ngữ cảnh rộng hơn thông qua các bản cập nhật được lan truyềntừ các tác vụ xác định loại quan hệ và thực thể cùng tham chiếu Cuối cùng,véc tơ biểu diễn này được sử dụng để dự đoán loại thực thể, quan hệ và đồngtham chiếu của các đối tượng.
Kiến trúc mơ hình DyGIE bao gồm 5 lớp:
• Lớp biểu diễn từ (Token representation layer): ta sử dụng BiLSTM đểrút trích đặc trưng, chồng kết quả đầu ra của 2 lớp LSTM lại ta thuđược véc tơ đầu ra.
• Lớp biểu diễn span (Span representation layer): kết hợp các véc tơ mãhóa bởi BiLSTM trên với các chỉ mục đánh dấu khởi đầu và kết thúccủa cụm từ để chuẩn bị thông tin đưa vào đồ thị.
Trang 20• Lớp lan truyền quan hệ (Relation Propagation Layer): sử dụng gNi làmđầu vào, và xử lý tính tốn, cập nhật tương tự như ở bước lan truyềnđồng tham chiếu Cuối cùng ta được biểu diễn gN +Mi
• Lớp dự đốn cuối cùng: sử dụng gN +M
i để dự đoán nhãn thực thể Evà nhãn quan hệ R Với tác vụ dự đoán nhãn thực thể, sử dụng mạngnơ ron truyền thẳng (Feed Forward Neuron Network - FFNN ) để tínhPE(i) cho mỗi cụm từ si Với các tác vụ dự đoán quan hệ, ta sử dụngcặp giN +M, gjN +M qua FFNN để tính xác suất PR(i, j) giữa 2 cụm si vàsj Với yêu cầu xác định đồng tham chiếu, ta dùng đầu ra của lớp lantruyền đồng tham chiếu giN, gjN để tính tốn mối liên hệ giữa si và sj.Sau khi có được kiến trúc mơ hình ở trên, ta sẽ đi vào thực hiện xây dựngđồ thị động và tinh chỉnh lại biểu diễn của các cụm từ Các nút trong đồ thịlà véc tơ biểu diễn git ∈ Rd cho lần lặp thứ t Các cạnh được đánh trọng sốbằng điểm đồng tham chiếu hoặc điểm tin cậy cho quan hệ, các điểm số nàysẽ được huấn luyện bằng mơ hình.
Với mơ hình và các thiết kế kiến trúc được xác định ở phần trên, ta sẽbước sang phần huấn luyện mơ hình Hàm mất mát được sử dụng ở đây sẽlà:
X
(D,R∗,E∗,C∗)∈D
∆ElogP (E∗|C, R, D) + ∆RlogP (R∗|C, D) + ∆ClogP (C∗|D)(2.1)Trong đó E∗, R∗, C∗ là cấu trúc đúng của các loại thực thể, mối quan hệvà đồng tham chiếu D là tập huấn luyện, ∆E, ∆R, ∆C là các siêu tham số đểđiều chỉnh độ quan trọng của các tác vụ Tác giả sử dụng một lớp LSTM 200chiều ẩn Các FFNN có 2 lớp ẩn với 150 chiều Để tránh mơ hình học được"quá khớp", tác giả sử dụng thêm các lớp bỏ bớt như sau: cắt giảm bớt 0.4lượng thông tin của LSTM, cắt giảm với tỉ lệ 0.4 cho FFNN, cắt giảm với tỉlệ 0.5 cho bộ nhúng véc tơ đầu vào Các tham số khác như trọng số tác vụ,hệ số học, chiều dài tối đa của cụm từ, số lần lặp, kích thước chùm được điềuchỉnh cho từng tập dữ liệu.
Trang 212019 Kết quả của việc trích xuất thơng tin bao gồm xác định danh tính thựcthể, trích xuất quan hệ, trích xuất sự kiện, có thể nâng cao nếu có sử dụngngữ cảnh tồn cục trong câu hoặc các mối liên hệ phụ thuộc không cục bộgiữa các từ Trong bài báo này, tác giả sử dụng các phương pháp khác nhauđể kết hợp ngữ cảnh tồn cục trong một nền tảng trích xuất thơng tin đa tácvụ, dựa trên 1 phương pháp trích xuất thơng tin lấy cụm từ làm cơ sở trướcđó DyGIE Mơ hình mới này được đặt tên là DyGIE++.
DyGIE++ đạt kết quả đứng đầu trên cả 3 tác vụ trích xuất thơng tin trêncác tập dữ liệu ACE05 [1], ACE05-Event, SciERC [16], GENIA [2], WLPC[14] Bộ mã hoá (encoding) sử dụng BERT có thể nắm bắt ngữ cảnh quantrọng bên trong câu và ngữ cảnh câu liền kề, đạt được hiệu suất cao hơn nếutăng kích thước cửa sổ đầu vào Bộ mã hố chèn thơng tin ngữ cảnh thơngqua việc cập nhật trong q trình truyền cho phép mơ hình kết hợp thuộctính phụ thuộc giữa các câu với nhau, nâng cao hiệu suất so với việc chỉ dùngBERT, đặc biệt trên các tác vụ cụ thể.
Hình 2.1: Kiến trúc tổng quan của mơ hình DyGIE++
Các biểu diễn cụm chia sẻ được xây dựng bằng cách tinh chỉnh các phépnhúng từ ngữ theo ngữ cảnh thông qua cập nhật đồ thị, sau đó được chuyểnđến các hàm tính điểm cho 3 tác vụ trích xuất thơng tin Kiến trúc DyGIE++được xây dựng gồm 4 phần:
Trang 22• Đánh chỉ mục từ (Span enumeration): các đoạn văn bản được đánh sốvà xây dựng bằng cách nối thêm kí tự đại diện bắt đầu và kết thúc củacâu.
• Lan truyền đồ thị cho span (Span graph propagation): Mơ hình sử dụngcấu trúc đồ thị được tạo động dựa trên các dự đoán tốt nhất hiện tạivề mối quan hệ giữa các từ trong tài liệu Mỗi biểu diễn từ được cậpnhật bằng cách tích hợp thơng tin từ các vùng lân cận trong đồ thị,sử dụng ba dạng lan truyền thông tin: lan truyền thông tin mối quanhệ, lan truyền thông tin đồng tham chiếu và lan truyền thông tin sựkiện Trong lan truyền thông tin đồng tham chiếu, các lân cận của mộttừ trong đồ thị có thể là các tiền đề đồng tham chiếu của chính từ đó.Trong lan truyền thơng tin mối quan hệ, các lân cận là các thực thể cóliên quan trong cùng một câu Trong lan truyền thông tin sự kiện, cócác nút kích hoạt sự kiện và các nút đối số sự kiện; các nút kích hoạtgửi thơng báo đến các đối số có thể xảy ra của chúng và các đối số gửithơng báo trở lại các nút kích hoạt có thể xảy ra của chúng Quy trìnhđào tạo hồn chỉnh từ đầu đến cuối, trong đó mơ hình học cách xácđịnh các liên kết quan trọng giữa các phạm vi và cách chia sẻ thông tingiữa các phạm vi đó.
Mỗi vịng lặp t, mơ hình sẽ sinh ra véc tơ cập nhật utx(i) cho cụm st ∈ Rd:utx(i) = X
j∈Bx(i)
Vxt(i, j) ⊙ gtj (2.2)
Trong đó Vxt(i, j) là phép tính độ tương tự giữa i và j với tác vụ x gjtlà phép tính lồi giữa kết quả trước và giá trị cập nhật hiện tại, trọng sốđược xác định thông qua một hàm dạng cổng.
Trang 232.2Làm giàu dữ liệu
Các mơ hình xử lý ngôn ngữ tự nhiên yêu cầu lượng lớn dữ liệu để có thểhọc tập, tuy nhiên việc thu thập dữ liệu, cũng như đánh nhãn rất tốn kémnên tác giả cung cấp SCIBERT [7] như một mơ hình được huấn luyện trướckhi cần xử lý các bài toán liên quan đến tài liệu khoa học.
Về kiến trúc mơ hình, SCIBERT vẫn giống BERT nhưng được huấn luyệntrên tập dữ liệu văn bản khoa học Tác giả xây dựng tập từ vựng mới từdữ liệu trong mảng khoa học, đặt tên là SciVocab Tập từ vựng này cũngcó kích thước 30.000 từ vựng, và độ trùng lặp với tập từ vựng của BERT là42% SCIBERT được huấn luyện trên 1.14 triệu bài báo từ Semantic Scholar.Tập dữ liệu này có 18% thuộc khoa học máy tính và 82% thuộc về y học mởrộng Toàn bộ văn bản trong bài báo đều được sử dụng Độ dài trung bìnhcủa các bài báo là 154 câu, tổng cộng có 3.17 tỉ từ, gần bằng 3.3 tỉ từ củaBERT Các câu trong bài báo được cắt thành các từ nhờ thư viện ScispaCy [3].
Về phần huấn luyện mơ hình để làm thí nghiệm, tác giả sử dụng lại BERTgốc, với các tham số đã được học trước Đồng thời huấn luyện SCIBERT trêncác tập dữ liệu mới đã mô tả ở trên cho 5 tác vụ: nhận dạng loại thực thể(NER), trích xuất PICO (PICO), phân loại văn bản (CLS), phân loại mốiquan hệ (REL), phân tách tính phụ thuộc (DEP).
Để áp dụng BERT vào thí nghiệm của mình, Iz Beltag và các cộng sự tiếnhành tinh chỉnh BERT Với bài toán phân loại văn bản, tác giả đưa véc tơcuối được BERT nhúng cho mỗi từ vào một lớp phân loại tuyến tính Với bàitoán dạng đánh nhãn cho chuỗi như NER hay PICO, ta đưa véc tơ cuối củamỗi từ vào lớp phân loại tuyến tính rồi dùng hàm kích hoạt softmax, sau đósử dụng thêm kĩ thuật trường ngẫu nhiên có điều kiện (conditional randomfield - CRF ) Với bài toán DEP, tác giả sử dụng mơ hình tại bài báo DeepBiaffine Attention for Neural Dependency Parsing [9], ta đánh nhãn lên cácmối quan hệ phụ thuộc, các cung nhúng và ma trận chú ý biaffine trên cácvéc tơ BERT thay cho BiLSTM.
Trang 24hai lớp BiLSTM và nơ ron nhiều tầng để nối hai véc tơ của BiLSTM Với bàitoán đánh nhãn lên chuỗi, ta thêm vào một lớp BiLSTM tương tự và đưa vàolớp CRF Với bài tốn phân tách tính phụ thuộc, tác giả sử dụng lại mơ hìnhgiống lúc tinh chỉnh BERT nhưng véc tơ đầu ra được đưa vào BiLSTM.
Hình 2.2: Hiệu suất của các biến thể BERT trên các tác vụ và bộ dữ liệu.
Điểm số F1 cho NER (cấp độ cụm từ), điểm số F1 cho REL và CLS (cấpđộ câu), F1 cho PICO (cấp độ từ), tính điểm số F1 cho ChemProt Đối vớiDEP, tác giả báo cáo điểm số phần đính kèm được gắn nhãn (LAS) và khơngđược gắn nhãn (UAS) (không bao gồm dấu chấm câu) cho cùng một mơ hìnhvới siêu tham số được điều chỉnh cho LAS Tất cả các kết quả là trung bìnhcủa nhiều lần chạy với các khởi đầu ngẫu nhiên khác nhau.
Trang 252.3Bổ sung thông tin cho mô hình
Các hướng tiếp cận được đề cập ở trước đều cố gắng tận dụng tối đanhững thông tin được cung cấp, ẩn chứa trong tập dữ liệu có sẵn Các mơhình đó đều đã được đạt những thành cơng nhất định trong các tác vụ cụ thể,với hiệu suất thể hiện rất cao Nhưng khơng dừng lại ở đó, các nhà nghiêncứu vẫn muốn tìm tịi giải pháp nâng cao kết quả cho mơ hình, giải phápcàng được phát triển thì tiềm năng ứng dụng vào điều kiện thực tế cuộc sốnghàng ngày sẽ càng lớn hơn Một số bài báo gần đây, A Frustratingly Easy Ap-proach for Entity and Relation Extraction [26] của Zexuan Zhong và DanqiChen năm 2021, Pack Together: Entity and Relation Extraction with LevitatedMarker [25] của Deming Ye cuối năm 2021, lấy ý tưởng từ việc thêm thơngtin hỗ trợ cho q trình huấn luyện, các tác giả đã giúp nâng cao hiệu suấttrích xuất thơng tin thêm một lần nữa.
Nhận dạng loại thực thể và trích xuất quan hệ là hai tác vụ chính củacơng việc trích xuất thơng tin Các cơng trình trước thường xử lý theo hướngphân loại cụm, do đó, họ đi sâu vào việc tìm kiếm cách biểu diễn tốt nhấtcủa cụm từ tại bộ mã hoá Tuy nhiên, hạn chế chính của các cơng trình đólà đã bỏ qua sự phụ thuộc giữa các cụm từ với nhau Trong bài báo này, tácgiả đề xuất một phương pháp biểu diễn mới cho sự phụ thuộc của các cụmtừ với nhau bằng cách đóng gói các điểm đánh dấu vào trong bộ mã hố mộtcách có tính tốn, phương pháp này gọi là Packed Levitated Markers.
Hình 2.3: Một số ví dụ mô tả các cách đánh dấu
Trang 26tốc quá trình suy diễn Một cặp bộ đánh dấu nổi sẽ được đóng gói cùng vớicụm từ, bao gồm kí tự bắt đầu, kí tự kết thúc Các kí tự đánh dấu chia sẻ vịtrí khi được nhúng với kí tự bắt đầu và kết thúc, và giữ số thứ tự vị trí củađoạn văn bản ban đầu, khơng thay đổi.
Để xử lý nhiều cặp kí tự đánh dấu nổi song song và không ảnh hưởng đếnnhau, tác giả sử dụng hạn chế các cung chú ý (attention arc) Một cặp điểmđánh dấu nổi là khơng thể nhìn thấy đối với đoạn văn bản, và với kí tự đánhdấu nổi khác Mỗi điểm đánh dấu nổi có thể nhìn thấy điểm đánh dấu cònlại trong cùng cặp, để xác định cụm từ được liên kết Mơ hình sẽ đẩy chuỗikết hợp của chuỗi văn bản và cặp kí tự đánh dấu nổi vào trong mơ hình biếnđổi để thu được biểu diễn có thơng tin ngữ cảnh.
- Biểu diễn cụm từ: Nhờ việc song song hóa các bộ đánh dấu nổi, ta cóthể ghép linh hoạt nhiều cụm từ liên quan với nhau, nhiều kí tự đánh dấu lạivới nhau để tiến hành mơ hình hố tồn diện cho mỗi cụm từ Ví dụ, ta cóthể áp dụng bộ đánh dấu nổi để đánh dấu các đoạn bị chồng chéo, để phânloại các cụm từ có thể trong văn bản Hơn nữa, có thể dùng chiến lược gomnhóm để tăng tốc độ tính tốn cho các cụm siêu dài.
- Mơ hình thực thể: Với bài tốn nhận dạng loại thực thể, cho một chuỗiN từ, X = {x1, x2, , xN}, tiến hành đánh thứ tự các cụm có thể trong Xvới độ dài tối đa L, đặt tên tập hợp này là S(X), sau đó gán nhãn các cụmtừ.
Hình 2.4: Tổng quan về mơ hình NER và RE với bộ đánh dấu nổi
Trang 27luyện sẵn như BERT để thu được các chuỗi biểu diễn có kèm ngữ cảnh gọi làH = (h1, h2, , hN) Tập hợp H này sau đó được chia thành các tập hợp nhỏhơn, mỗi tập hợp có K phần tử Mỗi lần, ta sẽ xử lý đoạn văn bản cùng vớimột nhóm các kí tự đánh dấu nổi thay vì tồn bộ để phân bố độ phức tạptính tốn ra.
- Biểu diễn cặp cụm từ: Mơ hình cặp cụm từ làm theo hướng mơ hìnhđóng gói hướng chủ đề hợp nhất (fusion subject-oriented packing scheme),trong đó kí tự đánh dấu cứng được đánh cho thực thể chủ ngữ và các đánhkí tự đánh dấu nổi được đánh cho các thực thể tiềm năng.
- Mơ hình xác định quan hệ: Đầu tiên, tác giả dùng mơ hình nhận dạngloại thực thể để thu hẹp số lượng các ứng viên, và cũng thu được các biểudiễn cho cặp từ Trong hình 2.4, ta sẽ đánh kí tự đánh dấu cứng cho chủ từDavid Green trước, rồi đánh kí tự đánh dấu nổi cho các ứng viên còn lại làhis, wife, Dallas Ta sẽ đi dự đoán quan hệ giữa thực thể chủ từ si = (a, b)và cụm khác sj = (c, d), áp dụng một lớp tuyến tính trên biểu diễn theo ngữcảnh của các điểm đánh dấu.
P (r|S = si, O = sj) = Sof tmax(Wr[ha−1; hb+1; h(s)c ; h(e)d ]) (2.3)Trong đó, [A;B;C;D] là tốn tử nối các vector A,B,C,D WR là tham sốhuấn luyện được của bộ phân lớp quan hệ S và O là chủ từ và đối tượng.ha−1 và hb+1 là các biểu diễn có ngữ cảnh của kí tự đánh dấu cứng cho cụmsi h(s)c và h(e)d là các biểu diễn có ngữ cảnh của kí tự đánh dấu nổi cho sj.Để cung cấp thêm thơng tin, tác giả cịn dùng thêm tham số r−1 để thể hiệnquan hệ giữa đối tượng và chủ từ, dựa trên đó, tác giả đưa đến việc dự đoán2 chiều cho cặp (si, sj) Cuối cùng, xác xuất quan hệ dự đốn có thể được sosánh bằng:
ˆ
P (r|S = si, O = sj)2 ∝ P (r|S = si, O = sj)P (r−1|S = si, O = sj) (2.4)
2.4Sử dụng mơ hình kết hợp
Trang 28nhất định Tuy nhiên, với các tập dữ liệu khác hoặc điều kiện dữ liệu đa dạngtrong thực tế, liệu kết hợp các ưu điểm khác nhau của các mơ hình khác nhaucó thể giúp ích cho việc dự đốn? Chính từ ý tưởng này, một phương pháptiếp cận khác đã được một số tác giả lựa chọn sử dụng là kết hợp mơ hình Bàibáo An Empirical Study of Using Pre-trained BERT Models for VietnameseRelation Extraction Task at VLSP 2020 [21] đạt kết quả cao trên tập dữ liệuVLSP 2020 [4] với phương pháp như vậy.
Trong bài báo, tác giả tập trung phân loại các quan hệ dựa trên học tậpcó giám sát Mỗi dữ liệu đầu vào được định nghĩa như sau: r = (x, s1, s2, y).Trong đó, x = [x0, x1, , xn] là chuỗi các từ, x0 = [CLS] là kí tự đặc biệtđể đánh dấu vị trí bắt đầu; s1 = (i, j) và s2 = (k, l) với i, j, k, l ∈ N và0 < i ≤ j ≤ n, 0 < k ≤ l ≤ n là vị trí bắt đầu và kết thúc của 2 thực thểđược đề cập trong x Ngoài ra, ta sử dụng nhãn OTHER cho các cặp thựcthể khơng có mối quan hệ nào.
Trang 29Chương 3
Kiến thức nền tảng
3.1Tích chập rời rạc
Tích chập (convolution) là khái niệm cơ bản, được sử dụng làm nền tảngcho rất nhiều bài toán xử lý ảnh, thị giác máy tính Tích chập là tốn tử màta thực hiện xoay cửa sổ 180 độ, tức lật cửa sổ lần lượt theo trục x và y, sauđó áp dụng phép tương quan (correlation) Tương quan giữa cửa sổ và ảnhđược tính tốn bằng cách áp dụng kĩ thuật cửa sổ trượt (stride), tại mỗi điểmảnh, ta tính tốn tích vô hướng giữa cửa sổ và vùng ảnh tương ứng.
Công thức tích chập trên miền rời rạc có 2 chiều:
F ∗ I(x, y) =NXj=−NNXi=−NF (i, j)I(x − i, y − j) (3.1)3.2Hàm kích hoạt3.2.1Hàm kích hoạt Softmax
Trang 303.2.2Hàm kích hoạt ReLU
Rectified Linear Unit - ReLU được sử dụng rộng rãi gần đây vì tính đơngiản Nó có cơng thức là f (x) = max(0, x) Các đặc điểm của hàm ReLU:
• ReLU được chứng minh nhanh hơn nhiều lần so với các hàm sigmoidvà tanh trong huấn luyện mạng học sâu Sự tăng tốc này được cho làvì ReLU được tính tốn gần như tức thời và gradient của nó cũng đượctính cực nhanh với gradient bằng 1 nếu đầu vào lớn hơn 0, bằng 0 nếuđầu vào nhỏ hơn 0.
• Mặc dù hàm ReLU khơng có đạo hàm tại x = 0, trong thực nghiệm,người ta gán f′(0) = 0 và khẳng định thêm rằng xác xuất để một điểmcó giá trị bằng 0 là rất nhỏ.
3.3Giải thuật xuống đồi (Gradient Descent)
Ý tưởng cơ bản của thuật toán xuống đồi là ta sẽ xuất phát từ một điểmđược cho là gần với nghiệm của bài tốn, thơng qua hữu hạn lần lặp, ta sẽdần đến điểm tối ưu của bài tốn.
Cơng thức chính trong giải thuật xuống đồi:
wt+1 = wt − α ∗ ▽wJ (wt) (3.3)với wt là bộ trọng số của mạng tại thời điểm t, wt+1 là bộ trọng số của mạngtại thời điểm t + 1, α là hệ số học (learning rate), ▽wJ (wt) là giá trị đạo hàmcủa hàm mất mát J tại điểm wt Siêu tham số α cần được điều chỉnh phùhợp để mạng có thể hội tụ trong quá trình huấn luyện Nếu hệ số học quánhỏ thì mạng sẽ lâu hội tụ, cần số lượng vịng lặp rất lớn để đi đến điểm tốiưu Ngược lại, hệ số học quá lớn sẽ dẫn tới tình trạng mơ hình khơng hội tụđược vì khơng tiến gần được tới điểm tối ưu.
3.4Hàm lỗi cross entropy
Trang 31lỗi cross entropy:J (W ; X, Y ) = −NXi=1CXj=1yjilog(aji) (3.4)Với yji và aji lần lượt là phần tử thứ j của véc-tơ xác suất yi và ai Đầu ra ai
được tính dựa trên xi và W
3.5Mạng nơ ron nhân tạo (Artifical neuronnetwork)
Hình 3.1: Mạng nơ ron sinh học và mạng nơ ron nhân tạo
Mạng nơ ron nhân tạo (Artifical neuron network - ANN ), thường đượcgọi đơn giản là mạng nơ ron, là hệ thống tính tốn lấy cảm hứng từ mạng nơron sinh học cấu thành não động vật.
Trang 32cạnh thường có trọng lượng sẽ điều chỉnh khi quá trình học tiếp tục diễn ra.Trọng lượng làm tăng hoặc giảm cường độ của tín hiệu tại một kết nối Tếbào thần kinh có thể có một ngưỡng sao cho một tín hiệu chỉ được gửi đi khitín hiệu tổng hợp vượt qua ngưỡng đó Thơng thường, các tế bào thần kinhđược tập hợp thành các lớp Các lớp khác nhau có thể thực hiện các phépbiến đổi khác nhau trên các đầu vào của chúng Tín hiệu đi từ lớp đầu tiên(lớp đầu vào), đến lớp cuối cùng (lớp đầu ra), có thể sau khi đi qua các lớpnhiều lần.
Hình 3.2: Cấu tạo cơ bản của một nút nơ ron
Hình 3.2 biểu diễn cấu tạo và sơ đồ tính tốn cơ bản một nơ ron nhân tạo(perceptron) Trong ví dụ này, một nơ-ron hay một nút tính tốn sẽ:
• Nhận vào n giá trị đầu vào x1, x2, , xn và một giá trị cố định để điềuchỉnh độ chênh lệch (bias)
• Thực hiện tính tổng giá trị các giá trị đầu vào với n + 1 trọng số tươngứng là w0, w1, , wn
Trang 33Hình 3.3: Mạng nơ ron nhân tạo nhiều lớp (Multilayer perceptron)
Khi kết hợp nhiều perceptron với nhau sẽ tạo nên mơ hình ANN gồmnhiều tầng (layer), tuỳ mỗi tầng sẽ có nhiệm vụ riêng
• Tầng đầu vào (input layer) là tầng đầu tiên chịu trách nhiệm nhận dữliệu đầu vào.
• Tầng ẩn (hidden layer) nằm sau lớp đầu vào, chịu trách nhiệm chínhcho việc tính tốn và suy diễn của mơ hình mạng Tầng ẩn khơng cógiới hạn số lượng các lớp.
• Tầng kết quả (output layer) là tầng cuối cùng, chịu trách nhiệm đưa rakết quả đầu ra cho mơ hình.
3.6Mơ hình mạng nơ ron hồi quy (Recurrentneural network - RNN)
Trang 34văn bản.
Mạng nơ ron hồi quy (Recurrent Neural Network - RNN ) [19] là mơ hìnhhọc máy được xây dựng cho các bài toán xử lý dữ liệu dạng chuỗi, trong đócó dữ liệu ngơn ngữ tự nhiên, cũng được gọi là mơ hình ngơn ngữ Mơ hìnhRNN được thiết kế với ý tưởng chính là dùng một bộ nhớ để lưu thơng tinphía trước, kết hợp, tính tốn với thơng tin phía sau để cho ra kết quả RNNgồm một tầng xử lý dữ liệu với số lượng nút nơ ron bằng độ dài chuỗi dữ liệuđầu vào Ngồi thơng tin của dữ liệu đầu vào, nơ ron có thêm dữ liệu đầu vàokhác là đầu ra của nơ ron ở ngay trước nó.
Hình 3.4: Mơ hình RNN
Trong đó, xt là đầu vào tại thời điểm t, st là trạng thái ẩn tại thời điểm tvà Ot là đầu ra tại thời điểm t Một mạng nơ ron truyền thống sử dụng thamsố khác nhau ở mỗi lớp trong khi RNN chia sẻ cùng một tham số trên tất cảcác lớp, trong biểu đồ, chúng ta có thể thấy rằng các tham số giống nhau (U,V, W) đã được sử dụng trên tất cả các lớp Việc sử dụng các tham số giốngnhau trên tất cả các lớp cho thấy rằng mơ hình đang thực hiện cùng một tácvụ với các đầu vào khác nhau, do đó giảm tổng số tham số cần tìm hiểu Tậphợp tham số (U, V và W) được sử dụng để áp dụng phép biến đổi tuyến tínhtrên các đầu vào tương ứng của chúng
• Tham số U biến đổi đầu vào xt thành trạng thái st
• Tham số W biến đổi trạng thái trước đó st−1 thành trạng thái hiện tại• Và, tham số V ánh xạ trạng thái bên trong được tính tốn tới đầu ra
Ot
Trang 35ht = f (ht−1, xt) (3.5)Trong đó, ht là trạng thái hiện tại, ht−1 là trạng thái trước đó và xt là đầuvào hiện tại Phương trình áp dụng sau khi dùng hàm kích hoạt tanh là:
ht = tanh(Whhht−1 + Wxhxt) (3.6)Trong đó, Whh: trọng số tại nơ ron hồi quy, Wxh: trọng số tại nơ ron đầuvào Sau khi tính tốn được giá trị cuối cùng, ta có thể tính giá trị đầu racủa mơ hình sử dụng hàm softmax như sau:
Ot = sof tmax(Whyht) (3.7)Trong đó, Ot là trạng thái đầu ra, Why là trọng số ở lớp đầu ra, ht là trạngthái hiện tại.
3.7Mơ hình mạng bộ nhớ ngắn - dài hạn(Long Short - Term Memory - LSTM) vàBi-LSTM
Mạng bộ nhớ ngắn - dài hạn (Long Short - Term Memory) [13], thườngđược gọi là LSTM, là một loại RNN đặc biệt, có khả năng học các phụ thuộcdài hạn Chúng được giới thiệu bởi Hochreiter và Schmidhuber vào năm 1997,và đã được cải tiến, trở nên phổ biến trong các tác vụ làm việc với dữ liệuchuỗi trên tồn thế giới.
Trang 36Hình 3.5: Minh hoạ mơ-đun lặp lại của LSTM
Chìa khóa của LSTM là trạng thái của các nút tính tốn Trạng thái núttính tốn giống như một băng chuyền Bước đầu tiên trong LSTM là quyếtđịnh thông tin nào chúng ta sẽ loại bỏ khỏi trạng thái của nút tính tốn.Quyết định này được thực hiện bởi một lớp sigmoid được gọi là "lớp cổngquên" Nó xem xét ht−1 và xt, và xuất ra một số từ 0 đến 1 cho mỗi số ởtrạng thái ô Ct−1 Số 1 đại diện cho việc giữ lại tồn bộ thơng tin trong khisố 0 đại diện cho khơng giữ lại thơng tin gì.
ft = σ(Wf.[ht−1, xt] + bf) (3.8)Bước tiếp theo là quyết định thông tin mới mà ta sẽ lưu trữ ở trạng tháicủa nút tính tốn Việc này có hai phần Đầu tiên, một lớp sigmoid được gọilà "lớp cổng đầu vào" quyết định giá trị nào sẽ được cập nhật Tiếp theo,một lớp tanh tạo ra một véc tơ có các giá trị ứng viên mới, ˜Ct, có thể đượcthêm vào trạng thái Trong bước tiếp theo, ta sẽ kết hợp hai điều này để tạobản cập nhật cho trạng thái của ô.
it = σ(Wi.[ht−1, xt] + bi) (3.9)
˜
Ct = tanh(WC.[ht−1, xt] + bC) (3.10)Bây giờ chúng ta sẽ cập nhật trạng thái ô cũ Ct−1 thành trạng thái ô mớiCt.
Trang 37Cuối cùng, ta sẽ tính tốn kết quả đầu ra của mơ-đun.
ot = σ(Wo.[ht−1, xt] + bo) (3.12)ht = ot ∗ (Ct) (3.13)Mơ hình LSTM được tạo thành từ cách kết hợp nhiều mơ-đun tính tốnlại, có chiều từ trái sang phải, cịn được gọi là mơ hình LSTM một chiều Mơhình này chỉ có khả năng dự đốn với độ chính xác cao khi được cung cấpmột vài thông tin ở phần đầu của chuỗi dữ liệu Một mơ hình mới kết hợphai mơ hình LSTM ngược chiều nhau đã được đề xuất để cải thiện nhượcđiểm của LSTM Mơ hình LSTM mới này cho phép đồng thời huấn luyện dữliệu với chiều từ trái sang phải và ngược lại, cuối cùng kết hợp kết quả của 2luồng đọc dữ liệu lại để thực hiện dự đốn Đây chính là mơ hình có tên gọilà Bidirectional LSTM - BiLSTM có kiến trúc như hình dưới đây.
Hình 3.6: Kiến trúc tổng quan của mơ hình Bi-LSTM
Trang 383.8Cơ chế Attention
Cơ chế Attention (cơ chế chú ý) đã xuất hiện trong lĩnh vực học sâu và đãmang lại hiệu quả đáng kể cho nhiều mơ hình Nó hiện đang được coi là mộtyếu tố khơng thể thiếu trong các mơ hình tiên tiến nhất Vì vậy, để làm việcvà áp dụng hiệu quả cơ chế này, việc hiểu và tập trung vào cơ chế Attentionlà vô cùng quan trọng.
Trước khi thảo luận về cơ chế attention, chúng ta cần hiểu lý do tại sao cơchế này ra đời, đặc biệt là trong bài tốn dịch máy Thơng thường, chúng tasử dụng mơ hình seq2seq với hai phần chính: khối mã hóa (encoder) và khốigiải mã (decoder) Mơ hình này có nhiệm vụ chuyển đổi một chuỗi đầu vàotừ một ngôn ngữ sang một chuỗi kết quả trong ngôn ngữ khác Cả hai khốinày đều được xây dựng bằng các lớp mạng nơ ron hồi quy (RNN).
Khối mã hóa (encoder) có nhiệm vụ xử lý thông tin đầu vào và tạo ramột véc tơ biểu diễn duy nhất, cũng được gọi là quá trình nén thơng tin Véctơ biểu diễn này mang tồn bộ thơng tin cần thiết để khối giải mã (decoder)có thể tạo ra câu kết quả Trong thực tế, mơ hình seq2seq với kiến trúc RNNhoạt động tốt với các chuỗi có độ dài ngắn Tuy nhiên, khi độ dài chuỗi tănglên, chất lượng của mơ hình sẽ giảm đáng kể.
RNN gặp hai vấn đề chính khi xử lý các chuỗi có độ dài lớn Các vấn đềnày bao gồm hiện tượng tiêu biến gradient (vanishing gradient) và bùng nổgradient (exploding gradient).
Hiện tượng tiêu biến gradient xảy ra khi gradient (đạo hàm) của hàm mấtmát truyền ngược thông qua các lớp RNN quá nhỏ, làm cho việc cập nhậttrọng số trở nên rất chậm Điều này đồng nghĩa với việc mô hình khơng thểhọc được các phụ thuộc dài hạn trong dữ liệu tuần tự, gây ra hiệu suất kémtrong các tác vụ dài hạn như dịch máy hoặc xử lý ngôn ngữ tự nhiên.
Ngược lại, bùng nổ gradient xảy ra khi gradient truyền ngược quá lớn,làm cho các trọng số trong mơ hình thay đổi một cách vượt q giới hạn chấpnhận được Điều này dẫn đến việc không ổn định và mơ hình dễ dàng trànsố trong q trình huấn luyện.
Trang 39khắc phục nhược điểm này Tuy nhiên, bản thân LSTM cũng gặp các vấn đềkhác liên quan đến thời gian huấn luyện và làm cách nào để sử dụng các kiếnthức đã học ở chủ đề cũ sang một chủ đề mới tương tự.
Quay lại mơ hình seq2seq với RNN, q trình mã hóa sẽ nén toàn bộchuỗi đầu vào thành một véc tơ duy nhất Tuy nhiên, việc này rất khó khăn,đặc biệt khi chuỗi đầu vào dài và encoder phải chứa toàn bộ thông tin vàomột véc tơ biểu diễn duy nhất, dẫn đến việc mất mát thơng tin quan trọng(bottleneck) Ngồi ra, trong mơ hình này, decoder chỉ nhìn thấy một véc tơduy nhất, dẫu vậy, tại mỗi thời điểm t, các phần khác nhau của chuỗi đầuvào có thể có ý nghĩa và hữu ích hơn nhau Nhưng với mơ hình truyền thống,decoder phải trích xuất thơng tin liên quan này từ một véc tơ duy nhất, điềunày rất khó khăn.
Để giải quyết vấn đề trên, cơ chế Attention đã được Bahdanau [5] giớithiệu và trở thành một kĩ thuật quan trọng trong học máy Mục tiêu của cơchế attention là giải quyết việc tập trung vào các phần khác nhau của đầuvào tại mỗi thời điểm t khác nhau Nhờ vào cơ chế này, mơ hình có thể dễdàng tập trung vào những phần quan trọng và hữu ích của chuỗi đầu vào đểthực hiện quá trình giải mã.
3.8.1Cơ chế Attention cho mơ hình seq2seq
Hình 3.7: Cơ chế Attention cho mơ hình seq2seq
Trang 40• Nhận véc tơ trạng thái ẩn của decoder ht và tất cả các véc tơ trạng tháiẩn của encoder hs
• Tiếp theo, ta thực hiện tính giá trị attention Với mỗi véc tơ trạng tháiẩn của encoder thì ta cần tính điểm thể hiện sự liên quan với vectortrạng thái ẩn ht của decoder Cụ thể, ta sẽ áp dụng một phương trìnhtính điểm attention với đầu vào là véc tơ trạng thái ẩn decoder ht vàmột véc tơ trạng thái ẩn của encoder hs, sau đó trả về một giá trị vơhướng score(ht, hs).
• Thơng số tiếp theo cần tính toán là trọng số cho attention Ta sử dụnghàm softmax với đầu vào là điểm số attention:
αts = P score(ht, hs)
s′∈S score(ht, hs′)
• Tính tốn véc tơ ngữ cảnh ct là tổng của các trọng số attention nhânvới véc tơ trạng thái ẩn của decoder tại thời điểm tương ứng
ct = X
s∈S
αtshs
• Cuối cùng, ta nối véc tơ ct vào các véc tơ ht ở decoder để tạo ra các véctơ đầu ra at
3.8.2Các loại cơ chế Attention
Cơ chế Attention ra đời đã giúp giảm thiểu sự phụ thuộc về chiều dài giữadữ liệu đầu vào và thông tin đầu ra Tận dụng ưu điểm của kĩ thuật này, côngviệc dịch máy đã được cải thiện đáng kể, nhiều biến thể của cơng thức tínhđiểm Attention cũng được phát minh ra để phù hợp với từng bài toán khácnhau Dưới đây là một vài cơng thức tính attention phổ biến:
Bảng 3.1: Các loại cơ chế Attention trên mơ hình seq2seq
Loại Cơng thức Trích dẫn
Content-baseattention