ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA——————–
NGUYỄN GIA THỊNH
ỨNG DỤNG HỌC SÂU VÀO BÀI TOÁN CHẤM ĐIỂM TỰ ĐỘNGBÀI LUẬN TIẾNG ANH
Chuyên ngành: KHOA HỌC MÁY TÍNHMã số: 8480101
LUẬN VĂN THẠC SĨ
Trang 2CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCMCán bộ hướng dẫn khoa học:PGS.TS Quản Thành ThơCán bộ chấm nhận xét 1:PGS.TS Võ Thị Ngọc ChâuCán bộ chấm nhận xét 2:PGS.TS Đỗ Văn Nhơn
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 11 tháng 7 năm 2023.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, họchàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 Chủ tịch: TS Nguyễn Đức Dũng2 Thư ký: TS Trương Thị Thái Minh
3 Phản biện 1: PGS.TS Võ Thị Ngọc Châu4 Phản biện 2: PGS.TS Đỗ Văn Nhơn5 Ủy viên: TS Bùi Thanh Hùng
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNGTRƯỞNG KHOA KHOA HỌC VÀ
KỸ THUẬT MÁY TÍNH
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN GIA THỊNHMSHV: 2070431
Ngày, tháng, năm sinh: 19/09/1997Nơi sinh: TP Hồ Chí MinhChuyên ngành: Khoa học Máy tínhMã số : 8480101
I TÊN ĐỀ TÀI: ỨNG DỤNG HỌC SÂU VÀO BÀI TOÁN CHẤM ĐIỂM TỰ ĐỘNGBÀI LUẬN TIẾNG ANH
(APPLICATION OF DEEP LEARNING IN AUTOMATED ESSAY SCORING)II NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu về bài toán chấm điểm tự động cho bài luận tiếng Anh sử dụng các mơhình học sâu.
- Nghiên cứu và đề xuất các phương pháp nhằm cải thiện độ chính xác của mơ hìnhtham khảo.
- Thực nghiệm và đánh giá kết quả của các phương pháp đề xuất.
III.NGÀY GIAO NHIỆM VỤ : 06/02/2023
IV.NGÀY HOÀN THÀNH NHIỆM VỤ: 12/06/2023V.CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ
Tp HCM, ngày 04 tháng 06 năm 2023CÁN BỘ HƯỚNG DẪN(Họ tên và chữ ký)HỘI ĐỒNG NGÀNH(Họ tên và chữ ký)PGS.TS Quản Thành ThơTRƯỞNG KHOA
Trang 4LỜI CÁM ƠN
Sau hơn bốn tháng triển khai thực hiện nghiên cứu, em cũng đã hoànthành được nội dung của luận văn tốt nghiệp thạc sĩ Đây không chỉ là côngsức của bản thân tác giả mà cịn có sự giúp đỡ, hỗ trợ tích cực của nhiều cánhân và tập thể.
Đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TS QuảnThành Thơ, thầy là người hướng dẫn trực tiếp trong quá trình thực hiện luậnvăn, nhờ những lắng nghe và đóng góp ý kiến của thầy giúp em tìm ra vàhồn thiện nhiều ý tưởng Bên cạnh đó, thầy là người đã truyền cảm hứngcho em niềm đam mê hơn với lĩnh trực trí tuệ nhân tạo nói chung và xử lýngơn ngữ tự nhiên nói riêng.
Em cũng xin gửi lời cảm ơn đến các anh, chị, em đồng nghiệp trongcông ty đã tạo điều kiện, hỗ trợ cho em trong quá trình học tập và thực hiệnluận văn tốt nghiệp thạc sĩ.
Trang 5TÓM TẮT LUẬN VĂN
Chấm điểm bài luận tự động là một trong những bài toán quan trọng tronglĩnh vực giáo dục nói chung và trong việc đánh giá trình độ ngơn ngữ nóiriêng Trong đó, tiếng Anh là ngơn ngữ phổ biến nhất hiện nay, thúc đẩy caonhu cầu của việc đánh giá các kĩ năng tiếng Anh cho nhiều mục đích khácnhau Các phương pháp cũng như nghiên cứu trước đây tập trung vào việcchấm điểm cho các bài luận tiếng Anh thuộc cùng một chủ đề Điều này làmgiảm đi tính linh động của phương pháp vì trong thực tế có rất nhiều chủ đềkhác nhau cần được đánh giá Bên cạnh đó, các phương pháp cũng chỉ đưara được một điểm số tổng thể cho cả bài luận, từ đó khơng cung cấp đượcnhiều thơng tin trong q trình đánh giá và hỗ trợ người viết Chính vì vây,trong nội dung của luận văn này, học viên tập trung vào khai thác bài toánchấm điểm tự động bài luận tiếng Anh theo hướng tiếp cận chấm điểm chéochủ đề và đa thành phần (cross-prompt and multiple trait) Từ đó, học viênđưa ra hai đề xuất để có thể cải thiện độ chính xác của mơ hình so với mơhình tham khảo trong cùng hướng tiếp cận.
• Sử dụng mơ hình ngơn ngữ BERT vào việc chấm điểm: học viên kếthợp việc sử dụng mơ hình ngơn ngữ với các thơng tin từ mơ hình thamkhảo như các đặc trưng được trích xuất thủ cơng (handcrafted fea-tures) và thơng tin gán nhãn phân loại từ loại (part-of-speech) Trongđó học viên kết hợp thơng tin trích xuất từ mơ hình ngơn ngữ và mơhình tham khảo để đưa ra các điểm số thành phần khác nhau.
Trang 6ABSTRACT OF DISSERTATION
Automated essay scoring is one of the important problems in the field ofeducation in general and in assessing language proficiency in particular Inwhich, English is currently the most widely used language, which greatlyincreases the demand for evaluating English skills for various purposes Pre-vious methods and research have focused on scoring English essays on thesame topic This reduces the flexibility of the approach because in reality,there are many different topics that need to be evaluated Additionally, thesemethods only provide an overall score for the entire essay, thereby not pro-viding much information during the evaluation process and supporting thewriter Therefore, in the content of this thesis, the student focuses on explor-ing the problem of automatic essay scorexplor-ing in English from the perspectiveof cross-topic and multiple-trait scoring Based on that, the student proposestwo approaches to improve the accuracy of the model compared to the ref-erence model in the same approach.
• Using the BERT language model for automated essay scoring: the stu-dent combines the use of the language model with information fromthe reference model such as handcrafted features and part-of-speechtagging information In this case, the student combines informationextracted from the language model and the reference model to gener-ate different component scores.
Trang 7LỜI CAM ĐOAN
Tôi xin cam đoan luận văn tốt nghiệp: “ỨNG DỤNG HỌC SÂU VÀOBÀI TOÁN CHẤM ĐIỂM TỰ ĐỘNG BÀI LUẬN TIẾNG ANH” là cơngtrình nghiên cứu của bản thân Những phần sử dụng tài liệu tham khảo trongluận văn đã được nêu rõ trong phần tài liệu tham khảo Các số liệu, kết quảtrình bày trong luận văn là hoàn toàn trung thực, nếu sai tơi xin chịu hồntồn trách nhiệm và chịu mọi kỷ luật của bộ môn và nhà trường đề ra.
Học viên
Trang 8Mục lục
Chương 1 GIỚI THIỆU ĐỀ TÀI 1
1.1 Giới thiệu đề tài 1
1.2 Mô tả bài toán chấm điểm bài luận tiếng Anh tự động 3
1.3 Mục tiêu và nhiệm vụ của luận văn 4
1.4 Giới hạn đề tài 6
1.5 Đóng góp của luận văn 7
1.6 Tóm tắt nội dung 7
Chương 2 CƠ SỞ KIẾN THỨC 9
2.1 Bộ nhúng từ (Word Embedding) 9
2.2 Cơ chế Attention và mơ hình Transformer 14
2.2.1 Cơ chế Attention 14
2.2.2 Mơ hình Transformer 16
2.2.3 Các mô hình ngơn ngữ sử dụng Transformer 21
2.3 Kĩ thuật tinh chỉnh prompt (Prompt-tuning) 24
Chương 3 CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 33
3.1 Tổng quan các hệ thống AES 33
3.2 Các hướng tiếp cận của bài toán 36
3.3 Hướng tiếp cận prompt-specific 39
3.4 Hướng tiếp cận cross-prompt 43
3.5 Tóm tắt cơng trình nghiên cứu liên quan 48
Chương 4 MƠ HÌNH ĐỀ XUẤT 51
4.1 Phương pháp đánh giá 51
Trang 94.3 Đề xuất 1: Kết hợp mơ hình ngơn ngữ BERT và mơ hình tham
khảo 55
4.3.1 Động lực và ý tưởng 55
4.3.2 Mơ tả mơ hình 55
4.3.3 Tham số cấu hình của mơ hình 58
4.3.4 Kết quả thực nghiệm 58
4.4 Đề xuất 2: Xây dựng mơ hình mới sử dụng mơ hình ngơn ngữBERT và kĩ thuật Prompt-tuning 59
4.4.1 Động lực và ý tưởng 59
4.4.2 Mơ tả mơ hình 60
4.4.3 Tham số cấu hình của mơ hình 62
4.4.4 Kết quả thực nghiệm 62
Chương 5 KẾT LUẬN 67
Trang 10Danh sách hình vẽ
2.1 One-hot encoding 10
2.2 Countvectorizing 10
2.3 Bag-of-Words 10
2.4 Kiến trúc của mơ hình CBOW và mơ hình Skip-gram 12
2.5 Mối quan hệ giữa nam và nữ của Glove [1] 13
2.6 Mối quan hệ giữa so sánh hơn và so sánh nhất của Glove[1] 14
2.7 Mơ hình Seq2Seq trong bài tốn dịch máy 15
2.8 Mơ hình encoder-decoder với cơ chế Additive Attention [2] 16
2.9 Mức độ tương quan giữa ngơn ngữ đích và nguồn qua cơ chếAttention [2] 17
2.10 Quá trình tính tốn của Self-Attention 18
2.11 Ma trận điểm tương quan của Self-Attention 19
2.12 Kiến trúc mơ hình Transformer [3] 20
2.13 Mơ hình BERT [4] 23
2.14 Đầu vào và đầu ra của mơ hình BERT [4] 23
2.15 Các hướng tiếp cận trong huấn luyện mơ hình [5] 25
2.16 Các kí hiệu trong prompting [5] 27
2.17 Các hướng tiếp cận trong học có ngữ cảnh [6] 28
2.18 Kiến trúc P-tuning [7] 30
2.19 Mô tả phương pháp Prefix Tuning [8] 32
3.1 Các hướng tiếp cận sử dụng mơ hình học sâu [9] 39
3.2 Mơ hình phân cấp với CNN [10] 40
3.3 Mơ hình sử dụng self-attention [11] 42
Trang 113.5 Mơ hình AES với các tác vụ học tự giám sát [13] 44
3.6 Kiến trúc của mơ hình CTS [9] 49
4.1 Mơ hình đề xuất CTS-BERT 57
4.2 Kiến trúc của P-tuning v2 [14] 62
Trang 12Danh sách bảng
3.1 Bảng tóm tắt các hệ thống AES thương mại 364.1 Bảng tóm tắt tập dữ liệu ASAP-AES và ASAP++ 544.2 Bảng tóm tắt các điểm thành phần từ tập dữ liệu ASAP-AES
và ASAP++ được sử dụng 544.3 Bảng thông tin thêm của tập dữ liệu ASAP-AES và ASAP++ 544.4 Các tham số cho mô hình CTS-BERT 584.5 Kết quả thực nghiệm của mơ hình CTS-BERT so với mơ
hình tham khảo CTS 584.6 Các tham số cho mô hình CTS-Prompt 644.7 Kết quả thực nghiệm của mơ hình CTS-Prompt so với mơ
hình tham khảo CTS 644.8 Kết quả QWK trung bình của các phương pháp đề xuất so
với mơ hình tham khảo CTS trên 8 prompt 654.9 Kết quả QWK trung bình trên cả 8 prompt cho từng loại
Trang 13Chương 1
GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu đề tài
Lĩnh vực trí tuệ nhân tạo đang ngày càng phát triển với những nghiêncứu và ứng dụng trong nhiều lĩnh vực khác nhau, đặc biệt là giáo dục Cácứng dụng của trí tuệ nhân tạo trong giáo dục đã và đang tập trung vào giảiquyết các bài toán chính như xây dựng các hệ thống kiểm tra và đánh giáhọc sinh Các hệ thơng này đóng vai trị quan trọng trong giáo dục mà thơngqua đó, các trung tâm, bộ phận giáo dục có thể đẩy nhanh quá trình đánh giávà đưa ra phản hồi, từ đó giúp người học đạt được mục tiêu đặt ra, đồng thờicải thiện hệ thống giảng dạy và giáo dục.
Xử lý ngôn ngữ tự nhiên, một nhánh của ngôn ngữ học và khoa học máytính, đã đạt được nhiều thành tựu khi có sự vận dụng của các phương pháphọc máy, đặc biệt là học sâu Các phương pháp truyền thống vẫn được vậndụng đan xen hay kết hợp với các phương pháp hiện đại và đạt được kết quảcao trong các bài tốn như phân tích cảm xúc dựa trên văn bản, hệ thốnghỏi đáp, hay các hệ thống dịch máy đa ngôn ngữ Các phương pháp hiện đạitrong xử lý ngơn ngữ tự nhiên tận dụng sức mạnh tính tốn của phần cứngvà các mơ hình mạng neuron nhân tạo để xử lý lượng dữ liệu lớn và phứctạp một cách hiệu quả.
Trang 14hiện hữu đều được viết bằng tiếng Anh Chính vì vậy, việc đánh giá trình độvà khả năng sử dụng tiếng Anh của một cá nhân là nhu cầu cần thiết và quantrọng Các bài kiểm tra đánh giá tiếng Anh được sử dụng như một thước đođánh giá chuẩn tiếng Anh của những người khơng phải bản xứ, một số ví dụnhư bài kiểm tra IELTS, TOEFL để đánh giá trình độ tiếng Anh tiêu chuẩnchung, hay GRE, GMAT để đánh giá kĩ năng tiếng Anh đặc thù cho một sốlĩnh vực cụ thể như kĩ thuật, kinh tế.
Từ đó, nhu cầu có thể đánh giá, chấm điểm tự động cho những bài kiểmtra tiếng Anh trở nên cần thiết trên các kĩ năng khác nhau Khác với cáckỹ năng như đọc và nghe, việc đánh giá kĩ năng viết học thuật (academicwriting) là vơ cùng khó khăn, địi hỏi phải được chấm điểm thủ công bởi cácgiảng viên với nhiều năm kinh nghiệm Việc chấm điểm thủ công một bàiluận tốn rất nhiều thời gian vì người chấm cần đọc hiểu nội dung và đưa rađánh giá dựa trên khung điểm cho trước, và càng trở nên phức tạp hơn khitỉ lệ người chấm / học viên là rất lớn Chính vì vậy, chấm điểm bài luận tựđộng (Automated Essay Scoring) là bài tốn cần thiết nhằm tiết kiệm cơngsức chấm điểm thủ công, đồng thời rút ngắn thời gian đưa ra kết quả và phảnhồi cho phía học viên Bài tốn có thể được phát triển và xây dựng trongthực tiễn theo hai hướng khác nhau:
− Phục vụ việc chấm điểm tự động các bài luận của học sinh và lưu trữlại kết quả đánh giá.
Trang 151.2 Mơ tả bài tốn chấm điểm bài luận tiếng
Anh tự động
Có nhiều hướng tiếp cận khác nhau đối với bài toán chấm điểm bài luậntiếng Anh tự động Tuy nhiên, các hướng tiếp cận đều có thể quy về mộtkiến trúc tổng qt Đầu vào của mơ hình là một đoạn văn, được biểu diễndưới dạng tập hợp T = {T1, T2, Tn} với n là số lượng từ trong đoạn văn.Đầu ra của mơ hình là điểm số của đoạn văn thuộc vào tập R = {r1, r2, rm}với m là số lượng điểm thành phần cần được chấm của bài luận, m = 1 đốivới đầu ra là điểm tổng quát (overall score) Số lượng đầu ra của mơ hìnhlà cho trước và tùy thuộc vào khung điểm cho chủ đề bất kỳ Dữ liệu huấnluyện có thể là cùng một chủ đề hoặc khác chủ đề tùy vào hướng tiếp cậnbài tốn Ngồi ra, về cách chấm điểm, số lượng điểm thành phần cũng nhưthang điểm chấm là khác nhau cho từng chủ đề cụ thể, có những điểm thànhphần sẽ nằm ở nhiều chủ đề và ngược lại.
Đầu vào của mơ hình có thể được mô tả chi tiết hơn như sau:
− Các đặc trưng được trích xuất thủ cơng từ bài luận, chẳng hạn như độdài của từ (word length), số lượng từ đặc biệt (unique-word count), tỉlệ các từ dừng (stopwords).
− Các đặc trưng được tự động trích xuất sử dụng các phương pháp, mơhình học sâu để học cách biểu diễn từ ngơn ngữ tự nhiên.
Dưới đây là một ví dụ về kết quả chấm điểm của một bài luận trên nhiềuđiểm thành phần tương ứng thuộc chủ đề 6 trong tập dữ liệu ASAP-AES,với thang điểm từ 0 đến 4 cho từng điểm thành phần Cụ thể:
Trang 16at-Building One reason was that attaching a humongous blimp to thepeak of the building would add excessive strain to it Lusted explains:""A thousand-foot dirgible moored at the top of the building wouldadd stress to the building´s frame."" @CAPS1, much revision to thestructure´s frame was needed Another obstacle was nature Wind cur-rents would push the dirigible around and it would be very unsafe.""The winds on top of the building were constantly shifting due toviolent air currents Even if the dirgible were tethered to the moor-ing mast, the back of the ship would swivel around and around themooring mast."" This would make it unsafe for passengers to get onor off the blimp There was also a law in effect that prevented ""air-ships flying too low over urban areas."" These obstacles preventedthe builders from safely devising a way to dock the dirigibles.
− Kết quả đánh giá:
+ Điểm tổng quan (overall score): 3+ Nội dung (content): 2
+ Thỏa mãn đề bài (prompt adherence): 2+ Ngôn từ (language): 2
+ Tường thuật (narrativity): 2
1.3 Mục tiêu và nhiệm vụ của luận văn
Trang 17− Có khả năng hiểu và áp dụng các mơ hình học sâu, kĩ thuật được sửdụng trong lĩnh vực xử lý ngơn ngữ tự nhiên nói chung.
− Nắm được tổng quan về bài toán chấm điểm bài luận tự động nóichung và cho tiếng Anh nói riêng, các khái niệm, các hướng tiếp cận,các phương pháp đánh giá cũng như các tập dữ liệu được sử dụngtrong bài toán.
− Hiểu sâu được các phương pháp đã được sử dụng để giải quyết cho bàitoán chấm điểm bài luận tiếng Anh tự động, đặc biệt là các phươngpháp sử dụng các mơ hình học sâu, để từ đó nhận biết được ưu vànhược điểm của các phương pháp.
− Dựa trên những phân tích về kết quả của các phương pháp trước vàmơ hình tham khảo, đưa ra các đề xuất mới để cải thiện kết quả củamơ hình tham khảo.
− Học viên có kiến thức chính xác hơn về lĩnh vực trí tuệ nhân tạo, họcsâu, học máy nói chung và xử lý ngơn ngữ tự nhiên nói riêng Đồngthời, học viên cũng hiểu rõ hơn về các thách thức, khó khăn trong việcvận dụng các phương pháp học sâu vào việc giải quyết một bài toáncụ thể trong thực tế.
Với những mục tiêu được đưa ra ở trên, học viên đề xuất các công việc,nhiệm vụ cần triển khai trong quá trình thực hiện luận văn như sau:
− Tìm hiểu tổng quan về bài toán chấm điểm tự động cho bài luận tiếngAnh, các hướng tiếp cận, phương pháp đánh giá và tập dữ liệu đượcsử dụng.
Trang 18− Đưa ra các đề xuất để cải thiện độ chính xác của mơ hình trong bàitốn chấm điểm bài luận tiếng Anh tự động.
− Thực nghiệm và đánh giá kết quả của các mơ hình đề xuất so với mơhình tham khảo.
− Trình bày các vấn đề còn tồn đọng, đưa ra kết luận và các hướngnghiên cứu, phát triển trong tương lai.
1.4 Giới hạn đề tài
Chấm điểm tự động bài luận tiếng Anh là một bài toán lớn với nhiềuhướng tiếp cận khác nhau, sử dụng các mơ hình và kĩ thuật khác nhau Vìvậy, với lượng thời gian nghiên cứu có hạn, nội dung thực hiện luận văn sẽđược giới hạn như sau:
− Tập trung vào bài toán chấm điểm tự động bài luận tiếng Anh theohướng chấm điểm chéo đề tài (cross-prompt) với nhiều điểm thànhphần (multiple traits).
− Các mơ hình học sâu LSTM, cơ chế Attention và mơ hình ngơn ngữBERT.
− Kĩ thuật Prompt tuning, kĩ thuật tinh chỉnh mới hiện đại.
− Các mơ hình đề xuất được đánh giá dựa trên dộ đo QWK cho bài toánchấm điểm bài luận tiếng Anh tự động.
Trang 191.5 Đóng góp của luận văn
Trong nội dụng luận văn, học viên đề xuất 2 hướng tiếp cận giúp cảithiện độ chính xác của mơ hình chấm điểm tự động so với mơ hình thamkhảo:
− Tích hợp mơ hình ngơn ngữ BERT kêt hợp với các đặc trưng tríchxuất thủ cơng có sẵn vào mơ hình chấm điểm tự động tham khảo.− Xây dựng mơ hình mới dựa trên mơ hình tham khảo sử dụng mơ hình
ngơn ngữ BERT kết hợp với kĩ thuật Prompt tuning.
1.6 Tóm tắt nội dung
Nội dung của luận văn gồm 5 chương:
− Chương 1 GIỚI THIỆU ĐỀ TÀI: giới thiệu về nhu cầu của việc
đánh giá tiếng Anh tự động nói chung và kĩ năng viết nói riêng, mơtả bài toán chấm điểm bài luận tiếng Anh tự động, các tập dữ liệu vàphương pháp đánh giá thường được sử dụng cho bài toán.
− Chương 2 CƠ SỞ KIẾN THỨC: trình bày về các kiến thức cơ sở
trong học sâu, các mơ hình học sâu được xử dụng trong xử lý ngôn ngữtự nhiên như Recurrent Neural Network, Long Short-Term Memory,cơ chế Attention, các mơ hình ngơn ngữ hiện đại và các kĩ thuật tinhchỉnh (fine-tuning) mới.
− Chương 3 CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN: tóm
tắt về các cơng trình nghiên cứu liên quan, từ các cơng trình nghiêncứu sơ khai, đến các hướng tiếp cận hiện đại sử dụng các mơ hình học
Trang 20chính là nền tảng và cơ sở cho việc triển khai nghiên cứu và thực hiệnluận văn của học viên.
− Chương 4 CÁC MƠ HÌNH ĐỀ XUẤT: mơ tả cụ thể về mơ hình
tham khảo và các mơ hình cải tiến được đề xuất dựa trên mơ hìnhtham khảo cho bài toán chấm điểm tự động bài luận tiếng Anh Bêncạnh đó, các kết quả thực nghiệm cho từng đề xuất cũng được trìnhbày.
− Chương 5 KẾT LUẬN: tổng kết lại nội dung của luận văn, các đóng
Trang 21Chương 2
CƠ SỞ KIẾN THỨC
2.1 Bộ nhúng từ (Word Embedding)
Máy tính chỉ có thể xử lý dữ liệu số, vì vậy cần thực hiện chuyển đổingơn ngữ tự nhiên thành dạng số Việc biểu diễn từ dưới dạng giá trị số cóảnh hưởng vơ cùng lớn đến độ chính xác của các mơ hình học sâu AES nói
riêng và NLP nói chung Các kĩ thuật word embedding thực hiện ánh xạ cáctừ, hay tổng quát hơn là các token (có thể là kí tự, từ hoặc cụm từ), thành các
vec-tơ mang giá trị thực trong một không gian vec-tơ nhiều chiều mà qua đómáy tính có thể thực hiện tính tốn và dự đốn.
Kĩ thuật biểu diễn đơn giản nhất chính là biểu diễn từ theo dạng one-hotvec-tơ như hình 2.1 hay dạng count-vectorizing như hình 2.2 Tuy nhiên,vấn đề với các cách biểu diễn này chính là vec-tơ sẽ trở nên thưa khi sốlượng từ là đáng kể trong các corpus lớn, từ đó khơng tối ưu về măt hiệunăng tính tốn Bên cạnh đó, các thơng tin về ngữ cảnh, ngữ nghĩa, sự tươngđồng giữa các từ khơng được thể hiện, từ đó khơng thích hợp cho các tácvụ downstream khác như phân loại văn bản, POS-tagging Kĩ thuật Bag-of-Words (BoW) cũng là một dạng biến thể của one-hot encoding, dùng đểbiểu diễn thông tin của các thành phần lớn hơn như câu, văn bản thông quaviệc tổng hợp các one-hot vec-tơ của các từ tồn tại trong câu, văn bản nhưhình 2.3.
Trang 22Rome = [1, 0, 0, 0, 0, 0, , 0]Paris = [0, 1, 0, 0, 0, 0, , 0]Italy = [0, 0, 1, 0, 0, 0, , 0]France = [0, 0, 0, 1, 0, 0, , 0]RomeParisTừ thứ nHình 2.1: One-hot encoding
Thequickbrownfoxjumpsoverlazydog
21111111
[ 'The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog' ]
Hình 2.2: Countvectorizing
[0, 1, 0, 0, 1, 1][1, 0, 1, 0, 1, 0][0, 0, 1, 1, 1, 0]
Mỗi hàng là một tài liệu(document)
Mỗi cột là một từ trong từ điển
Số lượng tài liệu
Kích thước từ điển
the red dogthereddogcateatsfood
111000
Trang 23nhiều lần trong nhiều tài liệu lớn hơn so với cái tài liệu nhỏ Vì vậy, TF đượctính bằng tỉ số giữa số lần xuất hiện của nó và tổng số từ trong tài liệu Tuynhiên, nếu chỉ xét mỗi TF thì các từ xuất hiện nhiều nhưng ít ý nghĩa nhưcác từ ’the’, ’an’, ’and’ sẽ có ảnh hưởng lớn hơn Để giảm mức độ ảnh hưởngcủa các từ này, TF-IDF được sử dụng Thành phần IDF có vai trị giảm ảnhhưởng của các từ xuất hiện nhiều bằng cách lấy nghịch đảo tần số xuất hiệncủa tài liệu chứa một từ cụ thể TF-IDF được xác định bằng công thức:
T F− IDF(t, d, D) = T F(t, d) × log( D
d ft) (2.1)trong đó t biểu diễn các từ, d biểu diễn tài liệu, D biểu diễn tập hợp cáctài liệu, và tổng số lượng tài liệu có chứa từ t được biểu diễn thông qua d ft.Tuy nhiên, cũng giống các kĩ thuật trước, TF-IDF không bắt được các thôngtin về thứ tự của từ, ngữ nghĩa hay cú pháp Vì vậy, TF-IDF phù hợp để sửdụng như một đặc trưng về từ vựng.
Các mơ hình word embedding được xem là kĩ thuật biểu diễn nâng cao,sử dụng mạng neuron nhân tạo để học một cách không giám sát biểu diễncủa các từ mà có xem xét thơng tin về ngữ nghĩa, cú pháp của các từ tươngứng, nghĩa là các từ có nghĩa giống nhau sẽ có biểu diễn giống nhau Một từkhi đi qua word embedding sẽ được ánh xạ thành một vec-tơ N chiều với cácgiá trị liên tục Hai giải thuật phổ biến được sử dụng trong word embedding
là GloVe và Word2Vec.
Trang 24hình CBOW sẽ nhận đầu vào là nhiều từ trong một khung cửa sổ nhất địnhvà dự đoán từ trung tâm có quan hệ gần nhất với về mặt ngữ cảnh với cáctừ xung quanh Ngược lại, mơ hình Skip-gram sẽ dự đoán những từ xungquanh trong một khung cửa sổ nhất định với đầu vào là từ trung tâm Sosánh giữa hai mơ hình, CBOW nhanh hơn và biểu diễn tốt hơn những từxuất hiện nhiều, trong khi Skip-gram biểu diễn hiệu quả hơn những từ xuấthiện ít.
Đầu vàoĐầu raĐầu vàoĐầu ra
CBOWSkip-gram
Tầng ánh xạTầng ánh xạ
Hình 2.4: Kiến trúc của mơ hình CBOW và mơ hình Skip-gram
Mơ hình GloVe, được phát triển bởi Jeffery Pennington [1], là một phiênbản mở rộng và hiệu quả hơn của Word2Vec Mơ hình GloVe sử dụng co-occurrence matrix tồn cục, trong đó mỗi thành phần Xi j biểu diễn tần sốđồng xuất hiện của cặp từ wi và wj trong một cửa sổ ngũ cảnh cục bộ (localcontext window) thích hợp Mơ hình hoạt động trên ý tưởng đó là việc đồngxuất hiện của những từ trong một cửa sổ ngữ cảnh nhất định cũng đem lại
nhiều thơng tin ngữ nghĩa, ví dụ như từ solid thường xuất hiện cùng với từ
Trang 25ice Cũng giống với Word2Vec, GloVe hỗ trợ các bộ pretrained embeddingvới nhiều số chiều khác nhau (100, 200, 300) Hàm mục tiêu của Glove đượcmô tả qua công thức sau:
V
∑
k, j=1
f(Xk j)(wTkw′j+ bk+ bj− logXk j) (2.2)trong đó V là kích thước cửa từ điển, X là co-occurrence matrix, Xk j
là tần số đồng xuất hiện cửa từ k và từ j, Xk là tổng số lần xuất hiện củatừ k trong corpus, Pk j là xác suất từ j đồng xuất hiện với từ k, w là wordembedding có số chiều là d, w′ là context word embedding có số chiều d.Hình 2.5 và 2.6 mơ tả mối quan hệ giữa những từ có ngữ nghĩa tương tựnhau.
Trang 26Hình 2.6: Mối quan hệ giữa so sánh hơn và so sánh nhất của Glove[1]
Cả 2 cách biểu diễn từ của Word2Vec và GloVe đều đơn giản, chính xácvà biểu diễn được thơng tin ngữ nghĩa của các từ Tuy nhiên, chúng khôngthể học được cách biểu diễn những từ khơng có trong tập từ điển.
2.2 Cơ chế Attention và mơ hình Transformer
2.2.1 Cơ chế Attention
Trang 27bài toán khác nhau trong lĩnh vực NLP, nổi bật là bài toán dịch máy Vìvậy, cơ chế Attention sẽ được giải thích trong ngữ cảnh của bài tốn dịchmáy sử dụng mơ hình Seq2Seq để tổng qt hóa cho các bài tốn NLP Mơhình Seq2Seq [16] là một kiến trúc mạng neuron được xây dựng từ các mạngneuron cơ bản dựa trên mơ hình RNN (Recurrent Neural Network) Mơ hìnhgồm hai thành phần là Encoder và Decoder Phần Encoder đóng vai trị mãhóa dữ liệu đầu vào thành một vec-tơ biểu diễn trung gian (context vector),và phần Decoder sẽ sử dụng vec-tơ biễu diễn đó và hidden state trước đó đểdự đốn đầu ra tại mỗi bước Trong bài toán dịch máy, đầu vào là một câu ởngôn ngữ nguồn, và đầu ra là câu dịch qua ngơn ngữ đích, được mơ tả nhưhình 2.7.
<START>
EncoderDecoder
Hình 2.7: Mơ hình Seq2Seq trong bài tốn dịch máy
Trang 28dài Hình 2.8 mơ tả cơ chế Additive Attention được đề xuất trong bài báogốc Theo đó, các đầu ra của từng cell qua từng bước trong phần Encoderkết hợp với hidden state của từng cell để tổng hợp ra một context vec-tơ vàdùng nó làm đầu vào cho từng cell trong phần Decoder Tập các trọng sốαt,i cho biết bao nhiêu phần trăm thông tin từ hidden state của một từ thứ ithuộc ngơn ngữ nguồn đóng góp vào việc dự đốn một từ ở bước thứ t thuộcngơn ngữ đích Hình 2.9 thể hiện mức độ tương quan giữa các từ trong ngơnngữ nguồn và đích tạo ra bởi alignment score.
Hình 2.8: Mơ hình encoder-decoder với cơ chế Additive Attention [2]
2.2.2 Mơ hình Transformer
Trang 29Hình 2.9: Mức độ tương quan giữa ngơn ngữ đích và nguồn qua cơ chếAttention [2]
song của GPU, đồng thời giảm thời gian xử lý đi đáng kể Trong kiến trúccủa mình, mơ hình Transformer chưa 6 khối encoder và 6 khối decoder, mỗikhối encoder chứa hai lớp: self-attention và Feed-Forward Neural Network(FNN) Cơ chế self-attention giúp cho phần Encoder nhìn vào các từ đàuvào khác trong lúc mã hóa một từ cụ thể, vì vậy Transformer có thể hiểuđược sự liên quan giữa các từ trong cùng một câu về mặt cú pháp và ngữcảnh, ngay cả khi chúng có khoảng cách xa nhau Các khối Decoder cũngcó kiến trúc tương tự như Encoder, nhưng giữa chúng có một lớp attentionkết nối tới các đầu vào để chọn ra các phần tử liên quan, cũng giống nhưvới cơ chế Additive Attention Ý tưởng của self-attention được mở rộng rathành multi-head attention, nghĩa là chạy qua cơ chế attention nhiều lần chomỗi từ.
Trang 302.10:
− Với mỗi từ đầu vào, tạo ra bộ 3 vec-tơ là query (Q), key (K) và value(V) Các vectow này được tạo nên bởi phép nhân ma trạn giữa vec-tơđầu vào và 3 ma trận trọng số tương ứng với query, key, value màchúng ta sử dụng trong q trình huấn luyện.
− Tính điểm của các từ khác trong câu với từ đang xét Giá trị này giúpquyết định từ nào cần được chú ý và chú ý bao nhiêu khi mã hóa từđang xét Điểm số này được tính bằng tính vơ hướng giữa vec-tơ Q vàvec-tơ K của từ đang xét với các từ trong câu.
− Thực hiện chuẩn hóa điểm bằng cách chia cho 8 (căn bậc 2 của sốchiều của vec-tơ K) giúp cho độ dốc ổn đinh hơn, sau đó được truyềnqua hàm softmax để giá trị điểm dương và không vượt quá 1 Hình2.11 minh họa ma trận điểm đã chuẩn hóa.
− Nhân vec-tơ V với mỗi giá trị điểm tính ở bước 3 rồi cộng lại với nhau.
X
X
X
Trang 31Hình 2.11: Ma trận điểm tương quan của Self-Attention
Một vấn đề khác khi xử lý đầu vào song song đó là mất đi thơng tin vềthứ tự của từ Vì thế, Transformer đã sử dụng bộ mã hóa Positional Encodingđể bổ sung thơng tin về vị trí của từng từ Trong bài báo gốc [3], tác giả sử
dụng hàm sin như 2.3 và cos như 2.4 cho bộ mã hóa này Với những vị trí lẻ,
vec-tơ vị trí được tạo ra sử dụng hàm cos và ngược lại sử dụng hàm sin chovị trí chẵn Bộ mã hóa này sẽ được kết hợp với bộ word embedding của mỗitừ trước khi đi qua lớp self-attention.
PEpos,2i = sin( pos
100005122i
) (2.3)
PEpos,2i+1= cos( pos100005122i
Trang 332.2.3 Các mơ hình ngơn ngữ sử dụng Transformer
Mơ hình Transformer là kiến trúc nền tảng cho các mơ hình ngơn ngữhiện đại sau này vì bởi hiệu quả hơn và nhanh hơn so với các kiến trúc nhưCNN, RNN [17] cung cấp khảo sát tổng quan về các mơ hình ngơn ngữ dựatrên Transformer và các biến thể khác nhau.
Hai mô hình ngơn ngữ nổi tiếng dựa trên Transformer là GPT và BERT[4] GPT là mơ hình ngơn ngữ tiền huấn luyện (pretrained Language Model)đầu tiên dựa trên Transformer, có khả năng biểu diễn ngữ nghĩa của từ vớinhiều ngữ cảnh khác nhau GPT sử dụng các khối Decoder của mô hìnhTransformer và đạt được nhiều kết quả tốt khi sử dụng trong nhiều bài toán.Tuy nhiên, một trong những điểm trừ của GPT là mơ hình chỉ có thể dựđốn theo một hướng (uni-directional) từ trái qua phải Sau đó, OpenAI đãđề xuất một mơ hình mới là GPT-2 với một số cải thiện hơn so với phiên bảntrước khi cân nhắc vị trí của lớp chuẩn hóa và lớp residual relation.
Trang 34pre-training và fine-tuning Đầu tiên, mơ hình sẽ được huấn luyện trên mộtcorpus lớn như Wikipedia cho một bài tốn cụ thể, sau đó bộ trọng số củamơ hình sẽ được sử dụng tiếp tục cho các tác vụ down-stream khác, mơ tảnhư hình 2.13 Đối với việc pre-training BERT, có hai bài tốn có thể dụng:
− Masked Language Model (MLM): là tác vụ cho phép fine-tuning lại
các biểu diễn từ trên các bộ dữ liệu khơng giám sát (unsupervised-text) bất kỳ Theo đó, khoảng 15% các token của đàu vào được sẽbị che dấu bởi token đặc biệt [MASK] Mơ hình sẽ dựa trên các to-ken không bị che xung quanh [MASK] và đồng thời là bối cảnh của[MASK] để dự đoán token bị che dấu.
− Next Sentence Prediction (NSP): là một bài tốn phân loại nhị phân,
Trang 35Hình 2.13: Mơ hình BERT [4]
Trang 362.3 Kĩ thuật tinh chỉnh prompt (Prompt-tuning)
Các mơ hình ngơn ngữ mới dựa trên kiến trúc Transformer ngày càngphát triển và giải quyết được các bài toán khác nhau trong lĩnh vực xử lýngôn ngữ tự nhiên Việc phát triển nhanh chóng của mơ hình ngơn ngữ đượcthể hiện trên 3 phương diện: số lượng tham số của mơ hình, lượng dữ liệuhuấn luyện và tài ngun tính tốn cần thiết để huấn luyện các mơ hìnhngơn ngữ Những mơ hình ngơn ngữ này được xem là mơ hình ngơn ngữlớn LLM (Large Language Model) Khơng có một tiêu chuẩn nào là chínhxác để đánh giá một mơ hình ngơn ngữ là lớn, nhưng ta có thể xem các mơhình phát triển lên từ GPT hoặc các mơ hình từ 1 tỉ tham số trở lên là cácmơ hình ngơn ngữ lớn Các mơ hình LLM đóng vai trị là mơ hình nền tảng(foundation model) đã được tiền huấn luyện (pretraining) với các tập dữ liệulớn và sau đó được sử dụng cho các tác vụ cụ thể trên các tập dữ liệu nhỏhơn thuộc một lĩnh vực nhất định hoặc các tập dữ liệu mang tính riêng tư.Điều này thúc đẩy sự phát triển của các nhóm các kĩ thuật nhằm tận dụng vàsử dụng các tri thức của mô hình ngơn ngữ lớn một cách hiệu quả vào cácbài tốn ngơn ngữ tự nhiên nhỏ hơn, chẳng hạn như tóm tắt văn bản, sinh dữliệu, phân loại văn bản, dịch máy Hình 2.15 mơ tả sự phát triển của các kĩthuật huấn luyện mơ hình trong xử lý ngơn ngữ tự nhiên.
Trước đây, việc huấn luyện các mơ hình đa số đi theo hướng giám sáttoàn phần (fully supervised), nghĩa là tồn bộ mơ hình sẽ được huấn luyệntrên tập dữ liệu riêng, từ các mơ hình học máy truyền thống đến các mơ hìnhmạng nơ-ron nhân tạo như LSTM [?], Word2Vec [15] Sự xuất hiện và phát
triển của các mơ hình ngơn ngữ đã mở ra thêm các kĩ thuật mới được phânthành 2 nhóm chính:
Trang 38+ prompt được định nghĩa là phương tiện để tương tác với các mơhình ngơn ngữ dưới dạng một văn bản đầu vào cung cấp bởingười dùng mà mơ hình ngơn ngữ cần hồi đáp Prompt có thểbao gồm chỉ dẫn (instruction), câu hỏi (question), và một số loạiđầu vào khác tùy vào mục đích sử dụng mơ hình Prompt cịncó thể bao gồm một số u cầu và ràng buộc như phong cách,độ dài câu trả lời Một số ví dụ về quy tắc thiết kế prompt đượcmơ tả như hình 2.16 Vì đây là ngơn ngữ tự nhiên, nó có thể tồntại những nhập nhằng nhất định, cùng một nội dung nhưng cáchdiễn đạt khác nhau sẽ dẫn đến kết quả sinh ra từ mơ hình khácnhau.
+ prompt-engineering, hay còn được gọi là học trong ngữ cảnh(in-context learning) là quá trình lựa chọn, thiết kế prompt mộtcách cẩn thận để mơ hình có thể cho ra một câu trả lời cụ thể,đóng vai trị rất quan trọng trong việc lấy được kết quả tối ưutừ mô hình Đây là quá trình người dùng sẽ khai báo trực tiếpbài toán hay tác vụ muốn giải quyết ở dạng ngơn ngữ tự nhiênđể mơ hình có thể giải thích và hồn thành Người dùng chỉ cầntinh chỉnh prompt cho phù hợp với bài tốn mà khơng cần canthiệp trực tiếp vào mơ hình ngơn ngữ Có 3 hướng tiếp cận chính
trong nhóm phương pháp này, bao gồm zero-shot, one-shot và
few-shot tương ứng với số lượng mẫu ví dụ (sample), được mơtả như hình 2.17.
Trang 39bài toán, lĩnh vực nhất định (task-agnostic) Một trong những kĩ thuậtphổ biến của nhóm này là kĩ thuật tinh chỉnh mơ hình (fine-tuning).Kĩ thuật này bao gồm việc điều chỉnh tất cả các trọng số của mơ hìnhngơn ngữ thông qua việc huấn luyện trên một tập dữ liệu đã đánh nhãncho một tác vụ cụ thể.
Hình 2.16: Các kí hiệu trong prompting [5]
Phương pháp prompt-based learning có ưu điểm là không cần phải canthiệp và huấn luyện lại mơ hình cho tác vụ mới Tuy nhiên, phương phápcũng có một số khuyết điểm, chẳng hạn như số lượng mẫu ví dụ dùng choviệc xây dựng prompt là tương đối ít, làm giới hạn mức độ kiểm sốt đầura của mơ hình Ngồi ra, việc xây dựng và thiết kế prompt thủ công tốn rấtnhiều thời gian, công sức, đồng thời cũng yêu cầu kiến thức sâu về lĩnh vực,bài tốn cụ thể đang giải quyết để có thể đưa ra các prompt phù hợp.
Trang 40Zero-shot
One-shot
Few-shot