Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định Từ Minh Đăng, Đỗ Ngọc Minh Trường Đại học Công Nghệ Đại học Quốc Gia Hà Nội Email tuminhdang10@gmail com, ngocminhc2nc1@gmail com Tóm tắt—Trong[.]
Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Phương pháp tạo văn tiếng Việt có đề tài xác định Từ Minh Đăng, Đỗ Ngọc Minh Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội Email: tuminhdang10@gmail.com, ngocminhc2nc1@gmail.com Tóm tắt—Trong báo này, chúng tơi nghiên cứu phát triển hệ thống điều khiển sinh văn tiếng việt có đề tài xác định nhằm tạo trải nghiệm tương tác tốt người máy Nghiên cứu hướng đến việc tạo văn rõ ràng, mạch lạc hết áp dụng mơi trường ngơn ngữ đặc thù - tiếng Việt Phương pháp đề xuất điều khiển việc sinh văn mà không cần cập nhật siêu tham số chủ đề thêm vào Kết cho thấy rằng, phương pháp chúng tơi có độ xác ổn định cao dựa tiêu chí đánh giá so với phương pháp khác Do đó, phương pháp đề xuất áp dụng dễ dàng cho mơ hình với ngơn ngữ tiếng việt tương lai mà thay đổi nhiều để đạt hiệu tốt Từ khóa—Sinh văn bản, tiếng việt, đề tài xác định I GIỚI THIỆU Trong năm gần đây, mà phương pháp học sâu thể khả vượt trội lĩnh vực trí tuệ nhân tạo nhận dạng đối tượng, điển hệ thống GoogLeNet Tuy nhiên lĩnh vực xử lý ngôn ngữ tự nhiên, thời điểm trước năm 2017 phương pháp chưa đạt hiệu mong đợi có khả hoạt động tương tự hệ thống ngôn ngữ người Sau đó, Transformer [1] đời vào năm 2017, tạo bước ngoặc lớn phát triển mơ hình ngơn ngữ mạnh mẽ [2], [3] Điều giúp cho hệ thống xử lý ngôn ngữ tự nhiên hoạt động hiệu liệu lớn phức tạp Đối với lĩnh vực xử lý ngôn ngữ tự nhiên, việc tạo văn dài mạch lạc hữu ích cho ứng dụng như: trợ lý ảo, máy phiên dịch, tạo báo cáo, luận văn có nội dung dạng dài khác Tuy nhiên, để giải vấn đề địi hỏi mơ hình cần nắm bắt thơng tin tồn cục, lập kế hoạch nội dung tạo từ lân cận cách quán Các hệ thống áp dụng Transformer giải vấn đề nhiều hạn chế việc tạo văn dài mạch lạc Những hệ thống dựa vào mô ISBN 978-604-80-7468-5 446 BERT [4], T5 [5], GPT-2 [6], BART [7] có khả sinh văn ấn tượng kèm với trôi chảy đáng ngạc nhiên Các mơ hình thường huấn luyện trước liệu lớn, sau tinh chỉnh với liệu cụ thể Tuy nhiên, mơ hình gặp phải hạn chế sau Thứ nhất, từ văn sinh lặp lại nhiều lần Thứ hai, văn sinh có độ xác ngữ pháp cao sai ngữ nghĩa Cuối cùng, việc sinh văn có đề tài xác định, độ xác đề tài bị suy giảm theo độ dài văn Để khắc phục hạn chế này, hệ thống cần có chế điều khiển việc sinh văn bản, điển [8], [9] Một số sử dụng học tăng cường để đánh dấu giá trị cần điều khiển Các phương pháp học sâu có ưu điểm độ chân thực câu, chúng cần liệu lớn nhằm thực việc huấn luyện thay đổi siêu tham số mơ hình sinh văn Trong nghiên cứu này, tập trung vào việc điều khiển sinh văn có độ phù hợp cao với đề tài cho trước mà không cần thay đổi siêu tham số mơ hình Điều tương tự với việc tạo hình ảnh từ chủ đề cho trước lĩnh vực xử lý ảnh thị giác máy tính Trong có phương pháp Plug Play Generative Networks (PPGN) [10] dựa vào chế tạo hình ảnh có thuộc tính khác gán phân biệt thuộc tính (Atribute Model-AM) để biệt thuộc tính bên cạnh thuộc tính tạo sinh, từ ta tạo ảnh mà chứa thuộc tính đề tài u cầu Do đó, nghiên cứu áp dụng phân biệt thuộc tính nhằm điều khiển câu sinh có chủ đề xác định Bộ phân biệt bao gồm phần để thay đổi giá trị hàm mát thực phản hồi hàm mát vào khối sinh từ để đưa từ khác có ý nghĩa gần với chủ đề u cầu Hơn nữa, mơ hình thường tạo để hỗ trợ ngôn ngữ phổ biến giới như: tiếng Anh, tiếng Trung, tiếng Tây Ban Nha, v.v Nhưng ngôn ngữ Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thơng Cơng nghệ Thơng tin (REV-ECIT2022) phổ biến phức tạp tiếng Việt chưa có mơ hình tối ưu cho việc sinh văn có đề tài cho trước Những mơ hình hỗ trợ ngôn ngữ tiếng Việt hoạt động theo nguyên tắc sinh từ đơn nên chúng không giải vấn đề từ ghép câu dài mạch lạc Do đó, nghiên cứu chúng tơi tập trung vào việc tạo mơ hình điều khiển sinh văn tiếng Việt có đề tài xác định II CÁC NGHIÊN CỨU LIÊN QUAN Trong việc điều khiển sinh văn có nghiên cứu đạt kết tốt như: phương pháp điều khiển sinh văn sử dụng với mơ hình học tăng cường [11], huấn luyện mơ hình Generative adversarial network (GAN) để điều khiển [11], huấn luyện mơ hình sinh câu có điều kiện ([12], [8]), phương pháp điều khiển sinh văn kỹ thuật học máy [13] Tuy nhiên, phương pháp cần lớn lượng liệu với đề tài khác nên thường đạt việc xử lý thời gian thực cho hệ thống Điển phương pháp sủ dụng GAN [11], phương pháp hoạt động việc học đặc tính liệu để thực phép cộng nhiễu tính xác suất diễn dựa vào câu đầu vào Tính chất phương pháp GAN sinh liệu dựa vào liệu thật nhiễu qua mã hóa giải mã Tiếp theo, phương pháp đạt hiệu cao việc sử dụng học tăng cường để điều khiển sinh câu [11] Phương pháp sử dụng học tăng cường làm chiến lược để huấn luyện qua đánh giá tính liên quan đến văn với đề tài yêu cầu Đầu tiên thiết lập thuộc tính đề tài cần thực nhằm tạo môi trường huấn luyện cho học tăng cường, sau thực huấn luyện mơ hình MLE+PG Cuối cùng, việc tinh chỉnh mơ hình theo nhóm chủ đề để điều khiển việc sinh văn Phương pháp đánh giá tiêu chí độ xác liên quan đến đề tài (BLEU) [14] độ ổn định (ROGER) [15] 71.68%, 70% Điều cho thấy rằng, phương pháp gần cao tất mơ hình giới thiệu thời gian gần với khả áp dụng rộng với nhiều ngơn ngữ Tuy nhiên, có vấn đề lớn liệu để tạo mơi trường huấn luyện thường lớn phức tạp Mặt khác, phương pháp yêu cầu khả tính tốn lớn nên khó khăn việc thiết bị phần cứng Phương pháp thứ hai có kết tốt thực huấn luyện lại mơ hình ngơn ngữ có điều kiện để điều khiển sinh văn bản, mơ hình CTRL [8] Phương pháp sử dụng mơ hình mở ISBN 978-604-80-7468-5 447 rộng phương pháp GPT Open AI phát triển theo hướng đưa điều kiện vào Với 1.6 tỷ phép tính 50 điều khiển cho phép điều khiển 50 dạng đề tài khác Kết phương pháp 69.82% cho độ xác liên quan đến đề tài 75% độ ổn định Phương pháp có kết tốt điều khiển thơng qua điều kiện cài đặt từ trước, với đề tài đánh dấu từ trước Phương pháp đưa lại hiệu cao nêu trên, gặp khó khăn mở rộng đề tài điều kiển việc sinh câu, tăng cường độ xác dựa vào tinh chỉnh lại mơ hình với đề tài khác nhau, việc sử dụng ngơn ngữ khác khó phần điều khiển liền với phần mơ hình ngơn ngữ Phương pháp thứ ba Plug and play language model (PPLM) [13] dùng kĩ thuật học máy đề điều khiển sinh câu Phương pháp sử dụng túi từ kết hợp với chia lại giá trị p(x|a) câu dùng softmax để lấy giá trị véc-tơ Bằng việc cho mơ hình ngơn ngữ sinh câu ngẫu nhiên sử dụng thuộc tính đề tài chuyển đổi, với nguồn từ vựng thực sinh để cập nhật lại đường quy định đầu token đầu Độ xác phương pháp đo BLUE [14] với ROGER [15] độ xác đề tài 40% bù lại độ ổn định 88% Phương pháp có độ ổn định cao nên khơng rơi vào trạng thái rời khỏi storyline dễ dàng triển khai có mơ hình ngơn ngữ phù hợp cần tinh chỉnh phần đoạn chuyển điều khiển được, cần phải có túi từ để làm thuộc tính cho đề tài làm túi từ cho phù hợp dễ, phụ thuộc vào mơ hình ngơn ngữ mơ hình ngơn ngữ khơng tạo định dạng câu thể tính liên kết khơng thể điều khiển Những phương pháp áp dụng Tiếng Anh nơi mà nguồn liệu phong phú mà áp dụng tiếng Việt mà liệu mà xử lý xong cịn lại nên việc tìm đủ liệu để thực khó khăn Trong tiếng Việt phương pháp điều khiển sử dụng CTRL [8] sử dụng FPT bot tập đồn FPT nhiên liệu sử dụng khơng cơng bố Vì phương pháp khác u cầu lượng liệu lớn để ta có thấy lấy từ ý tưởng phương pháp PPLM để sử dụng tiếng Việt Khi việc điều khiển sinh câu trở nên triển khai việc thực mơ hình hồn tồn với tiếng Việt III MƠ HÌNH ĐỀ XUẤT Trong phần này, chúng tơi mơ tả mơ hình đề xuất để điều khiển việc sinh văn tiếng Việt có đề tài xác Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) ra, GPT sử dụng chế Transformer để tạo tập hợp gồm cặp khóa giá trị Với phần tử đại diện cho lớp sinh q trình thực hiên mơ hình Tập hợp sử dụng để tạo xt giá trị Ht giá trị phân lớp từ bước đến bước t tóm tắt công thức sau ot+1 , Ht+1 = LM (xt , Ht ) Hình Mơ hình điều khiển câu định Mơ hình trình bày theo ba phần: Hiệu chỉnh giá trị Mơ hình Transformer huấn luyện cho việc sinh, Chiến lược điều khiển Phương thức thiết lập điều kiện lần mô tả sau A Hiệu chỉnh giá trị Mơ hình Transformer huấn luyện trước cho việc sinh Phương pháp Transformer tạo tiền đề cho việc phát triển mơ hình ngơn ngữ lớn mà tạo nhờ lượng liệu khổng lồ Qua đó, Transformer đạt thành tựu bật Thứ nhất, tạo mơ hình ngơn ngữ có độ xác cao tiêu biểu BERT [16] Đồng thời, Transformer cải thiện khả thực nhiệm vụ liên quan đến ngôn ngữ tự nhiên nhận dạng tiếng nói, dịch máy ngày hiệu Nó đưa hướng cho giao tiếp người máy tiến dần đến giai đoạn mà khơng biết người hay máy nói chuyện với Tiếp theo, nhiệm vụ tạo văn Mơ hình Transformer huấn luyện trước cho việc sinh (Generative Pretrained Transformer-GPT) phương pháp đánh giá hiệu lĩnh vực với phiên GPT [17], GPT [6] GPT [18] Tuy nhiên, nghiên cứu này, sử dụng GPT để thực tạo mơ hình ngơn ngữ điều khiển Theo đó, đưa chuỗi ký tự X = {x1 ,x2 , xn } vào mô hình ngơn ngữ thu xác suất tồn chuỗi ký tự p(X) cơng thức (1) p(X) = n Y p(xi |x0 , x1 , , xi+1 ) (1) i=1 Công thức biểu diễn xác suất chuỗi tồn mơ hình ngơn ngữ định việc mơ hình tiếp tục sinh câu Khi xác suất thấp mơ hình dừng việc tạo từ lặp lại từ cũ trước Ngồi ISBN 978-604-80-7468-5 448 (2) Trong đó, Véc-tơ ot+1 tạo thông qua việc đưa chuỗi giá trị đầu vào giá trị phân lớp Ht qua mơ hình ngơn ngữ LM Với ánh xạ tuyến tính W cho phép chuyển Véc-tơ thể giá trị gradient ot+1 thành Véc-tơ từ vựng lúc xt+1 = Sof tmax(W ∗ ot+1 ) Điều cho phép tạo ngôn ngữ hiệu mà không cần phải lặp lại trình cho từ riêng biêt Từ đó, chúng tơi sử dụng GPT-2 việc triển khai liệu tiếng Việt Thêm vào đó, nghiên cứu không thực huấn luyện từ giá trị trọng số mà thực tinh chỉnh lại việc sử dụng mơ hình huấn luyện thực thay đổi tinh chỉnh thuật toán tách từ (tokenizer) Phương pháp tinh chỉnh GPT thực nhờ phương pháp cập nhật lại nguồn từ vựng, đưa nguồn liệu từ ngữ tiếng Việt vào chuỗi từ tiếng Anh Tinh chỉnh cần phải giảm tối đa việc sử dụng liệu nên phương pháp thường triển khai tiếng Việt không thay đổi trọng số phân lớp đầu mà thay đổi phân lớp sau mơ hình Thực BPE [19] tồn liệu huấn luyện vào chuyển dạng GPT Đối với tiếng Việt có cặp từ ghép việc dùng mã hóa BPE giữ tính ngun vẹn từ ghép so với việc dùng cách mã hóa đơn từ, cặp từ Sau chuyển BPE sang GPT, mơ hình thực việc cập nhật gói từ vựng Cuối cùng, thực tinh chỉnh tồn thơng số mơ hình GPT B Chiến lược điều khiển Theo trình bày GPT dù phương pháp hiệu việc sinh câu nay, khơng có khả điều khiển câu cách hiệu chưa đạt khả tạo câu theo điều kiện Do đó, đề xuất phương pháp dựa Plug and play language model (PPLM) [13] ngôn ngữ tiếng Anh thực ngơn ngữ tiếng Việt Để điều khiển đầu cho hệ thống sinh văn bản, bước thực thứ t, ta cần phải biết giá trị theo hướng tổng hai gradient bao gồm gradient biểu thị cho mơ hình sinh có tính liên kết với đề tài p(x|a) gradient biểu thị cho mơ hình sinh thêm vào p(x) Sử dụng xác suất p(x|a) đưa từ thuộc đề tài thêm giá trị mặt Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) logit đưa từ thuộc đề tài vị trí cao véc-tơ đầu ra, mà lấy mẫu lấy từ thuộc đề tài thay đổi giá trị gradient thay đổi không tạo câu vô nghĩa Nguyên tắc dựa vào việc lấy mẫu véc-tơ đầu thông qua giá trị gradient sử dụng gradient đưa từ thể chủ đề có giá trị xác suất cao Khi qua giai đoạn Ht cập nhật Ht khơng cần cập nhật liên tục dựa vào phần khứ sinh để thực điều chỉnh nên cần thay đổi lượng phù hợp để thay đổi phân phối đầu sau lấy mẫu, nên ta sử dụng giá trị ∆H để cập nhật cho Ht cho Ht + ∆H làm thay đổi phân phối có khả chứa thuộc tính cho đề tài mong muốn ∆H khởi tạo với giá trị bắt đầu trình cập nhật gradient mơ hình dùng để tạo thuộc tính mong muốn p(x|a) viết lại p(x| Ht + ∆H) với giá trị ∆H tính cơng thức: ∇δHt ∗log(p(x|Ht +δH) ∆H ← ∆H + α ∗ ||∇δHt ∗log(p(x|Ht +δH) ||γ (3) Với α khoảng thực γ , hệ số chuẩn hóa ∆H cập nhật lượng định Sau cập nhật lại Ht + ∆H + ta tính lại giá trị ⃗vot+1 thực trình biến véc-tơ từ vựng thực sinh câu Giá trị p(x) tạo hệ thống sinh câu với phương pháp GPT T5 ta biết p(x) có độ lệch lớn khơng cố định chủ đề để lựa chọn mà biến đổi theo dạng phù hợp với giá trị xác suất tìm Ta sử dụng Kullback–Leibler [20] nhằm giảm phân kì p(x) cách cập nhật ∆H phù hợp với q trình thực nhờ cộng dồn đại lượng trước gradient C Phương thức thiết lập điều kiện Ta biết việc đưa giá trị khuyên dùng phần quan trọng việc cập nhật nhằm tạo thay đổi phân phối xác suất từ tạo đường gradient nhằm mở rộng Bằng cách tạo giá trị đầu vào từ cung cấp làm điều khiển đề tài Có thể tạo chuỗi từ làm từ khóa , sử dụng phân phối câu làm định tuyến để thực tạo từ khóa để điều khiển mơ hình ngơn ngữ với phân phối Với từ biểu chủ đề {w1 , , wk } với phân phối đầu mơ hình ngơn ngữ pt+1 giá trị chuỗi từ khóa nhằm định chủ đề cần thực theo : k X log(p(x|a)) = log( pt+1 [wi ]) (4) ISBN 978-604-80-7468-5 449 Bảng I CẤU STT HÌNH PHẦN CỨNG Tên thiết bị CPU GPU RAM Mô tả Intel Xeno Sivel 4210 Nvidia Tesla T4 64GB Trong đó, x giá trị token câu chữ a giá trị chủ đề Công thức giúp cho việc lấy xác suất từ so với từ đặc trưng đề tài xác định p(x|a) xác suất từ có thuộc đề tài hay khơng Việc lấy log đưa giá trị để xác nhận Từ tăng giá trị từ véc-tơ sinh p(x) từ tăng tỉ lệ xuất từ thuộc đề tài IV THỰC NGHIỆM VÀ KẾT QUẢ A Điều kiện kiểm thử Từ giá trị thời gian thực huấn luyện 168 tiếng nhằm để đưa mơ hình từ tiếng Anh sang mơ hình tiếng Việt từ thực tốn Trong nghiên cứu này, sử dụng liệu viết Wikipedia cho việc thực tinh chỉnh GPT tiếng Anh sang GPT tiếng Việt Bộ liệu có dung lượng 2GB bao gồm đoạn văn ngắn mô tả vật, việc Thêm vào đó, bao gồm câu nêu định nghĩa viết theo nguyên tắc tách thông tin mà không sử dụng biện pháp nghệ thuật nên câu có cấu trúc rõ ràng khơng q phức tạp Từ đó, mơ hình giảm thiểu việc sử dụng vượt mức tài nguyên để huấn luyện, thời gian độ phức tạp tính tốn Ngồi ra, câu phức tạp hơn, sử dụng liệu thứ hai A Large-scale Vietnamese News Text Classification Corpus cho việc thực tạo mơ hình sinh câu văn theo chủ đề Bộ liệu chứa câu tác phẩm văn học Việt Nam Với liệu này, chúng thơi thực mơ hình thiết bị mơ tả bảng I thời gian thực huấn luyện 168 tiếng B Phương pháp kiểm thử Để đánh giá mơ hình sinh văn bản, có hai phương pháp kiểm thử dùng thuật toán để kiểm thử tự động sử dụng khả kiểm thử người bao gồm: Sử dụng người để kiểm thử: phương pháp đánh giá thang điểm từ 1-5 câu sinh mang chủ đề đặc trưng từ cho điểm với điểm ‘rất tệ’ điểm ‘tốt’ để đánh giá mơ hình [21] Tuy nhiên, việc người đánh giá mang tính chủ quan khó để xác định xác tính hiệu mơ hình Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Sử dụng thuật toán để kiểm thử: Sử dụng tiêu chí độ trơi chảy ngữ pháp để tự động đánh giá hệ thống Hai hệ thống thường dùng để đánh giá bao gồm BLEU [14] Ngoài ra, để đánh giá ngữ pháp câu sử dụng hệ thống Dist-1 , Dist2, Dist-3 để tính 1-gram, 2-gram, 3-gram, với giá trị 1-gram, 2-gram, 3-gram biểu diễn cho độ xác mà từ liên kết với P (w1:n ) = n Y P (wk |w1:k−1 ) (5) count(w1 wk ) w1 wk−1 (6) Bảng II KẾT QUẢ SO SÁNH PHƯƠNG PHÁP ĐỀ XUẤT VỚI CÁC PHƯƠNG PHÁP KHÁC Mơ hình Độ xác (%) BLEU GPT2 GPT2-H CTRL WD MLE+PG Proposed 19.3 21.8 50.3 37.2 64.2 56.8 0.92 0.90 0.78 / 0.95 0.93 Độ bất ổn định Dist 0.37 0.54 0.35 0.33 / 0.34 0.70 0.91 0.60 0.69 / 0.72 0.91 0.92 0.89 0.83 0.90 0.90 38.9 217.0 37.0 34.6 28.7 13.1 P (wk |w1:k−1 ) = Tiếp theo, để tính giá trị BLEU, trước tiên ta có giá trị Geometric Average Precision tính theo công thức sau GAP (N ) = N Y n pw n (7) n=1 giá trị wn số biến chuyển tính tốn phụ thuộc vào số lượng N-gram thực Giá trị Brevity Penalty (BP) xác định giống độ dài câu sinh với câu đối chiếu 1, c