Bằng cách tự động phát hiện và sửa các lỗi chính tả trong các văn bản, bài toán sửa lỗi chính tả là một yếu tố rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, đóng vai trò trong t
Mục tiêu vàphạmvi
Mụctiu Ặ Q Q Q Q ee 3
Để hoàn thành luận văn, các mục tiêu cụ thể sau được đặt ra như sau:
* Tìm hiểu tổng quan và các hướng tiếp cận cho bài toán sửa lỗi chính tả.
+ Đề xuất xây dựng phương pháp sửa lỗi chính tả bằng việc kết hợp giữa mô hình BERT và kiến trúc Transformer.
* Xây dựng hệ thống minh họa cho bài toán.
Trong khuôn khổ giới hạn của luận văn, một số phạm vi được dé ra như sau:
Trong quá trình huấn luyện và đánh giá, các văn bản được sử dụng là những tài liệu tổng quát, lấy từ nguồn báo chí điện tử và không thuộc về một chuyên ngành hay lĩnh vực chuyên môn cụ thể nào.
Các từ được coi là viết đúng chính tả khi chúng nằm trong danh mục từ của từ điển chính tả hoặc được thống nhất theo quy ước chính tả của Bộ Giáo dục và Đào tạo.
* Phương pháp được đánh giá trên một nhóm tập lỗi nhất định (chi tiết tại
Các mô hình BERT được thử nghiệm bao gồm hai phiên bản là BERT-base và RoBERTa, dựa trên kiến trúc Transformer nguyên bản được giới thiệu vào năm 2015.
Đóng góp của luậnvăn
Sau quá trình tìm hiểu và thực hiện, luận văn đã có một số đóng góp sau đây:
Bài viết này cung cấp cái nhìn tổng quan về bài toán sửa lỗi chính tả tiếng Việt, bao gồm định nghĩa, thách thức và ứng dụng Nó phân tích ưu điểm và hạn chế của hai mô hình ngôn ngữ phổ biến là N-Gram và Word2Vec, đồng thời khảo sát một số phương pháp trong hai hướng tiếp cận này Cuối cùng, bài viết cũng đề cập đến việc xây dựng tập dữ liệu cho bài toán sửa lỗi chính tả tiếng Việt.
Phương pháp học sâu tiên tiến kết hợp kiến trúc Transformer với mô hình BERT và PhoBERT đã chứng minh độ chính xác cao trong việc sửa lỗi chính tả.
Xây dựng ứng dụng minh họa cho bài toán.
Cấu trúc của luận văn gồm 5 chương như sau: ằ Chương 1: Giới thiệu tổng quan về dộ tài của luận văn.
Chương 2 trình bày tổng quan về định nghĩa, thách thức và động lực của bài toán sửa lỗi chính tả tiếng Việt Nội dung chương cũng khám phá các hướng tiếp cận khả thi nhằm giải quyết vấn đề này, từ đó cung cấp cái nhìn sâu sắc về các phương pháp và kỹ thuật có thể áp dụng.
* Chương 3: Trình bày các kiến thức cơ bản về các thành phần và phương pháp thực nghiệm trong luận văn.
Chương 4 trình bày kết quả thực nghiệm và phân tích đánh giá các phương pháp áp dụng trên tập dữ liệu chính tả tiếng Việt Chương 5 đưa ra kết luận và đề xuất hướng phát triển tiềm năng cho luận văn.
Cấu trúcluậnvăn ẶẶẶ 4
Định nghĩa lỗi chính tả là gì?”
Theo Từ điển tiếng Việt (NXB Khoa học xã hội, 1988), chính tả được định nghĩa là "cách viết chữ (ta) được coi là đúng, là chuẩn (chính)" Khái niệm này nhấn mạnh tầm quan trọng của việc viết đúng chính tả trong ngôn ngữ, góp phần duy trì sự chuẩn xác và tính thống nhất trong giao tiếp.
Tính đến năm 2018, tiếng Việt chưa có quy chuẩn viết đúng phổ biến, mà chủ yếu dựa vào sách giáo khoa và từ điển với nhiều phiên bản và sửa đổi khác nhau.
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN góp phan làm cho một bộ phận phan đông người Việt Nam viết sai chính tả trong đời sống thường ngày Trong nghiên cứu này, các phạm trù đúng - sai về chính tả được căn cứ dựa trên QĐ-1989 của Bộ Giáo dục & Đào tạo ngày 25/05/2018.
Tóm tắt từ văn ban trên, có một số quy định về lỗi chính tả trong tiếng Việt có thể rút ra như sau:
* Quy định về cách đặt dấu thanh khi âm tiết có một chữ cái; khi âm tiết có hai chữ cái;
* Quy định về cách viết âm i sau phụ âm đầu trong các âm tiết không có âm đệm và âm cudi.
Các căn cứ khác để xác định lỗi chính tả còn lại dựa trên sách Từ điển tiếngViệt do Viện Ngôn ngữ hoc GS Hoàng Phê chủ biên ?
Đặc điểm của lỗi chính tả trong tiếng Việt
Trong lĩnh vực sửa lỗi ngôn ngữ tiếng Anh, có hai loại lỗi chính: lỗi chính tả và lỗi ngữ pháp Việc xác định loại lỗi cần sửa chữa là rất quan trọng trong quá trình nghiên cứu Khác với tiếng Anh, tiếng Việt là một ngôn ngữ đơn lập, trong đó ngữ pháp được thể hiện qua một số từ cố định như "sẽ" và "da", mà không thay đổi hình thái từ.
Việc giải quyết vấn đề chính tả trong tiếng Việt mang lại giá trị cao hơn so với việc sửa lỗi ngữ pháp Một trong những điểm khác biệt rõ rệt giữa tiếng Việt và tiếng Anh là hệ thống thanh sắc và dấu của các ký tự Tiếng Việt sử dụng 29 ký tự Latin, điều này tạo ra những thách thức đặc biệt trong việc viết và đọc.
! Quyết định số 1989/QD-BGDDT: https://s.biz.vn/QD1989BGDDT
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN được tùy chỉnh: tiếng Việt không sử dụng các kí tự ’w’, 'F, ’j’, ’z’ và sử dung thêm 6 kí tự nguyên âm kết hợp cùng dấu bao gồm: 'š, 'â”, 'ê', 'ô”, 'ơ, 'ê' Cùng với sáu thanh sắc - [sắc, huyền, hỏi, ngã, nặng, bằng] khiến tiếng Việt sử dụng lên đến 67 kí tự khác nhau khi viết [13][14] Con số này lớn gấp 3 lần số lượng kí tự được dùng khi viết trong tiếng Anh Điều này nhân mạnh hơn nữa sự thách thức và ý nghĩa khi giải quyết bài toán sửa lỗi chính tả cho tiếng Việt. Ở day, dựa trên các nghiên cứu di trước [8] và dựa vào vốn hiểu biết về tiếng Việt, một danh mục các loại lỗi chính tả được tổng hợp như sau Trước hết, có hai nhóm lỗi lớn mà người viết tiếng Việt thường hay mắc phải: đó là các lỗi về viết sai quy cách và các lỗi viết sai do nhận thức của người viết.
+ Lỗi viết sai quy cách (Typography)
Lỗi viết tắt thường xảy ra do thói quen tốc ký hoặc cố ý sử dụng trong một số trường hợp Những lỗi này thường phổ biến trong các cộng đồng nhất định và có thể dễ dàng bị bỏ qua trong văn bản viết tay thông thường, nhưng lại không được chấp nhận trong các văn bản chính thức và trang trọng.
Lỗi do viết bộ gõ Telex/VNI thường xảy ra khi người dùng quên bật hoặc tắt bộ gõ này, dẫn đến việc các từ bị biến đổi sai lệch so với nguyên tắc Bộ gõ Telex/VNI là một quy ước quan trọng giúp biểu diễn ngôn ngữ tiếng Việt trên máy tính và điện thoại thông minh, và nó được sử dụng rộng rãi trên toàn quốc và quốc tế Những lỗi chính tả này rất phổ biến trên Internet và có thể gây khó khăn cho việc giao tiếp hiệu quả.
Lỗi ngón tay to (Fat-Finger): Hay còn được biết đến hội chứng fat- finger là một tình huống mà người dùng vô tình chạm vào một phím xung
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN quanh thay vì phím mục tiêu trong quá trình soạn văn bản.
Lỗi do sử dụng Teencode là một hiện tượng phổ biến trên các diễn đàn và mạng xã hội, nơi tiếng Việt xuất hiện với nhiều biến thể độc đáo Những biến thể này, kết hợp với xu hướng nhắn tin và viết blog của giới trẻ, đã hình thành một cách viết không chính thống chỉ tồn tại trên Internet Teencode thường được hiểu và sử dụng bởi một nhóm cộng đồng nhất định, dẫn đến các lỗi như rút ngắn từ, nới dài từ, và đảo ký tự.
Lỗi viết sai do nhận thức, theo Flammie A Pirinen và các cộng sự, xuất phát từ những khiếm khuyết của người viết, bao gồm cả việc họ không nhận thức được cách viết đúng Trong lĩnh vực y tế, người viết có thể gặp phải các vấn đề như chứng khó đọc, khó viết hoặc các rối loạn nhận thức khác Từ góc độ ngôn ngữ học, người viết có thể chỉ đang trong quá trình học ngôn ngữ và chưa nắm vững quy tắc chính tả.
Lỗi viết sai trong tiếng Việt thường xuất phát từ sự khác biệt trong phát âm giữa các vùng miền Điều này cho thấy tầm quan trọng của việc hiểu rõ ngữ âm và ngữ nghĩa để cải thiện kỹ năng viết.
Mặc dù chưa có văn bản chính thức nghiên cứu mối quan hệ giữa giọng vùng và tần suất lỗi chính tả, một số ý kiến cho rằng có sự liên quan giữa hai yếu tố này.
Việt Nam, với lịch sử 4000 năm, có nhiều khu vực địa lý và bản sắc giọng nói khác nhau Sự đặc thù của tiếng Việt cho thấy ngay cả những thay đổi nhỏ trong phát âm cũng có thể làm thay đổi ý nghĩa của từ ngữ Điều này ảnh hưởng lớn đến cách viết tiếng Việt Một số giọng vùng miền phổ biến bao gồm giọng Hà Nội, giọng Hải Phòng, và giọng Thanh - Nghệ - Tĩnh.
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN
Quảng Nam, giọng Phú Yên, v.v Một vài đặc trưng ở phương diện giọng vùng miễn có thể được nêu ra như sau: !
— Giọng Bắc là không phân biệt phụ âm dau: [CH] va [TR] nói thành
— Giọng Thanh Nghệ Tĩnh không phân biệt phụ âm đầu [D], [GI] và
— Giọng Nam không phân biệt phụ âm cuối [C] và [T] nói thành [C], [NI va [NG] nói thành [NG]; không phân biệt phụ 4m đầu [VỊ với [DI.
Và còn rất nhiều trường hợp khác, đã cấu thành nên một tập hợp các lỗi chính tả được xác định là lỗi vùng miền.
Trong nghiên cứu sửa lỗi chính tả, các lỗi thường được phân thành hai nhóm: lỗi non-word và lỗi real-word, dựa trên một bộ từ điển tham chiếu, cụ thể là từ điển tiếng Việt Lỗi non-word là những lỗi tạo ra từ mới không có trong từ điển, ví dụ như trong câu "Em bes đi học ở nhà trẻ", từ "bé" bị viết sai thành "bes", một từ không thuộc ngôn ngữ tiếng Việt, do đó được xác định là lỗi non-word.
Lỗi chính tả có thể tạo ra những từ không chính xác trong văn bản, dẫn đến việc hiểu sai ý nghĩa Ví dụ, trong câu "Em béo đi học ở nhà trẻ," từ "béo" có thể bị hiểu sai nếu không được viết đúng chính tả Việc chú ý đến lỗi chính tả là rất quan trọng để đảm bảo thông điệp được truyền đạt một cách rõ ràng và chính xác.
Từ "bé" đã bị viết sai thành "béo", tuy nhiên từ "béo" vẫn tồn tại trong từ điển tiếng Việt và câu văn vẫn giữ được hàm ý, ngữ nghĩa cụ thể, mặc dù đã lệch ý nghĩa và ngữ cảnh so với câu đúng.
'Neuén tham khảo dự án Ilovemyvoice tại: http://ilovemyvoice.vn/giong-noi-viet-tu-bac-vao-nam/
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN
Địnhnghĩa bàitoán
Bài toán sửa lỗi chính tả là việc xử lý một văn bản tiếng Việt, có thể không có lỗi chính tả hoặc có ít nhất một lỗi Kết quả đầu ra là văn bản tiếng Việt đã được chỉnh sửa để loại bỏ các lỗi chính tả nếu cần thiết.
Khi sửa lỗi chính tả, cần chú ý đến việc chỉ sửa những chỗ cần thiết, giữ việc xóa bỏ hoặc thêm từ mới ở mức tối thiểu để không làm biến đổi ý nghĩa và ngữ pháp của văn bản gốc Các mô hình sửa lỗi cần xác định chính xác từ có lỗi, hiểu ngữ cảnh sử dụng và đề xuất từ thay thế phù hợp nhất cho từ sai.
Bài toán sửa lỗi chính tả có mối liên hệ chặt chẽ với nhiều bài toán khác, chẳng hạn như bài toán đặt và khôi phục thanh sắc cho văn bản tiếng Việt Có thể coi khôi phục thanh sắc là một bài toán con trong quá trình sửa lỗi chính tả tiếng Việt.
Tính ứng dụng của bài toán
Dù không phải van đề mới, bài toán sửa lỗi chính tả tiếng Việt vẫn cho thấy giá trị mới cho các bài toán khác:
* Đầu vào của các hệ thống tìm kiếm [16] hay hệ thống khai phá dữ liệu
Sử dụng công nghệ để cải thiện hiệu suất của các mô hình OCR và nâng cao trải nghiệm cho người dùng, đồng thời hỗ trợ người nước ngoài trong việc học tiếng Việt.
Sử dụng công cụ tầm soát lỗi giúp biên tập viên các tạp chí điện tử phát hiện và sửa chữa lỗi chính tả Dù đã có nhiều tiến bộ, nhưng lỗi chính tả vẫn thường xuất hiện trên các mặt báo chí, ảnh hưởng đến chất lượng nội dung.
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIEN QUAN phương tiện truyền thông đến biểu ngữ tuyên truyền trong đời sống như trong Hình 2.1
'VƯỜN TRÁI CÂY|SUM SẼ,Jrfu QUẢ
NHÀ BẰNG KIỂU KHIỂN AI CONG PHAI
Star ằ Sao Việt + 9 thỏng aed Li | tí quone,
'Vườn trái cây nha Bằng Kiều là do me anh bỏ CHAY KE ra nhiều công sức dé chăm bam nên rất tươi lu
-tốt và tru quả khiến ai cũna nhải ngưỡng i NHUONG NHIN,
= mm Ị gái ôBi: trước con trai vỡ. cổ rệu tring ‘inp ‘Online ằ in TP.Hồ Chi Minh
THOM SHY RA TW NAN aid
Hình 2.1: Một số lỗi chính tả xuất hiện trên báo chí, phương tiện truyền thông, đài truyền hình quốc gia và các công trình công cộng.
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN
Thách thức của bài toán
Thách thức về sự đa dạng ngôn ngữ: Theo nhà ngôn ngữ hoc, GS Hoàng Phê
Theo thống kê về ngôn ngữ tiếng Việt, hiện có 6,760 âm tiết chữ viết có nghĩa, trong đó 1,026 âm tiết không gặp vấn đề về chính tả, trong khi 5,734 âm tiết còn lại có vấn đề chính tả Sự gia tăng số lượng âm tiết chữ viết cho thấy những khó khăn trong việc xử lý chính tả trong tiếng Việt.
Thách thức về thời gian xử lý trong hệ thống sửa lỗi chính tả là rất quan trọng, đặc biệt khi người dùng yêu cầu tốc độ nhanh Hệ thống sửa lỗi chính tả của Google hiện nay cung cấp khả năng sửa lỗi theo thời gian thực, với độ trễ chỉ từ 0.5 giây đến 1.0 giây cho mỗi từ mới trên Google Docs Nếu một hệ thống xử lý chậm, nó sẽ không mang lại giá trị cho người dùng, dẫn đến việc họ có thể không sử dụng hoặc tìm kiếm các giải pháp thay thế khác.
Thách thức về dữ liệu trong việc sửa lỗi chính tả tiếng Việt hiện nay đang trở nên cấp bách, khi không có bộ dữ liệu nào được công khai cho cộng đồng nghiên cứu Hầu hết các nhóm nghiên cứu đều phải áp dụng phương pháp sinh lỗi giả trên các văn bản đã được viết đúng, điều này dẫn đến sự hạn chế trong việc tiếp cận dữ liệu thực tế Việc xây dựng một bộ dữ liệu thu thập từ quá trình viết của người dùng sẽ tạo ra những đóng góp quan trọng cho lĩnh vực này.
Hạn chế về tài nguyên nghiên cứu tiếng Việt là một thách thức lớn, do tiếng Việt chưa phổ biến như các ngôn ngữ lớn như tiếng Anh, tiếng Trung Quốc, tiếng Pháp hay tiếng Tây Ban Nha Điều này dẫn đến việc các nghiên cứu liên quan đến tiếng Việt còn tương đối ít ỏi và thiếu đa dạng trong các phương pháp tiếp cận.
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN
Tap dữ liệu Ngôn | Kích thước Công | Kích thước | Công
Phương pháp ngữ | tập huấn luyện | khai? | tập kiểm thử | khai?
CoNLL-2014[22] Anh 57,151 câu Có 1,312 câu Có
BEA-2019[24] Anh 34,308 câu Có 4,477 câu Có
TOEFL-Spell [25] Anh 883 bài văn Có - b POS Bi-gram +
Min Edit Distance Việt | 4000 bài báo | Không 312 câu Không + SoundEx [1]
Vietnamese GEC [26] Việt 271,822 câu | Không | 15,879câu | Không Using large N-gram [2] Việt 2GB Không | 3132câu | Không
Transformer Encoder [27] | Việt 3GB Không | 14,000 câu Có
Bảng 2.1 trình bày một số phương pháp sửa lỗi chính tả cùng với thông tin về tập dữ liệu được sử dụng trong các nghiên cứu khác nhau Những ứng dụng này không thể áp dụng ngược lại cho ngôn ngữ tiếng Việt So sánh giữa các tập dữ liệu công khai cho bài toán sửa lỗi chính tả của tiếng Anh và tiếng Việt cho thấy sự khác biệt rõ rệt.
Thách thức về từ ngữ mới luôn xuất hiện trong xã hội, với các thuật ngữ như Coronavirus, covid-19, FO (F1, F2, F3 ), 5K, giọt bắn, di biến động, và thu dung Những từ này không chỉ mới mà còn mang ý nghĩa mới, phản ánh sự thay đổi liên tục của ngôn ngữ theo dòng lịch sử Việc duy trì một hệ thống sửa lỗi chính tả ổn định là điều không khả thi, do đó cần có sự bổ sung và cập nhật thường xuyên các phương pháp Bên cạnh sự xuất hiện của từ mới, sự bùng nổ của các phương tiện truyền thông và mạng xã hội cũng dẫn đến việc tái sử dụng một số từ cổ của tiếng Việt với ý nghĩa mới, tạo ra thách thức cho cách tiếp cận và sử dụng từ ngữ trong ngữ cảnh hiện đại.
'Nguôn bài báo của PGS.TS Phạm Văn Tình - Tap chí Tuyên giáo: https://tuyengiao.vn/noi-dung- viet-dung/hieu-ve-tu-moi-tieng-viet- 138644
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN cảnh).
Kiến trúc tổng quan cho bài toán sửa lỗi chínhtả
Kiến trúc theo hướng xử lý bài toán dịch máy
Hệ thống sửa lỗi chính tả có thể áp dụng nguyên lý của bài toán dịch máy, trong đó câu cần sửa được coi là ngôn ngữ nguồn và câu đã sửa là ngôn ngữ đích Việc sử dụng mô hình này giúp đơn giản hóa quy trình, cho phép hệ thống vừa xác định lỗi chính tả vừa "dịch" từ sai thành từ đúng.
-Xác định lỗi chính tả và sửa lôi chính tả
Tôi đang ddi học tại trường UIT —>) chínhtả Tôi đang đi học tại trường UIT.
Ngôn ngữ can dịch Ngôn ngữ được dịch
Hình 2.4: Mô tả kiến trúc tổng quan của bài toán sửa lỗi chính tả dựa trên các tiếp cận theo hướng bài toán dịch máy.
Các nghiên cứu liên quan
Đối với ngôn ngữ tiếng Anh và các ngôn ngữ khác
Bài toán sửa lỗi chính tả đã được nghiên cứu từ sớm, với phương pháp truyền thống dựa vào từ điển chính tả để đối chứng Tuy nhiên, việc tra cứu tuần tự trong từ điển lớn thường tốn nhiều thời gian Để giảm thiểu thời gian tìm kiếm, các nghiên cứu đã áp dụng các cấu trúc dữ liệu như bảng băm và cây tìm kiếm.
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN
Sau khi xác định lỗi chính tả, bước tiếp theo là tìm từ thay thế phù hợp Có thể sử dụng từ điển, bên cạnh đó, các phương pháp rule-based và heuristic cũng giúp phát hiện những từ thường bị nhầm lẫn Nếu không dùng từ điển và giải thuật heuristic, hai thuật toán phổ biến để chọn ứng viên sửa lỗi là Minimum Edit.
Distance (giải quyết theo kí tự) và Metaphone [28], SoundEx [29](giải quyết theo hướng phát âm).
Sau khi có danh sách ứng viên, việc áp dụng mô hình ngôn ngữ để xác định ứng viên phù hợp nhất trong ngữ cảnh là rất quan trọng Ứng viên có xác suất phù hợp cao nhất sẽ được chọn làm từ thay thế cho từ sai chính tả Qua các năm, phương pháp này đã tiến hóa từ mô hình xác suất N-Gram đến các mô hình ngôn ngữ dựa trên Word-Embedding.
Với sự tiến bộ nhanh chóng trong lĩnh vực học sâu, các mô hình mạng nơ-ron như RNN, đặc biệt là LSTM, đã trở thành công cụ quan trọng trong việc xử lý dữ liệu tuần tự.
Việc sử dụng mô hình GRU đã dẫn đến sự phát triển của các mô hình dựa trên cơ chế attention như BERT và Transformer, mở ra xu hướng mới trong việc sửa lỗi chính tả Theo cách tiếp cận này, bài toán sửa lỗi chính tả được coi như một bài toán dịch máy, trong đó ngôn ngữ nguồn là văn bản có lỗi chính tả và ngôn ngữ đích là văn bản không có lỗi.
2.4.2 Đối với ngôn ngữ tiếng Việt
2.4.2.1 Nhóm các phương pháp sử dụng mô hình xác suất Đối với nhóm các phương pháp theo hướng đề xuất này, xu hướng chung chính là xoay quanh việc sử dụng thuật toán Minimum Edit-Distance trong bước
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN sinh ứng viên và các mô hình ngôn ngữ như N-Gram hay Word-Embedding để xếp hạng ứng viên.
Giải thích về thuật toán Minimum Edit-Distance cho bài toán sửa lỗi chính tả
According to Dan Jurafsky from Stanford University, Edit-Distance refers to the number of operations required to transform a source string into a target string.
The Minimum Edit-Distance algorithm addresses the challenge of transforming one string into another using the fewest possible operations These operations include insertion (adding a character), deletion (removing a character), and substitution (replacing a character) To optimize the search for the Minimum Edit-Distance, techniques such as Dynamic Programming and Backtrace Programming are commonly employed For instance, the transformation process from the string "INTENTION" to "EXECUTION" is illustrated in Table 2.4.2.1.
Chuỗi nguồn |I |N|[T|E|*|[N|TII|O|IN Chuỗi đích *IJE|X|IE|IC|U|T|IIJIOIN
Thao tác d\s |s i |8 Đêm sô mm 3 415
Bảng 2.4.2.1 Mô tả các bước biến đổi hai chuỗi ký tự.
Khoảng cách Distance để chuyển đổi chuỗi ký tự nguồn thành chuỗi ký tự đích là 5 Trong thực tế, bài toán sửa lỗi chính tả thường áp dụng thuật giải Minimum Edit-Distance với các trọng số khác nhau giữa các ký tự, nhằm phản ánh thực tế rằng một số ký tự có khả năng bị sai nhiều hơn so với các ký tự khác.
Mô hình N-Gram là một mô hình ngôn ngữ thống kê, giúp gán xác suất cho chuỗi từ, từ đó xác định mối quan hệ của chuỗi từ với ngôn ngữ cụ thể Mô hình này cho phép phân tích và dự đoán khả năng xuất hiện của các từ trong ngữ cảnh ngôn ngữ.
2 KIÊN THỨC CƠ SỞ VÀ NGHIÊN CỨU LIÊN QUAN
Mô hình ngôn ngữ N-Gram, một trong những dạng đơn giản nhất, cho thấy rằng câu "Cháu bé nhà tôi đi học buổi sáng" có xác suất cao hơn so với câu "Buổi sáng nhà cháu bé tôi đi học" do tính chuẩn xác về ngữ pháp N-Gram là chuỗi n từ, ví dụ như Uni-Gram bao gồm các từ như: tụi, đi, học, buổi sáng.
* Bi-Gram: tôi đi, đi học, buổi sáng ¢ Tri-Gram: tôi đi học, học buổi sáng
Phương H Nguyễn và các cộng sự đã phát triển một phương pháp hiệu quả để sửa lỗi chính tả tiếng Việt từ năm 2008 Phương pháp này kết hợp các mô hình Bi-Gram, thuật toán Minimum Edit-Distance và thuật toán SoundEx, nhằm cải thiện độ chính xác trong việc nhận diện và sửa lỗi.
Nhóm nghiên cứu áp dụng quy trình hai giai đoạn để phát hiện và sửa lỗi Đầu tiên, họ sử dụng danh sách từ điển, bao gồm từ điển tiếng Việt, tên riêng và viết tắt, để xác định các lỗi non-word Đối với lỗi real-word, mô hình Bi-Gram kết hợp với một tập hợp lớn các từ loại (Part-of-Speech) nhằm phát hiện các lỗi chính tả trong tài liệu.
Mô hình Bi-Gram đánh giá thấp các từ, và thuật giải sẽ xác định tất cả các trường hợp có thể xảy ra của tổ hợp từ loại, bao gồm từ loại của các từ đứng trước, từ loại của từ đang xét và từ loại của các từ đứng sau.
Nếu thứ tự của các từ loại có thể tồn tại, thì từ đó không phải là từ sai Bên cạnh việc sử dụng tổ hợp từ loại, các kỹ thuật khác như loại bỏ từ hư và tính toán xác suất giữa các cặp âm tiết cũng được áp dụng để xác định tính chính xác của từ.
Kếtchươn 4 đ®.\
Chương này trình bày tổng quan về bài toán sửa lỗi chính tả trong tiếng Anh và tiếng Việt, với hai xu hướng tiếp cận chính: mô hình xác suất và xử lý như bài toán Seq2Seq Đặc biệt, mô hình Transformer đã mang lại kết quả khả quan trong việc áp dụng Seq2Seq Sự kết hợp giữa các mô hình Seq2Seq và các đặc trưng ngữ nghĩa từ các mô hình ngôn ngữ pretrained như BERT hứa hẹn mang lại tiềm năng lớn cho việc sửa lỗi chính tả Chương tiếp theo sẽ giới thiệu chi tiết về mô hình BERT, kiến trúc Transformer và cách áp dụng chúng vào bài toán sửa lỗi chính tả cho tiếng Việt.
SELF-ATTENTION VÀ MÔ HÌNH
BERT CHO BÀI TOÁN SUA LOI
Chương này trình bày cấu trúc và nguyên lý hoạt động của kiến trúc self-attention, đặc biệt là Transformer, trong việc xử lý ngữ cảnh và mối quan hệ phụ thuộc trong văn bản tiếng Việt Mô hình BERT, với khả năng hiểu ngữ nghĩa từ dữ liệu lớn, đã trở thành tiêu chuẩn cho nhiều nhiệm vụ ngôn ngữ tự nhiên Mục tiêu là giải thích chi tiết về hai phương pháp này và cách kết hợp chúng để cải thiện hiệu suất trong sửa lỗi chính tả.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET
Môhình Transformer
Mô hình Sequence-to-Sequenc
Mô hình Sequence-to-Sequence (Seq2Seq) là một kiến trúc học sâu cho phép chuyển đổi chuỗi đầu vào thành chuỗi đầu ra khác nhau Ứng dụng phổ biến của mô hình này là trong dịch máy, ví dụ như khi chuyển đổi một chuỗi từ tiếng Việt thành tiếng Anh.
Mô hình Seq2Seq trong kiến trúc có hai thành phần chính là Bộ mã hóa (Encoder) và Bộ giải mã (Decoder) Encoder tiếp nhận và xử lý toàn bộ dữ liệu đầu vào, sau đó gửi vector ngữ cảnh đã tổng hợp đến Decoder để tạo ra chuỗi đầu ra Cả Encoder và Decoder đều được xây dựng trên các khối kiến trúc LSTM hoặc GRU.
Si ee es Oe Ee eee ;
Hình 3.1: Mô hình Seq2Seq được sử dụng trong bài toán dịch máy từ tiếng Việt sang tiếng Anh.
Hạn chế của các mô hình Seq2Seq bao gồm:
Encoder chuyển đổi vector ngữ cảnh sang Decoder mà không phụ thuộc vào độ dài của đầu vào Điều này có nghĩa là cho dù chuỗi đầu vào có dài hay ngắn, vector ngữ cảnh Š vẫn được truyền tải một cách hiệu quả.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
Trong mô hình TOAN SUA LOI CHINH TA TIENG VIET, tất cả thông tin từ chuỗi đầu vào, bất kể độ dài hay chi tiết, đều được nén vào một vector có kích thước cố định Điều này dẫn đến việc Decoder chỉ sử dụng một vector ngữ cảnh duy nhất, tạo ra hạn chế trong khả năng sinh ra câu trả lời tối ưu.
Mô hình Seq2Seq không hỗ trợ tính toán song song, vì tại mỗi bước dự đoán, chúng ta cần giá trị của bước trước đó.
3.2.2 Cơ chế Attention Đối với cơ chế Attention cho phép khối Encoder truyền tất cả vector đặc trưng ẩn sau mỗi khối LSTM/GRU sang trực tiếp cho khối Decoder Cơ chế Attention hoạt động dựa trên ý tưởng: "Tại mỗi thời điểm khác nhau, mô hình cần tập trung vào một đoạn nhất định ở câu đầu vào" Nguyên lý hoạt động của cơ chế Attention có thể được trình bày như sau: Tại mỗi thời điểm thì Decoder:
1 Nhận một vector attention: một đặc trưng của Decoder liền trước h,, và tất cả đặc trưng output của các 6 Encoder 51, s2, , S„;.
2 Tính toán điểm attention: Với mỗi đặc trưng của Encoder s¿, xác định mức độ liên quan của token thứ k này với đặc trưng của Decoder h, Việc tính điểm số này có thể tạm gọi là hàm score(l„,s¿) với k = 1,2, m và thay đổi tùy theo cách tính "Bahdanau attention"[41] hay "Luong attention"[42].
3 Sử dụng hàm softmax để phân phối xác suất giữa các điểm attention được làm rõ lên.
4 Tính vector ngữ cảnh tai thời điểm z bang cách tổng tích giữa đặc trưng
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET của tat ca token. cữ = al’ sy +a)g + tal Sm = La a, uy (3.2)
I 0 to school terw | —>| ism |_—>| usta >| ustm | —
Mô hình Seq2Seq không có cơ chế Attention
Hình 3.2: So sánh về mặt kiến trúc của mô hình Seq2Seq khi không có và khi có ứng dụng cơ chế Attention Nguồn ảnh gốc: Nelson Zhao.
Lớp self-attention (mở rộng từ cơ chế Attention nêu trên) chính là một khái
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
Kiến trúc Transformer đã mang lại một bước đột phá so với mô hình Seq2Seq cơ bản nhờ vào lớp self-attention Lớp này cho phép mô hình xem xét tất cả các từ trong chuỗi khi xử lý một từ duy nhất, điều mà các mô hình xử lý ngôn ngữ tuần tự như RNN hay LSTM không thể thực hiện.
"Trí đi học trễ và cậu ấy bị kỷ luật."
Mô hình Transformer hoạt động theo cách tuần tự từ trái sang phải, cho phép xác định nhân vật thông qua từ "cậu ấy", ám chỉ nhân vật tên Trí Lớp self-attention giúp mô hình xem xét tất cả các từ trong chuỗi để xác định tầm quan trọng của từng từ và tạo ra ma trận trọng số (trọng số chú ý) liên kết chúng Ma trận trọng số này và các trọng số khác sẽ được cập nhật liên tục trong quá trình huấn luyện Các lớp attention của Encoder có khả năng truy cập toàn bộ chuỗi đầu vào, trong khi lớp chú ý của Decoder chỉ truy cập các từ trước một từ nhất định, từ đó tạo ra các vector từ Encoder tại mỗi bước thời gian t Decoder sẽ học cách chú ý có chọn lọc đến các vector này để tạo ra đầu ra cho mỗi bước thời gian.
The Encoder block consists of multiple stacked smaller Encoder layers, each containing two sub-layers: a self-attention network and a fully-connected neural network Similarly, the Decoder architecture features several stacked smaller Decoder layers, with each layer comprising two self-attention networks and one fully-connected neural network In the final Decoder layer, a softmax layer is added to calculate the output probabilities for each position, with the size of the softmax layer corresponding to the vocabulary size plus the number of token markers The self-attention network allows for the observation of all words in the input sequence.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET cùng một lúc, trong khi mang neuron fully-connected có xử ly từng từ một cách lần lượt và độc lập.
In 2017, Ashish Vaswani and his colleagues introduced the Transformer architecture, which is fundamentally based on the Attention mechanism The key distinction between Attention and self-attention lies in their interaction; while Attention involves communication between the Encoder and Decoder's hidden states, self-attention allows each input token to interact with all other tokens in the sequence This means that each input token can access the entire context, learning from it and updating its own representation accordingly For example, in the sentence "The FBI is chasing a criminal on the run," each token is connected to all others, enhancing contextual understanding.
The FBI is chasing a criminal on the run Phe FBI is chasing a criminal on the run The BI is chasing a criminal on the run.
The FBI ùĐ chasing a criminal on the run.
The FBI is chasing a criminal on the run.
The FBI is chasing a criminal on the run.
The FBI is chasing a criminal on the run.
The FBI #§ chasing a criminal @m the run.
The FBI is chasing @ criminal om the run.
The FBI is chasing a criminal on the mim
Hình 3.3: Mô tả mối liên kết giữa từng token đầu vào của câu "" với tất cả token còn lại Nguồn ảnh: [10]
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET
Masked self-attention Ta đã biết được trong Encoder có áp dụng self-attention
Trong Decoder, có một dạng self-attention đặc biệt gọi là masked self-attention, cho phép mỗi token chỉ xem xét các token phía trước thay vì toàn bộ Điều này là cần thiết vì trong quá trình sinh token, Decoder chỉ tạo ra một token tại mỗi bước Để ngăn chặn việc token nhìn vào các token phía sau, chúng được che lại, tạo nên tên gọi masked self-attention Trong quá trình huấn luyện, chuỗi token mục tiêu được truyền vào Decoder, giúp tránh tình huống token có thể "nhìn trước tương lai" của các token sau nó, điều không xảy ra trong thực tế.
Multi-head attention cho phép hiểu vai trò của từ ngữ trong ngữ cảnh ngôn ngữ đa dạng Ví dụ, trong tiếng Pháp hay tiếng Đức, động từ có thể bị ảnh hưởng bởi giới tính của chủ thể và các từ chỉ thời gian Điều này dẫn đến khái niệm multi-head attention, nơi nhiều cơ chế Attention hoạt động độc lập Mỗi "head" trong attention có thể chú ý đến các khía cạnh khác nhau như vị trí, ngữ pháp và mối quan hệ giữa các từ Kết quả từ các head này sẽ được tổng hợp lại để tạo ra một hiểu biết sâu sắc hơn về ngữ nghĩa.
Mô hình Transformer và các biến thể của nó đang thống trị nhiều bài toán, không chỉ trong lĩnh vực xử lý ngôn ngữ tự nhiên Transformer đã vượt qua các mô hình truyền thống như mạng neuron hồi tiếp (RNN) và mạng neuron tích chập (CNN) bằng cách giới thiệu một khuôn mẫu mới, mang lại hiệu quả cao hơn trong việc xử lý dữ liệu.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET thiết kế kiến trúc mô hình.
3.2.4 Các thành phần cơ bản trong Transformer
Bộ mã hóa Encoder bao gồm nhiều khối Encoder xếp chồng lên nhau, trong đó đầu ra của khối đầu tiên sẽ là đầu vào cho khối tiếp theo Đầu ra của khối Encoder cuối cùng sẽ được sử dụng cho các khối giải mã Decoder Mỗi khối Encoder có hai thành phần chính: nửa dưới là mạng multi-head attention, nhận các bộ trọng số query, key và value khác nhau để biểu diễn các mối liên hệ, và nửa trên là mạng fully-connected Mặc dù các khối Encoder có cùng kiến trúc, mỗi khối lại sở hữu bộ trọng số riêng biệt.
Các thành phần cơ bản trong Transformer
Bộ mã hóa Encoder bao gồm nhiều khối Encoder xếp chồng, trong đó đầu ra của khối trước là đầu vào cho khối sau Ở khối Encoder cuối cùng, các đặc trưng đầu ra sẽ được sử dụng cho các khối giải mã Decoder Mỗi khối Encoder gồm hai thành phần chính: một mạng multi-head attention ở nửa dưới, nhận các bộ trọng số query, key và value khác nhau để biểu diễn các mối liên hệ đa dạng; và một mạng fully-connected ở nửa trên Mặc dù các khối Encoder có chung kiến trúc, nhưng mỗi khối sẽ có bộ trọng số riêng biệt.
Bộ giải mã Decoder hoạt động tương tự như bộ mã hóa Encoder, với nhiều khối xếp chồng lên nhau Mỗi khối giải mã bao gồm ba lớp con: lớp đầu tiên nhận đầu ra từ khối trước và áp dụng mạng masked multi-head self-attention; lớp thứ hai cũng là mạng multi-head self-attention nhưng nhận thêm đặc trưng từ bộ mã hóa; và lớp cuối cùng là mạng neuron fully-connected Tất cả các lớp con trong bộ giải mã đều được kết nối qua các liên kết residual connection.
Mã hóa vị trí (Positional encoding) là một cơ chế quan trọng trong mô hình Transformer, giúp xác định vị trí của các token trong khi xử lý tất cả token cùng một lúc, khác với RNN hay CNN Để truyền thêm thông tin về vị trí vào vector nhúng của token, mô hình sử dụng một vector tổng hợp, bao gồm vector nhúng của token và vector mã hóa vị trí, từ đó cải thiện khả năng hiểu ngữ cảnh của mô hình.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
Trong bài viết này, chúng ta sẽ tìm hiểu về việc sử dụng vector nhúng (embedding vector) và vector vị trí (positional vector) trong ngữ cảnh xử lý ngôn ngữ tự nhiên Các giá trị của vector vị trí thường được xác định trước thông qua một công thức cụ thể.
Trong đó, pos đại diện cho vị trí của token trong câu, trong khi i chỉ số chiều của không gian vector Mỗi chiều của vector vị trí tương ứng với một hàm sin, và các bước sóng được tạo thành theo cấp số nhân từ 27 đến 1000 - 27.
Trong kiến trúc Transformer, các giá trị token đầu vào phải thuộc danh sách token đã quy ước, dẫn đến việc các token không có trong từ điển sẽ bị thay thế bằng token (Unknown) Điều này gây ảnh hưởng đến hiệu suất của hệ thống khi xử lý các từ nằm ngoài phạm vi quy ước Để khắc phục vấn đề này, phương pháp tách từ theo đơn vị từ phụ (subword-level) được áp dụng, cụ thể là phương pháp Byte-Pair Encoding, thay vì tách theo đơn vị khoảng trắng (word-level).
Các phương pháp tách từ theo subword-level mang lại nhiều lợi ích, bao gồm khả năng xử lý không chỉ các từ trong từ điển mà còn cả những từ hiếm và không rõ nghĩa thông qua việc mã hóa chúng thành chuỗi các đơn vị từ phụ Ngay cả những từ mà mô hình chưa từng gặp, vẫn có thể được xử lý nếu biết các từ phục cấu thành từ đó Subword-level tokenization giữ lại các từ phổ biến và phân rã các từ hiếm thành các thành phần subword nhỏ hơn, giúp mô hình học và xử lý chúng hiệu quả.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET
3.2.5 Ưu điểm va han chế
Kiến trúc Transformer sử dụng cơ chế Attention để tương tác trực tiếp với tất cả các thành phần đầu vào, cho phép nắm bắt thông tin trên chuỗi văn bản dài Nhờ đó, nó xử lý hiệu quả các mối quan hệ giữa các từ trong câu và giữa các thành phần trong hình ảnh.
Kiến trúc Transformer cho phép tính toán song song các thành phần đầu vào độc lập, mang lại hiệu quả tính toán cao Nhờ đó, mô hình có khả năng xử lý dữ liệu nhanh hơn, đặc biệt khi kết hợp với các cấu hình phần cứng như GPU và TPU.
Mô hình Transformer có nhiều tham số và để đạt hiệu suất tối ưu, nó cần một lượng lớn dữ liệu cùng với tài nguyên tính toán cao, đặc biệt trong việc xử lý các văn bản dài và phức tạp.
Kiến trúc của Transformer phức tạp hơn so với LSTM và các mô hình RNN khác, dẫn đến sự trừu tượng và khó khăn trong việc giải thích cách thức hoạt động của mô hình.
BERT, which stands for Bidirectional Encoder Representations from Transformers, is a language representation model built on the Transformer architecture It has achieved state-of-the-art performance across various sub-tasks in the field of Natural Language Processing (NLP).
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET
BERT là một mô hình ngôn ngữ tiên tiến, phức tạp, được xây dựng dựa trên kiến trúc Transformer và được Google giới thiệu vào năm 2018.
Nguyên lý của BERT dựa trên việc tiền huấn luyện một biểu diễn ngôn ngữ từ tập dữ liệu lớn như Wikipedia và Brown Corpus, sau đó áp dụng mô hình cho các tác vụ NLP nhỏ hơn như hệ thống hỏi đáp BERT nổi bật hơn các mô hình trước nhờ vào hai yếu tố chính: học không giám sát và học từ hai hướng Học không giám sát cho phép BERT được huấn luyện trên dữ liệu lớn mà không cần nhãn cụ thể, giúp dễ dàng áp dụng cho bất kỳ nguồn dữ liệu văn bản nào BERT sử dụng kiến trúc Transformer để xử lý đồng thời tất cả các từ trong câu, thay vì từng từ một, điều này khác biệt với các phương pháp truyền thống như GloVe hay Word2Vec, chỉ ánh xạ từng từ thành một vector đơn lẻ Chi tiết về quá trình pretraining của BERT sẽ được trình bày ở Mục 3.3.2.
3.3.2 Các giai đoạn trong mô hình BERT
Quá trình pretraining của BERT bao gồm hai nhiệm vụ chính: mô hình ngôn ngữ khuyết từ (Masked LM) và mô hình dự đoán câu tiếp theo (NSP) Sau khi hoàn thành giai đoạn này trên một tập dữ liệu lớn, BERT đã nắm vững các đặc trưng và mối quan hệ từ vựng trong ngôn ngữ.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET
Tôi di hoc psx tré
Tôi đi học về trễ
Hình 3.4: Mô tả tác vụ Masked LM của BERT học không giám sát.
Giớithệu .ẶẶ Ặ ẶẶ ee 34
BERT, which stands for Bidirectional Encoder Representations from Transformers, is a state-of-the-art language representation model built on the Transformer architecture It has achieved remarkable performance across various NLP tasks.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET
BERT là một mô hình ngôn ngữ tiên tiến, được xây dựng dựa trên kiến trúc Transformer, do Google giới thiệu vào năm 2018.
Nguyên lý của BERT dựa trên việc tiền huấn luyện một biểu diễn ngôn ngữ từ tập dữ liệu lớn như Wikipedia và Brown Corpus, sau đó áp dụng mô hình cho các tác vụ NLP nhỏ hơn như hệ thống hỏi đáp BERT nổi bật hơn các mô hình trước nhờ vào hai yếu tố chính: học không giám sát và học từ hai hướng Học không giám sát cho phép BERT được huấn luyện trên dữ liệu lớn mà không cần nhãn cụ thể, giúp dễ dàng áp dụng cho bất kỳ nguồn dữ liệu văn bản nào Trong khi đó, nhờ kiến trúc Transformer, BERT xử lý đồng thời tất cả các từ trong câu, thay vì từng từ một như các phương pháp truyền thống như GloVe hay Word2Vec, từ đó cung cấp một cách tiếp cận sâu sắc hơn về ý nghĩa ngữ cảnh Chi tiết về quá trình pretraining của BERT sẽ được trình bày ở Mục 3.3.2.
Các giai đoạn trong mô hìnhBERT
Quá trình pretraining của BERT bao gồm hai nhiệm vụ chính: mô hình ngôn ngữ khuyết từ (Masked LM) và mô hình dự đoán câu tiếp theo (NSP) Sau khi hoàn thành giai đoạn huấn luyện trên một tập dữ liệu lớn, BERT đã nắm vững các đặc trưng và mối quan hệ giữa các từ trong ngôn ngữ.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET
Tôi di hoc psx tré
Tôi đi học về trễ
Hình 3.4: Mô tả tác vụ Masked LM của BERT học không giám sát.
Mô hình ngôn ngữ khuyết từ (Masked LM) là kỹ thuật mà BERT sử dụng để biểu diễn một từ dựa trên ngữ cảnh xung quanh nó, bao gồm các từ ở bên trái và bên phải Thao tác "che" này cho phép BERT hiểu và dự đoán từ bị thiếu dựa trên ngữ cảnh, nâng cao khả năng xử lý ngôn ngữ tự nhiên.
Mô hình sẽ được huấn luyện bằng cách ngẫu nhiên che khoảng 15% số từ trong một câu Mục tiêu là dự đoán các từ bị che dựa trên ngữ cảnh xung quanh.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
BERT sử dụng phương pháp che từ để cải thiện khả năng hiểu ngôn ngữ Khi một từ bị che, vector của từ đó sẽ được xử lý qua lớp Fully Connected và hàm Softmax, giúp dự đoán từ thay thế Nếu dự đoán sai, hàm lỗi sẽ được tính toán để cập nhật các tham số trong các khối Encoder Quá trình này lặp lại cho đến khi mô hình đạt độ chính xác cao Việc che từ buộc BERT phải dựa vào ngữ cảnh xung quanh để xác định từ bị che, từ đó giúp mô hình phát triển khả năng hiểu biết ngôn ngữ và các trường hợp mơ hồ.
Dự đoán câu tiếp theo (Next Sentence Prediction - NSP) là một tác vụ quan trọng trong huấn luyện BERT, bên cạnh tác vụ Masked LM NSP nhằm xác định mối liên hệ giữa hai câu, với mục tiêu dự đoán xem câu B có thực sự là câu tiếp theo của câu A hay chỉ là một câu ngẫu nhiên từ tập dữ liệu.
Giống như trong bài toán Transfer Learning, sau khi BERT được huấn luyện, cần điều chỉnh tri thức đã học để áp dụng cho một bài toán cụ thể Đầu tiên, mô hình BERT được khởi tạo với các tham số đã học từ bước Pre-Training Tiếp theo, các tham số này được điều chỉnh bằng cách thay đổi lớp cuối cùng của mô hình Ngoài việc điều chỉnh đầu ra, cần quyết định giữa việc cập nhật toàn bộ trọng số, một phần hay chỉ lớp trên cùng, tạo ra sự trade-off giữa độ chính xác và tốc độ huấn luyện, vấn đề đã được Amil và các cộng sự nghiên cứu sâu hơn.
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
BERT có thể được tinh chỉnh cho ít nhất 25 bài toán trong lĩnh vực xử lý ngôn ngữ tự nhiên Một số bài toán tiêu biểu bao gồm phân loại văn bản, phân tích cảm xúc và nhận diện thực thể.
* Phân tích Cảm xúc (Sentiment Analysis).
+ Hệ thống hỏi đáp (Question-Answering). ằ Sinh văn bản tự động (Text Generation). ¢ Thu gon văn ban (Text Summarization)
3.3.3 Các biến thé mô hình BERT
BERT đã đánh dấu một bước ngoặt quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, vượt qua các mô hình trước đó như GloVe, FastText và Word2Vec Sự phát triển của BERT đã kích thích nhiều ứng dụng, biến thể và nghiên cứu mới, dẫn đến những thay đổi đáng kể về kiến trúc, dữ liệu và quy trình huấn luyện Nhiều công trình nghiên cứu khoa học đã được thực hiện dựa trên BERT, cùng với sự ra đời của các biến thể như RoBERTA, BART, ELECTRA và DistilBERT, nhằm phục vụ cho các tác vụ khác nhau trong lĩnh vực này.
BERT là một mô hình ngôn ngữ mạnh mẽ với ít nhất 25 phiên bản pretrained được Google công bố Hai phiên bản chính được khuyến khích sử dụng là BERT-base và BERT-large Các phiên bản khác bao gồm BERT-Medium, BERT-Small, BERT-Mini và BERT-Tiny, với số lượng khối Encoder và Decoder giảm dần Cụ thể, BERT-Tiny chỉ có 2 khối Encoder với kích thước 128, trong khi BERT-base có 12 khối Encoder với kích thước 768.
!https://github.com/google-research/bert
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
Mô hình BERT-base trong bài viết này được sử dụng để sửa lỗi chính tả tiếng Việt, trong khi mô hình BERT-Large, với 24 khối Encoder và 1024 đơn vị ẩn, là phiên bản lớn hơn Khi đề cập đến BERT-base, chúng ta đang nói đến phiên bản BERT-base, Multilingual Case.
RoBERTa, viết tắt của "Robustly Optimized BERT Pre-training Approach", là một phương pháp tối ưu hóa mạnh mẽ cho BERT, được công bố bởi Yinhan Liu và các cộng sự vào năm 2019.
Ba khác biệt lớn nhất của RoBERTa so với mô hình BERT cơ bản là:
* Loại bỏ tác vụ Next Sentence Prediction (NSP) trong quá trình tiền huấn luyện
Trong tác vụ Masked LM, BERT sử dụng phương pháp che dấu một token và duy trì cùng một mask/token trong suốt tất cả các epoch Ngược lại, ROBERTa áp dụng cơ chế thay đổi luân phiên thành phần bị che, giúp cải thiện hiệu quả của mô hình.
* Thay thế việc sử dụng Wordpiece Tokenizer (sau này có bổ sung phương thức Whole Word Masking) bằng Byte-Pair Encoding (BPE) Tokenizer.
* Một số thay đổi khác về các siêu tham số của quá trình tiền huấn luyện, cũng như huấn luyện với nhiều dữ liệu hơn.
Mô hình PhoBERT, do Dat Quoc Nguyen và các cộng sự phát triển, hiện đang là mô hình RoBERTa được sử dụng phổ biến và tín nhiệm nhất cho ngôn ngữ tiếng Việt PhoBERT được huấn luyện trên 20GB dữ liệu, giúp cải thiện hiệu suất trong các tác vụ xử lý ngôn ngữ tự nhiên.
PhoBERT khác biệt với mô hình RoBERTa nguyên bản ở chỗ trước khi áp dụng BPE Tokenization, nó sử dụng bước tác từ (segmentation) thông qua VNCoreNLP Sự khác biệt này xuất phát từ sự khác nhau giữa cấp độ tiếng và cấp độ từ ngữ giữa tiếng Việt và tiếng Anh.
Trong tiếng Việt, có nhiều trường hợp một từ (word) được xác định bằng nhiễu tiếng (syllable) kết
3 KẾT HỢP KIEN TRÚC SELF-ATTENTION VÀ MO HÌNH BERT CHO BÀI
TOAN SUA LOI CHINH TA TIENG VIET
3.3.4 Ưu điểm va han chế
Khác với các mô hình như GPT, kiến trúc BERT là mã nguồn mở, cho phép người dùng dễ dàng tải xuống và sử dụng các mô hình pretrained của nó.
* BERT có nhiều biến thể đã được pretrainining trên nhiều ngôn ngữ khác nhau.
* C6 thể sử dụng mô hình BERT đã huấn luyện trong giai đoạn fine-tune với các tác vụ cụ thể khác nhau để đạt hiệu quả cao.
* Chỉ cần fine-tune trong vai epochs có thể giúp mô hình dat được độ chính xác tương đối tốt đối với một số tác vụ.
* Giai đoạn pretraining cần dữ lượng dữ liệu lớn. ằ Kớch thước mụ hỡnh lớn, khú khiển khai lờn cỏc thiết bị di động, thiết bị nhúng.
3.4 Kết hop BERT và mô hình Transformer
Các biến thểmô hìnhBERT
Xây dựng bộ dữ liệu sửa lỗi chính tả cho tiếng Việt
Quy ước về định nghĩa lỗi sai chínhtả
Trong phần này, chúng tôi sẽ trình bày các nguyên tắc xác định lỗi sai chính tả, tạo nền tảng cho việc phát triển công cụ sinh ra bộ dữ liệu sai chính tả Việc làm rõ phạm vi và các biểu hiện của lỗi chính tả sẽ đảm bảo chất lượng và tăng giá trị cho bộ dữ liệu.
4.111 Lỗi viết sai quy cách (typography)
Lỗi viết sai quy cách thường xảy ra khi người dùng sử dụng bàn phím máy tính hoặc thiết bị di động, dẫn đến nhiều biến thể như thêm, thiếu, thay đổi hoặc hoán vị các kí tự Một loại lỗi phổ biến khác là lỗi "Fat-Finger", khi người dùng vô tình nhấn nhầm kí tự gần đó thay vì kí tự mong muốn Ngoài ra, việc sử dụng không đúng bảng quy đổi mã VNI hay TELEX cũng góp phần gây ra các lỗi chính tả.
Trong phạm vi của nghiên cứu này tập trung vào việc khắc phục các lỗi chính
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ tả cho các từ có 1 đến 2 kí tự bị lỗi Đối với loại lỗi thiếu thanh sắc, phạm vi dừng lại ở việc trong một câu có từ 1 đến 2 từ thiếu dấu câu chứ không bao gồm việc khôi phục dấu câu cho cả một câu dài (bài toán khôi phục thanh sắc).
* Sai do dùng sai bộ gõ TELEX: "Chiến tranh" (war) > "Chieesn tranh"
* Sai do dùng sai bộ gõ VNI: "Chiến tranh" —› "Chie61n tranh"
Lỗi "Fat-Finger" thường xảy ra khi người dùng gõ nhầm ký tự, dẫn đến việc từ "Chiến tranh" bị biến thành "Chiếm tranh" do nhấn sai phím Tương tự, từ "Chiến tranh" cũng có thể trở thành "Chiến tranmh" khi ký tự "m" bị thừa ra.
Trong quá trình kiểm tra chính tả, có hai loại lỗi thường gặp trong từ "Chiến tranh" Thứ nhất, lỗi gừ nhầm ký tự, ví dụ như "Chiến trõnh" khi ký tự "a" bị nhầm thành "â" Thứ hai, lỗi thiếu ký tự, như trong trường hợp "Chiến tran" khi ký tự "h" bị thiếu.
* Go nhầm vi trí hai kí tự: "Chiến tranh" + "Chiến trahn" (các kí tự "nh" bị gõ nhầm.)
* Thiếu dấu thanh sắc: "Chiến tranh" —› "Chien tranh" (dấu sắc bị thiếu).
4.1.1.2 Lỗi viết sai do nhận thức / giọng vùng miền Đầu tiên, đối với loại lỗi nay, để dé dàng trình bày, có một số nguyên tắc với kí tự và âm tiết cần nhắc lại Một âm tiết (syllable) của tiếng Việt được cấu trúc từ nhiều nhất là ba thành phần: Âm đầu + Âm đệm + Âm chính + Âm cuối +Thanh sắc Bảng 4.1 trình bày về phân tích các loại âm cấu thành một âm tiết với 3 ví dụ lần lượt 3 từ: "Toán", "Tan" và "Họa".
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ ez | 2 Van
Am tiet | Am dau Am phụ | Am chính + Thanh sac | Am cuôi
Bang 4.1: Một vai vi dụ về cầu thành âm tiết
Trong quá trình tạo thành từ từ âm tiết, có những quy tắc kết hợp âm tiết nhất định Một số âm đầu cần phải đi kèm với âm đệm cụ thể để đảm bảo tính chính xác và hợp lệ của từ ngữ.
* Nhẫm lẫn giữa các kí tự "k" © và "c": Am đầu phải là kí tự "k" nếu âm nan Hộ H23 ê", Ví dụ: "cá", "kem", "cải",
HH Huy HN theo sau là các kí tự "i", "y", "e"` hoặc
Khi phân biệt giữa các ký tự "ng" và "ngh", cần lưu ý rằng âm đầu phải là ba ký tự "ngh" nếu âm theo sau bắt đầu bằng các ký tự "i", "y", "e" hoặc "ê" Ví dụ điển hình là từ "nghe".
Khi sử dụng âm đầu "gh", cần chú ý rằng nó phải đứng trước các ký tự "i", "y", "e" hoặc "ê" Ví dụ như trong các từ "ghe" và "ghê" Điều này giúp phân biệt rõ ràng giữa các ký tự "g" và "gh" trong tiếng Việt.
Nhầm lẫn giữa kí tự "i" và "y" là một trong những sai sót chính tả phổ biến trong tiếng Việt, thường gặp ngay cả trong văn bản hành chính, pháp luật và báo chí Theo Quyết định 1989/BGDDT, khi kí tự "i" đứng sau âm đầu mà không có âm đệm hay âm cuối, cần sử dụng "i" Ngược lại, trong các trường hợp "i" hoặc "y" đứng một mình, sẽ sử dụng "y" Ví dụ minh họa bao gồm các từ như "lí", "hi", "y tá", "ý kiến", "mĩ".
!Quyết định số 1989/QD-BGDDT: https://s.biz.vn/QD1989BGDDT
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Thứ hai, khi xem xét giọng địa phương và sự nhầm lẫn giữa các giọng vùng miền, một số lỗi chính tả có thể xảy ra do ảnh hưởng của cách phát âm.
* Nham lẫn giữa âm đầu "s" (/s/) © với âm đầu "x" (/s/): "xả" - "sả" , "say"
-"xay", ¢ Nham lẫn giữa âm đầu "I" (/1⁄) = với âm đầu "n" (/s/): "lòng" - "nòng",
"lên" - "nên”, ô Nhằm lẫn giữa õm đầu "ch" (/ấ~c/) > với õm đầu "tr" (/ấ^‹U): "chanh" -
Nham lẫn giữa âm đầu "d" và âm đầu "gi" cùng với âm đầu "r" thường dẫn đến những sai sót trong phát âm, ví dụ như "gian dối" bị nhầm thành "đan dối" hay "thúc giục" thành "thúc dục" Bên cạnh đó, sự nhầm lẫn giữa các vần như "cục" và "cuộc", "kim" và "kiếm", hay "tham" cũng là những vấn đề phổ biến trong ngôn ngữ.
* Nhầm lẫn giữa các âm cuối "ng" (//), "nh"//) = "n" (/n/): "ngan", mì Hung om,
"ngang", "tan", "tang”, ô Nhằm lẫn giữa cỏc õm cuối "c" (/k/) â "t" (/t/): "cat" , "cỏc", "tất" , "tae"
* Nham lẫn giữa các thanh sắc /â ê/ và /â” ê”/ [47]: "nghỉ" - "nghĩ", "sữa"-
!Kí hiệu phiên âm được sử dung để giúp người doc hiểu rõ hơn về sự giống nhau khi phát âm
Giọng Hà Nội phát âm các âm "d", "r" và "gi" giống nhau là âm /2/, trong khi giọng miền Trung phân biệt rõ ràng các âm /d/, /d/, và /d/ Ngược lại, giọng Sài Gòn phát âm lần lượt là các âm /j/, /j/, và /1/.
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1.1.3 Lỗi viết sai do viết tắt, tốc ký
Trong quá trình đánh máy, người dùng thường mắc phải một số lỗi chính tả do thói quen, như việc sử dụng tốc ký hoặc viết tắt Một ví dụ điển hình là việc viết tắt từ "không" thành "kg".
4.1.2 Tỉ lệ các loại lỗi trong bộ dữ liệu
Một vấn đề thường gặp trong các hệ thống sinh dữ liệu nhân tạo là sự xuất hiện của các lỗi "Không thực tế" Những lỗi này được định nghĩa là dữ liệu được tạo ra theo đúng quy tắc nhưng hiếm khi xảy ra trong thực tế Chẳng hạn, lỗi đánh máy từ bộ gõ TELEX thường không xuất hiện một cách ngẫu nhiên mà là kết quả của các lỗi khác như lỗi Fat-Finger hoặc thiếu/ thừa ký tự Tương tự, lỗi từ bộ gõ VNI có thể xảy ra nhưng thường được người dùng phát hiện ngay khi soạn thảo, dẫn đến tỉ lệ lỗi thấp hơn Bảng 4.2 cung cấp ví dụ về các lỗi chính tả được phân loại là "Không thực tế" và "Thực tế".
Thông tinthống kê bộ dữliệu
Tiến hành thực nghiệm và kếtquả
Trong giai đoạn này, chúng tôi so sánh công cụ kiểm tra chính tả của Google Docs, một bộ công cụ tích hợp trong trình soạn thảo văn bản Do Google Docs là mã nguồn đóng, chúng tôi sử dụng kỹ thuật giả lập người dùng với framework Selenium trên trình duyệt web Mỗi câu sẽ được Google Docs đề xuất chỉnh sửa chính tả, và giả lập sẽ chấp nhận tất cả các đề xuất này Kết quả sửa lỗi chính tả giữa Google Docs và mô hình đề xuất được trình bày trong Hình 4.2, với cột "Text" hiển thị văn bản gốc có lỗi chính tả, và các cột "Google Docs" cùng "BERT-Transformer" thể hiện kết quả sau khi sửa lỗi.
File Edt View insert Format Tools Addons Help Allchanges sa :
BAP 109% ~ NemAle6 ~ Aral vn + B7U A # OMM- š- 1z arn
‘Sample Document: Preamble to the Constitution] Sa
We the People of the United States, in Order to form a more prefect == —
Justice, insure domestic Tranquility, provide for the common defenc : general Welfare, and securre the Blessings of Liberty t0 0urselv@§ a ordain and establish this Constitution for the United States of America.
Hình 4.1: Công cu Google Spelling Check là một trong những công cu sửa lỗi chính tả phổ biến nhất Nguôn ảnh: Laura McCamy/Business Insider.
Theo kết quả thực nghiệm trong Bảng 4.6, hai mô hình Transformer+vinai/phoBERT và Transformer+BERT-multi-cased đã cho kết quả tốt hơn so với các phương pháp khác Để đảm bảo tính khách quan trong quá trình thực nghiệm, một số phương pháp từ các bài toán sửa lỗi chính tả trước đây cũng đã được xem xét.
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Câu có lỗi chính tả Kết quả do Google Does sửa Kết quả của pp được để xuất sửa
Sự ra đời ù Suzuki GSX-R 1000 2012 sẽ t5a0 nên sự lo lắng cyho các d thủ sừng wsỏ đến từ
Ducati, Yamha, Honda hay BMW.
‘Su ra đời xe Suzuki GSX R sẽ t5ao nên sự lo lắng cho các đối thủ sừng sỏ đến từ Ducati Yamaha 'Honda hay BMW
Sự ra đời của Suzuki GSX- R 1000 2012 sẽ tạo nên
‘str lo lắng cho các đối thủ sừng sở đến từ Ducati,
Luật Bảo hiểm tiền gửi quy định chỉ bảo hiểm tiền gửi bằng VND, không bao gồm ngoại tệ và kim loại quý Tuy nhiên, trong buổi thảo luận gần đây, nhiều đại biểu Quốc hội đã bày tỏ quan điểm rằng cần xem xét việc mở rộng bảo hiểm cho các loại tài sản khác.
Để ngăn ngừa đô la hóa nền kinh tế, dự luật Bảo hiểm tiền gửi quy định chỉ bảo hiểm tiền gửi BHTG bằng VNĐ, không bảo hiểm đối với ngoại tệ và kim loại quý.
Nhiều đại biểu Quốc hội (ĐBQH) cho rằng cần duy trì bảo hiểm tiền gửi USD nhằm ngăn ngừa tình trạng đô la hóa nền kinh tế Dự luật Bảo hiểm tiền gửi hiện tại chỉ quy định bảo hiểm đối với tiền gửi bằng VNĐ, không bao gồm ngoại tệ và kim loại quý Tuy nhiên, trong buổi thảo luận gần đây, nhiều ĐBQH vẫn ủng hộ việc mở rộng bảo hiểm tiền gửi để bao gồm cả USD.
Như vậy, nếu trờ tro qua bầu cử Mỹ thì mọi việc sẽ khó khăn hơn.
Như vậy nếu tr tro qua bầu cử Mỹ thì mọi việc sẽ khó khăn hơn
Như vậy, nếu chờ cho qua bầu cử Mỹ tì mọi việc sẽ khó khăn hơn.
Quần dw sắc đỏ (Quan du sắc đỏ (Quan da sắc đỏ.
‘DB Tran Hoàng Ngân cho biết, đến cuối năm
2010, tống phis BHTG thu được tuwf các ngaan hàng, tổ chức tin dụng là 6.900 tir đooíng.
(ĐỖ Trần Hoàng Ngân cho biết đến cuối năm tổng this BHTG thu được từ các ngân hàng tổ chức tín (dụng là 6.900 tỷ đồng
‘DB Trần Hoàng Ngân cho biết, đến cuối năm 2010, tổng phí BHTG thu được từ các ngân hàng, tổ chức tín dụng là 6 900 tỉ đồng.
Hình 4.2 trình bày một số ví dụ về kết quả sửa lỗi chính tả giữa Google và mô hình BERT kết hợp Transformer Bài viết đề cập đến hai phương pháp chính: phương pháp OpenNMT, sử dụng mô hình dịch máy thuần túy, và phương pháp fastText, áp dụng mô hình để chọn ứng viên Các tham số và cấu hình cho việc xây dựng lại hai phương pháp này được trích xuất từ các bài báo gốc liên quan.
Google Docs spellchecking tool 0.6829 vinai/phobert-base + Transformer 0.8027
Phuong phap fastText 0.822 bert-multi-cased + Transformer 0.8624
Bảng 4.6: Kết quả thực nghiệm của mô hình
Kết quả thực nghiệm hỗ trợ giả thuyết rằng việc sử dụng các mô hình ngôn ngữ giàu ngữ cảnh đã được pretrained mang lại hiệu quả cao trong các ứng dụng ngôn ngữ.
BERT đã cải thiện đáng kể khả năng sửa lỗi chính tả bằng cách tham gia trực tiếp vào quá trình này, giúp nâng cao hiệu quả sửa lỗi và tận dụng lợi ích từ việc nhúng từ ngữ theo ngữ cảnh.
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Nghiên cứu cho thấy kiến trúc Transformer mang lại lợi ích vượt trội trong việc sửa lỗi chính tả So sánh giữa phương pháp không sử dụng Transformer (OpenNMT với mạng LSTM + Attention) và phương pháp sử dụng Transformer cho thấy rằng phương pháp dựa trên Transformer đạt được kết quả tốt hơn rõ rệt.
Việc lựa chọn ứng viên phù hợp dựa trên ngữ cảnh là một yếu tố quan trọng trong sửa lỗi chính tả BERT, với khả năng biểu diễn ngữ cảnh từ tốt hơn, cho phép các mô hình khai thác hiệu quả hơn thông tin ngữ cảnh, từ đó nâng cao hiệu suất Hơn nữa, việc BERT được pretrained trên tập dữ liệu lớn giúp cải thiện hiệu quả so với các phương pháp xác suất như Word2Vec hay N-Gram, cụ thể là mô hình fastText.
Mộtsố nhận xét
Các mô hình kết hợp BERT và Transformer đã chứng minh hiệu quả vượt trội trong việc xử lý các lỗi chính tả, đặc biệt là lỗi Fat-Finger và lỗi do bộ gõ TELEX Điều này xuất phát từ tỉ lệ lỗi cao của hai nhóm lỗi này trong bộ dữ liệu.
Các phương pháp tiền nhiệm như OpenNMT và fastText mặc dù hiệu quả nhưng gặp nhiều hạn chế trong việc xử lý các từ hiếm gặp Hai phương pháp này thường xác định sai từ cần sửa, dẫn đến việc sửa từ đúng thành từ sai Do đó, cần kết hợp với các công cụ tìm kiếm lỗi chính tả độc lập Bộ công cụ sửa lỗi chính tả của Google Docs có những ưu điểm riêng biệt.
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ là việc hạn chế sửa lỗi chính tả nếu không cần thiết, đặc biệt là với các danh từ riêng, tên riêng của sự vật hay sự việc Khi gặp một tên riêng, mô hình kết hợp giữa BERT và Transformer có xu hướng tìm cách tiếp cận loại lỗi chính tả này, và vì vậy, dẫn đến việc sửa lỗi ở những vị trí không cần thiết. Để khắc phục điểm yếu này thì một số thành phần bổ trợ cần được xây dựng trong tương lai: như cài đặt một dịch vụ Name-Entity-Regconition để phân biệt danh từ riêng hoặc một hệ thống sử dụng kết hợp (ensemble model) với ít nhất một công cụ kiểm tra lỗi chính tả hỗ trợ trước khi sửa Cuối cùng, một hạn chế của mô hình nữa là vì số lượng tham số của mô hình BERT và Transformer là rất nhiều, nên tuy đã xử lý song song tat cả các token cùng một lúc nhưng tốc độ xử lí lỗi chính tả về tổng thể vẫn chưa đạt tốc độ cao.
Để xác định những hạn chế của mô hình đề xuất, chúng tôi đã thu thập các câu mà mô hình dự đoán sai và tiến hành phân tích lỗi Để đảm bảo tính khách quan, dữ liệu từ bộ dữ liệu VSEC [6], được thu thập từ người dùng thực tế, cũng được sử dụng để theo dõi hiệu suất của mô hình.
Không sử dụng bộ dữ liệu VSEC cho giai đoạn đánh giá do sự khác biệt trong không gian lỗi chính tả và thời gian ra mắt bộ dữ liệu sau khi hoàn thành đánh giá Qua phân tích lỗi, một số điểm yếu của mô hình sửa lỗi sẽ được trình bày chi tiết hơn.
Mô hình hiện tại chưa có khả năng chèn hoặc xóa từ trong quá trình sửa lỗi, dẫn đến việc không thể khắc phục các lỗi chính tả liên quan đến việc thêm hoặc xóa một từ Hình 4.3 minh họa một số lỗi chính tả phát sinh do người soạn thảo thiếu hoặc thừa từ, đặc biệt là các từ ghép Nguyên nhân một phần là do mô hình đề xuất chưa được áp dụng trong quá trình huấn luyện, khiến cho khả năng sửa lỗi của nó bị hạn chế.
"dịch" một từ sai thành từ đúng, thay vì chèn hoặc loại bỏ một từ mới vào.
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Câu có lỗi sai chính tả Câu đúng chính tả Mô hình dự đoán
Vị trí địa lý và đặc điểm địa hình của Việt Nam khiến nước này trở thành một trong những quốc gia chịu nhiều thiên tai nhất thế giới Các hiện tượng thiên tai như bão, lũ lụt, hạn hán, xâm nhập mặn, sạt lở đất và cháy rừng xảy ra thường xuyên, trong đó bão và lũ lụt gây tàn phá nặng nề nhất.
Loading có thé lay gi
'Công tắc này được li igat nên khi việc được rửa kính được tài xé
Mutivariate Data |Theo Hair và cự (2009,116) Mutivariate Data | Theo Hair và ctg (2009,116) Mutivariate Data
The 7th Edition of the analysis emphasizes the significance of sample size in statistical evaluation It highlights that factor loading values can provide meaningful insights into the data.
Công tắc này liên kết với công tắc cần gạt nén, khi tài xế kích hoạt công tắc rửa kính, hệ thống rửa kính sẽ tự động bật lên Nước sẽ được điều khiển thông qua vòi phun vào kính chắn gió, giúp làm sạch bề mặt kính một cách hiệu quả.
Từ kết quả điều tra khảo sát thực địa, đề tài đã xây dựng bản đồ phân bố của 5 hệ sinh thái nêu trên Bảng này thể hiện rõ ràng sự phân bố và đặc điểm của các hệ sinh thái, cung cấp thông tin quan trọng cho nghiên cứu và quản lý tài nguyên.
Khu vực nghiên cứu có tổng diện tích 326.389 ha, chiếm 91,68% tổng diện tích.
CVDC Non Nước Cao Bằng đã xây dựng các sản phẩm dịch vụ du lịch nhằm phục vụ du khách đến tham quan Tỉnh cũng hỗ trợ doanh nghiệp du lịch nội địa và quốc tế đăng ký tham gia, tạo điều kiện thuận lợi cho việc phát triển du lịch tại địa phương.
Xem đua ghe Ngo là một hoạt động hấp dẫn trong lễ hội Cúng Trăng, nơi du khách có thể tham gia vào các hoạt động thú vị như thả đèn nước Đăng ký tham gia xem đua ghe Ngo và lễ hội này là một trải nghiệm không thể bỏ lỡ Hãy cùng hòa mình vào không khí lễ hội Cúng Trăng và thưởng thức những khoảnh khắc đẹp khi thả đèn nước.
Cần nâng cao nhận thức của các lực lượng về chính sách xã hội để cải thiện tình trạng hiện tại Việc này sẽ giúp tăng cường hiệu quả trong việc thực hiện các chính sách xã hội và đáp ứng tốt hơn nhu cầu của cộng đồng.
Hệ thống các vườn quốc gia và khu bảo tồn thiên nhiên ở Việt Nam rất phong phú và đa dạng, tạo thành một trong những hệ sinh thái rộng lớn nhất cả nước Những khu vực này không chỉ bảo vệ các loài động thực vật quý hiếm mà còn góp phần quan trọng vào việc bảo tồn thiên nhiên và phát triển bền vững.
Hình 4.3: Mô hình chưa đáp ứng được các trường hợp cần phải thêm hoặc xóa cả từ vào văn bản.