Sinh viên đã vÁn dụng các kā thuÁt mßi nhất hiãn nay về chủ đề t¿o sinh và các mô hình ngôn ngữ lßn vào đề tài đß giải quyết viãc t¿o sinh câu hßi cho đề thi TOEIC.. Kết quả của đề tài đ
Giãi thiáu và vÃn đà nghiên cÿu
TOEIC (Test of English for International Communication) là bài thi đánh giá khả năng sā dụng tiếng Anh trong môi tr°áng giao tiếp và làm viãc quác tế dành cho những ng°ái sā dụng tiếng Anh nh° mát ngo¿i ngữ do Viãn khảo thí giáo dục Hoa Kỳ (ETS) nghiờn cứu và phỏt triòn õ Viót Nam, TOEIC bắt đầu đ°ợc tổ chức thi tÿ năm 2000 thông qua đ¿i diãn chính thức và duy nhất là IIG Viãt Nam Hiãn nay, TOEIC đang đ°ợc đỏnh giỏlà mỏt chứng chỉ tiếng Anh °a chuỏng đỏi vòi hỏc sinh, sinh viờn và nhõn viờn trong viãc nâng cao c¿nh tranh hác tÁp và nghề nghiãp Tham gia bài thi TOEIC cho phép thí sinh đánh giá đ°ợc cáckā năng quan tráng nh° nghe, nói, đácvà viết Trong sỏ đú,hai kā năng đỏc và nghe là phổ biến nhất Đặc biót, phần đỏc hiòu yờu cầu ng°ỏi hác cần phải luyãn tÁp rất nhiều, vì phần này có rất nhiều cấu trúc ngữ pháp và tÿ vựng cũng nằm ó rất nhiều cỏc lĩnh vực khỏc nhau Tuy nhiờn cỏc đề thi TOEIC cú thò tỡm thấy trên m¿ng th°áng không nhiều do IIG không cho phép mang đề thi về Các đề thi trờn m¿ng hầu hết là do cỏc giỏo viờn biờn so¿n l¿i và cú sỏ l°ợng giòi h¿n chủ yếu đò giòi thióu khúa hỏc t¿i cỏc trung tõm anh ngữ ThÁm chớ IIG cũng trực tiếp bỏn cỏc đề thi này giá tÿ 400.000 đãng cho 3 đề thi thā NhÁn thấy nếu mát b¿n hác sinh, sinh viên muỏn luyón thi hằng ngày vòi cỏc đề thi hoàn toàn khỏc nhau sẽ tiờu tỏn mỏt khoảng kinh phớ khụng hề nhò Và đụi khi ng°ỏi hỏc chỉ muỏn tÁp trung cải thión mỏt vài lo¿i ngữ phỏp nhất đònh hoặc tỡm cỏch ghi nhò cỏc tÿ vựng trong mỏt chủ đề cụ thò thỡ vióc làm cỏc đề thi hòn hợp sẽ khụng hióu quả.Vỡ vÁy chỳng tụi muỏn h°òng đến xõy dựng mỏt hó thỏng cú thò t¿o ra đề thi theo yờu cầu mong muỏn vòi chi phớ thấp
Cỏc mụ hỡnh ngụn ngữ lòn hión nay nh° Phi 3, LlaMa3 đ°ợc đào t¿o tÿ cỏc tÁp dữ lióu rất lòn, đa phần là tiếng anh Điều đú giỳp cho vióc t¿o sinh cỏc văn bản đỳng về mặt ngữ pháp và tÿ vựng Không chỉ vÁy trong các tÁp dữliãu này cũng bao gãm rất nhiều sỏch giỏo trỡnh, tài lióu luyón thi tiếng anh bao góm cả TOEIC Vỡ vÁy vióc cú thò t¿o sinh ra mỏt đề thi TOEIC phần Reading khụng phải là bất khả thi Ng°ợc l¿i, vòi khả năng t¿o sinh văn bản và sỏng t¿o nỏi dung của cỏc LLM vióc t¿o ra sỏ l°ợng lòn đề thivòi chủ đò phong phỳ là mỏt ý t°óng tiềm năng Tuy nhiờn đò làm đ°ợc vióc này cần phải nghiờn cứu và xõy dựng mỏt hó thỏng cú thò kiòm soỏt và bắt cỏc LLM ho¿t đồ án đáng theo đúng mục đích, yêu cầu đề ra Cần phải khảo nghiãm và đánh giá trên cả phần thiết kế hã tháng cũng nh° phần kiến thức chuyên môn về TOEIC.
M wc tiêu nghiên cÿu
Đề tài này nhằm mục tiờu thiết kế, xõy dựng mỏt hó thỏng cú thò t¿o ra mỏt đề thi tiếng anh theo chuẩn cấu trỳc mỏt đề thi TOEIC (bao góm bài đỏc, cỏc cõu hòi, ph°Ăng án lựa chán) Đầu vào của hã tháng là giao diãn web cho phép nhÁp vào các chủ đề hoặc cỏc đo¿n văn muỏn sā dụng làm nỏi dung của mòi phần thi Tiếp theo hó thỏng sẽ tiến hành xõy dựng bỏ đề thi bằng cỏch sā dụng cỏc mụ hỡnh ngụn ngữ lòn kết hợp vòi lỏi nhắc (prompt) theo cấu trỳc đề thi Sản phẩm t¿o thành là đề thi TOEIC mòi bao góm đầy đủ cỏc phần cú cấu trỳc giỏng vòi đề thi TOEIC thực tế Chủ đề, nỏi dung của cỏc phần phải là chủ đề hoặc đo¿n văn đó đ°ợc cung cấp Hó thỏng cú thò ch¿y đỏc lÁp trờn máy tính cả nhân không sā dụng các API đ°ợc cung cấp sẵn tÿ bên ngoài.
Nhiám vw nghiên cÿu
- Chuẩn bò dữ lióu bao góm cỏc đề thi TOEIC thực tế.
- Tỡm hiòu, nghiờn cứu cấu trỳc đề thi TOEIC
- Tỡm hiòu, nghiờn cứu cỏc mụ hỡnh ngụn ngữ lòn và ph°Ăng phỏp đò ch¿y trờn mỏy tính cá nhân
- Viết ch°Ăng trỡnh Python đò xõy dựng hó thỏng.
- Khảo sát và lựa chán mô hình.
- Khảo sát và xây dựng lái nhắc (Prompt) phù hợp.
- Tổng kết và báo cáo kết quả đ¿t đ°ợc.
Giãi h¿n đà tài
- Chỉ sā dụng công nghã AI t¿o sinh (Generative AI).
- Chỉ nghiờn cứu về ph°Ăng phỏp t¿o sinh văn bản bằng cỏc mụ hỡnh ngụn ngữ lòn (LLM)
- Chỉ nghiên cứu t¿o sinh phần đề thi TOEIC 100 câu phần đác (Reading) (Phần bài đỏc, phần cõu hòi, và cỏc đỏp ỏn lựa chỏn).
- Chỉ nghiên cứu và sā dụng các mô hình AI mã nguãn mã có thế ch¿y đ°ợc trên máy tính cá nhân (không sā dụng các mô hình trả phí, hoặc chỉ ch¿y đ°ợc trên các server).
Đòi t°ÿng và ph¿m vi nghiờn cÿu
- D¿ng đề thi TOEIC theo chuẩn của IIG cung cấp. đồ án
- Công nghã AI t¿o sinh (Generative AI).
- Mụ hỡnh ngụn ngữ lòn.
- Ngôn ngữ lÁp trình Python và các th° viãn liên quan.
Bò cwc cÿa Đò ỏn
Ch°Ăng 1 trỡnh bày khỏi quỏt về mục tiờu, nhióm vụ, giòi h¿n, đỏi t°ợng, ph¿m vi, ph°¡ng pháp nghiên cứu và bá cục của đề tài tÿ đó giúp ng°ái đác dá dàng nắm bắt đ°ợc nỏi dung của nhúm truyền tải đóng thỏi tiếp cÁn đ°ợc vòi kiến thức cú trong đề tài dá dàng h¡n
Ch°Ăng 2 trỡnh bày kiến thức về bỏ cục của phần đỏc hiòu TOEIC, sự phỏt triòn xā lý ngụn ngữ, kiến thức về mụ hỡnh ngụn ngữ lòn, mỏt sỏ mụ hỡnh ngụn ngữ lòn phổ biến hiãn nay, kiến thức về các kā thuÁt Prompting, kiến thức về c¡ chế của Transformer, kiến thức về Multi-Agent, kiến thức về khoảng cách Cosin và đá t°¡ng đãng Cosin, cuái cùng là kiến thức về RAG
Ch°¡ng 3 trình bày những nghiên cứu phân tích s¡ đã khái, phân tích lựa chán mô hình sinh văn bản, thiết kế Prompt, thiết kế Multi-Agent, thiết kế khái truy vấn, khái tiền xā lý, thiết kế giao diãn và chức năng ứng dụng
Ch°Ăng 4 trỡnh bày cỏc thành tựu đ¿t đ°ợc bói hó thỏng và giòi thióu kết quả thực nghióm trờn dữ lióu thực tế Phần này cung cấp cĂ só đò rỳt ra những kết luÁn, đỏnh giỏ và đề xuất h°òng phỏt triòn tiếp theo.
Ch°Ăng 5 tổng hợp cỏc kết luÁn và đề xuất h°òng phỏt triòn dựa trờn cỏc thụng tin đã trình bày ã Ch°¡ng 4 Những phân tích này sẽ cung cấp c¡ sã cho các nghiên cứu tiếp theo đò ỏp dụng và cải tiến cỏc giải phỏp, tÿ đú đúng gúp vào sự phỏt triòn và tiến bá của lĩnh vực này. đồ án
CH¯ĂNG 2 : CĂ Sổ Lí THUYÀT
Ch°Ăng 2 sẽ tỡm hiòu về bỏ cục của phần đỏc hiòu TOEIC, sự phỏt triòn xā lý ngụn ngữ, tỡm hiòu về mụ hỡnh ngụn ngữ lòn, mỏt sỏ mụ hỡnh ngụn ngữ lòn phổ biến hión nay, tỡm hiòu về cỏc kā thuÁt Prompting, tỡm hiòu cĂ chế của Transformer, tỡm hiòu Multi-Agent, tỡm hiòu bài khoảng cỏch Cosin và đỏ t°Ăng đóng Cosin, cuỏi cựng là RAG.
Giói thiỏu và bò cwc cÿa phÅn đỏc hiÅu TOEIC
Phần đỏc hiòu: góm 3 phần (tÿ phần 5 đếnphần7) vòi 100 cõu vòi tổng thỏi gian làm bài là 75 phỳt Đầu tiờn đỏi vòi phần 5 của bài thi TOEIC, th°ỏng đ°ợc gỏi là phần
"điền tÿ vào chò trỏng", là phần đầu tiờn mà thớ sinh sẽ đỏi dión trong phần Reading của kỳ thi TOEIC Trong phần này, mòi cõu hòi sẽ bò thiếu mỏt tÿ hoặc cụm tÿ và thớ sinh cần chỏn tÿ bỏn đỏp ỏn A, B, C, và D đò điền vào chò trỏng đú, nh° cỏccõu hòió hỡnh 2.1 Nhióm vụ của thớ sinh là xỏc đònh đỏp ỏn đỳng nhất đò hoàn thión cõu
Hỡnh 2.1: Vớ dụ về đònh d¿ngphần 5 Phần 5 này sẽ góm 30 cõu hòi Mòi cõu là mỏt cõu ch°a hoàn chỉnh, và nhióm vụ của thớ sinh là chỏn đỏp ỏn đỳng đò hoàn chỉnh cõu đú Cỏc cõu hòi này yờu cầu thớ sinh đồ án chỏn tÿ hoặc cụm tÿ đỳng về mặt ngữ phỏp đò điền vào chò trỏng và ngữ phỏp ó phần
5 này sẽ cú 14 ngữ phỏp chớnh đú là: cỏc thỡ, m¿o tÿ, giòi tÿ, liờn tÿ, đ¿i tÿ, to verb, phõn tÿ, chia sỏ ớt hoặc nhiều, danh đỏng tÿ, danh tÿ, tớnh tÿ, tr¿ng tÿ, cõu bò đỏng, đỏng tÿ nguyên m¿u) Mục tiêu của phần này là đánh giá khả năng sā dụng tiếng Anh trong các tỡnh huỏng giao tiếp hàng ngày và trong mụi tr°ỏng cụng vióc bờn c¿nh đú cũn kiòm tra hiòu biết về ngữ phỏp tiếng Anh và khả năng suy luÁn và chỏn tÿ phự hợp dựa trờn ngữ cảnh của câu
Phần 6 là d¿ng hoàn thành đo¿n văn, trong đó sẽ mát đo¿n văn cho sẵn, trong đo¿n văn này sẽ cú chò trỏng, nhióm vụ là chỏn đỏp ỏn đò điền vào chò trỏng phự hợp nhất vớ dụ nh° hỡnh 2.2 Tổng sỏ l°ợng cõu hòi của phần 6 này là 16 cõu
Phần 7 của kỳ thi TOEIC, đ°ợc biết đến nh° phần "Đỏc hiòu nhiều đo¿n văn", là phần cuái cùng trong bài thi Reading Trong phần này, thí sinh sẽ phải đác và trả lái các cõu hòi dựa trờn nhiều lo¿i văn bản khỏc nhau nh° email, bài bỏo, thụng bỏo, và cỏc đo¿n văn khỏc, nh° vớ dụ ó hỡnh 2.3 Cỏc cõu hòi cú thò yờu cầu thớ sinh tỡm thụng tin cụ thò, hiòu ý chớnh của đo¿n văn, hoặc suy luÁn tÿ ngữ cảnh Mục tiờu chớnh của phần
Hỡnh 2.2: Vớ dụ về đònh d¿ng cõu hòi ó phần 6 đồ án này là đỏnh giỏ khả năng đỏc hiòu và phõn tớch thụng tin của thớ sinh trong cỏc tỡnh huáng thực tế.
Lòch să phỏt triÅn cÿa xă lý ngụn ngÿ tā nhiờn (NLP)
Lòch sā của NLP đ°ợc thò hión trong hỡnh 2.4 qua cỏc giai đo¿n khỏc nhau Đầu tiờn là vào những năm 1950, vòi những nò lực đầu tiờn đò tự đỏng dòch giữa tiếng Nga và tiếng Anh Tuy nhiờn, sự tiến bỏ bò h¿n chế do thiếu sức m¿nh tớnh toỏn và sự phức t¿p của ngụn ngữ con ng°ỏi Những năm 1960 chứng kiến sự phỏt triòn của cỏc ứng dụng NLP đầu tiờn, chẳng h¿n nh° ELIZA và SHRDLU, cú thò thực hión cỏc tỏc vụ xā lý ngôn ngữ đ¡n giản.
Những năm 1970 và 1980 đánh dấu kÿ nguyên của NLP dựa trên quy tắc, n¡i các hó thỏng đ°ợc lÁp trỡnh vòi cỏc quy tắc ngụn ngữ và tÿ vựng Tuy nhiờn, chớnh những năm 1990 đó chứng kiến mỏt sự thay đổi đỏng kò đỏi vòi NLP thỏng kờ, sā dụng cỏc thuÁt toỏn hỏc mỏy đò phõn tớch và hiòu dữ lióu ngụn ngữ Những năm 2000 đỏnh dấu
Hỡnh 2.3: Vớ dụ về đònh d¿ng phần 7 đồ án sự ra đỏi của NLP dựa trờn dữ lióu quy mụ lòn, vòi sự xuất hión của dữ lióu quy mụ Web và tài nguyên tính toán m¿nh mẽ h¡n.
Vào những năm 2010, NLP thực sự đi đầu vòi sự ra đỏi của cỏc kā thuÁt hỏc sõu Những kā thuÁt này, cựng vòi sự bựng nổ của dữ lióu, đó d¿n đến những tiến bỏ đỏng kò trong lĩnh vực NLP.
M¿ng nĂ-ron hói quy (RNN), đ°ợc giòi thióu vào đầu những năm 2010, đó đúng mỏt vai trũ quan trỏng trong vióc cho phộp mỏy múc hiòu ngữ cảnh trong mỏt chuòi cỏc tÿ hoặc cõu Thụng qua khả năng ghi nhò cỏc đầu vào tr°òc đú trong bỏ nhò, RNN đó mang l¿i mỏt mức đỏ tinh vi mòi trong cỏc nhióm vụ nh° mụ hỡnh húa và dòch thuÁt ngôn ngữ Tuy nhiên, nó không phải không có những h¿n chế Nó đã gặp phải vấn đề liờn quan tòi đỏ dài của cõu do cỏc vấn đề nh° gradient biến mất (vanishing gradients)
Giữa những năm 2010 chứng kiến sự gia tăng của M¿ng n¡-ron tích chÁp (CNN) trong NLP CNN, chủ yếu đ°ợc biết đến vòi thành cụng trong cỏc nhióm vụ xā lý hỡnh ảnh, đó đ°ợc điều chỉnh đò xā lý cỏc tỏc vụ NLP vòi hióu quả đỏng ng¿c nhiờn.
Sau đó, vào tháng 6 năm 2017, các nhà nghiên cứu t¿i Google đã công bá bài báo