Sinh viên đã vận dụng các kỹ thuật mới nhất hiện nay về chủ đề tạo sinh và các mô hình ngôn ngữ lớn vào đề tài để giải quyết việc tạo sinh câu hỏi cho đề thi TOEIC.. Ngoài GPT, trong lĩn
TỔNG QUAN
Giới thiệu về vấn đề nghiên cứu
TOEIC (Test of English for International Communication) là bài thi đánh giá khả năng sử dụng tiếng Anh trong môi trường giao tiếp và làm việc quốc tế dành cho những người sử dụng tiếng Anh như một ngoại ngữ do Viện khảo thí giáo dục Hoa Kỳ (ETS) nghiên cứu và phát triển Ở Việt Nam, TOEIC bắt đầu được tổ chức thi từ năm 2000 thông qua đại diện chính thức và duy nhất là IIG Việt Nam Hiện nay, TOEIC đang được đánh giá là một chứng chỉ tiếng Anh ưa chuộng đối với học sinh, sinh viên và nhân viên trong việc nâng cao cạnh tranh học tập và nghề nghiệp Tham gia bài thi TOEIC cho phép thí sinh đánh giá được các kỹ năng quan trọng như nghe, nói, đọc và viết Trong số đó, hai kỹ năng đọc và nghe là phổ biến nhất Đặc biệt, phần đọc hiểu yêu cầu người học cần phải luyện tập rất nhiều, vì phần này có rất nhiều cấu trúc ngữ pháp và từ vựng cũng nằm ở rất nhiều các lĩnh vực khác nhau Tuy nhiên các đề thi TOEIC có thể tìm thấy trên mạng thường không nhiều do IIG không cho phép mang đề thi về Các đề thi trên mạng hầu hết là do các giáo viên biên soạn lại và có số lượng giới hạn chủ yếu để giới thiệu khóa học tại các trung tâm anh ngữ Thậm chí IIG cũng trực tiếp bán các đề thi này giá từ 400.000 đồng cho 3 đề thi thử Nhận thấy nếu một bạn học sinh, sinh viên muốn luyện thi hằng ngày với các đề thi hoàn toàn khác nhau sẽ tiêu tốn một khoảng kinh phí không hề nhỏ Và đôi khi người học chỉ muốn tập trung cải thiện một vài loại ngữ pháp nhất định hoặc tìm cách ghi nhớ các từ vựng trong một chủ đề cụ thể thì việc làm các đề thi hỗn hợp sẽ không hiệu quả Vì vậy chúng tôi muốn hướng đến xây dựng một hệ thống có thể tạo ra đề thi theo yêu cầu mong muốn với chi phí thấp
Các mô hình ngôn ngữ lớn hiện nay như Phi 3, LlaMa3 được đào tạo từ các tập dữ liệu rất lớn, đa phần là tiếng anh Điều đó giúp cho việc tạo sinh các văn bản đúng về mặt ngữ pháp và từ vựng Không chỉ vậy trong các tập dữ liệu này cũng bao gồm rất nhiều sách giáo trình, tài liệu luyện thi tiếng anh bao gồm cả TOEIC Vì vậy việc có thể tạo sinh ra một đề thi TOEIC phần Reading không phải là bất khả thi Ngược lại, với khả năng tạo sinh văn bản và sáng tạo nội dung của các LLM việc tạo ra số lượng lớn đề thi với chủ để phong phú là một ý tưởng tiềm năng Tuy nhiên để làm được việc này cần phải nghiên cứu và xây dựng một hệ thống có thể kiểm soát và bắt các LLM hoạt động theo đúng mục đích, yêu cầu đề ra Cần phải khảo nghiệm và đánh giá trên cả phần thiết kế hệ thống cũng như phần kiến thức chuyên môn về TOEIC.
Mục tiêu nghiên cứu
Đề tài này nhằm mục tiêu thiết kế, xây dựng một hệ thống có thể tạo ra một đề thi tiếng anh theo chuẩn cấu trúc một đề thi TOEIC (bao gồm bài đọc, các câu hỏi, phương án lựa chọn) Đầu vào của hệ thống là giao diện web cho phép nhập vào các chủ đề hoặc các đoạn văn muốn sử dụng làm nội dung của mỗi phần thi Tiếp theo hệ thống sẽ tiến hành xây dựng bộ đề thi bằng cách sử dụng các mô hình ngôn ngữ lớn kết hợp với lời nhắc (prompt) theo cấu trúc đề thi Sản phẩm tạo thành là đề thi TOEIC mới bao gồm đầy đủ các phần có cấu trúc giống với đề thi TOEIC thực tế Chủ đề, nội dung của các phần phải là chủ đề hoặc đoạn văn đã được cung cấp Hệ thống có thể chạy độc lập trên máy tính cả nhân không sử dụng các API được cung cấp sẵn từ bên ngoài.
Nhiệm vụ nghiên cứu
- Chuẩn bị dữ liệu bao gồm các đề thi TOEIC thực tế
- Tìm hiểu, nghiên cứu cấu trúc đề thi TOEIC
- Tìm hiểu, nghiên cứu các mô hình ngôn ngữ lớn và phương pháp để chạy trên máy tính cá nhân
- Viết chương trình Python để xây dựng hệ thống
- Khảo sát và lựa chọn mô hình
- Khảo sát và xây dựng lời nhắc (Prompt) phù hợp
- Tổng kết và báo cáo kết quả đạt được.
Giới hạn đề tài
- Chỉ sử dụng công nghệ AI tạo sinh (Generative AI)
- Chỉ nghiên cứu về phương pháp tạo sinh văn bản bằng các mô hình ngôn ngữ lớn (LLM)
- Chỉ nghiên cứu tạo sinh phần đề thi TOEIC 100 câu phần đọc (Reading) (Phần bài đọc, phần câu hỏi, và các đáp án lựa chọn)
- Chỉ nghiên cứu và sử dụng các mô hình AI mã nguồn mở có thế chạy được trên máy tính cá nhân (không sử dụng các mô hình trả phí, hoặc chỉ chạy được trên các server).
Đối tượng và phạm vi nghiên cứu
- Dạng đề thi TOEIC theo chuẩn của IIG cung cấp
- Công nghệ AI tạo sinh (Generative AI)
- Mô hình ngôn ngữ lớn
- Ngôn ngữ lập trình Python và các thư viện liên quan.
Bố cục của Đồ án
Chương 1 trình bày khái quát về mục tiêu, nhiệm vụ, giới hạn, đối tượng, phạm vi, phương pháp nghiên cứu và bố cục của đề tài từ đó giúp người đọc dễ dàng nắm bắt được nội dung của nhóm truyền tải đồng thời tiếp cận được với kiến thức có trong đề tài dễ dàng hơn
Chương 2 trình bày kiến thức về bố cục của phần đọc hiểu TOEIC, sự phát triển xử lý ngôn ngữ, kiến thức về mô hình ngôn ngữ lớn, một số mô hình ngôn ngữ lớn phổ biến hiện nay, kiến thức về các kỹ thuật Prompting, kiến thức về cơ chế của Transformer, kiến thức về Multi-Agent, kiến thức về khoảng cách Cosin và độ tương đồng Cosin, cuối cùng là kiến thức về RAG
Chương 3 trình bày những nghiên cứu phân tích sơ đồ khối, phân tích lựa chọn mô hình sinh văn bản, thiết kế Prompt, thiết kế Multi-Agent, thiết kế khối truy vấn, khối tiền xử lý, thiết kế giao diện và chức năng ứng dụng
Chương 4 trình bày các thành tựu đạt được bởi hệ thống và giới thiệu kết quả thực nghiệm trên dữ liệu thực tế Phần này cung cấp cơ sở để rút ra những kết luận, đánh giá và đề xuất hướng phát triển tiếp theo
Chương 5 tổng hợp các kết luận và đề xuất hướng phát triển dựa trên các thông tin đã trình bày ở Chương 4 Những phân tích này sẽ cung cấp cơ sở cho các nghiên cứu tiếp theo để áp dụng và cải tiến các giải pháp, từ đó đóng góp vào sự phát triển và tiến bộ của lĩnh vực này.
CƠ SỞ LÝ THUYẾT
Giới thiệu về bố cục của phần đọc hiểu TOEIC
Phần đọc hiểu: gồm 3 phần (từ phần 5 đến phần 7) với 100 câu với tổng thời gian làm bài là 75 phút Đầu tiên đối với phần 5 của bài thi TOEIC, thường được gọi là phần
"điền từ vào chỗ trống", là phần đầu tiên mà thí sinh sẽ đối diện trong phần Reading của kỳ thi TOEIC Trong phần này, mỗi câu hỏi sẽ bị thiếu một từ hoặc cụm từ và thí sinh cần chọn từ bốn đáp án A, B, C, và D để điền vào chỗ trống đó , như các câu hỏi ở hình 2.1 Nhiệm vụ của thí sinh là xác định đáp án đúng nhất để hoàn thiện câu
Hình 2.1: Ví dụ về định dạng phần 5
Phần 5 này sẽ gồm 30 câu hỏi Mỗi câu là một câu chưa hoàn chỉnh, và nhiệm vụ của thí sinh là chọn đáp án đúng để hoàn chỉnh câu đó Các câu hỏi này yêu cầu thí sinh chọn từ hoặc cụm từ đúng về mặt ngữ pháp để điền vào chỗ trống và ngữ pháp ở phần
5 này sẽ có 14 ngữ pháp chính đó là: các thì, mạo từ, giới từ, liên từ, đại từ, to verb, phân từ, chia số ít hoặc nhiều, danh động từ, danh từ, tính từ, trạng từ, câu bị động, động từ nguyên mẫu) Mục tiêu của phần này là đánh giá khả năng sử dụng tiếng Anh trong các tình huống giao tiếp hàng ngày và trong môi trường công việc bên cạnh đó còn kiểm tra hiểu biết về ngữ pháp tiếng Anh và khả năng suy luận và chọn từ phù hợp dựa trên ngữ cảnh của câu
Phần 6 là dạng hoàn thành đoạn văn, trong đó sẽ một đoạn văn cho sẵn, trong đoạn văn này sẽ có chỗ trống, nhiệm vụ là chọn đáp án để điền vào chỗ trống phù hợp nhất ví dụ như hình 2.2 Tổng số lượng câu hỏi của phần 6 này là 16 câu
Phần 7 của kỳ thi TOEIC, được biết đến như phần "Đọc hiểu nhiều đoạn văn", là phần cuối cùng trong bài thi Reading Trong phần này, thí sinh sẽ phải đọc và trả lời các câu hỏi dựa trên nhiều loại văn bản khác nhau như email, bài báo, thông báo, và các đoạn văn khác, như ví dụ ở hình 2.3 Các câu hỏi có thể yêu cầu thí sinh tìm thông tin cụ thể, hiểu ý chính của đoạn văn, hoặc suy luận từ ngữ cảnh Mục tiêu chính của phần
Hình 2.2: Ví dụ về định dạng câu hỏi ở phần 6 này là đánh giá khả năng đọc hiểu và phân tích thông tin của thí sinh trong các tình huống thực tế.
Lịch sử phát triển của xử lý ngôn ngữ tự nhiên (NLP)
Lịch sử của NLP được thể hiện trong hình 2.4 qua các giai đoạn khác nhau Đầu tiên là vào những năm 1950, với những nỗ lực đầu tiên để tự động dịch giữa tiếng Nga và tiếng Anh Tuy nhiên, sự tiến bộ bị hạn chế do thiếu sức mạnh tính toán và sự phức tạp của ngôn ngữ con người Những năm 1960 chứng kiến sự phát triển của các ứng dụng NLP đầu tiên, chẳng hạn như ELIZA và SHRDLU, có thể thực hiện các tác vụ xử lý ngôn ngữ đơn giản
Những năm 1970 và 1980 đánh dấu kỷ nguyên của NLP dựa trên quy tắc, nơi các hệ thống được lập trình với các quy tắc ngôn ngữ và từ vựng Tuy nhiên, chính những năm 1990 đã chứng kiến một sự thay đổi đáng kể đối với NLP thống kê, sử dụng các thuật toán học máy để phân tích và hiểu dữ liệu ngôn ngữ Những năm 2000 đánh dấu
Hình 2.3: Ví dụ về định dạng phần 7 sự ra đời của NLP dựa trên dữ liệu quy mô lớn, với sự xuất hiện của dữ liệu quy mô Web và tài nguyên tính toán mạnh mẽ hơn
Vào những năm 2010, NLP thực sự đi đầu với sự ra đời của các kỹ thuật học sâu Những kỹ thuật này, cùng với sự bùng nổ của dữ liệu, đã dẫn đến những tiến bộ đáng kể trong lĩnh vực NLP
Mạng nơ-ron hồi quy (RNN), được giới thiệu vào đầu những năm 2010, đã đóng một vai trò quan trọng trong việc cho phép máy móc hiểu ngữ cảnh trong một chuỗi các từ hoặc câu Thông qua khả năng ghi nhớ các đầu vào trước đó trong bộ nhớ, RNN đã mang lại một mức độ tinh vi mới trong các nhiệm vụ như mô hình hóa và dịch thuật ngôn ngữ Tuy nhiên, nó không phải không có những hạn chế Nó đã gặp phải vấn đề liên quan tới độ dài của câu do các vấn đề như gradient biến mất (vanishing gradients)
Giữa những năm 2010 chứng kiến sự gia tăng của Mạng nơ-ron tích chập (CNN) trong NLP CNN, chủ yếu được biết đến với thành công trong các nhiệm vụ xử lý hình ảnh, đã được điều chỉnh để xử lý các tác vụ NLP với hiệu quả đáng ngạc nhiên
Sau đó, vào tháng 6 năm 2017, các nhà nghiên cứu tại Google đã công bố bài báo
“Attention is All You Need”, giới thiệu về “Transformers Không giống như các mô hình RNNs và LSTMs phụ thuộc vào cấu trúc tuần tự để xử lý thông tin, Transformer có khả năng xử lý các từ trong một câu song song, nhờ vào cơ chế Attention Điều này không chỉ giúp tăng tốc độ xử lý mà còn cải thiện hiệu quả trong việc nắm bắt các mối quan hệ xa trong chuỗi dữ liệu Chúng đã được sử dụng rộng rãi trong các ứng dụng NLP hiện đại, nổi bật nhất là hai mô hình BERT (Bidirectional Encoder Representations from Transformers) của Google và GPT (Generative Pretrained Transformer) của OpenAI
Năm 2023 đánh dấu sự trưởng thành của NLP, nơi nó làm lu mờ tất cả các lĩnh vực khác của AI Chúng ta đã chứng kiến sự bùng nổ của các ứng dụng dựa trên LLM tạo ra, cùng với việc áp dụng hàng loạt trong năm nay NLP đã đi một chặng đường dài từ nguồn gốc của nó, chuyển đổi từ mô hình dựa trên quy tắc sang mô hình học máy tiên tiến, với các khả năng như phân tích tình cảm, dịch máy và tạo văn bản giống như con người
Hình 2.4: Lịch sử phát triển của NLP
Mô hình ngôn ngữ lớn (Large language Model – LLM)
2.3.1 Giới thiệu về mô hình ngôn ngữ lớn
Một trong những thành tựu nổi bật nhất của lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) [1] vào những năm gần đây là sự ra đời của các mô hình ngôn ngữ lớn Chúng cải thiện chất lượng của các tác vụ xử lý ngôn ngữ một cách đáng kể, với khả năng nhận diện ngữ nghĩa và tạo sinh văn bản gần như giống với con người
Mô hình ngôn ngữ lớn là những mô hình ngôn ngữ được trải qua quá trình huấn luyện trước với một lượng dữ liệu khổng lồ Lượng dữ liệu này không nhất thiết phải liên quan đến một chủ đề nhất định Điều này khiến chúng trở thành những mô hình ngôn ngữ đa mục đích và có thể được ứng dụng trong nhiều hệ thống ở nhiều lĩnh vực khác nhau Việc tính toán tương quan xác suất giữa các từ, câu và ngữ cảnh trong một lượng dữ liệu văn bản lớn như vậy khiến chúng có khả năng nhận biết ngữ cảnh ưu việt hơn hẳn các mô hình ngôn ngữ trước đây Các hệ thống chatbot trí tuệ nhân tạo như Chat GPT (Open AI)[28] chính là một ví dụ điển hình về sức mạnh của LLM trong tạo sinh văn bản và phân tích ngữ nghĩa của ngôn ngữ tự nhiên
2.3.2 Cách hoạt động của mô hình lớn
Mô hình ngôn ngữ lớn (LLM) hoạt động dựa trên nguyên tắc học sâu, tận dụng kiến trúc mạng neural network để xử lý và hiểu ngôn ngữ của con người Những mô hình này được đào tạo trên các tập dữ liệu khổng lồ bằng cách sử dụng các kỹ thuật học tự giám sát (Self-supervised) Cốt lõi chức năng của chúng nằm ở các khuôn mẫu và mối quan hệ phức tạp mà chúng học được từ dữ liệu ngôn ngữ đa dạng trong quá trình huấn luyện
2.3.3 Cách mô hình ngôn ngữ lớn được xây dựng [5]
Kể từ khi ChatGPT ra mắt vào tháng 11 năm 2022, các mô hình ngôn ngữ lớn đã nhanh chóng thu hút sự chú ý nhờ hiệu suất vượt trội trong hàng loạt nhiệm vụ xử lý ngôn ngữ tự nhiên Với khả năng hiểu và tạo ra văn bản gần đạt đến mức độ con người, các mô hình này đã mở ra những tiềm năng ứng dụng to lớn trong nhiều lĩnh vực Để hiểu rõ hơn về cách các mô hình này được xây dựng và vận hành, hãy cùng xem xét hình 2.5, nơi trình bày chi tiết quy trình phát triển của những hệ thống AI đột phá này
Hình 2.5: Trình bày các thành phần khác của LLM a) Làm sạch dữ liệu (Data Cleaning)
Chất lượng dữ liệu rất quan trọng đối với hiệu suất của các mô hình ngôn ngữ Các kỹ thuật làm sạch dữ liệu như lọc (filtering), loại bỏ trùng lặp (deduplication), được chứng minh là có tác động lớn đến hiệu suất của mô hình
Lọc dữ liệu (Data Filtering): Nhằm nâng cao chất lượng của dữ liệu huấn luyện
Mục đích là để tăng hiệu quả của các mô hình ngôn ngữ khi huấn luyện trên dữ liệu này Các kỹ thuật lọc dữ liệu phổ biến bao gồm:
- Xóa nhiễu (Removing Noise): liên quan tới việc loại bỏ những thứ không liên quan hoặc những dữ liệu nhiễu mà ảnh hưởng tới đến khả năng khái quát tốt của mô hình Ví dụ, người ta có thể nghĩ đến việc loại bỏ thông tin sai lệch từ dữ liệu huấn luyện, để giảm cơ hội tạo mô hình những phản hồi sai Hai cách tiếp cận chính là sử dụng các frameword dựa trên phân loại và dựa trên heuristic
- Xử lý ngoại lệ (Handling Outliers): Xác định và xử lý các ngoại lệ (outlier) hoặc sự bất thường trong dữ liệu Giải quyết sự mất cân bằng (Addressing Imbalances): Cân bằng sự phân phối các lớp hoặc các loại trong tập dữ liệu huấn luyện để tránh sai lệch và đảm bảo sự cân đối giữa các loại
- Tiền xử lý văn bản (Text Preprocessing): Làm sạch và chuẩn hóa dữ liệu văn bản bằng cách loại bỏ các từ dừng, dấu câu hoặc các thành phần khác có thể không đóng góp đáng kể vào việc học tập của mô hình
Chống trùng lặp (Deduplication): đề cập đến quá trình loại bỏ các trường hợp trùng lặp hoặc lặp lại các lần xuất hiện của cùng một dữ liệu trong một tập dữ liệu Các điểm dữ liệu trùng lặp có thể gây ra sai lệch trong quá trình huấn luyện mô hình và làm giảm tính đa dạng, chẳng hạn như mô hình có thể học từ cùng một ví dụ nhiều lần b) Tokenizations
Trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP) và học máy (Machine Learning), đề cập đến quá trình chuyển đổi một chuỗi văn bản thành các phần nhỏ hơn, được gọi là token Các mã token này có thể nhỏ bằng ký tự hoặc dài bằng từ Lý do chính khiến quá trình này quan trọng là vì nó giúp máy móc hiểu được ngôn ngữ của con người bằng cách chia nó thành những phần nhỏ để dễ phân tích hơn
BytePairEncoding: thuật toán này sẽ chia từ thành các đơn vị thông qua việc đếm số lượng các cặp ký tự
Hình 2.6: Minh họa ví dụ về Tokenization
Hình ảnh 2.6 mô tả một ví dụ về Tokenization trong xử lý ngôn ngữ tự nhiên (NLP) Tokenization là quá trình chia văn bản thành các phần tử riêng lẻ, được gọi là Token Những Token này có thể là từ, cụm từ hoặc ký hiệu Trong ví dụ đã cho, câu " it not cool that ping pong is not included in rio 2016" được mã hóa thành Token sau: it, not, cool, that, ping, pong, is, not, included, in, rio, 2016 Mỗi Token được tách ra và trình bày riêng lẻ Mục đích của Tokenization là chia nhỏ dữ liệu văn bản phức tạp thành các phần có thể quản lý được, có thể dễ dàng xử lý bằng thuật toán học máy c) Positional Encoding [2]
Positional encoding là các vector vị trí hoặc thứ tự được thêm vào các embedding đầu vào nhằm bổ sung thêm thông tin vị trí hoặc thứ tự cho các embedding đầu vào này, vì cùng một chữ nhưng khi ở vị trí khác nhau thì sẽ có nghĩa khác nhau, ví dụ câu “anh yêu em” với câu “em yêu anh” là khác nhau
Absolute Positional Embeddings [4]: Được sử dụng trong mô hình Transformer nhằm giúp bảo toàn thông tin vị trí của các từ trong chuỗi đầu vào Cụ thể tại mỗi vị trí 𝑝𝑜𝑠 trong chuỗi sẽ được ánh xạ thành một vector vị trí 𝑃𝐸 𝑝𝑜𝑠 Các vector này được tạo ra thông qua hai công thức của hàm Sin, Cosin ở biểu thức (1) và (2) Sau đó vector embedding của từ trong chuỗi đầu vào tại vị trí 𝑝𝑜𝑠 sẽ kết hợp với vector vị trí tương ứng 𝑃𝐸 𝑝𝑜𝑠 để tạo ra một vector chứa thông tin cả về nội dung lẫn trí của nó trong chuỗi
- pos: là vị trí của từ trong chuỗi
- 𝑑 𝑚𝑜𝑑𝑒𝑙 : là kích thước của vector embedding
Hình 2.7: Tổng quan ở mức độ cao về cách Absolute Positional Embeddings hoạt động [3]
Trong hình 2.7 là mô tả việc sử dụng các embedding vị trí tuyệt đối (Absolute Positional Embeddings) là một kỹ thuật quan trọng để mạng có thể hiểu được vị trí của các từ trong chuỗi đầu vào Các embedding vị trí này được cộng vào các vector embedding từ để tạo ra các vector kết hợp, cho phép mô hình biết được kh ông chỉ ý nghĩa của từ mà còn vị trí của nó trong câu Kỹ thuật này giúp mạng Transformer có thể xử lý các chuỗi có độ dài khác nhau và hiểu được mối quan hệ vị trí giữa các từ, điều này rất quan trọng trong các tác vụ như dịch máy, phân tích cú pháp và cá c ứng dụng NLP khác d) Kiến trúc của mô hình ngôn ngữ lớn (LLM) [2]
Kỹ thuật prompting
Kỹ thuật prompting đã nổi lên như một kỹ thuật quan trọng để nâng cao khả năng của các mô hình ngôn ngữ lớn (LLMs) và các mô hình ngôn ngữ hình ảnh (VLMs) đã được tiền huấn luyện Nó liên quan đến việc thiết kế chiến lược các hướng dẫn cụ thể cho nhiệm vụ, được gọi là các lời nhắc, để hướng dẫn đầu ra của mô hình mà không cần thay đổi các tham số.[16]
2.4.1 Nhiệm vụ không cần tạo chuyên sâu (New Tasks Without Extensive
Zero-Shot Prompting [18] là một phương pháp mới trong việc sử dụng các mô hình ngôn ngữ lớn (LLMs) Kỹ thuật này [18] loại bỏ nhu cầu sử dụng dữ liệu huấn luyện rộng rãi, thay vào đó dựa vào các lời nhắc (prompts) được thiết kế cẩn thận để hướng dẫn mô hình thực hiện các nhiệm vụ mới Cụ thể, mô hình nhận được mô tả nhiệm vụ trong prompt nhưng không có dữ liệu nhãn để huấn luyện về các cặp đầu vào- đầu ra cụ thể Mô hình sau đó sử dụng kiến thức sẵn có của mình để tạo ra dự đoán dựa trên lời nhắc cho nhiệm vụ mới
Few-shot prompting [19]: cung cấp cho các mô hình một vài ví dụ đầu vào-đầu ra để giúp mô hình hiểu một nhiệm vụ cụ thể, khác với zero-shot prompting, nơi không có ví dụ nào được cung cấp Việc cung cấp một vài ví dụ chất lượng cao cũng đã cải thiện hiệu suất của mô hình trong các nhiệm vụ phức tạp so với không có cung cấp ví dụ nào Tuy nhiên, few-shot prompting yêu cầu thêm các token để bao gồm các ví dụ, điều này có thể trở nên khó khăn đối với các đầu vào văn bản dài Hơn nữa, việc lựa chọn và sắp xếp các ví dụ trong lời nhắc có thể ảnh hưởng đáng kể đến hành vi của mô hình, và các thiên vị như ưu tiên các từ phổ biến vẫn có thể ảnh hưởng đến kết quả few- shot Mặc dù few-shot prompting tăng cường khả năng cho các nhiệm vụ phức tạp, đặc biệt là với các mô hình lớn đã được huấn luyện trước như GPT-3, việc thiết kế lời nhắc cẩn thận là rất quan trọng để đạt được hiệu suất tối ưu và giảm thiểu các thiên vị không mong muốn của mô hình
Hình 2.10: Ví dụ về few-shot prompting [19]
Như hình 2.10 có thể thấy được rằng khi chỉ có một ví dụ duy nhất, mô hình có thể không đưa ra được kết quả chính xác Trong trường hợp này, mô hình đã không hiểu đúng yêu cầu và kết quả không hợp lý Trong khi đó nếu cung cấp nhiều ví dụ hơn (trong trường hợp này là hai ví dụ), mô hình đã có thể hiểu và phân loại cảm xúc của đánh giá thứ hai một cách chính xác hơn Từ ví dụ trên đã chứng tỏ được rằng LLM có thể học và suy luận hiệu quả chỉ từ một số ít ví dụ cho trước
2.4.2 Suy luận và logic (Reasoning and logic)
Các mô hình ngôn ngữ lớn (LLMs) thường gặp khó khăn khi đối mặt với các bài toán phức tạp, khiến tiềm năng của chúng bị hạn chế Nhằm khắc phục vấn đề này, Jason Wei cùng các đồng nghiệp đã giới thiệu kỹ thuật Chain-of-Thought (CoT) prompting [20] để hướng dẫn các mô hình LLM theo cách giúp quá trình suy luận trở nên mạch lạc và từng bước một Đóng góp chính của họ nằm ở đề xuất và khám phá kỹ thuật CoT prompting, chứng minh được hiệu quả của nó trong việc tạo ra các phản hồi có cấu trúc và suy nghĩ thấu đáo hơn từ các mô hình LLMs so với các prompt truyền thống
Thông qua một loạt các thí nghiệm, các tác giả đã trình bày những đặc điểm nổi bật của CoT prompting, nhấn mạnh khả năng của nó trong việc dẫn dắt các mô hình LLMs qua một chuỗi lý luận logic Điều này dẫn đến các phản hồi phản ánh sự hiểu biết sâu sắc hơn về các lời nhắc được đưa ra Ví dụ, lời nhắc sẽ hiển thị quá trình suy luận và câu trả lời cuối cùng cho một bài toán đố nhiều bước và mô phỏng cách con người phân tích vấn đề thành các bước trung gian logic Các tác giả đã đạt được hiệu suất hàng đầu tro ng các bài kiểm tra toán học và lý luận thông thường bằng cách sử dụng CoT prompts cho mô hình PaLM 540B, đạt độ chính xác 90.2%
Hình 2.11: Ví dụ về kỹ thuật Chain-of-Thought (CoT) Prompting [20]
Hình 2.11 cung cấp so sánh giữa hai kỹ thuật gợi ý (Prompting) khác nhau cho mô hình ngôn ngữ Đầu tiên đối với kỹ thuật Prompting thông thường (Standard Prompting) thì trong ví dụ mẫu ở phần trả lời chỉ có cung cấp một câu trả lời trực tiếp mà không giải thích về quá trình suy nghĩ tại sao ra kết quả thế, điều này có thể dẫn đến kết quả không chính xác, như trong ví dụ hình 2.11 khi mô hình trả lời sai là 27 Còn đối với CoT Prompting (Chain-of-Thought Prompting) thì trong ví dụ mẫu thì ở phần trả lời có cung cấp một chuỗi suy nghĩ chi tiết, giải thích từng bước của quá trình suy luận để ra được kết quả, điều này giúp mô hình đạt được kết quả chính xác hơn, như hình 2.11 khi mô hình đưa ra đáp án đúng là 9 sau khi giải thích quá trình tính toán.
Một số mô hình ngôn ngữ lớn phổ biến hiện nay
Meta đã ra mắt LlaMa 3, phiên bản mới nhất trong dòng mô hình AI mã nguồn mở LlaMa LlaMa 3 có hai biên bản: một là mô hình với 8 tỷ tham số và hai là mô hình với
70 tỷ tham số Hai mô hình này thể hiện hiệu suất hàng đầu trên nhiều tiêu chuẩn đánh giá của ngành và cung cấp các khả năng mới, bao gồm cải thiện khả năng lập luận hình Các mô hình LlaMa 3 mới của Meta với 8 tỷ và 70 tỷ tham số là một bước tiến lớn so với LlaMa 2 [26] và thiết lập tiêu chuẩn mới cho các mô hình ngôn ngữ ở quy mô này Nhờ những cải tiến trong giai đoạn tiền huấn luyện (Pretraining) và hậu huấn luyện (Post-training), các mô hình này hiện là những mô hình tốt nhất ở quy mô 8 tỷ và 70 tỷ tham số như hình 2.12 Các cải tiến trong quy trình hậu huấn luyện đã giúp tăng sự phù hợp và tính đa dạng trong các phản hồi của mô hình và kèm theo đó là sự cải thiện lớn về các khả năng như lập luận, tạo mã, và tuân theo hướng dẫn
Về kiến trúc thì LlaMa 3 có chung kiến trúc với LlaMa 2 như hình 2.13, sự khác biệt chính so với LlaMa 2 là LlaMa 3 sử dụng bộ mã hóa (tokenizer) với vốn từ vựng gồm 128K token, giúp mã hóa ngôn ngữ hiệu quả hơn nhiều Bên cạnh đó kích thước của tập dữ liệu tiền huấn luyện đã tăng lên 650% LlaMa 2 được huấn luyện trên 2 nghì n tỷ token, trong khi LlaMa 3 được huấn luyện trên 15 nghìn tỷ token Độ dài ngữ cảnh của mô hình đã được tăng gấp đôi từ 4K lên 8K trên cả hai mô hình 8B và 70B, và đã áp dụng cơ chế grouped-query attention cho cả hai biên bản 8B và 70B so với thế hệ trước (GQA) chỉ được sử dụng trong các mô hình lớn hơn 34B và 70B
Hình 2.13 Kiến trúc của mô hình LlaMa Để cải thiện khả năng suy luận của các mô hình LlaMa 3 thì Grouped Multi-Query [23] đã được áp dụng cho cả hai phiên bản của LlaMa 3 Đây là một sự kết hợp giữa chú ý đa truy vấn (Multi-query attention) và chú ý đa đầu (Multi-head attention) Nó đạt được chất lượng tương tự như Multi-head attention, trong khi vẫn duy trì tốc độ tương đương với Multi-query attention Thông thường, để giải mã tự hồi quy (Autoregressive decoding), người ta lưu trữ các khóa (keys) và giá trị (values) của các token trước đó trong chuỗi để tăng tốc tính toán chú ý Tuy nhiên, khi cửa sổ ngữ cảnh hoặc kích thước lô (batch size) tăng, chi phí bộ nhớ liên quan đến kích thước của bộ lưu trữ khóa-giá trị (kv cache) trong mô hình Multi-head attention (MHA) tăng lên đáng kể Multi-query attention (MQA) sử dụng cơ chế sử dụng chỉ một đầu khóa-giá trị cho nhiều truy vấn, giúp tiết kiệm bộ nhớ và tăng tốc độ suy luận của bộ giải mã
Cuối năm 2023 Mistral AI đã ra mắt một mô hình mã nguồn mở có tên là “Mixtral 8x7b” Mixtral 8x7b vượt trội hơn LlaMa 2 70B trên hầu hết các tiêu chuẩn với tốc độ suy luận nhanh hơn gấp 6 lần Đây là mô hình nguồn mở thuộc hàng mạnh mẽ nhất và là 1 trong những mô hình tốt nhất xét về cân bằng giữa chi phí và hiệu suất Đặc biệt, Mixtral bằng hoặc vượt trội hơn GPT-3.5 trên hầu hết các tiêu chuẩn thông thường [21]
Hình 2.14: So sánh hiệu suất của Mixtral 8x7b so với LlaMa70B và GPT 3.5 [21]
Nhìn hình 2.14 so sánh Mixtral với dòng LlaMa 2 và bản nền tảng của GPT3.5 Thấy được rằng Mixtral ngang bằng hoặc vượt trội hơn LlaMa 2 70B, cũng như GPT3.5, trên hầu hết các điểm đánh giá Mixtral là là một mạng mixture-of-experts phân tán Đây là mô hình chỉ sử dụng bộ giải mã (Decoder-only), trong đó khối feedforward chọn từ một tập hợp gồm 8 nhóm tham số khác nhau Ở mỗi lớp, với mỗi token, một mạng lưới định tuyến (router network) sẽ chọn hai trong số các nhóm này (gọi là “expert”) để xử lý token và kết hợp đầu ra của chúng theo cách cộng dồn Kỹ thuật này làm tăng số lượng tham số của mô hình trong khi kiểm soát được chi phí và độ trễ, vì mô hình chỉ sử dụng một phần nhỏ của tổng tập hợp tham số cho mỗi token Cụ thể, Mixtral có tổng cộng 46.7 tỷ tham số nhưng chỉ sử dụng 12.9 tỷ tham số cho mỗi token Do đó, nó xử lý đầu vào và tạo đầu ra với cùng tốc độ và chi phí như một mô hình 12.9 tỷ tham số
Mixtral được huấn luyện trước trên dữ liệu được trích xuất từ Web mở, bên c ạnh đó Mixtral cũng huấn luyện cả các expert và định tuyến (router) [21]
Mixture of Experts (MoE): Hãy hình dung một nhóm chuyên gia, mỗi người xuất sắc trong một lĩnh vực cụ thể Như được thể hiện trong Hình 2.15, Mixtral thể hiện khái niệm này với 8 mô hình "chuyên gia" (expert) riêng biệt, mỗi mô hình thành thạo trong việc xử lý các nhiệm vụ ngôn ngữ khác nhau Khi có đầu vào thì vào lớp Mixture of experts thì nó sẽ được định tuyến đến 2 trong số 8 chuyên gia (exp ert) bởi một bộ định tuyến (router) Đầu ra của lớp là tổng kết quả của đầu ra từ hai chuyên gia được chọn Trong Mixtral, một chuyên gia là một khối feedforward tiêu chuẩn giống như trong kiến trúc transformer thông thường [21]
Hình 2.15: Minh họa hoạt động của Mixture of expert [21]
Phi-3 [24] là một họ các mô hình trí tuệ nhân tạo mở được phát triển bởi Microsoft Những mô hình này nhanh chóng trở nên phổ biến vì là các mô hình ngôn ngữ nhỏ (SLM) có khả năng và hiệu quả về chi phí nhất hiện nay Các mô hình Phi-3, bao gồm Phi-3-mini, Phi-3-medium không chỉ hiệu quả về chi phí mà còn vượt trội hơn các mô hình cùng kích thước và thậm chí cả các mô hình lớn hơn trong nhiều tiêu chuẩn đánh giá về ngôn ngữ, lý luận, lập trình và toán học
Như hình 2.16 có thể thấy được rằng ở phiên bản Phi-3-medium (14B) thì tất cả tiêu chí đánh giá đều vượt trội so với tất cả mô hình trong hình 2.16 Trong đó có cả các mô hình lớn nó rất nhiều là Mixtral 8x7b (46B) [21] và GPT 3.5 [25] Kiến trúc của các mô hình Phi-3 đều là mô hình Decoder-only dựa trên kiến trúc Decoder của Transformer Trong đó mô hình Phi-3-medium sử dụng kiến trúc tương tự LlaMa-2 [26] như hình 2.13 và chung tokenizer với kích thước từ vựng là 32064, mô hình này sử dụng
40 head, 40 lớp với chiều nhúng (embeding dimension) là 5120 và được huấn luyện trên dữ liệu web công khai được lọc kỹ lưỡng từ nhiều nguồn trên internet mở, cũng như dữ liệu tổng hợp do mô hình ngôn ngữ lớn (LLM) tạo ra kết hợp với hai phương pháp fine- tuning là supervised finetuning (SFT) và direct preference optimization (DPO).
Hình 2.16 So sánh hiệu suất của Phi-3 với các mô hình khác [24]
Multi-agent
Agent làm một đơn vị độc lập đã được lập trình để thực thi nhiệm vụ, đưa ra quyết định và giao tiếp với các Agent khác trong cùng môi trường Ví Agent như một thành viên của một nhóm, với kỹ năng cụ thể và một công việc cụ thể để thực hiện Các Agent có thể đảm nhận các vai trò khác nhau như 'Nhà nghiên cứu', 'Nhà văn', hoặc 'Hỗ trợ khách hàng', … Mỗi người đóng góp vào mục tiêu hoàn thành nhiệm vụ của đội nhóm
Multi-Agent là khuôn mẫu cho phép nhiều Agent tương tác với nhau hoặc cộng tác để đạt được các nhiệm vụ hoặc mục tiêu phức tạp Điều này mở rộng khả năng của các Agent riêng lẻ bằng cách tận dụng sức mạnh tập thể và kiến thức chuyên môn của nhiều mô hình Bằng cách giao tiếp, cộng tác, chia sẻ thông tin, hiểu biết sâu sắc và phân bổ nhiệm vụ, Multi-Agent có thể giải quyết vấn đề hiệu quả hơn so với một Agent duy nhất, một cách linh hoạt và trên quy mô lớn
Hình 2.17: Các khuôn mẫu thường phổ biến ở Multi-Agent [22]
Như hình 2.17 thì có hai khuôn mẫu thường gặp khi sử dụng Multi-Agent Khuôn mẫu đầu tiên là Multi-Agent conversation, ở khuôn mẫu này sẽ thiết lập hai Agent để chúng có khả năng trò chuyện được với nhau thông qua việc trao đổi tin nhắn để cùng hoàn thành một nhiệm vụ Một Agent có thể giao tiếp với các Agent khác cũng như thực hiện công việc mà nó đảm nhận Khuôn mẫu thứ hai đó là Flexible Conversation, ở khuôn mẫu này thì phổ biến nhất là trò chuyện nhóm (Group chat) ở đây sẽ dùng nhiều hơn hai Agent Ý tưởng cốt lõi của trò chuyện nhóm là tất cả Agent đều đóng góp vào một chuỗi hội thoại duy nhất và chia sẻ cùng một bối cảnh Điều này rất hữu ích cho các nhiệm vụ yêu cầu sự cộng tác giữa nhiều Agent
Hình 2.18: Cách hai Agent tương tác với nhau [22]
Như hình 2.18 thì hai Agent sẽ nhận vào hai đầu vào Một là thông điệp (message), nó đóng vai trò như điểm khởi đầu, cung cấp dữ liệu đầu vào cần thiết để các Agent có thể bắt đầu quá trình tương tác và xử lý thông tin Hai là ngữ cảnh (context), cái này liên quan đến số lần trao đổi ngữ giữa hai Agent hoặc khi nào nên kết thúc cuộc trao đổi … Khi đã có đủ thông tin đưa vào thì Agent A sẽ dùng phương pháp khởi tạo cuộc trò chuyện (chat initializer method) để tạo ra tin nhắn ban đầu từ các thông tin được đưa vào và nó sẽ gửi đến Agent B để bắt đầu cuộc trò chuyện Một khi cuộc trò chuyện kết thúc thì lịch sử của cuộc trò chuyện sẽ được xử lý bởi Summarizer để lấy kết quả của cuộc trò chuyện.
Khoảng cách Cosin và độ tương đồng Cosin
Khoảng cách Cosin và độ tương đồng Cosin có mối liên quan chặt chẽ và được sử dụng rộng rãi Độ tương đồng cosin đo lường sự tương đồng của 2 vector bằng cách tính giá trị cosin của góc giữa chúng Với 𝐴 𝑖 , 𝐵 𝑖 là các thành phần của vector A và B Khoảng cách Cosin được tính theo công thức (6) và thể hiện ở hình 2.19
Hình 2.19: Khoảng cách Cosin giữa hai vector trong không gian
Như hình 2.19 có thể thấy rằng khi Cosin similarity tăng (góc 𝜃 nhỏ) thì Cosin distance giảm và ngược lại Vì Cosin similarity là hàm Cosin nên giá trị của nó sẽ nằm từ [-1:1] Bên dưới là trường hợp của các vector theo Cosin similarity
- Giá trị Cosin similarity bằng 1 khi 2 vector cùng chỉ về một hướng, tức các điểm dữ liệu tương đồng nhau
- Giá trị Cosin similarity bằng 0, tức là các vector vuông góc, tức là không có mối tương quan
- Giá trị Cosin similarity bằng -1 tức là 2 vector ngược hướng nhau (không có sự tương đồng)
Cosin similarity thường được sử dụng trong các hệ thống đề xuất, xử lí ngôn ngữ tự nhiên, học không giám sát, … vì sự phù hợp cho việc tính toán khoảng cách giữa các vector trong không gian đa chiều.
Retrieval Augmented Generation (RAG)
Việc các LLM được huấn luyện trước với một lượng dữ liệu rất lớn cũng có những mặt xấu của nó, ví dụ như trong những trường hợp mà các LLM phải xử lý các câu hỏi yêu cầu những kiến thức chuyên môn mà trong bộ dữ liệu huấn luyện trước của LLM không có Lúc này, nó sẽ cố gắng sinh ra một câu trả lời tuy có ý nghĩa và hợp lý về mặt câu chữ nhưng lại sai về mặt thông tin Hiện tượng này được gọi là "vấn đề ảo giác" (hallucination problem) [39] Một giải pháp cho vấn đề này chính là tiến hành fine -tune LLM để chúng trở nên tối ưu hơn cho các tác vụ Tuy nhiên, đây là công việc tốn rất nhiều chi phí Vì vậy, kỹ thuật RAG đã được ra đời như một giải pháp thay thế Ý tưởng của RAG chính là cung cấp cho LLM một số dữ liệu tham khảo đi kèm với câu hỏi cũng như câu trả lời, từ đó giúp LLM cho ra câu trả lời có độ chính xác cao Mô hình RAG được thiết kế cho các tác vụ tạo sinh văn bản Kiến trúc RAG bao gồm:
- Nguồn dữ liệu: Bộ dữ liệu do người dùng cung cấp, chứa các thông tin về những lĩnh vực chuyên sâu mà dữ liệu của LLM không có Đây sẽ là nguồn thông tin tham khảo để hệ thống đưa ra câu trả lời
- Dữ liệu sẽ được tiền xử lý trước khi thực hiện mã hóa Tùy vào từng bài toán mà dữ liệu có thể được chia thành các khối dữ liệu nhỏ hơn (chunks) hoặc không để dễ dàng thực hiện so sánh và tìm kiếm thông tin
- Embedding (mã hóa): Ở giai đoạn này, dữ liệu được mã hóa thành các vector bởi mô hình embedding để có thể thực hiện tính toán và so sánh
- Vector database: Những vector tạo ra từ mô hình embedding sẽ được lưu trong database
- Tìm kiếm và truy xuất thông tin: Câu hỏi của người dùng cũng sẽ được đưa vào embedding và được so sánh với các vector trong database, từ đó truy xuất ra dữ liệu phù hợp nhất
- Tạo sinh văn bản: Dựa vào thông tin truy xuất được, ta tiến hành tạo sinh câu trả lời thích hợp bằng LLM tạo sinh.
THIẾT KẾ HỆ THỐNG
Yêu cầu của hệ thống
Với mục tiêu phát triển một hệ thống tạo sinh phần đọc hiểu TOEIC có khả năng giúp người dùng tạo ra câu hỏi, kèm theo phương án lựa chọn và đáp án cho câu hỏi đó, từ đó nhóm nghiên cứu đưa ra các yêu cầu sau:
- Hệ thống phải hiểu được chính xác dạng câu hỏi mà người dùng yêu cầu
- Thiết kế hệ thống giúp người dùng có thể truy cập được vào từng phần để thực hiện yêu cầu tạo câu hỏi
- Hệ thống có giao diện thân thiện và dễ dàng sử dụng với đầy đủ chức năng
- Hệ thống phải tạo ra chuẩn cấu trúc phần đọc hiểu của TOEIC
3.1.1 Sơ đồ khối tổng quát của hệ thống và chức năng của mỗi khối Để đạt được yêu cầu trên nhóm đã thiết kế sơ đồ khối của hệ thống như hình 3.1
Sơ đồ khối này bao gồm các thành phần sau:
- Khối ngữ pháp TOEIC: Khối này lưu trữ thông tin ngữ pháp của từ phần 5 đến phần 7 có trong đề thi TOEIC Reading
- Khối tạo sinh: Khối này chịu trách nhiệm chính trong hệ thống tạo sinh đề
Reading Trong khối sẽ thực hiện tạo sinh đề dựa theo yêu cầu người dùng đưa vào
Hình 3.1: Sơ đồ tổng quát hệ thống
3.1.2 Chức năng của hệ thống
Hệ thống sẽ thực hiện các chức năng cơ bản sau đây:
- Hệ thống cho phép người tạo ra câu hỏi kèm theo 4 phương án lựa chọn có đáp án theo yêu cầu người dùng
- Hệ thống có thể người dùng kiểm tra kiến thức bằng giao diện trực quan
- Hệ thống trả về định dạng câu hỏi chuẩn TOEIC
- Hệ thống có thể tạo sinh ra câu hỏi trên máy tính cá nhân hoặc server mà không cần gọi API
Khối này chứa những thông tin về ngữ pháp có trong đề thi TOEIC của ba phần (phần 5, 6, 7) Trong phần 5 và phần 6 sẽ gồm có 14 ngữ pháp chính:
- Ngữ pháp về các thì (Thì hiện tại đơn, hiện tại tiếp diễn, …)
- Ngữ pháp về to verb
- Ngữ pháp về phân từ
- Ngữ pháp về câu bị động của các thì (Thì hiện tại đơn, hiện tại tiếp diễn …)
- Ngữ pháp về tính từ
- Ngữ pháp về trạng từ
- Ngữ pháp về giới từ (Giới từ chỉ vị trí, chỉ thời gian, …)
- Ngữ pháp về đại từ (Đại từ nhân xưng, đại từ sở hữu, …)
- Ngữ pháp về đại từ quan hệ (Who, which, when, …)
- Ngữ pháp về động từ nguyên mẫu
- Ngữ pháp về danh động từ
- Ngữ pháp về chia động từ số ít hay nhiều
- Ngữ pháp về so sánh (So sánh bằng, so sánh hơn, so sánh nhất)
- Ngữ pháp về danh từ
Còn với ngữ pháp phần 7 sẽ gồm 6 loại câu hỏi:
- Câu hỏi loại 1: Liên quan tới các câu hỏi về thông tin tổng quát hoặc thông tin quan trọng của đoạn văn Mục đích của những câu hỏi này là xác định ý tưởng, mục tiêu hoặc chủ đề quan chính được trình bày trong văn bản đã chọn Ví dụ: Chủ đề chính của đoạn văn? Mục đích chính của email này là gì ?
- Câu hỏi loại 2: Liên quan tới các câu hỏi hỏi về các chi tiết, lý do, hoặc tình huống cụ thể liên quan đến các sự kiện và vấn đề được đề cập trong một đoạn văn Mục đích của những câu hỏi này là kiểm tra mức độ đọc hiểu và toàn diện của người trả lời về nội dung văn bản Ví dụ: Trong trường hợp nào hành khách được cung cấp nước miễn phí? Hành khách cần làm gì để kích hoạt thẻ?
- Câu hỏi loại 3: Liên quan tới các câu hỏi về thông tin có hoặc không có trong đoạn văn Ví dụ: điều gì được đề cập về email công ty? Điều gì không được nhắc tới về Mr.bean?
- Câu hỏi loại 4: Liên quan tới các câu hỏi hỏi về những suy luận hoặc gợi ý được rút ra từ thông tin và bối cảnh được cung cấp trong văn Những câu hỏi này không yêu cầu nêu thông tin cụ thể trực tiếp trong văn bản nên yêu cầu người trả lời phải suy luận từ những hàm ý hoặc đoạn văn có liên quan Ví dụ: Thông báo có nhiều khả năng xuất hiện nhất ở đâu? Ông A có khả năng làm nghề gì? Vào mùa nào trong năm là mùa, thông báo rất có thể được viết?
- Câu hỏi loại 5: Liên quan tới các câu hỏi kiểm tra khả năng hiểu ý nghĩa của từ vựng cụ thể trong ngữ cảnh của một đoạn văn nhất định của người trả lời Câu hỏi sẽ tập trung vào một từ cụ thể xuất hiện trong đoạn văn, thường là một từ có nhiều nghĩa và sẽ yêu cầu người trả lời xác định nghĩa chính xác nhất của từ đó dựa trên cách sử dụng và ngữ cảnh của nó trong câu Ví dụ: Từ "status" trong đoạn 1, dòng 7, gần nghĩa nhất với, Từ "present" ở đoạn 1, dòng 3 có nghĩa gần nhất với, …
- Câu hỏi loại 6: Liên quan tới việc có sẵn một đoạn văn kèm theo đó là bốn vị trí 1, 2, 3, 4 Và từ một câu chỗ sẵn, nhiệm vụ của người trả lời là phải chọn một trong bốn vị trí mà thêm câu đó vào là hợp lý nhất Ví dụ: Câu sau đây thuộc về vị trí nào được đánh dấu [1], [2], [3] và [4]? “It will guide you through the steps to set up and personalize your account.” Câu sau đây thuộc về vị trí nào được đánh dấu [1], [2], [3] và [4]? “She has directed the plays Summer and Fall and Love and Other Adventures in the Snow.”, …
Như hình 3.2 thể hiện thì khối tạo sinh gồm 3 khối nhỏ cụ thể là khối tạo sinh cho phần 5, 6, 7 Vì ba này đều có hình thức câu hỏi khác nhau nên nhóm quyết định chia thành 3 khối nhỏ để giải quyết cho từng phần
Hình 3.2: Sơ đồ khối tạo sinh 3.3.1 Khối tạo sinh cho phần 5
Như hình 3.3 thì khối tạo sinh cho phần 5 sẽ gồm 2 phần là phần tạo câu hỏi và phần kiểm định câu hỏi Trong phần tạo câu hỏi thì nhóm sẽ bắt đầu với việc tạo câu dựa vào yêu cầu có trong Prompt, sau đó dựa vào câu đã tạo thì sẽ tiến hành bước tạo sinh câu hỏi điền khuyết kèm theo là 4 phương án lựa chọn và đáp án Sau đó để kiểm định lại thử câu đó có đúng hay không thì sẽ qua khâu kiểm định Ở khâu kiểm định này sẽ gồm có 2 bước Đầu tiên là kiểm tra xem liệu đáp án đưa ra có đúng hay không bằng cách thay ngược đáp án vào chỗ trống để mô hình kiểm tra nếu đúng thì sau đó là kiểm tra tiếp các phương án sai có thực sự sai hay không hay liệu rằng trong các phương sai có phương án phù hợp bằng cách thay ngược các phương án sai vào chỗ trống để mô hình đánh giá Nếu câu hỏi được tạo ra mà thỏa mãn đầy đủ tất cả các bước trong khâu kiểm định thì đó là câu hỏi đạt chuẩn còn nếu không qua được khâu kiểm định thì đó sẽ là các câu hỏi sai Ở đây, vì lý do không nhiều dữ liệu và không có phần cứng mạnh mẽ để có thể huấn luyện một mô hình ngôn ngữ lớn nên nhóm chỉ sử dụng mô hình tiền huấn luyện (pretrained) Vì nhiệm vụ ở phần này tập trung vào mức độ hiểu và tạo sinh văn bản bên cạnh đó phải là mã nguồn mã (open source) và chạy được trên máy tính cá nhân, máy local Để thỏa mãn được yêu cầu này thì hiện nay có nhiều mô hình, tác giả chỉ khảo sát ba mô hình được đánh giá là thuộc hàng tốt nhất hiện nay: Phi -3-medium, LlaMa3-70B-Intruction, Mixtral-8x7B Bảng 3.1 là bảng so sánh ba tiêu chính liên quan tới phần tạo sinh: kích thước, khả năng hiểu và thời gian tạo sinh
Hình 3.3: Sơ đồ bên trong khối tạo sinh phần 5
Như bảng 3.1 có thể thấy rằng khi so sánh về khả năng hiểu thì tuy Phi -3-medium chỉ có 14B tham số nhưng khả năng hiểu ngôn ngữ của nó đã gần với LLam3 -70B- instruction với tham số 70B (gấp 5 lần tham số của Phi-3-medium) và bỏ xa Mixtral- 8x7B về khả năng này dù tham số Mixtral-8x7B nhiều hơn gấp 3 lần Phi-3-medium Và khả năng này được đánh giá trên MMLU (Massive Multitask Language Understanding) nổi tiếng là một tiêu chuẩn mới được thiết kế để đo lường kiến thức thu nhận được trong quá trình tiền huấn luyện bằng cách đánh giá các mô hình chỉ trong các tình huống zero- shot và few-shot Điều này làm cho tiêu chuẩn trở nên thách thức hơn và giống với cách chúng ta đánh giá con người hơn Tiêu chuẩn này bao gồm 57 môn học trong các lĩnh vực STEM, nhân văn, khoa học xã hội, và nhiều lĩnh vực khác Mức độ khó dao động từ cấp tiểu học đến cấp chuyên nghiệp nâng cao, và nó kiểm tra cả kiến thức thế giới và khả năng giải quyết vấn đề Các môn học bao gồm từ các lĩnh vực truyền thống như toán học và lịch sử, đến các lĩnh vực chuyên sâu hơn như luật và đạo đức Độ chi tiết và phạm vi rộng của các môn học làm cho tiêu chuẩn này trở nên lý tưởng để xác định những điểm mù của một mô hình Cuối cùng thời gian thực thi thì Phi-3-medium cũng nhanh hơn hai mô hình còn lại Từ những so sánh đó nhóm quyết định chọn Medium là mô hình áp dụng cho hai Agent cho phần 5
Bảng 3.1: So sánh mức độ hiểu ngôn ngữ
Thời gian thực hiện (giây) 2 6 3.5
3.3.2 Khối tạo sinh cho phần 6
Cũng giống với khối tạo sinh ở phần 5 thì ở tạo sinh của phần 6 này nhóm cũng có
2 phần Đó là phần tạo câu hỏi và phần kiểm định câu hỏi Nhưng trong phần tạo câu hỏi thì lại khác với phần 5, cụ thể là nhóm sẽ bắt đầu với việc tạo ra 4 câu dựa vào yêu cầu và cùng một chủ đề, sau đó là kết hợp 4 câu này lại với nhau tạo nên 1 đoạn văn mạch lạc, tiếp đến là để xem 4 câu được tạo nằm ở đâu ở đoạn văn để sắp xếp lại theo thứ tự xuất hiện trong đoạn văn nên nhóm sẽ cho qua 2 bước là “tìm câu” và “sắp xếp lại câu” Cuối cùng trong phần tạo câu hỏi đó là dựa vào 4 câu đã tạo trước đó tiến hành tạo 4 câu hỏi dạng điền khuyết kèm theo phương án lựa chọn và đáp án đúng, cũng giống như khâu kiểm định ở phần 5 thì khâu kiểm định ở phần 6 cũng mới mục đích là xem 4 câu hỏi được tạo đã chuẩn chưa Một khi 4 câu đã đạt chuẩn thì nhóm tiến hành lấy 4 câu ở dạng điền khuyết đã tạo đó thay ngược lại vào đoạn văn để tạo nên đoạn văn điền vào chỗ trống sau đó kết hợp với các phương án đã tạo để tạo câu hỏi loại 6 cuối cùng
Hình 3.4: Sơ đồ bên trong của khối tạo sinh của phần 6
3.3.3 Khối tạo sinh cho phần 7
Trong phần này nhóm sẽ trình bày về khối tạo sinh cho phần 7 Không giống như khối tạo sinh của phần 5 và phần 6 Ở đây nhóm sử dụng LLM kết hợp với kỹ thuật RAG (Retrieve Augmented Generation) [27] Chi tiết về khối này được thể hiện trong hình 3.5 Khi yêu cầu được đưa vào thì đầu tiên cần kiểm tra xem trong yêu cầu có dạng câu hỏi loại 6 không, bởi vì câu hỏi loại 6 là loại câu hỏi khác với các câu hỏi còn lại nên nhóm quyết định tách riêng ra để giải quyết, sau đó mới kết hợp lại để cho ra định dạng giống đề thi Nếu có yêu cầu tạo câu hỏi dạng 6 thì sẽ chia hệ thống thành hai phần riêng biệt để xử lý Phần đầu sẽ xử lý phần dạng câu hỏi loại 6, trong khi phần hai sẽ tập trung xử lý các dạng câu hỏi còn lại Đối với các câu hỏi khác câu hỏi loại 6 thì từ Prompt trích xuất thông tin và ví dụ liên quan đến các dạng câu hỏi không phải dạng 6 sau đó đưa qua mô hình embeding để biến đổi chúng thành vector truy vấn nhúng (embeding query vector) Tiếp đến là các vector này sẽ được đưa vào cơ sở dữ liệu vector (Vector DB) để lưu trữ Cùng lúc đó đoạn văn mà người dùng đưa vào cũng qua mô hình embeding để tạo ra các vector nhúng rồi sau đó chúng cũng đưa nó vào Vector DB Sau khi đã đưa hết vào Vector DB thì vector DB sẽ tiếp hành truy vấn ra những thông tin và ngữ cảnh mà liên quan nhất với yêu cầu được đưa vào Những thông tin này sau đó sẽ được đưa vào LLM để thực hiện tạo sinh dựa theo những gì Vector DB cung cấp Còn đối với dạng câu hỏi loại 6 thì nhóm sẽ tiến hành trích xuất ngẫu nhiên một câu từ đoạn văn Câu này sẽ được sử dụng để đặt câu hỏi để hỏi vị trí thích hợp để đặt câu trong đoạn văn Sau đó, đoạn văn sẽ được viết lại, nhưng sẽ thiếu một câu so với đoạn văn gốc Cuối cùng kết hợp kết quả của hai phần lại với nhau tạo để tạo câu hỏi Nếu không có dạng câu hỏi dạng 6 thì chỉ thực hiện phần một, phần không chứa câu hỏi loại 6
Hình 3.5: Sơ đồ khối bên trong của khối tạo sinh cho phần 7
Vì lý do là khối tạo sinh không phải lúc nào cũng tạo ra định dạng đầu ra giống nhau, nên nhóm đã đề xuất thêm khối hậu xử lý này với mục đích xử lý đầu ra của khối tạo sinh về chung 1 định dạng đồng nhất để dễ xử lý Khối này sẽ gồm có 2 bước, đầu tiên là từ trong đầu ra của khối tạo sinh lấy ra được JSON chứa nội dung cần thiết, vì JSON đang ở đang ở dạng đối tượng chuỗi của Python nên phải chuyển sang đối tượng JSON để dễ thao tác và trích xuất thông tin
3.5 Xây dựng giao diện hệ thống
Nhóm thiết kế giao diện người dùng bằng cách sử dụng thư viện Python và Streamlit hỗ trợ cho phần giao tiếp với máy chủ Streamlit là công cụ được xây dựng với mục đích dành cho Machine Learning, hỗ trợ các kỹ sư tạo ra giao diện website để trình bày sản phẩm mà không cần sử dụng các ngôn ngữ khác ngoài Python Nhóm thực hiện xây dựng 2 giao diện bao gồm: Giao diện tạo sinh đề TOEIC và Giao diện thi thử đề TOEIC
3.5.1 Giao diện tạo sinh đề TOEIC
Giao diện tạo sinh đề TOEIC gồm 3 phần: phần 5, phần 6 và phần 7 Hình 3.6 là tổng quan giao diện, bắt đầu từ phần 5
Hình 3.6: Tổng quan giao diện tạo sinh đề TOEIC
Xây dựng giao diện hệ thống
Nhóm thiết kế giao diện người dùng bằng cách sử dụng thư viện Python và Streamlit hỗ trợ cho phần giao tiếp với máy chủ Streamlit là công cụ được xây dựng với mục đích dành cho Machine Learning, hỗ trợ các kỹ sư tạo ra giao diện website để trình bày sản phẩm mà không cần sử dụng các ngôn ngữ khác ngoài Python Nhóm thực hiện xây dựng 2 giao diện bao gồm: Giao diện tạo sinh đề TOEIC và Giao diện thi thử đề TOEIC
3.5.1 Giao diện tạo sinh đề TOEIC
Giao diện tạo sinh đề TOEIC gồm 3 phần: phần 5, phần 6 và phần 7 Hình 3.6 là tổng quan giao diện, bắt đầu từ phần 5
Hình 3.6: Tổng quan giao diện tạo sinh đề TOEIC
Giao diện trong hình 3.7 gồm có hai phần chính gồm: phần danh mục từng phần để tạo đề TOEIC và phần giao diện để người dùng tương tác Cuối phần danh mục là phần tạo sinh ra đề TOEIC Mở đầu của phần 5 sẽ có phần mô tả tổng quan và ví dụ một vài dạng câu hỏi thuộc phần này Phần mô tả trình bày tổng quan về nội dung, đặc điểm của từng phần Phần ví dụ gồm các câu hỏi thuộc phần đó và phần lựa chọn đáp án cho người sử dụng Hệ thống sẽ tự kiểm tra đáp án người dùng chọn để kiểm tra đúng hay sai Trong phần ví dụ sẽ có các câu hỏi theo định dạng trong phần 5, cho phép người dùng lựa chọn đáp án Khi ấn chọn đáp án hệ thống sẽ kiểm tra đáp án đó là đúng hay sai Nếu đáp án lựa chọn sai thì hệ thống sẽ hiển thị thông báo đáp án sai màu đỏ và đi kèm đáp án đúng Còn nếu đáp án đúng thì sẽ hiển thị thông báo màu xanh
Hình 3.7: Giao diện mô tả và ví dụ phần 5
Hình 3.8 thể hiện phần tiếp theo trong phần 5 dùng để tạo câu hỏi Các câu hỏi trong phần 5 sẽ thuộc chủ đề trong phạm vi 14 ngữ pháp Khi vào giao diện mỗi câu hỏi đã được lựa chọn ngẫu nhiên một loại ngữ pháp Người dùng có thể nhấn vào từng câu để đổi loại ngữ pháp mình mong muốn Sau khi lựa chọn thì câu được tạo ra sẽ sử dụng đúng loại lý thuyết đã chọn để sinh ra câu theo ngữ pháp đó
Hình 3.8: Giao diện phần tạo đề phần 5 từ câu 1 - 10
Tương tự với tạo 10 câu kế tiếp trong phần 5 ở 2 trang “Part 5: 11 -20” ở hình 3.9 và 10 câu cuối cùng trong phần 5 ở trang “Part 5: 21 – 30” ở hình 3.10
Hình 3.9: Giao diện phần tạo đề phần 5 từ câu 11 - 20
Hình 3.10: Giao diện phần tạo đề phần 5 từ câu 21 - 30
Giao diện như được thể hiện trong hình 3.9 và 3.10 tạo câu hỏi phần câu hỏi của
20 câu tiếp chỉ bao gồm phần tạo câu Mỗi câu hỏi cũng đã có sẵn phần lựa chọn loại ngữ pháp theo ngẫu nhiên Người tạo đề nếu muốn thay đổi loại ngữ pháp nào của câu nào có thể lựa chọn Sau khi lựa chọn xong loại ngữ pháp mong muốn với từng câu của phần 5 sẽ chuyển qua tạo phần 6
Hình 3.11: Giao diện mô tả và ví dụ phần 6
Hình 3.12: Kiểm tra đáp án cho phần ví dụ Phần 6
Mở đầu phần 6 cũng tương tự như phần 5 gồm phần mô tả về nội dung và ví dụ các câu hỏi trong phần 6 Phần 6 sẽ gồm 16 câu trải dài từ câu 31 đến câu 46, có 4 văn bản tương ứng với mỗi đoạn sẽ đi kèm với 4 câu hỏi lựa chọn Như trong phần ví dụ trên, đề sẽ cho một văn bản và đi kèm là những câu hỏi lựa chọn liên quan đến nội dung, thông tin mà văn bản cung cấp Phần tiếp theo sẽ là phần cho người dùng thực hiện tạo sinh đề
Hình 3.13 Giao diện tạo đề phần 6 Ở phần 6 như trong hình 3.13 này sẽ gồm 2 phần mà người dùng cần lựa chọn Đầu tiên là phần chủ đề của văn bản muốn tạo ra, ví dụ như trên ảnh chủ đề được chọn để tạo ra văn bản là “Family” Khi đó, đoạn văn được sinh ra sẽ thuộc về chủ đề
“Family” Chủ đề này sẽ không có sẵn để lựa chọn mà yêu cầu người tạo phải nhập vào Xác định được chủ đề văn bản xong, mỗi văn bản sẽ bao gồm 4 câu hỏi trắc nghiệm liên quan đến nội dung của đoạn văn Mỗi câu hỏi lựa chọn sẽ thuộc 1 trong 13 loại ngữ pháp giống phần 5 và đã được lựa chọn ngẫu nhiên trước đó Người tạo có thể tùy ý thay đổi loại ngữ pháp theo câu hỏi như hình 3.13.
Hình 3.14: Giao diện mô tả phần 7: Description
Hình 3.15: Giao diện ví dụ của phần 7: Description
Tại trang “Part 7: Description” sẽ là phần mô tả và ví dụ của phần 7 như hình 3.15 Phần 7 bao gồm 54 câu, trải dài từ câu 47 đến câu 100, gồm các văn bản và câu hỏi trắc nghiệm lựa chọn đi kèm Mỗi văn bản sẽ bao gồm 2 hoặc 3 câu hỏi như hình ví 3.15 Tuy nhiên, khác biệt của phần 7 là loại câu hỏi sẽ thuộc 1 trong 5 dạng định sẵn như hình 3.16 Ngoài ra, còn có một dạng đặc biệt dành cho những đoạn văn có ô trống thì câu hỏi sẽ cho các câu văn để điền vào chỗ trống
Hình 3.16: Giao diện tạo đề Phần 7
Hình 3.17: Giao diện người dùng nhập văn bản và lựa chọn loại câu hỏi Phần 7
Phần tạo đề phần 7 yêu cầu nhập văn bản và lựa chọn loại câu hỏi muốn tạo Mặc định sẽ có 5 loại câu hỏi, loại số 6 sẽ chỉ được lựa chọn khi văn bản truyền vào có ô trống Sau khi người dùng nhập văn bản vào nhấn “Enter” thì đoạn văn ra được hiển thị trên giao diện Tiếp đó là lựa chọn 1 trong 5 loại câu hỏi tùy ý như hình 3.17 Làm tương tự với trang “Part 7: 74-100”.
Hình 3.18: Thực hiện tạo sinh đề TOEIC
Sau khi hoàn thành tạo đề TOEIC từng trang theo thứ tự trên, người tạo thực hiện nhấn vào mục “Generate Toeic Test” như thể hiện trong hình 3.18 để hệ thống tạo sinh Đề TOEIC được sinh ra gồm phần 5, phần 6 và phần 7 trải dài từ câu 1 đến câu 100 Định dạng đầu ra gồm file JSON và file PDF
3.5.2 Giao diện thi thử đề TOEIC
Sau khi tạo sinh được đề TOEIC, giao diện thi thử đề TOEIC cũng được xây dựng sử dụng Streamlit như thể hiện trong hình 3.19 và hình 3.20 Giao diện gồm có 2 phần: Tải đề thi và thi thử
Hình 3.19: Giao diện thi thử đề TOEIC
Hình 3.20: Giao diện khi thực hiện thi thử đề TOEIC
Hình 3.21: Kết quả thi thử sau khi hoàn thành
Như được thể hiện trong hình 3.21, giao diện để thi thử bao gồm 2 phần: Phần tải đề thi lên và phần đề thi thử Hệ thống sẽ yêu cầu tải file thi thử lên, sau khi tải lên hệ thống sẽ xử lý và hiện đề thi lên phần thi dành cho người dùng Sau khi thực hiện làm hết đề, hệ thống sẽ thực hiện tính điểm Trong phần thi sẽ hiển thị câu hỏi và phần lựa chọn đáp án để kiểm tra Mỗi câu hỏi sẽ được kiểm tra tính chính xác của câu hỏi, và sau khi chọn xong các câu thì sẽ tính tổng điểm của bài Người dùng chỉ cần ấn nút
“Done” hệ thống sẽ tính điểm của cả bài.
KẾT QUẢ THỰC NGHIỆM
Tiêu chí đánh giá
Về định dạng theo chuẩn của một đề thi TOEIC do con người biên soạn:
- Dạng câu hỏi xuất hiện ở mỗi phần của đề thi
- Cách trình bày phần nội dung đọc, câu hỏi, phương án lựa chọn
- Loại câu hỏi và phạm vi kiến thức cần sử dụng ứng với mỗi phần
Về nội dung câu hỏi được sinh ra phải đáp ứng được:
- Đúng ngữ pháp tiếng anh
- Phải có đáp án trả lời đúng
- Độ chính xác của đáp án đưa ra của hệ thống
- Nội dung câu hỏi sinh ra liên quan tới phần bài đọc (nếu có)
Về phần giao diện thi thử:
- Giao diện dễ sử dụng, không xuất hiện các lỗi về hiển thị
- Khả năng chạy trên các máy tính cá nhân laptop, pc
Môi trường thử nghiệm
Hệ thống tạo sinh đề thi sẽ được xây dựng bằng ngôn ngữ lập trình Python cùng với thư viện OLlaMa, Autogen, LlaMaindex và chạy trực tiếp trên phần cứng của nhóm (CPU Xeon - GPU A100 40G) như được thể hiện trong Hình 4.1 Phần giao diện Web thi thử sẽ được viết bằng thư viện Streamlit của Python Có thể chạy trên bất kỳ cấu hình máy tính cá nhân nào
Hình 4.1: Cấu hình của GPU A100 40G
Quy trình thực nghiệm
4.3.1 Thực nghiệm để lựa chọn mô hình LLM
Với cùng một bộ yêu cầu về ngữ pháp giống nhau, lần lượt sử dụng 3 LLM là Phi3 14B , LlaMa3 70B, Mixtral8x-7b đề sinh ra bộ 30 câu hỏi, câu trả lời, và đáp án chính xác Sau đó, giáo viên tiếng anh sẽ đánh giá về độ chính xác của phần định dạng cũng như nội dung được sinh ra Ở đây chúng tôi sẽ mời một giáo viên tiếng anh có kinh nghiệm về luyện thi TOEIC để đánh giá một cách chính xác và đầy đủ nhất Cấu trúc ngữ pháp được sử dụng để tạo ra bộ đánh giá bao gồm:
- 10 câu hỏi với ngữ pháp về tính từ : after to be, after adverb, before noun
- 10 câu hỏi với ngữ pháp về danh từ, động từ : subject, complements, after verb, after verbs 1, after verbs 2
- 10 câu hỏi với ngữ pháp về các thì: future perfect tense, future continuous tense, simple future tense, past continuous tense, the past simple tense, past perfect continuous tense, present continuous tense
Mô hình được lựa chọn sẽ phải đáp ứng các tiêu chí về định dạng, nội dung, cũng như tính ổn định cho các bộ câu hỏi được sinh ra Phản hồi của giáo viên sẽ được ghi nhận và lưu trữ vào các file Excel Bảng 4.1 là bảng tóm tắt kết quả phản hồi của giáo viên Theo như kết quả phản hồi này thì mô hình Phi3 14B là mô hình có kết quả tốt nhất trên các tiêu chí và loại ngữ pháp
Bảng 4.1: Bảng đánh giá của người có chuyên môn trên ba ngữ pháp
Loại ngữ pháp Mô hình Định dạng Nội dung
Danh từ, Động từ Phi3 14B 10/10 9/10
4.3.2 Thực nghiệm đánh giá đề thi do hệ thống sinh ra
Khảo sát được thực hiện trên 20 người bao gồm học sinh, sinh viên, người đi làm Những người này đều đã từng thi TOIEC và biết số điểm phần Reading thực tế của mình là bao nhiêu Tuy nhiên, do số điểm ở mỗi câu của đề thi TOEIC cũng như ở mỗi đề là khác nhau nên chúng tôi tạm thời chia đều số điểm ở các câu là 5/500 điểm từ đó quy ra số câu đúng của mỗi người Ví dụ: người 1 thi được 375/500 điểm sẽ được quy ra 75/100 câu đúng Những người này sẽ được thi đề thi phần Reading do h ệ thống AI của chúng tôi tạo ra trong thời gian là 75 phút, kết quả và đánh giá của mỗi người sẽ được ghi nhận lại
Khảo sát sẽ bao gồm:
Họ và tên: Họ và tên đầy đủ của người tham gia khảo sát
Email: Email cá nhân Điểm (IIG): Số điểm TOEIC phần Reading của người khảo sát khi thi đề thi do nhân viên của IIG biên soạn
Số câu đúng (IIG): Số câu đúng được quy đổi từ số điểm khi thi thật tại IIG
Số câu đúng (AI) : Tổng số câu đúng khi thi đề thi do hệ thống AI của chúng tôi tạo ra
Phần 5 : Số câu làm đúng ở phần 5 của đề thi TOEIC do hệ thống tạo ra
Phần 6 : Số câu làm đúng ở phần 5 của đề thi TOEIC do hệ thống tạo ra
Phần 7 : Số câu làm đúng ở phần 5 của đề thi TOEIC do hệ thống tạo ra
Nhận xét về form (1-10): Nhận xét của người tham gia khảo sát về định dạng của đề thi của hệ thống tạo ra so với đề thi thật của IIG , mức độ đánh giá trên thang 1-10
Nhận xét về tổng quan (1-10): Nhận xét về nội dung của các câu hỏi sinh khi so sánh với đề thi thật ra ví du: câu hỏi sinh ra có hợp lý, có đáp án lựa chọn đúng, mức độ khó dễ Người khảo sát sẽ cho đánh giá từ 1-10 về cảm nhận của minh
Số câu sai: Trong qua trình làm người dùng có thể gặp các câu hỏi mà họ cho rằng không có đáp án trả lời chính xác, sai ngữ pháp tiếng anh hoặc nội dung câu hỏi không phù hợp với với đề bài Họ sẽ cho biết số lượng câu hỏi mà họ cho là sai
Từ các kết quả được ghi nhận ở Bảng 4.2 và Hình 4.2, ta thấy không có sự khác biệt lớn về số câu làm được khi làm đề thi do nhân viên IIG tạo ra và khi làm đề thi do hệ thống AI của chúng tôi tạo ra (số câu đúng trung bình lần lượt là 73 và 75) Ngoài ra đề thi do hệ thống tạo ra vẫn dễ hơn đề thi do con người sinh ra một ít (khoảng 10%) Cấu trúc đề thi được tạo ra ở mức chấp nhận được (7.4/10) Bên cạnh đó, cũng từ kết quả trong Bảng 4.2, hay được thể hiện trực quan hơn ở Hình 4.3, n ội dung đề được sinh ra cũng được đánh giá ở mức 7.5 tức là đã khá sát với đề thi do con người tạo ra Ngoài ra theo ý kiến đánh giá của người khảo sát thì tại phần 5 và phần 6 đề thi dễ hơn so với đề thi thật Nhưng ở phần 7 đề thi lại khó hơn và cần nhiều thời gian hơn để làm cho phần này
Bảng 4.2: Bảng so sánh điểm số của sinh viên khi làm đề do AI tạo ra với đề tại IIG
Họ và tên Điểm (IIG)
Nhận xét về tổng quan (1-10)
Từ Hà Phúc 415 84 88 29 16 43 6 8 1 Đỗ Thái
Hình 4.2: Biểu đồ số câu đúng khi làm của đề thi hệ thống AI với đề tại IIG
Hình 4.3: Biểu đồ đánh giá về chất lượng đề thi do AI tạo với đề tại IIG