1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Tăng cường dữ liệu tương đồng cho phân loại câu hỏi tiếng Việt

78 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tăng cường dữ liệu tương đồng cho phân loại câu hỏi tiếng Việt
Tác giả Nguyen Quang Sang, Vo Dinh Thuc
Người hướng dẫn TS. Nguyen Luu Thuy Ngon, Ths. Nguyen Van Kiet
Trường học Trường Đại Học Công Nghệ Thông Tin - Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Khóa Luận Tốt Nghiệp
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 78
Dung lượng 27,79 MB

Nội dung

Trong dé tai khóa luan nay, chúng tôi tập trung vào nghiên cứu các phương pháp tăng cường dữ liệu va xây dựng mô hình diễn giải câu hỏi tiếng Việt.. Đối với ngôn ngữ Tiếng Việt các kỹ th

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

NGUYEN QUANG SANG - 19522122

VO ĐÌNH THỤC - 19522322

KHÓA LUẬN TÓT NGHIỆP

TĂNG CƯỜNG DỮ LIỆU TƯƠNG ĐÒNG

CHO PHAN LOẠI CÂU HOI TIENG VIỆT

Data augmentation for Vietnamese question classification

CU NHAN NGANH CONG NGHE THONG TIN

DINH HUONG NHAT BAN

GIANG VIEN HUONG DAN

TS Nguyễn Luu Thùy Ngân

Ths Nguyễn Văn Kiệt

TP HO CHÍ MINH, 2023

Trang 2

LOI CAM ON

Sau quá trình học tập và làm việc một thời gian dai cũng như tiếp thu va rèn luyện

tại trường Dai hoc Công nghệ Thông tin — Đại học Quốc gia thành phố Hồ Chí Minh, đây là lúc mà những kỹ năng, kiến thức, kinh nghiệm của chúng tôi được áp dụng cho công việc thực tế.

Trước hết, chúng tôi xin được gửi lời cảm ơn và biết ơn sâu sắc đến TS Nguyễn

Luu Thùy Ngân và Ths Nguyễn Văn Kiệt — khoa Khoa học và Kỹ thuật Thông tin

— trường Đại học Công nghệ Thông tin — Đại học Quốc gia thành phó Hồ Chí Minh,

đã giúp đỡ tận tình, hỗ trợ và đưa ra ý tưởng cho chúng tôi trong quá trình học tập,

hướng nghiên cứu khoa học và thực hiện bài khóa luận này.

Chúng tôi cũng muốn được gửi lời cảm ơn chân thành đến toàn thể các thầy cô

trường Đại học Công nghệ Thông tin và khoa Khoa học và Kỹ thuật Thông tin —

Đại học Quốc gia thành phố Hồ Chí Minh Các thầy cô đã giảng day và cho chúng

tôi điều kiện giảng dạy tốt nhất Nhờ những kiến thức và kinh nghiệm mà chúng tôi

tiếp thu được sẽ là bước tiễn vững chắc cho con đường sự nghiệp trong tương lai.

Sau cùng, chúng tôi xin được gửi lời cảm ơn đến gia đình, bạn bè và đặc biệt là các bạn học cùng lớp CNCL2019, đã giúp đỡ, động viên lẫn nhau trong quá trình học

tập, đây là nguồn động lực tỉnh thần và nguồn cô vũ to lớn đã giúp tôi hoàn thành

một cách tốt nhất cho bài khóa luận này.

Chúng tôi đã dành hét tâm huyết và cố gắng hoàn thành bài khóa luận này một cách tốt nhất trong khả năng của chúng tôi Những thiếu sót không đáng có là điều khó

tránh khỏi Chúng tôi rất hy vọng mình có thể nhận được sự cảm thông và giúp đỡ

của quý thầy cô và bạn bè, dé bài khóa luận này có thé đi đến một kết quả tốt nhất.Đây sẽ là thành quả dé chúng tôi có kiến thức và động lực dé làm tốt việc

nghiên cứu, phát triển trau dồi thêm kiến thức sau này.

Trang 3

2.1 Phân tích và đánh giá các hướng nghiên cứu trước

đó -2.1.1 Phương pháp sinh câu -.eeeeerirrrrearoroue

2.1.2 Phân loại câu hỏi

2.2 Những van đề còn tôn tại -.s-eeeceseeeereereereeterrererrerrerrerreroe.Ô

2.3 Những nội dung nghiên Cứu eeccceeeeceeeeeeeeeeeeeeeeesesesesesssrsraosrooor O

Chương 3 NGHIÊN CỨU LÝ THUYẾT VÀ PHƯƠNG PHÁP THỰC NGHIỆM 7

3.1 Mô tả các phương pháp -cccccccccccrrrrrreerereetrtrrrirrirrrrrrrtrrrrrrrrrrrrroree 7

3.1.1 Các phương pháp EDA -.eeeeekekeiiiiiiiiiiiiiiiiiiiiiiiiri 7

3.1.1.1 RD (Random Deletion) wees 3.1.1.2 RS (Random SwWap) -ceekekiieerrieeiiiiiirrriiiirirrsersrse, 3.1.1.3 RI (Random Insertion)

3.1.1.4 SR (Synonym Replacement)

3.1.2 Phương pháp diễn giải câu hỏi (QP) ssssssseessnesnesneieenetnetnenetetaeee 12

3.1.3 Phương pháp dịch ngược (BT) - eeeeeeeeeeeeeeeere e LO

3.2 Các mô hình phân loại sử dụng eeeeeereerrreaearue LA

3.2.1 Mô hình KNN eiiirrirareseuo LA 3.2.2 Mô hình Naive Bayes - eo LA 3.2.3 Mô hình SVM eo LD 3.2.4 Mô hình Logistic Regression LD

Trang 4

3.2.5 Mô hình LSTM eeeeeeeeerrrrrreerrrerrrrrrrrrrrer LO 3.2.6 Mô hình BiLSTM ee-cirrieeeeeeerrrrrrrrrereeeeeore LO 3.2.7 Mô hình CNN eeeeeeeeerrrrrrrrrrrrrrrrrrrrrreeoeore LO 3.2.8 Mô hình PhoBERT -eeserreeeeeeeerrrrrrrrrrrmrereerer | 7

3.3 Các phương pháp đánh giá -. -ceceeriirriirie L 7

3.3.1.1 Độ đo BLEU seeeeeeeeeserereerrsser LT

3.3.1.2 Độ do FI

Chương 4 XÂY DỰNG DỮ LIEU wssssssssssnesnsssesssnessussussiesusstiasnanistuseasssensenees LO

AA Bộ dữ liệu ViQP s-seeeereereerrererererrereeee TỔ

4.2 — Bộ dữ liệu ViTREC

Chương 5 XÂY DỰNG MÔ HÌNH DIỄN GIẢI CÂU HỎI 42

5.1 Mô hình đề xuất

5.2 Mô tả bài toán eseereeereereererererereereeeeee 3

5.3 _ Tiền xử lý dữ liệu seo 3

54 Huấn luyện mô hình «ecevveeeeeeeersrrirrrseeorue 4D)

Chương 6 THU NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 48

6.1 — Kết qua thử nghiệm -eeeeeerreererereoo 4B

6.1.1 Thử nghiệm 1.

6.1.2 Thử nghiệm 2 eeerrriieeerertrtrrriiiinniiiiirriiriinnaoses OD

6.1.2.1 Phan loại nhãn COARSE

6.1.2.2 Phân loại nhãn FINE

Trang 5

1.2 Uy 0 -4).,), ,, H)H)),HH,.,.,,

73 Nhược bò H

Chương 8 HƯỚNG PHAT TRIỂN -222t2teEttztrrerrirrrrre

65 66 67

Trang 6

DANH MỤC HÌNH

Hình 3.1: Phương pháp RD

Hình 3.2: Ví dụ cách hoạt động của RD -c-c2rrrrrrrrrtrrrrrrrrrrrrrrrrrie Hình 3.3: Phương pháp RS -: - sec, Hình 3.4: Ví dụ cách hoạt động của RS . -.scseseerierriiiiiiiriiriiiiiirrrie Hình 3.5: Phương pháp RÌ -. -22c2ccczEckrkrErtrErkrriiiiiiiiiiiiiiiiiiriiirir Hình 3.6: Ví dụ cách hoạt động của RÌ cce.vvseeeieerkrtiiirirrirriiiiirrie Hình 3.7: Phương pháp SR -ccccccsccrrrrrrtrtrtririiiiiiiiiiiiiiiiiiirrirrrrer Hình 3.8: Ví dụ cách hoạt động của RÌ -:::++++++*tEteEEEEtEtEirEririririe Hình 3.9: Phương pháp QP u.sssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssesssssssssessnsesssssssssssssssessseseete Hình 3.10: Phương pháp BT -:-++*1212172217.7.7.7 de Hình 3.11: Ví dụ cách hoạt động của BÍT -:©+EEEE1E.,1E.E.E.mrrrie Hình 4.1: Quy trình xây dựng bộ dữ liệu ViQP e-cccccceeeeerrrrer Hình 4.2: Ví dụ về mẫu huấn luyện trong bộ dữ liệu Hình 4.3: Phân loại câu hỏi theo chuẩn TREC

Hình 5.1: Kiến trúc mô hình VïTS5 -.-.stetetretrerrerrrrrrtrrrerrrrre Hình 5.2: Phương pháp QP

Hình 5.3:Cấu trúc dữ liệu cho một mẫu dữ liệu huấn luyện .

Hình 5.4: Ví dụ về dữ liệu trong bộ dữ liệu ViQP s sexee Hình 5.5: Ví dụ về cách tạo cặp câu

Hình 5.6: Ví du 1 về cách hoạt động của mô hình ViTS

(QP) -Hình 5.7: Ví dụ 2 về cách hoạt động của mô hình ViT5 (QP)

Hình 6.1: Biểu đồ sự phụ thuộc vào alpha của các phương pháp EDA

Hình 6.2: Biểu đồ đánh giá chung các phương pháp tăng cường

Hình 6.3: Tác động của QP đối với nhãn COARSE

(Accuracy) -.-Hình 6.4: Tác động của QP đối với nhãn COARSE (FI) -i ececereee Hình 6.5: Tác động QP đối với nhãn FINE (Á CCUTACY) ii

Hình 6.6: Tác động của QP đối với nhãn FINE (F1)

RoR i¬BwWN PR CC © © ®& ©

uur? BR BB BR RN NYEuP ON N ƠI CĐ SF WN FSF CO YO

Trang 7

Hình 6.7: Lỗi diễn giải câu hỏi I -cecceeeeeeeereeereeersereerreererer OL

Hình 6.8: Lỗi diễn giải câu hỏi 2 -csscceeeeieereeereerrrsrrsersrresrosecu, OD

Hình 6.9: Lỗi diễn giải câu hỏi 3 -sscsreeeeeeereerreerrerrrerreeroeeooeoov OZ Hình 6.10: Lỗi phân loại câu hỏi dài e seeeereeeeeereereereerreeeov OD

Hình 6.11: Lỗi phân loại câu hỏi đa nghĩa s.ieerceereeeresesee.ee OD

Hình 6.12: Lỗi phân loại câu hỏi sai nghĩa .s-ceereeeeeeeeeereeeeeeeov OD

Hình 6.13: Lỗi phân loại câu hỏi có nhiều cách hiều

Trang 8

Bang 4.1:

Bang 4.2:

Bang 4.3:

Bang 4.4:

Bang 4.5:

Bang 4.6:

Bang 5.1:

Bang 6.1:

Bang 6.2:

Bang 6.3:

Accuracy

Bang 6.4:

DANH MUC BANG

Phân bố các câu hỏi trong bộ đữ liệu VIQP -c cc-reerreerriee 20

Thống kê số lượng các loại câu hỏi tính theo nhãn thô 21

Thống kê số lượng các loại câu hỏi tính theo nhãn mịn 21

Bảng phân loại câu hỏi theo TREC . e cc<cscserxerrrerererrrrrre 25 Phân bồ các nhãn thô trong bộ dữ liệu VITFREC c-+ 39 Phân bồ các nhãn mịn trong bộ dif liệu VïTREC - 39

Kết quả huấn luyện mô hình VïT5 trên bộ dữ liệu ViQP 45

Kết quả đánh giá đầu ra phương pháp tăng cường dit liệu 48

Đánh giá các mô hình khi huấn luyện thông thường 52

Đánh giá các mô hình huấn luyện có sử dụng QP, tính theo độ đo (nhãn COARSEE) c- HH HH HH HH này 54 Đánh giá các mô hình huấn luyện có sử dụng QP, tính theo độ đo F1 (mh&in COARSE) nh 54

Trang 9

DANH MỤC TỪ VIET TAT

Từ viết tắt Y nghia

EDA Easy Data Augmentation

TREC Text Retrieval Conference

Trang 10

TOM TAT KHÓA LUẬN

Việc tăng cường dữ liệu dé sử dụng cho một nghiên cứu nào đó là đề tài rat đáng

được mong đợi Bởi vì dit liệu chính là cái quan trọng, là thứ cốt lõi dé giải quyết

được một bài toán khoa học, hay vấn đề trong cuộc song Trong dé tai khóa luan

nay, chúng tôi tập trung vào nghiên cứu các phương pháp tăng cường dữ liệu va xây

dựng mô hình diễn giải câu hỏi tiếng Việt

Dựa trên nguyên tắc xây dựng bộ dữ liệu TREC-QC (Text Retrieval

Conference), chúng tôi tạo nên 2 bộ dữ liệu là ViQP (dùng cho diễn giải câu hỏi) và

ViTREC (dùng cho phân loại câu hỏi) Về ViQP, đây là bộ dữ liệu gồm 13411 câuhỏi, có thể tạo thành 56068 cặp câu, đây là bộ dữ liệu đầu tiên và lớn nhất về diễn

giải câu hỏi trong Tiếng Việt Về ViTREC, gồm 6 nhãn thé (coarse) và 50 nhãn mịn(fine), đây là bộ dữ liệu được xây dựng dựa trên lý thuyết của bộ dữ liệu TREC-QC

(Tiếng Anh) trong Tiếng Việt

Sau khi có được dit liệu chúng tôi tiến hành, xây dựng phương pháp diễn giảicâu hỏi cho Tiếng Việt (QP) Kết quả thử nghiệm trên tập kiểm thử của bộ đữ liệuViQP cho thay đầu ra của phương pháp này gần với cách đặt câu hỏi của con ngườinhất khi cùng so sánh với các phương pháp dịch ngược của Bing, Google hay

phương pháp diễn giải của ChatGPT.

Dé khai thác tiềm năng của phương pháp diễn giải câu hỏi (QP) chúng tôi tiếnhành so sánh kết quả của các mô hình như Naive Bayes, Logistic Regression, SVM,KNN, LSTM, BiLSTM, CNN, PhoBERT, khi huấn luyện thông thường vả saukhi đã được huấn luyện trên tap dit liệu tăng cường Ở bài toán phân loại nhãn thô,kết quả tốt nhất ở mô hình PhoBERT với độ đo Accuracy đạt 90.5 và độ đo F1 đạt

90 Ở bài toán phân loại nhãn mịn, mặc dù kết quả tốt nhất thuộc về mô hình SVMvới độ do Accuracy đạt 77.6 và độ đo F1 đạt 77.05 sau khi tang cường, nhưng nếu

thống kê theo độ đo Accuracy, biên độ tăng nằm trong khoảng 0.5 đến 5.8, thống kê

theo độ do Fl, biên độ tăng năm trong khoảng 0.2 đến 16.46, điều này cho thấy

phương pháp diễn giải đã có tác động rất nhiều trong bài toán này

Trang 11

Kết qua cho thấy tiềm năng cửa phương pháp diễn giải dit liệu có thé giúp cải

thiện độ chính xác của mô hình phân loại Tuy nhiên tiềm năng của phương pháp

này không dừng lại ở đó mà còn có ích đối với các bài toán có thành phần là câu hỏi

ở ngôn ngữ Tiếng Việt

Trang 12

Chương 1 MỞ ĐẦU

1.1 Lý do chọn đề tài

Kỹ thuật tăng cường dữ liệu được sử dụng để mở rộng kích thước của tập huấn

luyện bằng cách tạo sinh thêm nhiều dữ liệu mới từ dữ liệu ban đầu Bằng cách tăng kích thước tập huấn luyện, các mô hình phân loại có thé cải thiện và tăng độ chính xác Tăng cường dữ liệu giúp khắc phục các sự cố như thiếu dit liệu, overfitting và

giúp mô hình có thé xử lý các mẫu dữ liệu khác nhau một cách hiệu quả hơn Đối

với ngôn ngữ Tiếng Việt các kỹ thuật này vẫn còn nhiều hạn chế, còn nếu nhắc tới phạm vi nhỏ hơn là tăng cường dữ liệu câu hỏi thì lại càng ít ỏi hơn Chính vì thế

chúng tôi lựa chọn dé tài này với mục tiêu đóng góp bộ dữ liệu diễn giải câu hỏi và

xây dựng một phương pháp tăng cường dữ liệu câu hỏi cho Tiếng Việt.

1.2 Mục đích

Thông qua phương pháp tạo ra các câu hỏi tương đồng dựa trên phương pháp tăng cường dữ liệu tự động Mô hình sau khi được huấn luyện trên bộ dữ liệu được tăng

cường có thể phân loại được các câu hỏi tương tự với độ chính xác cao hơn so với

việc huấn luyện bằng bộ dữ liệu thông thường.

1.3 Đối tượng nghiên cứu

Đối tượng chính được hướng đến trong khóa luận này là phương pháp tăng cường

dữ liệu câu hỏi tương đồng và sự tác động của nó đối với mô hình phân loại Vì thế chúng tôi tiến hành nghiên cứu phương pháp sinh câu tự động Huan luyện các mô hình học máy và học sâu đề đánh giá hiệu suất của các phương pháp này.

1.4 Phạm vi nghiên cứu

Để so sánh một cách khách quan sự tác động của các phương pháp cường dữ liệu đối với mô hình phân loại, chúng tôi tiến hành thử nghiệm trên các mô hình học

máy và các mô hình học sâu kết hợp với việc sử dụng các phương pháp sinh câu tự

động như: EDA, Back translation, Question Paraphrasing.,

Trang 13

Chương2 TONG QUAN

2.1 Phân tích và đánh gia các hướng nghiên cứu trước đó

2.1.1 Phuong pháp sinh câu

Trong nghiên cứu của trước đó của Jason Wei va Kai Zou [1], họ trình bày phương

pháp sinh câu tự động có tên là EDA, trong đó có đề cập đến 4 phương pháp tăng

cường dữ liệu RD (Random Delete), RI (Random Insert), RS (Random Swap), SR

(Symnonym Replace) Hau hết được áp dụng trên bộ dữ liệu bằng tiếng Anh Sử

dụng các mô hình phân loại để đánh giá trực quan về dữ liệu như: RNN, RNN, CNN Độ chính xác F1 từ phương pháp sinh câu bằng EDA đạt được trung

LSTM-bình khoảng 88.6%.

Tuy nhiên, nhóm nghiên cứu nhận thấy rằng việc áp dụng EDA cần cân nhắc kỹ

lưỡng để tránh tạo ra những câu vô nghĩa hoặc mâu thuẫn Điều này đặc biệt quan trọng đối với các bộ dữ liệu chuyên ngành đòi hỏi sự chính xác và ngữ cảnh rõ ràng.

Tổng kết lại, phương pháp sinh câu tự động EDA đã được chứng minh là một công

cụ mạnh mẽ trong việc tăng cường dữ liệu và cải thiện hiệu suất phân loại Nhóm nghiên cứu đề xuất tiếp tục nghiên cứu và ứng dụng EDA trên các bộ dữ liệu đa

ngôn ngữ và chuyên ngành, với hy vọng mang lại những tiến bộ đáng kể trong lĩnh vực này.

Trong nghiên cứu của Marzieh Fadaee và cộng sự [2] có đề cập đến việc xác định các từ khó và lấy mẫu chúng, với mục tiêu là tăng số lần xuất hiện của những từ

này, đồng thời xác định các ngữ cảnh mà những từ khó này có mặt để dự đoán

chúng, sau đó lấy các câu mẫu tương tự nằm trong các ngữ cảnh khó khác Với việc lấy mẫu câu có mục tiêu để dịch ngược, bài báo có đề cập đến số điểm BLEU đạt

được lên tới 1,7 điểm so với dịch ngược bằng cách sử dụng lấy mẫu ngẫu nhiên.

Trong nghiên cứu của Quentin và cộng sự [3], trình bày mộ phương pháp mới để cải thiện chất lượng của các câu hỏi trong hệ thống hỏi đáp theo dạng đối thoại

(CQA) Trong phương pháp này, các câu hỏi gốc từ CoQA được chú thích với ít

Trang 14

nhất hai đến ba sự viết lại ngữ cảnh khác nhau Điều này dẫn đến tổng cộng 4,1 nghìn cuộc trò chuyện được chú thích trong tập huấn luyện CoQA và tất cả 500 cuộc trò chuyện trong tập phát triển Sau khi tổng hợp sé lượng chú thích, tập huấn luyện và tập phát triển của CoQAR bao gồm 45 nghìn và 8 nghìn câu hỏi Để huấn

luyện các mô hình CoQAR và Quora Question Pairs (QQP), các tác giả đã trích

xuất các cặp từ các tập dữ liệu CoQAR va QQP Vì các câu hỏi gốc trong CoQAR

đôi khi chứa những cách diễn đạt không phù hợp với ngữ cảnh, các cặp được xây

dựng bằng cách liên kết những cách diễn đạt lại của cùng một câu hỏi gốc Sau khi được huấn luyện trên các cặp trích xuất, mô hình BART đạt điểm cao nhất là 73,7

điểm cho tập CoQAR Trong nghiên cứu này nhóm nghiên cứu cũng nêu rõ 2

phương pháp tăng cường dữ liệu câu hỏi đó là QP (Question Paraphrasing) và QR (Question Rewriting).

Trong Tiếng Việt, sử dụng phương pháp QR, có nghiên cứu của Vu Nguyen và cộng sự [5], các tác giả đánh giá các hệ thống tạo câu hỏi tiên tiến trên hai tập dữ

liệu tiếng Việt thử nghiệm: UIT-ViQuAD [4] và UIT-ViNewsQA [5] Họ tiến hành

thử nghiệm với các mô hình học sâu và sử dụng thông tin ngữ cảnh và câu trả lời để

tạo câu hỏi Bên cạnh đó, họ tích hợp hai mô hình ngôn ngữ mạnh, PhoBERT và

mT5, và sử dung học tăng cường trong quá trình giải mã dé cải thiện hiệu suất Các

thử nghiệm cho thay mô hình tốt nhất của họ đạt điểm BLEU-4 là 20,43 trên

UIT-ViQuAD và 19,77 trên UIT-ViNewsQA, chứng tỏ tính hiệu qua của phương pháp

đề xuất trong việc tạo câu hỏi tiếng Việt.

2.1.2 Phan loại câu hỏi

Phân loại câu hỏi theo TREC là quá trình gán nhãn cho các câu hỏi dé xác định chủ

đề, loại câu hỏi, và mục đích của câu hỏi Trong các nghiên cứu về TREC đã được

thực hiện từ trước, có các nghiên cứu [4] [5] được thực hiện trên ngôn ngữ Tiếng

Việt Ví dụ đối với nghiên cứu [4], nhóm tác giả đã sử dụng phương pháp dịch thuật

để dịch bộ dữ liệu TREC (Tiếng Anh) sang Tiếng Việt, thử nghiệm kết quả trên bộ

dữ liệu khá cao, đạt 94% với nhãn thô (Coarse) và 85% đối với nhãn mịn

Trang 15

Fine).Trong một nghiên cứu khác [5], nhóm tác giả thu thập dữ liệu từ các chương

trình truyền hình như “Ai là triệu phú”, “Đường lên đỉnh Olympia”, để xây dựng

bộ dữ liệu Kết quả thử nghiệm cho thấy đạt được độ chính xác 85,4 đối với nhãn thô và 70,2% đối với nhãn mịn.

2.2 Những vấn đề còn tồn tại

Cách cấu thành câu hỏi trong Tiếng Việt được biết đến là đa dạng và phức tạp hơn

các ngôn ngữ khác và Tiếng Việt cũng có dang câu hỏi: Cái gì (What), Lúc nào

(When), Nơi nào (Where), Người nào (Who), Cái nào (Which), Như thế nào (How) Với mỗi loại câu hỏi lại có nhiều cách hỏi khác nhau, ví dụ như đối với kiểu câu Why thì có các cách như sao: "Vì sao?", "Tại sao", "Vì lý do gì" , Tuy Tiếng Việt

rất đa dạng nhưng các nguồn tài liệu có liên quan đến tăng cường dữ liệu trong

Tiếng Việt còn khá ít, đối với tăng cường dữ liệu câu hỏi tiếng Việt lại càng hiếm.

Điều này tạo ra một thách thức trong việc nghiên cứu và phát triển các phương pháp

tang cường dữ liệu cho câu hỏi Tiếng Việt Đề khắc phục tình trạng này, cần có sự đầu tư và nỗ lực trong việc thu thập dữ liệu và xây dựng tài liệu nguồn phong phú

dé thúc day nghiên cứu về tăng cường dữ liệu câu hỏi Tiếng Việt.

2.3 Những nội dung nghiên cứu

Ở đề tài này, chúng tôi tập trung nghiên cứu về những vấn đề cốt lõi sau:

¢ Phuong pháp sinh câu hỏi và đánh giá đầu ra.

e _ Xây dựng phương pháp diễn giải câu hỏi QP (Question Paraphrasing).

e So sánh phương pháp QP với các kỹ thuật tăng cường dữ liệu hiện có như

EDA, BT, ChatGPT,

© Ung dụng diễn giải câu hỏi vào mô hình phân loại.

Trang 16

Chương 3 NGHIÊN CỨU LÝ THUYET VÀ PHƯƠNG PHAP THỰC

e Thay đổi từ loại tir (SR - Synonym Replacement): thay đôi một từ bằng một

từ khác có nghĩa tương đương.

© Ngau nhiên xoá từ (RD - Random Deletion): xoá ngẫu nhiên một sé từ trong

câu.

e = Ngẫu nhiên c èn từ (RI - Random Insertion): chèn một từ mới vào vị trí ngẫu

nhiên trong câu.

e Ngẫu nhiên thay thế từ trong câu (RS - Random Swapping): hoán đổi vị trí

hai từ trong câu.

Phương pháp EDA có những đặc điểm sau:

- Đầu vào (InpuÐ: C âu hỏi, số câu tăng cường (n), tỉ lệ biến đổi (alpha).

- Đầu ra (Output): Gồm n câu hỏi được biến đồi theo ngẫu nhiên bằng phép biến đổi với một tỉ lệ alpha.

Trang 17

3.1.1.1 RD (Random Deletion)

| Câu hỏi gốc — RD: Xóa từ ngẫu nhiên + Câu hỏi tang cường

RD———>_ Tại sao có câu hỏi A?

Tại sao lại có câu hỏi A?

Tại sao dùng giun đất câu cá?

Tại sao người ta làm mỗi câu cá?

Hình 3.2: Ví dụ cách hoạt động của RD.

Trang 18

3.1.1.2 RS (Random Swap)

Câu hỏi gốc " RS: Hoán đổi từ ngẫu nhiên 4 Câu hỏi tăng cường

Thời gian đến công việc B là khi nào? ——RS——> Thời gian công việc B đến là khi nào? |

Tai sao giun dat ding làm người ta môi câu cá?

Tại sao làm giun đất đùng người ta môi câu cá?

Tại sao người ta môi đùng làm giun đất câu cá?

Tại sao người ta dùng giun đất câu cá làm môi?

Hình 3.4: Ví dụ cách hoạt động của RS.

Trang 19

3.1.1.3 RI (Random Insertion)

Câu hỏi gốc " RI: Chèn từ ngẫu nhiên 4 Câu hỏi tăng cường

| Công xưởng C có khi nào? ————RI——> Công xưởng C có từ khi nào? |

Hình 3.5: Phương pháp RI.

Đây là phương pháp ngược lại với RD, bằng cách sử dụng cách chèn một

hoặc cụm từ vào một vị trí ngẫu nhiên trong câu.

Tai sao người ta dùng tại sao giun dat làm môi câu cá?

Tại sao người ta ding giun đất làm tại sao môi câu cá?

Tai sao người ta dùng giun đất câu văn làm môi câu cá?

Tại sao người ta dùng chúng giun đất làm mỗi câu cá?

Tại sao người ta dùng Người ta giun đất làm môi câu cá?

Hình 3.6: Ví dụ cách hoạt động của RI.

10

Trang 20

3.1.1.4 SR (Synonym Replacement)

Câu hỏi gốc Chọn từ cần thay thế — Từ thay thé ¬

Câu hỏi tăng cường SR: Thay từ ngẫu nhiên «|

Từ nào được dùng cho tr D —-SR——> Từ nào được sử dung cho từ D

Hình 3.7: Phương pháp SR.

Phương pháp sử dụng cách thay thế một từ hoặc cụm từ trong câu với một từ

đồng nghĩa hoặc từ tương đương nhưng không làm thay đồi ý nghĩa của câu.

Tai sao người ta dùng giun đất làm môi câu cá?

Tai sao người ta dùng giun đất làm môi câu van cá?

Tai sao người ta áp dụng giun đất làm môi câu cá?

Tai sao người ta dùng giun đất làm cá đuối câu cá?

Tai sao người ta dùng giun đất làm môi câu thơ cá?

Hình 3.8: Ví dụ cách hoạt động của RI.

11

Trang 21

3.1.2 Phương pháp diễn giải câu hỏi (QP)

Đây phương pháp tái sử dụng các câu được hỏi trước đó dé tạo ra các câu hỏi mới

Kỹ thuật này giúp tăng độ phủ của ngữ liệu và đưa ra nhiều cách giải thích khácnhau về cùng một van dé và van dé ở đây chính là câu hỏi

Có những lý do để ứng dụng QP, bao gồm:

e Tạo ra các biến thé của câu hỏi giúp tăng tính đa dạng

e Giảm thiêu hiện tượng overfitting trong các mô hình NLP

e Cải thiện khả năng hỏi đáp câu hỏi của các hệ thống đọc hiểu tự động

Phương pháp QP có những đặc điểm sau:

e Đầu vào (Input): Câu hỏi, số câu tăng cường (k)

e Đầu ra (Output): Gồm k câu hỏi được diễn giải với nhiều cách khác nhau

nhưng vẫn đảm bảo được ý nghĩa như câu ban đầu

Nhiều câu hỏi tăng cường với các cách diễn đạt khác nhau

:_] Chụp cộng hưởng từ cho thấy

Trang 22

3.1.3 Phương pháp dịch ngược (BT)

Day là một phương pháp dịch ngược được sử dụng dé tăng độ chính xác của các bộ

dữ liệu dịch thuật hoặc giúp nâng cao hiệu suất huấn luyện cho các mô hình dịch

máy Kỹ thuật này thường được sử dụng khi thiếu dữ liệu dịch thuật có sẵn chongôn ngữ đích, do đó cần phải sử dụng một ngôn ngữ thứ ba

Phương pháp Back Translation là quá trình dịch một văn bản từ ngôn ngữ gốc sangngôn ngữ thứ ba, sau đó dịch lại từ ngôn ngữ thứ ba sang ngôn ngữ đích Điều này

cho phép tạo ra các mẫu đữ liệu dịch thuật mới cho ngôn ngữ đích từ mẫu dữ liệu đã

có san cho ngôn ngữ nguồn và ngôn ngữ thứ ba Thông thường, ngôn ngữ thứ bađược sử dụng là tiếng Anh, vì rất nhiều tài liệu dịch thuật có sẵn và nó được coi làngôn ngữ đứng vi trí thứ hai có mức độ phô biến trên thé giới

Phương pháp BT có những đặc điểm sau:

- Đầu vào (Input): Câu hỏi

- Đầu ra (Output): Gồm 1 câu hỏi được tạo ra từ phương pháp dịch ngược

Câu hỏi gốc Dịch sang Tiếng Anh

Đối tượng

dịch thuật

Câu hỏi tăng cường Dịch sang Tiếng Việt

EN Vi Nhật nằm ở đâu? ————> Where is Japan located? ———}® Nhật Ban nằm ở đâu?

13

Trang 23

Đây là mô hình học máy không thuộc nhóm mô hình tuyến tính KNN dựa trên

nguyên tắc các điểm dữ liệu có đặc điểm tương tự sẽ có kết quả dự đoán tương tự.

Mô hình KNN là một mô hình học tập có giám sát cho các vấn đề phân loại và dựđoán Trong quá trình huấn luyện, KNN không học các tham số của mô hình mà chỉlưu trữ toàn bộ tập huấn luyện Khi một điểm dữ liệu mới được thêm vào dự đoán,KNN sẽ tìm kiếm K điểm gần nhất trong tập huấn luyện và dự đoán điểm dữ liệu

mới theo nhãn của các điềm này.

3.2.2 Mô hình Naive Bayes

Đây là mô hình thường được sử dụng cho các bài toán phân loại văn bản, phân loại

email hoặc phân loại tin tức Mô hình này dựa trên các nguyên tắc xác suất của

Bayesian, giả định rằng các tính năng đầu vào (còn gọi là các biến giải thích) là độclập với nhau Nhờ vào đó ta có thé tính toán xác suất của những loại nhãn (còn gọi

là các lớp) dựa trên tập huấn luyện

Mô hình Naive Bayes đơn giản, dễ hiểu và có thể cho kết quả dự đoán tốt trongnhiều trường hợp Tuy nhiên, giả định về tính độc lập giữa các đặc trưng không phảilúc nào chính xác, vì vậy mô hình Naive Bayes có thê đưa ra dự đoán không chính

xác nêu các đặc trưng đâu vào phụ thuộc chặt chẽ với nhau.

14

Trang 24

3.2.3 Mô hình SVM

Đây là một mô hình được dùng dé phân loại và dự đoán Mô hình này là một trongnhững mô hình phân loại tuyến tính phổ biến nhất và được sử dụng rộng rãi nhấttrong những vấn đề khác nhau, từ phân loại hình ảnh đến phân tích văn bản

SVM phân loại dữ liệu bằng cách tìm một đường thắng hoặc mặt phang dé phânchia các điểm dữ liệu thuộc các loại khác nhau Mục tiêu của SVM là tìm đường đó

sao cho điểm dữ liệu gần nhất có khoảng cách lớn nhất đến đường đó

Mô hình SVM có thể cho kết quả phân loại tốt và độ chính xác cao trong nhiềutrường hợp Tuy nhiên, do sự phức tạp của phương pháp tối ưu hóa hàm mat mát vàkhối lượng tính toán lớn, việc sử dụng SVM đòi hỏi tài nguyên máy tinh đáng kể

3.2.4 Mô hình Logistic Regression

Mô hình Logistic Regression thuộc lớp mô hình học có giám sát Dùng dé phân loạicác điểm dữ liệu thành hai hoặc nhiều nhãn khác nhau dựa trên các tính năng đượctrích xuất từ dir liệu huấn luyện Mô hình này được gọi là "Logistic" vì nó sử dụnghàm logistic (còn được gọi là hàm sigmoid) dé chuyên đổi tông trọng số của các đốitượng thành giá trị xác suất dự đoán

Các mô hình hồi quy logistic sử dụng các phương pháp tối ưu hóa dé tìm các trọng

số phù hợp cho từng tính năng Mục tiêu của tối ưu hóa là tìm một tập hợp các trọng

số sao cho các giá trị xác suất dự đoán của mô hình gần nhất với nhãn thực của các

điểm dữ liệu huấn luyện

3.2.5 Mô hình LSTM

Đây là một loại mô hình mạng thần kinh học sâu được dùng phổ biến Mô hìnhLSTM có khả năng giải quyết các bài toán gián đoạn dài hạn trong quá trình xử lýchuỗi dữ liệu, giúp mô hình có thé tìm hiểu các phụ thuộc gián đoạn dài hạn giữacác phần tử trong chuỗi dữ liệu Điều này làm cho các mô hình LSTM đặc biệt hữu

ích trong các van dé về trình tự, chang hạn như dự đoán từ tiếp theo trong một câu

hoặc chuỗi thời gian.

15

Trang 25

Một đặc điểm của các mô hình LSTM là khả năng duy trì và truyền thông tin ở

trạng thái ấn qua nhiều bước thời gian, cho phép mô hình học và ghi nhớ thông tin

liên quan đến quá khứ trong chuỗi dữ liệu Các mô hình LSTM là một lựa chọn tốt

dé giải quyết các van dé với dit liệu chuỗi

3.2.6 Mô hình BiLSTM

Day là mô hình được xây dựng dựa trên mô hình LSTM, mô hình BiLSTM có thểgiải quyết những bài toán liên quan đến từ ngữ và ngữ cảnh của một hoặc nhiều

ngôn ngữ.

Mô hình BiLSTM mở rộng từ mô hình LSTM bằng cách sử dụng hai lớp LSTM

song song, một điều chỉnh cho việc truyền thuận (forward) và một điều chỉnh cho

việc truyền ngược (backward).

Quá trình huấn luyện của mô hình BiLSTM bao gồm việc truyền thuận và truyềnngược qua các lớp LSTM Quá trình truyền thuận xử lý đữ liệu từ trái sang phảitrong chuỗi, trong khi quá trình truyền ngược xử lý dữ liệu từ phải sang trái Vớikhả năng xem xét ngữ cảnh từ cả hai phía, mô hình BiLSTM có thể nắm bắt đượccác mối quan hệ phụ thuộc từ xa và hiểu được ngữ cảnh một cách toàn diện hơn

3.2.7 Mô hình CNN

Đây là một loại mô hình mạng nơ-ron học sâu được sử dụng phô biến trong lĩnh vực

xử lý hình ảnh và video Mô hình nhằm mục dich tự động tìm hiểu các tính năng

cục bộ của hình ảnh, cho phép mô hình phân loại, nhận dạng hoặc trích xuất các đặc

trưng.

Trong phân loại văn bản, CNN hoạt động bằng cách dùng phép tích chập đề tìm cácđặc trưng quan trong trong văn bản Sau đó, các lớp tông hợp giúp giảm kích thướccủa đặc trưng Cuối cùng, các lớp kết nối đầy đủ được dùng để phân loại văn bảndựa trên các đặc trưng đã trích xuất

16

Trang 26

3.2.8 Mô hình PhoBERT

Những van đề thường hay gặp phải khi làm việc với ngôn ngữ Tiếng Việt có thê kêđến đó là sự đa dạng và phức tạp của ngôn ngữ này như là: sự có mặt của các dấuthanh, các từ viết tắt và việc sử dụng từ không có dấu Điều này làm cho việc xử lýngôn ngữ Tiếng Việt trở nên khó khăn hơn những thứ tiếng khác

Kế thừa từ kiến trúc BERT, là một pre-trained được huấn luyện dành riêng choTiếng Việt PhoBERT được huấn luyện dựa trên kiến trúc RoBERTa của Facebook.Đây là một điểm cộng khi so sánh với BERT trước đây

Một tính năng chính của PhoBERT là khả năng tìm hiểu mối quan hệ ngữ nghĩa

giữa các từ trong câu, cho phép mô hình hiểu ngữ cảnh và đưa ra dự đoán chính xác

hơn đối với Tiếng Việt Với sự phát triển của PhoBERT, nhiều ứng dụng trí tuệnhân tạo đã sử dụng mô hình này để giải các bài toán xử lý ngôn ngữ tự nhiên vàđạt được kết quả tat

3.3 Cac phwong phap danh gia

3.3.1.1 Độ do BLEU

Day là một phương pháp đánh giá ban dich dựa theo các ban dịch tham khảo.

BLEU được thiết kế để đánh giá đầu ra của bài toán dịch thuật, nhưng trên thực tế

độ đo này cũng được dùng trong tóm tắt văn bản, nhận dạng giọng nói và các tác vụkhác Hơn nữa, độ đo này cũng có thê đánh giá chất lượng bản dịch của con người

BLEU được coi là kỹ thuật đánh giá tuy đơn giản nhưng hiệu quả và giống như con

nguoi.

Công thức của độ do BLEU được tính như sau:

4

; output — length ¬ 1 BLEU = min (1——————————— precisioni)*

reference — length’ ‘| 4

i=

17

Trang 27

3.3.1.2 Độ do FI

Độ do F1 là một phép do dùng trong bài toán phân loại, dé đánh giá một mô hình dự

đoán Nó là sự kết hợp giữa độ chính xác (precision) và độ phủ (recall) dé tính toánmột chỉ số tổng quát

Độ đo F1 được tính như sau:

2 * precision * recall F1 Score = —

Trang 28

Chương 4 XÂY DUNG DU LIEU

4.1 Bộ dữ liệu ViQP

ViQP (Vietnamese Question Paraphrase) là bộ dữ liệu mới được thiết kế dé bé Sung

dữ liệu cho các tác vụ diễn giải câu hỏi trong Tiếng Việt

Tự kiểm tra Bộ dữ liệu

đã được tự kiểm tra chéo

Kiểm tra chéo

đã được tự kiểm tra

| Tạo câu hỏi gốc | i ai Tạo câu hỏi tương đồng

~~ “iden thothử kiểm thừ

Tập huấn Dữ liệu tập

luyện huấn luyện

Hình 4.1: Quy trình xây dựng bộ dữ liệu VIQP

Quá trình xây dựng dữ liệu được được tiễn hành như sau:

Phase 1

e Bước 1: Xác định đối tượng tham gia xây dựng bộ dit liệu: Nhóm người xây

dựng bao gồm: người có khả năng hiểu và sử dụng thành thạo ngôn ngữTiếng Việt, xác định các tiêu chí dé tiến hành xây dựng bộ dữ liệu: Các tiêu

chí này bao gồm độ tương đồng giữa các câu hỏi, độ phong phú về cấu trúccâu, độ phân biệt về từ vựng và ngữ nghĩa, độ dài của câu,

e Bước 2: Thu thập dữ liệu: Da số các câu hỏi được chúng tôi tạo ra từ tác vụ

xây dựng dữ liệu cho ViTREC Mục đích dé các câu hỏi trong bộ dữ liệu này

có thê bao phủ được hết các chủ đề hỏi trong Tiếng Việt

e Bước 3: Xác định các câu hỏi tương đồng (câu hỏi mục tiêu): Những câu hỏi

tương đồng sẽ được tạo thủ công

19

Trang 29

e Bước 4: Thực hiện tự kiểm tra (self-check) và kiểm tra chéo ngữ nghĩa

(cross-check) giữa các thành viên trong quá trình xây dung dữ liệu.

e_ Xây dựng bộ dữ liệu: Bộ dữ liệu được chia thành hai tập huấn luyện và kiêm

tra.

Mỗi câu hỏi gốc trong bộ dữ liệu sẽ có từ 4 — 7 câu tăng cường tương ứng Bộ dữ

liệu VIQP có tổng cộng 13411 câu hỏi, có thể tạo thành 56068 cặp câu Bộ dữ liệuđược chia thành 2 tập: tập huấn luyện và tập kiểm thử theo tỉ lệ 8:2

{

"source": "Ong Vinh mang nhóm máu gì?",

“target”: [

"Loại mau ma Gng Vinh mang là gi?",

"Nhóm mau của ông Vinh là gì?",

"Nhóm mau trong người ông Vinh là gi?",

“lên nhóm mau trong người ông Vinh là gi?",

“lên nhóm máu ông Vinh mang trong người là gi?"

] }

Hình 4.2: Ví dụ về mẫu huấn luyện trong bộ dữ liệu

Bảng 4.1: Phân bố các câu hỏi trong bộ dữ liệu ViQP

Số câu hỏi | Số câu hỏi Tổng số câu | Số cặp câu có thé

gốc mục tiêu hỏi tạo thành

Tập huấn

2335 7306 9641 34506 luyén

Tap kiém

572 3198 3770 21562 thir

20

Trang 30

Bảng 4.2: Thống kê số lượng các loại câu hỏi tính theo nhãn thô

Tỉ lệ Tỉ lệ Nhãn Nhãn

(Source / Target) (Source / Target)

(Source / Target) (Source / Target)

Trang 31

ENTY_ animal 32/280 HUM title 32/264

ENTY_ body 43/363 LOC_city 35/287

ENTY_lang 26/230 NUM_ distance 26/196

ENTY_letter 10/76 NUM_ money 22/190

ENTY other 99/601 NUM_ order 17/147

ENTY_plant 22/202 NUM_ other 35/261

ENTY_ product 29/263 NUM_percent 37/243

ENTY_religion 29/239 NUM_period 51/437

22

Trang 32

ENTY_ sport 21/181 NUM size 26/188

ENTY_ substance 61/415 NUM_speed 25/245

ENTY_symbol 22/156 NUM_temp 9/73

ENTY_ technique 39/255 NUM_weight 37/277

23

Trang 33

4.2 Bộ dữ liệu ViTREC

Chúng tôi kế thừa các quy chuẩn xây dựng nhãn có sẵn có từ bộ dữ liệu TREC-QC

(6 nhãn thô và 50 nhãn mịn) để tạo ra dữ liệu mới ViTREC dựa theo nhãn những

nhãn được cung cap.

Color Letter Symbol Reason | Ind Mountain ) Date Speed

Creative Other Technique Manner | Description State ) Distance Temp Currency Plant Term Other ) Money Size

Dismed Product Vehicle Order Weight

———~

Event Religion Word Other

Food

Hình 4.3: Phân loại câu hỏi theo chuẩn TREC

Quá trình xây dựng bộ dữ liệu VITREC, chúng tôi đã thực hiện các bước sau:

e Thu thập dữ liệu: Chúng tôi đã thu thập các câu hỏi truy vấn Tiếng Việt từ

nhiều nguồn dit liệu khác nhau, bao gồm các câu hỏi truy van từ các cuộc thiOlympia, Ai là triệu phú, các câu hỏi truy vấn từ các trang web, tài liệu và

các nguồn khác

e Xây dựng dữ liệu: Chúng tôi đã xác định các nhãn cho các câu hỏi truy van

dựa theo các quy chuẩn của bộ dữ liệu TREC-QC và các nghiên cứu trước

đó.

24

Trang 34

Bên dưới đây là định nghĩa va vi du của từng loại nhãn trong bộ dt liệu VITREC

của chúng tdi.

Bang 4.4: Bảng phân loại câu hỏi theo TREC.

LỚP NHAN DINH NGHIA

VIET TAT

Khái niệm: Hỏi về từ viết tắt

Vi dụ:

e Cum từ "last universal common

ancestor" trong sinh học có tên viết tắt

Abb

là gì?

e Tên viết tắt của web stack được kết

ABBREVIATION hợp bởi Apache, Linux, PHP, Python,

Perl, MySQL là gi?

Khái niệm: Hỏi về nghĩa từ viết tắt

Trang 35

ông trong phim Pi là con gì?

Khai niệm: Hỏi về các phân cơ thê của con

người, các loai thực vật hoặc động vật.

e Mau nao tượng trưng cho hạnh phúc?

Khái niệm: Hỏi về những loại thực thể có liênquan đến chủ đề nghệ thuật như: phim, kịch,

e Tác phâm nghệ thuật đầu tiên của

Pablo Picasso có tên gi?

Khái niệm: Hỏi về các loại tiền tệ

Trang 36

e Gia của các tiên tệ thường được so

sánh với đông tiên nào?

Khái niệm: Hỏi về những sự kiện, lễ hội, giải

thưởng được tổ chức hoặc cũng có thé là trận

e Ăn gì dé giảm mỡ trong máu?

e Món ăn nào giúp tăng hap thu canxi?e_ Món ăn nào giúp tăng độ sắc tô da?

e Cân ăn món ăn nào tot cho trí não?

Instrument

Khái niệm: Hỏi về các loại nhạc cụ

Vi dụ:

27

Trang 37

e Từ đá và gỗ chúng ta có thé tao ra nhạc

cụ gì?

e Loại nhạc cụ nao có sé phim mau trang

nhiéu hon den?

e Nudoc Pháp nôi tiêng với nhac cụ gi?

Lang

Khái niệm: Hỏi về ngôn ngữ, thứ tiếng

Ví dụ:

e Ngôn ngữ mà người Ai Cập cô đại

dùng đề ghi chép là loại ngôn ngữ nào?

e Tại Việt Nam, thứ tiếng nào đang có

nguy cơ biến mat?

e Ngoài sử dụng tiếng Việt thì người dân

tộc Hoa còn sử dụng tiêng nào?

Letter

Khái niệm: Hỏi về chữ cái

Vi dụ:

e Phụ âm được dùng nhiều trong các bài

thơ Tiếng Việt?

e Từ có âm ngang trong bai thơ bánh trôi

nước là từ gì?

Other

Khái niệm: Hỏi về các thực thé khác như

hành tinh, vũ trụ, ngôi sao,

Trang 38

e Loài thực vật có thể giết chết con mỗi

e Tên của sản phẩm laptop cấu hình cao

nhất của ASUS tên là gì?

Religion

Khái niệm: Hỏi về các loại tôn giáo

Vi dụ:

e Trong tôn giáo nao, tin đồ tin rang họ

có thé giúp đỡ mọi người qua việc giữ

gìn những giáo lý?

e Trong tôn giáo nao, con người được

coi là tạo hóa của đức tôi cao hơn?

Trang 39

cây mai vàng phụ thuộc vào tính chât

và yêu tô nào?

e Loại chat nào có trong thuôc lá có khả

năng gây nghiện?

Symbol

Khái niệm: Hỏi về các ký hiệu, biêu tượng

Vi dụ:

e Lá bài nào tượng trưng cho cái chết?

e_ Biểu tượng cho cung hoàng đạo

e Trong quá trình nghiên cứu về gen di

truyền các bác sĩ đã tìm ra những kỹthuật thay thé gen di truyền nào?

Ngày đăng: 02/10/2024, 03:31

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN