1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài nghiên cứu khoa học: Thêm dấu tự động vào đoạn văn bản tiếng Việt không dấu bằng mô hình học sâu

68 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đề Tài Nghiên Cứu Khoa Học: Thêm Dấu Tự Động Vào Đoạn Văn Bản Tiếng Việt Không Dấu Bằng Mô Hình Học Sâu
Tác giả Tran Hiền Phương, Nguyễn Lợi Huân
Người hướng dẫn ThS. Trần Quang Huy
Trường học Trường Đại Học Sư Phạm TP Hồ Chí Minh
Chuyên ngành Sư phạm Tin học
Thể loại Báo cáo tổng kết
Năm xuất bản 2024
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 68
Dung lượng 60,63 MB

Nội dung

Việc chèn tự động dấu thanh vào các văn bản tiếng Việt là quan trọng đối với nhiều ứng dụng bao gồm trả lời câu hỏi, trích xuất văn bản, chatbot, công cụ tìm kiểm, ...Giai pháp dé khôi p

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRUONG ĐẠI HỌC SU PHAM TP HO CHÍ MINH

TP HO CHI MINH

BAO CAO TONG KET

DE TAI NGHIEN CUU KHOA HQC CUA SINH VIEN

Thuộc nhóm ngành khoa học: Công nghệ Thông tin

TP Hà Chí Minh, tháng 4 năm 2024

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TP HO CHÍ MINH

BÁO CÁO TỎNG KÉT

DE TÀI NGHIÊN CỨU KHOA HỌC CUA SINH VIÊN

Thuộc nhóm ngành khoa hoc: Công nghệ Thông tin

Nhóm SV thực hiện: - ; Nam, Nữ: Nam

Tran Hiên Phương

Nguyễn Lê Huân

Lớp Khoa: 48.01.TIN.SPB Năm thứ: 2/ Số năm dao tạo: 2Ngành học: = Sư phạm Tin học

Người hướng dẫn: ThS Trần Quang Huy

TP Hỗ Chí Minh, tháng 4 năm 2024

Trang 3

1.2.1 Tinh hình nghiên cứu trong nƯỚC cu HT TT 0058050056 8

1.2.2.Tình hình nghiên cứu nước ngoài HH ng ng vn II

Ï.3.ILi đồ chon đề Hỗ sananaaasannannrainiintiiiiititttiiiittittitdtitttitiittlHRIHRHRIH10181800010681880080888 14

DAG: 061)1Vã(P0lHAniViiRNEBIENLCỨNHioiaoiipipiiiiiiiiiititittitiiiiiti01141131313148133381813831483683838138383839838388 16

DAD MC THA MSM CUT PP nẽ"n ố.ố.ố.ố.ố.ốố.ốốố.ốốốốốốố ổn 16

AZ: Para Va MMS HN CU ssi sessesaesaesacssenscsacssacvannanscssansasussasassussassaesssssssssnnsnaavaasaavaunuasaavausanvasvans 17

CHUGNG 2: COSO LY THUYVET (on gnoonnnnnooiooooiantioniintttiiitiiitiititiitiiiiiidilDEA8 880 19

2.1 Đặc điểm về các thành phần cấu trúc trong ngữ pháp tiếng Vist ccccccceessseesesseessseesesseeen 19

2.1.1 Đặc điểm dau thanh trong ngữ pháp tiếng Vi8t 0 cccssecccssseeccsssesccssseecessseseessseceesseess 19 2.1.2 Đặc điểm câu trong ngữ pháp tiếng Việt - ào gưên 20 2.1.3 Đặc điểm đoạn văn trong ngữ pháp tiếng Việt ninh n2 re 27

2.2 Mô hình xử lý ngôn ngữ tự nhiên — Transformer Neural Network -¿c5 55555565562 33

2.2.1 Sự phat trién của các mô hình xử lý ngôn ngữ tự nhiên cccccsieeieeriee 34

2.2.2 Kiến trúc mô hình TransfOriTt€r 5s c2 T3 E1 2111211211211211111 11111111 c1xe re 38 2.3 Mối liên hệ giữa cơ sở lý thuyết về ngữ pháp tiếng Việt và mô hình xử lý ngôn ngữ tự nhiên

112 0 1 ỐầỐ 48

CHUGNG 3 THỰC NGHIỆM CHƯƠNG TRÌNH ccGGOoOoOoooooooooo 50

3.1, Bài toán thêm dấu tự G6mg ccccccssssessssessseesssessseesssecssseesssesssessssesssessssessssesssesssetesseessetsaseeeseeeess 50

3:2: CO: sở GED sisissisisccsssisssnnsnnniinninncinnainnncnncannsannsan nasa 50

32:0) Deh Gu văniBản:trên các trang BẢO::;:::::: ciciioiiiitiiii11111443114131333533835301a501253oeaxeksee 50

i 2, COMA trình 1UI(H10:00YÌCHÌ(¿ýi::4//204400/1400211004020/00410/11100110041211614110041211401311118118120041431313210334048 51 3:2.3.I000i(T1nB.xửi:đữHỆN:¡icnciniiiiiiiiiiiititittitiitiitiititiiiiiiii101881311381881381381381381381385385381385588 55 3.3 Thực nghiệm mô hình - ch nàn HT HT Tà Tà HT Hà TH Trà rệt $6

3.3.1 Quá trình huan luyện mô hình Transformer cccccvrcrrrrrrrrrrrrrrrrrrre $6

3:3:2./0uÁitrinhidW đöÃï:::::cicciipiiiiiiiiiiiitiitiitii141114311136511153333385338533533 5338839538 3538853553835385538538855 56

4;1IMôiitrường thie STOO ccccooonniiooiiiiiiiiiiii410111111101611113434153313853538555813838538555855555851188 58

Trang 4

4.2 Dữ liệu đầu vào ác ng 1 T1 1111111111111 1111111111111 1111111111111 1111111111 1111117111111 xe 58 4.3 Kết quả thực mghigm 2.0 ccccscccssessssessssesssecsssesssscsssecsssecssecsssecsssssssesssesssueesssesssecesseensecessecssess 59

4.3.1 LLOSSÉS HH HH HH HH HH Hà HH HH HH HT TH TT TH TT TH HH Hàn 59

43.2) ACCUraCy tiniiiitiitiiiiitiitii1i11111111111111111118111118088118i18938916516618906816843946643803813611813813811811843511811813838 60

4.4 Xây dựng website thêm dau cho tiếng ViỆt - 0c 22 221122112211711121112112211211 21c e 61

5.1 Kết luận để ti oo ecccccsseecccsssssesccssssuseecssssnseccssssnsescessunsesesssnssesesssnnsessessnusesesssnuseeesssnneeceesnnnseesee 63 5.2) nap pint nen BIỂAuiieiiiieiiinisi0i60011260000010650606110035066061105506ã0830 63

1ï AUMCA TERA KAVA i sssssesassussanssnvunssassavsasusnsanvansasvasnansasvessasvassassnssssssssosnsusassasvavsansasunssavansiansanunnnanvannanvars 64

Trang 5

DANH MỤC HÌNH ANH

Hình 1.1 Kết quả cho phương pháp Pointwise 5c 22-222 222 22122212211 2211221121121 re §

Hình 1.2 Kết qua DER, WER sử dung DBN so với Bi-LSTM trên bộ Tashkeela 12 Hình 03; dein treks lũng quan của DA: asc cassscssssccassscasasccasssanrasssnnarsansssnaaamnacaamnnmaaen 13

Hình 2.1 Sơ dé cau trúc của cụm từ cố định n1 11 11 11 11211 11111 1111101111111 1111111111111 110 21 Hình:2:2 c§utrieird0wøng|ENNioaasaaaaaoaaniiitttonottonttttttdtnttttttttiittotiottoitiinttaine 34 Hình 2.3 Sơ đỏ hoá mô hình Seq2Seq với bai toán khỏi phục dau tiếng Việt trong câu 35 Hình 2.4 Sơ đồ hoá mô hình Transformer với bài toán khôi phục dau tiếng Việt 38 Hình 2.5 Ví dụ đầu vào đã được chuyền thành dang vector .cccccccssesseesseesseesseesseesseessesssesssessseesees 40 Hình 2.6 Giá trị vector đầu vào khi có thêm thông tin ngữ cảnh 5 5c 1 11x rcskrskee 41 Hình 2.8, Embeddings đầu vừa nhân với ba ma trận trọng số WQ, WK, WV c.ccccccve 43 Hình 2.9 Sơ đỏ hoá cách tinh giá trị các vector theo cơ chế Self-Attention c55ss: 44

Hình 2.10 Cơ chế hoạt động của Multi-Head Attention 56-25 22vcccvvrrrrtrrrrrrrrrrrrrrrrrree 46

Hình 3.1 Nơi lưu trữ liên kết của các bài bao được thu ha ốc 51

Hình 3.2 Văn bản hiền thị trên một trang Báo Thanh Niên - 6 0 21 212211211112211 11c, 53

Hình 3.3 Ma nguôn chứa the <p> như mô ta trong trang báo trên - :- ¿55 2c 22222222222 53

Hình 3:4; Nơi lưu te bộ dữ liệu sisiicisisisiscisisiscssisssassisssascnsasanaassanasaanasannasanasaanasaasecsaasansaaees 54

Hình 3.5 Lưu trữ tiền xử lý đữ liệu văn ban oo ecc cece cccssseccsssecsssesessscesssesesssessssesessscssssesessesenseesesvess 55 Hình 4.1 Biểu đỗ loss trong quá trình huấn luyện -22- 25c ©2SeccvecExerrrkerrreerrrkerrrsrree 60

Hình 4.2 Biểu dé accuracy trong quá trình huấn luyện 6 0 21 1122112111111 60

Hình 4.3 Giao diện chương trình de1o : :cccccc cong nh ngggnnn0001401011110000148168061485513816 6l

Hình 4.4 Kết quả nhận được khi thêm dau từ chương trình dem - cà csseeeeeee 62

t2

Trang 6

DANH MỤC BANG BIEU

Bảng 1.1 Độ chính xác và điểm BLEU của mỗi hệ thống trên tập kiểm tra -55 - 10

Bảng 1.2 Thời gian huấn luyện va Tốc độ kiểm thử của các bộ công cụ :- cv II

Bảng 1:3 Độ chínỗ xác của |DĨACT:cocccoooooiiooioiooooiiiiitiiiiti16101401114013838368585433885833488553685853518 13

Bang 1.4 Bang so sánh sự khác nhau giữa hai đoạn văn có cau không dau giống nhau nhưng có sự

liên kết ngữ cảnh giữa các câu trong đoạn Văn cá HH HH HH HH ghưệt 15

Bảng 2.1 Quy tắc chuyển đổi tiếng Việt sang tiếng Việt không dau cecececcessessesseesseesseesseenes 19 Bang 2.2 Bảng so sánh thành ngữ, quán ngữ và ngữ cô định định danh -. - 5 ccccsccses 22 Bảng 2.3 Bảng phân tích cầu tạo của những cụm danh từ và cầu tạo của phụ ngữ trong mỗi cụm

BH H(Ẩ: cíicoctiiiiipoiiiiiiiiitiiititiii11121111213103111381131653113833385581138333855511683368553818853385511885388535118853885381035018855881351 25

Bang 2.4 Bảng so sánh sự khác nhau giữa cụm từ cô định vả cụm từ tự do 26 Bảng 3.1 Bang dit liệu thống kế số lượng đoạn văn trên mỗi lĩnh vực -c-cc-: s4 Bang 4.1 Bảng kết quả trên bộ dữ liệu Train cho từng lĩnh vực 6c 6c cccctcttctcrrrei 59

Trang 7

BANG CÁC KÝ HIEU VA CHỮ VIET TAT

Chữ viết tat Chữ viết đầy đủ

Support Vector Machine

Convolutional Neural Network

= Recurrent Neural Network

Trang 8

LỜI CẢM ƠN

Nghiên cứu của chúng tôi đã được thực hiện tại Khoa Công nghệ thông tin - Trường

Đại học Sư phạm Thành phố Hồ Chi Minh, dưới sự hướng dẫn khoa học của ThS Trần QuangHuy Trước hết, chúng tôi xin gửi lời biết ơn đến nhà trường đã tạo điều kiện cho chúng tôi có

môi trường học tập và nghiên cứu tốt nhất, cũng như hỗ trợ chúng tôi trong quá trình nghiên

cứu Chúng tôi xin bảy tỏ lòng biết ơn tới các Thay Cô thuộc Khoa Công nghệ thông tin và

cần bộ Phỏng Khoa học Công nghệ, khoa Công nghệ Thông tin — Trưởng Dai học Sư Pham

Thành phố H6 Chi Minh đã tạo mọi điều kiện thuận lợi giúp đỡ chúng tôi trong quá trình học

tập và nghiên cứu.

Chúng tôi muốn gửi lời cảm ơn sâu sắc đến Thầy ThS Trần Quang Huy người đã dành

thời gian và tâm huyết dé hướng dẫn và động viên chúng tôi trong suốt quá trình nghiên cứu

khoa học Thay không chỉ là một người hướng dẫn ma còn là người thay truyền cám hứng,giúp chúng tôi hiéu rõ hơn về tinh than làm việc nghiêm túc và sự quan trọng của sự hợp táctrong một nhóm nghiên cứu Chúng tôi rất biết ơn vẻ sự tận tâm và tận lực của Thay trong việc

chỉ bảo và hỗ trợ chúng tôi qua từng bước của dự án nghiên cứu.

Dù dự án có thẻ không tránh khỏi những thiếu sót, nhưng chúng tôi rất mong nhận được

sự cảm thông vả chỉ bảo quý báu từ Thay dé có thé hoản thiện hơn về kiến thức chuyên môn

Sự dẫn dắt và động viên từ Thây đã là nguồn động lực lớn giúp chúng tôi tiễn xa hơn trên con

đường nghiên cứu và học tập Cuối cùng, chúng tôi xin kinh chúc Quý Thay, Cô Trường Đại

Học Sư Phạm và đặc biệt là Thây ThS Tran Quang Huy sức khỏe déi đảo, niềm tin vững vàng,

và tiếp tục với sứ mệnh đìu dắt những học trò trẻ trên con đường trưởng thành và thành công.

Một lân nữa, chúng tôi xin chân thành cảm ơn.

Trang 9

CHUONG 1 MỞ DAU

1.1 Tong quan về đề tài

Trong thời ki phát triển vượt bậc của công nghệ 4.0 và thời đại chuyển đỗi số, cùngvới sự bùng nô của điện thoại internet và mạng xã hội việc trao đôi nội dung tiếng Việt khôngdau đang ngày càng gia tăng Vì the nên việc sử dụng bàn phím tiếng Việt có dấu trở nên ngày

cảng quan trọng Tuy nhiên, không phải ai cũng thuần thục về cách thức sử dụng chúng, đặc

biệt là những người không quen thuộc với các phím tắt tương ứng Ngoài ra, một số người còn

sử dung ban phím quốc tế không hỗ trợ các ký tự tiếng Việt có dau, gây khó khăn trong việc

thực hiện gõ dau Dé giải quyết van dé này, một giải pháp tiềm năng là sử dụng phần mềm hỗtrợ từ bên thứ ba [1],[2] Tuy nhiên, điều nay đòi hoi người dùng phải nắm vững các quy tắc

và cách thức hoạt động của phần mém nay Điều này không chỉ tạo ra sự bat tiện trong quá

trình soạn thảo văn bản tiếng Việt có dấu, mà còn yêu cầu người dùng phái tiếp xúc và làm

quen với công nghệ mới [3].

Người dùng đã quen thuộc với việc gõ không dau từ trước có thé trải qua một giai đoạn

thích nghi khi chuyên đổi sang việc sử dụng dau Tuy nhiên, nghiên cứu cũng cho thấy rằng

việc viết không dấu thường ton ít thời gian hơn do không đòi hỏi việc tìm kiểm và lựa chọn

đầu tương ứng Thêm vào đó, viết không dấu thường tối ưu hóa việc sử dụng ký tự, mang lại

sự tiện ích cho việc gửi tin nhắn hay trao đôi thông tin trong các trường hợp có số lượng ký tự

dụng trong nhiều chương trình như kiểm tra chính tả và tự động sửa lỗi chính tả cho văn bản

[3].[5] Đặc biệt đối với các hệ thông tông hợp thông tin tự động (như tin nhắn, thư điện tử, )

việc đưa nội dung tiếng Việt không dấu vào khỗi tông hợp tiếng nói sẽ dẫn đến kết quả không

chính xác hoặc nội dung khó hiểu Dé đảm bảo người dùng nhận thông tin đúng đắn, việcchuẩn hóa và tự động thêm dấu trước khi đưa vào khối tong hợp là hết sức quan trọng [3]

Trang 10

1.2 Tổng quan tình hình nghiên cứu thuộc lĩnh vực của đề tài

1.2.1 Tình hình nghiên cứu trong nước

Trong nghiên cứu “A Pointwise Approach for Vietnamese Diacritics Restoration” [5]

của tác giả Tuan Anh Luu đã sử dụng một máy vector hỗ trợ tuyến tinh (SVM), được trién

khai trong gói phan mém LIBLINEAR [6], đẻ giải quyết nhiệm vụ phân loại SVM rat phù hợp cho nhiệm vu này, vì nó tập trung vào âm tiết cụ the ma không quan tâm đến việc tăng số lượng các ngoại lệ có thể phát sinh từ các trường hợp khó khăn hoặc hiểm gặp xảy ra trong dữ

liệu huấn luyện

Nhiều phương pháp học máy bị ảnh hưởng nặng nẻ bởi các ngoại lệ, và điều này làmgiảm độ chính xác của chúng đối với các trường hợp phỏ biến hơn Ngược lại, SVM có độ ônđịnh tương đối đối với việc xảy ra các trường hợp hiểm do đó ngay cả khi chúng xuất hiện,

chỉ có một sự giảm nhỏ về độ chính xác Với các đặc trưng được chọn, độ chính xác của

phương pháp Pointwise phụ thuộc vào độ dai cửa số W va kích thước dit liệu huấn luyện Biéu

đồ trong Hình 1 cho thay kết quả của các thí nghiệm của nhóm nghiên cứu với W = 2 và W =

3 cùng với kích thước dit liệu huấn luyện là 10, 20, 40, 80, 160 va 320 Mb

Size of training data (Mb)

Hình 1.1 Kết qua cho phương pháp Pointwise [5]

Trang 11

Hình 1.1 cho thấy rằng kết quả trong mọi trường hợp đều tốt hơn khi kích thước cửa

số W là 3 thay vì 2 Đường cong trên đỏ thị gần như là tuyến tính, và độ chính xác cai thiệnkhi kích thước tập dữ liệu huấn luyện tăng lên Độ chính xác cao nhất đạt được là 94.7% Đốivới một ngôn ngữ phức tạp như tiếng Việt, sử đụng nhiều dấu thanh, đây là một kết quả chấp

nhận được.

Trong một nghiên cứu tương tự “Vietnamese Diacritics Restoration Using Deep

Learning Approach” [4] của tác giả Bui Thanh Hung đã chỉ ra, so với các ngôn ngữ khác tiếng

Việt phức tap hơn nhiều Chúng ta có thé nhìn thấy điều này qua các thông kê Hơn 95% các

từ tiếng Việt có dấu thanh, trong khi tiếng Pháp chỉ có 15%, tiếng Romania chỉ có 35% Hơn80% các âm tiết tiếng Việt bị mat trong các từ bị trùng lặp và mơ hò (ví dụ: "sach" có thé là

"sách" hoặc có thé 1a "sạch", v,v ) Thêm vào đó, một van đẻ của tiếng Việt là khoảng trắng

không được sử dụng dé tách các từ liên kề Trong tiếng Việt khoảng trắng có thê được sử

dung dé tách các âm tiết trong từ; do đó không luôn luôn phục vụ như một ngăn cách từ

Đề so sánh mô hình học sâu với mô hình khác, tác giả cài đặt lại phương pháp

Pointwise dựa trên cùng đữ liệu huấn luyện và kiểm tra Phương pháp này áp dụng ba đặc

điểm của mô hình Máy Vector Hỗ trợ (SVM) cho phân loại bao gồm: đầu tiên là các n-gramcủa âm tiết, thứ hai là các n-gram của các loại âm tiết, và cudi cùng là các đặc trưng từ từ điền

Mô hình của nhóm nghiên cứu dé xuất có kết qua tốt hơn so với mô hình SVM Do dữ liệu

nhóm nghiên cứu sử dụng được thu thập từ các trang web tin tức, có thê chứa các từ không rõ

và một số lỗi Do đó, độ chính xác trong việc khôi phục dau trong một SỐ trường hợp thấp Độ

chính xác cao nhất đạt được là 95%

Việc chèn tự động dấu thanh vào các văn bản tiếng Việt là quan trọng đối với nhiều

ứng dụng bao gồm trả lời câu hỏi, trích xuất văn bản, chatbot, công cụ tìm kiểm, Giai pháp

dé khôi phục lại dau thanh trong văn bản tiếng Việt bang cách sử dụng phương pháp học sâu

Mô hình đề xuất là một mạng LSTM dựa trên ký tự hoạt động như một mô hình ngôn ngữ [4]

Ngoài ra còn có nghiên cứu “On the Use of Machine Translation-Based Approaches

for Vietnamese Diacritic Restoration” [1] của nhóm tác giả Thai-Hoang Pham Xuan-Khoai

Pham Phuong Le-Hong Trong bải báo, nhóm tác giả đã điều chỉnh các tham số của công cụ

Moses và dé dừng huấn luyện sớm cho công cụ OpenNMT Cuối cùng, nhóm tác giả đã khôi

9

Trang 12

phục dau cho các văn bản trong tập kiểm tra và sử dụng cài đặt tiêu chuẩn trong hai bộ công

cụ này khi huấn luyện và dự đoán Đỗi với công cụ Moses nhóm tác gia sử dụng KenLMS dé

xây dựng mô hình ngôn ngữ 3-gram và GIZA++6 dé căn chỉnh từ Đôi với công cụ OpenNMT,

nhóm nghiên cứu sử dụng mô hình chuỗi-qua-chuỗi được mô tả trong [7] Mô hình này baogồm các mô-đun mã hóa và giải mã được thực hiện bằng mô hình mạng nơ-ron đệ quy

Bảng 1.1 Độ chính xác và điểm BLEU của mỗi hệ thống trên tập kiểm tra [1].

Phrase-based (Moses)

Mục dich chính của điểm BLEU là đánh giá chat lượng của hệ thông dịch may [8]

Không phù hợp dé sử dụng điểm nay dé đánh giá hiệu suất của các hệ thống nảy trong nhiệm

vụ khôi phục dau Do đó, nhóm tác giả tập trung chỉ vào điểm độ chính xác Cả hai hệ thong

này đều đạt được kết quả hàng đầu cho nhiệm vụ khôi phục dấu tiếng Việt Cụ thể, bộ công cụ

Moses đạt được độ chính xác là 97.32%, cao hơn một chút so với độ chính xác 96,15% của bộ

công cụ OpenNMT.

Lý do cho kết quả nay có thé là do kích thước của tập huấn luyện Phương pháp dựa

trên mạng than kinh thường yêu cầu một lượng lớn dữ liệu huấn luyện để đạt hiệu suất tốt

trong khi tập huấn luyện của nhóm nghiên cứu chỉ có 140.000 cặp câu Hơn nữa, các công

trình trước đó cho thấy việc sử dụng nhúng từ đã được huấn luyện trước giúp cải thiện rất

nhiều hiệu suất của hệ thông địch máy sử dụng mạng than kinh, nhưng trong nhiệm vụ nảy

nhóm tác tác giả đã không sử dụng bất kỳ nhúng từ đã được huấn luyện trước nào Mặc dù

hiệu suất của bộ công cụ OpenNMT không tốt hơn bộ công cụ Moses trên tập đữ liệu này,nhưng bộ công cụ OpenNMT yêu cau ít thời gian huấn luyện hon và có tốc độ cao hơn khikhôi phục dấu cho các câu đầu vào

10

Trang 13

Neural-based (OpenNMT) § tiếng 22 câu/giây

Đặc biệt, nhóm tác giả huấn luyện và đánh giá hai hệ thông ở cùng một cải đặt Chi

tiết về cầu hình phần cứng là Intel Xeon E5-2686, 60GB RAM va Tesla K80 12GB Bộ công

cụ OpenNMT mat 8 giờ để huấn luyện trong khi bộ công cụ Moses can 12 gid Đối với giaiđoạn suy luận, bộ công cu OpenNMT có khả năng xử lý 22 câu đầu vào mỗi giây, gấp đôi tốc

độ của bộ công cụ Moses Lý do là bộ công cụ OpenNMT có thẻ tận dụng hiệu suất của GPU

có nhiều lõi CUDA đề xử lý song song

1.2.2 Tình hình nghiên cứu nước ngoài

Vẻ ngôn ngữ A Rap, trong nghiên cứu “A Deep Belief Network Classification

Approach for Automatic Diacritization of Arabic Text” [9] của nhóm tac gia Almanaseer, W., Alshraideh, M., & Alkadi, O trình bay một phương pháp điểm ngã mới dựa trên Deep Belief

Network DBN sử dụng một cau trúc mạng gồm nhiều RBM, ma có hiệu quả hơn trong việc

mô hình hóa dữ liệu và trích xuất đặc trưng Phương pháp này thêm các dau ngã vào văn bản

tiếng A Rap chưa có dau sử đụng DBN

Nhóm tác giả đã sử dụng hai bộ chuẩn nôi tiếng là Tashkeel và LDC ATB3 Từ bộ

chuẩn Tashkeel, nhóm tác giả đã sử dụng mười quyền sách đã được sử dụng trong nghiên cứu

trước đó của các nhà nghiên cứu khác dé so sánh kết quả của nhóm nghiên cứu với kết quả của

họ Kết quả của nhóm nghiên cứu đã được đánh giá dưới dang ty lệ lỗi điểm (DER) và tỷ lệ

lỗi từ (WER) Thực nghiệm trên tập dữ liệu ATB3 cho kết qua DER là 2,21%, cải thiện dang

& ˆ a £ sa xà £

kê so với các hệ thong tiên tiên nhật.

11

Trang 14

Hơn nữa, WER được ghí nhận bởi phương pháp của nhóm nghiên cứu là 6,73%, vượt

trội hơn so với các hệ thông cạnh tranh với mức cải thiện là 26% Trên bộ chuẩn Tashkeel, hệthông của nhóm nghiên cứu tiếp tục đạt được độ chính xác cao Phương pháp của nhóm nghiên

cứu dựa trên DBN đạt DER là 1,79%, va cải thiện 14% so với các hệ thống tốt nhất đã được

công bố Mặt khác, tỷ lệ lỗi từ (WER) ghi nhận cho hệ thông của nhóm nghiên cứu là 4,63%,

và đạt được sự cải thiện là 20% so với hệ thông tốt nhất đã được công bó Đối với các chỉ số

DER-I và WER-1, ngụ ý việc bỏ qua đấu điểm ngã cuỗi củng, hệ thong của nhóm nghiên cứu

có cải thiện lần lượt là 36% và 543⁄.

uM L &isin

co 0w

——

Hình 1.2 Kết quả DER, WER sử dụng DBN so với Bi-LSTM trên bộ Tashkeela [9].

Phương pháp này vượt trội hơn so với các phương pháp tiên tiễn Nó không yêu cầu

sử dụng các kỹ thuật dựa trên quy tắc hoặc các quy tắc về hình thái, cú pháp hoặc dau điểm.Quan trọng hơn, nó không doi hỏi bat kỳ bước xử lý sau cùng nao So với các phương pháp

tiên tiến, mô hình DBN cải thiện đáng kẻ tỷ lệ lỗi cho cả tập dữ liệu ATB3 và Tashkeel Tuy

nhiên, sự hạn chế về tài nguyên miễn phí, bao gồm sự có sẵn của ngữ liệu tiếng A Rap đã đượcđiểm nga, đặt ra một thách thức và đôi khi là một rao can đối với các nha nghiên cứu đang làm

việc trong lĩnh vực này Do đó, trong nghiên cứu này, nhóm nghiên cứu giới thiệu một tập dữ

liệu mới của văn bản tiếng Ả Rập đã được điểm ngã, được thu thập từ các câu chuyện thiểunhi, gồm khoảng 26,000 từ tiếng A Rap chuân hiện đại

Không đừng lại ở đỏ, trong bài báo nghiên cứu về ngôn ngữ Rumani “Diacritics

Restoration in Romanian Texts” [10] của nhóm tác gia Dan Tufis, Alexandru Ceausu đã nghiên

cứu ra DIAC + là một công cụ phục hội dau thanh tiên tiền - ban đầu được phát triển cho ngôn

12

Trang 15

ngữ Romania - sử dụng cả hai phương pháp dựa trên tir và ký tự DLAC+ sử dụng một hệ thong

gắn thẻ tương tự như của El-Béze et al (1994) và ba từ điển: từ điền của các từ có đấu thanh,

từ điên của các từ ma đã bị bỏ đi dấu thanh, và một danh sách các từ dang được xử lý nhưng

không có trong bất kỳ hai từ điển nào khác

Hình 1.3 Kiến trúc tổng quan của DIAC+ [10]

Ứng ctr viên phục hồi được chọn đầu tiên từ ba từ điền và sau đó được gắn thẻ về

mặt ngữ pháp cú pháp Trong trường hợp không rõ ràng, người dùng có thé được hỏi hoặc quátrình phục hỏi tiếp tục tự động theo các thông số xác suất được chọn Đối với các từ không rõ,

sử dụng một mô hình n-gram dựa trên ký tự Đánh giá trên một bộ văn bản gồm 118,000 từ,

DIAC+ đạt độ chính xác gần 99% trên văn ban đã được gắn thẻ trước và 97% khi văn bảnchưa được gắn thẻ

Bảng 1.3 Độ chính xác của DIAC+ [10].

Tagged text (TT) Raw text (RT)

13

Trang 16

C-words | 361 361

1.3 Li do chọn đề tai

Tổng quan tinh hình nghiên cứu trong nước chúng tôi nhận thay dé tài thêm dau

thanh vào văn bản tiếng Việt đã nhận được sự quan tâm đáng kê Nhìn chung, các nghiên cứu

nay đã đạt được những kết quả tích cực trong việc cải thiện độ chính xác và hiểu biết của văn

ban Tuy nhiên, phần lớn các nghiên cứu chỉ tập trung vào việc thêm dấu thanh vào từng câu

một, không đưa ra các phương pháp tiên tiền hơn dé xử lý văn ban tự động

Một trong những thách thức lớn mà các nhà nghiên cứu đối mặt đó là việc áp dụng

các nguyên tắc thêm dau này vào mọi thê loại văn bản tiếng Việt Câu hỏi được đặt ra là liệu

các nguyên tắc đã được thiết lập có thé áp dụng được với tat cả các loại văn bản không Trước

hết đẻ trả lời cho câu hỏi nảy, chúng tôi thực hiện một phan của nghiên cứu là tập trung vào

việc ứng dụng mô hình học sâu dé giải quyết van dé dau tự động cho một đoạn van bản tiếng

Việt không có dấu.

Qua việc tiếp cận này, chúng tôi hy vọng có thể đưa ra những phương pháp tiên tiến

hơn đẻ xử lý văn bản tự động, không chỉ giúp cải thiện độ chính xác của quá trình thêm dấu

ma con mở ra cánh cửa cho việc tng dụng rộng rãi hơn trong nhiều lĩnh vực khác nhau như

xử lý ngôn ngữ tự nhiên, trí tuệ nhân tạo, và dịch thuật máy tính.

Doan văn được hiểu như là một tô hợp các câu có mối liên kết chặt chẽ, thé hiện một

ý nghĩa cụ thé, và thường được phân đoạn trong văn ban bang cách lùi đầu dòng, viết hoa chữ

cái đầu câu, và kết thúc bằng dau chấm ngắt đoạn Tuy nhiên, việc khôi phục dau cho từngchữ trong câu có thé đối mặt với nhiều lựa chọn dau thanh khác nhau Việc thực hiện ngắt ra

từng câu đẻ khôi phục đấu, có thé din đến việc tạo ra nhiều câu có ý nghĩa khác nhau Kết qua

lả, sự thiểu thống nhất về mặt nội dung có thẻ xuất hiện trong toàn bộ đoạn văn

Do đó, việc thực hiện khôi phục dấu tự động cho toàn bộ đoạn văn bản là cần thiết

Thay vì tách câu ra và xử lý từng câu một, can phải xem xét đoạn văn trong bối cánh toàn bộ,

l4

Trang 17

và áp dụng các nguyên tắc và quy tắc phù hợp dé đảm bao tính thông nhất về mặt nội dung

trong việc khôi phục dau Điều này giúp báo dam ring ý nghĩa của toàn bộ đoạn văn được giữnguyên và không bị biên đôi do việc xử lý dau thanh Vi dụ:

Loai hinh nghe thuat an chua su tuyet my me hon, dua nguoi xem lac

vao coi tien cua nhung net diu dang,

mem mai thuot tha, noi toa sang cua nhung co tien nu cung voi tam hon

Loại hình nghệ thuật ân chứa sựtuyệt mỹ mê hồn, đưa người xem lạc

Vào cõi tiên của những nét dịu dang,

mềm mại thướt tha, nơi tỏa sang của

những cô tiên nữ cùng với tâm hồn

vồ thuan khiet say dam long nguoi thuần khiết say đắm lòng người.

Nhung vu cong mua lua bieu đien — | Những vũ công múa lụa biểu điễn

voi su linh hoat mang đen cho khan | với sự linh hoạt mang đến cho khán

gia mot trai nghiem day an tuong va | giả một trải nghiệm day an tượng và

doc đao độc đáo.

Loai hình nghe thuat su dung cac Loại hình nghệ thuật sử dụng các

cong cu nhu duoc que lua hoac den | công cụ như đuốc, que lửa hoặc đèn

di dong de tao ra hieu ung anh sang | di động để tạo ra biệu ứng anh sáng(2) va ngon lua doc dao trong suot qua _ | và ngọn lửa độc đáo trong suốt quá

»

trinh bieu dien Nhung vu cong mua

lua bieu dien voi su linh hoat mang den cho khan gia mot trai nghiem day an tuong va doc dao,

trình biéu điển Những vũ công múa

lửa biêu dién với sự linh hoạt mang

đến cho khán giả một trải nghiệmday an tượng và độc đáo

Hai đoạn văn trên có nội dung khác nhau Tuy nhiên, có thé thay câu in nghiêng trong

cả hai đoạn khi không có dau là giỗng nhau Theo bang 1.4 trên, khi đoạn văn được thêm dau

thì sự khác nhau giữa hai câu đó là chữ “lua” và chữ “lira” Sự khác biệt là bởi vi chữ “lua” có

3** &€ >

thé thêm dau với nhiều trường hợp khác nhau như “lua”, “lúa",”lùa”, “lủa”, “lia”, “lụa”, “lua”,

15

Trang 18

"lứa", “lira”, "lửa", “lita”, “Iya” Tuy nhiên, nếu như chúng ta thực hiện thêm dau riêng lẻ với

từng câu rồi mới kết hợp với nhau đẻ hình thành nên đoạn văn thì kết quả sẽ không khả quan

Có thé thấy dé lựa chọn được trường hợp chữ “lua” hay chữ "lửa" là dựa vào ngữ cảnh củanhững câu trước đó của đoạn văn Trong nghiên cứu này, chúng tôi quyết định thực hiện khôi

phục dau trên đoạn văn bản tiếng Việt bởi vì việc này sẽ giúp duy trì được ngữ cảnh và ý nghĩacủa toàn bộ đoạn văn, bảo đảm thông tin liên quan với nhau trong bối cảnh cụ thẻ

Nghiên cứu này nhấn mạnh vào sự quan trọng của việc khôi phục dau trong van ban

tiếng Việt, một van dé có ảnh hưởng đáng kê đến việc hiéu va truyền đạt ý nghĩa của văn bản.

Trong hai đoạn văn có nội dung khác nhau, việc thêm dau cho từ "lụa" và "lửa" tạo ra sự phânbiệt quan trọng Cả hai từ nay có thé mang nhiều ý nghĩa khác nhau khi không có dau, nhưngkhi được bỏ sung dau, chúng trở nên rõ ràng hơn trong ngữ cảnh của câu Phương pháp thêmdấu riêng lẻ cho từng từ và sau đó kết hợp chúng với nhau đề tạo thành đoạn văn không hiệuquả, do đó việc khôi phục dấu phải được thực hiện một cách toàn điện cho toàn bộ văn bản

Việc này không chi đảm bảo tinh chính xác trong việc hiểu ý nghĩa của từng từ ma

còn giữ cho ngữ cảnh được bảo toản, từ đó tạo ra một bức tranh toàn diện va rõ rang hơn về ý

nghĩa của văn bản Qua việc khôi phục đấu, chúng ta cũng thẻ hiện sự tôn trọng đối với ngônngữ và văn hóa của người Việt, vì việc sử dụng dấu trong tiếng Việt không chỉ là cách bảotoàn và phát triển ngôn ngữ mà còn là một phần không thẻ tách rời của văn hóa Việt Nam.Đồng thời, việc thực hiện nghiên cứu này cũng mở ra cơ hội cho việc áp dụng các phươngpháp tự động hóa trong việc xử lý văn bản tiếng Việt, mang lại lợi ích lớn cho cả nghiên cứu

va ứng dụng trong thực tiền.

1.4 Mục tiêu và phạm vi nghiên cứu

1.4.1 Mục tiêu nghiên cứu

Dé tài nghiên cứu về "Thêm dau tự động vào đoạn văn ban tiếng Việt không dau bằng

mô hình học sâu" tập trung vào việc áp dụng các phương pháp học sâu đề giải quyết vẫn đề tự

động thêm dau vào đoạn văn bản tiếng Việt không có dau Mục tiêu chính của nghiên cứu này

là phát trién một mô hình học sâu chính xác và hiệu qua, có kha năng dự đoán dau thanh trong

ngôn ngữ tiếng Việt không dấu.

16

Trang 19

Dé thực hiện mục tiêu nay, chúng tôi tiền hành các bước bao gồm thu thập và tiền xử

lý dữ liệu, thiết kế kiến trúc mô hình, lựa chọn ham mat mát phù hợp, và tinh chỉnh tham số

dé tôi ưu hóa hiệu suất của mô hình Nghiên cứu sẽ tiền hành thu thập vả tiền xử lý dữ liệu vănbản tiếng Việt không đấu, sau đó xây dựng và huấn luyện một mô hình học sâu phù hợp Quátrình nay bao gồm việc xử lý và mã hóa dữ liệu, cùng với việc tinh chỉnh và đánh giá mô hình

trên tập dữ liệu lớn.

Các biện pháp đánh giá cũng can được thiết lập dé đo lường hiệu suất và chat lượng

của mô hình Một khi mô hình đã được huấn luyện và đánh giá, có thé được triển khai và sử

dụng trong các ứng dụng thực tế như các công cụ tự động thêm đấu vào văn bản tiếng Việt

không dấu trên các nén tảng trực tuyến hoặc trong các ứng dung máy tinh cá nhân Điều nàygiúp cải thiện hiệu suất và hiệu quả trong việc xử lý văn bản tiếng Việt và tạo ra những sảnphẩm có giá trị trong cộng đồng người dùng

Mục tiêu cuối cùng là tạo ra một hệ thống tự động có khả năng thêm dấu vào văn bảntiếng Việt không dau một cách chính xác vả hiệu quả Qua việc áp dung các phương pháp học

sâu, nghiên cứu này mang lại đóng góp tích cực cho lĩnh vực xử lý ngôn ngữ tự nhiên và ứng

dung trong thực tế, đặc biệt là trong việc nâng cao chất lượng va hiệu suất của các ứng dụng

xử lý văn bản tiếng Việt.

1.4.2 Phạm vi nghiên cứu

Đề xây dựng một mô hình thêm dau cho đoạn văn tiếng Việt không dau, chúng tôican tiếp cận van đề từ hai góc độ chính như ngôn ngữ học và xử lý ngôn ngữ tự nhiên Trongtiếng Việt, dau thanh hoặc dấu điểm chính là yếu tố quyết định ý nghĩa của từ và câu Do đó,việc thêm dau cho văn bản tiếng Việt không chi là việc đơn giản thêm các dau câu vào cuốicác từ, mà còn đòi hỏi một hiểu biết sâu sắc vẻ cau trúc ngôn ngữ và ngữ cảnh

Từ góc độ ngôn ngữ hoc, cần phải năm vững các nguyên tắc va quy tắc của ngôn ngữ

xã x ‘ ss xà ` ` ` ` + ` ˆ £ a ~

Việt, bao gôm cách các âm tiết được hình thành và cách mà dâu thanh ảnh hưởng đên ý nghĩa

của từ Việc này đòi hỏi sự hiệu biết sâu rộng vê ngữ pháp, cú pháp và cách mà các từ và câu được tô chức và sử dụng trong ngôn ngữ.

17

Trang 20

Từ góc độ xử lý ngôn ngữ tự nhiên, cần phải áp dụng các phương pháp và công nghệ

hiện đại để tự động hóa quá trình thêm dau Điều nay có thé bao gồm sử dụng các mô hìnhmáy học và học sâu đề phân tích và dự đoán vị trí của các dấu thanh trong văn bản Các thuật

toán vả kỹ thuật xử lý ngôn ngữ tự nhiên cũng cần được áp dụng đẻ hiểu và xử lý ngữ cảnh

của văn bản, giúp đảm bảo tính chính xác và đồng nhất trong quá trình thêm dau Trong quá

trình phát triển mô hình, chúng ta cần phái sử dụng các phương pháp học sâu như mạng

nơ-ron hỏi quy (RNN) mạng nơ-nơ-ron hồi quy đài hạn - ngắn hạn (LSTM), mạng nơ-nơ-ron biến thé

như mạng nơ-ron tái cau trúc (RNN) hoặc mô hình Transformer với cơ chế Self-Attention và

các cơ chế truyền đạt thông tin hiệu quả, đã chứng minh được tính hiệu quả trong nhiều ứngdụng NLP đề huấn luyện mô hình với dữ liệu đầu vào là văn bản tiếng Việt không dấu và đầu

ra là văn bản có dau.

Tóm lại, việc xây dựng một mô hình thêm dấu cho văn bản tiếng Việt không dấu đòi

hỏi sự kết hợp giữa kiến thức về ngôn ngữ học và sự sáng tạo trong việc áp dụng các phương

pháp và công nghệ xử lý ngôn ngữ tự nhiên Điều này sẽ đảm bảo rằng quá trình thêm dấu

được thực hiện một cách hiệu quả và chính xác, giữ cho ý nghĩa va ngữ cảnh của văn bản được

bao tồn và truyền đạt đúng đắn Đối với đề tài nghiên cứu này, chúng tôi thực hiện xây đựng

mô hình thêm dau cho đoạn văn bản tiếng Việt không dau, không gồm các van dé liên quan

khác như phân loại văn bản, phân tích cảm xúc Mô hình được xây dựng và huấn luyện chi

áp dụng đối với văn bản tiếng Việt, không áp dụng cho các ngôn ngữ khác

18

Trang 21

CHƯƠNG 2 CO SỞ LÝ THUYET

2.1 Đặc điểm về các thành phần cấu trúc trong ngữ pháp tiếng Việt

2.1.1 Đặc điểm dấu thanh trong ngữ pháp tiếng Việt

Tiếng Việt, giống như nhiều ngôn ngữ có dấu, có một hệ thống dấu thanh đặc sắc

đóng vai trò quan trong trong việc biéu điển ý nghĩa và phát âm chính xác của từ ngữ Đây là

một ngôn ngữ có đặc điểm diacritic (có dau) cao nhất so với các ngôn ngữ khác cùng loại.Tiếng Việt dựa trên bang chữ cái Latinh, với tong cộng 29 chữ cái, bao gồm 11 nguyên âm và

18 phụ âm Trong số này, 22 chữ cái thuộc bang chữ cái Latinh ("f", "j", "w" và "z" đã bị xóa)

va 7 chữ cái còn lại là các chữ cai mới được tạo ra Ngoài ra, có 5 dấu thanh điệu được sử dụng

để mô tả âm điệu của một âm tiết và có thê được đánh dau trên các nguyên âm (a, e, i, o, u)

Những dấu hiệu giai điệu nay bao gồm:

3 Dấu huyền à a, a, â, è, é, i, ò, 6, ờ, a ử, ÿ

4 Dau hỏi a a, ä, a, ẻ, Ê, i, 6, 6, ở, ủ, ử, ¥

|

5 Dau nga a ã, a, a, & é, 7, 6, 6, 6, ũ, ữ, ÿ

|

6 Dấu nặng a ạ, ă, â, c Ê j, ọ, Ô, ợ, u, ự, Y

Trong tiếng Việt, dau thanh được đặt trên tat cả các chữ cái nguyên âm và một chữ cái

phụ âm (d), tạo ra 22 ký tự đầu vào không có dau, từ đó có thẻ suy luận được 89 ký tự có dấu.

Quy tắc chuyên đôi từ chữ không dau sang chữ có dau được mô tả trong bảng 2.1 Những đặcđiểm chính này của chính tả tiếng Việt đóng vai trò quan trọng trong việc hiểu và xử lý văn

19

Trang 22

ban, đặc biệt là trong các ứng dụng NLP (Xử lý Ngôn ngữ Tự nhiên), nơi khôi phục dau thanh

đóng một vai trò quan trọng trong việc xứ lý và phân tích ngôn ngữ.

2.1.2 Đặc điểm câu trong ngữ pháp tiếng Việt

Câu là đơn vị của ngôn ngữ, có chức năng thông tin, diễn đạt tương doi trọn vẹn một

¥, có cấu tạo ngữ pháp nhất định và có ngữ điệu kết thúc Câu được đánh dau bang dau kết

thúc cudi câu (khi viết) và dùng ngữ điệu kết thúc câu (ngữ điệu kín) khi nói đọc Câu chứa

đựng một thông tin, thé hiện một ý tương đối trọn vẹn, hoặc phan ánh phần hiện thực, tư tưởng,

thái độ Một đơn vị hay kết cấu ngữ pháp chỉ là câu khi có chức năng thông tin Nói cách

khác, những đơn vị nào và kết cau ngữ pháp không có chức năng thông tin thì chưa phải là

câu Câu là đơn vị không có sẵn trong ngôn ngữ ma là sự kết hợp tự do của đơn vị có sẵn (tử,

cụm từ cô định) hoặc của những đơn vị không có sẵn (cụm từ tự do)

2.1.2.1 Cụm từ cố định

Cum từ có định là đơn vị do một số tir hợp lại ton tại với tư cách một don vị có sẵnnhư từ, có thành tố cau tạo và ngữ nghĩa ôn định như từ Cum từ cố định được phân loại nhưthành ngữ và ngữ có định (quán ngữ và ngữ có định định đanh) Thành ngữ là cụm từ cố địnhhoàn chỉnh vẻ cau trúc và ý nghĩa Nghĩa của chúng có tính hình tượng và gợi cảm Ví du: “bacọc ba đồng”, “me tròn con vuông”, "ném đá giấu tay”

Quán ngữ là ngữ có định, được dùng lâu dan thành quen, có tinh ôn định tương đối

vẻ kết cau, có tính thành ngữ vẻ nghĩa khá thấp và không mang tính biểu trưng, tính hình tượng[11] Một số quán ngữ có ý nghĩa từ vựng như “Thit chó, rượu đế” là một loại thức ăn và đồuống ở Việt Nam; “Dau đuôi, chuôi nón” là toàn bộ một sự việc, van dé Bên cạnh đó, phầnlớn quán ngữ còn có ý nghĩa chức năng và tình thái như “L& mà ” dùng dé dién tả một sự

việc, hành động không mong muỗn xảy ra; “That ra thì ” diễn tả một sự việc, ý kiến trái

ngược với những gì đã được nói trước đó Ngoài ra, còn có nhiều ví dụ về ý nghĩa từ vựng như

“Tiền nhiều tật nhiều”, “Của cho không bằng cách cho” hay vi dụ về ý nghĩa chức nang và

tình thái như “Thôi thi ”, “Biét đâu ", *Nói như vậy thi ”,

20

Trang 23

Ngữ cổ định định danh là những cụm từ biêu thị các sự vật, hiện tượng hay khái niệm

nao đó của thực tế Nó bao gồm những cụm từ thường được gọi là từ ghép như “xe dap”, “may

tiện", “ca vàng”, “cà chua”, “do dai”, và những cụm từ thường được gọi là ngữ cỗ định như

“đường đồng mức”, “phương năm ngang”, "máy hơi nước”, (theo Nguyễn Thiện Giáp Từvựng học Tiếng Việt, trang 70 NXB Giáo dục Việt Nam) Ngữ định danh được chia ra lam

hai loại là Ngữ định danh hòa kết và Ngữ định danh hợp kết Ngữ định danh hòa kết là những

cụm từ ma ý nghĩa của chúng không thé phân tích thanh các yếu tổ nghĩa tương ứng với ¥

nghĩa của các bộ phận tạo thành Các bộ phận cầu thành của ngữ định danh hòa kết đã mắt tính

độc lập, hòa lẫn với nhau để cùng biểu thị một khái niệm Ví dụ: bánh xèo, bánh bao,bánhchưng, cây cối Ngữ định danh hòa kết là đối tượng cần được gọi tên đã nhận tên gọi của

một đối tượng khác Do đó những nét nghĩa dùng làm cơ sở của tên gọi không phản ánh những

thuộc tính của đối tượng mới này, Vi dụ: Anh hùng ban phim, sửu nhi, Ngữ định danh hợpkết là những cụm từ của chúng có thé phân tích thành những yếu tố nghĩa tương ứng với ý

nghĩa của từng bộ phận tạo thành Nói cách khác, ngữ định danh hợp kết được dẫn xuất từ ý

nghĩa của các thành tô cấu tạo nên nó Trực tiếp phản ánh những thuộc tính của đối tượng

trong cau trúc ý nghĩa của mình Vi dụ: đèn ban, máy tính xách tay, ban thờ,

CỤM TỪ CÓ ĐỊNH

Ngữ co định Thành ngữ

(Mẹ tròn con vuông)

QUÁNNGỮ Ngữ cố định định danh

(Của dang tội ( Mặt trái xoan)

Hình 2.1 Sơ đồ cấu trúc của cụm từ cố định [11]

21

Trang 24

SỐ quy luật nhất định, cócau trúc đối xứng Ví dụ:

“Xanh vo dé long” Trong

cầu trúc thường có xuất

hiện từ như (trong thành

ngữ so sánh) Ví dụ: “Rach

nh tô dia”.

Thành ngữ có nghĩa khái

niệm và nghĩa của nó thể

hiện nghĩa của toàn bộ tô

hợp, khác hơn, mới hơn so

với tông sô nghĩa của các

Quan hệ cú pháp nội tại không chặt chẽ quán ngữ có

khi dài như nói khí vô phép,

khổ một nỗi là ;

khi

cũng có

ngắn như: “#ước

hết”, “tat nhién”, Quan

ngữ thường có cau trúc không

chặt chế như thảnh ngữ Do

vậy, một số trường hợp neu

thêm vào, bớt đi trong kết cầu

của chúng một đơn vị hay

thay thế một kết cấu tương

đương khác cũng không ảnh

hưởng gì đến ý nghĩa chức

năng của chúng Ví dụ: Các quán ngữ có động từ nói như:

“nói tóm lai” có thể thay thé

bằng “nói ngắn gọn”, “nói

một cách ngắn gọn”, “nói

chung”,

Nghia của phần lớn quán ngữ

đều là nghĩa chức năng, nghĩa

nghĩa hơn quán

Trang 25

trên thot” nói lên tình trạng

nguy hiểm có thé đe doa sự

quán ngữ thường không theo

cơ chế ân dụ, hoán dụ, so

chủ yêu la đê liên ket, chuyên

mạnh nội dung nao đó can

chuyên đạt Ví dụ: “khé

noi”, “suy cho cùng”

Quan ngữ có tính ham súc.

biểu trưng, tính hình tượng,

không cao so với thành ngữ.

tượng Có cầu tạogần giống với cau

tạo từ ghép chính

Có phụ tính

trung gian giữa

Trang 26

nhập dé chứ không có tác |cụm từ cỗ định

dụng nêu bật một sắc thái của | với từ ghép

những cái đã có tên hoặc nêu

bật ra các sự vật, hiện tượng,

định đanh và thành ngữ.

2.1.2.2 Cụm từ tự do

Cum từ te do là đơn vị ngữ pháp khi đôi chiều cụm từ với tư cách là đơn vị cú pháp

người ta chỉ quan tam đến cụm tir tự do Nói cách khác, trong ngữ pháp, thuật ngữ “cụm từ"

đồng nghĩa với “cụm từ tự do” Cụm từ tự do bao gồm các cụm nhỏ như cụm đăng lập, cụm

chính phụ, cụm chủ vị Cum đẳng lap là cụm có từ hai thành tố trở lên, gắn bó với nhau bằng

quan hệ ngữ pháp đăng lập Ví dụ: “Có cây và hoa la” Các thành tổ trong cụm từ đăng lậpgiống như các số hạng trong chuỗi phép cộng Việc thêm hay bớt thành tổ đi không làm anhhưởng đến đặc điểm cơ bản của cụm từ đăng lập Ví dụ: “Sống, chiến đầu, lao động và họctập theo gương Bác Ho vĩ đại” Các thành tô trong cụm từ thường có ban chất từ loại giéng

nhau (thuộc cùng một từ loại), trong ví dụ trên có bồn thành tổ đều là động từ.

Cwm từ chính phụ là cụm có một thành tốt chính vả một hay nhiều thành tổ phụ đứng

trước và sau thành tố chính Cụm từ chính phụ bao gom cum danh từ, cum động từ va cum

tính từ Cụm đanh từ là từ loại tổ hợp do danh tir va một số từ ngữ phụ thuộc nó tạo thành.Cụm danh từ có ý nghĩa day đủ hơn và có cau tạo phức tạp hơn danh từ nhưng có chức năng

giống danh từ Ví dụ như thành t6 chính là danh từ chỉ người như “Cô giáo chủ nhiệm tôi là

mot người rất tốt bung”; thành tố chính là danh từ chi vật như “Chiéc xe đạp của tôi bj hu

roi”; thành tô chính là đanh từ chỉ khái niệm như “Tinh yêu gia đình là là một tình cảm thiêng

liêng ” Cụm động tử 1a tô hợp từ do động từ và một số từ ngữ phụ thuộc nó tạo thành Trong

đó thành tố trung tâm quan trọng là động từ còn các thành tố khác có chức năng bổ sung ýnghĩa về cách thức, mức độ, thời gian, địa diém, Ví dụ như thành tố chính là động từ chỉ hànhđộng như “Cậu ấy dang chạy rất nhanh ”: thành tổ chính là động từ chi trang thái cảm xúc

như “Cậu ấy rất vui khi được gdp lại bạn của anh ấy” Cụm tính từ là tô hợp do tính từ với

24

Trang 27

một số từ ngữ phụ thuộc nó tạo thành Cum tính từ có ý nghĩa day đủ và cau tạo phức tạp hon

tính từ nhưng chức năng trong câu giống tính từ Ví dụ như thành tổ chính là tính từ chỉ màu

sắc như “Cô dy mde chiếc váy màu xanh rat xinh dep”.

Cum chứ vị là trong câu có thẻ có nhiều chủ ngữ hoặc nhiều vị ngữ Trong nhiều câu

van, các thành phân câu được cầu tạo bởi cụm từ có hình thức cấu tao giống câu đơn bình

thường, gọi là cụm chủ vị và các câu văn đó được gọi là câu mở rộng thành phan Ví dụ: “Van

chương gây cho ta những tình cảm không có luyện những tỉnh cảm ta sẵn có ” (Hoài Thanh)

Cau trúc đơn giản của câu bao gồm “Van chương ” là chủ ngữ và phan còn lại là vị ngữ, cụm

danh từ trong câu là “những tình cảm ta không có”, “những tình cảm ta sẵn có ”

Bảng 2.3 Bảng phân tích cau tạo của những cụm danh từ và cau tạo của phụ ngữ trongmỗi cụm danh từ

Phụ ngữ trước Trung tâm Phụ ngữ sau

những tỉnh cảm ta sẵn có

Có thé thay hai phụ ngữ "ta/không c6” và “ta/sin có” trong cụm danh từ là nhữngcụm chú vị Tóm lại, cụm chủ vị khi nói hoặc viết, có thể ding những cụm từ có hình thứcgiống câu đơn bình thường, gọi là cụm chủ vị làm thành phan của câu hoặc của cum tử dé mởrộng câu Một số trường hợp sử đụng cụm chủ vị để mở rộng câu như “Ching ta có thé nóirằng trời sinh lá sen dé bao bọc cém, cũng như trời sinh cốm nằm ủ trong lá sen.” (Thạch

Lam) Cấu trúc đơn giản của câu bao gồm “Ching ta” là vị ngữ và phan còn lại là vị ngữ cũng

chính là cụm động từ Trong cụm động từ dy phụ ngữ là hai cụm chủ vị “trời/sinh lá sen đềbao bọc cém” và “tréi/sinh com nằm ủ trong lá sen.” Các thành phần câu như chủ ngữ, vị ngữ

va các phụ ngữ trong cụm danh từ, cụm động từ, cụm tính từ đều có thé được cau tạo bằng cụm chủ vi.

25

Trang 28

Bảng 2.4 Bảng so sánh sự khác nhau giữa cum từ cố định và cụm từ tự do.

Tiêu chí Cụm từ cố định Cụm từ tự đo

Don vị của hệ thống ngôn ngữ, | Được đặt ra trong lời nói, không tôn tai

Chức năng ồn định và tồn tại dưới dạng có | dưới dang đơn vị có sẵn Lap day từ vào

sẵn một mô hình ngữ pháp cho trước.

Ý nghĩa Có tính thành ngữ rất cao Không có tính thành ngữ

Nói tóm lại, cụm từ cố định và cụm từ tự đo là những thành phần quan trọng trongcâu Ví dụ “Thời tiết ngày hôm nay rất tốt nên gia đình chúng tôi dự định sẽ tô chức một bữa

tiệc nướng tại sân vườn phía sau nhà cùng với các món sơn hao hải vị và nem công cha phượng

vô cùng hấp dẫn.” Phân tích thành phần chính trong câu bao gom trang ngữ *Thời tiết hôm

nay rat tot” chỉ thời điểm dùng dé bé sung ý nghĩa cho hành động được nói đến trong câu, chủ

ngữ “gia đình chúng tôi” và phần còn lại là vị ngữ Phân tích chỉ tiết vị ngữ bao gồm động từtrung tâm “tô chức", phụ ngữ trước “dự định" và phụ ngữ sau bao gồm cụm danh từ (“một bữa

tiệc nướng”, “sân vườn phía sau nha”, “son hào hải vị”, “nem chả công phượng”), cụm tính từ

(“v6 cùng hấp dẫn”) và liên kết câu (“cùng với", “và”) Thành ngữ “son hao hải vị” và “nemchả công phượng” là những món ăn ngon, sang trọng và quý hiểm, cụm đăng lập cũng đượcthê hiện qua hai thành ngữ trên dùng dé làm rõ hơn ý nghĩa biéu cam, gợi hình, gợi cảm của

món ăn trong câu Ngữ có định định danh dang hoà kết “thời tiết" gọi tên trang thái của bau

khí quyên và dạng hợp kết “tiệc nướng” chỉ rõ ra loại hình bữa tiệc dùng đề bd sung thêm ýnghĩa cho hoạt động ngoài trời Có thê thấy việc sử dụng và phân tích các cụm từ này giúp cho

ngữ nghĩa của câu văn được rõ rang mạch lạc và chính xác.

26

Trang 29

2.1.3 Đặc điểm đoạn văn trong ngữ pháp tiếng Việt

Đoạn văn bản là đơn vị cơ sở của văn bản, là chính thé trên câu nên đoạn văn diễn đạt

một nội dung nhất định Tuy nhiên, về mặt nội dung đoạn văn có thê hoàn chỉnh ở một mức

độ nao đó (thé hiện légic — ngữ nghĩa), hoặc có thé không hoàn chỉnh (thé hiện biêu cam —

thâm mi) Sự không hoàn chỉnh về nội dung của đoạn văn là do thé loại văn bản hoặc ý đồ của

người viết chi phối chứ không phải tùy tiện hoặc vô ý thức Chính đặc điêm không hoàn chỉnh

nảy cho phép chúng ta phân biệt đoạn văn với văn bản Chỉ có văn bản mới có nội dung hoản

chỉnh, trọn vẹn, còn các đơn vị bậc dưới văn bản (trong đó có đoạn văn) không nhất thiết phải

hoàn chỉnh.

Đoạn văn bản chỉ có thé phản ánh một phan khía cạnh nội dung trong văn bản tiếng

Việt Vì thế nên trong cau trúc của một đoạn thường sẽ tôn tại một câu chu dé Câu chủ đẻ là

câu mang nội dung khái quát, thé hiện ý chính (chủ dé) của đoạn văn và bao giờ cũng là câuđầy đủ thành phần và thường tương đối ngắn gọn Câu chủ đề thường là một câu, có độ dàikhông lớn so với các câu khác trong đoạn văn Vẻ vị trí, câu chủ dé có thé đứng đầu đoạn văn,

có thé đứng cuối đoạn van Câu chủ đề cũng có thê gồm hai câu trở lên, gọi là câu chủ dé ghép.Câu chủ đề ghép có thể ghép liền (các câu đứng cạnh nhau), có thẻ ghép dan cách Ví dụ: “Day

văn chương ở phô thông có nhiều mục đích Trước hết, nó tạo điều kiện cho học sinh tiếp xúc

với một loại sản phẩm đặc biệt của con người, kết quả của một thứ lao động đặc thù - lao động

nghệ thuật Đồng thời, đạy văn chương chính là hình thức quan trọng giúp các em hiểu biết,

nam vững va sử dụng tiếng mẹ đẻ cho đúng cho hay Day văn chương cũng là một trong những

con đường của giáo dục thâm mi.” (Lê Ngọc Tra) Trong đoạn văn trên, câu “Dạy văn chương

ở phô thông có nhiều mục đích” là câu chủ đề của đoạn văn.

2.1.3.1 Lập luận đoạn văn theo phương pháp diễn dịch

Lập luận trong đoạn văn là xác lập một số lí lẽ và dẫn chứng nhằm hướng đến một

kết luận một ý kiến hay một nhận định nao đó Mỗi đoạn văn thường thé hiện một cách lập

luận nhất định Các kiêu lập luận thường gặp trong đoạn văn như diễn dịch, quy nạp, song

hành, móc xích, tông phân hợp Đầu tiên, lập luận đoạn văn diễn dịch là một phan quan trọngcủa văn viết, nơi mà ý chính được đề cập ở câu đầu tiên và sau đó được mở rộng và chỉ tiết

hóa trong các câu tiếp theo Câu chủ đề tang quát hóa nội dung chính của đoạn văn, trong khi

27

Trang 30

các câu tiếp theo cung cấp thông tín cụ thẻ và chỉ tiết để làm rõ ý chính Thông qua việc chứng

minh, phân tích và giải thích, đoạn văn dién dich mang lại sự hiểu biết sâu sắc và minh bạch

về chủ dé Cuỗi cùng, việc bô sung nhận xét cá nhân va cảm xúc giúp tạo ra sự gan gũi và kếtnói với độc giả thông qua góc nhìn cá nhân của tác giả Điều này giúp tạo ra sự hap dan và ảnhhưởng trong việc truyền đạt ý nghĩa của đoạn văn Ví dụ: * Vé đẹp của con người không chỉ

là hình thức bê ngoài mà còn nằm trong tài năng và tâm hon, Mặc di nhan sắc là một phan

của vẻ đẹp được trời ban cho mỗi người, nhưng tai năng va tư cách lại là những phẩm chat có

thé được vun trông và rèn luyện từ bên trong Giống như hương thơm của một bông hoa, vẻ

đẹp ngoại hình có thé thu hút sự chú ý ban đầu, nhưng chỉ có tài năng va sâu sắc trong tâmhồn mới khiến người khác nhớ mãi vẻ bạn Vì vậy, mỗi người cần biết quý trọng ban thân vachăm sóc cho nó Dù không phải ai cũng có vẻ ngoài hoàn hảo, nhưng mỗi người vẫn có thẻtỏa sáng và dé lại ấn tượng sâu đậm trong lòng người khác bang sự độc đáo va dang cấp của

mình Tài năng và vẻ dep tâm hồn là những phẩm chat có sẵn trong mỗi người, nhưng dé chúng

phát triển, chúng ta can không ngừng học hỏi và trau dồi kiến thức, từ đó nuôi dưỡng và phát

triển tâm hồn của chúng ta Chỉ khi đó, chúng ta mới thật sự yêu quý và trân trọng bản thân minh, và từ đó, có thé tạo ra sự ánh hưởng và giá trị trong cuộc sống của mình và những người

xung quanh.".

Doan văn trên là một ví dụ điển hình về cách lập luận điển dịch trong văn viết Bắtđầu với một tuyên bố tông quát, câu đầu tiên đã khăng định rằng vẻ đẹp của con người không

chỉ là vẻ bè ngoài mà còn bao gồm tài năng và tâm hon Câu này có thé được coi là câu chủ

dé, tông quát hóa nội dung chính của đoạn văn Tiếp theo, các câu sau mở rộng và chỉ tiết hóa

ý chính bằng cách so sánh vẻ đẹp ngoại hình với hương thơm của một bông hoa Chúng nhắn

mạnh rằng, trong khi vẻ đẹp bề ngoài có thể thu hút sự chú ý ban đầu, nhưng chỉ có tải năng

vả sâu sắc trong tâm hồn mới khiến người khác nhớ mãi về ban Các câu tiếp theo chứng minh

và phân tích ý chính bằng cách nêu ra những ví dụ cụ thể và nhắn mạnh vào sự cần thiết của

việc nuôi dưỡng và phát triển tâm hồn thông qua việc không ngừng học hỏi va trau đồi kiến

thức Cudi cùng, đoạn văn bô sung nhận xét cá nhân và cảm xúc bằng cách kêu gọi độc giả

thực hiện hảnh động nhim phat trién ban than va tao ra su anh hướng tích cực trong cuộc sôngcủa họ và xã hội Thông qua việc lập luận diễn dịch, đoạn văn này tạo ra sự hiểu biết sâu sắc

28

Trang 31

và minh bạch về chủ để vẻ đẹp của con người và khuyến khích độc giả thực hiện hành động

tích cực trong cuộc sống hàng ngày

2.1.3.2 Lập luận đoạn văn theo phương pháp quy nạp

Ngược lại với cách lập luận diễn dịch, đoạn văn được lập luận theo kiểu quy nạp làđoạn văn được trình bày cụ thẻ chỉ tiết từ nhỏ đến lớn, từ các ý rất chỉ tiết đến ý khái quát hơn,

từ ý luận cứ cụ thé đến luận điểm bao trùm Do đó mà nằm ở cuỗi đoạn văn thường là các câuchủ dé khái quát Ở vị trí này, câu chủ đề không nhằm mục đích định hướng nội dung triển

khai cho toàn đoạn ở các ý tiếp theo mà la đóng vai trò khép lại toàn bộ nội dung của đoạn ấy.Các câu trên được trình bày bằng các phương pháp như giải thích, lập luận, cảm nhận và rút

ra quan điểm cá nhân Ví dụ: * Trong cuộc sông, chúng ta có xu hướng thường muốn nghe

những lời khen thay vì những lời chê trách tiêu cực từ người khác Nhưng thực ra có phải lời

khen nào cũng tốt và lời chê nào cũng xấu? Thực ra, khen và chê đều là những quan điểm cánhân, đều là những lời nhận xét, góp ý nhằm giúp đối tượng ngày càng hoàn thiện hon, miễn

là khen, chê phải trung thực, chân thành và đúng mực Khen là đánh giá tích cực, còn chê là

ngược lại với nhận xét, đánh giá một cách tiêu cực Khen, chê diễn ra ở hầu hết các lĩnh vực,

ngành nghé, không phân biệt không gian, thời gian, địa điểm, lứa tuôi, Làm việc không tốt thì bị phê bình làm bài tốt thì được cô giáo khen, hay đơn giản chỉ là một hành động nhỏ như

nhặt rác bên ven đường vứt đúng vào nơi quy định cũng là một điều rất đáng quý Khen và chêđều quan trọng, không nên đặt nhẹ nhưng cần phải đúng myc, cần phải cân bang giữa chúng

Nếu khen đúng sẽ là lời khích lệ chúc mừng, nêu khen quá đà thì có thé sẽ là tang bốc Nếu

chi trích không khéo léo sẽ dé biến thành những lời khiếm nhã, lăng ma, xúc phạm Nếu ban

muốn bản thân trở nên hoàn hảo, hãy lắng nghe những nhận xét của người khác Khen, chê

giúp chúng ta nhìn nhận lại bản thân, sống có trách nhiệm hơn, nhận thức đứng đắn hơn về han thân, hướng đến một cuộc sông hoàn thiện về nhân cách, tam hon con người `.

Đoạn văn trên đã thé hiện một cách rõ ràng kỹ thuật lập luận theo kiêu quy nap, từ

những chi tiết cụ thé đến ý chính khái quát Bắt đầu băng việc mô tả tinh huéng phổ biến trong

cuộc sông, đoạn văn đưa ra nhận định rằng mọi người thường mong muốn sự khen ngợi vả

tránh xa sự chỉ trích tiêu cực Sau đó, nó phân tích ý nghĩa và tâm quan trọng của việc khen và

chê nhân mạnh vảo việc chúng có thé giúp người khác cải thiện bản thân Cuối cùng, đoạn

29

Trang 32

văn kết thúc bang việc nhân mạnh vào việc cân nhắc và cân bằng giữa khen và chê, đồng thời

khuyến khích sự trung thực và đúng mực trong phan hồi Doan văn này không chỉ cung cấpthông tin hữu ich ma còn thúc đây sự suy ngẫm va thảo luận về cách cải thiện giao tiếp va pháttriển bản thân

2.1.3.3 Lập luận đoạn văn theo phương pháp tông phân hợp

Tổng phân hợp là kiểu lập luận đoạn văn bao gồm sự phối hợp giữa diễn dịch và quynạp Câu mo đầu đoạn nêu lên được ý khái quát bao trùm toàn bộ nội dung của toàn đoạn, các

câu tiếp theo là những thông tin cụ thé, chỉ tiết (lí lẽ, dẫn chứng) vừa làm sáng to nội dung

khái quát (6 câu đầu), vừa chuẩn bị cho một nội dung khái quát ở cầu cudi nhưng mức độ cao

hơn Câu kết là ý khái quát lại một lần nữa toan bộ nội dung bao trùm ca đoạn van, mang tinhchất nâng cao, mở rộng Những câu trong đoạn văn được triển khai bằng cách thực hiện lập

luận, minh chứng, bình luận, nhận xét, để từ đó đề xuất được những quan điểm cá nhân,

khang định van đề Ví dụ: * Nghé thuật và tuyên truyện không phải hoàn toàn khác nhau,

nhưng cũng không hoàn toàn giống nhau Tuyên truyền cũng là một thứ nghệ thuật Nghệ

thuật tuyên truyền la một phan trong nghệ thuật nói chung Và bat cứ tác phẩm nghệ thuật nao

cũng có ít nhiều tính tuyên truyền nhưng nói như thế không phải có thé kết luận rằng nghệ

thuật và tuyên truyền chi lả một Tuyên truyền cao đến một mức nào đó thì tuyên truyền trởthành nghệ thuật Nghệ thuật thiết thực đến một mức nào đó thì nghệ thuật có tính rõ rệt là

tuyên truyền Cho nên, có thể có những người tuyên truyền không phải hoặc chưa phải là nghệ

sĩ nhưng không thể có những nghệ sĩ hoàn toàn không phải là người tuyên truyền (Trường

Chỉnh)".

Trong văn viết, việc lập luận một đoạn văn theo kiêu kết hợp diễn dịch và quy nạpđóng vai trò quan trọng trong việc truyền đạt ý nghĩa và tạo ra sự thuyết phục Một ví dụ chođiều này là đoạn văn trên của Trường Chinh Đoạn văn bắt đầu bằng việc diễn dịch ý chính từ

câu đầu tiên, chỉ ra rằng nghệ thuật và tuyên truyền không phải là hai khái niệm hoàn toàn

riêng biệt, ma thực tế chúng có sự liên kết và giao thoa Câu chủ đề "Tuyên truyền cao đến

một mức nao đó thì tuyên truyền trở thành nghệ thuật” đặt ở cuối đoạn văn, tông kết và khép

lại ý nghĩa của đoạn, nhắn mạnh vào quan điểm đã được đẻ cập Trong quá trình diễn dịch,

các câu tiếp theo giải thích va phát trién ý chính bằng cách cung cấp ví dụ và lập luận Các chi

30

Trang 33

tiết cụ thể như "Nghệ thuật thiết thực đến một mức nào đó thì nghệ thuật có tính rõ rệt là tuyên

truyền" giúp minh họa và thé hiện một cách rõ rang vai trò của tuyên truyền trong nghệ thuật.Cuỗi cùng, đoạn văn kết thúc bằng việc tóm tất lại ý chính và các điểm đã được trình bay trongđoạn văn Việc này tạo ra sự hoàn chỉnh và thuyết phục cho lập luận, đồng thời làm cho độcgiả hiểu rõ hơn về mối quan hệ giữa nghệ thuật và tuyên truyền

2.1.3.4 Lập luận đoạn văn theo phương pháp song hành

Đoạn văn lập luận theo kiểu song hành là đoạn văn triển khai nội dung song song giữa

các câu, đây là đoạn văn không có câu chủ đẻ, không nội dung nảo khái quát, bao trùm lên nội

dung nào Mỗi câu trong đoạn văn đều nêu lên một khía cạnh riêng biệt, không câu nào khái

quát câu nao, là một mắt xich quan trọng dé làm rõ lên nội dung đoạn văn Vi dụ: “ Tình bạn

là một điều thiêng liêng, cần thiết đối với cuộc sóng của mỗi người Tình bạn thân còn rat đặc

biệt so với những tình bạn khác Đó là thứ mà khiến con người ta không quản ngại những giannguy mà hy sinh cho nhau, giúp đỡ nhau lúc khó khăn, chia sẻ cho nhau những niềm vui, nỗi

buồn Nếu như trong những tình ban thông thường khác, hạnh phúc có thé dé dang tìm thay

nhưng khi hoạn nạn lại chăng có ai bên cạnh Nhưng bạn thân thì khác, chúng ta có thê nô đủa

với họ mà không cần suy nghĩ, tính toán thiệt hơn Vi vậy, một tinh bạn than thiết là một tình

ban rat cần thiết đối với mỗi người Ai trong số chúng ta cũng cô gắng sở hữu ít nhất một

người bạn thân."

Trong đoạn văn trên, lập luận được thẻ hiện theo kiểu song hành, mỗi câu mang đến

một khía cạnh riêng biệt về tình bạn ma không có câu nao khái quát hoặc bao trùm lên các câu khác Câu đầu tiên khăng định tình bạn là một điều thiêng liêng và cần thiết trong cuộc sống,

tạo nên tảng cho việc thảo luận về tỉnh bạn thân Câu thứ hai mở rộng ý về tình bạn thân, đặcbiệt so với các loại tình bạn khác, bằng cách nhấn mạnh vào tính đặc biệt và độ sâu của mốiquan hệ này Câu thứ ba tập trung vảo sự hy sinh vả sự giúp đỡ trong mỗi quan hệ bạn thân,

thê hiện qua việc chia sẻ niềm vui, nỗi buồn và đối diện với những khó khăn cùng nhau Câu

thứ tư so sánh tinh bạn thân với các loại tình bạn thông thường, nhắn mạnh vào tính đặc biệt

vả độ tin cậy của mối quan hệ bạn thân trong mọi tình hudng Câu cuối cùng kết luận rằng một

tinh bạn thân thiết là rat quan trọng và mỗi người cần có gắng có ít nhất một người bạn thân.

Trang 34

Mỗi câu trong đoạn văn đều tạo ra một khía cạnh mới, không có câu nao làm tổng quát hoặc

bao trùm lên các câu khác, tạo nên sự rd rang và minh bạch trong lập luận về tình bạn thân

2.1.3.5 Lập luận đoạn văn theo phương pháp móc xích

Khác với kiểu lập luận song hành, đoạn văn móc xích là đoạn văn mà có kết cấu vô

cùng chặt chẽ với nhau, câu trước liên kết với câu sau, dan xen nhau và thé hiện cụ thé bằng

việc lặp lại ý nghĩa, một vài từ ngữ đã xuất hiện ở câu trước vào câu sau Ở đoạn văn móc xích

có thé có hoặc không có câu chủ đề Ví dụ: “Ngay nay, van dé bảo vệ môi trường đang đượctoàn thé giới rat quan tâm Có thé nói rằng bảo vệ môi trường chính là hoạt động mang tinh xã

hội, cộng đồng rất cao Dé bảo vệ môi trường có rất nhiều cách, nhưng hiệu qua nhất là mỗi

người trong số chúng ta cần phải nhận thức ra được việc ô nhiễm môi trường, chung tay, góp

sức của mỗi cá nhân và toàn xã hội dé thực hiện điều đó Nếu chúng ta có ý thức mỗi tuầntrồng một cây xanh, mỗi tháng đi thu gom rác thai một lần va mỗi năm sử dụng túi nilon ít đi

thì đã góp một phần không hề nhỏ vào việc bảo vệ môi trường của toàn xã hội Mỗi chúng ta

hôm nay hãy làm từ những việc nhỏ nhất đẻ làm cho môi trường mà chúng ta đang sinh sông

trở nên xanh, sạch, đẹp hơn Mục tiêu của chúng ta la giảm thiêu các tác hại của biến đôi khí

hậu trên phạm vi toàn cầu mà nguyên nhân chính là 6 nhiễm môi trường Vi vậy, bảo vệ môi

trường dang lả van đề vô củng cấp bách hiện nay Mỗi vật trên trái đất đều mang trong minh

một sứ mệnh góp phan làm dep sự sống nay, chính vì vậy chúng ta đừng vì những nhu cầutrước mắt mà giết chét đi những cuộc sống tươi đẹp mat hàng triệu năm đã gây dựng lên Hãy

bảo vệ môi trường, bảo vệ hành tinh ma chúng ta đang sinh sông dé nó mãi là một màu xanh

vĩnh cửu ".

Đoạn văn trên thê hiện một lập luận móc xích về van dé bảo vệ môi trường, trong đómỗi câu tiếp theo liên kết chặt chẽ với câu trước đó, đan xen ý nghĩa và từ ngữ đã xuất hiệntrước đó Câu dau tiên đưa ra tuyên bố chung về sự quan trọng của van dé bảo vệ môi trường

và mức độ quan tâm toàn cau đối với nó Câu thứ hai nêu rõ rằng bảo vệ môi trường là một

hoạt động xã hội và cộng đồng rất cao, Câu tiếp theo tập trung vào phan quan trọng nhất củavan dé, đó là vai trò của từng cá nhân trong việc bảo vệ môi trường, đồng thời nhắn mạnh vao

sự cần thiết của sự tham gia hàng ngày của mỗi người Câu sau đó mở rộng vẻ những cách nhỏ

dé môi cá nhân đóng góp vao việc bảo vệ môi trường, từ việc trông cây, thu gom rác đên việc

32

Ngày đăng: 22/02/2025, 23:44

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Pham, T. H., Pham, X. K., &amp; Le-Hong, P. (2017, December). On the use of machine translation-based approaches for Vietnamese diacritic restoration. In 2017 International Conference on Asian Language Processing (IALP) (pp. 272-275) Sách, tạp chí
Tiêu đề: On the use of machine translation-based approaches for Vietnamese diacritic restoration
Tác giả: Pham, T. H., Pham, X. K., Le-Hong, P
Nhà XB: 2017 International Conference on Asian Language Processing (IALP)
Năm: 2017
[4] Hung, B. T. (2018, November). Vietnamese diacritics restoration using deep learning approach. In 20/8 10th International Conference on Knowledge and Systems Engineering (KSE) (pp. 347-351) Sách, tạp chí
Tiêu đề: Vietnamese diacritics restoration using deep learning approach
Tác giả: Hung, B. T
Nhà XB: 10th International Conference on Knowledge and Systems Engineering (KSE)
Năm: 2018
[5] Luu, T. A., &amp; Yamamoto, K. (2012, November). A pointwise approach for Vietnamese diacritics restoration. In 20/2 International Conference on Asian Language Processing (pp. 189-192) Sách, tạp chí
Tiêu đề: A pointwise approach for Vietnamese diacritics restoration
Tác giả: Luu, T. A., Yamamoto, K
Nhà XB: 20/2 International Conference on Asian Language Processing
Năm: 2012
[6] Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsích, Xiang-Rui Wang, and Chih-Jen Lin,“LIBLINEAR: A library for large linear classification”, Journal of Machine Learning Research, 2008, 1871-1874 Sách, tạp chí
Tiêu đề: LIBLINEAR: A library for large linear classification
[7] M.-T. Luong, H. Pham, and C. D. Manning, “Effective approaches to attention-basedneural machine translation,” in Proceedings of the 2015 Conference on Empirical Methodson Natural Language Processing, Lisbon, Portugal, 2015 Sách, tạp chí
Tiêu đề: Effective approaches to attention-based neural machine translation
Tác giả: M.-T. Luong, H. Pham, C. D. Manning
Nhà XB: Proceedings of the 2015 Conference on Empirical Methods on Natural Language Processing
Năm: 2015
[8] K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a method for automatic evaluationof machine translation,” in Proceedings of the 40th Annual Meeting of the Association forComputational Linguistics. Pennsylvania. United States: Association for ComputationalLinguistics, 2002, pp. 311-318 Sách, tạp chí
Tiêu đề: Bleu: a method for automatic evaluation of machine translation
Tác giả: K. Papineni, S. Roukos, T. Ward, W.-J. Zhu
Nhà XB: Association for Computational Linguistics
Năm: 2002
[9] Almanaseer, W., Alshraideh, M., &amp; Alkadi, O. (2021). A deep belief network classification approach for automatic diacritization of arabic text. Applied Sciences, 11(11), 5228 Sách, tạp chí
Tiêu đề: A deep belief network classification approach for automatic diacritization of arabic text
Tác giả: Almanaseer, W., Alshraideh, M., Alkadi, O
Nhà XB: Applied Sciences
Năm: 2021
[16] N. Kitaev, D. Klein, Constituency parsing with a self-attentive encoder, arXiv preprint arXiv:1§05.01052 (2018) Sách, tạp chí
Tiêu đề: Constituency parsing with a self-attentive encoder
Tác giả: N. Kitaev, D. Klein
Nhà XB: arXiv
Năm: 2018
[17] J. Devlin, M.-W. Chang, K. Lee, K. Toutanova, Bert: Pre-training of deep bidirectional transformers for language understanding, arXiv preprint arXiv:1810.04805 (2018) Sách, tạp chí
Tiêu đề: Bert: Pre-training of deep bidirectional transformers for language understanding
Tác giả: J. Devlin, M.-W. Chang, K. Lee, K. Toutanova
Nhà XB: arXiv
Năm: 2018
[3] Bình, N. D. (2017). Nghiên cứu và phát triên mô đun thêm dấu tiếng việt tự động trong dịch vụ SMS trên thiết bị smartphone (Doctoral dissertation, Trường Dai học Bách khoaHà Nội) Khác
[19] N. Parmar, A. Vaswani, J. Uszkoreit, L. Kaiser, N. Shazeer, A. Ku, D. Tran, Image transformer, arXiv preprint arXiv: 1802.05751 (2018) Khác
[20] C.-Z. A. Huang, A. Vaswani, J. Uszkoreit, N. Shazeer, I. Simon,C. Hawthorne, A. M Khác
Dai, M. D. Hoffman, M. Dinculescu, D. Eck, Music transformer, arXiv. preprint arXiv:1809.04281 (2018) Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN