Ngoài ra, mặc dù đã có một số nghiên cứu khảo sát một vài YTTV trong tiếng Việt, nhưng chưa có công trình nghiên cứu quy mô lớn nào sử dụng các phương pháp thực nghiệm XDDTTG cho việc kh
Trang 1» EH «
NGUYEN TUYET NHUNG
KHAO SAT CAC YEU TO TU VUNG
TRONG DO DO PHONG CACH CAC VAN BAN BAO CHÍ TIENG VIET
(SO SANH VOI TIENG ANH)
LUẬN ÁN TIEN SI NGON NGỮ HỌC
SO SÁNH ĐÓI CHIẾU
Thành phố Hồ Chí Minh - năm 2023
Trang 2» “
NGUYÊN TUYÉT NHUNG
KHẢO SÁT CÁC YEU TO TỪ VỰNG
TRONG ĐỘ ĐO PHONG CÁCH
CÁC VĂN BAN BAO CHÍ TIENG VIET
(SO SANH VOI TIENG ANH)
Ngành: Ngôn ngữ hoc so sánh đối chiếu
Mã số: 92220241
LUẬN ÁN TIEN SĨ NGÔN NGỮ HỌC SO SANH DOI CHIEU
NGƯỜI HƯỚNG DẪN KHOA HỌC:
Trang 3Tác giả luận án xin gửi lời cảm ơn sâu sắc đến tập thể Giáo viên hướng dẫn:
PGS TS Đinh Điền và TS Nguyễn Thị Như Ngọc Thầy, Cô đã hết lòng hỗ trợ
và tận tình hướng dẫn cho tác giả luận án ngay từ những ngày đầu tiên thực hiện
dé tài cho đến ngày hôm nay
Bên cạnh đó, những bài giảng và kiến thức đến từ Quý Thầy Cô của KhoaNgôn ngữ học, Trường Đại học Khoa học xã hội và Nhân văn, cùng với Quý Thầy
Cô thuộc các đơn vị khác trong và ngoài Nhà Trường đã giúp tác giả luận án có
được những tri thức quý báu từ nền tảng đến chuyên sâu thuộc lĩnh vực Ngôn ngữ
học và Xử lý Ngôn ngữ Tự nhiên Đó là những viên gạch đầu tiên dé đề tài đượcxây dựng, phát triển và hoàn thiện
Tác giả luận án cũng chân thành gửi lời cảm ơn đến gia đình, đồng nghiệp vàbạn bè đã ủng hộ trong suốt quá trình tác giả luận án thực hiện đề tài Tất cả những
tinh cảm quý báu này, tác giả luận án xin ghi lòng tac dạ, lấy đó làm động lực dé
vượt qua những khó khăn, trở ngại.
Một lần nữa, tác giả luận án xin cảm ơn tắm lòng của Quý Thay Cô và tat cả
những người thân yêu đã luôn ở bên cạnh, ủng hộ và dành cho em những lời khuyên vô giá.
Trang 4Loi cam doan
Tôi cam đoan đây là công trình nghiên cứu do dich thân tôi thực hiện Tat cả
hình ảnh, đồ thị, bảng biểu đều dựa trên những thông tin và dữ liệu xác thực Tất
cả ngữ liệu tiếng Việt và tiếng Anh có nguồn gốc và xuất xứ rõ ràng
Tác giả luận án
Nguyễn Tuyết Nhung
Trang 5tiếng Anh và tiếng Việt
0.2 Mục đích nghiên cứu và câu hỏi nghiên cứu -.-.- «+ + s=++s++ 3
0.3 Đối tượng và phạm vi nghiên cứu -¿¿+22+++++22++z+rerzxserrrrkx 3
0.3.1 Đối tượng nghiên cứu 222c:++2222Cv2vvvrrrttrrrtrrrrrrrrrrrrres 3
0.3.2 Pham vi nghiên CỨU ¿-¿- ¿6+5 S2SS‡E2EE‡EvEEEEkskrkrkrkrrree 4
0.4 Ngữ liệu, phương pháp va công cụ nghiên cứu - + ++ 6
0.4.1 Ngữ liệu nghiên cứu ¿ - + 25+ 5++++*£xt+srezxexerrrerreree 6
0.4.1.1 Ngữ liệu tiếng Việt -22222222222222211221222222eceeee 60.4.1.2 Ngữ liệu tiếng Anh -.-¿¿-©2222cc2ccvvrretrrvrrrrrrrrrrree §
0.4.2 Phương pháp nghiên cứu ¿+5 csx+tsv£vEvxserveveerrrerrre 11 0.4.3 Công cụ nghiên CUU 6xx ghe 12
0.5 Ý nghĩa khoa học và thực tiễn -2¿-5222+++2222++creEEExrrrrrrkrerrrres 18
0.5.1 Ý nghĩa khoa học sssccsssssseesssssessssssseessssssesssssseeesesssesesssseeeessseeseesssee 180.5.2 ¥ nghia thue 8n 19
0.6 Cau trúc của luận ánn -2 2¿222+++222EE++tEEEEE+2222312222112 222212 ccrrkk 20
CHƯƠNG 1: TONG QUAN NGHIÊN CỨU VÀ CƠ SỞ LÝ LUẬN 281.1 Các công trình nghiên cứu về các yếu tô từ vựng trong độ đo phong cách
.1.1 Các công trình nghiên cứu về các yếu tố từ vựng trong độ đophong cách tiếng Anh -2 ©++++22EE+2+t2222E2EE2EE2EE2EEerrrrrvee 28
1.2 Các công trình nghiên cứu về các yếu tố từ vựng trong độ đophong cách tiếng ViỆt -22¿¿©222222222E22t2221112221111 2.1211 c2 35
1.2 Phong cách ngôn ngữ và độ đo phong cách -5-5-5-5+c++ 38
.2.1 Phong cách ngôn ngữ -¿- ¿tt rời 38 2.2 Độ đo phong cách: - +5: + tre ren 40
.2.3 Ứng dụng của độ đo phong cách và Ngôn ngữ học điều tra 45
Trang 6"mm .ố5ố 52
.4.2 Tiêu chí xác định ranh giới từ ¿5+2 54 4.2 Tach từ va gán nhãn từ vựng cho khối ngữ LGU 60
.4.3 Một số lớp từ trong hệ thống từ vựng tiếng Việt - 66
1.5 Các yếu tố từ vựng trong Độ đo phong cách -¿-2cccc+cccsse+ 55 5.1 Phân bồ chiều dài từ khi tính theo ký tự - 55
5.2 Phân bố chiều dài từ khi tính theo âm tiết . - 56
.5.3 Trung bình chiều dài từ khi tính theo ký tự - - 57
5.4 Trung bình chiều dài từ khi tính theo âm tiết . -:- 58
.5.5 Độ phong phú từ VUNG Set 59 5.6 Tần số từ khi tính theo phương pháp thống kê cơ bản 64
.5.7 Tần số từ khi tính theo phương pháp kiểm định thống kê 66
Si ha 68
CHƯƠNG 2: MUC ĐỘ ANH HUONG CUA CAC YEU TO TỪ VỰNG TRONG ĐỘ ĐO PHONG CÁCH CÁC VĂN BAN BAO CHÍ TIENG VIET: TRUONG HỢP CÁC YEU TO TỪ VUNG THUỘC PHƯƠNG DIEN HÌNH THUC 70 2.1 Mức độ ảnh hưởng của Phân bồ chiều dài từ khi tính theo ky tự 70
2.2 Mức độ ảnh hưởng của Phân bó chiều dài từ khi tính theo âm tiết 72
2.3 Mức độ anh hưởng của Trung bình chiều dai từ khi tính theo ký tự 84
2.4 Mức độ ảnh hưởng của Trung bình chiều dài từ khi tính theo âm tiét 88
bu 90
CHUONG 3: MỨC ĐỘ ANH HUONG CUA CÁC YEU TO TỪ VỰNG TRONG ĐỘ ĐO PHONG CÁCH CÁC VĂN BẢN BAO CHÍ TIENG VIET: TRUONG HỢP CÁC YEU TO TỪ VỰNG THUỘC PHƯƠNG ĐIỆN NỘI DUNG 91 3.1 Mức độ ảnh hưởng của Độ phong phú từ vựng tui 3.2 Mức độ ảnh hưởng của Tần số từ khi tính theo phương pháp thống kê cơ bản 105 3.2.1 Mức độ ảnh hưởng của Tần số từ xưng hô - 105
Trang 73.2.4 Mức độ anh hưởng của Tan số từ Hán Việt -: 20
3.2.5 Mức độ ảnh hưởng của Tần số từ nước ngoài - - 23
3.2.6 Mức độ ảnh hưởng của Tần số từ từ mới :z-:-+ 26 3.2.7 Mức độ ảnh hưởng của Tần số thành ngữ - : -+ 28
3.3 Mức độ ảnh hưởng của Tần số từ khi tính theo phương pháp phân tích tương ứng 3.3.1 Mức độ ảnh hưởng của Tần số từ xưng hô - 34
3.3.2 Mức độ ảnh hưởng của Tần số từ thực thể có tên -. 40
3.3.3 Mức độ ảnh hưởng của Tần số tác tử lập luận - - 45
ki 50
CHƯƠNG 4: SỰ TƯƠNG DONG VA KHÁC BIET VE MỨC ĐỘ ANH HUONG CUA CÁC YEU TO TỪ VỰNG TRONG ĐỘ DO PHONG CÁCH CÁC VĂN BAN BAO CHÍ TIENG VIỆT VA TIENG ANH - 152
4.1 Phân bố chiều dài từ khi tính theo ký tự 4.2 Trung bình chiều dài từ khi tính theo âm tiết 4.3 Độ phong phú từ vựng -. ¿-6- + 2+ St t2 2222121222112 163 4.4 Tần số từ khi tính theo phương pháp kiểm định thống kê 170
4.5 on 186
`: )' 186
¡0n -~
Tài liệu tham khảo
Trang 8Hình 0.1 Phần giới thiệu về TG của mục Góc nhìn
Hình 0.2 Thang độ đánh giá mức độ ảnh hưởng của YTTV đến nhiệm vụ
XDDTTG
Hình 0.3 Các câu lệnh trong Python
Hình 0.4 Cửa số RStudio sử dụng ngôn ngữ lập trình R
Hình 0.4a TXH1 của các nhà báo nữ, sinh từ 1975 trở về trước
Hình 0.4b TXHI các nhà báo nữ, sinh từ 1975 trở về trước và VBÂD
Hình 1.2 Phân tích nguồn tác giả của VBÂD
Hình 1.3 Ban Industrial Society and Its Future của UNABOMBER đăng trên
The Washington Post va The New York Times
Hình 1.4 Định dạng dữ liệu JSON
Hình 1.5 Định dạng dữ liệu XML
Hình 3.3.1a TXH3 của các TG nhà báo là nữ, sinh từ năm 1975 trở về trước
Hình 3.3.1b TXH3 của TG nữ là nhà báo, sinh từ năm 1975 trở về trước và VBAD
Hình 3.4.2a TTCT của các TG nữ là nhà báo, sinh từ năm 1975 trở về trước và VBAD
Hình 3.4.2b TTLL của các TG nữ là nhà báo, sinh từ năm 1975 trở về trước và VBAD
No oNb$© oO Fk NM Ow
57 58
141
143
145
147
Trang 9Bảng 1.1 Các chỉ số đo độ phong phú từ vựng TTR, W, H, S, và K
Bang 0.2 Các YTTV được khảo sát và đối chiếu trong luận án
Bảng 0.3 Các khối ngữ liệu nhóm trong VVC_Stylometry
Bang 0.4 Thông tin của VVC_ Stylometry va Telegraph Columnist Corpus
Bảng 0.5 Số lượng các lượt thực nghiệm xác định danh tính tác giả
Bảng 1.1 Từ vựng trong văn bản nghỉ van và trong văn bản của tác giả ứng viên
Bảng 1.2 Thang độ đánh giá kết quả xác định danh tính tác giả
Bảng 1.3 Các nhiệm vụ Phân tích nguồn TG do PAN tổ chức
Bảng 1.4 Các vụ án dân sự và hình sự có liên quan đến độ đo phong cách
Bảng 1.5 Các thực thé có tên thông dụng
Bang 2.1.1 So sánh PBCDT của các TG nữ là nhà báo và XI
Bảng 2.1.2 Đường cong PBCDT của TG 890 và XI
Bảng 2.1.3 So sánh PBCDT tính theo ký tự của TG nữ là nhà nghiên cứu và X2
Bảng 2.1.4 Đường cong PBCDT của TG 1020 và X2
Bảng 2.1.5 So sánh PBCDT của các TG nam là nhà báo và X3
Bảng 2.1.6 Đường cong PBCDT của TG 403 và X3
Bảng 2.1.7 So sánh PBCDT của các TG nam là nhà nghiên cứu và X4
Bảng 2.1.8 Đường cong PBCDT của TG 1057 và X4
Bảng 2.1.9 So sánh PBCDT của 10 TG thuộc các nhóm khác nhau và XŠ
Bang 2.1.10 Đường cong PBCDT của TG 342 và X5
Bang 2.1.11 Tỉ lệ chính xác của PBCDT khi tính theo đơn vi ký tự
Bảng 2.2.1 Tỉ lệ chính xác của PBCDT khi tính theo đơn vị âm tiết
Bảng 2.3.1 Bang 2.3.1 So sánh TBCDT của các TG nữ là nhà báo và XI
Bảng 2.3.2 Tỉ lệ chính xác của PBCDT khi tính theo đơn vị ký tự
Bảng 2.4.1 So sánh TBCDT của các TG nữ là nhà nghiên cứu và X2
Bảng 2.4.2 Tỉ lệ chính xác của PBCDT khi tính theo đơn vị âm tiết
Bảng 3.1.1 Số lượng lượt từ, dạng từ, từ xuất hiện một lần và từ xuất hiện hai
89
91 92
95
97 98
99
02
05 07 08 09
10
11
Trang 10Bảng 3.2.2 Ti lệ chính xác của tần sé TXHI khi tính theo thống kê cơ bản
Bang 3.3.3 Tỉ lệ chính xác của tần số TXH3 khi tính theo thống kê cơ bản
Bang 3.2.4 TTCT của các TG nữ là nhà báo
Bang 3.2.5 Ti lệ chính xác của tần sé TTCT khi tính theo thống kê cơ bản
Bang 3.2.6 TTLL của các nhà báo nữ
Bảng 3.2.7 Ti lệ chính xác của tần số TTLL khi tính theo thống kê cơ bản
Bảng 3.2.8 Ti lệ chính xác của tần số từ Hán Việt khi tính theo thống kê cơ bản
Bang 3.2.9 Ti lệ chính xác của tần số từ nước ngoài khi tính theo phương pháp
thống kê cơ bản
Bảng 3.2.10 Tỉ lệ chính xác của tần số từ mới khi tính theo thống kê cơ bản
Bang 3.2.11 Ti lệ chính xác của tần số thành ngữ khi tính theo thống kê cơ bản
Bang 3.3.1 Bốn bài viết được chon phân tích trơn ứng của TG 342
Bảng 3.3.2 Bốn bài viết được chọn phân tích tương ứng của TG 129
Bảng 3.3.3 Bốn bài viết được chọn phân tích tương ứng của TG 49
Bang 3.3.4 Ti lệ chính xác của tần số TXHI khi tính theo phương pháp phân
tích tương ứng
Bang 3.3.5 Tỉ lệ chính xác của tần số TXH3 khi tính theo phương pháp phân
tích tương ứng
Bang 3.3.6 Ti lệ chính xác của tần số TTCT khi tính theo phân tích tương ứng
Bảng 3.3.7 Tỉ lệ chính xác của tần số TTLL khi tinh theo phân tích tuong ứng
Bang 4.1 Tỉ lệ chính xác của phân bó chiều dài từ theo ký tự trong tiếng Việt
và tiếng Anh
Bảng 4.2 Ti lệ chính xác của phân bố chiều dài từ tính theo âm tiết trong tiếng
Việt và tiếng Anh
Bảng 4.3 Tỉ lệ chính xác của độ phong phú từ vựng trong tiếng Việt và tiếng Anh
Bang 4.4 Những từ có tần số cao nhất được các TG sử dụng trong
VVC_Stylometry
Bảng 4.5 Ti lệ chính xác của tan số từ khi tinh theo kiểm định thống kê trong
tiếng Việt và tiếng Anh
15
16
17
19 19
21 25
28
32 36 37 38
Trang 11\©_ œ ¬lI Dun fF WwW NY
¬ — = — —+ 0 RB ỐC
ĐĐPC
ĐPPTV TXH
TXHI
TXH2 TXH3
PBCDT
TBCDT TG
Từ xưng hô ngôi thứ nhất
Từ xưng hô ngôi thứ hai
Từ xưng hô ngôi thứ ba
Phân bó chiều dài từ
Trung bình chiều dài từ
Tác giả
Thực thé có tên
Tác tử lập luận
Van bản an danhYếu tô từ vựng
Xác định danh tính tác giả
Stylometric measure Vocabulary richness Vocative term
First personal vocative term Second personal vocative term Third personal vocative term Word-length distribution
Average word length
Author
Named entity Argumentative operator
Anonymous text
Word-level feature
Authorship attribution
Trang 12liên ngành giữa Ngôn ngữ học, Khoa học hình sự, Tâm lý học, Xã hội học, v.v.
(Savoy, 2020), ngày càng nhận được nhiều sự quan tâm vì tính ứng dụng cao, ví dụ
như tìm ra tác giả (TG) thực sự của bản di chúc có tranh chấp, tác phẩm văn chương
an danh, thư tuyệt mệnh hoặc thư tống tiền mạo danh, nặc danh Một vụ án từng gâychấn động nước Mỹ vào những năm cuối thập niên 90 liên quan đến một tên khủng
bố có bí danh Unabomber Nhờ vào giám định văn phong, nhất là cách sử dụng từ
vựng trong các bức thư nặc danh của tên khủng bố, cơ quan điều tra đã có manh mối
để lần ra thủ phạm là một giáo sư toán học tên là Theodore Kaczynsky (FBI, 2008)
Đặc biệt, trong kỷ nguyên công nghệ thông tin phát triển mạnh mẽ hiện nay,
ngoài những tiện ích do mạng Internet đem lại, tội phạm trên không gian mạng cũng
ngày càng tỉnh vi trong việc sử dụng các phương tiện giao tiếp trực tuyến, ví dụ như
mang xã hội, diễn dan thảo luận trực tuyến, email, chat, v.v dé thực hiện các hành
vi phạm tội Trong đó, danh tính của người viết thường được che giấu hoặc giả mạo,
gây khó khăn cho cơ quan điều tra trong việc truy tìm thủ phạm Trong ngànhPhong cách trắc học, các nhà nghiên cứu phải sử dụng độ đo phong cách (DPPC),
là những công thức dùng để lượng hóa phong cách viết của TG và từ đó xác địnhdanh tính tác giả (XĐDTTG) Dù TG có ý thay đổi cách viết nhưng trong tiềm thứcvẫn có một vài đặc trưng phong cách của TG đó được giữ nguyên (Holmes, 1997)
Trọng tâm nghiên cứu của DPPC là mức độ ảnh hưởng của các yếu tố ngônngữ Trong đó, nghiên cứu về các yếu tố thuộc cấp độ từ vựng, hay còn gọi là các
yếu tố từ vựng (YTTV) phát triển với tốc độ vô cùng ấn tượng Có rất nhiều YTTVkhác nhau được dé xuất cho ĐĐPC tiếng Anh được chứng minh tỉ lệ chính xác rat
cao khi ứng dụng trong việc XDDTTG (Barlow, 2013; Wright, 2017, v.v.) Tuy
nhiên, nghiên cứu về YTTV trong ĐĐPC văn bản tiếng Việt vẫn chưa phát triển
tương xứng với tiềm năng Vì vậy luận án được thực hiện nhằm tìm ra những
YTTV trong văn bản tiếng Việt có thé giúp XDDTTG đạt tỉ lệ chính xác cao, thôngqua việc tính toán nhiều nhóm ĐĐPC khác nhau
Trang 13thiếu hụt tài nguyên nghiên cứu, bao gồm ngữ liệu có chú thích và công cụ tự động.
Ngữ liệu phù hợp cho các nghiên cứu ĐĐPC phải đạt yêu cầu về chất lượng, kích
cỡ và cấu trúc (Brezina, 2018) Thông thường, số lượng văn bản càng nhiều thì việc
đánh giá hiệu quả của mô hình XDDTTG càng chính xác Đó là vì ngữ liệu lớn giúp
ta phát hiện được những quy luật sử dụng ngôn ngữ có thé bị an đi nếu chỉ sử dụng
hướng tiếp cận định tính Ngoài ra, mỗi văn bản phải được chú thích chính xác:thông tin xã hội học của TG (như giới tính, độ tuổi, ngành nghề), thời gian viết bài,v.v Điều này đòi hỏi rất nhiều công sức, thời gian và tài chính Với ngữ liệu lớn,
nhà nghiên cứu phải cần đến những công cụ và phương pháp phân tích phù hợp
Mặc dù đã có rất nhiều công cụ và phương pháp phân tích ngữ liệu được phát
triển, nhưng chúng chỉ mới được áp dụng trên ngữ liệu tiếng Anh, tiếng Pháp hoặc
một số ngôn ngữ giàu tài nguyên (rich-resource languages) Tài nguyên ngôn ngữ baogồm ngữ liệu số hóa, công cụ tự động trong tiền xử lý ngữ liệu số, công cụ thống kê
tự động, v.v Còn với tiếng Việt, một ngôn ngữ thuộc loại hình đơn lập, hiệu quả của
việc áp dụng các công cụ tự động dành cho ngôn ngữ thuộc loại hình khác vẫn còn là
câu hỏi còn bỏ ngỏ Ngay cả khi độ chính xác của những công cụ đạt mức chấp nhậnđược, thì việc ứng dụng chúng trong thực tiễn cũng sẽ gặp một số trở ngại nhất định
Chẳng hạn, khi cần bằng chứng đề phá án, việc trình bày kết quả nghiên cứu phảikèm theo giải thích đề hội đồng xét xử hiểu được bản chất của kết quả Điều này là vô
cùng khó khi sử dụng các thuật toán phức tạp như học máy (machine learning), học
sâu (deep learning).
Ngoài ra, mặc dù đã có một số nghiên cứu khảo sát một vài YTTV trong tiếng
Việt, nhưng chưa có công trình nghiên cứu quy mô lớn nào sử dụng các phương
pháp thực nghiệm XDDTTG cho việc khảo sát số lượng lớn các YTTV một cách
đồng loạt trong các bài viết thuộc chuyên mục ý kiến trên báo; cũng chưa có côngtrình nào đối chiếu mức độ ảnh hưởng của các YTTV này đến ĐĐPC tiếng Việt và
tiếng Anh Chính vì thế, tác giả luận án mạnh dạn tiến hành đề tài “Khảo sát các yếu
tố từ vựng trong độ đo phong cách văn bản báo chí tiếng Việt (so sánh với tiếng
Anh)”.
Trang 14hưởng của các YTTV trong ĐĐPC các văn bản báo chí tiếng Việt; (2) So sánh vàđối chiếu mức độ ảnh hưởng của các YTTV trong ĐĐPC các văn bản báo chí tiếng
Việt với tiếng Anh dé tìm ra những điểm tương đồng và khác biệt
Luận án xác định nhiệm vụ nghiên cứu bao gồm: Tính toán tỉ lệ thành công
của các YTTV khi thực nghiệm XDDTTG đề từ đó đánh giá mức độ ảnh hưởng củachúng trong ĐĐPC các văn bản báo chí tiếng Việt; So sánh tỉ lệ thành công của cácYTTV này trong các văn bản báo chí tiếng Việt với tỉ lệ thành công của các YTTV
trong các văn bản báo chí tiếng Anh
Theo đó, có hai câu hỏi nghiên cứu mà luận án sẽ trả lời: Câu hỏi nghiên cứu
1: Các YTTV có ảnh hưởng như thế nào đến ĐĐPC các văn bản báo chí tiếng Việt;
Câu hỏi nghiên cứu 2: Có những điểm tương đồng và khác biệt nào về mức độ ảnhhưởng của các YTTV đến ĐĐPC các văn bản báo chí tiếng Việt và tiếng Anh?
0.3 ĐÓI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
0.3.1 Đối trợng nghiên cứu
Đối tượng nghiên cứu của luận án là mức độ ảnh hưởng của các YTTV đến
DPPC các văn bản báo chí tiếng Việt và tiếng Anh
0.3.2 Pham vi nghiên cứu
Luận án được thực hiện trong phạm vi các yếu tố ngôn ngữ ở cấp độ từ vựng.Câu thuộc một bình diện khác hẳn với bình diện của các đơn vị của ngôn ngữ Cácđơn vị của ngôn ngữ đều làm thành những hệ đối vị (paradigme) có thành phần hữuhạn về số lượng, còn câu thì không thuộc một hệ đối vị nào (Cao Xuân Hạo, 2017,
tr 36) Do đó, luận án giới hạn phạm vi nghiên cứu ở cấp độ từ vựng
Đồng thời, để XĐDTTG, một nhiệm vụ liên quan đến ngôn ngữ cá nhân, luận
án tập trung khảo sát năm nhóm DPPC dùng dé lượng hóa phong cách viết của từng
TG Nhóm 1 và nhóm 2 là các YTTV thuộc phương diện hình thức, các nhóm 3, 4
và 5 là các YTTV thuộc phương diện nội dung (chi tiết về các nhóm ĐĐPC được
trình bay ở Chương 1):
Trang 15Nhóm 2: Nhóm độ đo liên quan đến trung bình chiều dài từ (TBCDT): gồm
hai yếu tố là TBCDT tính theo ký tự và TBCDT tính theo âm tiết
Nhóm 3: Nhóm độ đo liên quan đến độ phong phú từ vựng (ĐPPTV): gồm
năm chỉ số là TTR, W, H, S, K Bảng 0.1 liệt kê công thức tính toán và đặc điểm
của các chỉ số dùng để đo độ phong phú từ vựng TTR, H, S, W và K Trong đó: N
là tổng số lượt từ (word token) trong văn bản; V là tổng số dạng từ (word type)
trong văn bản, tức là từ vựng của văn bản; Vi là tổng số dạng từ xuất hiện i lầntrong văn bản; a là hằng số võ đoán (a=0,17)
Bảng 0.1 Các chỉ sé do độ phong phú từ vựng TTR, W, H, S, và K
Chỉ số Công thức
type / token ratio TTR | Phụ thuộc vào sô lượng dang từ và lượt từ.
TTR=V/N
Brunet’s W WwW W tương đôi không bị ảnh hưởng bởi chiêu dai van ban và vi thê mang
(Brunet 1978) nhiêu dâu ân phong cách TG.
V-a
Honoré’s H (Honoré, | H Phu thuộc vào từ xuât hiện một lân.
1979)
R= I00log N/(1 — (Vl1/E))
Sichel’s S Ss Phu thuộc vào từ xuât hiện hai lân Công thức này tương đôi bât biên
(Sichel 1975) với sô lượng lượt từ.
Nhóm 4: Nhóm độ đo liên quan đến tan số từ khi tinh theo phương pháp thống
kê cơ bản: gồm tan số tương đối được chuẩn hóa của 11 từ xưng hô (TXH), 11 thực thé
Trang 16Nhóm 5: Nhóm độ đo liên quan đến tần số từ khi tính theo phương pháp kiêm
định thống kê: gồm tan số của 11 TXH, 11 TTCT, 11 TTLL
Luận án khảo sát nhiều nhóm DPPC khác nhau dé kết quả đảm bảo độ tin cậy.Việc sử dụng một nhóm DPPC chưa đủ sức thuyết phục đề khái quát phong cách
viết của một TG, và khó có thé XĐDTTG một cách chính xác, bởi vì một nhóm
ĐĐPC chỉ mới xem xét trên một khía cạnh ngôn ngữ, chưa khảo sát những khía
cạnh khác trong ngôn ngữ của TG Đồng thời, một yếu tố ngôn ngữ định lượngphong cách hiệu quả phải vừa xuất hiện với tần số cao, lại vừa phải có độ bao
phủ rộng (Savoy, 2020, tr 6) Vì vậy, các YTTV được lựa chọn trong luận án phải
đảm bảo ít nhất một trong các tiêu chí:
Tiêu chí 1: Có thể được tính toán trong bat kỳ văn bản nào, cho dù là văn bản
ngắn hay dài, văn bản thô hay có gán nhãn Những YTTV được lựa chọn theo tiêuchí này thuộc các Nhóm 1, 2 và 3 nêu trên, tức là nhóm độ đo liên quan đến
PBCDT, TBCDT, ĐPPTV.
Tiêu chí 2: Có mặt trong gần như tất cả các văn bản của TG đang xét, hoặc ít
nhất là trong hai văn bản của TG đó, chỉ khác nhau về tần số sử dụng Những
YTTV được lựa chọn theo tiêu chí này thuộc các Nhóm 4 và 5, là hai nhóm độ doliên quan đến tần số từ Vì thế, luận án không khảo sát những từ như mặc dau (làbiến thể ngữ âm của mặc đà) bởi vì qua thống kê, yếu tố này có độ phủ rất hẹp va tần
số rất thấp trong khối ngữ liệu VVC_Stylometry Độ phủ hep và tần số thấp sẽ khiến
cho kết quả XĐDTTG giảm độ tin cậy
Với năm nhóm DHPC, số lượng YTTV được khảo sát trên ngữ liệu tiếng Việt
là 79 yếu tố, và số lượng YTTV được sử dụng để đối chiếu với ngữ liệu tiếng Anh
là 10 yếu tố Bảng 0.2 liệt kê các YTTV được khảo sát và đối chiếu trong luận án
Bảng 0.2 Các YTTV được khảo sát và đối chiếu trong luận án
STT YTTV Các YTTV được khảo sát Các YTTV được đôi chiêu
Trang 17-58-68 TTCT Y (11 yếu tố) ⁄
69-79 TTLL Y (11 yếu tố) v
Tổng số 79 10
0.4 NGỮ LIỆU, PHƯƠNG PHÁP VÀ CÔNG CỤ NGHIÊN CỨU
0.4.1 Ngữ liệu nghiên cứu
Ngữ liệu nghiên cứu trong luận án gồm có ngữ liệu tiếng Việt(VVC_Stylometry) và ngữ liệu tiếng Anh (Telegraph Columnist Corpus)
Nhiém vu XDDTTG duoc thuc hién trén co so đối sánh (a comparative basis)
giữa cá nhân này với cá nhân khác Vì vậy, phần then chốt trong XĐDTTG đó làviệc xây dựng một tập hợp các YTTV tương đối nhất quán trong các văn bản được
viết bởi cùng một TG Hay nói cách khác, khi xét đến những YTTV này, giữa cácvăn bản của một TG có sự tương đồng lớn hơn so với các văn bản của TG khác
Tuy nhiên, so với các tác phẩm văn chương hoặc các văn bản in, thì văn bản sốthường tương đối ngắn, chỉ vài trăm từ, có khi ít hơn Điều này làm cho việc
XĐDTTG trên không gian mang trở nên khó khăn hơn Tuy vậy, khi một TG có
nhiều bài viết, phong cách viết mang tính ồn định hon sẽ được hình thành
Do đó, để đảm bảo độ tin cậy va độ giá trị trong XDDTTG, các nhà nghiên
cứu thường sử dụng các phương pháp thực chứng dựa trên ngữ liệu lớn gồm tập hợp
các văn bản được lưu trữ ở dạng SỐ, được gọi là khối ngữ liệu (corpus) Khối ngữ
liệu là một tập hợp gồm các văn bản dạng nói hoặc viết, thường được số hóa dé máytính có thể đọc và xử lý được Khối ngữ liệu có thể thuộc loại tổng quát (đại diệncho một ngôn ngữ) hoặc loại chuyên biệt (tập trung vào một thể loại, một TG hoặc
Trang 18ngữ mà nhà nghiên cứu quan tâm.
Hai khối ngữ liệu VVC_Stylometry va Telegraph Columnist Corpus mang
tính đối sánh, đều thuộc loại khối ngữ liệu chuyên biệt (specialised corpus), vì
chúng là tập hợp con (bài viết thể hiện ý kiến, quan điểm và lập luận) của ngôn ngữ
mà luận án quan tâm (ngôn ngữ trong các văn bản báo chí).
0.4.1.1 Ngữ liệu tiếng Việt
Luận án sử dụng VVC_Stylometry, một khối ngữ liệu gồm 509 bài viết thuộcchuyên mục ý kiến do 48 TG viết cho chuyên mục Góc nhìn thuộc báo trực tuyếnVnExpress VVC_Stylometry được lưu trữ theo đường dẫn: https://drive.google
com/drive/folders/1 yOgRAZBd_wfs6ql1 g—ZkbBzZwZObpplc?usp=sharing, phiên
ban được sử dụng trong luận án gồm các bài viết được đăng tai từ năm 2014 đến
năm 2023.
Chuyên mục Góc nhìn được trang báo mạng điện tử VnExpress giới thiệu là
“Góc nhìn khách quan - Chia sẻ kinh nghiệm, quan điểm, đánh giá, bình luận cácvấn đề đời sống xã hội nhức nhối từ các nhà báo, chuyên gia cùng VnExpress” (theo
VnExpress, 2023) Chuyên mục Góc nhìn gồm bảy chủ đề: Chính trị & chính sách,Giáo dục & tri thức, Kinh doanh & quản trị, Môi trường, Văn hóa & lối sống, Y tế
& sức khỏe, Covid-19 VnExpress là tờ báo trực tuyến tiếng Việt có lượng truy cậplớn (theo Alexa Internet, Inc., 2019), đồng thời là một trong số ít những tờ báo có
hiển thị thông tin về TG Cụ thé, toàn bộ TG đều được hiển thị thông tin về ngành
nghề, tên (tên thật hoặc bút danh) và ảnh chân dung trong phần Giới thiệu tác giả.Một số TG được giới thiệu nhiều thông tin khác như năm sinh, nơi sinh, nơi ở hiện
nay, trình độ học vấn, vị trí công tác, thậm chí là sở thích hoặc chuyên môn Hình0.1 dưới đây minh họa cho phần giới thiệu TG của mục Góc nhìn
Trang 19Thanh tra và doanh nghiép
Banh mi thanh long
Đường đua của gan
Hình 0.1 Phần giới thiệu về TG trên mục Góc nhìn (Nguồn: VnExpress)
VVC_Stylometry được chia ra thành 48 khối ngữ liệu cá nhân tương ứng với
48 TG (xem Phụ lục Al — A4) và 8 khối ngữ liệu nhóm tương ứng với 8 nhóm TG
(xem Phụ luc A5 — A8).
(1) Khối ngữ liệu cá nhân
VVC_Stylometry được chia thành 48 khối ngữ liệu cá nhân, tương ứng với 48
TG ứng viên Mỗi khối ngữ liệu cá nhân này gồm những văn bản do cùng một TGviết ra, vì thế mỗi khối ngữ liệu con được coi là “ngôn ngữ cá nhân” của từng TG.Nói cách khác, mỗi khối ngữ liệu cá nhân đại diện cho phong cách viết của một TG
Một trong những tiêu chí dé lựa chọn TG nằm ở số lượng bài viết của TG đótrên chuyên mục Góc nhìn Nếu như việc phân tích phong cách văn phong theo
hướng định tính có thé thực hiện trên số lượng văn bản không cần quá lớn, thậm chí
có trường hợp là một tác phẩm, thì nhiệm vụ XDDTTG đòi hỏi số lượng văn banlớn hơn rất nhiều Do đó, luận án đặt tiêu chí lựa chọn những TG có càng nhiều bài
viết càng tốt Trong luận án, khối ngữ liệu VVC_Stylometry cũng bao gồm những
TG chỉ có hai bài viết, kết quả thu được từ những lượt thực nghiệm này được dùng
dé đối sánh với những lượt thực nghiệm gồm nhiều bài viết dé từ đó rút ra nhận xét
về ảnh hưởng của số lượng bài viết đến tỉ lệ chính xác khi thực nghiệm XPDTTG
(2) Khối ngữ liệu nhóm
Trang 20thôi là chưa đủ, mà khối ngữ liệu còn phải có tính thuần nhất cao cho một số kiểu
ngôn ngữ Khối ngữ liệu càng có tính thuần nhất cao thì việc khảo sát tỉ lệ chính xác
của YTTV càng chính xác Khi giải quyết bài toán liên quan đến nguồn TG, các yếu
tố phương ngữ, thời gian và thể loại của VBÂD phải là những yếu tố đầu tiên chỉ
phối việc thu thập và xây dựng ngữ liệu Ví dụ, nếu phải XDDTTG cho một truyệnngắn vào thế kỉ 20, ta cần thu thập các truyện ngắn của TG ứng viên trong thế kỉ 20
Tương tự, nễu XĐDTTG cho một bài viết ý kiến vào những năm dau thé kỉ 21, tacần thu thập những bài viết ý kiến thuộc khoảng thời gian đó
Trong VVC_Stylometry, các khối ngữ liệu nhóm được xây dựng bằng cáchkết hợp các khối ngữ liệu cá nhân dựa theo thông tin xã hội học của TG: giới tính
(nam hoặc nữ), ngành nghề (nhà báo hoặc nhà nghiên cứu), độ tuổi (sinh từ năm
1975 trở về trước hoặc sinh sau năm 1975) Đôi khi, thông tin về năm sinh hoặc độtuổi của TG cũng có thể được đề cập nhằm làm rõ hơn ảnh hưởng của yếu tố này
đến phong cách viết của TG
Trong mỗi nhóm, các TG ứng viên có thông tin xã hội học đồng nhất: trong
nhóm giới tính nam là các TG nam, trong nhóm nhà báo chỉ có các TG là nhà báo
chuyên nghiệp (theo thông tin ngành nghề tác giả được hiển thị trên chuyên mụcGóc nhìn), trong nhóm sinh từ năm 1975 trở về trước chỉ có những TG có năm sinhtrước mốc thời gian này Quy trình và các tiêu chí phân chia nhóm được trình bày
chỉ tiết trong Nguyễn Tuyết Nhung và cộng sự (2020) Các khối ngữ liệu nhóm
được liệt kê trong Bảng 0.3 dưới đây.
Bang 0.3 Các khối ngữ liệu nhóm trong VVC_Stylometry
Khôi ngữ liệu nhóm Số lượng TG
Nữ Nhà báo (< 1975) 3
Nữ_ Nhà báo (> 1975) 9
Nữ Nhà nghiên cứu (< 1975) Nữ_Nhà nghiên cứu (> 1975) 1 Nam _Nhà báo (< 1975)
Nam_Nha báo (> 1975) Nam_ Nhà nghiên cứu (< 1975) Nam_ Nhà nghiên cứu (> 1975) Ga Ơi CB
0.4.1.2 Ngữ liệu tiếng Anh
Trang 21Ngữ liệu tiếng Anh được sử dụng để đối chiếu là khối ngữ liệu Telegraph
Columnist Corpus do nhà ngôn ngữ học Grieve xây dựng (Grieve, 2007) Telegraph
Columnist Corpus gồm 1600 bài viết của 40 TG Khối ngữ liệu này gồm các bài
viết thuộc chuyên mục ý kiến, được thu thập từ chuyên mục Opinion của nhật báo
Daily Telegraph ở London, Anh Quốc Đây là tờ báo uy tín hàng đầu nước Anh,
được ra mắt vào ngày 29/6/1855 Năm 1995, tờ báo này giới thiệu trang web của
minh với tên gọi Electronic Telegraph, hién nay đổi tên thành
www.telegraph.co.uk.
Telegraph Columnist Corpus có những đặc điểm phù hợp dé thực hiện việc sosánh đối chiếu với khối ngữ liệu VVC_Stylometry bởi vì các văn bản trong cả hai
khối ngữ liệu này đều cùng một thể loại văn bản (bài viết đăng trên báo quốc gia).
cùng mục đích giao tiếp (thể hiện góc nhìn và bày tỏ quan điểm của TG về các vấn
đề nóng hồi trong xã hội), và được đăng tải trong quãng thời gian ngắn (dưới 10
năm) Một số bài viết của các TG trên chuyên mục ý kiến của hai tờ báo VnExpress
va Telegraph được trình bày ở Phu lục A9 — A10 Bang 0.4 mô tả thông tin cơ ban
về khối ngữ liệu VVC_Stylometry và khối ngữ liệu Telegraph Columnist Corpus
Bang 0.4 Thông tin của VVC_Stylometry và Telegraph Columnist Corpus
VVC_Stylometry Telegraph Columnist Corpus
Chuyén muc Géc nhin Opinion
So lượng tác giả | 48 tác giả 40 tác giả
Sô lượng bài báo | 509 bài 1.600 bài
Chủ đê Chính trị, văn hóa, giáo dục, kinh tê, | Chính trị, văn hóa, giáo dục, kinh tê,
y tẾ, v.v y tẾ, v.v.
Thời gian Đâu thê kỉ 21 (2014-2022) Dau thê ki 21 (2000 - 2005)
Tờ báo VnExpress Daily Telegraph
Ngôn ngữ Tiêng Việt Tiêng Anh
Quốc gia Việt Nam Anh Quéc
O đây có một điềm khác biệt giữa hai khôi ngữ liệu này, đó chính là thời điểm
đăng bai: VVC_Stylometry gồm các bài viết được đăng từ 2014-2022, Telegraph
Columnist Corpus là 2000-2005 Tuy nhiên, hai khoảng thời gian này vẫn có sự
tương đương khi xét trong cùng một giai đoạn lịch sử lớn hơn, cụ thể là những năm
đầu của thế kỉ 21, là đối tượng của nghiên cứu đồng đại
Theo Mai Ngoc Chir, Vũ Đức Nghiệu, và Hoang Trọng Phién (2008, tr 33), ta
có thê nghiên cứu ngôn ngữ theo quan điểm dong đại (synchronic), nghĩa là “ở mộttrạng thái cụ thể, vào một đoạn thời gian nào đó, được giả định như là “đứng im”
Trang 22không có gì thay đồi, hệ thống ngôn ngữ được coi như là hoàn toàn ồn định” Trongkhi đó, quan điểm lịch đại (diachronic) nghiên cứu ngôn ngữ đã có những biến đổi
gì trong các trạng thái xét theo tiến trình lịch sử Tuy là hai quan điểm khác nhau,
nhưng đồng đại và lịch đại không đối nghịch nhau mà thống nhất biện chứng vớinhau: nếu ta coi mỗi trạng thái ngôn ngữ là một “lát cắt” đồng đại, thì lịch đại chính
là một dãy liên tục mang tính kế thừa của chính những lát cắt đồng đại đó Còn đối
với lịch đại, thì đồng đại là một sự phân cắt ít nhiều mang tính chất ước lượng
Luận án được triển khai theo hướng nghiên cứu liên ngành Ngôn ngữ học tính
toán và Ngôn ngữ học khối liệu đối với văn bản báo chí ý kiến tiếng Việt Vì vậy,luận án phải xây dựng khối ngữ liệu có chú thích về ngôn ngữ lẫn chú thích siêu dữ
liệu (metadata, bao gồm thông tin TG, thông tin bài viết, v.v.), không thé kế thừa tài
nguyên như các nghiên cứu khác Điều này khiến cho khối ngữ liệu vẫn còn một sốđiểm cần phải hoàn thiện và cập nhật, cả về số lượng lẫn chất lượng thông tin
(hướng phát triển được trình bày ở cụ thể ở chương Kết luận).
0.4.2 Phương pháp nghiên cứu
0.4.2.1 Các hướng tiếp cận và phương pháp nghiên cứu
Khi phân tích, luận án sử dụng phương pháp luận hỗn hợp (mixed
methodology), két hợp các ưu điểm của cả hướng tiếp cận định tính lẫn định lượng.Các phương pháp được sử dụng trong luận án đều là phương pháp thực chứng
(empirical methods):
- Phương pháp thống kê mô ta (descriptive statistics): Phương pháp này
còn được gọi là thống kê khám phá (explorative statistics), được sử dụng để mô
tả/khám phá các đặc trưng cơ bản của dữ liệu và các hiện tượng được khảo sát.
Khởi điểm của bắt kỳ nghiên cứu định lượng nào cũng là đếm số lượng các yếu tố
Với sự hỗ trợ của máy vi tính, các nghiên cứu hiện nay có thể xử lý những vấn đềphức tạp với lượng dé liệu lớn hon bao giờ hết Trong luận án, các YTTV được
đếm và được tính toán theo một công thức cụ thé Có 46 YTTV (từ số 1 đến số 46 ởBảng 0.1) được phân tích bằng thống kê mô tả đơn biến để khảo sát một biến tại
một thời điểm
Với nhóm độ đo tần số từ khi tính theo phương pháp kiểm định thống kê, cácYTTV (từ số 47 đến số 79, Bang 0.1) còn được khảo sát bằng phân tích tương ứng
Trang 23(correspondence analysis) Đây là một phương pháp khám phá trực quan, giúp dokhoảng cách giữa VBÂD với các văn bản đã biết TG Từ đó giúp xác định ai có
nhiều khả năng là TG thực sự của VBÂD nhất (xem mục 2.7) Về mặt lý thuyết,
phân tích tương ứng dựa trên kiểm định thống kê chi-squared Tuy nhiên, nếu nhưkiểm định chi-squared chỉ có thé trả lời câu hỏi Có/Không đơn giản liên quan đến
sự khác biệt về mặt thống kê, không hề chỉ ra sự khác biệt đó nằm ở đâu, thì phân
tích tương ứng có thé cho thấy bức tranh toàn điện hơn về mối quan hệ giữa cácbiến, gồm cả những điểm tương đồng lẫn khác biệt (Brezina, 2018, tr 202):
Trong khi kiểm định chi-squared chỉ có thé trả lời câu hỏi CÓ/KHÔNG đơn giản liên quan
đến ý nghĩa thống kê, mà không chỉ ra sự khác biệt đó nằm ở đâu (điều này ảnh hưởng rất
nghiêm trọng đến kết quả nghiên cứu trong trường hợp bảng số liệu có nhiều biến), thì phân
tích tương ứng có thê cho thây bức tranh lớn hơn về môi quan hệ phức tạp giữa các biên (cả
những điểm tương đồng lẫn khác biệt.
Như vậy, phương pháp thống kê mô tả nói chung và phương pháp phân tích
tương ứng nói riêng giúp khám phá những hiện tượng mới trong đó các giả thuyết
vẫn chưa được phát triển một cách hệ thống Nói cách khác, phương pháp mô tảgiúp cho dữ liệu bước đầu bộc lộ ý nghĩa Đây là nền tảng của hầu hết các phân tích
dữ liệu định lượng vì nó tô chức, tổng hợp và mô tả các đơn biến tại một thời điểm
- Phương pháp phân tích ngữ dung học xã hội (socio-pragmatic analysis):Grant (2010, tr 522) cho rằng phải căn cứ vào các thông tin Ngôn ngữ học xã hội
để tìm ra lý do vì sao hai TG lại có những nét khác biệt trong phong cách viết Do
đó, sau khi tính toán và phân tích dữ liệu định lượng, phương pháp phân tích ngữ
dụng học xã hội được sử dụng để tìm hiểu cách thức mà người viết lựa chọn từ ngữtrong các bài viết thuộc chuyên mục ý kiến Phương pháp này có thể được áp dụngcho nhiều trường hợp khác nhau, ví dụ như lý giải sự tương đồng giữa các TG khác
ngành nghề, hoặc lý giải sự khác biệt giữa các TG cùng ngành nghề, hoặc thậm chí
là lý giải sự khác biệt giữa các bài viết của cùng một TG
- Phương pháp so sánh đối chiếu: Được áp dụng cho việc đối chiếu các ngônngữ khác nhau, cho đù chúng có quan hệ về mặt loại hình hay cội nguồn hay không
Phương pháp này không nhằm phát hiện sự tương đồng về loại hình hay quan hệ cội
nguồn giữa các ngôn ngữ đó, mà nhằm mục đích “phát hiện những sự tương đồng
và khác biệt chủ yếu trên diện đồng đại ở một hay nhiều bình diện, bộ phận của các
Trang 24ngôn ngữ đó” (Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến, 2008, tr 46).
Đối với phương pháp so sánh đối chiếu, cần phân biệt ngôn ngữ là đối tượng nghiêncứu (A) với ngôn ngữ là phương tiện nghiên cứu (B): nêu A là đối tượng nghiên cứu
thì B chỉ là cái đưa ra đối sánh với A để làm sáng tỏ những điều mà nhà nghiên cứuquan tâm trong A mà thôi (Mai Ngoc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phién,
2008, tr 47) Trong luận án, phương pháp so sánh đối chiếu được dùng dé tim
những điểm tương đồng và khác biệt về mức độ ảnh hưởng của các YTTV trongĐĐPC các văn ban báo chí của tiếng Việt và tiếng Anh Trong đó, tiếng Việt là
ngôn ngữ có vai trò đối tượng nghiên cứu, còn tiếng Anh là ngôn ngữ làm phương
tiện nghiên cứu.
Mặc dù luận án sử dụng nhiều phương pháp khác nhau, nhưng đều có chungmột nguyên tắc bat di bat dịch là đảm bảo độ tin cậy và độ giá trị Cả độ tin cậy và
độ giá trị đều phải đi cùng với chất lượng của việc đo lường và chúng là hai khái
niệm có tính tương liên Độ tin cậy là tinh nhất quán (consistent) và tinh tái tao
(replicable) của các độ đo được sử dụng Độ giá trị nghĩa là các độ đo, ngữ liệu
nghiên cứu và phương pháp nghiên cứu được sử dụng phải đem lại những suy luận
và kết luận có giá trị (van Peer và cộng sự, 2012)
0.4.2.2 Quy trình thực nghiệm xác định danh tính tác giả
Việc sử dụng ngôn ngữ là một quá trình sáng tạo tự do; vì thế, cho dù những
quy luật và nguyên tắc của nó là cố định, nhưng hình thức sử dụng ngôn ngữ mộtcách sáng tạo thì hết sức phong phú (Chomsky, 1996, tr 99) Vậy, việc làm thế nào
để đo lường cách sử dụng ngôn ngữ của một cá nhân hoặc một nhóm người là điều
quan trọng hàng đầu Ngoài ra, nghiên cứu ĐĐPC can phải nỗ lực để trở nên “cócăn cứ và có thé tái tao” (Carter, 2010, tr 68) Điều này nhắn mạnh vai trò của tính
khả chứng mà khoa học luôn đòi hỏi.
Vì vậy, để đảm bảo phân tích ĐĐPC có thể đưa ra kết quả ngôn ngữ định
lượng giúp kiểm chứng kết luận định tính, luận án đề xuất một quy trình thựcnghiệm XĐDTTG có thể tái tạo kết quả nghiên cứu dựa trên khối ngữ liệu
VVC_Stylometry Trong nhiệm vụ XDDTTG cho một VBÂD, có thể xảy ra hai
tình huống:
Trang 25Tình huống 1: TG bị tình nghỉ là một trong số những người đã được khoanhvùng, gọi là tình huống nhóm TG ứng viên đóng (closed-set authorship attribution);
Tình huống 2: TG bị tình nghi không nằm trong nhóm những người đã được
khoanh vùng, mà có thể là một người khác, gọi là tình huống nhóm TG ứng viên
mở (open-set authorship attribution).
Trong thực tế có thể xảy ra cả hai tình huống này Tuy nhiên, trong lĩnh vực
nghiên cứu ĐĐPC đối với các ngôn ngữ thiếu tài nguyên số, chẳng hạn như tiếng
Việt, tình huống thông dụng nhất và thuận tiện nhất để kiểm tra độ chính xác của
các YTTV trong các lượt XDDTTG là sử dụng tập hợp TG ứng viên đóng Tình
huống này được phát biểu như sau: Cho rước các văn bản được viết bởi một tập
hợp TG (với số lượng nhất định) và một VBAD Nhiệm vụ đặt ra là xác định người
có xác suất cao nhất là TG của VBAD (PAN, 2019) Trong vụ án thực tế, số lượng
TG bị tình nghi thường không có định mà có thể thay đổi, nghĩa là có khi nhiều
người bị tình nghỉ, cũng có khi ít người nằm trong đối tượng tình nghỉ Vì vậy, mỗiYTTV cần được khảo sát trên nhiều trường hợp với số lượng TG ứng viên khác
nhau Luận án giới hạn khảo sát bốn trường hợp: 10 TG, 5 TG, 3 TG, hoặc 2 TG
Vi dụ, với trường hợp nhóm gồm 10 TG, quy trình thực nghiệm như sau:
- Trước hết, chọn ngẫu nhiên 10 TG trong số 48 TG thuộc khối ngữ liệu
VVC_Stylometry và thực nghiệm XĐDTTG lượt thứ nhất bằng cách khảo sát một
YTTV
- Sau lượt thực nghiệm thứ nhất, tiếp tục chọn ngẫu nhiên 10 TG khác trong số
48 TG (có thể trùng một hoặc vài người trong số 10 TG ở lượt thực nghiệm trước
đó, nhưng không trùng cả 10 TG).
- Tiép tục lựa chọn nhóm 10 TG như vậy cho đến khi đủ số lượng lượt thực
nghiệm mà nhà nghiên cứu đề ra từ trước đối với YTTV cần khảo sát
Trong luận án, 40% số lượt thực nghiệm được tiến hành trên các nhóm TG có
cùng ít nhất một thông tin xã hội học (giới tính, ngành nghề, độ tuổi), 60% số lượtthực nghiệm được tiến hành trên các nhóm TG khác biệt thông tin xã hội học Ví
dụ, trong 10 lượt thực nghiệm đối với PBCDT khi tính theo ký tự cho nhóm 10 TG:
- có 4 lượt thực nghiệm trong đó 10 TG nữ đều là nhà báo, 10 TG nữ là nhà
nghiên cứu, 10 TG nam là nhà báo, và 10 TG nam là nhà nghiên cứu);
Trang 26- có 6 lượt thực nghiệm trong đó 10 TG được lựa chọn hỗn hợp thông tin xãhội học, chẳng hạn như 10 TG này vừa có nam, vừa có nữ, vừa có nhà báo, vừa cónhà nghiên cứu Như vậy, hiệu quả của mỗi YTTV được đánh giá trên nhiều tập
hợp TG khác nhau, vì thế mà độ tin cậy tăng lên
Tổng cộng, luận án tiến hành 31.600 lượt thực nghiệm XDDTTG trên máy vitính Số lượng các lượt thực nghiệm cho mỗi YTTV theo số lượng TG được liệt kê
trong Bảng 0.5 dưới đây.
Bảng 0.5 Số lượng các lượt thực nghiệm xác định danh tính tác giả
Nhóm 1: PBCDT 10TG 5TG 3TG 2TG
1 PBCDT khi tính theo ký tự 100lượt 100lượt 100 lượt 100 lượt 400lượt
2 PBCDT khi tính theo âm tiệt 100 lượt 100 lượt 100 lượt 100 lượt 400 lượt
Nhóm 2: TBCDT 3 TBCDT khi tính theo ký tự 100 lượt 100 lượt 100 lượt 100lượt 400lượt
4 TBCDTkhitnhtheoâmuiết 100lượt 100lượt 100 lượt 100lượt 400lượt
Nhóm 3: DPPTV
5 TTR 100 lượt 100lượt 100lượt 100lượt 400lượt
6 W 100 lượt _ 100lượt 100lượt 100lượt 400 lot
7 H 100 lượt _ 100lượt 100lượt 100lượt 400lượt
8 Ss 100lugt 100lượt 100luot 100lượt 400lượt
9 K 100 lượt 100 lượt 100 lượt — 100lượt _ 400 lượt
Nhóm 4: Tần số từ khi tính theo
phương pháp thong kê cơ bản 10-20 TXH (11 yếu tổ) 1100lượt I100lượt 1100lượt 1100lượt 4400 lượt
21-31 TTCT (11 yếu tố) 1100lượt = 1100luot 1100lượt 1100lượt 4400lượt
32-42 TILL (11 yếu tổ) 1100lượt 1100lượt 1100lượt 1100lượt 4400 lượt
43 Từ Hán Việt 100 lượt _ 100lượt 100lượt 100lượt 400lượt
44 Tir nước ngoài 100 lượt _ 100lượt 100lượt 100lượt 400lượt
45 Từ mới 100 lượt _ 100lượt 100lượt 100lượt 400lượt
46 Thanh ngữ 100 lượt 100 lượt 100 lượt _ 100lượt _ 400lượt
Nhóm 5: Tân sô từ khi tính
theo phương pháp phân tích
tương ứng, a 47-57 TXH (11 yếu tô) 1100 uot 1100lượt 1100lượt 1100lượt 4400 Iuot
58-68 TTCT (11 yếu td) 1100lượt 1100lược 1100lượt 1100lượt 4400lượt
69-79 TTLL (11 yếu tố) 1100 lượt 1100lượt 1100lượt 1100lượt 4400 lượt
Tổng số 7900 7900 7900 7900 31600
0.4.2.3 Quy trình đánh giá mức độ ảnh hưởng của yếu tô từ vựng
Để đạt mục tiêu nghiên cứu thứ nhất và trả lời cho câu hỏi nghiên cứu thứ
nhất, luận án đề xuất quy trình đánh giá mức độ ảnh hưởng của một YTTV cho các
văn bản báo chí tiếng Việt trong khối ngữ liệu VVC_Stylometry Đối với mỗi lượt
Trang 27thực nghiệm XDDTTG, mức độ ảnh hưởng của một YTTV được tính toán và đánh giá theo các bước sau:
Bước 1 - Chọn VBAD: Chọn một văn bản bắt kỳ trong ngữ liệu va ẩn đi danhtính TG của văn bản này Văn bản được An đi danh tính TG có vai trò là VBAD, còncác văn bản khác được xem là đã biết nguồn TG
Bước 2 — Tính các giá tri DPPC cho văn ban: Sử dụng các phần mềm máy
tính để tính giá trị ĐĐPC đối với các văn bản trong ngữ liệu nghiên cứu, kể cả
VBAD lẫn văn bản đã biết danh tính TG
Bước 3 — So sánh giá trị ĐĐPC để XĐDTTG: So sánh giá trị ĐĐPC củaVBAD với các văn bản đã biết TG Xác suất TG của VBÂD và TG của văn bản đã
biết nguồn là cùng một người khi hai văn bản này có giá trị ĐĐPC ít chênh lệch
nhất; hoặc khi khoảng cách giữa điểm dữ liệu biểu diễn VBÂD và các điểm dữ liệubiểu diễn các bài viết khác (trên đô thị tương ứng) là ngắn nhất
Bước 4 - Tính tỉ lệ chính xác của YTTV trong các lượt thực nghiệm
XDDTTG: Sau khi so sánh các giá trị DDPC ở bước 3 nêu trên, ta có được một
danh sách TG theo mức độ giảm dần về độ tương đồng với VBÂD, gọi là danh sách
dự đoán (predictions) Thứ hạng TG trong danh sách dự đoán càng cao thì xác suất
càng cao: TG đứng vị trí đầu tiên trong danh sách dự đoán được xem là người cóxác suất cao nhất là người đã viết VBAD Sau đó, danh tinh TG thật sự của VBAD
được truy xuất từ thông tin lưu trữ trong VVC_Stylometry dé xem dự đoán của lượtthực nghiệm có chính xác hay không: nếu TG dự đoán trùng với TG thực sự, lượtthực nghiệm đó là chính xác; nếu TG dự đoán là một người khác, thì lượt thực
nghiệm đó là không chính xác.
T¡ lệ chính xác của mỗi YTTV được tính bằng cách chia số lượng lượt thực
nghiệm dự đoán chính xác trên tổng số các lượt thực nghiệm sử dụng YTTV đó Ví
dụ, nếu thực nghiệm 10 lần và dự đoán chính xác 5 lần, nghĩa là có 5 lần TG dự
đoán trùng với TG thực sự, thì thì tỉ lệ chính xác sẽ là 50% (kết quả của phép tính(5/10)*100%) Cần nói thêm rằng, quy trình này được áp dụng để đánh giá mức độ
ảnh hưởng của một YTTV, ví dụ như PBCDT tính theo ký tự Tùy vào mục đích sử
dụng mà nhà nghiên cứu có thé kết hợp nhiều YTTV cùng một lúc để khảo sát tỉ lệchính xác của tổ hợp YTTV đó
Trang 28Bước 5 — Đánh giá mức độ thành công của YTTV trong các lượt thực nghiệm XDDTTG: Dựa vào tỉ lệ chính xác của YTTV sau các lượt thực nghiệm XĐĐTG, ta đánh giá mức độ ảnh hưởng của YTTV đó theo thang độ được quy ước như trong Hình 0.2 dưới đây.
Rất cao
Khả cao
Khá thấp
Rất thấp Ø=283
Hình 0.2 Thang độ đánh giá mức độ ảnh hưởng của YTTV đến nhiệm vụ XĐDTTG
Vi dụ, sau các lượt thực nghiệm, nếu một YTTV có tỉ lệ chính xác là 77% thì
nó được đánh giá là có mức độ ảnh hưởng “Rất cao” đến nhiệm vụ XDDTTG Cónghĩa là YTTV này là yếu tố được khuyến nghị sử dụng trong quá trình điều tra, vì
nó có rất nhiều tiềm năng giúp có thêm manh mối tìm ra thủ phạm Ngược lại, nếu
một YTTV có tỉ lệ chính xác là 50% thi nó được đánh giá là có mức độ ảnh hưởng
“Khá thấp” đến nhiệm vụ XĐDTTG Điều này có nghĩa là YTTV này chưa phải là
yếu tố được ưu tiên khảo sát trong quá trình điều tra
Thang độ này được xây dựng dựa trên dé xuất của Grieve (2007): nếu một
YTTV đạt được ít nhất 75% mức độ chính xác trong một lượt thực nghiệm thì được
đánh giá là thành công trong lượt thực nghiệm đó Ngưỡng này được lựa chọn vì
ông cho rằng “khi YTTV đạt được ít nhất 75% mức độ chính xác trong lượt thực
nghiệm, nó hoàn toàn có thé được cơ quan điều tra sử dụng dé giải quyết hầu hếtcác vụ việc tranh chấp nguồn TG.”
Thang độ như Hình 0.2 có thể thay đổi tùy vào mục đích nghiên cứu Chang
hạn, thay vì 4 mức như trên, ta có thể chia thành 5 mức, hoặc thậm chí là gộp thành
3 mức như dưới đây:
5 mức: Rấtcao Khácao Trungbình Khá thập Rấtthấp
3 mức: Cao Trung bình Thấp
Trang 29Bước 6 — Đánh giá mức độ ảnh hướng của YTTV đến ĐĐPC: Dựa vào
mức độ thành công của YTTV như trong Hình 0.2, ta đánh giá mức độ ảnh hưởng
của một YTTV theo thang độ quy đổi tương đương: YTTV có mức độ thành công
rất cao nghĩa là nó ảnh hưởng rất lớn đến DDPC, tương tự, mức độ thành công khácao nghĩa là nó ảnh hưởng khá lớn, mức độ thành công khá thấp nghĩa là nó ảnh
hưởng khá ít, mức độ thành công rất thấp nghĩa là nó ảnh hưởng rất ít, hoặc là gần
như không ảnh hưởng đến ĐĐPC
Cách thức quy đổi Ti lệ chính xác trong các lượt thực nghiệm XĐDTTG
(Bước 4) sang Mức độ thành công trong các lượt thực nghiệm XDDTTG (Bước 5),
và sau đó quy đổi sang Mức độ ảnh hưởng của YTTV đến ĐĐPC (Bước 6) được
trình bày trong Bảng 0.6 dưới đây.
Bảng 0.6 Bảng quy đổi tỉ lệ chính xác và mức độ chính xác của các YTTV trong XĐDTTG
sang mức độ ảnh hưởng của các YTTV đên ĐĐPC
Tỉ lệ chính xác trong Mức độ thành công trong Mức độ ảnh hưởng đên
0.4.3 Công cụ nghiên cứu
Thông thường, các công cụ tự động dùng dé khai thác khối ngữ liệu chỉ thực
hiện các loại chức năng cơ bản như tìm từ khóa, tìm kết ngôn, v.v Tuy nhiên, đốivới XĐDTTG, một nhiệm vụ xử lý dữ liệu thống kê rất khổng 16 và rất phức tap, ta
phải sử dụng những công cụ tự động tiên tiến hơn Vì vậy, các nhà nghiên cứu trong
ngành Ngôn ngữ học tính toán và Xử lý ngôn ngữ tự nhiên thường sử dụng các ngôn ngữ lập trình (programming languages) như Python hoặc R Luận án khai thác
cả hai ngôn ngữ lập trình này để tạo ra các biểu đồ cho các loại dữ liệu khác nhau
0.4.3.1 Ngôn ngữ lập trình Python
Python tạo ra các đường cong Mendenhall biêu diễn PBCDT tính theo ký tự
và PBCDT tính theo âm tiết (xem mục 2.1 và 2.2, Chương 2) Trong luận án, có
tổng cộng 106 đường cong Mendenhall (Phụ lục C1-C10) được tạo ra bằng cách sửdụng khối ngữ liệu cá nhân của TG hoặc VBÂD:
48 đường cong Mendenhall biêu diễn PBCDT (ký tự) của 48 TG Sử dụng 48 khôi ngữ liệu
48 đường cong Mendenhall biéu diễn PBCDT (âm tiết của48TG |cá nhân trong VVC_
Stylometry
Trang 305 đường cong Mendenhall ân danh biéu diễn PBCDT (ký tu) của | Sử dụng 5 VBAD trong
5 VBÂD VVC_Stylometry
5 đường cong Mendenhall ân danh biéu diễn PBCDT (âm tiết) của
5 VBAD
Hình 0.3 minh họa các câu lệnh Python để tạo ra đường cong Mendenhall
Hình 0.3 Các câu lệnh trong Python
Trong đó, câu lệnh thứ nhất (# Cai đặt thư viện xử lý ngôn ngữ) có nghĩa là dé
tạo ra các đường cong Mendenhall, ta cần phải cài đặt từ điển NLTK (viết tắt của
Natural Language Toolkit) Day là một thư viện (library) dành cho xử lý ngôn ngữ
tự nhiên, gồm các hình ảnh đồ họa và dữ liệu mẫu, được xem là một nên tảng đi đầutrong việc xây dựng các chương trình Python để xử lý dữ liệu ngôn ngữ của conngười (human language) Luận án sử dụng môi trường Google Colab đề xử lý các
đoạn mã Python Google Colab phù hợp cho mục đích phân tích dữ liệu Nó không chỉ cho phép người dùng xử lý các đoạn mã Python thông qua trình duyệt web,
không cần trải qua các bước cài đặt phức tạp, mà còn cho phép kết hợp với các ứng
dụng như Google Drive, Google Sheets rat tiện lợi va được đồng bộ qua Internet mà
không cần một máy tính cục bộ
Trang 310.4.3.1 Ngôn ngữ lập trình R
R là một ngôn ngữ lập trình hàm cấp cao, đồng thời là một môi trường dành
cho tính toán thống kê R hỗ trợ rất nhiều công cụ cho phân tích dữ liệu, khám phátri thức và khai khoáng dữ liệu, đặc biệt đây còn là phần mềm miễn phí mã nguồn
mở Lý do mà R ngày càng phé biến trong ngành Ngôn ngữ học ứng dụng là vì nó
rat dé học đối với những người mới bắt đầu với thống kê, đồng thời có thé phát triểnnhanh các ứng dụng tính toán xác suất thông kê, phân tích dữ liệu Ở đây, ngôn ngữ
lập trình R được luận án thực hiện trên máy vi tính dé tạo ra các dé thị tương ứng(correspondence plot) Hình 0.4 là cửa số RStudio, một môi trường sử dụng ngôn
ngữ lập trình R để thực hiện các thống kê định lượng, kèm theo các gói phụ trợdùng để tạo ra các dé thị tương ứng
6
O-& @ & A Gotr-fieftunetion = hte Š Project (Nona) +
O) untived! anf" Environment History Connections Tutorial =f
HSwemwe Q + ƒ Rin 9% su + Pid ##hmDisl+ ÔnMê~ gf bit ý
1 Rh Ghote Enionmen +
Environment s empty
Files Plots Packages Help Viewer =O
Binval @ vpdate
Name Deciplar Ves
1 RScipt ¢ User Library
4 R410 -/ _" dnd 145
R 1s a collaborative project with many contributors, backports Wa
Type ‘contributors()' for more information and
‘citation()' on how to cite R or R packages in publication basebden: „13
$: 8H 175.0
'deno()" ft ú "helpQ' ft Tine he] :
Type ‘deno()' for some deos, 'help()' for on-]ine help, or Tang 5 P
' 1 : pom Conn stical Objects into Tidy 077help.start()' for an HTML browser interface to help ae Sti SER US RIT
Type ‘q()' to quit R, —
bslit Custom ‘Bootstrap’ Sass’ Themes 0.251
> for ‘shiny! and maddk
i carhom Tarhe Ð fhhierkc with Bitamatie — 17K xé
§- F46001 :6 “,WClAmBt A et WE nô Bl
Hình 0.4 Cửa sé RStudio sử dụng ngôn ngữ lập trình R
Trang 32Với mỗi đồ thị trong số 528 đồ thị tương ứng trong luận án (xem mục 3.3,
Chương 3 và Phụ lục D), tác giả luận án đã nhập 528 dòng lệnh khác nhau ứng với các trường hợp thực nghiệm khác nhau.
Bước đầu tiên trong phân tích tương ứng là kiểm định giả thuyết về sự phụthuộc giữa các dòng và các cột trong bảng dữ liệu ban đầu Phân tích tương ứng tự
động kiểm tra mối quan hệ này Qua kiểm định giả thuyết tất cả các bảng dữ liệu ở
Phụ lục D, ta có thé kết luận rằng giữa các dòng va các cột trong bảng dit liệu có
môi quan hệ với nhau
Kết quả của phân tích tương ứng là đồ thị các điểm, còn gọi là đồ thị tươngứng Các điểm biểu diễn cho các dòng và các cột của một bảng số liệu (dòng là các
văn bản, cột là các YTTV) Một đồ thị tương ứng là hình ảnh trực quan của các văn
bản và các YTTV được ánh xạ trong một không gian 2D hoặc 3D dựa trên khoảng
cách (distance) chi-squared Ở đây, khoảng cách chi-squared được sử dung dé do độ
gần - xa giữa các văn bản hoặc giữa các YTTV Khoảng cách chi-squared chỉ có théđược lý giải theo cột hoặc theo hàng, còn khoảng cách giữa các biến ở cột và các
biến ở hàng không thể lý giải một cách trực tiếp Nghĩa là, ta chỉ có thể đo khoảngcách chi-squared chính xác giữa các điểm dữ liệu của một TG, nhưng ta không thé
liên hệ trực tiếp các điểm dữ liệu này với các YTTV bằng việc đo khoảng cách giữachúng ở trên dé thị, lý do là vi các biến ở cột (các YTTV) và các biến ở dòng (các
văn bản) được xử lý trên những thang độ khác nhau (Brezina, 2018).
Trên đồ thị tương ứng, vị trí của các điểm cho biết: (1) sự tương đồng
(similarities) giữa các dòng, tức là giữa các văn bản; (2) sự tương đồng giữa các cột,
tức là giữa các YTTV; (3) sự tương quan (association) giữa dòng và cột trong bang
dữ liệu, tức là sự tương quan giữa các văn bản và các YTTV Như vay, phân tích
tương ứng có thé chỉ ra mối quan hệ giữa các văn bản và/hoặc các YTTV bằng cáchbiểu diễn đồng thời các văn bản cùng với các YTTV trên cùng một đồ thị tương
ứng Khi nhìn vào đồ thị tương ứng, nếu các bài viết của một TG có xu hướng
gom nhóm lại với nhau, nghĩa là khi viết bài, TG đó thường sử dụng các YTTV
được chọn phân tích tương ứng.
Xác định số chiều của không gian dùng đề biểu diễn các điểm: Thực chất củaphần này là thực hiện các phép chiếu (projection) lên các trục và phép quay
Trang 33(rotation) các trục để tìm ra không gian tốt nhất để biểu diễn các điểm dữ liệu.
Profile của các dòng và cột được dùng để xác định tọa độ của các điểm trong đồ thị.Profile được tính là tần số tương đối chuẩn hóa của các dòng (Rows profile) và các
cột (Columns profile) trong bang dữ liệu Vì vậy:
- Những dòng hoặc những cột có profile gần giống nhau sẽ được đặt gần nhautrong đồ thị Theo đó, những văn bản có profile càng giống nhau thì nằm càng gần
nhau, còn những văn bản có profile càng khác nhau thì được nằm xa nhau
- Nếu profile của một văn bản càng khác biệt so với tâm (centroid — trung bình
của các profile) thì nó sẽ nằm càng xa gốc tọa độ (origin) Ví dụ, văn bản C và Dđược đặt gần nhau vì profile của chúng gần giống nhau (60%, 75%), văn bản A
được đặt khá xa văn bản C và D vì Profile của văn bản A (12.5%) khác xa so với Profile cua văn bản C và D Truc Dim! được xác định bởi văn ban A nên vi trí của
van ban A rất gần trục Dim1 trên đồ thị Những điểm nằm tách biệt rat xa với tam
đồ thị được gọi là điểm đữ liệu bất thường (outliers), việc lý giải chúng phụ thuộc
vào năng lực phân tích của nhà nghiên cứu,
Mỗi đồ thị tương ứng có thể biểu diễn vài trăm điểm dữ liệu cùng một lúc Lúc
này, các điểm dữ liệu dày đặc, có khi nhiều điểm trùng nhau vì cách sử dụng các
YTTV trong các bai viết này tương đồng nhau ở mức cao Vì thế, dé việc quan sát
đồ thị được chỉ tiết và rõ ràng, trong mỗi lượt thực nghiệm với phân tích tương ứng,
luận án lựa chọn khảo sát từ 2-10 TG, mỗi TG khảo sát ít nhất 2-4 văn bản, và khảosát ít nhất 3 YTTV trong các văn bản đó Như vậy, trong luận án, số lượng điểm dữ
liệu mỗi đỗ thị tương ứng biểu diễn dao động trong khoảng 12-120 điểm đữ liệu
Đánh giá chất lượng của đồ thị: Để đánh giá chất lượng của việc biểu diễn trựcquan bằng đồ thị các điểm, ta dựa vào phần trăm inertia mà các trục giải thích Tiêu
chí để đánh giá là: Tổng tích lũy của 2 (hay n) chiều đầu tiên giải thích phần trămcủa inertia càng cao thì chất lượng biểu diễn càng cao Giá trị tổng thể này càng cao
thì càng đáng tin cậy Hay nói cách khác, đồ thị tương ứng cho biết có bao nhiêuphan trong mức biến thiên gốc trong dữ liệu mà mỗi chiều (dimension) giải thích: tỉ
lệ phần trăm của Dim1 (Dimension 1) và Dim2 (Dimension 2) giải thích mức độ
biến thiên Khi cộng hai giá trị này, phân tích tương ứng giải thích cho tỉ lệ mứcbiến thiên tổng thé trong dữ liệu
Trang 34Hình 0.4a TXHI của các nhà báo nữ, sinh từ 1975 trở về trước.
Trong Hình 0.4a, trục hoành Diml giải thích: ›; trục tung Dim2 giải thích
độ biến thiên Xét tổng thé, phân tích tương ứng giải thích 79,85% (54,80% +
%) mức biến thiên trong dữ liệu, giá trị này là rất cao và đáng tin cậy.
Sự đóng góp của các văn bản được thể hiện như sau: có 12 văn bản, bất cứ văn
bản nào đóng góp từ 8.33% (=100/12) được coi là đóng góp có ý nghĩa trong việc
xác định các chiều dé biểu diễn các điểm Sự đóng góp của các YTTV được théhiện như sau: có 4 YTTV là ta, chúng ta, tôi, chúng tôi Trên đồ thi, trục Dim1
Trang 35được xác định bởi chứng ta và trục Dim2 được xác định bởi chúng tôi, bởi vì các
YTTV này đóng góp hơn 25%% (kết quả của phép tính 100/4) Ở đây, theo đóng
góp của van bản thì văn bản 49d xác định Dim1, theo đóng góp của YTTV thì Dim1
được xác định bởi THX chúng ta, vi vậy văn bản 49d có mối tương quan rất lớn với
THX chứng ta, nghĩa là văn bản 49d sử dụng rất nhiều THX chứng ta
Trên đồ thị, các điểm dữ liệu đại diện cho bài viết của mỗi TG có xu hướng
gom nhóm lại với nhau Điều này cho thấy việc chuộng sử dụng một vài TXHItrong lỗi viết của các TG Cụ thé là:
- Điểm dữ liệu của văn ban 342d và điểm dữ liệu “tôi” nằm rất gần nhau trong đồthị và gần trục DimI, điều này cho biết có sự tương quan mạnh mẽ giữa văn bản 342d
với từ “tôi” Nói cách khác, từ “tôi” được sử dụng rất nhiều trong văn bản 342d Cụthé, trong Bảng 3.2.1 (xem mục 3.2, Chương 3), từ “tôi” có tần số tương đối chuẩn hóa
- Ba điểm dữ liệu 129b, 129c và 129d của TG 129 hội tụ ở giữa đồ thi, tại
điểm giao nhau của trục tung và trục hoành So với ba điểm dữ liệu còn lại, 129dnằm tách biệt hẳn
Như vậy, khi khảo sát cách sử dụng TXHI trên bốn văn bản được chọn chomỗi TG, ta có thé rút ra nhận xét rằng TG 342 là người có cách sử dụng TXHI ổn
định nhất, tiếp theo là TG 129 Còn TG 49 là người sử dụng TXHI thay đổi nhiềunhất khi viết bốn văn bản đó Điều này có nghĩa là, khi sử dụng tần số TXHI theo
phương pháp phân tích tương ứng, ta có thể phân biệt được phong cách viết của các
TG khá chính xác Tuy nhiên, đồ thị ở Hình 0.4a dưới đây mới chỉ áp dụng phântích tương ứng cho tần số TXHI trong 12 văn bản đã biết nguồn TG, chưa khảo sát
Trang 36VBAD Vì thế, dé thị 0.4a chi dùng dé tìm ra đặc điểm sử dụng TXHI của các TG,còn đồ thị ở Hình 0.4b mới có thé XDDTTG.
Để trả lời câu hỏi “TG của VBÂD này là ai?”, phân tích tương ứng tiếp tục
được sử dụng cho 12 văn bản đã biết TG cộng với VBAD (12 + 1), được biểu diễntrong Hình 0.4b dưới đây Ta thấy rằng, khác với Hình 0.4a ở trên (khi chưa có
VBAD), trong Hình 0.4b ta thấy TG 49 có ba văn bản (49a-c) hội tụ ở góc phan tư
phía trên bên phải, chi có điểm dữ liệu 49d là nằm tách biệt han Như vậy nghĩa là
so với Hình 0.4a, việc bồ sung dữ liệu tần số TXHI của VBÂD đã làm thay đổi vi
trí của điểm dữ liệu 49a Trong khi đó, điểm dữ liệu của VBAD nằm ở vị trí trùngvới bốn điểm dữ liệu của TG 342 và nằm cách xa với các văn bản khác
Trang 37Kết quả XPDTTG trong đó thứ hang TG với xác suất dự đoán giảm dan là:
TG 342, TG 129, TG 49, nghĩa là TG 342 được dự đoán là TG có xác suất cao nhất
đã viết VBÂD Tuy nhiên, khi tra thông tin từ ngữ liệu, TG thực sự của VBÂD là
TG 49 Vì thế, lượt thực nghiệm này chưa xác định đúng danh tính TG của VBÂD.Kết quả này cho thấy có thể có hiện tượng bat thường trong cách sử dụng ngôn ngữ
của VBÂD, hoặc của 12 văn bản đã biết nguồn TG Trong Chương 2, luận án sẽtiếp tục phân tích các văn bản này đề tìm ra nguyên nhân Cũng cần nói thêm rằng,
đây chỉ mới là 1 lượt thực nghiệm trong số 4.400 lượt thực nghiệm phân tích tươngứng đối với yếu tố TXH, chưa phải là kết quả tổng thé Số lượt thực nghiệm càng
nhiều sẽ cho kết quả tổng thé chính xác và đáng tin cậy hơn
Như vậy, việc sử dụng ngôn ngữ lập trình R giúp ta tạo ra một đồ thị tươngứng gồm các điểm dữ liệu, các điểm này biểu diễn các dòng và các cột của bảng dữ
liệu tần số từ VỊ trí của các điểm trên đồ thị cho ta biết được nhiều thông tin:
- Sự tương đồng giữa các dòng của bảng dữ liệu, tức là sự tương đồng giữa các
văn bản của một TG, hoặc giữa các văn bản của các TG khác nhau.
- Sự tương đồng giữa các cột của bảng dữ liệu, tức là sự tương đồng giữa các
YTTV mà luận án khảo sát.
- Mối tương quan giữa các dòng và cột trong bảng: tức là mỗi tương quan giữa
các văn ban và các YTTV.
Nhờ công cụ tự động là ngôn ngữ lập trình R, việc hiểu được mối tương quangiữa các văn bản và các YTTV trở nên đơn giản va dang tin cậy hơn dựa trên hìnhảnh trực quan là các đồ thị tương ứng Qua đó, ta biết được những YTTV nào có tần
số cao trong ngữ liệu tiếng Việt, từ đó giúp hiểu thêm về cách sử dụng từ vựng của
các TG Quan trọng hơn, ta còn có thể quan sát sự tương đồng và khác biệt giữa cácvăn bản một cách trực quan và thuận tiện, điều này giúp ta đưa ra các dự đoán một
cách nhanh chóng và chính xác về TG thực sự của VBÂD Nhờ vay, công cu tựđộng rất hữu ích cho nhiệm vụ XĐDTTG, đặc biệt là trong bối cảnh pháp lý với yêu
cầu được đặt ra không chỉ là kết quả nghiên cứu phải có chính xác và đáng tin cậy,
mà còn phải nhanh chóng và kịp thời.
0.5 Ý NGHĨA KHOA HỌC VÀ THỰC TIEN
Trang 38phẩm nghiên cứu có tầm ảnh hưởng lớn về mặt học thuật Điều này hoàn toàn có thé
đạt được bởi vì luận án áp dụng những tri thức và phương pháp từ nhiều lĩnh vực
khác nhau: thống kê định lượng, ngữ liệu, xử lý ngôn ngữ tự nhiên, v.v
Với phạm vi nghiên cứu là phong cách ngôn ngữ viết cá nhân, luận án tậptrung khảo sát các YTTV ảnh hưởng đến phong cách viết của TG Bên cạnh đó,
luận án còn dựa vào những thông tin xã hội học của cá nhân TG để phân nhóm TG:
giới tính, ngành nghề, độ tuổi Vì vậy, kết quả nghiên cứu của luận án không chỉ có
ý nghĩa với ngành Ngôn ngữ học tội phạm, mà còn có thể đóng góp cho ngành
Ngôn ngữ học xã hội.
Ngoài ra, trong những năm gần đây, hướng tiếp cận học máy và học sâu cónhiều tiềm năng nhất trong lĩnh vực XĐDTTG Tuy nhiên, hai hướng tiếp cận nàyphổ biến trong lĩnh vực khoa học máy tính, không phải là thế mạnh của các nhà
nghiên cứu thuộc lĩnh vực khoa học xã hội nhân văn vì những thuật toán hết sức
phức tạp mà phần lớn người sử dụng kết quả nghiên cứu khó có thé hiểu được.Trong khi đó, liên quan đến pháp lý, nhà nghiên cứu vừa phải đảm bảo độ giá trịcủa kết quả tìm được, vừa phải trình bày kết quả này một cách thuyết phục sao cho
cơ quan chức năng hiểu và chấp nhận Bằng việc sử dụng dữ liệu trực quan là các
loại đồ thị khác nhau, kết quả nghiên cứu trong luận án giúp người đọc có thể hiểuđược và thậm chí có thể tái tạo thực nghiệm một cách dễ dàng
0.5.2 Ý nghĩa thực tiễn
Kết quả nghiên cứu là một trong những đóng góp đầu tiên cho việc xây dựng
quy trình thực nghiệm XĐDTTG cho văn bản tiếng Việt Do đó, luận án là côngtrình nghiên cứu có ý nghĩa thực tiễn rất lớn trong công tác điều tra, mô tả và trình
bay các bước tiến hành thực nghiệm XĐDTTG dựa trên những YTTV cơ bản va
thông dụng.
Trang 39Đặc biệt, kết quả của luận án không chỉ phục vụ cho nghiên cứu học thuật mà
trong tương lai còn có thé góp phần cho công tác điều tra Chang hạn, nếu xảy ratrường hợp một van bản có trong khối ngữ liệu VVC_Stylometry tranh chấp nguồn
TG, ví dụ như trường hợp một bài viết bị sao chép mà không ghi nguồn TG hoặc sainguồn TG, thì các kết quả nghiên cứu trong luận án có thể được áp dụng để giải
quyết bài toán tranh chấp nguồn TG
Trong trường hợp vụ việc không liên quan đến bất kỳ văn bản nào, cũng
không liên quan đến TG nào trong VVC_Stylometry, khối ngữ liệu này có vai trò làngữ liệu huấn luyện (training corpus) cho các hướng tiếp cận học máy và học sâutrong Xử lý ngôn ngữ tự nhiên Ngữ liệu và phương pháp nghiên cứu đều được lựa
chọn kỹ lưỡng theo những chuẩn mực, đảm bảo độ tin cậy và độ giá trị, vậy nên kếtquả nghiên cứu có thể đóng góp cho công tác điều tra Đó chính là ưu điểm của tính
nhất quán và tính tái tạo của các phương pháp thực chứng (xem mục 0.4.2)
Ngoài ra, khối ngữ liệu VVC_Stylometry với chú thích thông tin TG da dang
và chủ đề phong phú có ý nghĩa rat lớn trong thực tiễn, bởi vì điều kiện đặt ra dé mô
hình XPDTTG có thé được áp dụng trong thực tế đó là nó phải đo được mức độtương đồng giữa VBÂD với các văn bản đã biết nguồn TG Trong thực tế, các văn
bản này thường được tạo ra trong những bối cảnh khác nhau, có mục đích giao tiếpkhác nhau và nhắm đến đối tượng giao tiếp khác nhau Trước đây, các công trình
nghiên cứu thường thiên về việc sử dụng nguồn ngữ liệu đơn nhất, chỉ ứng dụngtrong phân tích văn bản mà chưa đủ hiệu quả để XĐDTTG; vì vậy, việc luận án sửdụng khối ngữ liệu VVC_Stylometry giúp cho kết quả nghiên cứu sát thực tế hơn
0.6 CÁU TRÚC CỦA LUẬN ÁN
Phần Mở đầu mô tả bối cảnh nghiên cứu, câu hỏi nghiên cứu, mục đích nghiên
cứu, phạm vi và đối tượng nghiên cứu Tiếp đó, luận án giới thiệu sơ lược các
phương pháp nghiên cứu thực chứng trong hướng tiếp cận định tính và định lượng
Ngoài ra, phần này cũng mô tả ngữ liệu nghiên cứu, các công cụ tự động dùng trong
xử lý ngữ liệu và đặc biệt là trình bày các bước trong quy trình XDDTTG và cách
đánh giá mức độ ảnh hưởng của các YTTV đến ĐĐPC
Ngoài phan Mở đầu, luận án được cấu trúc thành bốn chương chính
Trang 40Chương 1 gồm hai phan, tổng quan nghiên cứu và cơ sở lý luận Phần tổng
quan nghiên cứu trình bảy tóm lược các công trình nghiên cứu về các YTTV trongDHPC các văn bản tiếng Anh và tiếng Việt Phần cơ sở lý luận tập trung vào các nội
dung liên quan đến phong cách ngôn ngữ, ĐĐPC và ứng dụng của ĐĐPC Đồngthời, Chương | trình bày đặc điểm ngôn ngữ của các bài viết thuộc chuyên mục ý
kiến trên báo chí dé làm nổi bật tính chất cá nhân trong các bài viết này, từ đó cho
thấy sự phù hợp của việc lựa chọn ngữ liệu là các bài viết thuộc ngữ vực này
Chương 1 cũng trình bày định nghĩa về từ, cách phân định ranh giới từ và các lớp từvựng trong tiếng Việt Một nội dung không kém phan quan trong trong chương này
đó là việc lựa chọn các YTTV đề tiến hành các lượt thực nghiệm XDDTTG
Chương 2 trình bày các kết quả thực nghiệm XDDTTG dựa trên các YTTVthuộc phương diện hình thức, bao gồm PBCDT tính theo ký tự, PBCDT tính theo
âm tiết, TBCDT tính theo theo ký tự, và BCDT tính theo âm tiết Qua đó, luận án
đánh giá mức độ ảnh hưởng của các YTTV thuộc phương diện hình thức đến DPPCvăn bản báo chí tiếng Việt
Chương 3 trình bày các kết quả thực nghiệm XDDTTG dựa trên các YTTVthuộc phương diện nội dung, bao gồm ĐPPTV, tần số TXH, tan số TTCT, tần số
TTLL, và tần số các lớp từ vựng như từ Hán Việt, từ nước ngoài, từ mdi, thành ngữ.Trong đó, tần số của TXH, TTCT, TTLL được tính toán theo hai phương pháp:
thống kê cơ bản và kiểm định thống kê Qua đó, luận án đánh giá mức độ ảnh hưởngcủa các YTTV thuộc phương diện nội dung đến DPPC văn bản báo chí tiếng Việt
Chương 4 đối chiếu mức độ ảnh hưởng các YTTV trong ĐĐPC tiếng Việt với
tiếng Anh nhằm tìm ra những yếu tố giúp XDDTTG đối với ngôn ngữ nay, nhưng
không hiệu quả hoặc không được sử dụng trong ngôn ngữ kia và ngược lại Nói
cách khác, chương này so sánh đối chiếu các YTTV để tìm ra những sự tương đồng
và khác biệt trong hai ngôn ngữ.
Cuối cùng, phần Kết luận sẽ tóm lược những kết quả nghiên cứu chính trongluận án, bao gồm các điểm tương đồng và khác biệt giữa các YTTV liên quan đến
DPPC trong tiếng Việt và trong tiếng Anh; đồng thời nêu ra những tổn tại cần được
giải quyết trong các nghiên cứu sắp tới