| Thống kê dữ liệu tác giả tác phẩm văn học được thu thập | 15 từ Internet Bảng 3.2 Mô tả các trường dữ liệu được lưu trữ 16 Bảng 3.3 Thống kê mô tả 3 tập dữ liệu 17Bảng 4.1 Kết quả thử
Trang 1ĐẠI HỌC QUÓC GIA TP.HÒ CHÍ MINHTRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN
DONG ĐĂNG KHOA
MÔ HÌNH XÁC ĐỊNH TÁC GIA DỰA TREN VAN PHONG CUA CÁC VĂN BẢN TIENG VIET
LUẬN VĂN THAC SĨNGÀNH KHOA HỌC MÁY TÍNH
Mã ngành: 8.48.01.01
TP.HO CHÍ MINH - NĂM 2023
Trang 2ĐẠI HỌC QUOC GIA TP.HÒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
DONG ĐĂNG KHOA
MÔ HÌNH XÁC ĐỊNH TAC GIA DỰA TREN VAN PHONG CUA CÁC VĂN BẢN TIENG VIỆT
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
Mã ngành: 8.48.01.01
GIẢNG VIÊN HƯỚNG DẪN:
PGS.TS NGUYÊN TUẦN ĐĂNG
TP.HÒ CHÍ MINH - NĂM 2023
Trang 3LỜI CẢM ƠN
Đầu tiên, em xin gửi lời cảm ơn đến quý thầy cô trường Đại học Công nghệ
thông tin đã truyền đạt những kiến thức chuyên môn cho em trong suốt quá trình họctập tại trường, đó là những nên tảng kiến thức vững chắc cho em tiếp cận và tiền xahơn trong lĩnh vực chuyên môn của mình Em kính chúc quý thầy cô đồi dào sứckhỏe, đạt được nhiều thành tựu và luôn là niềm cảm hứng học thuật cho thế hệ họcviên tiếp theo
Đặc biệt, em xin bày tỏ lòng biết ơn chân thành đến Thầy PGS.TS Nguyễn
Tuấn Đăng, người Thầy đã định hướng em trên con đường nghiên cứu và dẫn dắt cho
em đến với đề tài Thầy đã tận tâm, nhiệt tình hướng dẫn và tạo mọi điều kiện thuậnlợi để em hoàn thành tốt đề tài luận văn Luận văn này sẽ rất khó hoàn thành nếu
không có sự truyền đạt kiến thức quý báu và sự hướng dẫn nhiệt tình của Thay.
Con xin gửi lời cảm ơn sâu sắc, sự kính trọng đến cha mẹ đã nuôi dạy, luôn
ủng hộ, động viên con vượt qua mọi khó khăn.
Xin cảm ơn tất cả bạn bè đã chia sẻ, động viên, giúp đỡ và hỗ trợ kiểm thử,đưa ra những lời nhận xét khách quan, hữu ích đê đề tài được hoàn thiện hơn
Luận văn đã hoàn thành và đạt được kết quả nhất định tuy nhiên vẫn khôngtránh khỏi thiếu sót Kính mong sự cảm thông và đóng góp ý kiến từ quý thầy cô
Tp Hô Chí Minh, ngày 10 tháng 01 năm 2023
Học viên thực hiện
DONG ĐĂNG KHOA
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan luận văn thạc sĩ về đề tài: “Mô hình xác định tác giả dựa trênvăn phong của các văn bản tiếng Việt” là công trình nghiên cứu của bản thân Các sốliệu, kết quả trình bày trong luận văn này là trung thực Mọi tài liệu tham khảo trongluận văn đều có nguồn góc và trích dẫn rõ ràng, đầy đủ
Tôi xin chịu hoàn toàn trách nhiệm nếu có sự không trung thực trong luận văn
Tp Hồ Chí Minh, ngày 10 tháng 01 năm 2023
Học viên thực hiện
DONG DANG KHOA
Trang 5MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN.
DANH MỤC CAC KÝ HIỆU VÀ CHỮ VIET TAT
Chương2 TONG QUAN 4
2.1 Van dé dữ liệu tác giả trong văn học “4 2.2 Vấn đề về bài toán xác định tác giả 4
2.3 Tình hình nghiên cứu -5
2.3.1 _ Tình hình nghiên cứu trên thé gi 15
2.3.2 Tinh hình nghiên cứu trong nước 9 2.4 Mô hình hóa bài toán
2.5 _ Phương pháp nghiên cứu.
2.6 Phương pháp đánh giá.
2.7 Ý nghĩa khoa học và thực tiễn
Chương 3 CƠ SỞ LÝ THUYÉT
3.1 Tổng quan về các bộ dữ liệu được áp dụng trong luận văn
3.1.1 Bộ dữ liệu tác giả văn học Vi
3.3 Phương pháp dựa trên máy học truyền thống
3.3.1 Mô hình Naive Bayes.
3.3.2 MôhìnhSVM
Trang 63.3.3 Mô hình Logistic Regresstion
3.3.4 Mô hình Random Forest
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1 Môi trường và các thư viện được sử dung.
DANH MỤC CÔNG BÓ KHOA HỌC CỦA TÁC GIẢ
TÀI LIEU THAM KHẢO
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIET TAT
Việt tắt Diễn giải
SVM Support Vector Machine
CNN Convolutional Neural Network
LSTM Long Short-term Memory
RNN Recurrent Neural Networks
GRU Gated Recurrent Units
TF TensorFlow
BERT Bidirectional Encoder Representations from Transformers SOTA State-of-the-art
Trang 8DANH SÁCH BẢNG
Số hiệu bảng Tén bang Trang
Bảng 3.1 | Thống kê dữ liệu tác giả tác phẩm văn học được thu thập | 15
từ Internet
Bảng 3.2 Mô tả các trường dữ liệu được lưu trữ 16
Bảng 3.3 Thống kê mô tả 3 tập dữ liệu 17Bảng 4.1 Kết quả thử nghiệm của các mô hình máy học truyền |_ 53
thống dựa trên trích xuất đặc trưng Ngram — word level
Bảng 4.2 — | Kết quả thử nghiệm của các mô hình máy học truyền |_ 54
thống dựa trên trích xuất đặc trưng Ngram — character
level
Bảng 4.3 Các tham số cần thiết cho thử nghiệm 64
Bảng4.4 | Mô tả chỉ tiết thử nghiệm với mô hình đề xuất va] 69
phương pháp Transformers dựa trên bộ dit liệu tiếng
Việt
Bảng 4.5 Mô tả chỉ tiết thử nghiệm với mô hình đề xuất va} 70
phương pháp Transformers dựa trên bộ dữ liệu tiếng
Anh
Trang 9DANH SÁCH HÌNH VẼ
Số hiệu 'Tên hình vẽ Trang
Hình 3.1 Sơ đồ xây dựng công cụ thu thập dữ liệu trong văn học 14
Hình 3.5 Mô tả về siêu phẳng trong SVM 28
Hình 3.6 Mô tả về đường biên trong SVM 29
Hình 3.7 Mô tả về đường biên trong SVM 29Hình 3.8 Biễu diễn đồ thị của hàm 6, 30Hình 3.9 Mô hình kiến trúc CNN trong phân loại văn bản 35
Hình 3.10 Mô hình tông quan của một mạng LSTM 36
Hình 3.11 Kiến trúc BiLSTM 37
Hình 3.12 Kiến trúc của GRU 38
Hình 3.13 Kiến trúc của mô hình BERT 40
Hình 3.14 Tổng quan về mô hình phương pháp được đề xuất kết 43
hop phong cách viết, tong hợp đặc trưng va mô hình
Trang 10Tương quan độ chính xác giữa các mô hình máy học Hình 4.4 54
truyền thống với đặc trưng ngram — word level
Hình 4.5 Tương quan độ chính xác giữa các mô hình máy học 35
truyền thống với đặc trưng ngram — character levelHình 4.6 Kiến trúc thực nghiệm của mạng TextCNN 58Hinh 4.7 Kiến trúc thực nghiệm của mạng BiLSTM 60Hình 4.8 Kiến trúc thực nghiệm của mạng GRU 62Hình 4.9 Trực quan hóa so sánh hiệu suất của các mô hình deep 63
learning được thử nghiệm thông qua bốn độ đo
Trang 11MỞ ĐÀU
Trong những năm gần đây với sự phát triển vượt bật của Internet dẫn đến sự bùng nổ
về dữ liệu Xác minh tác giả là một lĩnh vực trong xử lý ngôn ngữ tự nhiên gần đâythu hút được nhiều sự quan tâm Các nghiên cứu liên quan về phân tích tác giả baogồm xác định tác giả, lập hồ sơ tác giả và xác minh tác giả Nó được nghiên cứu déứng dụng rộng rãi trong nhiều lĩnh vực gồm có: lịch sử, điều tra văn bản, ngôn ngữpháp lý, xác minh đạo văn, Nhiều phương pháp đã được các nghiên cứu trước đây
đề xuất thực hiện nhiệm vụ này và mang lại những kết quả ấn tượng Các phươngpháp tiếp cận này nghiên cứu các đặc điểm phong cách trong các nhiệm vụ khác nhauliên quan đến tác giả, bao gồm các nhiệm vụ cụ thé về từ vựng, cú pháp, ngữ nghĩa,cấu trúc và nội dung Bên cạnh đó cũng có rất nhiều phương pháp phân loại đã được
áp dụng cho các nhiệm vụ phân tích tác giả bao gồm các kĩ thuật máy học, học sâu
và kĩ thuật tiên tiến hiện đại khác
Trong luận văn này giới thiệu một hướng tiếp cận mới nó là sự kết hợp giữa các
phương pháp truyền thống và hiện đại, nhằm khai thác tối đa các đặc trưng có thể thu
thập được và kết hợp chúng với nhau để xây dựng một mô hình thử nghiệm được đềxuất cho nhiệm vụ xác định tác giả trong văn học Việt Nam Van đề tác giả trong văn
học Việt Nam chưa có nghiên cứu nào trước đây thực hiện, do đó trong luận văn cũng
mong muốn giới thiệu một bộ dữ liệu tự xây dựng, phục vụ cho công tác nghiên cứu
về bài toán xác minh tác giả trong tiếng Việt Đồng thời, luận văn cũng trình bày các
cách tiếp cận dựa trên mô hình máy học, học sâu và các phương pháp hiện đại, đặcbiệt dé xuất một phương pháp mới hiệu quả hơn các phương pháp được so sánh
Đóng góp chính của đề tài:
Trên cơ sở đó, công bố bài báo khoa học ở hội nghị FDSE 2022 với tiêu đề:
“Vietnamese Text’s Writing Styles Based Authorship Identification Model”
Nội dung của luận văn được trình bày trong 4 chương, bao gồm:
Chương 1 giới thiệu về dé tai, đưa ra vấn đề cần giải quyết trong đề tài, qua
đó cho thấy được động cơ nghiên cứu, đồng thời trình bày những mục tiêu cần đạt
Trang 12được trong luận văn Theo đó, phần này cũng giới thiệu phạm vi và đối tượng được
nghiên cứu.
Chương 2 trình bày tổng quan, trong phần này sẽ giới thiệu tổng quan về dữ
liệu tác giả trong văn học, van đề xác minh tác giả Bên cạnh đó, phần này cũng khảo.sát các nghiên cứu trên thế giới và trong nước, qua đó mô hình hóa được bài toán.Cuối cùng, trình bày các phương pháp nghiên cứu và phương pháp đánh giá được sửdụng trong dé tài Từ đó, nêu lên được ý nghĩa khoa học và thực tiễn của dé tài
Chương 3 trình bày các cơ sở lý thuyết cần có đề giải quyết vấn dé đặt ra trong
luận văn Đầu tiên, giới thiệu tong quan về các bộ dữ liệu được áp dụng để nghiên
cứu là cơ sở đề đánh giá tính đúng đắn của mô hình Tiếp theo, giới thiệu các thao tác
xử lý cho dữ liệu dạng văn bản: tiền xử lý, rút trích đặc trưng Cuối cùng, mô tả cácphương pháp được áp dụng, bao gồm phương pháp truyền thống, phương pháp học
sâu, mô hình transformers và mô tả về mô hình đề xuất
Chương 4 trình bày các phương pháp thực nghiệm và đánh giá mô hình Dựa
trên các cơ sở lý thuyết được trình bày trong phần trước, phần này luận văn sẽ đưa ra
những thử nghiệm cụ thé và đánh giá bằng số liệu Trong phần này sẽ trình bày các
thức thu thập dữ liệu, xây dựng các mô hình máy học, mô hình mạng neural, các triển
khai một mô hình tiên tiến hiện đại dựa trên transformers Cuối cùng, thực hiện đánh
giá thông qua các bảng biểu dữ liệu và trực quan hóa bằng hình ảnh
Chương 5 tổng kết những kết quả đạt được, tóm tắt lại các vấn đề đã đặt ra vàcách giải quyết trong luận văn, nêu lên những chế còn tồn đọng Những đóng góp, déxuất và hướng phát triển cho dé tài trong tương lai
Trang 13Chương 1
GIỚI THIỆU
Chương 1 giới thiệu về đề tài, đưa ra vấn dé cần giải quyết trong dé tài, qua
đó cho thấy được động cơ nghiên cứu, đồng thời trình bày những mục tiêu cần đạt
được trong luận văn Theo đó, phần này cũng giới thiệu phạm vi và đối tượng được
nghiên cứu.
1.1 Đặt vấn đề
Trong những năm gần đây, với sự phát triển mạnh mẽ và vượt bậc của Internetkéo theo việc bùng nỗ về dữ liệu đặc biệt trong dữ liệu dạng văn bản Hiện nay, việctiếp cận các nguồn thông tin từ Internet trở nên dé dàng hơn bao giờ hết Bên cạnh
đó, việc các thông tin không xác thực về nguồn gốc tác giả đã mang lại những bắt cậpnhất định Chúng ta có thể thường xuyên bắt gặp các tình huống dẫn đến tranh chấptác giả; đặc biệt do tính chất đặc trưng về văn phong của mỗi tác giả đã đem lại nhữngtranh luận nhất định Không chỉ riêng lĩnh vực văn học, các lĩnh vực khác như âm
nhạc, nghệ thuật cũng đã chịu những ảnh hưởng của việc xác định đâu mới thật sự là tác giả, và tác giả này có đạo văn từ tác giả khác không?
Mặc khác, trong lĩnh vực văn học Việt Nam một nền văn học có truyền thống
và lịch sử lâu đời, chịu ảnh hưởng của văn học dan gian về nhiều phương diện, từ nội
dung tư tưởng đến hình thức nghệ thuật Văn học dân gian là nền tảng của văn họcviết, là chặng đầu của nền văn học dân tộc Khi chưa có chữ viết, nền văn học ViệtNam chỉ có văn học dân gian; khi có chữ viết, nền văn học Việt Nam mới bao gồmhai bộ phận: văn học dan gian và văn học viết
Trong luận văn này, sẽ trình bày việc xác định tác giả của văn học Việt Nam
hiện đại Theo đó, việc xác định văn phong của mỗi tác giả được xem là cơ sở để cóthé xác định tác giả chính của văn bản được khảo sát Theo phương pháp truyền thống,
dé xác định văn phong của một tác giả cụ thé, ta phải nắm bắt được lối hành văn, cách
sử dụng câu, từ, cách diễn đạt và din đắt câu chuyện của mỗi tác giả Dựa trên đó, ta
có cơ sở dé xác định một văn bản ẩn danh có thuộc về một tác giả cụ thể nào haykhông Qua đó, ta thấy được cách tiếp cận này vẫn còn thủ công, tốn nhiêu thời gian,
Trang 14khó xác định được chính xác tác giả của văn bản Gần đây, cách tiép cận dựa trên vănphong áp dụng các kĩ thuật máy học hiện đại đang là một trong những chủ đề nghiên
cứu trong xử lý ngôn ngữ tự nhiên có được nhiều sự quan tâm Hầu hết các nghiên
cứu gần đây đề xuất các phương pháp tiếp cận dựa trên bộ ngữ liệu tiếng Anh, tiếngTrung, tiếng Nga, tiếng Hà Lan Tuy nhiên trong văn bản tiếng Việt, chưa có bộ dữ
liệu nào được áp dụng cho bài toán xác định tác giả trong văn học Việt Nam được
xây dựng đề phục vụ cộng đồng nghiên cứu
1⁄2 Dong cơ nghiên cứu
Nhu đã trình bày trong phần trước, hiện nay chưa có nghiên cứu nào được ápdụng trong ngôn ngữ tiếng Việt cho bài toán xác định tác giả văn học qua phong cáchviết Nhận thấy tầm quan trọng của việc xây dựng bộ ngữ liệu cho việc xác định tác
giả trong văn học Việt Nam cũng như cách áp dụng một mô hình máy học, học sâu
hoặc các kĩ thuật tiên tiền hiện đại dé dé xuất một mô hình xác định tác giả hiệu quả.Trong luận văn này, trình bày một phương pháp tiếp cận mới, đạt hiệu quả hơn cácphương pháp truyền thống Kết quả của việc xác định tác giả theo phương pháp tiếpcận này cũng là động lực đề tiếp tục với những nghiên cứu tiếp theo
1.3 Mục tiêu của luận văn
Trình bày được nội dung chính của vấn đề xác định tác giả dựa trên văn phong,
thông qua việc khảo sát các nghiên cứu gần đây Qua đó, cho thấy được tính cấp thiết
của dé tài thông qua việc giới thiệu bộ đữ liệu dành cho tác giả văn học Việt Nam
bằng công cụ tự xây dựng
Đồng thời, luận văn cũng trình bày các cách tiếp cận dựa trên mô hình máy
học, học sâu và các phương pháp hiện đại, đặc biệt đề xuất một phương pháp mới
hiệu quả hơn các phương pháp được so sánh.
Trên cơ sở đó, công bố bài báo khoa học ở hội nghị FDSE 2022 với tiêu đề:
“Vietnamese Text’s Writing Styles Based Authorship Identification Model”
1.4 Phạm vi và đối tượng nghiên cứu
Trang 15Do giới hạn về tài nguyên cũng như thời gian, luận văn chỉ trình bày trong lĩnhvực văn học Việt Nam, thể loại văn xuôi, được giới hạn bởi 8 tác giả độc lập với 839
tác phâm Xác định tác giả cụ thê trong số các tác giả tiềm năng tồn tại cho một đoạn
văn bản bắt kì
Thực nghiệm các phương pháp dé đánh giá tính hiệu quả của các mô hình thửnghiệm và mô hình được đề xuất Qua đó, mô hình đề xuất cho thấy tính hiệu quả sovới các mô hình truyền thống, các phương pháp mạng neural sâu và phương pháp tiêntiền như mô hình transformers
Trang 16Chương 2
TONG QUAN
Chương 2 trình bay tổng quan, trong phan nay sẽ giới thiệu tong quan về dữliệu tác giả trong văn học, van đề xác minh tác giả Bên cạnh đó, phan này cũng khảosát các nghiên cứu trên thế giới và trong nước, qua đó mô hình hóa được bài toán.Cuối cùng, trình bày các phương pháp nghiên cứu và phương pháp đánh giá được sử
dụng trong đề tài Từ đó, nêu lên được ý nghĩa khoa học và thực tiễn của đề tài
2.1 Vấn đề dữ liệu tác giả trong văn học
Theo khảo sát, hiện nay chưa có một bộ dữ liệu nào trong nghiên cứu phân
tích tác giả của văn học Việt Nam được công bó Bên cạnh đó, các nghiên cứu gầnđây về van dé tác giả hay xác minh tác giả trong văn bản tiếng Việt nói chung và lĩnhvực văn học nói riêng còn rất hạn chế Vì vậy, dữ liệu dé nghiên cứu phương pháp
xác định văn phong của văn bản tiếng Việt sẽ gặp nhiều thách thức Trong luận văn
này giới thiệu một bộ dit liệu tự xây dựng dựa trên công cụ thu thập tự phát triển có
tên là VN-Literature.
2.2 Vấn đề về bài toán xác định tác gia
Xác định tác giả của văn bản là quá trình phân tích một tài liệu đê có thê đưa
ra các kết luận về tác giả chính của văn bản đó Quá trình xác định tác giả liên quanđến hai vấn đề chính đó là tập đặc trưng và kỹ thuật phân tích Trong thời kì đầu, các
kỹ thuật phân tích sử dụng các kỹ thuật khá đơn giản dựa trên thống kê Với sự pháttriển nhanh chóng của các công nghệ, gần đây các kỹ thuật phân tích sử dụng máyhọc, học sâu và các mô hình tiên tiến hiện đại đã được đề xuất cho các nghiên cứu
trong việc xác định tác giả của các văn bản.
Theo nghiên cứu của Argama [11], có hai loại đặc trưng chính được sử dungtrong phân tích tác giả văn bản: đặc trưng về phong cách và đặc trưng dựa trên nội
dung Đặc trưng về phong cách bao gồm các đặc trưng liên quan đến ký tự, tính chất
từ (lexical), cách sử dụng các cầu trúc ngữ pháp (syntactic), va các đặc trưng về cấutrúc văn bản Đặc trưng dựa trên nội dung bao gồm các từ nội dung được sử dụng
thường xuyên trong lĩnh vực đó hơn là các lĩnh vực khác Các từ nay thường được
Trang 17chọn theo phương pháp thống kê tần suất xuất hiện trong tập dữ liệu hoặc dựa trên
ngữ nghĩa của từ.
Xác định tác giả của văn bản (authorship attribution) là một nhánh nghiên cứu
của phân tích tác giả văn bản Phân tích tác giả văn bản còn có 2 nhánh nghiên cứu
khác là nhận diện đặc điểm tác gia (authorship profiling) và xác minh tác giả(authorship verification) Trong giới hạn của luận văn sẽ trình bày về xác định tác giảcủa văn bản, là quá trình xác định một văn bản cho đúng tác giả trong số các tác giảtiềm năng Xác minh tác giả được sử dụng rộng rãi trong việc phát hiện đạo văn hoặc
xác định tác giả cho văn học lịch sử Nhiệm vụ phân loại này cũng nôi tiêng trong các
cuộc điều tra pháp y (Yang và Chow [12])
Trong luận văn này, giới thiệu một phương pháp tiếp cận mới trong việc xácđịnh tác giả mang liệu hiểu quả tốt hơn các phương pháp cũ và các phương pháp gần
đây Một mô hình BERT dựa trên tinh chỉnh (fine-tuning) với mô hình ngôn ngữ được
huấn luyện trước (pre - trained language model), theo đó áp dụng thêm một số lớpđày đặc (dense layer) và một hàm kích hoạt softmax để xác định tác giả, được huấnluyện trong một số lần lặp Đây là một trong những thử nghiệm đầu tiên của luận văn
để phân tích hiệu suất của tỉnh chỉnh mô hình ngôn ngữ được huấn luyện trước cho
xác định tác giả của văn bản Giống như hầu hết các phương pháp Học sâu dành choxác định tác giả, phương pháp đề xuất không yêu cầu tiền xử lý văn bản cũng như kỹthuật rút trích đặc trưng Phương pháp của mới cung cấp hiệu suất hiện đại (SOTA)trên kho dữ liệu nổi tiếng, với mức cải thiện độ chính xác tương đối cao Luận văncũng minh họa những điểm mạnh và điểm yếu của một hệ thống như vậy Trong đềtài này, luận văn cũng chỉ ra rằng việc xây dựng một kiến trúc kết hợp giữa đa dạngcác đặc trưng có xu hướng cải thiện điểm số F1 trung bình vĩ mô (macro-averaged)
2.3 Tình hình nghiên cứu
2.3.1 Tình hình nghiên cứu trên thế giới
Từ những năm dau của thế ki 21, nhiều tác giả đã quan tâm đến van đề xác
định nguồn gốc của một nội dung văn bản thông qua cách khai phá thông tin thu thập
được từ văn bản Khái niệm phân loại văn bản, phân tích cảm xúc đã dan xuất hiện
Trang 18và đang được khai thác, sớm nhất đó là nghiên cứu về phong cách viết của Alison vàcộng sự [1] vào năm 2001 về vấn dé những thói quen vô định của tác giả Những thói
quen này sẽ được thấy rõ hơn thông qua cách sử dụng từ và ngữ pháp của mỗi tác giả
Quá trình khai thác các đặc trưng của từ ngữ để nắm bắt được thông tin của mỗi tác
giả trở nên đơn giản hơn thông qua cách dùng từ và ngữ pháp Nghiên cứu của Alison
khảo sát và xác định tác giả của các email bằng cách phân tích nội dung và phongcách viết của mỗi tác giả Một tập hợp các đặc điểm phong cách áp dụng cho văn bản
nói chung và một tập hợp mở rộng các đặc điểm cấu trúc dành riêng cho email đã
được tác giả định nghĩa Tác giả đã sử dụng mô hình SVM để phân biệt giữa các lớptác giả Thông qua một loạt thử nghiệm cơ bản về dữ liệu không phải email, tác giả
thấy rằng khoảng 20 email với khoảng 100 từ trong mỗi email là đủ để phân biệt tác
giả trong hầu hết các trường hợp Những kết quả này đã được xác nhận với một kho
dữ liệu email và hiệu suất được nâng cao hơn nữa khi một tập hợp các đặc trưng dành
riêng cho email được thêm vào Kết quả này có ý nghĩa quan trọng trong việc quản
lý các vấn đề như lạm dụng email, email ân danh và điều tra máy tính
Nghiên cứu của Kimler năm 2003 [2] xem xét một phương pháp phát hiện đạo
văn nội bộ sử dụng các điểm đánh dấu phong cách từ các nghiên cứu về tác giả đểtìm ra những thay đổi về phong cách trong một văn bản Những thay đồi này có thé
xác định chính xác các đoạn đạo văn Ngoài ra, một điêm đánh đấu kiểu mới được
gọi l: cụ thể" được giới thiệu Nghiên cứu trước kiêm tra xem các dấu hiệu phong
cách có thé “dầu vết” phong cách của tác giả hay không và liệu chúng có không đồi
với kích thước mẫu hay không Nó chỉ ra rằng các biện pháp làm giàu từ vựng không.đáp ứng các điều kiện tiên quyết này Các điểm đánh dau phong cách khác - thước đo
tỷ lệ đơn giản, điểm dễ đọc, danh sách tần suất và thước đo entropy - có những đặc
điểm này và cùng với thước đo từ cụ thể mới được sử dụng trong một nghiên cứuchính với cách tiếp cận không giám sát để phát hiện những thay đổi về phong cáchtrong văn bản đạo văn tại cấp độ câu và đoạn văn
Houvardas và Stamatatos [3] nghiên cứu phương pháp sử dụng các cụm ký tự
có độ dài biến đồi dé giải quyết van đề nhận di tác giả trên các bản tin Reuters của
50 tác giả khác nhau Ký tự n-gram là một cách tiếp cận rất thành công dé biểu diễn
Trang 19văn bản cho các mục đích phong cách vì chúng có thể nắm bắt các sắc thái ở cấp độ
từ vựng, cú pháp và cấu trúc Tác giả đề xuất một cách tiếp cận n-gram có độ dài thay
đổi lấy cảm hứng từ công việc trước đây để chọn các chuỗi từ có độ dai thay đổi Sử
dụng một tập hợp con của kho ngữ liệu Reuters mới, bao gồm các văn bản về cùngmột chủ đề của 50 tác giả khác nhau, cho thấy rằng phương pháp được đề xuất ít nhấtcũng hiệu quả như thu được thông tin dé chon n-gram quan trong nhất mặc dù các bộ
đặc trưng được tạo bởi hai phương thức có ít thành viên chung Hơn nữa, tác giả chothấy tầm quan trọng của các chữ số dé phân biệt giữa các tác giả cho thấy rằng có thé
đạt được sự gia tăng hiệu suất bằng cách sử dụng tiền xử lý văn bản đơn giản
Nghiên cứu được thực hiện trong [4] đã sử dụng Support Vector Machine
(SVM) Các tham số dé xác định phong cách viết được đánh dấu ở các cấp độ khácnhau của văn bản Các tác giả đã chứng minh rằng các tham số phức tạp hơn có khảnăng trích xuất các yếu tô phong cách được trình bày trong văn bản Tuy nhiên, chúng
được sử dụng hiệu quả nhất khi kết hợp với n-gram đơn giản và dé hiểu hơn Trong
trường hợp này, họ cải thiện kết quả Bộ dữ liệu bao gồm 20 mẫu bằng bốn ngôn ngữkhác nhau (tiếng Anh, tiếng Pháp, tiếng Ý và tiếng Tây Ban Nha) Do đó, năm mẫu
từ 500 đến 1000 từ trong mỗi ngôn ngữ đã được sử dụng Thách thức là gán từng tàiliệu trong tập hợp các tài liệu chưa biết cho một tác giả ứng cử viên từ tập hợp vấn
đề Kết quả là 77,7% cho tiếng Ý, 73% cho tiếng Tây Ban Nha, 68,4% cho tiếng Pháp
và 55,6% cho tiếng Anh
Trong [5] Sari và cộng sự sử dụng thuật toán nhúng ký tự liên tục được phát
hành gần đây fastText [15] cùng với các nhúng vectơ liên tục cho n-gram từ, đượchọc cùng với lớp phân loại trong NN chuyền tiếp nguồn cap dit liệu Các tác giả chứngminh rằng với mục đích ghi nhận tác gia, n-gram ký tự cho thấy kết quả tốt hơn sovới n-gram từ và các phương pháp tiếp cận dựa trên SVM trước đó Sari và cộng sự[22] sử dụng bốn kho ngữ liệu khác nhau cho các thử nghiệm của họ: Bộ dữ liệu bao
gồm bài viết của ba thâm phán Tòa án tối cao Úc về các chủ đề khác nhau với các tai
liệu 902, 253 và 187 từ mỗi chủ dé; CCAT-10: một tin tức công ty và công nghiệpcủa Reuters Corpus tập 1 với 10 tác giả và 100 văn bản cho mỗi tác giả; CCAT-50với 5.000 tài liệu của 50 tác giả (chi 50 tài liệu dùng trong huấn luyện của mỗi tác
Trang 20giả); và bộ dữ liệu IMDb62, bao gồm 62.000 bài đánh giá phim và 17.550 bài đăng
trên bản tin từ 62 người dùng cơ sở dữ liệu Phim trên Internet.
Trong [6] Solorio và cộng sự đề xuất việc sử dụng các mạng neural tích chập
để tìm hiểu các biểu diễn ký tự và huấn luyện dé gán văn bản cho các tác giả Các tácgiả cũng đề xuất một phương pháp để cải thiện khả năng diễn giải của các kết quả đạt
được, dựa trên điểm số nỗi bật, đo độ nhạy của mạng đối với những thay đổi trong
từng đầu vào, cho phép nhà nghiên cứu tạo bản đồ nhiệt của tài liệu đầu vào, hiền thicác phân đoạn quan trọng hơn đối với quyết định phân loại, hơn những người khác
Đối với các thử nghiệm của mình, tác giả sử dụng kho dữ liệu twitter, chứa khoảng
9.000 người dùng twitter với tối đa 1.000 tweet mỗi người Giới hạn số lượng dữ liệu
ở mức 200, các tác giả thay đổi số lượng tác giả từ 100 đến 1000
Ferracane và cộng sự [7] đã áp dụng một số mô hình neural, dựa trên CNN
ký tự, và điều tra tác động của các đặc điểm diễn ngôn đối với chất lượng của tác giả.Kết quả của họ cho thấy rằng, ngay cả khi mô hình cơ bản đạt được hiệu suất cao, thì
việc bổ sung CNN thứ cấp đề trích xuất các đặc trưng của diễn ngôn sẽ cải thiện chất
lượng của hệ thống, về cơ bản làm cho nó trở thành hiện đại mới, với điểm số mô
hình tốt nhất 98,8% trên FI
Trong nghiên cứu của Custodio và cộng sự [8], đã đề xuất một cách tiếp cận
tập hợp kết hợp các dự đoán được thực hiện bởi ba bộ phân loại độc lập Phương phápdựa trên các mô hình n-gram có độ dài thay đổi và hồi quy logistic đa thức và được
sử dụng dé chọn dự đoán có khả năng xảy ra cao nhất trong số ba mô hình Hai thửnghiệm đánh giá đã được tiến hành: sử dụng bộ dữ liệu thử nghiệm PAN-CLEE 2018(độ chính xác 93%) và kho lời bài hát mới bằng tiếng Anh và tiếng Bồ Đào Nha (độchính xác 52%) Kết quả chứng minh rằng phương pháp đề xuất có hiệu quả đối với
văn bản hư cấu nhưng không hiệu quả đối với lời bài hát
Romanov và Meshcheryakov [9] sử dụng nhiều đặc trưng tan số khác nhau déhuấn luyện một perceptron đa lớp, mạng neural tích chập và bộ phân loại SVM Họ
sử dụng các tin nhắn từ diễn đàn internet (forum.tomsk.ru) làm kho dữ liệu cho các
thử nghiệm Nó có tổng cộng 10 tác giả với khoảng 144 văn bản cho mỗi tác giả Cáctác giả xác định rằng họ chỉ phân loại từng văn bản theo kiểu nhị phân, thay vì đa lớp
Trang 21Trong nghiên cứu của Bacciu và cộng sự [10], đã đề xuất mô hình của mìnhcho nhiệm vụ xác minh tác giả của PAN 2019, tập trung vào cài đặt tên miền chéo
bao gồm 4 ngôn ngữ khác nhau: tiếng Pháp, tiếng Ý, tiếng Anh và tiếng Tây Ban
Nha Tác giả đã sử dụng n-gram ký tự, từ, từ gốc và văn bản bị bóp méo Mô hìnhcủa tác giả có một SVM cho mỗi đặc trưng và một kiến trúc tập hợp Tác giả sử dụngcách tiếp cận tập hợp để kết hợp tất cả xác suất của các bộ phân loại đơn cho mỗingôn ngữ và tăng kết quả của chúng Tác giả đã sử dụng các kỹ thuật tiền xử lý khác
nhau để trích xuất các đặc trưng có ý nghĩa khác nhau Tác giả cũng sử dụng biến
dang văn bản, mã thông báo, tạo gốc và gắn thẻ POS dé chuẩn bị văn bản cho quátrình trích xuất Để giải quyết vấn đề tác giả không xác định, tác giả đã giới thiệu một
phương pháp tính đến ba tác giả giống nhau nhất cho văn bản đang tranh chấp, thay
vì chỉ hai tác giả đầu tiên Kết quả cuối cùng của tác giả vượt trội so với phương pháp
cơ sở do PAN đưa ra trong hầu hết mọi vấn đề Với mô hình này, tác giả đạt vị trí thứ
hai trong nhiệm vụ với điểm F1 là 68%
2.3.2 Tình hình nghiên cứu trong nước
Bên cạnh những công trình nghiên cứu trên thé giới về bài toán định danh tác
giả cũng thu hút được cộng đồng nghiên cứu trong nước trên đa dạng các miền dữ
liệu Xác định đặc điểm tác giả bài viết diễn đàn tiếng 'Việt dựa trên âm tiết và vần
Tác giả [12] đề xuất một loại đặc trưng mới có mức độ ngữ nghĩa cao hơn các ký tựnhưng ở mức thấp hơn so với các từ nội dung Số lượng các đặc trưng cũng phải ở
mức chấp nhận được Các âm tiết và vần trong tiếng Việt thỏa mãn các yêu cầu này.Trong tiếng Việt, một từ có thể là từ đơn (chứa một âm tiết) hoặc từ ghép (chứa từhai âm tiết trở lên) Mỗi âm tiết là một cụm ký tự riêng rẽ trong câu Tác giả đã chuyển
inh đặc điểm tác giả bài viết về bài toán phân loại bài viết dựa trên cácvấn đề xác
đặc trưng riêng lẻ và đặc trưng kết hợp Qua đó, một mô hình phân lớp đã được sửdụng, trong bài viết tác giả sử dụng phương pháp SVM một mô hình hiệu quả chocác bài toán có nhiều đặc trưng Tác giả đánh giá bài toán thông qua kiểm chứng chéo(cross validation) và độ chính xác, kết quả dé xuất xác định tác giả thông qua đặctrưng âm tiết hiệu quả tăng lên 7%, việc kết hợp nhiều đặc trưng cũng giúp tăng hiệu
quả nhận dạng tác giả từ 4 — 8%.
Trang 22Bui và cộng sự [11] đề xuất phương pháp xác định người ding nao là tác giảcủa các tin nhắn trực tuyến Tác giả dé xuất một phương pháp xác định tác giả của
các tin nhắn trực tuyến bằng tiếng Việt dựa trên thuật toán học máy Các thuật toán
được sử dụng bao gồm Naive Bayes, SVM, Random Forest va Logistic Regression.Thuật toán mang lại kết quả tốt nhất trong hau hết các trường hợp là Random Forest.Các thử nghiệm chứng minh rằng đối với các tin nhắn dài hơn, độ chính xác của phânloại tốt hơn các tin nhắn có độ dài thấp Do phan lớn dữ liệu tác giả sử dụng có độ dai
tương đối ngắn, phần nữa do tiếng Việt còn nhiều khó khăn trong việc xử lý nên tác
giả không thé sử dung dé nghiên cứu như gan nhãn phan của lời nói, nhận dang thựcthể được đặt tên, v.v nghiên cứu cũng có hạn chế khi dữ liệu sử dụng là tin nhắn trực
tuyến từ các báo điện tử, dẫn đến nội dung tin nhắn có sự tương đồng.
2.4 Mô hình hóa bài toán
Luận văn định nghĩa việc xác định tác giả văn bản là quá trình xác định tác giả
dựa trên tập hợp những đặc điểm chung và riêng của văn bản đã hình thành nên phongcách của tác giả Vấn đề xác định tác giả của văn bản là xác định sự tồn tại của một
tác giả trong số các tác giả tiềm năng Qua đó, ta có tập văn bản T = {ty, , ty} và
tập tác giả A = {ay, ,a)} Đối với một tập hợp các văn bản con nhất định T’ ={f\, , Em} GT, các tác giả đã được biết đến; tức là, có tập hợp các cặp (văn bản -tác giả) T = {(t;, a;)} Ta cần xác định tác giả nào trong tập A là tác giả đích thựccủa các văn bản còn lại (an danh hoặc còn tranh chấp) T” = {t„;+, , ty} ST
Theo phát biểu này, vấn đề xác minh tác giả có thể được coi là một nhiệm vụ
phân loại đa nhãn Trong trường hợp này, tập 4 là tập các lớp được xác định trước và
nhãn của chúng, tập D là tập các mẫu huấn luyện và các đối tượng cần phân loại được
bao gồm trong tập T” Mục tiêu là phát triển một bộ phân loại dé giải quyết vấn đề
-tìm hàm mục tiêu F:T x A > [—1, 1], ham này gán một số văn bản từ tập T cho tác
giả thực sự của nó Giá trị của hàm được mô tả là mức độ mà đối tượng thuộc về lớp,trong đó 1 tương ứng với nghiệm hoàn toàn dương, trong khi —1, ngược lại, là nghiệm
âm.
2.5 Phương pháp nghiên cứu
Trang 23Phương pháp thu thập số liệu: Thu thập thông tin dựa vào các nguồn có sẵn,cũng như thông qua quá trình quan sát, từ đó xác định được các yêu cầu cần thiết và
cơ sở lý luận Tìm hiểu về các hệ thống hỗ trợ phân tích cảm xúc áp dụng công nghệ
trí tuệ nhân tạo Tham khảo, nghiên cứu các bài toán, thuật toán đã có nhằm kế thừacác ưu điểm và khắc phục những nhược điểm còn tồn đọng
Phương pháp thu thập thông tin: Thu thập thông tin về bài toán xác định tácgiả trong văn học Việt Nam thông qua khảo sát các nguồn thông tin sẵn có, quá trìnhquan sát tìm kiếm các bộ dữ liệu được công khai trong văn học Việt Nam, từ đó xác
định được các cơ sở lý luận và các yêu cầu cần thiết cho việc thực hiện nghiên cứu
Tham khảo, phân tích các nghiên cứu đã có trên thế giới về bài toán tương tự và chínhxác cho tác vụ xác định tác giả trên các bộ ngôn ngữ khác nhau, tìm hiểu các thuậttoán, phương pháp tiếp cận mới và hiện đại dé giải quyết bài toán
Phương pháp tổng hợp lý thuyết: Nghiên cứu, liên kết các tài liệu về phân tíchngôn ngữ, đặc biệt là các thuật toán được đánh giá, có độ tin cậy và chuẩn sát caonhằm mục tiêu xây dựng được mô hình thực nghiệm, qua đó đề xuất một mô hình kếthợp mang lại hiệu quả hơn các mô hình cơ sở trong cùng miễn đữ liệu thử nghiệm
Phương pháp giả thuyết: Đưa ra các dự đoán về nhu cầu, cách hoạt động và
kết quả mà đề tài mang lại giải quyết được những bắt cập hiện tại hay chưa?
Phương pháp điều tra: Khảo sát và thăm dò kết quả hoạt động của các nghiêncứu trên thế giới gần đây, xác định điểm mạnh yếu trong các đặc trưng thu thập vàtìm hiểu nhu cầu hướng mở rộng trong tương lai
Phương pháp thực nghiệm: Đề tài sẽ đóng góp cho nghiên cứu xác định tác
giả trong văn học Việt Nam một bộ ngữ liệu có tên là VN-Literature nó là kết quả
của cả quá trình thu thập thông tin mà dé tài đã cố gắng thực hiện Bên cạnh đó, đề
tài còn giới thiệu một hướng tiếp cận mới dựa trên các kĩ thuật tiên tiến hiện đại, một
mô hình kết hợp giữa các đặc trưng bao gồm: đặc trưng kết hợp và đặc trưng phongcách viết của tác giả thông qua việc fine-tuning một số mô hình ngôn ngữ được huấn
luyện trước Cuối cùng, thực hiện các thử nghiệm để thay đổi các tham số đề thu được
kết quả mong muốn
Trang 242.6 Phương pháp đánh giá
Trong quá trình nghiên cứu, bên cạnh các tìm hiểu về cơ sở lý thuyết, các kĩthuật cần có để giải quyết vấn đề, cách sử dụng các công cụ để giải quyết vấn đề theolập luận thực tiễn Một phần không thể thiếu để xem xét một mô hình có chất lượngtốt hay không đó là đánh giá mô hình Đánh giá mô hình giúp người nghiên cứu lựachọn được các mô hình phù hợp, các hướng cải tiến mới hiệu quả, đề xuất được cácphương pháp tinh chỉnh tham sé cho mô hình dé phù hợp với các bài toán cụ thể Về
dit liệu đánh giá, trong luận văn này sử dụng một bộ dữ liệu tự thu thập, sau các bước
xử lý, đữ liệu sẽ được phân tách thành 3 phần phục vụ cho các mục đích khác nhau.Đầu tiên, dữ liệu huấn luyện, tập này chiếm tỉ lệ lớn nhất với 75% trên toàn bộ dit
liệu, đữ liệu dev chiếm 15% được sử dụng đề đánh giá mô hình trong quá trình huấn
luyện và là cơ sở để hiệu chỉnh các tham số cho mô hình Cuối cùng, dit liệu kiểmthử, đữ liệu này được lấy từ 10% toàn bộ đữ liệu, dùng dé tính toán nhằm xác định
tính hiệu quả của mô hình thông qua các độ đo như: độ chính xác, precision, recall
Precision — độ nhạy: hình thành từ nhược điểm của độ chính xác, sẽ có rất
nhiều trường hợp thước độ chính xác không phản ánh đúng hiệu quả của mô hình Vì
vay chúng ta cần một độ đo có thé khắc phục được những yếu điểm nay Precision là
một trong những độ đo có thể khắc phục được, công thức như sau:
True Positiue Precision = ————
True Positive + False Positive
Trang 25Recall: cũng là một độ đo quan trọng, nó đo lường tỷ lệ dự báo chính xác các
trường hợp positive trên toàn bộ các mẫu thuộc nhóm positive Công thức của Recall
như sau:
True Positiue
Recall = + 2 Positive + False Negative
Fl-score: tùy thuộc vào bài toán mà ta sẽ muốn ưu tiên sử dụng Recall hoặcPrecision Nhưng cũng có rất nhiều bài toán mà cả Precision và Recall đều quan trọng.Một độ đo phổ biến đã kết hợp cả Recall và Precision lại được gọi là F1-score, được
tính theo công thức sau:
2 * Precision * Recall
F1-S =
core =~ Precision + Recall
2.7 Ý nghĩa khoa học và thực tiễn
Mục đích chính của luận văn là tìm hiểu tông quan về bài toán xác định tác giả
trong văn học thông qua văn phong được trình bày thông qua áp dụng các phươngpháp tiếp cận hiện có như máy học truyền thống, học sâu và các mô hình tiên tiến
hiện đại Qua đó, luận văn trình bày một mô hình mới được để xuất dựa trên việc kếthợp giữa các đặc trưng tổng hợp, phong cách viết của tác và mô hình ngôn ngữ được
huấn luyện trước
Kết quả của luận văn, công bố một bộ dữ liệu tự xây dựng dựa trên các phươngpháp thu nạp thông tin từ Internet được gán nhãn cho mỗi tác giả Bộ dữ liệu sẽ đượcchia sẻ phục vụ mục đích nghiên cứu Bên cạnh đó, đề tài còn đưa ra giải pháp giúpxác định tác giả trong văn học Việt Nam dựa trên việc kết hợp các phương pháp rúttrích đặc trưng khác nhau nhằm mang lại hiệu quả cuối cùng là giúp tăng được tínhchính xác Các thử nghiệm được trình bày trong đề tài sẽ đi kèm với đánh giá nhằm
so sánh tính hiệu quả của các mô hình.
Luận văn cũng đóng góp vào chủ đề nghiên cứu cho việc xác định tác giả trongvăn học Việt Nam Đây là lần đầu tiên có một dé tài nghiên cứu về văn phong trong
văn học tiếng Việt áp dung các kĩ thuật tiên tiến hiện đại dé trình bay
Trang 26Chương 3
CƠ SỞ LÝ THUYET
Chương 3 trình bày các cơ sở lý thuyết cần có đề giải quyết vấn đề đặt ra trongluận văn Đầu tiên, giới thiệu tong quan về các bộ dữ liệu được áp dụng để nghiêncứu là cơ sở dé đánh giá tính đúng đắn của mô hình Tiếp theo, giới thiệu các thao tác
xử lý cho dữ liệu dạng văn bản: tiền xử lý, rút trích đặc trưng Cuối cùng, mô tả các
phương pháp được áp dụng, bao gồm phương pháp truyền thống, phương pháp học
sâu, mô hình transformers và mô tả về mô hình dé xuất
3.1 Tổng quan về các bộ dữ liệu được áp dụng trong luận văn
3.1.1 Bộ dữ liệu tác giả văn học Việt Nam
Trong luận văn này, giới thiệu một bộ dữ liệu về tác giả và tác phẩm văn học
Việt Nam được thu thập bằng công cụ tự xây dựng Theo đó, dit liệu được thu thập
có nguồn gốc từ Internet, cụ thê là các trang web chia sẻ dạng ebook về tác phẩm văn
học Việt Nam Dữ liệu thu thập được giới hạn trong 8 tác giả với hơn 800 tập truyện
ngắn, thể loại văn xuôi thuộc giai đoạn văn học Việt Nam hiện đại Việc lựa chọn giai
đoạn văn học quyết định đầu ra của văn bản được thu thập, nếu chọn các thời kì sớmhon của văn học Việt Nam thì nghiên cứu cần mở rộng thêm về các văn tự ngữ tố
Do giới hạn của luận văn nên trong nghiên cứu này chỉ thu thập các tập truyện ngắn,thể loại văn xuôi của các tác giả văn học Việt Nam hiện đại
AGA URLo Queue
‘Seed URLs Fiter URLS
Trang 27Trong phần thu thập dit liệu, luận văn đã giới thiệu một công cụ tự xây dựng,
hỗ trợ việc thu thập các tập truyện ngắn trong văn học Việt Nam Qua đó, hình 3.1
trình bày tông quan mô hình công cụ thu thập tự xây dựng và cách thức hoạt độngcủa nó Đầu tiên, tiến hành thu thập các đường dẫn của các truyện ngắn, một truyện
ngắn sẽ bao gồm nhiều chương, nhiều tập, do đó ta sẽ lưu trữ các đường dẫn làm cơ
sở cho các truy vấn dữ liệu về sau Tiép theo, sử dụng một hàng đợi để nạp các đườngdẫn văn bản chuẩn bị thu thập; theo đó, cũng ghi vét lại các đường dẫn đã được quét
qua, tránh được sự trùng lắp trong quá trình triển khai chạy công cụ Cuối cùng, một
mã lệnh được viết chạy theo tác vụ dựa trên ngôn ngữ python và thư viện Beautiful
Soup nó là một gói Python đê phân tích cú pháp các tài liệu HTML và XML Thư viện tạo một cây phân tích cú pháp cho các trang được phân tích cú pháp có thê được
sử dụng để trích xuất dữ liệu từ HTML Dữ liệu thô sau khi thu thập được lưu trữ
dưới dang file có cấu trúc để thuận tiện cho việc xử lý ở các bước tiếp theo
7 Nguyễn Huy Tưởng 30 6970 4.78
8 Dao Trinh Nhat 21 2375 1.62
Total 839 145709 100
Bảng 3.1 Thống kê dữ liệu tác gia tác phẩm văn học được thu thập từ Internet
Trang 28Tác phâm Tiêu đê Nội dung Tác giả
Tắt đèn ChuongI | Bắt dau từ gà gáy một tiêng, trâu | Ngô Tat Tô
bò lục tục kéo thợ cầy đến đoạn
đường phía trong điểm tuần
Mọi ngày, giờ ấy, những con vậtnày cũng như những người cổ
cay, vai bừa kia,
Bang 3.2: Mô tả các trường dit liệu được lưu trữ
3.1.2 Các bộ dir liệu khác
Ngoài bộ dữ liệu tự thu thập được trình bày trong phần trước, luận văn cũng
giới thiệu thêm hai bộ dữ liệu được công khai trong cộng đồng nghiên cứu, và đã
được các nghiên cứu trước đây sử dụng cho nhiệm vụ xác minh tác giả Mục đích, để
hỗ trợ đánh giá tính hiệu quả giữa các phương pháp thực nghiệm được trình bày trongnhững phan sau
Đầu tiên, Enron Email là bộ dữ liệu đã được nghiên cứu rộng rãi trong thập kỷtrước ké từ khi Enron phá sản Nó chứa 517401 email từ khoảng 160 nhân viên đãđược công khai và việc chuẩn bị dữ liệu cho nhiệm vụ phân loại email được thực hiệnbởi Klimt và Yang (2004) [13] Các email chủ yếu chứa các cuộc trò chuyện của cácnhà quản lý tại Enron và do tính chất lừa đảo của các email, nó thường được sử dụng.như một trường hợp nghiên cứu cho các cuộc điều tra mạng tội phạm (Aven, 2015)
[14] Các email được thu thập từ thư mục “Đã gửi” của mỗi người trong số 160 nhânviên Vì khoảng 13% email chứa tên của người gửi, dưới dang chữ ký hoặc thông tin
bên lề trong thư được chuyển tiếp, nên các nghiên cứu đã loại bỏ những quan sát này
Các nghiên cứu cũng đã xóa tắt cả các tin nhắn có ít hon 10 tokens vì quá ngắn dé áp
Trang 29dụng quy trình xử lý, được giới thiệu trong nghiên cứu của Ruder và cộng sự [15].
Kho dữ liệu đã được xử lý cuối cùng chứa 130.000 email
Tiếp theo, Blog Authorship Attribution là một kho dữ liệu gồm các bai viết
trên blog từ năm 2004 trở về trước, được thu thập từ blogger.com Nó được giới thiệu
bởi Schler và cộng sự [16] như một phần của nghiên cứu về ảnh hưởng của tuổi tác
và giới tính đối với việc viết blog Hơn 680.000 bài đăng có sẵn, từ hơn 19.000 tácgiả Trung bình có 35 bài viết được thu thập cho mỗi tác giả Không có quá trình tiền
xử lý hoặc lọc nào được áp dụng cho dữ liệu Bộ dữ liệu chứa các văn bản ngắn nhất
trung bình (79 tokens cho 5 tác giả hàng đầu, so với 190 tokens của Enron) Nhiều
bài đăng trên blog được thu thập là câu trả lời cho các bài đăng trên blog hoặc bài viếtngắn hiện có
Trong luận văn này, đối với bộ dữ liệu tiếng anh nghiên cứu thử nghiệm dựatrên 8 tác giả hàng dau có số lượng văn bản lớn nhất Bảng 3.3 trình bay số liệu thong
kê tóm tắt về độ dài và số lượng tài liệu của mỗi tác giả, trong các cấu hình khác nhauđược xem xét, cho mỗi bộ dữ liệu
Dataset Avg Num Tokens | Avg Nb TextVN-Literature 208 18212
Trong các nhiệm vụ liên quan đến lĩnh vực xử lý ngôn ngữ tự nhiên, bước tiền
xử lý dữ liệu luôn vô cùng quan trọng, giúp hiệu chỉnh, chuẩn hóa lại nội dung và bỏ
Trang 30Trong phần tiền xử lý sẽ được chia nhỏ thành 2 nhiệm vụ chính:
Gán nhãn cho dữ liệu: công việc này được thực hiện bằng phương pháp thủ công để hiện thị mục tiêu, đầu ra mong muốn, thông qua nội dung đã được thu thập
bằng công cụ giới thiệu trong phần trước Dữ liệu được gắn nhãn làm nỗi bật các đặc
tính của dữ liệu — thuộc tính, đặc điểm hoặc phân loại — mà có thể được phân tích đểtìm ra các hình mẫu giúp dự đoán mục tiêu.
Chuẩn hóa dữ liệu: về mặt cấu trúc dữ liệu sau khi thu thập sẽ có thể kèm theo.một vài định dạng hoặc các kí tự không mong muốn Ở bước này, chuẩn hóa dữ liệu
sẽ làm nhiệm vụ xử lý những dữ liệu đó cho phù hợp Sau cùng, dữ liệu sẽ được lưu
trữ ở dạng có cấu trúc dé phục vụ cho các thử nghiệm trong phan tiếp theo
pháp sử dung từ vựng để biểu diễn vecto cho từ
- Tach từ: Nhiều ngôn ngữ không có kí tự rõ ràng dé phân tách giữa các từ
như tiếng Nhật, tiếng Trung Quốc Vì vậy ta cần thực hiện tách từ trong
câu Trong tiếng Việt, có thể sử dụng đấu khoảng trắng làm kí tự phân tách
cho các từ.
-_ Xóa từ đừng (stop word): Từ dừng là những từ xuất hiện phổ biến trong
hầu hết các văn bản, chúng không mang nhiều ý nghĩa nội dung trong câu
cũng như trong đoạn văn.
Trang 31Mục tiêu của các phương pháp rút trích đặc trưng được sử dụng trong luận văn
nhằm để trích xuất ra các đặc trưng quan trọng nhất từ bộ dữ liệu dé phân loại tốt hơn
Luận văn này xử dụng một loạt các kỹ thuật rút trích đặc trưng, qua đó thực hiện các
thử nghiệm và so sánh chúng Cụ thé là từ các tập dữ liệu thu thập được, đối với mỗi
câu trong nội dung tác phẩm, ta phải tìm ra được những đặc trưng của nó, và chuẩn
hó nó thành vec-tơ Để đưa văn bản về dang vector phục vu cho công tác huấn luyên
mô hình máy học, có nhiều các khác nhau đề đưa dữ liệu văn bản đạng text về đữ liệudang số có thé thực hiện như:
Count Vectors as features
TF-IDF Vectors as features:
Count Vector là dang đơn giản nhất của Frequencey-based Embedding,
giả sử ta có D documents di, da, do và N là độ dài của từ điển, một vector
số nguyên và có độ dài D là vector biêu diễn của một từ, ở đó phần tử tại vị trí
i chính là tần số của từ đó xuất hiện trong document dị Trong một số trườnghợp, có thể lượt bớt các từ có tần số xuất hiện thấp hoặc thay đổi mục nhậpcủa vector tùy vào mục đích cụ thể
CountVectorizer là một công cụ tuyệt vời được cung cấp bởi thư viện
scikit-learn [25] trong Python Nó được sử dụng để chuyền đổi một văn bản
nhất định thành một vectơ trên cơ sở tần suất (số lượng) của mỗi từ xuất hiện
Trang 32từ trong mỗi văn bản thành vecto (để sử dụng trong phân tích văn bản tiếp
theo).
TE-IDE
TF-IDF (Term Frequency - Inverse Document Frequency) đây là một
phương pháp thống kê dựa trên tần suất xuất hiện của một từ trong ngữ liệunhưng nó cũng cung cấp một đại diện bằng số về mức độ quan trọng của một
từ đối với phân tích thống kê Đây là phương pháp rat nồi tiếng, được sử dụngtrong nhiều bài toán NLP và khai phá dữ liệu dạng văn bản với mục đích: tínhweight (trọng số) của từ (word) trong một văn bản cụ thể, văn bản đó nằmtrong một tập nhiều văn bản khác nhau
Cách tiếp cận TF-IDF sẽ ước lượng độ quan trọng của một từ đối với
văn bản trong danh sách tập văn bản Nguyên lý của TF-IDF là độ quan trong
của một từ sẽ tăng lên cùng với số lần xuất hiện của nó trong văn bản và sẽ
giảm xuống nếu từ đó ít xuất hiện trong nhiều văn bản khác nhau Dựa trên cơ
sở, nếu từ đó xuất hiện trong nhiều văn bản khác nhau nghĩa là từ đó rất thông
dụng, tức nó giá trị của nó sẽ giảm xuống.
Phương pháp TF-IDE là sự kết hợp của hai độ do: TF và IDF được tính
bằng công thức:
TF — IDFŒ, đ,Đ) = tf(t,d) x idf(t,D)
Trọng số wy được tính bằng tan số xuất hiện của từ tị trong văn bản dị
và độ hiếm của từ t¡ trong tập văn bản Công thức tính wi:
(1+ log(fij)) log (=) Tiếu f,j > 1
Trang 33© fij (term frequency): số lần xuất hiện của từ thứ i trong văn bản thứ
j, fj càng cao thì từ đó càng mô tả tốt nội dung văn bản
e df; (document frequency): số văn bản có chứa từ thứ i
c Word Embedding
Mô hình Word Embbeding là một không gian vector dùng dé biểu diễn
dữ liệu mô tả được những điểm tương đồng, các mối quan hệ về mặt ngữ nghĩa
và mô tả ngữ cảnh của dữ liệu Không gian này bao gồm nhiều chiều và các từ
có vị trí gần nhau thì có cùng ngữ cảnh hoặc ngữ nghĩa
Nhược điểm của phương pháp này là sinh ra vector với số chiều quá lớn
và không quan tâm đến ngữ nghĩa của văn bản Theo đó, nghiên cứu củaMikolov cộng sự về phương pháp Word2vec [24] được đề xuất đẻ giải quyếtvấn dé nêu trên Mô hình dự đoán học biểu diễn vector từ thông qua những từ
ngữ cảnh xung quanh với mục đích cải thiện khả năng dự đoán ý nghĩa các từ.
'Word2Vec là một mô hình kiến trúc mạng neural, nó bao gồm 2 lớp và duynhất 1 tang ân, nhận đầu vào là một ngữ liệu lớn à sinh ra không gian vector
(với số chiều khoảng vài trăm — đối với nghiên cứu của Grave [23] là 300
chiều), với mỗi từ duy nhất trong ngữ liệu được gắn với một vector tương ứng
trong không gian vector Các từ vectors được xác định trong không gian vector
sao cho những từ có chung ngữ cảnh trong ngữ liệu sẽ nằm gần nhau trongkhông gian Qua đó, mô hình có khả năng dự đoán chính xác về ý nghĩa của
một từ dựa trên những lần xuất hiện trước đây
Có hai cách xây dựng một mô hình Word2vec:
Sử dụng ngữ cảnh để dự đoán mục tiêu (CBOW): khi vị trí của các từ
ngữ cảnh không ảnh hưởng tới việc dự đoán từ - đây là giả định ban đầu của
Trang 34Hình 3.3 Cấu trúc của word2vec, bao gồm CBOW va Skip-gram
Mô hình chung của Word2Vec (bao gồm cả CBOW và Skip-gram) đều
dựa trên một mạng neural network khá đơn giản Gọi V là tập các tất cả các từvới n từ khác nhau Layer input biểu diễn dưới dạng one-hot encoding với n
nút đại điện cho n từ trong vocabulary Activation function (hàm kích hoạt)
chỉ có tại layer cuối là softmax function, loss function là cross entropy loss,tương tự như cách biểu diễn mô hình của các bài toán classification Ở giữahai lớp đầu vào va dau ra là 1 lớp trung gian với size = k, chính là vector sẽ
được sử dụng để biểu diễn các từ sau khi huấn luyện mô hình
Nhược điểm của word2vec là nó bị giới hạn bởi từ vựng trong ngữ liệu
Vi vậy đề xuất của Grave [23] với FastText là mở rộng của Word2Vec Thay
vì training cho đơn vị từ, nghiên cứu dã đề xuất chia văn bản ra làm nhiều đoạn
nhỏ được gọi là n-gram cho từ Do vậy đã xử lý tốt cho các trường hợp từ hiếmgap.
Đặc trưng phong cách viết
Van phong hay còn gọi là phong cách viết của mỗi tác giả được địnhhình trong một thé loại hoặc một chủ dé cụ thé dựa trên nó có thể xác địnhđược tầm ảnh hưởng của tác giả đến nội dung được khảo sát Văn phong baogồm các sử dụng từ, cầu trúc câu, cách viết đoạn văn, lồi viết, hình thức, phong
cách và cảm xúc được truyền tải qua văn bản Văn phong được xác định dựa
trên nhiều yếu tố như nền văn hóa, thời đại văn học, mục đích viết, Vanphong trong tiếng Việt cũng bao gồm các khái niệm bên trên, ngoài ra cũngcòn có những đặc thù riêng biệt của văn phong tiếng Việt: phương pháp ẩn dụ,
Trang 35so sánh, cách sử dụng từ lay, tiếng long, đã hình thành những đặc trưng gópphần cho việc xác định văn phong của mỗi tác giả.
Theo Argama [11], có hai loại đặc trưng chính được sử dụng trong phân
tích tác giả văn bản: đặc trưng về phong cách và đặc trưng dựa trên nội dung.Đặc trưng dựa trên phong cách, phương pháp này đầu tiên được đề xuất bởiSari và cộng sự năm 2018 [22] về việc trích xuất đặc trưng theo phong cách từvựng Các đặc trưng được trích xuất là độ dài văn bản, số lượng từ, độ dài
trung bình của từ, số lượng từ ngắn, tỉ lệ chữ số và chữ in hoa, tần số chữ cái
và chữ số riêng lẻ, thước đo độ phong phú của văn bản (hapax-legomena), vàtần suất xuất hiện của 12 dấu câu Một LR được huấn luyện về các đặc trưng
này.
Trong luận văn, do giới hạn về mặt dit liệu, hiện nay chưa có bộ dữ liệu
nào được gán nhãn đầy đủ cho việc xác định tác giả dựa trên văn phong trong
văn học Việt Nam Qua đó, tiền đề cho các nghiên cứu về sau luận văn chỉkhảo sát trên các đặc trưng được trích xuất như: độ dài văn bản, số lượng từ,
độ dài trung bình của từ, tỉ lệ chữ số và chữ in hoa, tần số chữ cái và chữ sốriêng lẻ, thước đo độ phong phú của văn bản (hapax-legomena), và tần suấtxuất hiện của 12 dấu câu
3.2.3 Vấn đề mất cân bằng dữ liệu
Trong các bài toán xử lý ngôn ngữ tự nhiên, việc dữ liệu mat cân bằng rấtthường xuyên gặp phải Vì nhiều lý do khách quan hoặc chủ quan mà dữ liệu thu thập
sẽ không đồng đều giữa các nhãn, khoảng cách giữa nhãn nhiều dữ liệu và nhãn ít dữ
liệu là rất lớn Việc mắt cân bằng lớn sẽ dẫn đến những hậu quả nghiêm trọng cho
xác định chất lượng của mô hình huấn luyện Khi đó các độ đo được áp dụng để đánhgiá sẽ không còn chính xác, nó sẽ hoạt động chủ quan về nhãn chiếm ưu thế cao,mang lại những lầm tưởng về độ chính xác của mô hình Về cơ bản, có hai phươngpháp thường được sử dụng trong việc giải quyết vấn đề mắt cân bằng dữ liệu, đó là:
Under sampling va Over sampling
Under sampling là kĩ thuật giúp giảm số lượng của các nhãn trong nhóm da sốtrở nên cân bằng với nhóm thiểu số Ưu điểm của kĩ thuật này đó là giúp đưa nhanh
dữ liệu về trạng thái cân bằng, dễ đàng thực hiện mà không cần đến thuật toán giả lập
Trang 36mẫu nào khác Tuy nhiên, nhược điểm lớn nhất của phương pháp này đó là kích thướcmẫu sẽ bị giảm đáng kề Tập dữ liệu huấn luyện mới tuy cân bằng nhưng lại quá nhỏ,
không đại diện được cho phân phối của toàn bộ dữ liệu và thường xuyên dẫn đến hiện
tượng overfitting Do đó, để khắc phục, thường ta sẽ không cố găng đưa nó về trạngthái cân bằng hoàn toàn mà sẽ cố gắng mô phỏng các thử nghiệm ở nhiều trạng tháilấy mẫu khác nhau, nhằm tìm ra một giải pháp tối ưu
Over sampling ngược lại với kĩ thuật under sampling nghĩa là nó làm tăng kíchthước đữ liệu của các nhãn thuộc nhóm thiêu số về trạng thái cân bằng hoặc gần cân
bằng với nhãn đa số Ưu điểm của kĩ thuật này, giúp đữ liệu vẫn giữ được các phân
phối đại diện cho phân lớp Mặc khác, do tập dữ liệu mới sẽ lớn hơn nên việc xử lý,
thao tác huấn luyện cũng sẽ mắt nhiều thời gian hơn Kĩ thuật này trình bay hai hướng
tiếp cận đề giải quyết vấn đề là:
© Lựa chọn mẫu có tái lập
© Mô phỏng mẫu mới dựa trên việc tông hợp các mẫu cũ Với phương pháp lựa chọn mẫu có tái lập, Naive random Over sampling là phươngpháp tái chọn mẫu dựa trên giả thuyết ngây thơ là dữ liệu mẫu giả lập mới sẽ giống
dữ liệu sẵn có Do đó ta sẽ cân bằng mẫu bằng cách lựa chọn ngẫu nhiên có lặp lạicác quan sát thuộc nhóm thiêu số Giữ nguyên các mẫu thuộc nhóm da số và tăngkích thước mẫu thuộc nhóm thiểu số sao cho bằng với nhóm đa số
SMOTE (Synthetic Minority Over-sampling) và ADASYN (Adaptive
synthetic sampling) là các phương pháp sinh mẫu nhằm gia tăng kích thước mẫu củanhóm thiểu số trong trường hợp xảy ra mắt cân bằng mẫu Đề gia tăng kích thước
mẫu, với mỗi một mẫu thuộc nhóm thiểu số ta sẽ lựa chọn ra mẫu láng giềng gần nhất
với nó và sau đó thực hiện tổ hợp tuyến tính đề tạo ra mẫu giả lap Phương pháp dé
lựa chọn ra các láng giềng của một quan sát có thể dựa trên thuật toán KNN hoặc
SVM.
Đối với đề tai, van đề mắt cân bằng dữ liệu vẫn xảy ra trên tập dữ liệu tự thuthập bằng công cụ xây dựng (VN-Literature) Về cơ bản, bộ dữ liệu VN-Literature làdit liệu về tác phẩm văn học Việt Nam do đó rất khó dé các tác giả đồng điều nhau
về số lượng câu trong số các truyện ngăn Việc này dẫn đến một thách thức trong
nghiên cứu đó là tìm ra giải pháp giúp cân bằng dữ liệu nhưng không làm mat đi bản
Trang 37chất vốn có của nó Trong luận văn này, đã khảo sát cả hai kĩ thuật Under Sampling
và Over Sampling đề xây dựng các mô hình thử nghiệm Tuy nhiên với kĩ thuật Under
Sampling số lượng dữ liệu giảm đáng kể, dẫn đến việc mô hình huắn luyện không thé
hiện đủ các đặc trưng phân bó về các nhãn, nên đã loại bỏ phương pháp này thay bằng
Over Sampling Trong kĩ thuật Over Sampling, luận văn tập trung khảo sát việc cân
bằng giữa các lớp bằng hướng tiếp cận tạo mẫu tái lập, bỏ qua phương pháp tạo sinh
do đặc thù của dữ liệu là văn phong của tác giả, việc tạo sinh sẽ góp phần tạo ra dữ
liệu mới không thuộc về văn phong của bắt kì tác giả nào, làm giảm chất lượng mô
hình huấn luyện Tiếp theo, với hướng tiếp cận mẫu tái lập, luận văn đã sử dụng phátsinh tái lập ngẫu nhiên, nhằm tạo ra một bộ dữ liệu mới đầy đủ hơn, cân bằng hơn
3.3 Phương pháp dựa trên máy học truyền thống
Trong phần này luận văn giới thiệu các mô hình máy học truyền thống phục
vụ cho nhiệm vụ xây dựng bộ phân lớp cho giải quyết vấn đề xác định tác giả trongvăn bản Sau khi biểu diễn các văn bản dưới dạng đặc trưng thông qua các phươngpháp được trình bày trong phần trước, qua đó các văn bản có thể đễ dàng được biểudiễn dưới dạng mà thuật toán học máy có thể sử dụng Một loạt các phương pháp
phân loại văn bản đã được đề xuất trong các nghiên cứu trước đây cho phân loại văn
bản Trong luận văn này sẽ chọn lọc và trình bày một số phương pháp được đánh giá
hiệu quả cho bài toán xác định tác giả.
Ngoài ra, các phương pháp máy học khác nhau thường dựa trên một tập các
Hyper Parameter hoặc dựa trên một giả thiết về phân bố dữ liệu, nên không có thuậttoán nao là luôn tốt và cho hiệu suất cao nhất cho mọi ứng dụng và trên mọi tập dữ
liệu Vì vậy, để tìm được những thuật toán học máy tốt cho tập dataset có thê cần
nhiều thời gian dé thử các thuật toán khác nhau
Ensemble là kỹ thuật tạo ra nhiều model và sau đó kết hợp chúng lại để đưa ra
kết quả như mô tả trong hình 3.4 Một số phương pháp ensemble phổ biến hiện nay
là: Voting, Stacking, Bagging, Boosting.
Trang 383.3.1 Mơ hình Nạve Bayes
Nạve Bayes là mơ hình phân loại phổ biến trong các bài tốn học máy cĩ giám
sát Mơ hình hoạt động dựa trên ý tưởng của xác suất cĩ điều kiện giữa từ hay cụm
từ và nhãn phân loại để dự đốn văn bản mới thuộc về lớp nào Trong thực tế, NạveBayes được áp dụng rất nhiều trong việc giải quyết các bài tốn phân loại văn bảnbởi những ưu điềm của của nĩ, nỗi bật nhất vẫn là tính dễ hiéu, dé triển khai, độ chínhxác tương đối tốt Kết quả phân loại bị ảnh hưởng bởi kích thước tập dữ liệu, chất
lượng của khơng gian đặc trưng
“Thuật tốn Naive Bayes dựa trên định ly Bayes được phát biểu như sau:
P(XY) _ PŒXIY)PŒ)
PO =a POD
Ap dụng trong bai tốn phân loại, các dữ kiện gồm cĩ:
Trang 39© D: tập dữ liệu huấn luyện đã được vec-tơ hóa dưới dạng #=
(Xi,¿, , Xu)
© Cj: phân loại í, với é = {1,2, ,m} Các thuộc tính độc lập điều kiện
đôi một với nhau.
© _ P(C,|X) là xác suất thuộc phân loại i khi biết trước mẫu X
© P(Œ,) xác suất là phân loại i.
© P(+x„|C,) xác suất thuộc tính thứ k mang giá trị x, khi đã biết X thuộcphân loại i.
3.3.2 Mô hình SVM
Mô hình SVM (Support Vector Machine) là một phương pháp phân loại được
đề xuất trong nghiên cứu của Cortes & Vapnik [25] Ý tưởng chính của thuật toán
này là tìm một siêu phẳng hoặc tập các siêu phăng trong không gian hữu hạn chiềucủa các vector biểu diễn văn bản, phân chia các vector này thành 2 phần tương ứng
với 2 lớp của bộ phân loại Biên của bộ phân loại được định nghĩa là khoảng cách từ
siêu phẳng tới điểm gần nhất Khi có một vector mới — văn bản cần xác định lớp,khoảng cách từ vector này đến siêu phẳng sẽ được tính toán, sau đó sẽ đưa ra kết luận
phân loại phù hợp với nó.
Trước tiên ta sẽ phân tích với mô hình phân loại gồm có 2 lớp, sau đó sẽ mởrộng vấn đề ra cho bài toán phân loại đa lớp
Trang 40Theo đó, ta có hình 3.5 tìm một đường thắng sao cho bên trái nó toàn là cácđiểm đỏ, bên phải nó toàn là các điểm xanh Dạng bài toán dùng đường thăng đề phân
chia này được gọi là phân loại tuyến tinh (linear classification)
Phân biệt 2 lớp với hàm tuyến tính như sau:
(x) € RTM là vector đặc trưng, @ làm hàm ánh xạ từ không gian đầu vào sang
không gian đặc trưng.
Tập dữ liệu đầu vào gồm N mẫu input vector {x, x2, ,Xy}, với các giá trị
nhãn tương ứng là {fạ, É;, , ty} trong đó £„ € {—1, 1}.
Giả sử tập dữ liệu của ta có thể phân tách tuyến tính hoàn toàn (các mẫu đềuđược phân đúng lớp) trong không gian đặc trưng (feature space), do đó sẽ tồn tại giátrị tham số w và b theo (1) thỏa y(x,) > 0 cho những điểm có nhãn t, = +1 vày(x,) < 0 cho những điểm có t, = —1, vi thế mà £„y(x„) > 0 cho mọi điểm ditliệu huấn luyện
Hướng tiếp cận của SVM để giải quyết bài toán thông qua khái niệm gọi là
“lề” Lề được định nghĩa là khoảng cách nhỏ nhất từ đường phân chia đến mọi điểm
dữ liệu hay còn gọi là khoảng cách từ đường phân cách đến những điểm gần nhất