1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt

91 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Tác giả Dong Dang Khoa
Người hướng dẫn PGS.TS. Nguyen Tuan Dang
Trường học Đại học Quốc gia Tp. Hồ Chí Minh
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 91
Dung lượng 37,13 MB

Nội dung

| Thống kê dữ liệu tác giả tác phẩm văn học được thu thập | 15 từ Internet Bảng 3.2 Mô tả các trường dữ liệu được lưu trữ 16 Bảng 3.3 Thống kê mô tả 3 tập dữ liệu 17Bảng 4.1 Kết quả thử

Trang 1

ĐẠI HỌC QUÓC GIA TP.HÒ CHÍ MINHTRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN

DONG ĐĂNG KHOA

MÔ HÌNH XÁC ĐỊNH TÁC GIA DỰA TREN VAN PHONG CUA CÁC VĂN BẢN TIENG VIET

LUẬN VĂN THAC SĨNGÀNH KHOA HỌC MÁY TÍNH

Mã ngành: 8.48.01.01

TP.HO CHÍ MINH - NĂM 2023

Trang 2

ĐẠI HỌC QUOC GIA TP.HÒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

DONG ĐĂNG KHOA

MÔ HÌNH XÁC ĐỊNH TAC GIA DỰA TREN VAN PHONG CUA CÁC VĂN BẢN TIENG VIỆT

LUẬN VĂN THẠC SĨ

NGÀNH KHOA HỌC MÁY TÍNH

Mã ngành: 8.48.01.01

GIẢNG VIÊN HƯỚNG DẪN:

PGS.TS NGUYÊN TUẦN ĐĂNG

TP.HÒ CHÍ MINH - NĂM 2023

Trang 3

LỜI CẢM ƠN

Đầu tiên, em xin gửi lời cảm ơn đến quý thầy cô trường Đại học Công nghệ

thông tin đã truyền đạt những kiến thức chuyên môn cho em trong suốt quá trình họctập tại trường, đó là những nên tảng kiến thức vững chắc cho em tiếp cận và tiền xahơn trong lĩnh vực chuyên môn của mình Em kính chúc quý thầy cô đồi dào sứckhỏe, đạt được nhiều thành tựu và luôn là niềm cảm hứng học thuật cho thế hệ họcviên tiếp theo

Đặc biệt, em xin bày tỏ lòng biết ơn chân thành đến Thầy PGS.TS Nguyễn

Tuấn Đăng, người Thầy đã định hướng em trên con đường nghiên cứu và dẫn dắt cho

em đến với đề tài Thầy đã tận tâm, nhiệt tình hướng dẫn và tạo mọi điều kiện thuậnlợi để em hoàn thành tốt đề tài luận văn Luận văn này sẽ rất khó hoàn thành nếu

không có sự truyền đạt kiến thức quý báu và sự hướng dẫn nhiệt tình của Thay.

Con xin gửi lời cảm ơn sâu sắc, sự kính trọng đến cha mẹ đã nuôi dạy, luôn

ủng hộ, động viên con vượt qua mọi khó khăn.

Xin cảm ơn tất cả bạn bè đã chia sẻ, động viên, giúp đỡ và hỗ trợ kiểm thử,đưa ra những lời nhận xét khách quan, hữu ích đê đề tài được hoàn thiện hơn

Luận văn đã hoàn thành và đạt được kết quả nhất định tuy nhiên vẫn khôngtránh khỏi thiếu sót Kính mong sự cảm thông và đóng góp ý kiến từ quý thầy cô

Tp Hô Chí Minh, ngày 10 tháng 01 năm 2023

Học viên thực hiện

DONG ĐĂNG KHOA

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn thạc sĩ về đề tài: “Mô hình xác định tác giả dựa trênvăn phong của các văn bản tiếng Việt” là công trình nghiên cứu của bản thân Các sốliệu, kết quả trình bày trong luận văn này là trung thực Mọi tài liệu tham khảo trongluận văn đều có nguồn góc và trích dẫn rõ ràng, đầy đủ

Tôi xin chịu hoàn toàn trách nhiệm nếu có sự không trung thực trong luận văn

Tp Hồ Chí Minh, ngày 10 tháng 01 năm 2023

Học viên thực hiện

DONG DANG KHOA

Trang 5

MỤC LỤC

LỜI CẢM ƠN

LỜI CAM ĐOAN.

DANH MỤC CAC KÝ HIỆU VÀ CHỮ VIET TAT

Chương2 TONG QUAN 4

2.1 Van dé dữ liệu tác giả trong văn học “4 2.2 Vấn đề về bài toán xác định tác giả 4

2.3 Tình hình nghiên cứu -5

2.3.1 _ Tình hình nghiên cứu trên thé gi 15

2.3.2 Tinh hình nghiên cứu trong nước 9 2.4 Mô hình hóa bài toán

2.5 _ Phương pháp nghiên cứu.

2.6 Phương pháp đánh giá.

2.7 Ý nghĩa khoa học và thực tiễn

Chương 3 CƠ SỞ LÝ THUYÉT

3.1 Tổng quan về các bộ dữ liệu được áp dụng trong luận văn

3.1.1 Bộ dữ liệu tác giả văn học Vi

3.3 Phương pháp dựa trên máy học truyền thống

3.3.1 Mô hình Naive Bayes.

3.3.2 MôhìnhSVM

Trang 6

3.3.3 Mô hình Logistic Regresstion

3.3.4 Mô hình Random Forest

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1 Môi trường và các thư viện được sử dung.

DANH MỤC CÔNG BÓ KHOA HỌC CỦA TÁC GIẢ

TÀI LIEU THAM KHẢO

Trang 7

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIET TAT

Việt tắt Diễn giải

SVM Support Vector Machine

CNN Convolutional Neural Network

LSTM Long Short-term Memory

RNN Recurrent Neural Networks

GRU Gated Recurrent Units

TF TensorFlow

BERT Bidirectional Encoder Representations from Transformers SOTA State-of-the-art

Trang 8

DANH SÁCH BẢNG

Số hiệu bảng Tén bang Trang

Bảng 3.1 | Thống kê dữ liệu tác giả tác phẩm văn học được thu thập | 15

từ Internet

Bảng 3.2 Mô tả các trường dữ liệu được lưu trữ 16

Bảng 3.3 Thống kê mô tả 3 tập dữ liệu 17Bảng 4.1 Kết quả thử nghiệm của các mô hình máy học truyền |_ 53

thống dựa trên trích xuất đặc trưng Ngram — word level

Bảng 4.2 — | Kết quả thử nghiệm của các mô hình máy học truyền |_ 54

thống dựa trên trích xuất đặc trưng Ngram — character

level

Bảng 4.3 Các tham số cần thiết cho thử nghiệm 64

Bảng4.4 | Mô tả chỉ tiết thử nghiệm với mô hình đề xuất va] 69

phương pháp Transformers dựa trên bộ dit liệu tiếng

Việt

Bảng 4.5 Mô tả chỉ tiết thử nghiệm với mô hình đề xuất va} 70

phương pháp Transformers dựa trên bộ dữ liệu tiếng

Anh

Trang 9

DANH SÁCH HÌNH VẼ

Số hiệu 'Tên hình vẽ Trang

Hình 3.1 Sơ đồ xây dựng công cụ thu thập dữ liệu trong văn học 14

Hình 3.5 Mô tả về siêu phẳng trong SVM 28

Hình 3.6 Mô tả về đường biên trong SVM 29

Hình 3.7 Mô tả về đường biên trong SVM 29Hình 3.8 Biễu diễn đồ thị của hàm 6, 30Hình 3.9 Mô hình kiến trúc CNN trong phân loại văn bản 35

Hình 3.10 Mô hình tông quan của một mạng LSTM 36

Hình 3.11 Kiến trúc BiLSTM 37

Hình 3.12 Kiến trúc của GRU 38

Hình 3.13 Kiến trúc của mô hình BERT 40

Hình 3.14 Tổng quan về mô hình phương pháp được đề xuất kết 43

hop phong cách viết, tong hợp đặc trưng va mô hình

Trang 10

Tương quan độ chính xác giữa các mô hình máy học Hình 4.4 54

truyền thống với đặc trưng ngram — word level

Hình 4.5 Tương quan độ chính xác giữa các mô hình máy học 35

truyền thống với đặc trưng ngram — character levelHình 4.6 Kiến trúc thực nghiệm của mạng TextCNN 58Hinh 4.7 Kiến trúc thực nghiệm của mạng BiLSTM 60Hình 4.8 Kiến trúc thực nghiệm của mạng GRU 62Hình 4.9 Trực quan hóa so sánh hiệu suất của các mô hình deep 63

learning được thử nghiệm thông qua bốn độ đo

Trang 11

MỞ ĐÀU

Trong những năm gần đây với sự phát triển vượt bật của Internet dẫn đến sự bùng nổ

về dữ liệu Xác minh tác giả là một lĩnh vực trong xử lý ngôn ngữ tự nhiên gần đâythu hút được nhiều sự quan tâm Các nghiên cứu liên quan về phân tích tác giả baogồm xác định tác giả, lập hồ sơ tác giả và xác minh tác giả Nó được nghiên cứu déứng dụng rộng rãi trong nhiều lĩnh vực gồm có: lịch sử, điều tra văn bản, ngôn ngữpháp lý, xác minh đạo văn, Nhiều phương pháp đã được các nghiên cứu trước đây

đề xuất thực hiện nhiệm vụ này và mang lại những kết quả ấn tượng Các phươngpháp tiếp cận này nghiên cứu các đặc điểm phong cách trong các nhiệm vụ khác nhauliên quan đến tác giả, bao gồm các nhiệm vụ cụ thé về từ vựng, cú pháp, ngữ nghĩa,cấu trúc và nội dung Bên cạnh đó cũng có rất nhiều phương pháp phân loại đã được

áp dụng cho các nhiệm vụ phân tích tác giả bao gồm các kĩ thuật máy học, học sâu

và kĩ thuật tiên tiến hiện đại khác

Trong luận văn này giới thiệu một hướng tiếp cận mới nó là sự kết hợp giữa các

phương pháp truyền thống và hiện đại, nhằm khai thác tối đa các đặc trưng có thể thu

thập được và kết hợp chúng với nhau để xây dựng một mô hình thử nghiệm được đềxuất cho nhiệm vụ xác định tác giả trong văn học Việt Nam Van đề tác giả trong văn

học Việt Nam chưa có nghiên cứu nào trước đây thực hiện, do đó trong luận văn cũng

mong muốn giới thiệu một bộ dữ liệu tự xây dựng, phục vụ cho công tác nghiên cứu

về bài toán xác minh tác giả trong tiếng Việt Đồng thời, luận văn cũng trình bày các

cách tiếp cận dựa trên mô hình máy học, học sâu và các phương pháp hiện đại, đặcbiệt dé xuất một phương pháp mới hiệu quả hơn các phương pháp được so sánh

Đóng góp chính của đề tài:

Trên cơ sở đó, công bố bài báo khoa học ở hội nghị FDSE 2022 với tiêu đề:

“Vietnamese Text’s Writing Styles Based Authorship Identification Model”

Nội dung của luận văn được trình bày trong 4 chương, bao gồm:

Chương 1 giới thiệu về dé tai, đưa ra vấn đề cần giải quyết trong đề tài, qua

đó cho thấy được động cơ nghiên cứu, đồng thời trình bày những mục tiêu cần đạt

Trang 12

được trong luận văn Theo đó, phần này cũng giới thiệu phạm vi và đối tượng được

nghiên cứu.

Chương 2 trình bày tổng quan, trong phần này sẽ giới thiệu tổng quan về dữ

liệu tác giả trong văn học, van đề xác minh tác giả Bên cạnh đó, phần này cũng khảo.sát các nghiên cứu trên thế giới và trong nước, qua đó mô hình hóa được bài toán.Cuối cùng, trình bày các phương pháp nghiên cứu và phương pháp đánh giá được sửdụng trong dé tài Từ đó, nêu lên được ý nghĩa khoa học và thực tiễn của dé tài

Chương 3 trình bày các cơ sở lý thuyết cần có đề giải quyết vấn dé đặt ra trong

luận văn Đầu tiên, giới thiệu tong quan về các bộ dữ liệu được áp dụng để nghiên

cứu là cơ sở đề đánh giá tính đúng đắn của mô hình Tiếp theo, giới thiệu các thao tác

xử lý cho dữ liệu dạng văn bản: tiền xử lý, rút trích đặc trưng Cuối cùng, mô tả cácphương pháp được áp dụng, bao gồm phương pháp truyền thống, phương pháp học

sâu, mô hình transformers và mô tả về mô hình đề xuất

Chương 4 trình bày các phương pháp thực nghiệm và đánh giá mô hình Dựa

trên các cơ sở lý thuyết được trình bày trong phần trước, phần này luận văn sẽ đưa ra

những thử nghiệm cụ thé và đánh giá bằng số liệu Trong phần này sẽ trình bày các

thức thu thập dữ liệu, xây dựng các mô hình máy học, mô hình mạng neural, các triển

khai một mô hình tiên tiến hiện đại dựa trên transformers Cuối cùng, thực hiện đánh

giá thông qua các bảng biểu dữ liệu và trực quan hóa bằng hình ảnh

Chương 5 tổng kết những kết quả đạt được, tóm tắt lại các vấn đề đã đặt ra vàcách giải quyết trong luận văn, nêu lên những chế còn tồn đọng Những đóng góp, déxuất và hướng phát triển cho dé tài trong tương lai

Trang 13

Chương 1

GIỚI THIỆU

Chương 1 giới thiệu về đề tài, đưa ra vấn dé cần giải quyết trong dé tài, qua

đó cho thấy được động cơ nghiên cứu, đồng thời trình bày những mục tiêu cần đạt

được trong luận văn Theo đó, phần này cũng giới thiệu phạm vi và đối tượng được

nghiên cứu.

1.1 Đặt vấn đề

Trong những năm gần đây, với sự phát triển mạnh mẽ và vượt bậc của Internetkéo theo việc bùng nỗ về dữ liệu đặc biệt trong dữ liệu dạng văn bản Hiện nay, việctiếp cận các nguồn thông tin từ Internet trở nên dé dàng hơn bao giờ hết Bên cạnh

đó, việc các thông tin không xác thực về nguồn gốc tác giả đã mang lại những bắt cậpnhất định Chúng ta có thể thường xuyên bắt gặp các tình huống dẫn đến tranh chấptác giả; đặc biệt do tính chất đặc trưng về văn phong của mỗi tác giả đã đem lại nhữngtranh luận nhất định Không chỉ riêng lĩnh vực văn học, các lĩnh vực khác như âm

nhạc, nghệ thuật cũng đã chịu những ảnh hưởng của việc xác định đâu mới thật sự là tác giả, và tác giả này có đạo văn từ tác giả khác không?

Mặc khác, trong lĩnh vực văn học Việt Nam một nền văn học có truyền thống

và lịch sử lâu đời, chịu ảnh hưởng của văn học dan gian về nhiều phương diện, từ nội

dung tư tưởng đến hình thức nghệ thuật Văn học dân gian là nền tảng của văn họcviết, là chặng đầu của nền văn học dân tộc Khi chưa có chữ viết, nền văn học ViệtNam chỉ có văn học dân gian; khi có chữ viết, nền văn học Việt Nam mới bao gồmhai bộ phận: văn học dan gian và văn học viết

Trong luận văn này, sẽ trình bày việc xác định tác giả của văn học Việt Nam

hiện đại Theo đó, việc xác định văn phong của mỗi tác giả được xem là cơ sở để cóthé xác định tác giả chính của văn bản được khảo sát Theo phương pháp truyền thống,

dé xác định văn phong của một tác giả cụ thé, ta phải nắm bắt được lối hành văn, cách

sử dụng câu, từ, cách diễn đạt và din đắt câu chuyện của mỗi tác giả Dựa trên đó, ta

có cơ sở dé xác định một văn bản ẩn danh có thuộc về một tác giả cụ thể nào haykhông Qua đó, ta thấy được cách tiếp cận này vẫn còn thủ công, tốn nhiêu thời gian,

Trang 14

khó xác định được chính xác tác giả của văn bản Gần đây, cách tiép cận dựa trên vănphong áp dụng các kĩ thuật máy học hiện đại đang là một trong những chủ đề nghiên

cứu trong xử lý ngôn ngữ tự nhiên có được nhiều sự quan tâm Hầu hết các nghiên

cứu gần đây đề xuất các phương pháp tiếp cận dựa trên bộ ngữ liệu tiếng Anh, tiếngTrung, tiếng Nga, tiếng Hà Lan Tuy nhiên trong văn bản tiếng Việt, chưa có bộ dữ

liệu nào được áp dụng cho bài toán xác định tác giả trong văn học Việt Nam được

xây dựng đề phục vụ cộng đồng nghiên cứu

1⁄2 Dong cơ nghiên cứu

Nhu đã trình bày trong phần trước, hiện nay chưa có nghiên cứu nào được ápdụng trong ngôn ngữ tiếng Việt cho bài toán xác định tác giả văn học qua phong cáchviết Nhận thấy tầm quan trọng của việc xây dựng bộ ngữ liệu cho việc xác định tác

giả trong văn học Việt Nam cũng như cách áp dụng một mô hình máy học, học sâu

hoặc các kĩ thuật tiên tiền hiện đại dé dé xuất một mô hình xác định tác giả hiệu quả.Trong luận văn này, trình bày một phương pháp tiếp cận mới, đạt hiệu quả hơn cácphương pháp truyền thống Kết quả của việc xác định tác giả theo phương pháp tiếpcận này cũng là động lực đề tiếp tục với những nghiên cứu tiếp theo

1.3 Mục tiêu của luận văn

Trình bày được nội dung chính của vấn đề xác định tác giả dựa trên văn phong,

thông qua việc khảo sát các nghiên cứu gần đây Qua đó, cho thấy được tính cấp thiết

của dé tài thông qua việc giới thiệu bộ đữ liệu dành cho tác giả văn học Việt Nam

bằng công cụ tự xây dựng

Đồng thời, luận văn cũng trình bày các cách tiếp cận dựa trên mô hình máy

học, học sâu và các phương pháp hiện đại, đặc biệt đề xuất một phương pháp mới

hiệu quả hơn các phương pháp được so sánh.

Trên cơ sở đó, công bố bài báo khoa học ở hội nghị FDSE 2022 với tiêu đề:

“Vietnamese Text’s Writing Styles Based Authorship Identification Model”

1.4 Phạm vi và đối tượng nghiên cứu

Trang 15

Do giới hạn về tài nguyên cũng như thời gian, luận văn chỉ trình bày trong lĩnhvực văn học Việt Nam, thể loại văn xuôi, được giới hạn bởi 8 tác giả độc lập với 839

tác phâm Xác định tác giả cụ thê trong số các tác giả tiềm năng tồn tại cho một đoạn

văn bản bắt kì

Thực nghiệm các phương pháp dé đánh giá tính hiệu quả của các mô hình thửnghiệm và mô hình được đề xuất Qua đó, mô hình đề xuất cho thấy tính hiệu quả sovới các mô hình truyền thống, các phương pháp mạng neural sâu và phương pháp tiêntiền như mô hình transformers

Trang 16

Chương 2

TONG QUAN

Chương 2 trình bay tổng quan, trong phan nay sẽ giới thiệu tong quan về dữliệu tác giả trong văn học, van đề xác minh tác giả Bên cạnh đó, phan này cũng khảosát các nghiên cứu trên thế giới và trong nước, qua đó mô hình hóa được bài toán.Cuối cùng, trình bày các phương pháp nghiên cứu và phương pháp đánh giá được sử

dụng trong đề tài Từ đó, nêu lên được ý nghĩa khoa học và thực tiễn của đề tài

2.1 Vấn đề dữ liệu tác giả trong văn học

Theo khảo sát, hiện nay chưa có một bộ dữ liệu nào trong nghiên cứu phân

tích tác giả của văn học Việt Nam được công bó Bên cạnh đó, các nghiên cứu gầnđây về van dé tác giả hay xác minh tác giả trong văn bản tiếng Việt nói chung và lĩnhvực văn học nói riêng còn rất hạn chế Vì vậy, dữ liệu dé nghiên cứu phương pháp

xác định văn phong của văn bản tiếng Việt sẽ gặp nhiều thách thức Trong luận văn

này giới thiệu một bộ dit liệu tự xây dựng dựa trên công cụ thu thập tự phát triển có

tên là VN-Literature.

2.2 Vấn đề về bài toán xác định tác gia

Xác định tác giả của văn bản là quá trình phân tích một tài liệu đê có thê đưa

ra các kết luận về tác giả chính của văn bản đó Quá trình xác định tác giả liên quanđến hai vấn đề chính đó là tập đặc trưng và kỹ thuật phân tích Trong thời kì đầu, các

kỹ thuật phân tích sử dụng các kỹ thuật khá đơn giản dựa trên thống kê Với sự pháttriển nhanh chóng của các công nghệ, gần đây các kỹ thuật phân tích sử dụng máyhọc, học sâu và các mô hình tiên tiến hiện đại đã được đề xuất cho các nghiên cứu

trong việc xác định tác giả của các văn bản.

Theo nghiên cứu của Argama [11], có hai loại đặc trưng chính được sử dungtrong phân tích tác giả văn bản: đặc trưng về phong cách và đặc trưng dựa trên nội

dung Đặc trưng về phong cách bao gồm các đặc trưng liên quan đến ký tự, tính chất

từ (lexical), cách sử dụng các cầu trúc ngữ pháp (syntactic), va các đặc trưng về cấutrúc văn bản Đặc trưng dựa trên nội dung bao gồm các từ nội dung được sử dụng

thường xuyên trong lĩnh vực đó hơn là các lĩnh vực khác Các từ nay thường được

Trang 17

chọn theo phương pháp thống kê tần suất xuất hiện trong tập dữ liệu hoặc dựa trên

ngữ nghĩa của từ.

Xác định tác giả của văn bản (authorship attribution) là một nhánh nghiên cứu

của phân tích tác giả văn bản Phân tích tác giả văn bản còn có 2 nhánh nghiên cứu

khác là nhận diện đặc điểm tác gia (authorship profiling) và xác minh tác giả(authorship verification) Trong giới hạn của luận văn sẽ trình bày về xác định tác giảcủa văn bản, là quá trình xác định một văn bản cho đúng tác giả trong số các tác giảtiềm năng Xác minh tác giả được sử dụng rộng rãi trong việc phát hiện đạo văn hoặc

xác định tác giả cho văn học lịch sử Nhiệm vụ phân loại này cũng nôi tiêng trong các

cuộc điều tra pháp y (Yang và Chow [12])

Trong luận văn này, giới thiệu một phương pháp tiếp cận mới trong việc xácđịnh tác giả mang liệu hiểu quả tốt hơn các phương pháp cũ và các phương pháp gần

đây Một mô hình BERT dựa trên tinh chỉnh (fine-tuning) với mô hình ngôn ngữ được

huấn luyện trước (pre - trained language model), theo đó áp dụng thêm một số lớpđày đặc (dense layer) và một hàm kích hoạt softmax để xác định tác giả, được huấnluyện trong một số lần lặp Đây là một trong những thử nghiệm đầu tiên của luận văn

để phân tích hiệu suất của tỉnh chỉnh mô hình ngôn ngữ được huấn luyện trước cho

xác định tác giả của văn bản Giống như hầu hết các phương pháp Học sâu dành choxác định tác giả, phương pháp đề xuất không yêu cầu tiền xử lý văn bản cũng như kỹthuật rút trích đặc trưng Phương pháp của mới cung cấp hiệu suất hiện đại (SOTA)trên kho dữ liệu nổi tiếng, với mức cải thiện độ chính xác tương đối cao Luận văncũng minh họa những điểm mạnh và điểm yếu của một hệ thống như vậy Trong đềtài này, luận văn cũng chỉ ra rằng việc xây dựng một kiến trúc kết hợp giữa đa dạngcác đặc trưng có xu hướng cải thiện điểm số F1 trung bình vĩ mô (macro-averaged)

2.3 Tình hình nghiên cứu

2.3.1 Tình hình nghiên cứu trên thế giới

Từ những năm dau của thế ki 21, nhiều tác giả đã quan tâm đến van đề xác

định nguồn gốc của một nội dung văn bản thông qua cách khai phá thông tin thu thập

được từ văn bản Khái niệm phân loại văn bản, phân tích cảm xúc đã dan xuất hiện

Trang 18

và đang được khai thác, sớm nhất đó là nghiên cứu về phong cách viết của Alison vàcộng sự [1] vào năm 2001 về vấn dé những thói quen vô định của tác giả Những thói

quen này sẽ được thấy rõ hơn thông qua cách sử dụng từ và ngữ pháp của mỗi tác giả

Quá trình khai thác các đặc trưng của từ ngữ để nắm bắt được thông tin của mỗi tác

giả trở nên đơn giản hơn thông qua cách dùng từ và ngữ pháp Nghiên cứu của Alison

khảo sát và xác định tác giả của các email bằng cách phân tích nội dung và phongcách viết của mỗi tác giả Một tập hợp các đặc điểm phong cách áp dụng cho văn bản

nói chung và một tập hợp mở rộng các đặc điểm cấu trúc dành riêng cho email đã

được tác giả định nghĩa Tác giả đã sử dụng mô hình SVM để phân biệt giữa các lớptác giả Thông qua một loạt thử nghiệm cơ bản về dữ liệu không phải email, tác giả

thấy rằng khoảng 20 email với khoảng 100 từ trong mỗi email là đủ để phân biệt tác

giả trong hầu hết các trường hợp Những kết quả này đã được xác nhận với một kho

dữ liệu email và hiệu suất được nâng cao hơn nữa khi một tập hợp các đặc trưng dành

riêng cho email được thêm vào Kết quả này có ý nghĩa quan trọng trong việc quản

lý các vấn đề như lạm dụng email, email ân danh và điều tra máy tính

Nghiên cứu của Kimler năm 2003 [2] xem xét một phương pháp phát hiện đạo

văn nội bộ sử dụng các điểm đánh dấu phong cách từ các nghiên cứu về tác giả đểtìm ra những thay đổi về phong cách trong một văn bản Những thay đồi này có thé

xác định chính xác các đoạn đạo văn Ngoài ra, một điêm đánh đấu kiểu mới được

gọi l: cụ thể" được giới thiệu Nghiên cứu trước kiêm tra xem các dấu hiệu phong

cách có thé “dầu vết” phong cách của tác giả hay không và liệu chúng có không đồi

với kích thước mẫu hay không Nó chỉ ra rằng các biện pháp làm giàu từ vựng không.đáp ứng các điều kiện tiên quyết này Các điểm đánh dau phong cách khác - thước đo

tỷ lệ đơn giản, điểm dễ đọc, danh sách tần suất và thước đo entropy - có những đặc

điểm này và cùng với thước đo từ cụ thể mới được sử dụng trong một nghiên cứuchính với cách tiếp cận không giám sát để phát hiện những thay đổi về phong cáchtrong văn bản đạo văn tại cấp độ câu và đoạn văn

Houvardas và Stamatatos [3] nghiên cứu phương pháp sử dụng các cụm ký tự

có độ dài biến đồi dé giải quyết van đề nhận di tác giả trên các bản tin Reuters của

50 tác giả khác nhau Ký tự n-gram là một cách tiếp cận rất thành công dé biểu diễn

Trang 19

văn bản cho các mục đích phong cách vì chúng có thể nắm bắt các sắc thái ở cấp độ

từ vựng, cú pháp và cấu trúc Tác giả đề xuất một cách tiếp cận n-gram có độ dài thay

đổi lấy cảm hứng từ công việc trước đây để chọn các chuỗi từ có độ dai thay đổi Sử

dụng một tập hợp con của kho ngữ liệu Reuters mới, bao gồm các văn bản về cùngmột chủ đề của 50 tác giả khác nhau, cho thấy rằng phương pháp được đề xuất ít nhấtcũng hiệu quả như thu được thông tin dé chon n-gram quan trong nhất mặc dù các bộ

đặc trưng được tạo bởi hai phương thức có ít thành viên chung Hơn nữa, tác giả chothấy tầm quan trọng của các chữ số dé phân biệt giữa các tác giả cho thấy rằng có thé

đạt được sự gia tăng hiệu suất bằng cách sử dụng tiền xử lý văn bản đơn giản

Nghiên cứu được thực hiện trong [4] đã sử dụng Support Vector Machine

(SVM) Các tham số dé xác định phong cách viết được đánh dấu ở các cấp độ khácnhau của văn bản Các tác giả đã chứng minh rằng các tham số phức tạp hơn có khảnăng trích xuất các yếu tô phong cách được trình bày trong văn bản Tuy nhiên, chúng

được sử dụng hiệu quả nhất khi kết hợp với n-gram đơn giản và dé hiểu hơn Trong

trường hợp này, họ cải thiện kết quả Bộ dữ liệu bao gồm 20 mẫu bằng bốn ngôn ngữkhác nhau (tiếng Anh, tiếng Pháp, tiếng Ý và tiếng Tây Ban Nha) Do đó, năm mẫu

từ 500 đến 1000 từ trong mỗi ngôn ngữ đã được sử dụng Thách thức là gán từng tàiliệu trong tập hợp các tài liệu chưa biết cho một tác giả ứng cử viên từ tập hợp vấn

đề Kết quả là 77,7% cho tiếng Ý, 73% cho tiếng Tây Ban Nha, 68,4% cho tiếng Pháp

và 55,6% cho tiếng Anh

Trong [5] Sari và cộng sự sử dụng thuật toán nhúng ký tự liên tục được phát

hành gần đây fastText [15] cùng với các nhúng vectơ liên tục cho n-gram từ, đượchọc cùng với lớp phân loại trong NN chuyền tiếp nguồn cap dit liệu Các tác giả chứngminh rằng với mục đích ghi nhận tác gia, n-gram ký tự cho thấy kết quả tốt hơn sovới n-gram từ và các phương pháp tiếp cận dựa trên SVM trước đó Sari và cộng sự[22] sử dụng bốn kho ngữ liệu khác nhau cho các thử nghiệm của họ: Bộ dữ liệu bao

gồm bài viết của ba thâm phán Tòa án tối cao Úc về các chủ đề khác nhau với các tai

liệu 902, 253 và 187 từ mỗi chủ dé; CCAT-10: một tin tức công ty và công nghiệpcủa Reuters Corpus tập 1 với 10 tác giả và 100 văn bản cho mỗi tác giả; CCAT-50với 5.000 tài liệu của 50 tác giả (chi 50 tài liệu dùng trong huấn luyện của mỗi tác

Trang 20

giả); và bộ dữ liệu IMDb62, bao gồm 62.000 bài đánh giá phim và 17.550 bài đăng

trên bản tin từ 62 người dùng cơ sở dữ liệu Phim trên Internet.

Trong [6] Solorio và cộng sự đề xuất việc sử dụng các mạng neural tích chập

để tìm hiểu các biểu diễn ký tự và huấn luyện dé gán văn bản cho các tác giả Các tácgiả cũng đề xuất một phương pháp để cải thiện khả năng diễn giải của các kết quả đạt

được, dựa trên điểm số nỗi bật, đo độ nhạy của mạng đối với những thay đổi trong

từng đầu vào, cho phép nhà nghiên cứu tạo bản đồ nhiệt của tài liệu đầu vào, hiền thicác phân đoạn quan trọng hơn đối với quyết định phân loại, hơn những người khác

Đối với các thử nghiệm của mình, tác giả sử dụng kho dữ liệu twitter, chứa khoảng

9.000 người dùng twitter với tối đa 1.000 tweet mỗi người Giới hạn số lượng dữ liệu

ở mức 200, các tác giả thay đổi số lượng tác giả từ 100 đến 1000

Ferracane và cộng sự [7] đã áp dụng một số mô hình neural, dựa trên CNN

ký tự, và điều tra tác động của các đặc điểm diễn ngôn đối với chất lượng của tác giả.Kết quả của họ cho thấy rằng, ngay cả khi mô hình cơ bản đạt được hiệu suất cao, thì

việc bổ sung CNN thứ cấp đề trích xuất các đặc trưng của diễn ngôn sẽ cải thiện chất

lượng của hệ thống, về cơ bản làm cho nó trở thành hiện đại mới, với điểm số mô

hình tốt nhất 98,8% trên FI

Trong nghiên cứu của Custodio và cộng sự [8], đã đề xuất một cách tiếp cận

tập hợp kết hợp các dự đoán được thực hiện bởi ba bộ phân loại độc lập Phương phápdựa trên các mô hình n-gram có độ dài thay đổi và hồi quy logistic đa thức và được

sử dụng dé chọn dự đoán có khả năng xảy ra cao nhất trong số ba mô hình Hai thửnghiệm đánh giá đã được tiến hành: sử dụng bộ dữ liệu thử nghiệm PAN-CLEE 2018(độ chính xác 93%) và kho lời bài hát mới bằng tiếng Anh và tiếng Bồ Đào Nha (độchính xác 52%) Kết quả chứng minh rằng phương pháp đề xuất có hiệu quả đối với

văn bản hư cấu nhưng không hiệu quả đối với lời bài hát

Romanov và Meshcheryakov [9] sử dụng nhiều đặc trưng tan số khác nhau déhuấn luyện một perceptron đa lớp, mạng neural tích chập và bộ phân loại SVM Họ

sử dụng các tin nhắn từ diễn đàn internet (forum.tomsk.ru) làm kho dữ liệu cho các

thử nghiệm Nó có tổng cộng 10 tác giả với khoảng 144 văn bản cho mỗi tác giả Cáctác giả xác định rằng họ chỉ phân loại từng văn bản theo kiểu nhị phân, thay vì đa lớp

Trang 21

Trong nghiên cứu của Bacciu và cộng sự [10], đã đề xuất mô hình của mìnhcho nhiệm vụ xác minh tác giả của PAN 2019, tập trung vào cài đặt tên miền chéo

bao gồm 4 ngôn ngữ khác nhau: tiếng Pháp, tiếng Ý, tiếng Anh và tiếng Tây Ban

Nha Tác giả đã sử dụng n-gram ký tự, từ, từ gốc và văn bản bị bóp méo Mô hìnhcủa tác giả có một SVM cho mỗi đặc trưng và một kiến trúc tập hợp Tác giả sử dụngcách tiếp cận tập hợp để kết hợp tất cả xác suất của các bộ phân loại đơn cho mỗingôn ngữ và tăng kết quả của chúng Tác giả đã sử dụng các kỹ thuật tiền xử lý khác

nhau để trích xuất các đặc trưng có ý nghĩa khác nhau Tác giả cũng sử dụng biến

dang văn bản, mã thông báo, tạo gốc và gắn thẻ POS dé chuẩn bị văn bản cho quátrình trích xuất Để giải quyết vấn đề tác giả không xác định, tác giả đã giới thiệu một

phương pháp tính đến ba tác giả giống nhau nhất cho văn bản đang tranh chấp, thay

vì chỉ hai tác giả đầu tiên Kết quả cuối cùng của tác giả vượt trội so với phương pháp

cơ sở do PAN đưa ra trong hầu hết mọi vấn đề Với mô hình này, tác giả đạt vị trí thứ

hai trong nhiệm vụ với điểm F1 là 68%

2.3.2 Tình hình nghiên cứu trong nước

Bên cạnh những công trình nghiên cứu trên thé giới về bài toán định danh tác

giả cũng thu hút được cộng đồng nghiên cứu trong nước trên đa dạng các miền dữ

liệu Xác định đặc điểm tác giả bài viết diễn đàn tiếng 'Việt dựa trên âm tiết và vần

Tác giả [12] đề xuất một loại đặc trưng mới có mức độ ngữ nghĩa cao hơn các ký tựnhưng ở mức thấp hơn so với các từ nội dung Số lượng các đặc trưng cũng phải ở

mức chấp nhận được Các âm tiết và vần trong tiếng Việt thỏa mãn các yêu cầu này.Trong tiếng Việt, một từ có thể là từ đơn (chứa một âm tiết) hoặc từ ghép (chứa từhai âm tiết trở lên) Mỗi âm tiết là một cụm ký tự riêng rẽ trong câu Tác giả đã chuyển

inh đặc điểm tác giả bài viết về bài toán phân loại bài viết dựa trên cácvấn đề xác

đặc trưng riêng lẻ và đặc trưng kết hợp Qua đó, một mô hình phân lớp đã được sửdụng, trong bài viết tác giả sử dụng phương pháp SVM một mô hình hiệu quả chocác bài toán có nhiều đặc trưng Tác giả đánh giá bài toán thông qua kiểm chứng chéo(cross validation) và độ chính xác, kết quả dé xuất xác định tác giả thông qua đặctrưng âm tiết hiệu quả tăng lên 7%, việc kết hợp nhiều đặc trưng cũng giúp tăng hiệu

quả nhận dạng tác giả từ 4 — 8%.

Trang 22

Bui và cộng sự [11] đề xuất phương pháp xác định người ding nao là tác giảcủa các tin nhắn trực tuyến Tác giả dé xuất một phương pháp xác định tác giả của

các tin nhắn trực tuyến bằng tiếng Việt dựa trên thuật toán học máy Các thuật toán

được sử dụng bao gồm Naive Bayes, SVM, Random Forest va Logistic Regression.Thuật toán mang lại kết quả tốt nhất trong hau hết các trường hợp là Random Forest.Các thử nghiệm chứng minh rằng đối với các tin nhắn dài hơn, độ chính xác của phânloại tốt hơn các tin nhắn có độ dài thấp Do phan lớn dữ liệu tác giả sử dụng có độ dai

tương đối ngắn, phần nữa do tiếng Việt còn nhiều khó khăn trong việc xử lý nên tác

giả không thé sử dung dé nghiên cứu như gan nhãn phan của lời nói, nhận dang thựcthể được đặt tên, v.v nghiên cứu cũng có hạn chế khi dữ liệu sử dụng là tin nhắn trực

tuyến từ các báo điện tử, dẫn đến nội dung tin nhắn có sự tương đồng.

2.4 Mô hình hóa bài toán

Luận văn định nghĩa việc xác định tác giả văn bản là quá trình xác định tác giả

dựa trên tập hợp những đặc điểm chung và riêng của văn bản đã hình thành nên phongcách của tác giả Vấn đề xác định tác giả của văn bản là xác định sự tồn tại của một

tác giả trong số các tác giả tiềm năng Qua đó, ta có tập văn bản T = {ty, , ty} và

tập tác giả A = {ay, ,a)} Đối với một tập hợp các văn bản con nhất định T’ ={f\, , Em} GT, các tác giả đã được biết đến; tức là, có tập hợp các cặp (văn bản -tác giả) T = {(t;, a;)} Ta cần xác định tác giả nào trong tập A là tác giả đích thựccủa các văn bản còn lại (an danh hoặc còn tranh chấp) T” = {t„;+, , ty} ST

Theo phát biểu này, vấn đề xác minh tác giả có thể được coi là một nhiệm vụ

phân loại đa nhãn Trong trường hợp này, tập 4 là tập các lớp được xác định trước và

nhãn của chúng, tập D là tập các mẫu huấn luyện và các đối tượng cần phân loại được

bao gồm trong tập T” Mục tiêu là phát triển một bộ phân loại dé giải quyết vấn đề

-tìm hàm mục tiêu F:T x A > [—1, 1], ham này gán một số văn bản từ tập T cho tác

giả thực sự của nó Giá trị của hàm được mô tả là mức độ mà đối tượng thuộc về lớp,trong đó 1 tương ứng với nghiệm hoàn toàn dương, trong khi —1, ngược lại, là nghiệm

âm.

2.5 Phương pháp nghiên cứu

Trang 23

Phương pháp thu thập số liệu: Thu thập thông tin dựa vào các nguồn có sẵn,cũng như thông qua quá trình quan sát, từ đó xác định được các yêu cầu cần thiết và

cơ sở lý luận Tìm hiểu về các hệ thống hỗ trợ phân tích cảm xúc áp dụng công nghệ

trí tuệ nhân tạo Tham khảo, nghiên cứu các bài toán, thuật toán đã có nhằm kế thừacác ưu điểm và khắc phục những nhược điểm còn tồn đọng

Phương pháp thu thập thông tin: Thu thập thông tin về bài toán xác định tácgiả trong văn học Việt Nam thông qua khảo sát các nguồn thông tin sẵn có, quá trìnhquan sát tìm kiếm các bộ dữ liệu được công khai trong văn học Việt Nam, từ đó xác

định được các cơ sở lý luận và các yêu cầu cần thiết cho việc thực hiện nghiên cứu

Tham khảo, phân tích các nghiên cứu đã có trên thế giới về bài toán tương tự và chínhxác cho tác vụ xác định tác giả trên các bộ ngôn ngữ khác nhau, tìm hiểu các thuậttoán, phương pháp tiếp cận mới và hiện đại dé giải quyết bài toán

Phương pháp tổng hợp lý thuyết: Nghiên cứu, liên kết các tài liệu về phân tíchngôn ngữ, đặc biệt là các thuật toán được đánh giá, có độ tin cậy và chuẩn sát caonhằm mục tiêu xây dựng được mô hình thực nghiệm, qua đó đề xuất một mô hình kếthợp mang lại hiệu quả hơn các mô hình cơ sở trong cùng miễn đữ liệu thử nghiệm

Phương pháp giả thuyết: Đưa ra các dự đoán về nhu cầu, cách hoạt động và

kết quả mà đề tài mang lại giải quyết được những bắt cập hiện tại hay chưa?

Phương pháp điều tra: Khảo sát và thăm dò kết quả hoạt động của các nghiêncứu trên thế giới gần đây, xác định điểm mạnh yếu trong các đặc trưng thu thập vàtìm hiểu nhu cầu hướng mở rộng trong tương lai

Phương pháp thực nghiệm: Đề tài sẽ đóng góp cho nghiên cứu xác định tác

giả trong văn học Việt Nam một bộ ngữ liệu có tên là VN-Literature nó là kết quả

của cả quá trình thu thập thông tin mà dé tài đã cố gắng thực hiện Bên cạnh đó, đề

tài còn giới thiệu một hướng tiếp cận mới dựa trên các kĩ thuật tiên tiến hiện đại, một

mô hình kết hợp giữa các đặc trưng bao gồm: đặc trưng kết hợp và đặc trưng phongcách viết của tác giả thông qua việc fine-tuning một số mô hình ngôn ngữ được huấn

luyện trước Cuối cùng, thực hiện các thử nghiệm để thay đổi các tham số đề thu được

kết quả mong muốn

Trang 24

2.6 Phương pháp đánh giá

Trong quá trình nghiên cứu, bên cạnh các tìm hiểu về cơ sở lý thuyết, các kĩthuật cần có để giải quyết vấn đề, cách sử dụng các công cụ để giải quyết vấn đề theolập luận thực tiễn Một phần không thể thiếu để xem xét một mô hình có chất lượngtốt hay không đó là đánh giá mô hình Đánh giá mô hình giúp người nghiên cứu lựachọn được các mô hình phù hợp, các hướng cải tiến mới hiệu quả, đề xuất được cácphương pháp tinh chỉnh tham sé cho mô hình dé phù hợp với các bài toán cụ thể Về

dit liệu đánh giá, trong luận văn này sử dụng một bộ dữ liệu tự thu thập, sau các bước

xử lý, đữ liệu sẽ được phân tách thành 3 phần phục vụ cho các mục đích khác nhau.Đầu tiên, dữ liệu huấn luyện, tập này chiếm tỉ lệ lớn nhất với 75% trên toàn bộ dit

liệu, đữ liệu dev chiếm 15% được sử dụng đề đánh giá mô hình trong quá trình huấn

luyện và là cơ sở để hiệu chỉnh các tham số cho mô hình Cuối cùng, dit liệu kiểmthử, đữ liệu này được lấy từ 10% toàn bộ đữ liệu, dùng dé tính toán nhằm xác định

tính hiệu quả của mô hình thông qua các độ đo như: độ chính xác, precision, recall

Precision — độ nhạy: hình thành từ nhược điểm của độ chính xác, sẽ có rất

nhiều trường hợp thước độ chính xác không phản ánh đúng hiệu quả của mô hình Vì

vay chúng ta cần một độ đo có thé khắc phục được những yếu điểm nay Precision là

một trong những độ đo có thể khắc phục được, công thức như sau:

True Positiue Precision = ————

True Positive + False Positive

Trang 25

Recall: cũng là một độ đo quan trọng, nó đo lường tỷ lệ dự báo chính xác các

trường hợp positive trên toàn bộ các mẫu thuộc nhóm positive Công thức của Recall

như sau:

True Positiue

Recall = + 2 Positive + False Negative

Fl-score: tùy thuộc vào bài toán mà ta sẽ muốn ưu tiên sử dụng Recall hoặcPrecision Nhưng cũng có rất nhiều bài toán mà cả Precision và Recall đều quan trọng.Một độ đo phổ biến đã kết hợp cả Recall và Precision lại được gọi là F1-score, được

tính theo công thức sau:

2 * Precision * Recall

F1-S =

core =~ Precision + Recall

2.7 Ý nghĩa khoa học và thực tiễn

Mục đích chính của luận văn là tìm hiểu tông quan về bài toán xác định tác giả

trong văn học thông qua văn phong được trình bày thông qua áp dụng các phươngpháp tiếp cận hiện có như máy học truyền thống, học sâu và các mô hình tiên tiến

hiện đại Qua đó, luận văn trình bày một mô hình mới được để xuất dựa trên việc kếthợp giữa các đặc trưng tổng hợp, phong cách viết của tác và mô hình ngôn ngữ được

huấn luyện trước

Kết quả của luận văn, công bố một bộ dữ liệu tự xây dựng dựa trên các phươngpháp thu nạp thông tin từ Internet được gán nhãn cho mỗi tác giả Bộ dữ liệu sẽ đượcchia sẻ phục vụ mục đích nghiên cứu Bên cạnh đó, đề tài còn đưa ra giải pháp giúpxác định tác giả trong văn học Việt Nam dựa trên việc kết hợp các phương pháp rúttrích đặc trưng khác nhau nhằm mang lại hiệu quả cuối cùng là giúp tăng được tínhchính xác Các thử nghiệm được trình bày trong đề tài sẽ đi kèm với đánh giá nhằm

so sánh tính hiệu quả của các mô hình.

Luận văn cũng đóng góp vào chủ đề nghiên cứu cho việc xác định tác giả trongvăn học Việt Nam Đây là lần đầu tiên có một dé tài nghiên cứu về văn phong trong

văn học tiếng Việt áp dung các kĩ thuật tiên tiến hiện đại dé trình bay

Trang 26

Chương 3

CƠ SỞ LÝ THUYET

Chương 3 trình bày các cơ sở lý thuyết cần có đề giải quyết vấn đề đặt ra trongluận văn Đầu tiên, giới thiệu tong quan về các bộ dữ liệu được áp dụng để nghiêncứu là cơ sở dé đánh giá tính đúng đắn của mô hình Tiếp theo, giới thiệu các thao tác

xử lý cho dữ liệu dạng văn bản: tiền xử lý, rút trích đặc trưng Cuối cùng, mô tả các

phương pháp được áp dụng, bao gồm phương pháp truyền thống, phương pháp học

sâu, mô hình transformers và mô tả về mô hình dé xuất

3.1 Tổng quan về các bộ dữ liệu được áp dụng trong luận văn

3.1.1 Bộ dữ liệu tác giả văn học Việt Nam

Trong luận văn này, giới thiệu một bộ dữ liệu về tác giả và tác phẩm văn học

Việt Nam được thu thập bằng công cụ tự xây dựng Theo đó, dit liệu được thu thập

có nguồn gốc từ Internet, cụ thê là các trang web chia sẻ dạng ebook về tác phẩm văn

học Việt Nam Dữ liệu thu thập được giới hạn trong 8 tác giả với hơn 800 tập truyện

ngắn, thể loại văn xuôi thuộc giai đoạn văn học Việt Nam hiện đại Việc lựa chọn giai

đoạn văn học quyết định đầu ra của văn bản được thu thập, nếu chọn các thời kì sớmhon của văn học Việt Nam thì nghiên cứu cần mở rộng thêm về các văn tự ngữ tố

Do giới hạn của luận văn nên trong nghiên cứu này chỉ thu thập các tập truyện ngắn,thể loại văn xuôi của các tác giả văn học Việt Nam hiện đại

AGA URLo Queue

‘Seed URLs Fiter URLS

Trang 27

Trong phần thu thập dit liệu, luận văn đã giới thiệu một công cụ tự xây dựng,

hỗ trợ việc thu thập các tập truyện ngắn trong văn học Việt Nam Qua đó, hình 3.1

trình bày tông quan mô hình công cụ thu thập tự xây dựng và cách thức hoạt độngcủa nó Đầu tiên, tiến hành thu thập các đường dẫn của các truyện ngắn, một truyện

ngắn sẽ bao gồm nhiều chương, nhiều tập, do đó ta sẽ lưu trữ các đường dẫn làm cơ

sở cho các truy vấn dữ liệu về sau Tiép theo, sử dụng một hàng đợi để nạp các đườngdẫn văn bản chuẩn bị thu thập; theo đó, cũng ghi vét lại các đường dẫn đã được quét

qua, tránh được sự trùng lắp trong quá trình triển khai chạy công cụ Cuối cùng, một

mã lệnh được viết chạy theo tác vụ dựa trên ngôn ngữ python và thư viện Beautiful

Soup nó là một gói Python đê phân tích cú pháp các tài liệu HTML và XML Thư viện tạo một cây phân tích cú pháp cho các trang được phân tích cú pháp có thê được

sử dụng để trích xuất dữ liệu từ HTML Dữ liệu thô sau khi thu thập được lưu trữ

dưới dang file có cấu trúc để thuận tiện cho việc xử lý ở các bước tiếp theo

7 Nguyễn Huy Tưởng 30 6970 4.78

8 Dao Trinh Nhat 21 2375 1.62

Total 839 145709 100

Bảng 3.1 Thống kê dữ liệu tác gia tác phẩm văn học được thu thập từ Internet

Trang 28

Tác phâm Tiêu đê Nội dung Tác giả

Tắt đèn ChuongI | Bắt dau từ gà gáy một tiêng, trâu | Ngô Tat Tô

bò lục tục kéo thợ cầy đến đoạn

đường phía trong điểm tuần

Mọi ngày, giờ ấy, những con vậtnày cũng như những người cổ

cay, vai bừa kia,

Bang 3.2: Mô tả các trường dit liệu được lưu trữ

3.1.2 Các bộ dir liệu khác

Ngoài bộ dữ liệu tự thu thập được trình bày trong phần trước, luận văn cũng

giới thiệu thêm hai bộ dữ liệu được công khai trong cộng đồng nghiên cứu, và đã

được các nghiên cứu trước đây sử dụng cho nhiệm vụ xác minh tác giả Mục đích, để

hỗ trợ đánh giá tính hiệu quả giữa các phương pháp thực nghiệm được trình bày trongnhững phan sau

Đầu tiên, Enron Email là bộ dữ liệu đã được nghiên cứu rộng rãi trong thập kỷtrước ké từ khi Enron phá sản Nó chứa 517401 email từ khoảng 160 nhân viên đãđược công khai và việc chuẩn bị dữ liệu cho nhiệm vụ phân loại email được thực hiệnbởi Klimt và Yang (2004) [13] Các email chủ yếu chứa các cuộc trò chuyện của cácnhà quản lý tại Enron và do tính chất lừa đảo của các email, nó thường được sử dụng.như một trường hợp nghiên cứu cho các cuộc điều tra mạng tội phạm (Aven, 2015)

[14] Các email được thu thập từ thư mục “Đã gửi” của mỗi người trong số 160 nhânviên Vì khoảng 13% email chứa tên của người gửi, dưới dang chữ ký hoặc thông tin

bên lề trong thư được chuyển tiếp, nên các nghiên cứu đã loại bỏ những quan sát này

Các nghiên cứu cũng đã xóa tắt cả các tin nhắn có ít hon 10 tokens vì quá ngắn dé áp

Trang 29

dụng quy trình xử lý, được giới thiệu trong nghiên cứu của Ruder và cộng sự [15].

Kho dữ liệu đã được xử lý cuối cùng chứa 130.000 email

Tiếp theo, Blog Authorship Attribution là một kho dữ liệu gồm các bai viết

trên blog từ năm 2004 trở về trước, được thu thập từ blogger.com Nó được giới thiệu

bởi Schler và cộng sự [16] như một phần của nghiên cứu về ảnh hưởng của tuổi tác

và giới tính đối với việc viết blog Hơn 680.000 bài đăng có sẵn, từ hơn 19.000 tácgiả Trung bình có 35 bài viết được thu thập cho mỗi tác giả Không có quá trình tiền

xử lý hoặc lọc nào được áp dụng cho dữ liệu Bộ dữ liệu chứa các văn bản ngắn nhất

trung bình (79 tokens cho 5 tác giả hàng đầu, so với 190 tokens của Enron) Nhiều

bài đăng trên blog được thu thập là câu trả lời cho các bài đăng trên blog hoặc bài viếtngắn hiện có

Trong luận văn này, đối với bộ dữ liệu tiếng anh nghiên cứu thử nghiệm dựatrên 8 tác giả hàng dau có số lượng văn bản lớn nhất Bảng 3.3 trình bay số liệu thong

kê tóm tắt về độ dài và số lượng tài liệu của mỗi tác giả, trong các cấu hình khác nhauđược xem xét, cho mỗi bộ dữ liệu

Dataset Avg Num Tokens | Avg Nb TextVN-Literature 208 18212

Trong các nhiệm vụ liên quan đến lĩnh vực xử lý ngôn ngữ tự nhiên, bước tiền

xử lý dữ liệu luôn vô cùng quan trọng, giúp hiệu chỉnh, chuẩn hóa lại nội dung và bỏ

Trang 30

Trong phần tiền xử lý sẽ được chia nhỏ thành 2 nhiệm vụ chính:

Gán nhãn cho dữ liệu: công việc này được thực hiện bằng phương pháp thủ công để hiện thị mục tiêu, đầu ra mong muốn, thông qua nội dung đã được thu thập

bằng công cụ giới thiệu trong phần trước Dữ liệu được gắn nhãn làm nỗi bật các đặc

tính của dữ liệu — thuộc tính, đặc điểm hoặc phân loại — mà có thể được phân tích đểtìm ra các hình mẫu giúp dự đoán mục tiêu.

Chuẩn hóa dữ liệu: về mặt cấu trúc dữ liệu sau khi thu thập sẽ có thể kèm theo.một vài định dạng hoặc các kí tự không mong muốn Ở bước này, chuẩn hóa dữ liệu

sẽ làm nhiệm vụ xử lý những dữ liệu đó cho phù hợp Sau cùng, dữ liệu sẽ được lưu

trữ ở dạng có cấu trúc dé phục vụ cho các thử nghiệm trong phan tiếp theo

pháp sử dung từ vựng để biểu diễn vecto cho từ

- Tach từ: Nhiều ngôn ngữ không có kí tự rõ ràng dé phân tách giữa các từ

như tiếng Nhật, tiếng Trung Quốc Vì vậy ta cần thực hiện tách từ trong

câu Trong tiếng Việt, có thể sử dụng đấu khoảng trắng làm kí tự phân tách

cho các từ.

-_ Xóa từ đừng (stop word): Từ dừng là những từ xuất hiện phổ biến trong

hầu hết các văn bản, chúng không mang nhiều ý nghĩa nội dung trong câu

cũng như trong đoạn văn.

Trang 31

Mục tiêu của các phương pháp rút trích đặc trưng được sử dụng trong luận văn

nhằm để trích xuất ra các đặc trưng quan trọng nhất từ bộ dữ liệu dé phân loại tốt hơn

Luận văn này xử dụng một loạt các kỹ thuật rút trích đặc trưng, qua đó thực hiện các

thử nghiệm và so sánh chúng Cụ thé là từ các tập dữ liệu thu thập được, đối với mỗi

câu trong nội dung tác phẩm, ta phải tìm ra được những đặc trưng của nó, và chuẩn

hó nó thành vec-tơ Để đưa văn bản về dang vector phục vu cho công tác huấn luyên

mô hình máy học, có nhiều các khác nhau đề đưa dữ liệu văn bản đạng text về đữ liệudang số có thé thực hiện như:

Count Vectors as features

TF-IDF Vectors as features:

Count Vector là dang đơn giản nhất của Frequencey-based Embedding,

giả sử ta có D documents di, da, do và N là độ dài của từ điển, một vector

số nguyên và có độ dài D là vector biêu diễn của một từ, ở đó phần tử tại vị trí

i chính là tần số của từ đó xuất hiện trong document dị Trong một số trườnghợp, có thể lượt bớt các từ có tần số xuất hiện thấp hoặc thay đổi mục nhậpcủa vector tùy vào mục đích cụ thể

CountVectorizer là một công cụ tuyệt vời được cung cấp bởi thư viện

scikit-learn [25] trong Python Nó được sử dụng để chuyền đổi một văn bản

nhất định thành một vectơ trên cơ sở tần suất (số lượng) của mỗi từ xuất hiện

Trang 32

từ trong mỗi văn bản thành vecto (để sử dụng trong phân tích văn bản tiếp

theo).

TE-IDE

TF-IDF (Term Frequency - Inverse Document Frequency) đây là một

phương pháp thống kê dựa trên tần suất xuất hiện của một từ trong ngữ liệunhưng nó cũng cung cấp một đại diện bằng số về mức độ quan trọng của một

từ đối với phân tích thống kê Đây là phương pháp rat nồi tiếng, được sử dụngtrong nhiều bài toán NLP và khai phá dữ liệu dạng văn bản với mục đích: tínhweight (trọng số) của từ (word) trong một văn bản cụ thể, văn bản đó nằmtrong một tập nhiều văn bản khác nhau

Cách tiếp cận TF-IDF sẽ ước lượng độ quan trọng của một từ đối với

văn bản trong danh sách tập văn bản Nguyên lý của TF-IDF là độ quan trong

của một từ sẽ tăng lên cùng với số lần xuất hiện của nó trong văn bản và sẽ

giảm xuống nếu từ đó ít xuất hiện trong nhiều văn bản khác nhau Dựa trên cơ

sở, nếu từ đó xuất hiện trong nhiều văn bản khác nhau nghĩa là từ đó rất thông

dụng, tức nó giá trị của nó sẽ giảm xuống.

Phương pháp TF-IDE là sự kết hợp của hai độ do: TF và IDF được tính

bằng công thức:

TF — IDFŒ, đ,Đ) = tf(t,d) x idf(t,D)

Trọng số wy được tính bằng tan số xuất hiện của từ tị trong văn bản dị

và độ hiếm của từ t¡ trong tập văn bản Công thức tính wi:

(1+ log(fij)) log (=) Tiếu f,j > 1

Trang 33

© fij (term frequency): số lần xuất hiện của từ thứ i trong văn bản thứ

j, fj càng cao thì từ đó càng mô tả tốt nội dung văn bản

e df; (document frequency): số văn bản có chứa từ thứ i

c Word Embedding

Mô hình Word Embbeding là một không gian vector dùng dé biểu diễn

dữ liệu mô tả được những điểm tương đồng, các mối quan hệ về mặt ngữ nghĩa

và mô tả ngữ cảnh của dữ liệu Không gian này bao gồm nhiều chiều và các từ

có vị trí gần nhau thì có cùng ngữ cảnh hoặc ngữ nghĩa

Nhược điểm của phương pháp này là sinh ra vector với số chiều quá lớn

và không quan tâm đến ngữ nghĩa của văn bản Theo đó, nghiên cứu củaMikolov cộng sự về phương pháp Word2vec [24] được đề xuất đẻ giải quyếtvấn dé nêu trên Mô hình dự đoán học biểu diễn vector từ thông qua những từ

ngữ cảnh xung quanh với mục đích cải thiện khả năng dự đoán ý nghĩa các từ.

'Word2Vec là một mô hình kiến trúc mạng neural, nó bao gồm 2 lớp và duynhất 1 tang ân, nhận đầu vào là một ngữ liệu lớn à sinh ra không gian vector

(với số chiều khoảng vài trăm — đối với nghiên cứu của Grave [23] là 300

chiều), với mỗi từ duy nhất trong ngữ liệu được gắn với một vector tương ứng

trong không gian vector Các từ vectors được xác định trong không gian vector

sao cho những từ có chung ngữ cảnh trong ngữ liệu sẽ nằm gần nhau trongkhông gian Qua đó, mô hình có khả năng dự đoán chính xác về ý nghĩa của

một từ dựa trên những lần xuất hiện trước đây

Có hai cách xây dựng một mô hình Word2vec:

Sử dụng ngữ cảnh để dự đoán mục tiêu (CBOW): khi vị trí của các từ

ngữ cảnh không ảnh hưởng tới việc dự đoán từ - đây là giả định ban đầu của

Trang 34

Hình 3.3 Cấu trúc của word2vec, bao gồm CBOW va Skip-gram

Mô hình chung của Word2Vec (bao gồm cả CBOW và Skip-gram) đều

dựa trên một mạng neural network khá đơn giản Gọi V là tập các tất cả các từvới n từ khác nhau Layer input biểu diễn dưới dạng one-hot encoding với n

nút đại điện cho n từ trong vocabulary Activation function (hàm kích hoạt)

chỉ có tại layer cuối là softmax function, loss function là cross entropy loss,tương tự như cách biểu diễn mô hình của các bài toán classification Ở giữahai lớp đầu vào va dau ra là 1 lớp trung gian với size = k, chính là vector sẽ

được sử dụng để biểu diễn các từ sau khi huấn luyện mô hình

Nhược điểm của word2vec là nó bị giới hạn bởi từ vựng trong ngữ liệu

Vi vậy đề xuất của Grave [23] với FastText là mở rộng của Word2Vec Thay

vì training cho đơn vị từ, nghiên cứu dã đề xuất chia văn bản ra làm nhiều đoạn

nhỏ được gọi là n-gram cho từ Do vậy đã xử lý tốt cho các trường hợp từ hiếmgap.

Đặc trưng phong cách viết

Van phong hay còn gọi là phong cách viết của mỗi tác giả được địnhhình trong một thé loại hoặc một chủ dé cụ thé dựa trên nó có thể xác địnhđược tầm ảnh hưởng của tác giả đến nội dung được khảo sát Văn phong baogồm các sử dụng từ, cầu trúc câu, cách viết đoạn văn, lồi viết, hình thức, phong

cách và cảm xúc được truyền tải qua văn bản Văn phong được xác định dựa

trên nhiều yếu tố như nền văn hóa, thời đại văn học, mục đích viết, Vanphong trong tiếng Việt cũng bao gồm các khái niệm bên trên, ngoài ra cũngcòn có những đặc thù riêng biệt của văn phong tiếng Việt: phương pháp ẩn dụ,

Trang 35

so sánh, cách sử dụng từ lay, tiếng long, đã hình thành những đặc trưng gópphần cho việc xác định văn phong của mỗi tác giả.

Theo Argama [11], có hai loại đặc trưng chính được sử dụng trong phân

tích tác giả văn bản: đặc trưng về phong cách và đặc trưng dựa trên nội dung.Đặc trưng dựa trên phong cách, phương pháp này đầu tiên được đề xuất bởiSari và cộng sự năm 2018 [22] về việc trích xuất đặc trưng theo phong cách từvựng Các đặc trưng được trích xuất là độ dài văn bản, số lượng từ, độ dài

trung bình của từ, số lượng từ ngắn, tỉ lệ chữ số và chữ in hoa, tần số chữ cái

và chữ số riêng lẻ, thước đo độ phong phú của văn bản (hapax-legomena), vàtần suất xuất hiện của 12 dấu câu Một LR được huấn luyện về các đặc trưng

này.

Trong luận văn, do giới hạn về mặt dit liệu, hiện nay chưa có bộ dữ liệu

nào được gán nhãn đầy đủ cho việc xác định tác giả dựa trên văn phong trong

văn học Việt Nam Qua đó, tiền đề cho các nghiên cứu về sau luận văn chỉkhảo sát trên các đặc trưng được trích xuất như: độ dài văn bản, số lượng từ,

độ dài trung bình của từ, tỉ lệ chữ số và chữ in hoa, tần số chữ cái và chữ sốriêng lẻ, thước đo độ phong phú của văn bản (hapax-legomena), và tần suấtxuất hiện của 12 dấu câu

3.2.3 Vấn đề mất cân bằng dữ liệu

Trong các bài toán xử lý ngôn ngữ tự nhiên, việc dữ liệu mat cân bằng rấtthường xuyên gặp phải Vì nhiều lý do khách quan hoặc chủ quan mà dữ liệu thu thập

sẽ không đồng đều giữa các nhãn, khoảng cách giữa nhãn nhiều dữ liệu và nhãn ít dữ

liệu là rất lớn Việc mắt cân bằng lớn sẽ dẫn đến những hậu quả nghiêm trọng cho

xác định chất lượng của mô hình huấn luyện Khi đó các độ đo được áp dụng để đánhgiá sẽ không còn chính xác, nó sẽ hoạt động chủ quan về nhãn chiếm ưu thế cao,mang lại những lầm tưởng về độ chính xác của mô hình Về cơ bản, có hai phươngpháp thường được sử dụng trong việc giải quyết vấn đề mắt cân bằng dữ liệu, đó là:

Under sampling va Over sampling

Under sampling là kĩ thuật giúp giảm số lượng của các nhãn trong nhóm da sốtrở nên cân bằng với nhóm thiểu số Ưu điểm của kĩ thuật này đó là giúp đưa nhanh

dữ liệu về trạng thái cân bằng, dễ đàng thực hiện mà không cần đến thuật toán giả lập

Trang 36

mẫu nào khác Tuy nhiên, nhược điểm lớn nhất của phương pháp này đó là kích thướcmẫu sẽ bị giảm đáng kề Tập dữ liệu huấn luyện mới tuy cân bằng nhưng lại quá nhỏ,

không đại diện được cho phân phối của toàn bộ dữ liệu và thường xuyên dẫn đến hiện

tượng overfitting Do đó, để khắc phục, thường ta sẽ không cố găng đưa nó về trạngthái cân bằng hoàn toàn mà sẽ cố gắng mô phỏng các thử nghiệm ở nhiều trạng tháilấy mẫu khác nhau, nhằm tìm ra một giải pháp tối ưu

Over sampling ngược lại với kĩ thuật under sampling nghĩa là nó làm tăng kíchthước đữ liệu của các nhãn thuộc nhóm thiêu số về trạng thái cân bằng hoặc gần cân

bằng với nhãn đa số Ưu điểm của kĩ thuật này, giúp đữ liệu vẫn giữ được các phân

phối đại diện cho phân lớp Mặc khác, do tập dữ liệu mới sẽ lớn hơn nên việc xử lý,

thao tác huấn luyện cũng sẽ mắt nhiều thời gian hơn Kĩ thuật này trình bay hai hướng

tiếp cận đề giải quyết vấn đề là:

© Lựa chọn mẫu có tái lập

© Mô phỏng mẫu mới dựa trên việc tông hợp các mẫu cũ Với phương pháp lựa chọn mẫu có tái lập, Naive random Over sampling là phươngpháp tái chọn mẫu dựa trên giả thuyết ngây thơ là dữ liệu mẫu giả lập mới sẽ giống

dữ liệu sẵn có Do đó ta sẽ cân bằng mẫu bằng cách lựa chọn ngẫu nhiên có lặp lạicác quan sát thuộc nhóm thiêu số Giữ nguyên các mẫu thuộc nhóm da số và tăngkích thước mẫu thuộc nhóm thiểu số sao cho bằng với nhóm đa số

SMOTE (Synthetic Minority Over-sampling) và ADASYN (Adaptive

synthetic sampling) là các phương pháp sinh mẫu nhằm gia tăng kích thước mẫu củanhóm thiểu số trong trường hợp xảy ra mắt cân bằng mẫu Đề gia tăng kích thước

mẫu, với mỗi một mẫu thuộc nhóm thiểu số ta sẽ lựa chọn ra mẫu láng giềng gần nhất

với nó và sau đó thực hiện tổ hợp tuyến tính đề tạo ra mẫu giả lap Phương pháp dé

lựa chọn ra các láng giềng của một quan sát có thể dựa trên thuật toán KNN hoặc

SVM.

Đối với đề tai, van đề mắt cân bằng dữ liệu vẫn xảy ra trên tập dữ liệu tự thuthập bằng công cụ xây dựng (VN-Literature) Về cơ bản, bộ dữ liệu VN-Literature làdit liệu về tác phẩm văn học Việt Nam do đó rất khó dé các tác giả đồng điều nhau

về số lượng câu trong số các truyện ngăn Việc này dẫn đến một thách thức trong

nghiên cứu đó là tìm ra giải pháp giúp cân bằng dữ liệu nhưng không làm mat đi bản

Trang 37

chất vốn có của nó Trong luận văn này, đã khảo sát cả hai kĩ thuật Under Sampling

và Over Sampling đề xây dựng các mô hình thử nghiệm Tuy nhiên với kĩ thuật Under

Sampling số lượng dữ liệu giảm đáng kể, dẫn đến việc mô hình huắn luyện không thé

hiện đủ các đặc trưng phân bó về các nhãn, nên đã loại bỏ phương pháp này thay bằng

Over Sampling Trong kĩ thuật Over Sampling, luận văn tập trung khảo sát việc cân

bằng giữa các lớp bằng hướng tiếp cận tạo mẫu tái lập, bỏ qua phương pháp tạo sinh

do đặc thù của dữ liệu là văn phong của tác giả, việc tạo sinh sẽ góp phần tạo ra dữ

liệu mới không thuộc về văn phong của bắt kì tác giả nào, làm giảm chất lượng mô

hình huấn luyện Tiếp theo, với hướng tiếp cận mẫu tái lập, luận văn đã sử dụng phátsinh tái lập ngẫu nhiên, nhằm tạo ra một bộ dữ liệu mới đầy đủ hơn, cân bằng hơn

3.3 Phương pháp dựa trên máy học truyền thống

Trong phần này luận văn giới thiệu các mô hình máy học truyền thống phục

vụ cho nhiệm vụ xây dựng bộ phân lớp cho giải quyết vấn đề xác định tác giả trongvăn bản Sau khi biểu diễn các văn bản dưới dạng đặc trưng thông qua các phươngpháp được trình bày trong phần trước, qua đó các văn bản có thể đễ dàng được biểudiễn dưới dạng mà thuật toán học máy có thể sử dụng Một loạt các phương pháp

phân loại văn bản đã được đề xuất trong các nghiên cứu trước đây cho phân loại văn

bản Trong luận văn này sẽ chọn lọc và trình bày một số phương pháp được đánh giá

hiệu quả cho bài toán xác định tác giả.

Ngoài ra, các phương pháp máy học khác nhau thường dựa trên một tập các

Hyper Parameter hoặc dựa trên một giả thiết về phân bố dữ liệu, nên không có thuậttoán nao là luôn tốt và cho hiệu suất cao nhất cho mọi ứng dụng và trên mọi tập dữ

liệu Vì vậy, để tìm được những thuật toán học máy tốt cho tập dataset có thê cần

nhiều thời gian dé thử các thuật toán khác nhau

Ensemble là kỹ thuật tạo ra nhiều model và sau đó kết hợp chúng lại để đưa ra

kết quả như mô tả trong hình 3.4 Một số phương pháp ensemble phổ biến hiện nay

là: Voting, Stacking, Bagging, Boosting.

Trang 38

3.3.1 Mơ hình Nạve Bayes

Nạve Bayes là mơ hình phân loại phổ biến trong các bài tốn học máy cĩ giám

sát Mơ hình hoạt động dựa trên ý tưởng của xác suất cĩ điều kiện giữa từ hay cụm

từ và nhãn phân loại để dự đốn văn bản mới thuộc về lớp nào Trong thực tế, NạveBayes được áp dụng rất nhiều trong việc giải quyết các bài tốn phân loại văn bảnbởi những ưu điềm của của nĩ, nỗi bật nhất vẫn là tính dễ hiéu, dé triển khai, độ chínhxác tương đối tốt Kết quả phân loại bị ảnh hưởng bởi kích thước tập dữ liệu, chất

lượng của khơng gian đặc trưng

“Thuật tốn Naive Bayes dựa trên định ly Bayes được phát biểu như sau:

P(XY) _ PŒXIY)PŒ)

PO =a POD

Ap dụng trong bai tốn phân loại, các dữ kiện gồm cĩ:

Trang 39

© D: tập dữ liệu huấn luyện đã được vec-tơ hóa dưới dạng #=

(Xi,¿, , Xu)

© Cj: phân loại í, với é = {1,2, ,m} Các thuộc tính độc lập điều kiện

đôi một với nhau.

© _ P(C,|X) là xác suất thuộc phân loại i khi biết trước mẫu X

© P(Œ,) xác suất là phân loại i.

© P(+x„|C,) xác suất thuộc tính thứ k mang giá trị x, khi đã biết X thuộcphân loại i.

3.3.2 Mô hình SVM

Mô hình SVM (Support Vector Machine) là một phương pháp phân loại được

đề xuất trong nghiên cứu của Cortes & Vapnik [25] Ý tưởng chính của thuật toán

này là tìm một siêu phẳng hoặc tập các siêu phăng trong không gian hữu hạn chiềucủa các vector biểu diễn văn bản, phân chia các vector này thành 2 phần tương ứng

với 2 lớp của bộ phân loại Biên của bộ phân loại được định nghĩa là khoảng cách từ

siêu phẳng tới điểm gần nhất Khi có một vector mới — văn bản cần xác định lớp,khoảng cách từ vector này đến siêu phẳng sẽ được tính toán, sau đó sẽ đưa ra kết luận

phân loại phù hợp với nó.

Trước tiên ta sẽ phân tích với mô hình phân loại gồm có 2 lớp, sau đó sẽ mởrộng vấn đề ra cho bài toán phân loại đa lớp

Trang 40

Theo đó, ta có hình 3.5 tìm một đường thắng sao cho bên trái nó toàn là cácđiểm đỏ, bên phải nó toàn là các điểm xanh Dạng bài toán dùng đường thăng đề phân

chia này được gọi là phân loại tuyến tinh (linear classification)

Phân biệt 2 lớp với hàm tuyến tính như sau:

(x) € RTM là vector đặc trưng, @ làm hàm ánh xạ từ không gian đầu vào sang

không gian đặc trưng.

Tập dữ liệu đầu vào gồm N mẫu input vector {x, x2, ,Xy}, với các giá trị

nhãn tương ứng là {fạ, É;, , ty} trong đó £„ € {—1, 1}.

Giả sử tập dữ liệu của ta có thể phân tách tuyến tính hoàn toàn (các mẫu đềuđược phân đúng lớp) trong không gian đặc trưng (feature space), do đó sẽ tồn tại giátrị tham số w và b theo (1) thỏa y(x,) > 0 cho những điểm có nhãn t, = +1 vày(x,) < 0 cho những điểm có t, = —1, vi thế mà £„y(x„) > 0 cho mọi điểm ditliệu huấn luyện

Hướng tiếp cận của SVM để giải quyết bài toán thông qua khái niệm gọi là

“lề” Lề được định nghĩa là khoảng cách nhỏ nhất từ đường phân chia đến mọi điểm

dữ liệu hay còn gọi là khoảng cách từ đường phân cách đến những điểm gần nhất

Ngày đăng: 08/11/2024, 17:24

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Anderson, A., Corney, M., de Vel, O., &amp; Mohay, G. (2001). Identifying the Authors of Suspect E-mail. Communications of the ACM Khác
[3] J. Houvardas, E. Stamatatos: N-Gram feature selection for authorshipidentification, Proceedings of the 12" international conference on ArtificialIntelligence: methodology, Systems, and Applications, Varna, Bulgaria, 2006 Khác
[4] Bartelds, M., &amp; de Vries, W. (2019, September). Improving Cross-domain Authorship Attribution by Combining Lexical and Syntactic Features. In CLEF Khác
[5] Y. Sari, A. Vlachos, and R. M. Stevenson, (2017) Continuous N-gram Representations for Authorship Attribution. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. European Chapter of the Association for Computational Linguistics (EACL 2017), 3-7 April 2017 Khác
[6] T. Solorio, P. Rosso, M. Montes-y-Gémez, P. Shrestha, S. Sierra, F. A. Gonzdlez.Convolutional Neural Networks for Authorship Attribution of Short Texts.Proceedings of the 15th Conference of the European Chapter of the Association for Computational LinguisiSpain, April 3-7, 2017: Volume 2, Short Papers, pages 669-674, Valencia Khác
[7] E. Ferracane, S. Wang, and R. J. Mooney. Leveraging Discourse Information Effectively for Authorship Attribution. Proceedings of the The 8th International JointConference on Natural Language Processing, pp. 584-593, 2017 Khác
[8] Custodio, J.E.; Paraboni, I. An ensemble approach to cross-domain authorship attribution. In Proceedings of the International Conference of the Cross-Language Khác
[9] A. Romanov, R. Meshcheryakov. Identification of authorship of short texts with machine learning techniques. In Proceedings of the Dialog 2010. pp. 407-413, 2010 Khác
[10] Bacciu, A., La Morgia, M., Mei, A., Nemmi, E. N., Neri, V., &amp; Stefa, J. (2019, September). Cross-Domain Authorship Attribution Combining Instance Based andProfile-Based Features. In CLEF Khác
[12] Đức, D. T., Son, P. B., &amp; Hanh, T. (2007). Xác định đặc điểm tác giả bai viết diễn đàn tiếng Việt dựa trên âm tiết và van. Một lược đồ mới phát hiện ảnh giả mạodựa trên luật Benford, 71-76 Khác
[14] Brandy L. Aven. 2015. The Paradox of Corrupt Networks: An Analysis of Organizational Crime at Enron. Organization Science, 26(4):980-996. Publisher:INFORMS Khác
[15] A. Joulin, E. Grave, P. Bojanowski, and T. Mikolov. Bag of tricks for efficient text classification. arXiv preprint arXiv: 1607.01759, 2016 Khác
[16] Devlin, J., Chang, M. W., Lee, K., &amp; Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 Khác
[17] Schler, J., Koppel, M., Argamon, S., &amp; Pennebaker, J. W. (2006, March). Effects of age and gender on blogging. In AAAI spring symposium: Computational approaches to analyzing weblogs (Vol. 6, pp. 199-205) Khác
[18] Ryan Kiros, Yukun Zhu, Ruslan R Salakhutdinov, Richard Zemel, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. 2015. Skip-thought vectors. In Advances in neural information processing systems, pages 3294-3302 Khác
[19] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018.Improving language understanding with unsupervised learning. Technical report, OpenAl Khác
[20] Matthew Peters, Mark Neumann, Mohit lyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018a. Deep contextualized word representations. In NAACL Khác
[21] Howard, J., &amp; Ruder, S. (2018). Universal language model fine-tuning for text classification. arXiv preprint arXiv: 1801.06146 Khác
[22] Yunita Sari, Mark Stevenson, and Andreas Vlachos. 2018. Topic or Style?Exploring the Most Useful Features for Authorship Attribution. In Proceedings of the 27th International Conference on Computational Linguistics, pages 343-353, Santa Fe, New Mexico, USA. Association for Computational Linguistics Khác
[23] Grave, E., Bojanowski, P., Gupta, P., Joulin, A., Mikolov, T.: Learning word vectors for 157 languages. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). European Language Resources Association (ELRA), Miyazaki, Japan (2018) Khác

HÌNH ẢNH LIÊN QUAN

Hình 4.5 Tương quan độ chính xác giữa các mô hình máy học 35 - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 4.5 Tương quan độ chính xác giữa các mô hình máy học 35 (Trang 10)
Hình 3.1. Sơ đồ xây dựng công cụ thu thập dữ liệu trong văn học Việt Nam - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.1. Sơ đồ xây dựng công cụ thu thập dữ liệu trong văn học Việt Nam (Trang 26)
Bảng 3.1. Thống kê dữ liệu tác gia tác phẩm văn học được thu thập từ Internet - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Bảng 3.1. Thống kê dữ liệu tác gia tác phẩm văn học được thu thập từ Internet (Trang 27)
Bảng 3.3: Thống kê mô tả 3 tap dit liệu. Với Avg. Num. Tokens: số lượng tokens trung bình trên mỗi văn bản, Avg - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Bảng 3.3 Thống kê mô tả 3 tap dit liệu. Với Avg. Num. Tokens: số lượng tokens trung bình trên mỗi văn bản, Avg (Trang 29)
Hình 3.2. Mô tả quy trình chuẩn hóa và công đoạn tiền xử lý cho bộ dữ liệu - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.2. Mô tả quy trình chuẩn hóa và công đoạn tiền xử lý cho bộ dữ liệu (Trang 30)
Hình 3.3. Cấu trúc của word2vec, bao gồm CBOW va Skip-gram - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.3. Cấu trúc của word2vec, bao gồm CBOW va Skip-gram (Trang 34)
Hình 3.4. Mô hình Ensemble - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.4. Mô hình Ensemble (Trang 38)
Hình 3.7. Mô tả về đường biên trong SVM - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.7. Mô tả về đường biên trong SVM (Trang 41)
Hình 3.6. Mô tả về đường biên trong SVM - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.6. Mô tả về đường biên trong SVM (Trang 41)
Hình 3.8. Biễu diễn đồ thị của ham 6, (tham khảo!) - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.8. Biễu diễn đồ thị của ham 6, (tham khảo!) (Trang 42)
Hình 3.9. Mô hình kiến trúc CNN trong phân loại văn bản [28] - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.9. Mô hình kiến trúc CNN trong phân loại văn bản [28] (Trang 47)
Hình 3.10. Mô hình tổng quan của một mang LSTM - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.10. Mô hình tổng quan của một mang LSTM (Trang 48)
Hình 3.12. Kiến trúc của GRU - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.12. Kiến trúc của GRU (Trang 50)
Hình 3.13: Kiến trúc của mô hình BERT được trình bay trong [16] - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.13 Kiến trúc của mô hình BERT được trình bay trong [16] (Trang 52)
Hình 3.14. Tổng quan về mô hình phương pháp được dé xuất kết hợp phong cách - Luận văn thạc sĩ Khoa học máy tính: Mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt
Hình 3.14. Tổng quan về mô hình phương pháp được dé xuất kết hợp phong cách (Trang 55)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w