Ứng dụng độ đo phong cách văn bản tiếng việt trong nhận diện tác giả

90 31 1
Ứng dụng độ đo phong cách văn bản tiếng việt trong nhận diện tác giả

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Hồ Ngọc Lâm ỨNG DỤNG ĐỘ ĐO PHONG CÁCH VĂN BẢN TIẾNG VIỆT TRONG NHẬN DIỆN TÁC GIẢ LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh – 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Hồ Ngọc Lâm ỨNG DỤNG ĐỘ ĐO PHONG CÁCH VĂN BẢN TIẾNG VIỆT TRONG NHẬN DIỆN TÁC GIẢ Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐINH ĐIỀN Thành phố Hồ Chí Minh – 2020 LỜI CAM ĐOAN Tơi xin cam đoan luận văn “Ứng dụng độ đo phong cách văn tiếng Việt nhận diện tác giả” cơng trình nghiên cứu cá nhân tơi thời gian qua với hướng dẫn giảng viên: PGS.TS Đinh Điền Mọi ngữ liệu, số liệu sử dụng kết nghiên cứu luận văn tơi tự xây dựng, tính tốn cách khách quan, trung thực có nguồn gốc rõ ràng chưa cơng bố hình thức Mọi giúp đỡ cho việc thực luận văn cảm ơn thơng tin trích dẫn luận văn rõ nguồn gốc rõ ràng phép cơng bố Tơi xin chịu hồn tồn trách nhiệm có khơng trung thực thơng tin sử dụng cơng trình nghiên cứu Thành phố Hồ Chí Minh, ngày 02 tháng 10 năm 2020 Hồ Ngọc Lâm LỜI CẢM ƠN Trong trình thực luận văn đề tài: “Ứng dụng độ đo phong cách văn tiếng Việt nhận diện tác giả”, tơi có giúp đỡ thành viên trung tâm nghiên cứu Ngôn ngữ học tính tốn (CLC) thuộc trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, thầy Khoa Công nghệ thông tin, trường Đại học Sư phạm Thành phố Hồ Chí Minh, thầy Phòng Sau Đại học, trường Đại học Sư phạm Thành phố Hồ Chí Minh Tơi hồn thành luận văn theo kế hoạch đặt Trước tiên, xin gửi lời cảm ơn chân thành sâu sắc đến giảng viên hướng dẫn PGS.TS Đinh Điền tận tình hướng dẫn, dạy suốt trình thực luận văn Đồng thời, tơi xin gửi lời cảm ơn đến thành viên CLC đặc biệt Phạm Phong Hào, Nguyễn Tuyết Nhung giúp đỡ, hỗ trợ cho cuối cảm ơn thầy khoa công nghệ thông tin giảng viên giảng dạy khóa K29 tận tình giải đáp, trả lời thắc mắc tơi q trình viết luận văn thạc sĩ Xin chân thành cảm ơn ban giám hiệu tổ tin học trường THPT Chuyên Trần Đại Nghĩa hỗ trợ xếp thời khóa biểu cơng tác khác để tơi có thời gian hồn thành luận văn Trong luận, chắn tránh khỏi hạn chế thiếu sót Tơi mong nhận nhiều đóng góp q báu đến từ q thầy để đề tài hồn thiện có ý nghĩa thiết thực áp dụng thực tiễn sống Chân thành cảm ơn Thành phố Hồ Chí Minh, ngày 02 tháng 10 năm 2020 Hồ Ngọc Lâm MỤC LỤC Lời cam đoan Lời cảm ơn Mục lục Danh mục bảng Danh mục hình vẽ, đồ thị Danh mục chữ viết tắt kí hiệu MỞ ĐẦU Chương 1: TỔNG QUAN VỀ BÀI TOÁN ỨNG DỤNG ĐỘ ĐO PHONG CÁCH VĂN BẢN TIẾNG VIỆT TRONG NHẬN DIỆN TÁC GIẢ 1.1 Giới thiệu nhu cầu nhận diện tác giả 1.2 Các cơng trình liên quan 1.3 Tổng quan toán ứng dụng độ đo phong cách văn tiếng Việt nhận diện tác giả 1.4 Đối tượng phương pháp nghiên cứu 1.4.1 Nội dung nghiên cứu 1.4.2 Đối tượng nghiên cứu 1.4.3 Phương pháp nghiên cứu Chương 2: ĐỘ ĐO PHONG CÁCH VĂN BẢN 11 2.1 Cơ sở lí thuyết 11 2.1.1 Các khái niệm liên quan đến độ đo phong cách 11 2.1.2 Các đặc trưng độ đo phong cách 12 2.1.3 Từ loại (Part of speech – POS) 15 2.1.4 Nhận diện tên riêng (Named Entity Recognition (NER)) 22 2.1.5 Ngữ cảnh (Contextual): 22 2.1.6 Độ phong phú từ vựng 23 2.1.7 Mô hình ngơn ngữ (Language Model (LM)) 26 2.1.8 Tiền huấn luyện 29 2.2 Các độ đo phong cách 33 2.2.1 Đường cong đặc trưng Mendenhall 33 2.2.2 Chi bình phương Kilgariff (Kilgariff’s Chi-Squared) 34 2.2.3 Delta John Burrows 35 2.2.4 Khoảng cách Euclidean 36 2.2.5 Những từ ngữ mang tính cá nhân (individual words) 36 2.3 Mơ hình BERT 37 2.3.1 Tổng quan 37 2.3.2 Phương pháp biến đổi (Transformer) 39 2.3.3 Mơ hình tiền huấn luyện 47 2.3.4 Tinh chỉnh (Fine-tuning) 50 Chương 3: NHẬN DIỆN TÁC GIẢ 52 3.1 Xây dựng kho ngữ liệu 52 3.1.1 Giai đoạn 53 3.1.2 Giai đoạn hai 55 3.1.3 Giai đoạn ba 55 3.1.4 Quy trình xây dựng, chuẩn hóa tiền xử lý kho ngữ liệu 57 3.1.5 Sử dụng BERT việc nhận diện tác giả 61 Chương 4: TRÌNH BÀY, ĐÁNH GIÁ, BÀN LUẬN CÁC KẾT QUẢ 64 4.1 Các độ đo phong cách 64 4.1.1 Đường cong đặc trưng Mendenhall 64 4.1.2 Độ phong phú từ vựng tác giả 67 4.1.3 Phương pháp Chi bình phương Kilgariff 67 4.1.4 Phương pháp tính Delta John Burrows 68 4.1.5 Khoảng cách Euclidean 69 4.1.6 Những từ ngữ mang tính cá nhân 70 4.2 Mơ hình BERT 70 4.3 Bàn luận 72 KẾT LUẬN 74 DANH MỤC CƠNG TRÌNH CƠNG BỐ CỦA TÁC GIẢ 76 DANH MỤC TÀI LIỆU THAM KHẢO 77 DANH MỤC CÁC BẢNG Bảng 2.1 Các đặc trưng độ đo phong cách 13 Bảng 2.2 Các loại nhãn dùng để gán cho từ 14 Bảng 3.1 Kho ngữ liệu giai đoạn 54 Bảng 3.2 Kho ngữ liệu giai đoạn 55 Bảng 3.3 Kho ngữ liệu giai đoạn 56 Bảng 3.4 Kho ngữ liệu chi tiết theo tác giả 57 Bảng 3.5 Thông tin cụ thể tác giả 57 Bảng 3.6 Tổ chức thông tin tác giả 58 Bảng 3.7 Mô tả tên file viết tác giả 59 Bảng 4.1 Độ phong phú từ vựng 67 Bảng 4.2 Kết phương pháp Chi bình phương 68 Bảng 4.3 Kết phương pháp Delta với tác giả 68 Bảng 4.4 Kết phương pháp Delta với tác giả 68 Bảng 4.5 Kết phương pháp Delta với 10 tác giả 69 Bảng 4.6 Kết phương pháp khoảng cách Euclidean 70 Bảng 4.7 Những từ ngữ mang tính cá nhân 70 Bảng 4.8 Độ xác F1-Score theo số lượng tác giả 72 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Phương pháp nghiên cứu thực nghiệm 10 Hình 2.1 Từ mượn tiếng Nga 24 Hình 2.2 Từ mượn tiếng Pháp 25 Hình 2.3 Từ mượn tiếng Anh 25 Hình 2.4 Biểu đồ tần số từ mơ hình: unigram, bigram, trigram 27 Hình 2.5 Minh họa mơ hình ngơn ngữ cấu trúc 28 Hình 2.6 Minh họa mơ hình skip-gram 30 Hình 2.7 Minh họa mơ hình CBOW 30 Hình 2.8: So sánh kiến trúc BERT với mơ hình khác 32 Hình 2.9 So sánh ELMO, GPT BERT 33 Hình 2.10 Kiến trúc mơ hình BERTBASE 38 Hình 2.11 Kiến trúc tổng quan Transformers 39 Hình 2.12 Kiến trúc Encoder 40 Hình 2.13 Minh họa dịch máy Transformer 40 Hình 2.14 Minh họa chế self-attention 41 Hình 2.15 Minh họa cách tính self-attention 42 Hình 2.16 Các từ tương ứng với Query, Key, Value 43 Hình 2.17 Q trình tính tốn trọng số attention vector cho từ I câu I study at school 43 Hình 2.18 Kết tính attention vector cho toàn câu 44 Hình 2.19 Sơ đồ cấu trúc Multi-head Attention 45 Hình 2.20 Sơ đồ khối lớp áp dụng lớp multi-head Attention 46 Hình 2.21 Sơ đồ trình encoder lớp Transformer 46 Hình 2.22 Quá trình biến đổi từ đầu vào thành đầu 47 Hình 2.23 Masked LM 48 Hình 2.24 Dự đoán câu 50 Hình 2.25 Tồn tiến trình tiền huấn luyện tinh chỉnh BERT 51 Hình 3.1 Mục "Góc nhìn" Vnexpress 52 Hình 3.2 Thơng tin tác giả 53 Hình 3.3 Thơng tin chi tiết tác giả 54 Hình 3.4 Tổ chức kho ngữ liệu 61 Hình 3.5 Cấu hình BERTBASE 62 Hình 4.1 Các tác giả viết từ có 17 kí tự 64 Hình 4.2 Các tác giả viết từ có 16 kí tự 65 Hình 4.3 Các tác giả viết từ có 15 kí tự 65 Hình 4.4 Các tác giả sử dụng nhiều từ có đến kí tự 66 Hình 4.5 Các tác giả có độ tương đồng nhiều 66 65 Hình 4.2 Các tác giả viết từ có 16 kí tự − Vũ Kim Hạnh, Hồ Quốc Tuấn, Phạm Gia Hiền, Nguyễn Ngọc Tư, Nguyễn Khắc Giang Jesse Peterson viết từ dài có 15 kí tự Hình 4.3 Các tác giả viết từ có 15 kí tự − Hai tác giả Vũ Kim Hạnh Nguyễn Ngọc Tư có độ tương đồng nhiều sử dụng từ nhiều từ đến 15 kí tự 66 Hình 4.4 Các tác giả có độ tương đồng nhiều − Tác giả: Võ Xuân Sơn, Hoàng Nguyên Vũ, Giáp Văn Dương, Nguyễn Khắc Giang, Phạm Gia Hiền, Jesse Peterson, Hồ Quốc Tuấn, Hoàng Anh Tú sử dụng nhiều từ có đến kí tự Từ dùng nhiều kí tự Hình 4.5 Hình 4.5 Các tác giả sử dụng nhiều từ có đến kí tự 67 Độ phong phú từ vựng tác giả Bảng 4.1 thể độ phong phú từ vựng (chỉ số Caroll R) tác giả, người có độ phong phú từ vựng cao tác giả Phạm Gia Hiền: 0,111281994, thấp tác giả Võ Xuân Sơn: 0,068265312 Bảng 4.1 Độ phong phú từ vựng Từ loại bỏ Độ phong phú từ STT Tác giả Từ vị dấu vựng Võ Xuân Sơn 99,626 6,801 0.068265312 Giáp Văn Dương 72,439 5,227 0.072157263 Hoàng Nguyên Vũ 96,401 7,977 0.082748104 Nguyễn Khắc Giang 84,829 7,760 0.09147815 Phạm Gia Hiền 79,977 8,900 0.111281994 Hồ Quốc Tuấn 74,897 7,078 0.094503118 Vũ Kim Hạnh 101,933 10,156 0.099634073 Jesse Peterson 96,721 7,000 0.072373114 Nguyễn Ngọc Tư 147,326 1,0581 0.071820317 10 Hoàng Anh Tú 102,938 7,173 0.069682722 Phương pháp Chi bình phương Kilgariff Bảng bên thể kết giá trị Chi bình phương thử tác phẩm Test tác giả (theo dòng tiêu đề) Xét kết theo cột, giá trị Chi bình phương nhỏ phong cách tác phẩm Test gần với phong cách tác giả Kết cho thấy 100% phong cách tác phẩm Test gần với tác giả 68 Bảng 4.2 Kết phương pháp Chi bình phương Phương pháp tính Delta John Burrows Các bảng bên thể kết đánh giá phương pháp tính Delta thử tác phẩm test tác giả (theo dòng tiêu đề) Xét kết theo cột, giá trị Delta nhỏ phong cách tác phẩm test gần với phong cách tác giả Thực nghiệm 35 từ có tần số cao, kết đạt 66.67% dự đoán tác phẩm 2/3 tác giả: Hồ Quốc Tuấn, Vũ Kim Hạnh Bảng 4.3 Kết phương pháp Delta với tác giả Đạt 50% dự đoán 2/4 tác giả: Hồ Quốc Tuấn, Vũ Kim Hạnh Bảng 4.4 Kết phương pháp Delta với tác giả 69 Đạt 40% dự đốn 4/10 tác giả Võ Xn Sơn, Hồng Nguyên Vũ, Nguyễn Ngọc Tư, Hoàng Anh Tú Bảng 4.5 Kết phương pháp Delta với 10 tác giả 35 từ bao gồm: {'là', 'khơng', 'và', 'có', 'của', 'người', 'một', 'những', 'tơi', 'được', 'các', 'với', 'cho', 'trong', 'thì', 'để', 'đã', 'đó', 'cũng', 'phải', 'ở', 'mà', 'mình', 'khi', 'như', 'này', 'con', 'đến', 'về', 'nhưng', 'sẽ', 'làm', 'vào', 'đi', 'nhiều'} Chúng nhận thấy số lượng tác giả nhiều độ xác giảm tác giả có đặc điểm tương đồng cách sử dụng từ Khoảng cách Euclidean Bảng 4.6 bên thể kết đánh giá độ đo khoảng cách Euclidean thử tập Test với tập Known tác dòng tiêu đề Xét kết theo cột, nhận thấy khoảng cách tập Known Test tác giả Để so sánh độ đo, chúng tơi lấy 35 từ có tần số cao độ đo Delta 70 Bảng 4.6 Kết phương pháp khoảng cách Euclidean Những từ ngữ mang tính cá nhân Bảng 4.7 thể tỉ lệ sử dụng từ ngữ mang tính cá nhân tác giả Chúng nhận thấy Võ Xuân Sơn sử dụng từ ngữ cá nhân 10 tác giả 0.02860699, tác giả Hoàng Anh Tú sử dụng nhiều từ ngữ cá nhân 0.069682722, tác giả Vũ Kim Hạnh sử dụng nhiều từ ngữ cá nhân thứ hai 0.061067557 Bảng 4.7 Những từ ngữ mang tính cá nhân Từ loại bỏ Từ xuất STT Tác giả Tỉ lệ dấu lần Võ Xuân Sơn 99,626 2,850 0.02860699 Giáp Văn Dương 72,439 2,144 0.02862598 Hoàng Nguyên Vũ 96,401 3,488 0.034218555 Nguyễn Khắc Giang 84,829 3,522 0.036534891 Phạm Gia Hiền 79,977 4,285 0.059153219 Hồ Quốc Tuấn 74,897 3,349 0.039479423 Vũ Kim Hạnh 101,933 4,884 0.061067557 Jesse Peterson 96,721 3,153 0.032598919 Nguyễn Ngọc Tư 147,326 4,491 0.030483418 10 Hoàng Anh Tú 102,938 7,173 0.069682722 4.2 Mơ hình BERT Dùng F1-score để đánh giá độ xác mơ hình với bốn loại phương thức hỗ trợ: micro, macro, weighted, sample Các tác giả có ngữ liệu F1-score thấp, ví dụ tác giả chọn có số lượng viết 71 nhiều có F1-score trung bình cao tác giả cịn lại thuộc nhóm 10 tác giả chọn Kết sau: − Với 10 tác giả: F1 Score [0.50525152 0.40819672 0.36671368 0.40674157 0.20027064 0.24860335 0.61717352 0.42251349 0.54308094 0.70685325 0.64158918](the scores for each class are returned.) F1 Score 0.5145985401459854(Calculate metrics globally by counting the total true positives, false negatives and false positives.) F1 Score 0.4606352607051418(Calculate metrics for each label, and find their unweighted mean This does not take label imbalance into account.) Test accuracy 0.5145985401459854 Validation accuracy 0.5050340538939887 − Với tác giả: F1 Score [0.62653899 0.52422031 0.5315534 0.58831522 0.76569201](the scores for each class are returned.) F1 Score 0.6352490421455939(Calculate metrics globally by counting the total true positives, false negatives and false positives.) F1 Score 0.6072639832354259(Calculate metrics for each label, and find their unweighted mean This does not take label imbalance into account.) Test accuracy 0.6352490421455939 Validation accuracy 0.6412259615384616 72 − Với tác giả: F1 Score [0.79712747 0.87085714](the scores for each class are returned.) F1 Score 0.8421787709497207 (Calculate metrics globally by counting the total true positives, false negatives and false positives.) F1 Score 0.8339923057194152(Calculate metrics for each label, and find their unweighted mean This does not take label imbalance into account.) Test accuracy 0.8421787709497207 Validation accuracy 0.8373048479868529 Bảng 4.8 Độ xác F1-Score theo số lượng tác giả Số lượng tác giả Test Validation 0.8421787709497207 0.8373048479868529 0.6352490421455939 0.6412259615384616 10 0.5145985401459854 0.5050340538939887 4.3 Bàn luận Với sáu phương pháp thực nghiệm, kết sáu phương pháp đạt kết không mong đợi − Kết tốt đạt độ xác 100% phương pháp Euclidean Chi bình phương Kilgariff Hai phương pháp ln có độ xác cao kho ngữ liệu − Phương pháp tính Delta John Burrows có độ xác từ 40% đến 66,7% tùy vào số lượng tác giả Kết phản ánh kho ngữ liệu có nhiều tác giả có phong cách tương đồng với gây nhiễu cho việc nhận diện tác giả Theo số liệu bảng kết nhận thấy hai tác giả 73 Vũ Kim Hạnh Hồ Quốc Tuấn có phong cách rõ ràng Khi có nhiều tác giả độ xác giảm − Với mơ hình BERT kết đạt xấp xỉ từ 51% đến 84% không mong đợi mơ hình sử dụng câu đơn khác với mơ hình học máy khác sử dụng đoạn văn 74 KẾT LUẬN Nghiên cứu nhận diện tác giả văn tiếng Việt dựa vào phong cách tác giả phổ biến tính ứng dụng cao việc phát hành vi đạo văn, đạo ý tưởng, dịch từ văn nước giả danh người khác Việc nghiên cứu gặp nhiều khó khăn việc tìm nguồn ngữ liệu đủ lớn đầy đủ thông tin tác giả Trong luận văn chúng tơi trình bày sáu độ đo mơ hình học máy BERT để định danh tác giả Đây độ đo việc xác định phong cách tác độ phong phú từ vựng, số lượng kí tự từ, tần số xuất từ để tìm từ phổ biến nhất, v.v Dựa đặc trưng để xác định phong cách tác giả Tuy độ đo mơ hình cơng bố sử dụng cho kho ngữ liệu tiếng Việt, phải tinh chỉnh cho phù hợp với đặc trưng tiếng Việt Có hai độ đo có độ xác 100%, độ đo đạt từ 40% đến 66,7% với 35 từ có tần số xuất cao tùy vào số lượng tác giả Mô hình BERT có độ xác xấp xỉ từ 51.4% đến 84.2% so với độ đo cổ điển có độ xác cao Trong nghiên cứu tiếp theo, thực việc thu thập ngữ liệu có độ phong phú lĩnh vực nhằm tăng độ phong phú từ vựng Đồng thời tiến hành thực nghiệm mơ hình với hai câu Cụ thể sau: Mở rộng kho ngữ liệu: Mục Góc nhìn – VnExpress ln có báo tác giả thường xuyên Điều thuận lợi cho việc cập nhật thêm ngữ liệu Các tác giả mục thường có viết báo cho báo điện tử khác viết blog cập nhật trạng thái Facebook cá nhân nên thu thập thêm ngữ liệu 75 Tăng độ xác mơ hình: Mơ hình BERT trình bày luận văn cần cải tiến thêm sử dụng từ vựng kho ngữ liệu, tăng số câu tác giả, tích hợp thêm đặc trưng tiếng Việt điệu, loại từ có tiếng Việt có, v.v Thực tác vụ khác phong cách tác giả: Xác minh tác giả tìm thơng tin tác giả nhằm đáp ứng cho toán thực tế tranh chấp tác quyền, xác minh tội phạm, giả danh, v.v 76 DANH MỤC CƠNG TRÌNH CƠNG BỐ CỦA TÁC GIẢ Chúng tơi cơng bố cơng trình sau: Nguyen Tuyet Nhung, Ho Ngoc Lam and Dinh Dien, “A gender-linked comparison of language use based on a Vietnamese online news corpus”, Đại học Khoa học Xã hội Nhân văn, Đại học Quốc gia Hồ Chí Minh, 2020 hội thảo khoa học Đại học Khoa học Xã hội Nhân văn, Đại học Quốc gia Hồ Chí Minh Ho Ngoc Lam, Vo Diep Nhu, Dinh Dien and Nguyen Tuyet Nhung, “Identifying Authors Based on Stylometric Measures of Vietnamese Texts”, PACLIC34, 2020 hội nghị PACLIC (Pacific Asia Conference on Language, Information and Computation) diễn đàn dành cho nhà nghiên cứu lĩnh vực Ngôn ngữ học lĩnh vực Xử lí ngơn ngữ tự nhiên PACLIC 34 nơi diễn hội thảo MWEA 2020, hội thảo chuyên môn hẹp dành cho nhà nghiên cứu ngữ đa từ ngôn ngữ châu Á phương diện lí thuyết ngơn ngữ học tính tốn Đây hội nghị thuộc rank A lĩnh vực xử lý ngôn ngữ tự nhiên Hồ Ngọc Lâm, Võ Diệp Như Đinh Điền, “Ứng dụng kho ngữ liệu tiếng Việt phân tích độ đo phong cách”, Ngôn ngữ học lĩnh vực ứng dụng, 2020 hội thảo khoa học Ngôn ngữ học lĩnh vực ứng dụng Đại học Khoa học Xã hội Nhân văn, Đại học Quốc gia Hồ Chí Minh tổ chức Nguyễn Tuyết Nhung, Võ Diệp Như, Hồ Ngọc Lâm Đinh Điền “Gán nhãn siêu liệu cho khối ngữ liệu VnExpress Viewpoint Corpus (VVC)”, Ngôn ngữ học lĩnh vực ứng dụng, 2020 hội thảo khoa học Ngôn ngữ học lĩnh vực ứng dụng Đại học Khoa học xã hội nhân văn, Đại học Quốc gia Hồ Chí Minh tổ chức 77 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] DANH MỤC TÀI LIỆU THAM KHẢO Tempestt Neal, Kalaivani Sundararajan, Aneez Fatima, Yiming Yan, Yingfei Xiang, Damon Woodard, “Surveying stylometry techniques and applications”, University of Florida, ACM Comput Surv 50, 6, Article 86, trang 86, 2017 Sadia Afroz, Aylin Caliskan-Islam, Ariel Stolerman, Rachel Greenstadt Damon McCoy, “Doppelgänger Finder: Taking Stylometry To The Underground”, IEEE Symposium on Security and Privacy, 2014 Kyung-Ah Sohn, Alemu Molla Kebede, Kaleab Getaneh Tefrie, “Anonymous Author Similarity Identification”, Department of computer engineering, Ajou University, IEEE Symposium on Security and Privacy, 2014 Shaina Ashraf, Hafiz Rizwan Iqbal, Rao Muhammad Adeel Nawab, “Cross-Genre Author Profile Prediction Using Stylometry-Based Approach”, Notebook for PAN at CLEF, 2016 Alex I Valencia Valencia, Helena Gomez Adorno, Christopher Stephens Rhodes, Gibran Fuentes Pineda, “Bots and Gender Identification Based on Stylometry of Tweet Minimal Structure and ngrams Model”, Notebook for PAN at CLEF, 2019 K.Surendran, O.P.Harilal, P.Hrudya, Prabaharan Poornachandran N.K.Suchetha, “Stylometry Detection Using Deep Learning”, Springer Nature Singapore Pte Ltd, 2017 Antonio Pascucci, Vincenzo Masucci, Johanna Monti, “Computational Stylometry and Machine Learning for Gender and Age Detection in Cyberbullying Texts”, IEEE, 2019 Carmen Klaussner Carl Vogel, “Stylochronometry: Timeline Prediction in Stylometric Analysis”, Springer International Publishing, Switzerland, 2015 Imene Bensalem, Paolo Rosso, Salim Chikhi ,“Intrinsic Plagiarism Detection using N-gram Classes”, Association for Computational Linguistics , 2014 Le Thanh Nguyen, Dinh Dien, “English- Vietnamese Cross-Language Paraphrase Identification Method”, Springer, 2019 Le Thanh Nguyen, Nguyen Xuan Toan, Dinh Dien, “Vietnamese plagiarism detection method”, ACM, 2016 78 [12] Maciej Eder, “Rolling stylometry”, Oxford University Press on behalf of EADH, 2015 [13] Andrea Bacciu, Massimo La Morgia, Eugenio Nerio Nemmi, Valerio Neri, “Cross-Domain Authorship Attribution Combining InstanceBased and Profile-Based Features”, Notebook for PAN at CLEF, 2019 [14] Bui Khanh Alisa Vorobeva, “A Preliminary Performance Comparison of Machine Learning Algorithms for Web Author Identification of Vietnamese Online Messages”, IEEE, DOI: 10.23919/FRUCT48808.2020.9087531, 2020 [15] Mahmoud Khonji Youssef Iraqi, “De-anonymizing Authors of Electronic Texts: A Survey on Electronic Text Stylometry”, Preprints, 2017 [16] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, arXiv: 1810.04805v2, 2019 [17] Giang-Son Nguyen, Xiaoying Gao, Peter Andreae, “Phoneme based representation for Vietnamese Web page classification”, IEEE, DOI 10.1109/WI-IAT.2011.142, 2011 [18] Dương Trần Đức, Phạm Bảo Sơn Tân Hạnh, “Xác định đặc điểm tác giả viết diễn đàn tiếng Việt dựa âm tiết vần”, Các cơng trình nghiên cứu phát triển CNTT Truyền thông, Tập V-1, Số 17 (37), https://doi.org/10.32913/rd-ict.vol1.no37.355, tháng 6/2017 [19] Ahmed M Mohsen, Nagwa M El-Makky, Nagia Ghanem, Author Identification Using Deep Learning, 2016 15th IEEE International Conference on Machine Learning and Applications (ICMLA), 18-20 Dec 2016 [20] David I Holmes & Judit Kardos: “Who Was the Author? An Introduction to Stylometry”, 20 Sep 2012 [21] Walter Daelemans, “Explanation in Computational Stylometry”, CLiPS, University of Antwerp, Belgium, A Gelbukh (Ed.): CICLing 2013, Part II, LNCS 7817, pp 451–462, Springer, Heidelberg 2013 [22] Nguyễn Tuyết Nhung, Đỗ Trần Anh Đức Đinh Điền, “Độ đo phong cách văn tiếng Việt ứng dụng”, Giảng dạy, nghiên cứu Việt Nam học tiếng Việt, trang 455, 2018 79 [23] Mai Ngọc Chừ, Vũ Đức Nghiệu Hoàng Trọng Phiến, Cơ sở ngôn ngữ học tiếng Việt, Hà Nội: Nhà xuất giáo dục, 1999, trang 257-261 [24] Nguyễn Như Ý (chủ biên), “Từ điển giải thích thuật ngữ ngôn ngữ học”, Hà Nội: Nhà xuất giáo dục, 1996, trang 369 [25] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser Illia Polosukhin, “Attention Is All You Need”, Cornell University, https://arxiv.org/abs/1706.03762, 2017 [26] Ali Fadel, Ibraheem Tuffaha Mahmoud Al-Ayyoub, “Pretrained Ensemble Learning for Fine-Grained Propaganda Detection”, Association for Computational Linguistics, trang 139–142, 2019 ... ỨNG DỤNG ĐỘ ĐO PHONG CÁCH VĂN BẢN TIẾNG VIỆT TRONG NHẬN DIỆN TÁC GIẢ 1.1 Giới thiệu nhu cầu nhận diện tác giả 1.2 Các cơng trình liên quan 1.3 Tổng quan toán ứng dụng độ đo phong. .. cứu Đề tài ứng dụng độ đo phong cách văn tiếng Việt nhận diện tác giả dựa vào đặc trưng đặc thù ngôn ngữ đặc trưng riêng tác giả Độ đo phong cách kỹ thuật tính tốn tìm thơng tin tác giả văn dựa... Vấn đề lớn xác định tác giả văn bản, tác phẩm, v.v cách xác nhanh dành riêng cho tiếng Việt Để giải toán nhận diện tác giả văn điện tử cần dựa vào độ đo phong cách văn độ đo gồm: đường cong đặc

Ngày đăng: 28/04/2021, 15:31

Tài liệu cùng người dùng

Tài liệu liên quan