MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET

Trang 1

Dương Trần Đức

MỘT SĨ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH DAC DIEM NGUOI DUNG TREN MANG INTERNET

LUAN AN TIEN SI KY THUAT

Trang 2

Dương Trần Đức

MỘT SĨ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH DAC DIEM NGUOI DUNG TREN MANG INTERNET

Chuyên ngành: Kỹ thuật máy tinh

Mã số: 9.48.01.06

LUẬN AN TIEN SI KY THUAT

NGƯỜI HƯỚNG DÂN KHOA HỌC: 1 PGS.TS PHAM BAO SON

2 TS TAN HANH

Trang 3

LOI CAM DOAN

Tơi xin cam đoan đây là cơng trình nghiên cứu đo tơi thực hiện Các số liệu và

kết quả trình bày trong luận án là trung thực, chưa được cơng bồ bởi bất kỳ tác giả nào hay ở bất kỳ cơng trình nào khác

Tác giả

Trang 4

LOI CAM ON

Tơi xin gửi lời cảm ơn chân thành tới Khoa Đảo tạo Sau Đại học, Khoa Cơng

nghệ Thơng tin, Ban Lãnh đạo Học viện Cơng nghệ Bưu chính Viễn thơng, các Quý

Thay Cơ đã giúp tơi trang bị kiến thức, tạo điều kiện thuận lợi cho tơi trong suốt quá trình thực hiện Luận án này

Đồng thời, tơi xin bày tỏ lịng cảm ơn chân thành và sâu sắc tới PGS TS

Phạm Bảo Sơn và TS Tân Hạnh, những người đã tận tình khuyến khích và hướng dẫn trong quá trình thực hiện để tơi cĩ thể hồn thành Luận án

Xin chân thành cảm ơn các đồng nghiệp, các nhà khoa học, các thây cơ giáo cơng tác tại Khoa Cơng nghệ Thơng tin, Học viện Cơng nghệ Bưu chính Viễn

thơng, Đại học Cơng nghệ - Đại học Quốc gia Hà Nội đã động viên, hỗ trợ tơi trong quá trình thực hiện Luận án

Cuối cùng, xin gửi lời tri ân sâu sắc tới gia đình, bạn bè, những người đã luơn

động viên, khuyến khích, là chỗ dựa tinh thần cho tơi trong thời gian thực hiện Luận

Trang 5

MỤC LỤC

Trang

TRANG PHỤ BÌA - - s 2S S5 5111151111111 01 1111 1111105111110 1111111111010 t i LOI CAM DOAN ooeeececcccccscsescscscscscsescscscscsessssscscscecscscscsescsesssssssvecssanscscscscsesesssevass ii LOL CAM ON woeececcccccccccccscsescscscscscecscscscscsesssesssssssssevscscsescsesssssessvsssssvscessnscsesessaeess iii

109090922 iv

DANH MUC BANG BIEU wioeeccccccccccccscscscecscscssescscscscecsescscsescscscsssssesssvevecscsescsees vii DANH MUC HINH VE uuie.eecccccccscscesescscseesescsescscesscscsescscsessscsessssssssceestscseseaeees viii DANH MUC CAC TU VIET TAT ooiececcecccccceccscsescscscecscscscsesssseessssesssescssstscsesessseess ix MO DAU wieeccccccccccccscssccssssscecscscscscscscscsesessvsssssssvsssescscscscsesessssssavscsvsvscscscsesessseeess 1 1 LY DO LUA CHON DE TAL eccccccccccccecesescsesescscscscsescsesesssesessssesssnecseaees 1 2 MUC TIEU CUA LUAN AN ooeeecccceccscscscscscscscscsessssescssssssesecssseseseseseees 3 3 PHAM VI NGHIEN CUU wo.ccccccccccceccseccsescscscscecssscscsesssesessssesseescecseseseseees 4 4 CAC DONG GOP CUA LUAN AN uoicccccccccceescsceessescsssescesststseseseseseees 4 5 BĨ CỤC CỦA LUẬN ÁN - c1 S1 S112 1215111510111 11110101101 rr 5 CHUONG 1: TONG QUAN VE XAC ĐỊNH ĐẶC ĐIÊM NGƯỜI DÙNG 1

1.1 XAC BINH DAC DIEM NGUOI DUNG THONG QUA PHAN TICH VAN BAN iececcscccscsescssscscscscscscsssssessvssevevscscscscscscscsesevsvsvsvsvssscsvscscscacsesssssssavececanes 1

1.1.I - Giới thiệu Ă 5< 2 11 1E 3 1 1E 111 5111111111111 111111111 re 1

1.1.2 Đặc điểm của văn bản trực tuyến " 4

1.1.3 Các dạng thức trong phân tích tác giả văn bản . < - s5: 5

1.1.4 9ð vá 0ä n6 11

1.1.5 Cac dae trung nharn dién cc cecccccccecccsessseecceceeeeseeseeecceeeeeaseeeeeeees 15

Trang 6

0 33 2.1 XAC BINH DAC DIEM TAC GIA BAI VIET DIEN DAN TIENG VIET SU DUNG CAC DAC TRUNG CO BAN woe ceecccceccsesesesescssesscecscscsesesseesssesssanens 34

2.1.1 GiGi thiGe cece cscecscscscsessscsesscscscecscecscscsesssssesssscssasececsnsesees 34

2.1.2 Phuong Phap cc ececccscccccccceneeeececceeceeeseseececceeseaeaeeecceesseuaeseesess 35

2.1.3 Thực nghiỆm - - << < c0 01101 1011011111311 1111011 1111111111 13 xe 40

2.1.4 KẾ( luận L-c- CS ST HT 1511111111101 11 1101011211 111kg rrkg 47 2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG - 55 <cccscee 47 2.2.1 Giới thiệu .cSc CS SEE1 1111111111111 11111211 1111k nrkg 47

2.2.2 Phương pháp - << QC 30110 100101 11111111111 111111 1v ca 48

2.2.3 Thực nghiỆm - << << c0 01101010101 111111111011 111111 1v va 49

2.2.4 KẾ( luận -.Lc HS ST HH H1 2111111110111 01011211 1 11g kg 61 2.3 SU DUNG CAC DAC TRUNG VAN VA AM TIET TIENG VIET 62 2.3.1 GiGi thiGue cece cc cececscscscscsssssscscscscscscscscscsesssssessssssssececstsesees 62

2.3.2 Tổng quan về các nghiên cứu phân tích tác giả sử dụng các đặc trưng dựa trÊn fỪ VỰng ccc Q11 111111 TT TT ca 63 2.3.3 Âm tiết và vẫn trong tiếng VIỆT - tk 1n HH ngu 66 2.3.4 Phuong Phap ::‹+11 3 68 2.3.5 _ Thực nghiỆm - - «<< << c0 0310 10110101 1111111111011 31111111 srg 70 2.3.6 KẾ( luận L-c- CS ST T S1 1511111111101 11 11111112111 1111 1k nrkg 78 2.4 KẾT LUẬN CHƯNG - <1 1 1 E23 3 1E 11115121 1111111111111 k0 79 CHƯƠNG 3: XÁC ĐỊNH DAC DIEM NGUOI DUNG DUA TREN DU LIEU LICH SU TRUY CẬP HỆ THƠNG THƯƠNG MẠI ĐIỆN TỬ 81

3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU 5 5c 2522222 2E Esrsrere 82 3.1.1 Giới thiệu L.C cà c1 1 1 1T 1T T HH1 111111 11111111111 82

3.1.2 Phương pháp + «+ -c << 1101101101010 11 111111111 1111111 ca 82

Trang 7

3.1.4 Kt uae cccccccscescsescecscscscsescscsesesesesssssssscssssscssssseseeeseeeeen 93 3.2_ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIÊU DIÊN CẤYY Q0 20 0 1 1111111111111 1111111111111 1111111111110101110 1111111111111 T1 11111010112 94 3.2.1 Giới thiệu L.L.L SH 1 1 1T 1T T TH T 1 1111 111110111111 94 3.2.2 Phuong Phap 3 95

3.2.3 Thurc nghidm cc ccecccccccccccccssseececceececeseeeececeeeseaeeeeeeceeseeaeaeeseees 101

3.3 KẾT LUAN CHUONG wuu.ceccccccccccesescscsescscscscsescsesesssscscssstesetseseseseess 106 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO -.- 5525552 107 1l KẾT LUẬN - CC 1 1 1 1111111 121111 11111110 011101 011111 g 107 2 HƯỚNG NGHIÊN CỨU TIẾP THEO ¿2 2 2 2 +E+E+E+E+Ezs£ecze: 109 DANH MỤC CƠNG TRÌNH CƠNG BỒ - Q12 1S H1 rrrưeg 110 TAI LIEU THAM KHẢO - c5: 5c 121212121 1 1 52515151511 5111111 1111111 cy 112 PHU LUC 1: XAY DUNG UNG DUNG THU NGHIEM XAC ĐỊNH ĐẶC ĐIỂM TAC GIÁ VĂN BẢN TIẾNG VIỆTT 5< SE Sẻ SE 5115111515111 21 1112111 te 125

1.1 ĐẶT VẤN ĐẼ -L -Cc H111 1 1 1111111011111 0111101111101 11 1111 u 125 1⁄2_ MƠ TẢ HỆ THNG - G521 E121 1 3 323 1 E511 5151111111111 ce 126 1.2.1 Sơ đồ hệ thống G- G1 1S HH TH HH ng Hư 126 1.2.2 Chức năng Thu thập dữ liệu - 55+ << << <<<++sssssssssssss 126

1.2.3 Chức năng Xử lý đữ liệu - + 5 E SE SE EEEEEtekrrrkekekd 127

1.2.4 Chức năng Trích chọn đặc trưng - «<< <<<<<+sssssssssssss 128

1.2.5 Chức năng Xây dựng mơ hình nhận diện .- - 129 1.2.6 Chức năng Xây dựng dịch vụ nhận diện - << - 129 1.2.7 Chức năng Ứng dựng Web thử nghiệm sử dụng dịch vụ 129

1.3 XÂY DỰNG HỆ THNG - - S22 SE E151 1111111111 te 130 1.3.1 Mơ đun Thu thập dữ liệu + 5 SE SE2E£E£2£EeEzEzEevrrrerered 130

1.3.2 Mơ đun Xử lý dữ liệu và trích chọn đặc trưng - - 130 1.3.4 Mơ đun Xây dựng dịch vụ nhận diện . - -<<<<<<<<<<<2 133 1.3.5 Mơ đun ứng dụng thử nghiệm sử dụng dịch vụ - 133

Trang 8

DANH MUC BANG BIEU

Bang 1.1 Các đặc trưng dựa theo phong cách - << << 2+ <s<<<sssesss 19 Bảng 2.1 Các đặc trưng cơ bản 2c T113 0000 2210111101101 1111111111 111 nhu 39 Bảng 2.2 Thống kê về tập dữ liệu huấn luyện - 2G xxx EeEsEcecseseeecse 41

Bảng 2.3 Kết quả xác định đặc điểm tác giả bài viết diễn đản -: 44

Bảng 2.4 Kết quả thực nghiệm sử dụng các đặc trưng nâng cao -: 55

Bảng 2.5 Kết quả trên thuật tốn SMO sau khi điều chỉnh tham số 58

Bang 2.6 Những đặc trưng nội dung (từ nội dung) quan trọng nhất 60

Bảng 2.7 Câu trúc âm tiết tiếng VIỆT cv TT HT ng ng re 68 Bảng 2.9 Các đặc trưng - + cc s11 111 2T 111 1111 ng nhu 79 Bang 2.10 Két qua xac dinh dac diém tac gia su dung cac dac trung vần và âm tiết H111 110100010111 kg TT 01 ng 71 Bảng 2.11 Các vần và âm tiết quan trọng trong nhận diện tác giả 73 Bảng 3.2 Các đặc trưng chung .- c + 1131111 1v 1111 11v ru 84 Bảng 3.3 Các đặc trưng dựa trên sản phẩm . ¿6s St SE csvekeecee 85 Bảng 3.3 Các đặc trưng dựa trên sản phẩm chuyển tiẾp 5 + s6 cse 85 Bảng 3.4 Thống kê dữ liệu - 6 S2 E2 E SE 11913 Tưng ng re rg 88 Bảng 3.5 Ma trận chi phÍ - - << 0000111011011 1111111101101 111111111 3 1 nhu 90 Bảng 3.6 Kết quả của các thực nghiệm trên các thuật tốn khác nhau (chưa áp dụng kỹ thuật hỗ tTỢ) tt 22111 2111211111111112111111111111111111111111101111111111111 01.111 91 Bảng 3.8 Kết quả thực nghiệm khi áp dụng thêm các kỹ thuật hỗ trợ 92

Trang 9

DANH MỤC HÌNH VỀ

Hình 2.2 Độ chính xác nhận diện trên các số lượng đặc trưng khác nhau 59 Hình 3.1 Biểu diễn dạng cây của danh mục sản pham/loai san pham duoc xem 96

Hình 3.2 Biểu diễn dạng cây của lượt xem cĩ 1 loại sản phẩm mức A 97 Hình 3.3 Biểu diễn dạng cây của lượt xem cĩ nhiều loại sản phẩm mức A 97 Hình 1 Sơ đồ tổng quát của hệ thống .- ¿5+ se S SE SE SEEkrkcEveerkreeo 127

Hình 2 Giao diện mơ đun xử lý dữ liệu và trích chọn đặc trưng 131 Hình 3 Giao diện mơ đun Xây dựng mơ hình nhận diện - - - 132 Hình 4 Giao diện mơ đu thử nghiệm nhận diện tác giả văn bản - 132

Hình 5 Mã nguồn dịch vụ Web xác định đặc điểm tác giả - 5 - 555: 134

Trang 10

DANH MUC CAC TU VIET TAT

Từ viết tắt Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Độ đo chính xác cần băng BAC Balanced Accuracy Bayesian Multinomial

BMR Regression Hồi quy đa thức Bayes

BN Bayesian Networks Mang Bayes

BNC British National Corpus Kho ngữ liệu quốc gia Anh

BPN Back Propagation Network Mang truyén nguoc

DT Decision Tree Cay quyét dinh

EG Exponential Gradient Gradient mt

EM Expectation Maximization Cực đại hĩa kỳ vọng

ID Information Gain Độ lợi thơng tin

Information Retrieval Độ tương tự trích xuất thơng

IRS Similarity tin

Java API for RESTful Web Giao diện lập trình ứng dụng

JAX-RS Services Java cho dich vu Web REST

JSON Javascript Object Notion

KLS Kullback—Leibler Similarity Do tuong tu Kullback—Leibler National Institute of Standards | Vién Tiéu chuan va Cong nghé

NIST and Technology Quốc gia (Hoa Kỳ)

PAKDD Discovery and Data Mining — Pacific Asia Knowledge

Hội nghị về Phát hiện tri thức và Khai phá dữ liệu Châu Á -

Trang 11

REST Representational State Transfer Sequential minimal

SMO optimization Tối ưu hĩa tối thiểu tuần tự Giao thức truy cập đối tượng

SOAP Simple Object Access Protocol don gian

SVM Support Vector Machine Máy véc tơ hỗ trợ

TMDT Thương mại điện tử

TREC Text Retrieval Conference Hội nghị về rút trích thong tin XML, eXtensible Markup Language Ngơn ngữ đánh dẫu mở rộng

Trang 12

động lớn đến nhiều mặt trong xã hội Chỉ với một thiết bị được kết nối đến mạng

Internet, người dùng cĩ thể dễ dàng sử dụng các kênh trao đổi thơng tin như

website, email, diễn đàn, mạng xã hội, hoặc các dịch vụ khác như tìm kiếm thơng

tin, thương mại điện tử (TMĐT) v.v Một đặc điểm chung của các hệ thống này là khơng bắt buộc người dùng cung cấp chính xác thơng tin cá nhân khi sử dụng Việc này nhằm khuyến khích và tạo thuận lợi cho người dùng trong quá trình sử dụng, tuy nhiên cũng tạo ra một số vẫn đề Thứ nhất, người dùng cĩ thể sử dụng các kênh

trao đơi thơng tin một cách nặc danh hoặc giả mạo, với mục đích xấu Thứ hai, việc

thiếu thơng tin cá nhân người dùng làm cho các nhà cung cấp dịch vụ trên Internet gặp khĩ khăn trong việc cá nhân hĩa hệ thơng nham tăng trải nghiệm cho người

dùng, thúc đây bán hàng, hoặc thực hiện các hoạt động quảng cáo trực tuyến hiệu

quả hơn

Luận án này thực hiện nghiên cứu về vẫn đề xác định các đặc điểm của người

dùng dựa trên phân tích văn bản do người dùng tạo ra hoặc dựa trên phân tích hành vi người dùng thực hiện trên hệ thống bằng các phương pháp học máy

Các nội dung tiếp theo của phan nay bao gém: Phan 1.1 trinh bày lý do lựa chọn đề tài Phần 1.2 và 1.3 nêu các mục tiêu và đĩng gĩp của luận án Nội dung

của phan 1.4 là bố cục của tồn bộ luận án

1 LY DOLUA CHON DE TAI

Xác định đặc điểm người dùng là một trong những mối quan tâm hang dau của

các nhà cung cấp dịch vụ trên mạng Internet Đặc biệt, trong bối cảnh xu hướng cá

nhân hĩa các hệ thống cho phù hợp với từng cá nhân người dùng, việc cĩ được các thơng tin về đặc điểm cá nhân của người dùng như giới tính, độ tuổi, nghề nghiệp,

v.v giup cho cac hé thống cĩ thể được tối ưu hĩa theo các đặc điểm tương ứng hoặc

Trang 13

thống, việc dựa vào các thơng tin này để dự đốn các đặc điểm của tội phạm sẽ giúp

khoanh vùng, thu hẹp phạm vi xác định tội phạm, thậm chí trong nhiều trường hợp cĩ thể xác định đích danh tội phạm nếu danh sách nghi phạm là biết trước và cĩ sự

phân biệt

Khĩ khăn lớn nhất của các nhà cung cấp dịch vụ trên mạng Internet cũng như các nhà quản lý là đa phần người dùng khơng cung cấp hoặc cung cấp khơng đây đủ và khơng chính xác các thơng tin cá nhân khi sử dụng các hệ thống trực tuyến Điều này nhằm bảo vệ tính riêng tư và an tồn thơng tin của người dùng trước các tấn cơng mạng ngày càng phố biến Vì vậy, phương pháp khả dĩ nhất để cĩ được thơng tin cá cá nhân người dùng là dự đốn từ các “dấu vết” người dùng để lại trên hệ

thống như các bản tin được tạo ra, hay các hành vi người dùng thực hiện trên hệ

thống

Kỹ thuật phân tích tác giả văn bản đã được nghiên cứu từ cách đây hàng thập ký, khởi đầu là trên các loại văn bản chính thống và cĩ độ dài lớn như sách, tạp chí, bài báo, v.v và tập trung vào vẫn để xác minh đích danh tác giả văn bản trong một danh sách tác giả đã được xác định trước (kỹ thuật này cịn gọi là xác định tác giả văn bản, authorship attribution, sẽ được trình bày kỹ hơn ở chương sau) Gần đây,

do sự pho biến của các loại văn bản trực tuyến, van dé phan tich tac gia van ban duoc thuc hién nhiéu hon trén loai van ban này và tập trung vào xác định các đặc

Trang 14

làm cơng việc này Các nghiên cứu phơ biễn trong lĩnh vực này được thực hiện trên các hệ thơng như website thơng tin, hệ thống mạng di động, v.v

Luận án này thực hiện các nghiên cứu trên cả hai lĩnh vực: xác định đặc điểm

tác giả văn bản và xác định đặc điểm người dùng dựa trên hành vi Các nghiên cứu

về xác định đặc điểm tác giả văn bản được thực hiện trên các văn bản tiếng Việt là

loại ngơn ngữ chưa được nghiên cứu nhiều Các nghiên cứu về xác định đặc điểm

người dùng dựa trên hành vi được thực hiện trên dữ liệu của hệ thống thương mại

điện tử Đây là hệ thơng cĩ khả năng áp dụng cao kết quả nghiên cứu do đặc thù bán hàng trực tuyến và theo khảo sát của chúng tơi thì chưa cĩ nghiên cứu nào trước đây về xác định đặc điểm người dùng được thực hiện trên loại hệ thống này

2 MỤC TIỂU CỦA LUẬN ÁN

Dựa trên nhu câu thực tiễn và các kết quả nghiên cứu trước đây ở trong nước và quốc tế, luận án đặt ra các mục tiêu chính như sau:

- - Nghiên cứu vẫn đề xác định đặc điểm tác giả văn bản trên loại văn bản

mới, chưa được nghiên cứu trước đây Cụ thể là trên các bài viết diễn đàn

tiếng Việt Thực nghiệm các loại đặc trưng và các phương pháp phân loại để chọn ra các đặc trưng và phương pháp phân loại phù hợp

- - Nghiên cứu các phương pháp trích chọn đặc trưng mới cho vẫn dé xác định đặc điểm tác giả văn bản, nhằm tăng độ chính xác hoặc tính độc lập trong quá trình nhận diện Các phương pháp trích chọn mới cĩ thể tận dụng các đặc điểm đặc thù của ngơn ngữ tiếng Việt để áp dụng trên các văn bản đồng ngơn ngữ Tuy nhiên, cũng cĩ khả năng áp dụng sang các loại ngơn ngữ khác

Trang 15

3 PHẠM VI NGHIÊN CỨU

Xác định đặc điểm người dùng là một lĩnh vực rộng trên cả khía cạnh loại

người dùng và đặc điểm người dùng Luận án xác định các đối tượng người dùng trong các nghiên cứu là người dùng trên mạng Internet (là người dùng của các hệ

thống pho bién trén Internet nhu website, email, dién dan, hé thống TMDT v.v) Do

tính mở của mang Internet va dé bao đảm tính riêng tư, người dùng thường ít tiết lộ

đặc điểm cá nhân khi sử dụng và việc xác định đặc điểm người dùng cĩ ý nghĩa

quan trọng như đã trình bày ở trên

Đối với nghiên cứu xác định đặc điểm người dùng dựa trên phân tích văn bản, hiện cĩ nhiều loại văn bản trên nhiều ngơn ngữ đã được các nhà khoa học trên thế giới nghiên cứu, trong đĩ, các nghiên cứu mới nhất tập trung vào các loại văn bản trực tuyến như thư điện tử (email), nhật ký trực tuyến (blog), bài viết mạng xã hội

(social network) Luận án này thực hiện các nghiên cứu về xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt Đây là một loại văn bản chưa được nghiên cứu nhiều, đặc biệt trong ngơn ngữ tiếng Việt Các đặc điểm nhận diện bao gồm giới tính, độ tuơi, nghề nghiệp, và vùng miễn

Xác định đặc điểm người dùng dựa trên phân tích hành vi cũng là một lĩnh vực nghiên cứu được quan tâm những năm gần đây Tuy nhiên, do cĩ sự hạn chế trong vấn đề thu thập dữ liệu mẫu (dữ liệu về hành vi người dùng thường lưu trữ trên máy

chủ của các hệ thống và khơng thể tự động thu thập được các dữ liệu này nếu khơng

cĩ sự cho phép của đơn vị quản lý hệ thống), luận án này chỉ thực hiện nghiên cứu về dự đốn đặc điểm giới tính của khách hàng dựa trên dữ liệu truy cập hệ thống

TMĐT

4 CÁC ĐĨNG GĨP CỦA LUẬN ÁN

Trang 16

5

Nghiên cứu việc ứng dụng các loại đặc trưng và phương pháp nhận diện khác nhau, trong đĩ tập trung phân tích sâu về các đặc trưng dựa trên nội dung, cho van đề xác định đặc điểm tác giải bài viễn diễn đàn tiếng Việt

Trước đây, đã cĩ một số cơng trình nghiên cứu việc sử dụng các từ nội

dung cho việc xác định đặc điểm tác giả văn bản, nhưng chưa cĩ các phân

tích sâu Đặc biệt, chưa cĩ nghiên cứu nảo thực hiện trên ngơn ngữ tiếng

Việt

Đề xuất một loại đặc trưng mới cho việc xác định đặc điểm tác gia bai viết diễn đàn tiếng Việt Các đặc trưng mới giúp cho việc nhận diện cĩ độ

chính xác cao hơn các đặc trưng cơ bản (dựa trên phong cách), cĩ tính độc lập hơn so với các đặc trưng nội dung, và khi kết hợp với các đặc trưng phong cách hoặc nội dung thì cho kết quả cao hơn Đây là các đặc trưng

dựa trên đặc thù tiếng Việt như vần và âm tiết, tuy nhiên cũng cĩ thé mở

rộng áp dụng sang các ngơn ngữ khác và các loại văn bản khác

Đĩng gĩp trong lĩnh vực xác định đặc điểm người dùng dựa trên hành vi: Nghiên cứu vẫn đề dự đốn giới tính khách hàng dựa trên dữ liệu lịch sử

truy cập hệ TMĐÍT Mặc dù các hệ thống TMĐT là các hệ thống được sử

dụng rộng rãi trên Internet và cĩ khả năng ứng dụng cao nhưng hiện chưa

cĩ nghiên cứu thực sự nào về dự đốn đặc điểm khách hàng dựa trên hành

vi trên loại hệ thống này Luận án nghiên cứu các phương pháp trích chọn đặc trưng và phân loại hiệu quả, trong đĩ đề xuất phương pháp trích chọn đặc trưng sử dụng biểu diễn dạng cây của danh sách sản phẩm va phân

loại

BO CUC CUA LUAN AN

Trang 17

người dùng dựa trên hanh vi

Chương 2 trình bày về vấn đề xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt, bao gơm phương pháp tiếp cận và các kết quả thực nghiệm Trong chương này, các kết quả nghiên cứu chính trong lĩnh vực xác định đặc điểm tác giả văn bản tiếng Việt sử dụng các kỹ thuật học máy được trình bày Đĩ là các nghiên cứu về sử dụng các đặc trưng cơ bản dựa trên phong cách, nghiên cứu và phân tích việc sử

dụng các đặc trưng dựa trên nội dung và nghiên cứu, đề xuất sử dụng các đặc trưng

dựa trên các âm tiết và vần trong tiếng Việt Các kết quả trình bày trong chương

được thê hiện qua các cơng bố khoa học [I 2 4 5 7]

Chương 3 mơ tả các kết quả nghiên cứu về dự đốn giới tính khách hàng dựa trên dữ liệu lịch sử truy cập hệ TMĐT Chương này đề xuất hai phương án tiếp cận cho việc giải quyết vẫn đề như đã nĩi ở trên Hai phương pháp tiếp cận này đều cĩ ưu điểm là cĩ tính tổng quát và cĩ thể dễ dàng ứng dụng cho các hệ thống khác, đồng thời cĩ tốc độ thực hiện nhanh Kết quả của các phương pháp này được thể

hiện qua các cơng bố khoa học [3, 6] Phần cuối của luận án trình bày các kết luận

và hướng nghiên cứu tiếp theo

Trang 18

Chương này trình bày nghiên cứu khảo sát về xác định đặc điểm người dùng, bao gồm xác định đặc điểm người dùng dựa trên phân tích văn bản và dựa trên phân tích hành vi Các nghiên cứu mới nhất trong hai lĩnh vực trên sẽ được nghiên cứu và đánh giá, trong đĩ tập trung vào hai vẫn đề là các đặc trưng nhận diện và kỹ thuật phân tích Bố cục của chương như sau: Phần 1.1 trình bày các khảo sát và đánh giá về các cơng trình nghiên cứu trong lĩnh vực phân tích tác giả văn bản Phần 1.2

trình bày các khảo sát về lĩnh vực dự đốn đặc điểm người dùng dựa trên hành vi

Phan 1.3 trình bày về cơng cụ thực nghiệm WEKA Cuối cùng, phần 1.4 nêu các vân đề cịn tơn tại và cân được nghiên cứu giải quyết

1.1 XÁC ĐỊNH DAC DIEM NGUOI DUNG THONG QUA PHAN TICH VAN BAN

1.1.1 Giới thiệu

Phân tích tác giả văn bản là quá trình phân tích một tài liệu để cĩ thể đưa ra các kết luận về tác giả của nĩ Việc phân tích tác giả văn bản là cần thiết trong trường hợp cĩ các tài liệu khơng rõ tác giả và cần phải phân tích để chỉ ra tác giả

hoặc chỉ ra các đặc điểm của tác giả Trước đây, việc phân tích tác giả được áp dụng

chủ yếu cho các tác phẩm văn học như sách báo Tuy nhiên, trong những năm gần đây sự phát triển của Internet và các kênh trao đổi thơng tin trực tuyến đã hình

thành nên nhiều loại văn bản điện tử với số lượng lớn như email, blogs, diễn dan

v.v., trong đĩ cĩ rất nhiều bài viết khơng rõ tác giả (do vơ tình hoặc cĩ ý) Trong

nhiều trường hợp việc xác định ra các đặc điểm hoặc phát hiện ra tác giả của các

bài viết, nhận xét, bình luận vơ danh là rất cần thiết, phục vụ cho nhiều mục đích

Trang 19

e Lĩnh vực phát triển sản phẩm: Hỗ trợ cho các tổ chức/doanh nghiệp trong

việc xác định đặc điểm của những người thích hoặc khơng thích sản phẩm/dịch vụ của họ thơng qua việc xác định tác giả của các bình luận/đánh giá tích cực hoặc tiêu cực

e Linh vực tịa án, điều tra tội phạm: Hỗ trợ cho cơng tác phân xử hoặc phán xét các tranh chấp thơng qua việc chứng minh một văn bản nào đĩ là do một người tạo ra hoặc khơng phải do một người tạo ra

Ngồi ra, việc xác định được tác giả của các văn bản cũng giúp ích trong một số lĩnh vực quan trọng khác như xác định những tội phạm gửi thơng tin nặc danh

hoặc giúp phát hiện ra việc sao chép trái phép tài liệu hoặc văn bản

Theo Zheng et al [118], lĩnh vực nghiên cứu về phân tích tác giả văn bản cĩ thể chia làm các dạng thức như sau:

e Nhận diện tác giả: Là việc xác định xem một người cĩ phải là tác gia cua mot

văn bản khơng thơng qua việc phân tích các văn bản khác do người đĩ tạo ra e_ Xác định đặc điểm tác giả: Là việc chỉ ra các đặc điểm của người đã tạo ra

một văn bản cho trước Các đặc điểm này cĩ thể là về đặc điểm cá nhân, tính cách, trình độ v.v

e Phát hiện văn bản cùng tác giả (phát hiện sao chép): Là việc so sánh hai hoặc nhiều văn bản xem cĩ phải chúng được tạo ra bởi cùng một tác giả hay khơng

Quá trình phân tích tác giả văn bản liên quan đến hai vấn đẻ chính, đĩ là kỹ thuật phân tích và tập đặc trưng phân biệt

Trang 20

phép thực hiện phân tích đa biến theo thống kê dựa trên tần suất các từ và các đặc trưng số khác Mặc dù các phương pháp này đã đạt được những kết quả khá tốt trong thời gian đầu, nhưng vẫn cịn tơn tại những hạn chế, như khả năng xử lý số lượng lớn các đặc điểm hay sự ồn định trên nhiều lĩnh vực Đề giải quyết các vẫn dé này, các kỹ thuật học máy đã được nghiên cứu áp dụng Sự phát triển của các máy tính tốc độ cao đã cho phép các nhà nghiên cứu thực hiện các thực nghiệm phân tích trên các thuật tốn học máy phức tạp trên các tập đặc trưng lớn Nhiều nghiên cứu

về phân tích tác giả văn bản dựa trên các kỹ thuật học máy đã cho ra kết quả tốt,

điển hình là các thuật tốn như máy véc tơ hỗ trợ (SVM - Support Vector Machine), mạng Bayes (Bayesian Networks), hay cây quyết định (Decision Trees) Nhìn chung, các phương pháp phân tích dựa trên học máy đã cĩ những ưu điểm hơn so với các phương pháp trước đây và các thực nghiệm đã cho thấy kết quả tốt hơn [58] Tập đặc trưng cĩ thể được xem như một phương pháp biểu diễn văn bản trên

khía cạnh phong cách viết hoặc cách sử dụng từ Với một tập đặc trưng được lựa chọn, một văn bản cĩ thé được biểu diễn bởi một véc tơ đặc trưng, trong đĩ mỗi thành phan biểu thị tần suất của mỗi đặc trưng trong văn bản hoặc một giá tri biểu thị tính chất đặc thù của văn bản đĩ [ŠŠ] Đã cĩ nhiều tập đặc trưng được thử

nghiệm, tuy nhiên khơng cĩ tập đặc trưng nảo là tốt nhất trong mọi trường hợp

Theo Argamon et al [11], cĩ hai loại đặc trưng chính được sử dụng trong phân tích

tác giả văn bản: đặc trưng về phong cách và đặc trưng dựa trên nội dung Đặc trưng về phong cách bao gồm các đặc trưng liên quan đến cách dùng ký tự, các tính chất tir (lexical), cach str dung các cấu trúc ngữ pháp (syntactic), và các đặc trưng về cầu trúc văn bản Đặc trưng dựa trên nội dung bao gồm các từ nhất định hoặc các nội dung đặc biệt được sử dụng thường xuyên trong lĩnh vực đĩ hơn là các lĩnh vực khác Các từ này cĩ thể được chọn theo phương pháp so sánh ngữ nghĩa hoặc trích

Trang 21

1.1.2 Đặc điểm của văn bản trực tuyến

Văn bản trực tuyén (online documents) hay van ban dién tt (electronic documents) 1a cac tai liệu viết được trao đổi giữa những người dùng trên mạng

Internet Phương thức trao đổi các tài liệu này cĩ thể là đồng bộ như chat hoặc bất đồng bộ như thư điện tử, diễn đàn Việc phân tích tác giả của các tài liệu trực tuyến

cĩ nhiều thách thức hơn so với các loại văn bản truyền thống do đặc điểm về cấu

tạo và độ dài văn bản [106] Theo Foertsch (như trích dẫn trong [47]) tài liệu trực

tuyến khơng phải tài liệu viết đơn thuần cũng khơng phải tài liệu nĩi đơn thuần mà là một loại tải liệu năm ở giữa hai loại tài liệu trên

Các loại tài liệu truyền thống như sách, báo, bài luận v.v là những loại tài liệu chứa nhiều thơng tin hữu ích để phân tích văn phong của tác giả do chúng cĩ độ dài lớn (vài trăm từ cho tới hàng trăm trang) Ngồi ra, các loại tài liệu này thường được cấu trúc tốt và được viết theo đúng các quy tắc ngữ pháp và cú pháp Đã cĩ nhiều nghiên cứu thành cơng trong việc phân tích tác giả của các loại tài liệu này

Các tài liệu trực tuyến thường cĩ độ dài ngắn (vài chục đến vài trăm từ), và thường được viết theo phong cách tự do, ít theo các quy tắc ngữ pháp và cú pháp chính thống Do đĩ, việc phân tích các thĩi quen trong việc viết các tài liệu này của các tác giả là khĩ khăn hơn nhiều Ledger và Merriam (như trích dẫn trong [47]) cho rằng việc phân tích tác giả của các tài liệu cĩ độ dài <500 trang là khĩ khả thi

Ngồi ra, các tài liệu trực tuyến là các tài liệu tương tác, thường được viết nhăm

Trang 22

đặc điểm tác giả [106]

1.1.3 Các dạng thức trong phân tích tac gia van ban

1.1.3.1 Nhận diện tác giả

Nhận diện tác giả (authorship attribution) liên quan đến việc xác định một văn bản cĩ phải được tạo ra bởi một tác giả cụ thể hay khơng hoặc xác định ai trong số

một tập hữu hạn tác giả là người đã tạo ra một văn bản cho trước (do vậy, kỹ thuật

này cịn được gọi là xác định tác giả) Nghiên cứu đầu tiên về nhận diện tác giả

được thực hiện từ thế kỷ thứ 19 khi Mendenhall [75] phân tích các vở kịch của

Shakespeare Tuy nhiên, cơng trình nghiên cứu được xem là thấu đáo nhất trong

lĩnh vực này được thực hiện bởi Mosteller và Wallace [76] trong đĩ hai ơng đã

phân tích và xác định tác giả của Luận cương Liên bang (Federalist Papers)

Cho đến nay, đã cĩ thêm nhiều cơng trình nghiên cứu vẻ lĩnh vực này, áp dụng trên nhiều loại văn bản và ứng dụng trong nhiều lĩnh vực khác nhau Đồng thời, cĩ nhiều loại đặc trưng và phương pháp đã được các nhà nghiên cứu thử nghiệm De

Ve[l [107] đã nghiên cứu việc nhận diện tác giả của email, sử dụng các đặc trưng về cầu trúc và ngơn ngữ, dùng thuật tốn SVM Dữ liệu sử dụng trong nghiên cứu là

274 email của năm tác giả 38 đặc trưng được sử dụng, gồm các đặc trưng về cấu trúc, đặc trưng về từ vựng, ngữ pháp, và việc sử dụng các từ chức năng (24 từ)

Thuật tốn SVM được sử dụng dé huan luyén trén 192 email (70%) va kiém tra trén 80 email con lai Két quả đạt được cĩ độ chính xác từ 71.7% dén 85.7% Koppel et

Trang 23

nĩ làm đặc trưng), đặc trưng về phong cách riêng (ngữ pháp, định dạng, lỗi tổng cộng 99 đặc trưng phong cách riêng) Kỹ thuật phần loại sử dụng SVM với hàm nhân tuyến tính và cây quyết định C4.5 với kết quả tương ứng cĩ độ chính xác 60% va 79%

Zhao va Zhobel [116] nghiên cứu và thử nghiệm một số phương pháp nhận

diện tác giả để so sánh bốn kỹ thuật được sử dụng là bộ phân loại Bayes đơn giản

(Nạve Bayes), mạng Bayes (Bayesian Networks), k láng giềng gần nhất (k-Nearest Neighbours), và cây quyết định (Decision Trees) Các đặc trưng được sử dụng để phân biệt là các từ chức năng như “the”, “once” v.v (365 từ) Dữ liệu sử dụng trong thực nghiệm là các bài báo từ kho ngữ liệu TREC (Text Retrieval Conference — Hội nghị về rút trích thơng tin) Kết quả cho thấy phương pháp Bayesian Networks hiệu quả nhất với khoảng hơn 90% cịn Decision Trees cĩ kết quả kém nhất Zheng et al

[117] đã thực hiện một nghiên cứu về việc nhận điện tác giả của các tin trực tuyến

(lẫy từ các nhĩm tin - newsgroup) Các đặc trưng mà Zheng sử dụng thuộc bốn loại là từ vựng, ngữ pháp, cấu trúc và đặc trưng nội dung Ba phương pháp nhận diện được thực nghiệm là cây quyết định, mạng nơ ron truyền ngược (Back Propagation

Network), va SVM Hé thong đã được thực nghiệm trên các bản tin tiếng Anh và

tiếng Trung với kết quả nhận diện chính xác từ 70-95%, trong đĩ SVM là thuật tốn cho kết quả tốt nhất

Stamatatos [99] nghiên cứu việc áp dụng kỹ thuật học máy để khai thác các thơng tin cấp thấp đa chiều và khơng phụ thuộc ngơn ngữ để cải tiễn việc nhận diện

tác giả, qua đĩ cĩ thể xử lý được cả các văn bản thực cĩ độ dài ngắn và tạo bởi

nhiều tác giả Để xử lý khơng gian đặc trưng đa chiều, Stamatatos sử dụng các thuật tốn học máy cĩ khả năng giải quyết vẫn đề này (SVM) và sử dụng phương pháp

Trang 24

phong tác giả (đây cũng là những đặc trưng khơng phụ thuộc ngơn ngữ)

Luận án tiễn sy cua Iqbal [47] được thực hiện với các mục tiêu phân tích văn

ban để rút trích ra các mẫu đặc trưng của tác giả nhằm giải quyết các vấn dé nhận diện, xác định đặc điểm, hay xác minh tác giả, nhờ đĩ cĩ thể khai phá các dữ liệu về

tội phạm để rút ra các thơng tin phục vụ việc điều tra tội phạm mạng Để nhận diện tac gia van ban, Iqbal su dung kỹ thuật rút trích ra một loại “vân chữ viết

(writeprint) của tác giả, dựa trên một khái niệm mẫu thường gap (frequent patterns) trong khai phá dữ liệu Vân chữ viết này khi được rút trích cĩ thể áp dụng trong hầu hết các trường hợp phân tích tác giả văn bản (cả ba loại) và áp dụng trên nhiều loại văn bản khác nhau (kế cả các loại văn bản điện tử ngắn như blogs, forum, emails ) Vân này được Iqbal tạo ra bằng cách kết hợp nhiều đặc trưng của văn bản bao gồm từ vựng, ngữ pháp, cấu trúc, và đặc trưng nội dung, dựa trên phương pháp rút trích mẫu thường gặp như đã nĩi ở trên Theo Iqbal, vân chữ viết này cĩ thể chưa

phân biệt được tất cả các tác giả khác nhau, nhưng cĩ thé nhận diện được tác giả

trong một tập đĩng (hữu hạn) vì các mẫu chung giữa những tác giả này đã bị loại bỏ trong quá trình rút trích Kỹ thuật này đã được thực nghiệm trên tập dữ liệu gồm

hơn 200.000 email cua 158 tac gia Số đặc trưng được sử dụng để tạo vân là 285,

trong đĩ cĩ 99 đặc trưng từ vựng, IŠ58 đặc trưng ngữ pháp (150 từ chức năng và § dấu chấm câu), 15 đặc trưng cấu trúc và 13 đặc trưng nội dung Kết quả nhận diện

cĩ độ chính xác 67%-899%% với loại vân I va 87%-89% voi loai van 2 cho thấy sự

thành cơng của kỹ thuật tạo vân

Savoy [95] dé xuất một kỹ thuật tính Z-score dựa trên các từ vựng đặc thủ của

văn bản Từ các Z-score của mỗi từ này, một khoảng cách giữa văn bản cần phân

tích và mẫu văn bản đại diện của tác giả sẽ được tính tốn Kỹ thuật này được thử

nghiệm trên hai tập dữ liệu tiếng Anh và tiếng Italia cho kết quả tốt (độ chính xác

Trang 25

các văn bản được tạo ra bởi người đĩ Kỹ thuật này khác với nhận diện tác giả ở trên đĩ là hồn tồn khơng cĩ thơng tin về tác giả của văn bản, và việc phân tích sẽ tạo ra một hồ sơ đặc điểm của người viết (profile) Do đĩ, kỹ thuật xác định đặc điểm tác giả thường áp dụng trên các văn bản trong trao đối trực tuyến hơn là các văn bản truyền thống trong lĩnh vực văn học, báo chí Vì lý do này, kỹ thuật này chỉ nhận được sự quan tâm của các nhà nghiên cứu từ những năm 1990s, khi ngày càng

xuất hiện nhiều dạng thức văn bản trực tuyến trên các kênh trao đổi qua mạng Internet Courney et al [23 | thực hiện một nghiên cứu về việc xác định giới tính tác gia email su dung thuật tốn SVM dé huấn luyén trén cac dac trung vé cau tric va

ngơn ngữ phân biệt giới tính Tổng số đặc trưng sử dụng là 222, trong đĩ cĩ 211 đặc trưng cơ sở (là các đặc trưng từ, ký tự và cấu trúc), cịn lại là các đặc trưng mang tính phân biệt giới tính (chăng hạn số các từ sorry, số các từ kết thúc băng able .) Kết quả thực nghiệm cho độ chính xác F1 gan 70% Argamon et al [10], [12] thực hiện các nghiên cứu về phân biệt giới tính của tác giả các bài viết trong kho ngữ liệu BNC (British National Corpus) Nghiên cứu này sử dụng các đặc trưng là các từ chức năng, các từ loại, các cặp ghép từ loại và phương pháp nhận diện là một cải tiễn của phương pháp Gradient mũ (Exponential Gradient) Kết quả cĩ độ chính xác khoảng 80% Koppel et al [60] cũng thực hiện các nghiên cứu về phân biệt ngơn ngữ gốc của người viết thơng qua sử dụng các đặc trưng về cách dùng từ, cấu trúc cú pháp, các lỗi ngữ pháp v.v cho kết quả tốt nhất đạt 80% với thuật tốn SVM

Một số nghiên cứu được thực hiện trên một loại văn bản trực tuyến khá phổ

biến là các bài viết blogs Điển hình là các nghiên cứu [33] [89] [97] [114] Các nghiên cứu này đều cĩ những thử nghiệm và cải tiễn về tập đặc trưng và cho các kết quả khả quan với độ chính xác khoảng 80% cho nhận diện giới tính và 77% cho

Trang 26

Phát hiện văn bản cùng tác giả khác với các dạng thức đã trình bày ở trên là

dạng thức này khơng quan tâm đến việc nhận diện hoặc xác định đặc điểm tác giả

mà thực hiện phân tích các văn bản để đưa ra kết luận các văn bản này cĩ phải do cùng một người viết hay khơng Kỹ thuật này cũng dùng để xác định xem một văn bản cĩ phải được viết bởi một tác giả cho trước khơng hay do sao chép từ một văn bản của tác giả khác Do đĩ, kỹ thuật này được ứng dụng nhiều trong việc phát hiện sao chép (dao van) Labbe et al [67] nghiên cứu việc phân đoạn một tập văn bản để

phân chia các đoạn hoặc các văn bản được viết bởi các tác giả khác nhau Kỹ thuật

phân đoạn sử dụng hai phương pháp kết hợp là phân tích sự phát triển của từ vựng và biến đổi về sự đa dạng của từ Theo các nghiên cứu trước đây, tốc độ phát triển từ vựng rất nhanh trong đoạn đầu một phân đoạn văn bản và giảm dân sau đĩ Labbe đã xây dựng nên các cơng thức để kết hợp biểu đồ phát triển từ vựng và sự đa dạng của từ vựng để phân chia các văn bản theo các phong cách khác nhau của các tác giả Novak et al [79] nghiên cứu việc phân tích và nhận diện ra những người dùng sử dụng nhiều tên đại diện khác nhau trong các trao đối thơng tin trên các hệ thống trực tuyến Trong nghiên cứu nảy, tác giả tập trung vào việc nhận diện các bài viết của cùng một tác giả trên diễn đàn trao đồi trực tuyến, bao gồm các tác giả cĩ dùng các tên khác nhau vì nhiều lý do Nghiên cứu cũng sử dụng một tập đặc trưng phân biệt và xây dựng một phép đo sự giống nhau của các văn bản thơng qua học máy và lý thuyết thơng tin Thuật tốn tính độ giống nhau giữa hai văn bản là thuật tốn IRS (Information Retrieval Similarity — Sự tương đồng về rút trích thơng tin) và KLS (Kullback - Leibler Similarity - Sự tương đồng Kullback - Leibler) Kết quả cho thấy việc sử dụng KLS với tập đặc trưng chỉ bao gồm từ vựng cho kết quả tốt nhất lên tới gần 90%, trong khi sử dụng tập đặc trưng đầy đủ lại cho kết quả thấp hơn nhiều Koppel et al [59] nghiên cứu và đề xuất một phương pháp dựa trên

Trang 27

phương pháp là đánh giá sự suy giảm độ chính xác của mơ hình khi loại bỏ dẫn các đặc trưng quan trọng Văn bản mẫu dùng trong thực nghiệm lấy từ các cuốn sách từ

thế kỷ 19 trên nhiều thê loại của 10 tác giả khác nhau Thuật tốn phân loại là SVM

cùng với tập đặc trưng là các các từ cĩ tần suất cao nhất, tác giả áp dụng phương pháp loại bỏ dần các đặc trưng như đã nĩi ở trên và tiễn hành các thực nghiệm với nhiều tập con đặc trưng khác nhau, cho kết quả cĩ độ chính xác từ 80% đến 91%

Abbasi và Chen [4] cũng đề xuất một kỹ thuật tạo “vân chữ viết” để nhận diện tác giả văn bản Vân này được tạo trên một tập đa dạng các đặc trưng như từ vựng,

cấu trúc, ngữ pháp, nội dung, phong cách và sử dụng các thuật tốn cửa số trượt (sliding window) và phá mẫu (pattern disruption) Kỹ thuật tạo vân này được thử

nghiệm trên bốn tập dữ liệu giao dịch trực tuyến bao gdm email, chat, cac binh luan,

và mã nguồn chương trình với độ chính xác trung bình khoảng 94% khi phân biệt trong tap 100 tac giả

Nghiên cứu cua Iqbal et al [48] thuc hién viéc xac minh tac gia cua cac email

và dé xuất một phương pháp cho việc này dựa trên phương pháp về việc đánh giá

việc nhận diện người nĩi được phát triển bởi NIST (đã được chứng minh là thành

cơng trong lĩnh vực xử lý tiếng nĩi) Tập đặc trưng được lựa chon bao gồm 292 đặc

trưng, được chia làm ba loại: đặc trưng số như tần suất của một số ký tự dấu cham

câu v.v, đặc trưng logic chăng hạn email cĩ tệp đính kèm khơng hoặc cĩ phải là

email trả lời hay khơng v.v, và các đặc trưng được tính tốn từ đầu vào là các hàm

từ vựng như mức độ phong phú của từ v.v Việc xác minh được thực hiện thơng qua các kỹ thuật phân loại (dùng các thuật tốn phân loại như Adaboost, Discriminative Multinominal Nạve Bayes, Bayesian Networks) và các kỹ thuật hồi quy (như hồi quy tuyến tính, hồi quy SVM) Kết quả thực nghiệm cĩ độ sai lệch là khoảng 17% 1.1.3.4 Nhận xét và đánh giá

Trang 28

quyền sở hữu, phát hiện sao chép các tác phẩm, các tài liệu, bài báo cĩ độ dài lớn và

được viết theo phong cách chính thống Trong khi đĩ, dạng thức xác định đặc điểm tác giả ứng dụng trên các loại văn bản ngắn, khơng chính thống, và cĩ tác giả khơng xác định Do vậy, các ứng dụng của dạng thức này cũng khác biệt so với nhận diện tác giả (chủ yếu trong lĩnh vực quảng cáo trực tuyến, hỗ trợ điều tra tội phạm mạng v.v) Đây cũng là dạng thức được nghiên cứu nhiều trong thời gian gần đây do sự bùng nỗ của các văn bản trực tuyến trên mạng Internet Mac dù các nghiên cứu trước đây thuộc dạng thức này đã khai thác khá nhiều các loại văn bản trực tuyến

như email, blogs, bản tin v.v nhưng cịn rất nhiều loại văn bản chưa được khai thác nhiều như các bài viết dién dan, mạng xã hội v.v Luận án này thực hiện nghiên cứu dạng thức xác định đặc điểm tác giả trên loại văn bản và ngơn ngữ cịn chưa được

nghiên cứu nhiều là bài viết diễn đàn tiếng Việt 1.1.4 Các kỹ thuật phân tích

1.1.4.1 Phương pháp bất biến đơn nhất

Cơng trình được xem là nghiên cứu đầu tiên trong lĩnh vực phân tích tác giả văn bản là nghiên cứu của Mendenhall vào cuối thế kỷ 19 (1887) [75] trong đĩ ơng

phân tích nhận diện tác giả cho các vở kịch được viết bởi Bacon, Marlowe, và

Shakespeare Ý tưởng của phương pháp được áp dụng trong nghiên cứu là tác phẩm của mỗi tác giả cĩ thể được biểu diễn bởi một đường cong khác biệt biểu thị mối quan hệ giữa độ dài từ và tân suất xuất hiện của từ Đường cong đặc trưng này cĩ thê được sử dụng làm cơ sở để nhận diện tác giả của các tài liệu khác Kết quả của nghiên cứu ban đâu này đã tạo nền tảng cho các nghiên cứu khác vào dau thé ky 20

theo phương pháp bất biến đơn nhất Sự tồn tại của các đặc trưng bất biến như vậy

cho thấy khả năng cĩ thể tìm thấy một đặc trưng liên quan mà cĩ tính chất bất biến cho bất kỳ tác giả nào, mặc dù chúng nĩ thể thay đổi giữa các tác giả khác nhau Các nghiên cứu sau đĩ tiếp tục tìm kiếm và đề xuất các đặc trưng được sử dụng như

một dấu hiệu nhận biết tác giả, tuy nhiên hầu hết đều chưa chứng minh được sự ồn

Trang 29

1.1.4.2 Phương pháp phân tích đa biến

Nghiên cứu của Mosteller và Wallace (1964) [76] về tác giả của Luận cương Liên bang (Federalist Papers) mở đầu cho một phương pháp mới về phân tích tác giả văn bản, dựa trên các thơng tin kết hợp từ nhiều khía cạnh khác nhau của văn bản Mostella và Wallace áp dụng phương pháp phân loại Nạve Bayes, sử dụng các đặc trưng là tần suất của một tập các từ chức năng (là các từ cĩ chức năng ngữ pháp nhu the, of abou¿ v.v) Nghiên cứu đã cho thấy các kết quả đáng tin cậy và mở ra một giai đoạn mới cho kỹ thuật phân tích tác giả văn bản dựa trên các đặc trưng văn bản và kỹ thuật xây dựng mơ hình mới

Ý tưởng cơ bản của phương pháp này là tìm cách biểu diễn các tài liệu như các điểm trong một khơng gian nào đĩ Sau đĩ, với tài liệu mới cần phân tích, gán nĩ

cho tác giả cĩ các tài liệu được xem là “sản” tài liệu mới nhất theo một độ đo

khoảng cách phù hợp nào đĩ Phương pháp này đem lại hiệu quả khá tốt, do vậy nĩ tiếp tục được sử dụng trong các nghiên cứu gần đây và được thử nghiệm trên các độ đo và tập đặc trưng khác nhau Điển hình là các phương pháp như Delta của Burrows [I8 | và sau đĩ được mở rộng thêm qua các nghiên cứu khác như [19|, [42] [43] hay phương pháp so sánh xác xuất gần đúng dựa trên phân phối Laplace của

các từ cĩ tần suất cao [9], [102] Ngồi ra, một số hàm đo độ tương tự khác cũng được nghiên cứu sử dụng làm độ đo phân biệt các tác giả dựa trên các tập đặc trưng

khác nhau [20], [37], [53], [101]

Một loại kỹ thuật khác được nghiên cứu bởi Burrows (như trích dẫn trong

Trang 30

1.1.4.3 Phuong phap hoc may

Hoc may là kỹ thuật cĩ nhiều ưu điểm trong việc phân tích tác giả văn bản và được sử dụng trong hầu hết các nghiên cứu gần đây trong lĩnh vực này Sử dụng học

máy, các văn bản mẫu sẽ được biểu diễn thành các véc tơ đặc trưng được gán nhãn và các thuật tốn học máy sẽ được sử dụng để xây dựng mơ hình phân loại, cho

phép định ra ranh giới giữa các lớp phân loại (các tác giả hoặc các đặc điểm tác

giả) Cĩ nhiều thuật tốn học máy được thử nghiệm, trong đĩ thuật tốn SVM được

sử dụng nhiều nhất và được chứng minh cho kết quả tốt nhất trong nhiễu trường

hợp Nhiều nghiên cứu đã thử nghiệm thuật tốn SVM trên các tập đặc trưng khác

nhau và đều cho kết quả tốt như nghiên cứu của De Vel [107] nhận diện tác giả email cho kết quả cĩ độ chính xác 85.7%; Corney et al [23] phân tích xác định giới

tính tác giả email độ chính xác 70%; Zheng [118] thực hiện nghiên cứu nhận diện

tác giả email và nhĩm tin tiếng Anh + tiếng Trung; Zhao va Zobel [116] cai tiến các phương pháp phân tích tác giả để áp dụng cho việc nhận diện tác giả các bản tin trực tuyến trên các diễn đàn tiếng Anh và tiếng Ả rập của các nhĩm cực đoan đạt kết quả hơn 90% khi dung SVM; Koppel et al [60] sử dụng SVM để xác định ngơn ngữ gốc của tác giả các bài luận tiếng Anh đạt kết quả cĩ độ chính xác 80%; Koppel et al [59] đề xuất phương pháp so sánh độ sâu về khác biệt đặc trưng dựa trên thuật toan co so la SVM; Zhang va Zhang [114] va Pham et al [89] nghién cứu nhận diện đặc điểm người viết blogs dùng SVM; Peersman et al [84] sử dụng SVM để dự đốn giới tính và tuơi của các tác giả bài viết trên mạng xã hội của Bỉ với độ chính

xác lên tới 88%; Rangel et al [93] nghiên cứu việc sử dụng SVM dé nhận diện giới

tính và tác giả của nhiều loại văn bản trực tuyến khác nhau như blogs, bài viết mạng xã hội, đánh giá sản phẩm v.v

Trang 31

phong cách; Argamon et al [11] st’ dung phương pháp học máy hồi quy đa thức dựa trên xác suất Bayesian Multinomial Regression (BMR) để nhận diện đặc điểm

tác giả bài viết blogs cho kết quả cĩ độ chính xác 76% ở giới tính và 77% ở độ tuổi:

Iqbal [47] sử dụng kỹ thuật tạo vân chữ viết dựa trên các thuật tốn tối đa hĩa kỳ vọng (Expectation Maximization), K-Means và trích ra các mẫu thường xuất hiện; Nguyen et al [77], [78] str dung héi quy logic (Logistic Regression) va héi quy tuyén tinh (Linear Regression) dé dy toan tudi cua tac gia bai viét blogs va dién dan Nhìn chung, phương pháp học máy hiện nay đang được các nhà nghiên cứu tập trung khai thác và cải tiến để áp dụng vào lĩnh vực phân tích tác giả văn bản, nhằm ngày cảng nâng cao độ chính xác Bên cạnh các thuật tốn kinh điển, nhiều

thuật tốn khác đang được nghiên cứu cũng với các kỹ thuật hỗ trợ như chọn lọc

đặc trưng (feature selection), thuật tốn học máy kết hợp (ensemble learning), thuật toan hoc sau (deep learning), v.v

Mặc dù việc lựa chọn thuật tốn học may phù hợp là một vấn đề quan trọng,

nghiên cứu của Koppel et al [58] cho thấy trong lĩnh vực phân tích tác giả văn bản,

việc lựa chọn tập đặc trưng lại cĩ tầm quan trọng cao hơn Phần tiếp theo sẽ trình bày về các đặc trưng nhận diện được sử dụng pho bién trong phan tich tac gia van

ban

1.1.4.4 Nhan xét va danh gia

Trang 32

1.1.5 Cac dac trung nhan dién

Trong phân tích tác giả văn bản, tập đặc trưng cĩ thể được xem như một hình thức biểu diễn văn bản theo các đặc thù của tác giả Như đã nĩi ở trên, các nghiên cứu trong thời kỳ đầu tập trung vào tìm kiếm một đặc trưng duy nhất cĩ tính chất bất biễn với một tác giả cụ thể nhưng thay đổi giữa các tác giả khác nhau Đặc trưng được nghiên cứu nhiều nhất là các đặc trưng về độ phức tạp của văn bản, bao gồm độ dài trung bình từ (theo âm tiết hoặc ký tự), số từ trung bình/câu, hoặc độ phong phú của từ (vocabulary richness), v.v Mặc dù các đặc trưng này chưa chứng tỏ được sự hữu ích khi sử dụng cho phương pháp bất biến đơn nhất, chúng cĩ thể được sử dụng như một đặc trưng bồ sung cho tập đặc trưng của các nghiên cứu dựa trên các phương pháp hiện đại hơn sau này [3], [4], [23], [106], [117]

Khác với phương pháp bất biến đơn nhất, các phương pháp sau này sử dụng một tập các đặc trưng thay vì một đặc trưng duy nhất để phân tích tác giả văn bản

Với một tập đặc trưng được lựa chọn, một văn bản cĩ thể được biểu thị bằng một véc tơ đặc trưng mà mỗi mục giá trị thể hiện tần suất của đặc trưng đĩ trong văn bản

[55] Rất nhiều loại đặc trưng khác nhau đã được các nhà nghiên cứu phân tích và sử dụng cho các tác vụ phân tích tác giả văn bản, nhưng các kết quả thực nghiệm cho thấy khơng cĩ tập đặc trưng nào là hoạt động tốt nhất trong mọi trường hợp Theo Argamon et al [11], các đặc trưng dùng trong phân tích tác giả văn bản cĩ thể được chia làm hai loại chính: các đặc trưng theo phong cách (stylometric features hoặc style-based features) và đặc trưng dựa trên nội dung (content-based features) Các đặc trưng phong cách thể hiện cách thức sử dụng các thành phần của ngơn ngữ mà khơng liên quan đến nội dung, trong khi đặc trưng dựa trên nội dung chủ yếu thể hiện cách sử dụng các thành phần như các từ ngữ cĩ liên quan đến các nội dung cụ thể Ngồi ra, trong nghiên cứu nảy, chúng tơi đề xuất thêm cách phân loại đặc

trưng theo tính độc lập hay phụ thuộc vào tập dữ liệu Các đặc trưng độc lập cĩ thé được lựa chọn mà khơng cần tham chiếu đến tập dữ liệu trong khi các đặc trưng

Trang 33

1.1.5.1 Cac dac trung theo phong cach

Cac đặc trưng theo phong cách cĩ thé được chia thành ba loại, bao gồm đặc

trưng về từ vựng, đặc trưng về ngữ pháp, và đặc trưng về cấu trúc

Đặc trưng về từ vựng Các nghiên cứu về xử lý văn bản nĩi chung thường

thường xem một văn bản như một chuỗi các từ hoặc chuỗi các ký tự Khi đĩ, các

đặc trưng về từ vựng được sử dụng để phân biệt thĩi quen sử dụng các ký tự và các từ trong văn bản Các đặc trưng phổ biến thuộc loại này bao gồm số các ký tự, các từ được dùng, tần suất sử dụng các ký tự, của các loại từ, độ dài từ, độ dài câu [3] [6] [7I [71] [107] Ngồi ra, các đặc trưng khác như tân suất của các chữ cái, các

ký tự đặc biệt, độ phong phú trong cách dùng từ cũng được sử dụng |4|, [6|] [7]

[II] [I2] 221 149] Đặc trưng độ phong phú của từ đánh giá tính đa dạng của việc dùng từ trong văn bản Các đặc trưng điển hình của loại này là tỷ lệ số từ phân biệt trên tổng số từ, số từ chỉ xuất hiện 1 lần, số từ chỉ xuất hiện 2 lần v.v Tuy nhiên,

các đặc trưng này cĩ nhược điểm là phụ thuộc nhiều vào độ dài văn bản

Bên cạnh việc sử dụng các ký tự và loại ký tự đơn lẻ, một số nghiên cứu cũng khai thác việc sử dụng các cụm ký tự (n-prams) làm đặc trưng nhận diện Việc sử

dụng cụm ký tự khơng những cĩ thể khai thác được đặc trưng từ vựng mà cịn cĩ thể khai thác được đặc trưng về bối cảnh (contextual information) do cĩ thể lưu giữ thơng tin chuyền tiếp giữa các từ trong văn bản Một ưu điểm nữa của đặc trưng này

là nĩ ít bị ảnh hưởng bởi các lỗi về mặt chính tả vốn xuất hiện nhiều trong các văn

bản ít chính thống như email hoặc bài viết diễn đàn Ngồi ra, đối với các ngơn ngữ

cĩ sự khĩ khăn về mặt tách từ, sử dụng các đặc trưng cụm ký tự là một giải pháp

phù hợp [73] Tuy nhiên, nhược điểm của phương pháp tiếp cận này là số lượng đặc

trưng lớn (do số cụm ký tự được tạo thành là rat lớn), đồng thời, cũng như việc sử dụng các từ nội dung, các cụm ký tự cĩ thé mang ngữ nghĩa và do được chọn lọc từ tập dữ liệu nên cĩ tính phụ thuộc miễn Đặc trưng này sẽ được khảo sát chi tiết hơn

Trang 34

Một phương pháp khác để xây dựng tập đặc trưng về từ vựng là trích chọn ra các từ cĩ tần suất cao trong tập dữ liệu Đây cũng là phương pháp túi từ (Bag-Of- Words) vẫn thường được dùng trong phân tích văn bản Các từ được chọn cĩ thể khơng mang ngữ nghĩa (function words) hoặc mang ngữ nghĩa (content words) và được xem như các đặc trưng ngữ pháp hoặc đặc trưng nội dung sẽ được trình bày chỉ tiết hơn ở phần 1.1.5.2

Đặc trưng ngữ pháp Một phương pháp biểu diễn văn bản phức tạp hơn là sử dụng các đặc trưng về ngữ pháp Giả thuyết chính của việc sử dụng các đặc trưng loại này là người viết cĩ xu hướng sử dụng các mẫu ngữ pháp giống nhau một cách vơ thức theo thĩi quen Do vậy, các đặc trưng ngữ pháp thường được xem là đáng tin cậy hơn so với các đặc trưng từ vựng trong phân tích tác giả văn bản Tuy nhiên, để trích chọn được các đặc trưng này thường cần đến các cơng cụ xử lý ngơn ngữ đề thực hiện các thao tác tiền xử lý về ngơn ngữ học trên các văn bản Điều nảy cĩ nghĩa việc trích chọn các đặc trưng ngữ pháp là một quá trình phụ thuộc ngơn ngữ do phải dựa vào các cơng cụ xử lý ngơn ngữ Ngồi ra, các đặc trưng này cĩ thể làm gia tăng độ nhiễu cho tập dữ liệu do các lỗi phân tích ngữ pháp cĩ thể cĩ của cơng cụ xử lý ngơn ngữ Các đặc trưng về ngữ pháp được sử dụng để phân tích tác giả thường bao gồm cách dùng các cấu trúc ngữ pháp, dẫu chấm câu, các loại từ, các từ chức năng v.v

Baayen, van Halteren, va Tweedie [13] dua trén tap dữ liệu tiéng Anh da duoc

Trang 35

hon Argamon [10] sử dụng một cơng cụ xử lý ngơn ngữ để trích chọn ra các câu và

các cụm từ (phrases) như cụm danh từ, cụm động từ, cụm giới từ trong các văn bản

tiếng Hy Lạp Việc trích chọn các đặc trưng này đơn giản hơn các đặc trưng ngữ pháp của Baayen et al [13] do khơng phải phân tích câu trúc ngữ pháp của cụm từ

hay kết hợp các cụm từ thành các cầu trúc bậc cao hơn, tuy nhiên, cĩ thê được thực

hiện khá dễ dàng với độ chính xác cao Một phương pháp khá đơn giản được sử dụng trong các nghiên cứu gần đây để trích chọn các đặc trưng ngữ pháp là sử dụng một bộ gán nhãn từ loại (POS — Part Of Speech) Đây là một cơng cụ phố biến trong xử lý ngơn ngữ tự nhiên dùng để gán thơng tin ngữ pháp cho các từ trong văn bản dựa trên ngữ cảnh [26] [31] [57] [116] Tuy nhiên, các thơng tin về từ loại chứa khá ít ý nghĩa về ngữ pháp, do khơng chứa đựng được các thơng tin về việc các từ

kết hợp với nhau ra sao để tạo thành một cụm từ hoặc các cụm từ kết hợp thành các

cầu trúc cao hơn như thế nào van Halteren [39] sử dụng các đặc trưng ngữ pháp phức tạp hơn thơng qua một bộ gán nhãn từ loại và một bộ phân tích ngữ pháp tiếng

Hà Lan cho tập dữ liệu là các bài luận của sinh viên, qua đĩ trích chọn ra các cụm

n-grams các nhãn từ loại và các luật ngữ pháp khác Tổng cộng cĩ hơn 900 nghìn đặc trưng ngữ pháp được sử dụng trong nghiên cứu này

Các từ chức năng cũng là một loại đặc trưng ngữ pháp được dùng khá phố biến trong phân tích tác giả văn bản, đã được kiểm chứng trong nhiều nghiên cứu trước đây và cho kết quả tốt, từ nghiên cứu đâu tiền về phân tích tác giả văn bản của Mosteller và Wallace [76] cho đến nhiều các nghiên cứu sau nảy [14] [48] [49] [97] H15] [I17| Việc sử dụng các từ chức năng được ưa thích bởi chúng nĩ tính độc lập miễn (tần suất của chúng ít thay đối theo các chủ đề khác nhau của văn

bản), do đĩ, chúng được kỳ vọng cĩ thể sử dụng để nhận diện tác giả từ các tập dữ

liệu thuộc các miễn khác nhau Các nghiên cứu sử dụng số lượng các từ chức năng

cũng khác nhau, từ 122 từ cho đến 650 từ, bao gồm các đại từ, giới từ, động từ

Trang 36

Đặc trưng về cấu trúc Các đặc trưng vẻ cấu trúc cho thấy cách tác giả trình

bày văn bản như thế nào (các câu, các đoạn văn) hoặc các cầu trúc đặc biệt như lời chào, kết thúc, chữ ký v.v [47] [106] Các đặc trưng về cấu trúc được sử dụng phổ biến hơn trong các nghiên cứu gân đây, chủ yếu thực hiện trên các loại văn bản trực

tuyến Nghiên cứu của Michal Meina cho thấy độ dài văn bản là một đặc trưng hữu

ích cho việc nhận diện các bản tin spam Một số nghiên cứu khác cho thấy độ dài

câu, độ dài từ cũng là các đặc trưng cĩ thể phân biệt đặc điểm tác giả [3] [22] [25]

[32], [57], [67] Ngoai ra, mot số đặc trưng khác đặc thù cho các văn bản trực tuyến

như các thẻ HTML, các URLs, biểu tượng cảm xúc (emotion ieons) cũng là các đặc trưng đáng chú ý về cấu trúc

Bảng 1.1 thống kê các đặc trưng phong cách được sử dụng phơ biến trong các

nghiên cứu về xác định đặc điểm tác giả văn bản

Bảng 1.1 Các đặc trưng dựa theo phong cách Loại đặc trưng Đặc trưng Từ vựng Theo ký tự | Tổng số ký tự Tý lệ ký tự số Tỷ lệ chữ cái Tỷ lệ ký tự viết hoa Tân suất của các chữ cái

Tần suất của các ký tự đặc biệt

Theo tính chất từ | Số lượng từ

Trang 37

SỐ từ)

So các từ chỉ xuât hiện 1 lân 5ơ các từ chỉ xuât hiện 2 lần

Ngữ pháp Tân suât các dâu câu

Tần suât các loại từ

Tân suât các cầu trúc ngữ pháp Tân suât các từ chức năng

Cấu trúc Tổng số dịng

Tổng số câu Tổng số đoạn

Độ dài trung bình đoạn tính theo từ Độ dài trung bình đoạn tính theo câu Độ dài trung bình câu

Một số cấu trúc đặc biệt khác (cĩ lời chào? lời

tạm biệt? v.v.)

1.1.5.2 Các đặc trưng dựa trên nội dung

Phân tích tác giả văn bản khơng chỉ dựa vào các đặc trưng mang tính phong cách như trên mà cịn cĩ thể dựa vào thĩi quen sử dụng các từ mang nội dung của người viết Chăng hạn, một số người cĩ thể thích dùng các từ “start” (bắt đầu) và “large” (lớn), trong khi một số người khác thích dùng “begin” và “big” hon [56], [76] Các mẫu sử dụng từ đĩ cĩ thể được biểu thị thơng qua tần suất của các từ nội dung [9] [26] [43] Các từ này cĩ thể được chọn trên cơ sở ngữ nghĩa cĩ liên quan

đến lĩnh vực nghiên cứu [Š | [48] [49] [118] hoặc được lựa chọn từ chính tập dữ

Trang 38

Các đặc trưng nội dung đã được chứng minh là cĩ tính hiệu quả tốt trong các nghiên cứu trước đây về phân tích tác giả văn bản Tuy nhiên, như đã nĩi ở trên, việc sử dụng các đặc trưng nội dung cĩ thể cĩ vẫn để về tính phụ thuộc miễn do các đặc trưng này cĩ thể là các từ được sử dụng trong một bối cảnh cụ thể của nghiên cứu và cho kết quả tốt nhưng độ chính xác cĩ thể giảm đi khi ứng dụng vảo các tình huống đa dạng trong thực tế

Ngồi các từ nội dung, các đặc trưng là các cụm ký tự n-grams cũng cĩ thể coi

là phụ thuộc nội dung ở một mức độ nhất định Khi các cụm ký tự này được trích chọn từ tập dữ liệu sẽ cĩ các cụm ký tự được chọn tương đương với một từ hoặc một phan chính của từ và vẫn cĩ thể biểu thị một mức độ ngữ nghĩa

1.1.5.3 Các đặc trưng độc lập dữ liệu

Trong các loại đặc trưng trên, cĩ những đặc trưng được lựa chọn mà khơng

cần tham chiếu đến tập dữ liệu như các đặc trưng ký tự (được chọn từ bảng chữ cái),

các loại từ, từ chức năng (được chọn dựa trên quy tắc ngữ pháp và từ vựng) v.v Các

đặc trưng này cĩ thé được xem là các đặc trưng độc lập dữ liệu do chúng là như

nhau với các tập dữ liệu khác nhau Ưu điểm của các đặc trưng loại này là cĩ thể sử dụng để xây dựng mơ hình trên các tập dữ liệu khác nhau mà khơng phải trích chọn

lại và mơ hình được xây dựng trên tập dữ liệu này cĩ thể sử dụng để nhận diện trên tập dữ liệu thuộc lĩnh vực khác

1.1.5.4 Các đặc trưng phụ thuộc dữ liệu

Ngược lại với các đặc trưng độc lập dữ liệu, các đặc trưng mà khi xây dựng chúng phải tham chiếu tới tập dữ liệu được cĩ thé xem là các đặc trưng phụ thuộc

dữ liệu Các đặc trưng này chủ yếu là các đặc trưng dựa trên nội dung (như các từ nội dung cĩ tần suất cao trong tập dữ liệu) Tuy nhiên, cũng cĩ các đặc trưng theo phong cách được lựa chọn theo phương pháp này, chăng hạn các cụm từ loại (POS n-grams) hay các luật/cầu trúc ngữ pháp được sử dụng với tần suất cao trong tập dữ liệu Theo tiêu chí này, các cụm ký tự/cụm từ n-grams cũng là các đặc trưng phụ

Trang 39

tập dữ liệu thuộc lĩnh vực khác cĩ thé phải được xây dựng lại hoặc khi áp dụng mơ hình được xây dựng trên tập dữ liệu thuộc lĩnh vực này để phân loại cho các dữ liệu thuộc lĩnh vực khác cĩ thể sẽ cho độ chính xác thấp hơn

1.1.5.5 Một số loại đặc trưng khác

Bên cạnh các loại đặc trưng trên, một số tác giả đã nghiên cứu và cải tiền hoặc bố sung thêm các loại đặc trưng khác nhằm tăng độ chính xác cho mơ hình nhận

diện Stamatatos et al [99] nghiên cứu việc tạo ra một chuỗi bộ phân loại thơng qua việc chia tập đặc trưng thành các tập con và sau đĩ tập hợp lại thành một bộ phân loại tong thé Thuc nghiệm được thực hiện trên hai tập dữ liệu huấn luyện và cho kết quả tot Lý do của việc chia nhỏ tập đặc trưng la do số lượng đặc trưng cĩ thé rat lớn, ảnh hưởng tới hoạt động của các thuật tốn học máy Kết quả thực nghiệm cho

thấy phương pháp mới cĩ kết quả đồng đều trên 90%, trong khi các phương pháp truyền thống cho kết quả từ 70-90% Nghiên cứu của Koppel et al [56] đề xuất một phương pháp mới để lựa chọn đặc trưng ngơn ngữ học của tác giả, đĩ là dựa trên sự

6n định của đặc trưng Sự ồn định cho biết khả năng một từ hoặc một cau tric ngữ

pháp cĩ thể được thay thế bởi một thành phần khác tương đương Nghiên cứu này đã chỉ ra rằng, các đặc trưng cĩ tần suất cao nhưng khơng 6n định là các đặc trưng

phân biệt tốt nhất Với tiêu chí lựa chọn đặc trưng như trên, một số thực nghiệm đã được thực hiện Thực nghiệm đầu tiên là tiễn hành phân biệt các tác phẩm được viết bởi hai nhà văn Anna Bronte và Charlotte Bronte là hai chị em Thực nghiệm thứ hai được thực hiện trên 260 văn bản từ kho ngữ liệu BNC để nhận diện giới tính tác

giả Phương pháp phân loại sử dụng cửa số cân băng (Balanced Windows), với 400

đặc trưng được lựa chọn theo cách trên đã cho kết quả tốt hơn so với 400 từ chức năng chuẩn, trong đĩ thực nghiệm Bronte co độ chính xác §1% và thực nghiệm

phân biệt giới tính cĩ độ chính xác 72% Argamon et al [§] nghiên cứu một đề xuất

một loại đặc trưng mới dùng cho nhận diện tác giả văn bản dựa trên các phân loại chức năng của các từ vựng (từ hoặc cụm từ) Các thực nghiệm được thực hiện dé

Trang 40

Ngồi các đặc trưng liên quan đến ngữ pháp, từ vựng, một số đặc trưng khác liên quan đến độ đo thơng tin hay trình bảy văn bản như các đặc trưng truy vấn thơng tin (Information Retrieval), tinh dé doc (Readability) cing duoc st dung [110] hoặc các đặc trưng ít phụ thuộc ngơn ngữ như các đặc trưng cấp độ byte hoặc bit [30], [S6] Truy vấn thơng tin là quá trình tìm kiếm các tài liệu cĩ liên quan đến các từ khĩa hoặc các tải liệu mẫu người dùng cung cấp Edson et al [110] sử dụng

khoảng 30 đặc trưng truy vẫn thơng tin để thực hiện nhận diện đặc điểm tác gia cac

bài viết blogs tiếng Anh được cung cấp trong cuộc thi về xác định đặc điểm tac gia

văn bản PAN 2013 Mỗi văn bản được xem như một mẫu truy van va dựa trên đĩ thu thập & văn bản tương tự Mức độ tương tự của các văn bản sử dụng độ đo Cosin

hoặc Okapi là các độ đo phố biến trong đánh giá độ tương tự của các văn bản Các đặc trưng Cosin được tính tốn dựa trên một hàm tong hop trên & kết quả tốt nhất cho mỗi nhĩm giới tính/độ tuơi từ một truy vẫn hình thành bởi các từ khĩa trong bài viết Tương tự, các đặc trưng Okapi cũng được tính tốn nhưng dựa trên độ đo

OkapIi BM25 thay vì độ đo Cosin Các đặc trưng về tính dễ đọc đo mức độ phức tạp

trong việc hiểu một đoạn văn bản Cĩ nhiều phép kiểm tra mức độ phức tạp của một văn ban viét nhu Gunning Fog Index, SMOG index, Flesch Reading Ease, Flesch- Kincaid, v.v Edson et al str dung hai phép kiém tra Flesch dé do mức độ dễ hay khĩ hiểu của một văn bản và dùng nĩ làm đặc trưng cho nghiên cứu của mình

Frantzeskou et al [30] đề xuất phương pháp sử dụng các cụm n-grams theo byte để nhận diện tác giả của các đoạn mã nguồn chương trình máy tính Theo phương pháp này, đầu tiên, L cụm n-grams cĩ tần suất cao nhất được lựa chọn để

tạo tập đặc trưng Sau đĩ, một độ đo tương tự giữa hai tác giả được định nghĩa bởi

Định dạng
Số trang	153
Dung lượng	2,64 MB