Xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt dựa trên âm tiết và vần

10 2 0
Xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt dựa trên âm tiết và vần

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong bài viết này, điều tra sử dụng các âm tiết và vần điệu như các tính năng cho tác giả hồ sơ văn bản tiếng Việt. Chúng là một phần của từ, nhưng có ý nghĩa ít hơn nhiều so với từ, đặc biệt là vần điệu. Do đó, các tính năng này có thể được xem xét ít phụ thuộc vào miền hơn các từ nội dung. Thử nghiệm trên các tập dữ liệu bài viết diễn đàn bằng máy phương pháp học tập.

Các cơng trình nghiên cứu phát triển CNTT Truyền thông Tập V-1, Số 17 (37), tháng 6/2017 Xác định đặc điểm tác giả viết diễn đàn tiếng Việt dựa âm tiết vần Syllables and Rhymes for Author Profiling of Vietnamese Forum Posts Dƣơng Trần Đức, Phạm Bảo Sơn, Tân Hạnh Abstract: Author profiling is the task of identifying characteristics of the author just based on a text document In the previous works, there are a number of linguistic features such as character-based, wordbased, grammar-based (often grouped as style-based), and content-based features (content words) have been exploited The previous results showed that contentbased features often achieved better results than stylebased features However, using content-based features is considered as a domain-specific approach, because the content words chosen often have meaning related to the studied domain In this work, we investigate the use of syllables and rhymes as features for author profiling of Vietnamese text They are parts of words, but have much less meaning than words, especially the rhymes Therefore, these features can be considered much less domain-dependent than content words We experimented on forum post datasets using machine learning approach With improvement up to 8% compared with baseline results on style-based features, our method shows a new promising approach on author profiling Keywords: Author Profiling, Machine Learning, Nature Language Processing I GIỚI THIỆU Xác định đặc điểm tác giả văn (author profiling) nhánh nghiên cứu phân tích tác giả văn Phân tích tác giả văn cịn có hai nhánh nghiên cứu khác nhận diện tác giả (authorship attribution) xác minh tác giả (author verification) [26] Trong việc nhận diện tác giả xác minh tác giả tiến hành xác định kiểm chứng tác giả cụ thể người tạo nên văn thường áp dụng cho loại văn thống báo, tiểu thuyết v.v… xác định đặc điểm tác giả văn thường thực loại văn tự loại văn trực tuyến (bài viết blog, email, diễn đàn v.v…) [1, 2, 5, 20, 8, 12, 17, 26] Do đó, ứng dụng xác định đặc điểm tác giả văn khác so với hai nhánh nghiên cứu lại, vốn thường sử dụng để giải tranh cãi quyền tác giả Ứng dụng chủ yếu xác định đặc điểm tác giả lĩnh vực quảng cáo trực tuyến, cá nhân hóa hệ thống web, hỗ trợ điều tra tội phạm trực tuyến v.v… đặc điểm cá nhân tác giả viết dự đoán để hỗ trợ hoạt động quảng cáo mục đích điều tra tội phạm Cùng với phát triển Internet kênh trao đổi thông tin trực tuyến, ứng dụng việc xác định đặc điểm tác giả văn trở nên cần thiết quan trọng Để dự đoán đặc điểm giới tính, độ tuổi, trình độ giáo dục v.v tác giả văn bản, nhà nghiên cứu thường phân tích phong cách viết (writing style) từ nội dung (content words) sử dụng tác giả Phong cách viết xem phương pháp độc lập miền sử dụng nhiều nghiên cứu trước xác định đặc điểm tác giả Hầu hết thành phần có tính độc lập nội dung ngơn ngữ sử dụng làm đặc trưng phong cách ký tự, tính chất từ, từ loại, từ cơng cụ (từ chức năng), cấu trúc ngữ pháp v.v… Các đặc trưng thường tạo từ quy tắc ngôn ngữ không phụ thuộc - 41 - Các cơng trình nghiên cứu phát triển CNTT Truyền thông vào tập liệu hay lĩnh vực cụ thể Ngược lại, từ nội dung thường lựa chọn từ tập liệu sử dụng nghiên cứu lựa chọn từ từ ngữ có ngữ nghĩa liên quan đến lĩnh vực cụ thể Do đó, từ nội dung xem có tính phụ thuộc miền phụ thuộc liệu mức độ Để giảm phụ thuộc liệu phụ thuộc miền từ nội dung, nghiên cứu đề xuất loại đặc trưng cho việc xác định đặc điểm tác giả văn tiếng Việt Đó đặc trưng dựa âm tiết vần tiếng Việt Một từ tiếng Việt gồm nhiều âm tiết, vần thành phần âm tiết [7] Do đó, âm tiết vần mang ngữ nghĩa nhiều so với từ hoàn chỉnh Ví dụ, từ ghép ―đ ồng hồ‖ tạo hai âm tiết ồ‖ hai âm tiết cần thiết cho ―đ ồng‖ ―h việc xác định ngữ nghĩa từ Từ ngữ nghĩa riêng rẽ âm tiết, nhiều trường hợp, khơng thể xác định nghĩa từ Ngồi ra, số lượng âm tiết vần tiếng Việt khơng lớn, sử dụng toàn âm tiết vần làm đặc trưng để loại trừ tính phụ thuộc tập liệu phụ thuộc miền Bên cạnh việc mang ngữ nghĩa hơn, khía cạnh quan trọng khác làm cho âm tiết vần có khác biệt so với từ nội dung Các từ nội dung lựa chọn từ tập liệu, âm tiết vần xây dựng từ quy tắc từ vựng ngữ pháp mà không cần sử dụng tập liệu, qua giảm tính phụ thuộc vào tập liệu phụ thuộc miền Về khía cạnh hiệu xử lý, với khoảng 6.400 âm tiết 450 vần sử dụng làm đặc trưng phân loại, thuật toán học máy phổ biến máy véc tơ hỗ trợ (Support Vector Machine - SVM) hồn tồn xử lý mà khơng gặp nhiều khó khăn Bài báo có cấu trúc sau Phần II trình bày tổng quan nghiên cứu liên quan lĩnh vực phân tích tác giả văn bản, Phần III sâu âm tiết vần tiếng Việt Phần IV mô tả phương pháp Phần V Tập V-1, Số 17 (37), tháng 6/2017 trình bày kết thảo luận Cuối cùng, kết luận trình bày phần VI báo II TỔNG QUAN VỀ PHÂN TÍCH TÁC GIẢ Phân tích tác giả văn q trình phân tích tài liệu để đưa kết luận tác giả Q trình phân tích tác giả văn liên quan đến hai vấn đề chính, kỹ thuật phân tích tập đặc trưng phân biệt Kỹ thuật phân tích thời kỳ đầu thường sử dụng kỹ thuật đơn giản dựa thống kê [22] Các nghiên cứu gần chủ yếu khai thác kỹ thuật học máy để tận dụng khả tính tốn máy tính Mặc dù việc lựa chọn thuật toán học máy phù hợp vấn đề quan trọng, nghiên cứu Koppel [15] cho thấy lĩnh vực phân tích tác giả văn bản, việc lựa chọn tập đặc trưng lại có tầm quan trọng cao Tập đặc trưng xem phương pháp biểu diễn văn khía cạnh phong cách viết cách sử dụng từ Theo Argamon [2], có hai loại đặc trưng sử dụng phân tích tác giả văn bản: đặc trưng phong cách đặc trưng dựa nội dung Đặc trưng phong cách bao gồm đặc trưng liên quan đến ký tự, tính chất từ (lexical), cách sử dụng cấu trúc ngữ pháp (syntactic), đặc trưng cấu trúc văn Đặc trưng dựa nội dung bao gồm từ nội dung sử dụng thường xuyên lĩnh vực lĩnh vực khác Các từ thường chọn theo phương pháp thống kê tần suất xuất tập liệu dựa ngữ nghĩa từ Phần trình bày khảo sát nghiên cứu trước lĩnh vực phân tích tác giả có sử dụng đặc trưng liên quan tới từ vựng ký tự, cụm ký tự, từ v.v Các đặc trưng dựa thành phần hệ thống từ vựng chứng minh có hữu ích việc xác định đặc điểm tác giả văn nhiều nghiên cứu trước Từ thành phần ký tự riêng lẻ [4, 5, 12, 25, 26], cụm ký tự n-grams [3, 11, 13, 19], đến đặc điểm từ loại từ, mức độ đa dạng từ vựng [5, 6, 12, 21], từ công cụ - 42 - Các cơng trình nghiên cứu phát triển CNTT Truyền thông [2, 6, 9, 12, 14], từ nội dung [2, 8, 10, 17, 19, 26] nghiên cứu sử dụng Trong nghiên cứu xem hoàn chỉnh lĩnh vực này, Mosteller Wallace (1964) sử dụng số từ công cụ để giải vấn đề tranh chấp việc xác định tác giả luận liên bang (Federalist Papers) Sau đó, có nhiều nghiên cứu lĩnh vực phân tích tác giả văn khai thác xác minh tính hữu ích từ công cụ lĩnh vực với số từ sử dụng từ 122 đến 645 từ Các từ cơng cụ mang ngữ nghĩa sử dụng để biểu thị mối quan hệ ngữ pháp với từ khác, chúng xem không liên quan đến nội dung xếp loại dạng đặc trưng dựa theo phong cách Các đặc trưng dựa ký tự đặc điểm từ ký tự đơn lẻ/cụm ký tự, độ dài từ, loại từ, mức độ đa dạng dùng từ sử dụng phổ biến De Vel [5] sử dụng đặc trưng độ dài từ/câu, loại từ, tần suất ký tự/loại ký tự, với đặc trưng ngữ pháp khác để phân biệt 156 emails tiếng Anh Zheng đồng tác giả [25] sử dụng đặc trưng dựa từ vựng đề xuất De Vel [5] bổ sung thêm số đặc trưng dựa nội dung để đề xuất hệ thống phân tích tác giả văn nhằm tự động theo dõi tội phạm mạng dựa tin đăng mạng Internet Các tác giả đánh giá hiệu hệ thống thơng qua việc thực thí nghiệm tập liệu tin trực tuyến tiếng Anh tiếng Trung Quốc Abbasi Chen [1] sử dụng 79 đặc trưng từ vựng tổng số 418 đặc trưng để phân tích tác giả viết diễn đàn tiếng Anh tiếng Ả rập Các tác giả sử dụng tập đặc trưng hiệu dựa việc khai thác đặc điểm hình thái tả tiếng Ả rập (chẳng hạn bổ sung thêm hai đặc trưng phần kéo dài tiếng Arập) Iqbal đồng tác giả [12] sử dụng 419 đặc trưng bao gồm đặc trưng dựa ký tự, đựa đặc điểm từ, đặc trưng ngữ pháp để xây dựng loại ―v ân chữ viết‖ nhằm xác minh tác giả email hỗ trợ điều tra tội phạm Tập V-1, Số 17 (37), tháng 6/2017 Một số nghiên cứu sử dụng cụm kết hợp ký tự (n-grams) để làm đặc trưng phân loại Keselj đồng tác giả [13] đề xuất phương pháp nhận diện tác giả dựa cụm ký tự Hiệu phương pháp kiểm chứng thông qua thí nghiệm liệu ngôn ngữ tiếng Anh, tiếng Hy Lạp, tiếng Trung Quốc Houvardas Stamatatos [11] nghiên cứu phương pháp sử dụng cụm ký tự có độ dài biến đổi để giải vấn đề nhận diện tác giả tin Reuters 50 tác giả khác Ý tưởng phương pháp so sánh cụm ký tự với cụm ký tự tương đồng giữ lại cụm ký tự trội Peersman đồng tác giả [19] dự đoán tuổi giới tính người dùng chat dựa đoạn chat thu thập từ mạng xã hội Netlog Bỉ Tác giả sử dụng cụm ký tự từ làm đặc trưng phân loại Các cụm từ, từ, từ, từ cụm ký tự, ký tự, ký tự trích từ tập liệu sau chọn lọc thuật toán lựa chọn đặc trưng χ2 (chi-square) Xét khía cạnh phụ thuộc nội dung phụ thuộc miền, cụm ký tự cụm từ tạo thành theo phương pháp trích chọn từ tập liệu có tính chất chúng lấy từ liệu kể cụm ký tự chứa nội dung bao hàm từ Bên cạnh đặc trưng dựa ký tự từ không liên quan đến nội dung, từ mang ngữ nghĩa khai thác sử dụng làm đặc trưng phân loại lĩnh vực phân tích tác giả văn Như nói trên, đặc trưng dựa nội dung thường mang lại kết tốt so với đặc trưng dựa phong cách Tuy nhiên, loại đặc trưng xem có tính đặc thù miền cho kết áp dụng vào lĩnh vực khác Mặc dù vậy, đặc trưng có nhiều ý nghĩa, chẳng hạn trường hợp áp dụng mơ hình lĩnh vực/lĩnh vực tương tự tổng quát hóa thơng qua phương pháp xử lý loại bỏ tính đặc thù miền Zheng et al [26] sử dụng 11 từ khóa mang nội dung ―d eal‖ (mặc cả), ―s ale‖ (bán hàng), ―c heck‖ (kiểm tra), v.v tổng số 270 đặc trưng để nhận - 43 - Các cơng trình nghiên cứu phát triển CNTT Truyền thông diện tác giả tin trực tuyến tiếng Anh tiếng Trung Quốc Goswani đồng tác giả [10] thực trích từ khơng có từ điển tập liệu blog sử dụng làm đặc trưng để phân loại viết blogs theo nhóm giới tính độ tuổi Argamon đồng tác giả [2] trích khoảng 1.000 từ nội dung có tần suất cao tập liệu có khả phân biệt lớp tốt nhất, xác định độ đo độ lợi thông tin (Information Gain) Các từ sau sử dụng làm đặc trưng để xác định giới tính, độ tuổi, ngơn ngữ gốc, mặt tính cách tính cởi mở, hướng ngoại, dễ bị kích động, tận tâm, dễ hòa hợp tác giả viết blogs luận sinh viên Iqbal [12] sử dụng 13 từ đặc thù lĩnh vực từ ―a greement‖ (thỏa thuận), ― team‖ (nhóm), ―s ection‖ (phần), v.v làm đặc trưng để khai phá ―v ân chữ viết‖ tác giả email vô danh phục vụ cho việc điều tra tội phạm mạng Peersman [19] sử dụng cụm từ đơn, ghép đôi, ghép ba để xác định đặc điểm tác giả đoạn chat đặc trưng xem đặc trưng dựa theo nội dung Nguyen [17] sử dụng từ đơn xuất 10 lần tài liệu huấn luyện làm đặc trưng phân loại nghiên cứu dự đoán tuổi người dùng mạng xã hội Twitter sử dụng hồi quy tuyến tính Duong [8] nghiên cứu việc sử dụng từ nội dung để làm đặc trưng việc xác định đặc điểm tác giả viết diễn đàn tiếng Việt, qua dự đốn đặc điểm giới tính, độ tuổi, vùng miền, nghề nghiệp Các từ nội dùng xuất tần suất cao lớp trích từ tập liệu áp dụng phương pháp lựa chọn đặc trưng dựa độ lợi thông tin để chọn lọc từ có thứ hạng cao làm đặc trưng dựa nội dung Nhìn chung, hầu hết nghiên cứu trước khai thác đặc trưng phong cách đặc trưng mang nhiều nội dung Trong nghiên cứu này, đề xuất phương pháp sử dụng âm tiết vần tiếng Việt làm đặc trưng nhận diện Đây đặc trưng có mức độ ngữ nghĩa cao ký tự cụm ký tự ghép ngẫu nhiên, nhiên mang ngữ Tập V-1, Số 17 (37), tháng 6/2017 nghĩa nhiều so với từ nội dung Các đặc trưng coi cụm ký tự n-grams kết hợp theo quy tắc từ vựng ngơn ngữ thay kết hợp cách ngẫu nhiên Theo khảo sát chúng tôi, đến chưa có nghiên cứu lĩnh vực phân tích tác giả văn thực loại đặc trưng III ÂM TIẾT VÀ VẦN TRONG TIẾNG VIỆT Tiếng Việt ngôn ngữ thuộc hệ ngôn ngữ Nam Á (Austroasiatic) Trong khứ, tiếng Việt sử dụng chữ viết Trung Quốc có cải tiến cho phù hợp với đặc thù Việt Nam Tuy nhiên, tiếng Việt đại sử dụng chữ viết dựa bảng chữ Latin gọi chữ Quốc ngữ Chữ Quốc ngữ phát minh nhà truyền giáo châu Âu với Việt nam để truyền đạo Thiên chúa giáo vào cuối kỷ 19 Theo [7], tiếng Việt có ba loại âm vị điệu, phụ âm, nguyên âm, hầu hết ngôn ngữ châu Âu tiếng Anh không sử dụng điệu Thanh điệu xem âm vị tiếng Việt việc thay đổi điệu làm thay đổi nghĩa từ Có điệu tiếng Việt, khơng dấu, huyền, ngã, hỏi, sắc, nặng Hệ thống ngữ âm tiếng Việt có 23 âm vị phụ âm đầu: b, ph, v, m, t, đ, th, x, d, n, l, tr, s, (gi, r), ch, nh, (c, k, q), g, kh, ng, h, p, r, sáu âm vị phụ âm cuối: p, t, (c/ch), m, n, (ng/nh), hai bán âm vị nguyên âm cuối: (i/y), (o/u) Tiếng Việt có 11 âm vị nguyên âm đơn: i, ê, e, ư, ơ, â, a, ă, u, ô, o nguyên âm đôi: (iê/ia), (ươ/ưa), (uô/ua) Các âm vị kết hợp với tạo thành âm tiết Các âm tiết tiếng Việt có ba thành phần: điệu, âm đầu, vần Âm đầu phụ âm đơn vần lại bao gồm nguyên âm trung, nguyên âm chính, âm cuối, có ngun âm bắt buộc phải có âm tiết [7] Theo phân tích Tang [23], cấu trúc khác với cấu trúc âm tiết ngơn ngữ châu Âu tiếng Anh, theo âm tiết ngôn ngữ mô tả chuỗi phụ âm (C) nguyên âm (V) đan xen Do đó, có nhiều cấu trúc âm tiết - 44 - Các cơng trình nghiên cứu phát triển CNTT Truyền thơng ngơn ngữ CV, CVC, CCVC, CCCVC, v.v Nghiên cứu Tang [23] tiếng Việt có đa dạng khả kết hợp nguyên âm phụ âm, có số phụ âm so với ngôn ngữ châu Âu tiếng Anh Từ cấu trúc âm tiết quy tắc từ vựng, ngữ pháp tạo danh sách khoảng 6.700 âm tiết 480 vần tiếng Việt Sau loại bỏ số âm tiết sử dụng gần khơng có ảnh hưởng tới q trình nhận diện, có 6.400 âm tiết 480 vần sử dụng làm đặc trưng nghiên cứu theo lớp đặc điểm người dùng Các đặc điểm giới tính vùng miền phân làm hai nhóm (nam/nữ bắc/nam), đặc điểm độ tuổi nghề nghiệp phân làm ba nhóm Độ tuổi phân chia làm ba lớp theo giai đoạn đời (học sinh, sinh viên/người làm/người trung niên) Internet Bảng Cấu trúc âm tiết tiếng Việt Âm đầu Thanh điệu Vần Nguyên âm Nguyên âm trung Tập V-1, Số 17 (37), tháng 6/2017 Thu thập liệu Dữ liệu thô Âm cuối Xử lý liệu (nguồn [7]) IV PHƢƠNG PHÁP Trích chọn đặc trưng IV.1 Tổng quan phƣơng pháp Véc tơ đặc trưng Mơ hình tổng thể phương pháp bao gồm bước thu thập xử lý liệu, trích chọn đặc trưng, xây dựng mơ hình phân loại Theo đó, viết diễn đàn tiếng Việt có thơng tin đặc điểm người viết thu thập từ Internet thông qua bước thu thập liệu Bước xử lý liệu tiến hành thao tác tiền xử lý trước thực trích chọn đặc trưng tạo tập liệu huấn luyện Cuối cùng, phân loại xây dựng thuật toán học máy tập liệu tạo Hình cho thấy mơ hình tổng quát phương pháp IV.2 Thu thập xử lý liệu Trong bước này, liệu thu thập từ diễn đàn qua thu thập liệu tự động Web (Web crawler) xử lý làm phân nhóm theo đặc điểm tác giả Hoạt động xử lý làm tiến hành loại bỏ nội dung người dùng tạo (ví dụ đoạn trích từ viết khác), nội dung khơng phù hợp (ví dụ đoạn chứa nhiều ký tự đặc biệt) v.v Hoạt động phân nhóm nhóm viết Dữ liệu huấn luyện Xây dựng mơ hình Thuật tốn học máy Bộ phân loại Hình Mơ hình tổng quát phương pháp Để tránh nhập nhằng dự đốn thực tế có nhiều tác giả tham gia viết nhiều năm liền, số nghiên cứu trước sử dụng nhóm tuổi khơng liên tục [2, 19, 21] Trong nghiên cứu này, chúng tơi sử dụng cách chia nhóm tuổi khơng liên tục (16-21, 24-27, 33-47) Đặc điểm nghề nghiệp phân thành ba nhóm nghề phổ biến Việt Nam kinh doanh, bán hàng/kỹ thuật, công nghệ/giáo dục, y tế - 45 - Các cơng trình nghiên cứu phát triển CNTT Truyền thơng Ngồi ra, để trích chọn đặc trưng liên quan đến từ vựng ngữ pháp, cần có thêm thao tác xử lý mặt ngơn ngữ Đó tác vụ phân chia văn thành câu từ việc gán nhãn loại từ Đây tác vụ quan trọng việc trích xuất từ đặc điểm ngữ nghĩa bước kế tiếp, đặc biệt cấu tạo từ tiếng Việt phức tạp ngôn ngữ khác tiếng Anh (có nhiều loại từ từ ghép đơi, ghép ba, v.v…) Trong nghiên cứu này, sử dụng công cụ VnTokenizer VnTagger mô tả [16] IV.3 Các đặc trƣng phân loại Trong nghiên cứu này, chúng tơi đề xuất loại đặc trưng có mức độ ngữ nghĩa cao ký tự mức thấp so với từ nội dung Số lượng đặc trưng phải mức chấp nhận Các âm tiết vần tiếng Việt thỏa mãn yêu cầu Trong tiếng Việt, từ từ đơn (chứa âm tiết) từ ghép (chứa từ hai âm tiết trở lên) Mỗi âm tiết cụm ký tự riêng rẽ câu Do đó, âm tiết mang ngữ nghĩa so với từ Một số âm tiết mang đầy đủ ngữ nghĩa hình thành từ đơn (ví dụ từ ―g hế‖), mang chí khơng rõ ngữ nghĩa thành phần từ ghép Ví dụ, từ ―đ ồng hồ‖ có hai âm tiết ―đ ồng‖ ―h ồ‖ Nghĩa hai âm tiết đứng riêng rẽ khơng có liên quan tới từ ghép Vần phần âm tiết, mang khơng mang ngữ nghĩa Chẳng hạn ― ế‖ vần từ ―g hế‖ hay ― ồng‖ ― ồ‖ vần từ ―đ ồng hồ‖ không mang ngữ nghĩa liên quan đến âm tiết mà thuộc vào Một tính chất quan trọng âm tiết vần sử dụng làm đặc trưng khơng chọn từ tập liệu có liên quan ngữ nghĩa với lĩnh vực nghiên cứu từ nội dung Điều giúp loại bỏ tính phụ thuộc liệu phụ thuộc lĩnh vực đặc trưng Âm tiết vần hình thành sử dụng số luật tiếng Việt Chẳng hạn, âm đầu Tập V-1, Số 17 (37), tháng 6/2017 lựa chọn từ 23 âm vị phụ âm đầu nguyên âm với bán nguyên âm sử dụng làm âm cuối Nguyên âm đơn lập kết hợp thành nguyên âm đôi nguyên âm đa Cụ thể, có 11 nguyên âm đơn, nguyên âm đôi, 20 nguyên âm đa tiếng Việt Từ luật này, dễ dàng xây dựng danh sách âm tiết vần tiếng Việt sử dụng chúng đặc trưng nhận diện xác định đặc điểm tác giả văn Bên cạnh đặc trưng này, thực thí nghiệm đặc trưng đơn theo phong cách đơn theo nội dung để tạo sở so sánh đánh giá kết Bảng cho thấy danh sách số lượng đặc trưng sử dụng nghiên cứu Bảng Các đặc trưng Loại đặc trƣng Âm tiết Vần Các đặc trưng theo phong cách Ký tự tính chất từ Ngữ pháp Từ công cụ (từ chức năng) Cấu trúc Đặc trưng nội dung (từ nội dung) Tổng cộng Số lƣợng 6.400 480 333 90 26 212 2.400 9.613 IV.4 Xây dựng mơ hình phân loại Vấn đề xác định đặc điểm tác giả viết chuyển thành toán phân loại viết theo đặc điểm Một phân loại khớp tài liệu với nhãn đặc điểm người viết dựa đặc trưng trích chọn Bộ phân loại xây dựng từ tài liệu gắn nhãn, sử dụng phương pháp học máy, với đặc trưng tài liệu đầu vào đặc điểm tác giả đầu thuật toán Bên cạnh thuật toán học máy, số kỹ thuật hỗ trợ khác áp dụng để nâng cao độ xác phân loại giảm độ phức tạp mơ thuật toán tối ưu tham số lựa chọn đặc trưng - 46 - Các cơng trình nghiên cứu phát triển CNTT Truyền thông V THỰC NGHIỆM V.1 Dữ liệu Trong nghiên cứu này, sử dụng tập liệu nghiên cứu trước nhận diện đặc điểm tác giả viết diễn đàn [8] để tiện so sánh kết Tập liệu thu thập cách sử dụng thu thập liệu tự động (crawler) để thu thập viết từ diễn đàn phổ biến Việt Nam otofun.net.vn, webtretho.com, tinhte.vn Do viết diễn đàn viết tự chứa nhiều nội dung nhiễu, phương pháp lọc làm liệu thực nói Sau bước xử lý làm sạch, tập liệu thu thập bao gồm có 6.831 viết từ 104 người dùng Tổng cộng có 736.252 từ trung bình 107 từ/bài Các viết lựa chọn có thơng tin đặc điểm người viết, dùng làm liệu huấn luyện cho hệ thống Độ dài viết giới hạn khoảng từ 250 đến 1.500 ký tự để loại bỏ viết ngắn dài (bài viết dài chứa đoạn văn chép từ nguồn khác) Bảng cho thấy thông số thống kê tập ngữ liệu huấn luyện Bảng Thống kê tập ngữ liệu huấn luyện Đặc điểm tác giả Giới tính Số viết 4.474 Độ tuổi 3.017 Vùng miền 3.960 Nghề nghiệp 3.453 Lớp đặc điểm Nam Nữ Ít 22 Từ 24 đến 27 Nhiều 32 Bắc Nam Kinh doanh, bán hàng Kỹ thuật, công nghệ Giáo dục, y tế Tỷ lệ tập liệu 54% 46% 21% 27% 52% 57% 43% 36% Tập V-1, Số 17 (37), tháng 6/2017 SVM có ưu điểm xử lý số lượng lớn đặc trưng phân loại không cần đến việc giảm bớt số lượng đặc trưng nhằm tránh vấn đề khớp (overfitting) Đặc điểm hữu ích xử lý vấn đề có số chiều lớn thường gặp lĩnh vực phân tích văn [5] Kỹ thuật tối ưu tham số sử dụng Grid Search để tiến hành rà soát giá trị cặp tham số thuật toán thử nghiệm cặp để chọn tham số tốt Qua thực nghiệm cho thấy SVM đạt kết tốt với nhân đa thức (PolyKernel) cho tốn này, vậy, thuật tốn tìm kiếm lưới (Grid Search) thực hai tham số c exp (bậc đa thức) Thuật toán lựa chọn đặc trưng dựa độ lợi thông tin (Information Gain) sử dụng làm phương pháp lựa chọn đặc trưng nhằm loại bỏ bớt đặc trưng không liên quan, qua giảm độ phức tạp tăng độ xác mơ hình Information Gain sử dụng cách đo độ quan trọng đặc trưng việc phân biệt lớp phân loại (dựa mức độ giảm entropy ứng với đặc trưng) ứng dụng nhiều nghiên cứu trước cho kết tốt Các thực nghiệm nghiên cứu tiến hành công cụ Weka [24] với phương pháp kiểm chứng chéo 10 phần (10-fold cross-valiadion) độ đo xác Độ đo xác (accuracy) định nghĩa tổng số mẫu phân loại tổng số mẫu tập liệu kiểm tra Đây độ đo sử dụng phổ biến để đánh giá độ xác tổng qt mơ hình học máy sử dụng nhiều nghiên cứu trước phân tích tác giả văn accuracy  31% 33% V.2 Thuật toán phƣơng pháp đánh giá SVM phương pháp học máy lựa chọn nghiên cứu để xây dựng mơ hình phân loại phương pháp chứng minh tính hiệu nhiều nghiên cứu phân tích tác giả trước  tn  fp  tn  fn (1) Trong (true positive) số mẫu mang nhãn ―dư ơng‖ phân vào lớp ―dư ơng‖, tn (true nagative) số mẫu mang nhãn ―â m‖ phân vào lớp ―â m‖, fp (false positives) số mẫu mang nhãn ―â m‖ phân sai vào lớp ―d ương‖, fn (false negative) số mẫu mang nhãn ―dư ơng‖ phân sai vào lớp ―â m‖ - 47 - Các cơng trình nghiên cứu phát triển CNTT Truyền thông V.3 Kết đánh giá Chúng thực thực nghiệm xác định đặc điểm tác giả tập đặc trưng khác để kiểm chứng hiệu đặc trưng âm tiết vần Bảng cho thấy kết xác định đặc điểm tác giả viết diễn đàn tiếng Việt tập đặc trưng Các tập đặc trưng xây dựng theo nguyên tắc sau: xem tập đặc trưng dựa theo phong cách làm sở, loại đặc trưng khác thử nghiệm riêng rẽ kết hợp với tập đặc trưng theo phong cách Cuối cùng, tập đặc trưng kết hợp tất loại đặc trưng thử nghiệm Do số lượng âm tiết từ nội dung có số lượng lớn, tập đặc trưng có chứa loại đặc trưng thực lựa chọn thuật toán Information Gain trước thực nhận diện thuật tốn SVM nói Cụ thể, tập đặc trưng âm tiết, từ nội dung, kết hợp phong cách âm tiết, kết hợp phong cách nội dung, kết hợp tất đặc trưng trường hợp thực lựa chọn đặc trưng trước thực nhận diện Ngoài ra, nghiên cứu áp dụng thêm thuật toán Grid Search để tối ưu tham số cho thuật toán phân loại SVM nên kết tập đặc trưng theo phong cách nội dung có cải tiến so với kết trình bày [8] Theo phong cách Các vần Âm tiết Từ nội dung Kết hợp phong cách vần Kết hợp phong cách âm tiết Kết hợp phong cách nội dung Kết hợp tất Giới tính 83.47 84.13 89.98 90.01 86.56 Độ tuổi 62.76 58.26 66.24 70.05 60.90 Nghề nghiệp 52.46 50.22 57.43 60.99 54.30 Vùng miền 71.22 72.80 80.38 82.98 75.70 91.33 69.23 58.70 81.07 90.55 70.70 61.04 83.13 91.72 71.26 61.43 84.28 thể thấy kết sử dụng đặc trưng vần làm tăng độ xác lên khoảng 1-2%, sử dụng đặc trưng âm tiết làm tăng khoảng 7% Việc kết hợp đặc trưng theo phong cách đặc trưng vần kết hợp đặc trưng phong cách đặc trưng âm tiết làm tăng hiệu nhận diện lên 4%-8% tương ứng So sánh với từ nội dung, đặc trưng theo âm tiết mang ngữ nghĩa có tính độc lập liệu có kết nhận diện gần tương đương với từ nội dung (đặc biệt đặc điểm giới tính vùng miền) Mặc dù cịn số ngoại lệ, đặc trưng vần cho kết không tốt nhận diện đặc điểm độ tuổi nghề nghiệp so với đặc trưng phong cách, đặc trưng âm tiết cho kết nhận diện độ tuổi, kết luận đặc trưng âm tiết vần mang lại kết khả quan tốt đặc trưng phong cách tiệm cận với đặc trưng nội dung Hơn nữa, việc kết hợp tất loại đặc trưng cho kết cao chứng tỏ việc sử dụng âm tiết vần có ảnh hưởng tích cực tới kết nhận diện kể từ nội dung sử dụng Mặc dù vần âm tiết mang nội dung chưa coi hồn tồn khơng phụ thuộc nội dung đặc trưng phong cách khác, kết khả quan lý sau:  Tiếng Việt ngôn ngữ đa âm tiết, từ chứa nhiều âm tiết Theo [7], 80% từ tiếng Việt có từ hai âm tiết trở lên Vần phận cấu thành âm tiết Do vậy, sử dụng âm tiết vần làm đặc trưng nhận diện làm giảm tính phụ thuộc nội dung nhiều so với sử dụng từ nội dung Đặc biệt, vần xem đặc trưng phong cách khơng có tính phụ thuộc nội dung Bảng Kết xác định đặc điểm tác giả tập đặc điểm khác Tập đặc trƣng Tập V-1, Số 17 (37), tháng 6/2017 Từ kết Bảng 4, sử dụng kết nhận diện dùng đặc trưng theo phong cách làm sở, có  Mặc dù âm tiết mang phần ngữ nghĩa, việc xây dựng danh sách âm tiết vần làm đặc trưng không phụ thuộc vào tập liệu mà dựa vào quy tắc từ vựng ngữ pháp Do đó, tập âm tiết vần đại diện cho hệ thống từ vựng toàn ngôn ngữ không bị ảnh hưởng tập - 48 - Các cơng trình nghiên cứu phát triển CNTT Truyền thông liệu hay lĩnh vực cụ thể Điều làm cho âm tiết vần có tính độc lập nhiều so với từ nội dung [5] VI KẾT LUẬN Trong nghiên cứu này, đề xuất phương pháp xác định đặc điểm tác giả văn tiếng Việt dựa đặc trưng âm tiết vần tiếng Việt Âm tiết vần thành tố cấu tạo nên từ, chúng mang ngữ nghĩa nội dung so với từ nội dung Hơn nữa, âm tiết vần xây dựng từ quy tắc từ vựng mà không chọn lọc từ tập liệu Do đó, sử dụng đặc trưng làm giảm tính đặc thù liệu đặc thù miền phân tích tác giả văn Các kết thực nghiệm cho thấy độ xác nhận diện sử dụng đặc trưng có cải tiến đáng kể so với đặc trưng dựa theo phong cách, đồng thời làm tăng kết sử dụng kết hợp với đặc trưng nội dung khác [6] Hướng phát triển nghiên cứu tiến hành thực nghiệm tập liệu thuộc lĩnh vực khác để kiểm chứng tính tổng qt phương pháp Ngồi ra, chúng tơi có kế hoạch khai thác thêm đặc trưng tiếng Việt để nâng cao kết nhận diện, chẳng hạn đặc trưng điệu, hình vị, v.v [10] TÀI LIỆU THAM KHẢO [12] [1] AHMED ABBASI, HSINCHUN CHEN Applying Authorship Analysis to Extremist-Group Web Forum Messages, IEEE Intelligent Systems, v.20 n.5, p.67-75, 2005 [2] S ARGAMON, M KOPPEL, J W PENNEBAKER, J SCHLER Automatically profiling the author of an anonymous text, Communications of the ACM, v.52 n.2, 2009 [3] R CLEMENT, D SHARP Ngram and Bayesian classification of documents for topic and authorship Literary and Linguistic Computing, 18(4), pp: 423—447, 2003 [4] M CORNEY, O DE VEL, A ANDERSON, G MOHAY Gender-preferential text mining of e-mail discourse, In ACSAC’02: Proc of the 18th Annual [7] [8] [9] [11] [13] [14] [15] - 49 - Tập V-1, Số 17 (37), tháng 6/2017 Computer Security Applications Conference, Washington, DC, pp : 21-27, 2002 O DE VEL, A ANDERSON, M CORNEY, G MOHAY Mining e-mail content for author identification forensics SIGMOD Record 30(4), pp 55-64, 2001 J DIEDERICH, J KINDERMANN, E LEOPOLD, G PAASS Authorship Attribution with Support Vector Machines, Applied Intelligence, v.19 n.1-2, p.109-123, 2003 D L THU, N V HUE Cơ cấu ngữ âm tiếng Việt, Vietnam Education Publishing, 1998 T D Duong, S B Pham, H Tan Using Contentbased Features for Author Profiling of Vietnamese Forum Posts, In: Recent Developments in Intelligent Information and Database Systems, pp 287–296 Springer International Publishing, Berlin, 2016 MICHAEL GAMON Linguistic correlates of style: authorship classification with deep linguistic analysis features, Proceedings of the 20th international conference on Computational Linguistics, p.611-es, 2004 S GOSWANI, S SARKAR, M RUSTAGI Stylometric analysis of bloggers' age and gender, In Proceedings of the Third International ICWSM Conference, San Jose, USA, 2009 J HOUVARDAS, E STAMATATOS N-Gram feature selection for authorship identification, Proceedings of the 12th international conference on Artificial Intelligence: methodology, Systems, and Applications, Varna, Bulgaria, 2006 F IQBAL, H BINSALLEEH, B C M FUNG, M DEBBABI Mining writeprints from anonymous emails for forensic investigation, Digital Investigation: The International Journal of Digital Forensics & Incident Response, v.7 n.1-2, p.56-64, 2010 V KESELJ, F PENG, N CERCONE, C THOMAS N-gram-based author profiles for authorship attribution In: Pasific Association for Computational Linguistics, pp 256–264, 2003 M KOPPEL, J SCHLER, K ZIGDON Determining an author's native language by mining a text for errors, Proceedings of the 7th ACM SIGKDD international conference on Knowledge discovery in data mining, USA, 2005 M KOPPEL, J SCHLER, S ARGAMON Computational methods in authorship attribution Journal of the American Society for Các cơng trình nghiên cứu phát triển CNTT Truyền thông [16] [17] [18] [19] [20] [21] [22] information Science and Technology, 60(1), p.9-26, 2009 H P LE, A ROUSSANALY, T M H NGUYEN, M ROSSIGNOL An empirical study of maximum entropy approach for part-of-speech tagging of vietnamese texts, In Traitement Automatique des Langues Naturelles-TALN, page 12, 2010 D NGUYEN, R GRAVEL, D TRIESCHNIGG, T MEDER "How old you think I am?" a study of language and age in Twitter In ICWSM, 2013 D H NGUYEN Vietnamese, Amsterdam: John Benjamins Publishing Company, 1997 C PEERSMAN, W DAELEMANS, L V VAERENBERGH Predicting age and gender in online social networks, In Proceedings of the 3rd international workshop on Search and mining usergenerated contents, SMUC ’11, pages 37–44, New York, NY, USA, 2011 D D PHAM, G B TRAN, S B PHAM, Author Profiling for Vietnamese Blogs, Proceedings of the 2009 International Conference on Asian Language Processing, p.190-194, 2009 F RANGEL, P ROSSO Use of language and author profiling: Identification of gender and age In Natural Language Processing and Cognitive Science, p 177, 2013 E STAMATATOS A survey of modern authorship attribution methods, Journal of the American Society [23] [24] [25] [26] for information Science and Technology, 60(3), pp.538-556, 2009 G TANG Cross-linguistic analysis of Vietnamese and English with implications for Vietnamese language acquisition and maintenance in the United States, Journal of Southeast Asian-American Education & Advancement, 2, 1–33, 2006 I H WITTEN, E FRANK Data mining: Practical machine learning tools and techniques, Morgan Kaufmann, San Francisco, second edition, 2005 R ZHENG, H CHEN, Z HUANG, Y QIN Authorship Analysis in Cybercrime Investigation (Eds.): ISI 2003, LNCS 2665, pp : 59-73, 2003 R ZHENG, J LI, H CHEN, Z HUANG A framework for authorship identification of online messages: Writing-style features and classification techniques, Journal of the American Society for Information Science and Technology, vol 57, no 3, pp 378–393, 2006 Nhận ngày: 09/02/2017 Tập V-1, Số 17 (37), tháng 6/2017 SƠ LƢỢC VỀ CÁC TÁC GIẢ DƢƠNGTRẦN ĐỨC Sinh ngày 28/02/1978 Tốt nghiệp trường ĐH Khoa học Tự nhiên, ĐH Quốc gia Hà Nội ngành CNTT năm 1999 Tốt nghiệp Thạc sỹ chuyên ngành Hệ thống thông tin ĐH Tổng hợp Leeds, Vương Quốc Anh năm 2004 Hiện công tác Khoa CNTT, Học viện Công nghệ Bưu Viễn thơng Hướng nghiên cứu chính: Học máy, liệu lớn Email: ducdt@ptit.edu.vn PHẠM BẢO SƠN Sinh năm 1977 Tốt nghiệp ĐH Tổng hợp New South Wales năm 1999 Tốt nghiệp Thạc sỹ sau nhận Tiến sĩ chuyên ngành Khoa học máy tính ĐH Tổng hợp New South Wales năm 2007 Hiện công tác trường ĐH Công nghệ, ĐH Quốc gia Hà Nội Hướng nghiên cứu chính: Học máy, xử lý ngôn ngữ tự nhiên Email: sonpb@vnu.edu.vn TÂN HẠNH Sinh năm 1966 Nhận Tiến sĩ chuyên ngành Khoa học máy tính Viện Cơng nghệ Grenoble, Pháp Hiện cơng tác Học viện Cơng nghệ Bưu Viễn thơng Hướng nghiên cứu chính: Học máy, xử lý tín hiệu Email: tanhanh@ptit.edu.vn - 50 - ... nghiệm xác định đặc điểm tác giả tập đặc trưng khác để kiểm chứng hiệu đặc trưng âm tiết vần Bảng cho thấy kết xác định đặc điểm tác giả viết diễn đàn tiếng Việt tập đặc trưng Các tập đặc trưng... Để giảm phụ thuộc liệu phụ thuộc miền từ nội dung, nghiên cứu đề xuất loại đặc trưng cho việc xác định đặc điểm tác giả văn tiếng Việt Đó đặc trưng dựa âm tiết vần tiếng Việt Một từ tiếng Việt. .. cho âm tiết vần có tính độc lập nhiều so với từ nội dung [5] VI KẾT LUẬN Trong nghiên cứu này, đề xuất phương pháp xác định đặc điểm tác giả văn tiếng Việt dựa đặc trưng âm tiết vần tiếng Việt Âm

Ngày đăng: 18/05/2021, 16:16

Tài liệu cùng người dùng

Tài liệu liên quan