Xác định đặc điểm tác giả văn bản tiếng Việt bằng học sâu

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	1,64 MB

Nội dung

Bài viết này trình bày nghiên cứu về xác định đặc điểm tác giả văn bản tiếng Việt bằng phương pháp học sâu dựa trên mạng nơ ron tích chập (Convolutional Neural Network – CNN).

Dương Trần Đức XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT BẰNG HỌC SÂU Dương Trần Đức Học viện Cơng nghệ Bưu Viễn thơng Tóm tắt: Xác định đặc điểm tác giả văn việc đặc điểm tác giới tính, độ tuổi, v.v dựa phân tích văn tác giả Bài báo trình bày nghiên cứu xác định đặc điểm tác giả văn tiếng Việt phương pháp học sâu dựa mạng nơ ron tích chập (Convolutional Neural Network – CNN) Các thực nghiệm thực tập liệu viết diễn đàn tiếng Việt sử dụng nghiên cứu trước nhận diện đặc điểm tác giả văn tiếng Việt [8] Kết thực nghiệm cho thấy phương pháp có kết nhận diện tốt so với phương pháp học máy truyền thống Máy véc tơ hỗ trợ (Support Vector Machine) Rừng ngẫu nhiên (Random Forest).1 Từ khóa: học sâu, mạng nơ ron tích chập, nhận diện đặc điểm tác giả I MỞ ĐẦU Xác định đặc điểm tác giả văn (author profiling) nhánh nghiên cứu phân tích tác giả văn Phân tích tác giả văn có hai nhánh nghiên cứu khác nhận diện tác giả (authorship attribution) xác minh tác giả (author verification) [29] Trong việc nhận diện tác giả xác minh tác giả tiến hành xác định kiểm chứng tác giả cụ thể người tạo nên văn thường áp dụng cho loại văn thống báo, tiểu thuyết v.v, xác định đặc điểm tác giả văn thường thực loại văn tự loại văn trực tuyến (bài viết blog, email, diễn đàn v.v) [1, 2, 5, 9, 12, 22, 29] Do đó, ứng dụng xác định đặc điểm tác giả văn khác so với hai nhánh nghiên cứu lại, vốn thường sử dụng để giải tranh cãi quyền tác giả Ứng dụng chủ yếu xác định đặc điểm tác giả lĩnh vực quảng cáo trực tuyến, cá nhân hóa hệ thống web, hỗ trợ điều tra tội phạm trực tuyến v.v, đặc điểm cá nhân tác giả viết dự đoán để hỗ trợ hoạt động quảng cáo mục đích điều tra tội phạm Cùng với phát triển Internet kênh trao đổi thông tin trực tuyến, ứng dụng việc xác định đặc điểm tác giả văn trở nên cần thiết quan trọng Các nghiên cứu trước xác định đặc điểm tác giả văn thường sử dụng phương pháp học máy truyền thống tập véc tơ đặc trưng Một số phương pháp học máy truyền thống sử dụng phổ biến cho nghiên cứu xác định đặc điểm tác giả văn bao gồm SVM [2, 3, 5, 7, 13, 17, 21, 28], Logistic Regression Tác giả liên hệ: Dương Trần Đức, Email: duongtranduc@gmail.com Đến tòa soạn: 7/2019, chỉnh sửa: 8/2019, chấp nhận đăng: 8/2019 SỐ 02 (CS.01) 2019 [15, 16], Random Forest [29], Multi-Class Real Winnow [4] Các tập đặc trưng thử nghiệm chia thành hai loại đặc trưng dựa theo phong cách dựa theo nội dung Phong cách viết xem phương pháp độc lập miền sử dụng nhiều nghiên cứu trước xác định đặc điểm tác giả Hầu hết thành phần có tính độc lập nội dung ngôn ngữ sử dụng làm đặc trưng phong cách ký tự, tính chất từ, từ loại [4, 5, 14, 27], từ công cụ (từ chức năng) [2, 6, 11], cấu trúc ngữ pháp [5, 6, 23] v.v Các đặc trưng thường tạo từ quy tắc ngôn ngữ không phụ thuộc vào tập liệu hay lĩnh vực cụ thể Ngược lại, từ nội dung thường lựa chọn từ tập liệu sử dụng nghiên cứu lựa chọn từ từ ngữ có ngữ nghĩa liên quan đến lĩnh vực cụ thể [2, 10, 12] Do đó, từ nội dung xem có tính phụ thuộc miền phụ thuộc liệu mức độ Các nghiên cứu trước thường thực tập liệu khác (về ngơn ngữ, đặc điểm phân tích, độ lớn, v.v) Do vậy, khó để xác định phương pháp đề xuất tốt Trong năm gần đây, thi PAN phân tích tác giả văn đóng vai trò quan trọng lĩnh vực nghiên cứu Việc nghiên cứu thi thực so sánh điều kiện (tập liệu, tiêu chí) đem lại đánh giá khách quan cho phương pháp xu hướng Những năm đầu thi PAN (2013-2016), nghiên cứu tham gia hầu hết thực nghiệm phương pháp học máy truyền thống tập đặc trưng đa dạng, SVM phương pháp bật đem lại kết tốt Trong thi năm 20172018, phương pháp học máy truyền thống SVM tiếp tục nhiều nghiên cứu lựa chọn, phương pháp học sâu bắt đầu sử dụng đem lại kết tiềm [23, 24] Đối với ngôn ngữ tiếng Việt, có số nghiên cứu xác định đặc điểm tác giả văn ngơn ngữ [6, 8], hạn chế Ngồi ra, chưa có nghiên cứu ứng dụng học sâu cho xác định đặc điểm tác giả văn tiếng Việt Nghiên cứu thực với mục tiêu thử nghiệm phương pháp học sâu cho xác định đặc điểm tác giả văn tiếng Việt (thực nghiệm tập liệu viết diễn đàn tiếng Việt) so sánh với kết nghiên cứu trước xác định đặc điểm tác giả văn tiếng Việt phương pháp học máy truyền thống Bài báo có cấu trúc sau Phần II trình bày nghiên cứu liên quan lĩnh vực phân tích tác giả mạng nơ ron tích chập cho xử lý văn Phần III mơ tả phương pháp Phần IV trình bày kết thảo TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 29 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT BẰNG HỌC SÂU luận Cuối cùng, kết luận trình bày phần V báo II TỔNG QUAN A Phân tích tác giả văn Phân tích tác giả văn q trình phân tích tài liệu để đưa kết luận tác giả Những nghiên cứu phân tích tác giả xuất từ đầu kỷ 19, với phân tích phong cách viết để nhận diện tác phẩm tác Shakespeare hay Bacon Tuy nhiên, nghiên cứu coi thức lĩnh vực thực Mosteller Wallace (1964) nhằm xác định tác giả luận cương liên bang (Federalist Papers) thông qua việc phân tích tần suất từ chức sử dụng văn Nghiên cứu khởi đầu cho loạt nghiên cứu phân tích tác giả sử dụng đặc trưng “phong cách” Thời kỳ (từ cuối năm 1990s), phát triển Internet dẫn đến số lượng lớn văn trực tuyến tạo ra, đồng thời cải tiến mơ hình tính tốn học máy thúc đẩy nghiên cứu lĩnh vực Ngoài ra, nghiên cứu phát triển nhiều theo nhánh xác định đặc điểm tác giả văn vô danh nhận diện tác giả văn thống Đối với phương pháp phân tích truyền thống, q trình phân tích tác giả văn liên quan đến hai vấn đề chính, kỹ thuật phân tích tập đặc trưng phân biệt Các kỹ thuật phân tích thời kỳ đầu thường sử dụng kỹ thuật đơn giản dựa thống kê [25] ứng dụng chủ yếu việc hỗ trợ xử lý tranh cãi tác giả văn dài (bài báo, sách v.v) Các nghiên cứu gần chủ yếu khai thác kỹ thuật học máy để tận dụng khả tính tốn máy tính Rất nhiều thuật toán học máy nghiên cứu thử nghiệm thành cơng cho việc phân tích tác SVM, Decision Tree, Neural Networks v.v Tập đặc trưng xem phương pháp biểu diễn văn khía cạnh phong cách viết cách sử dụng từ Theo Argamon et al [2], có hai loại đặc trưng sử dụng phân tích tác giả văn bản: đặc trưng phong cách đặc trưng dựa nội dung Đặc trưng phong cách bao gồm đặc trưng liên quan đến ký tự, tính chất từ (lexical), cách sử dụng cấu trúc ngữ pháp (syntactic), đặc trưng cấu trúc văn Đặc trưng dựa nội dung bao gồm từ nội dung sử dụng thường xuyên lĩnh vực lĩnh vực khác Các từ thường chọn theo phương pháp thống kê tần suất xuất tập liệu dựa ngữ nghĩa từ Các đặc trưng dựa thành phần hệ thống từ vựng chứng minh có hữu ích việc xác định đặc điểm tác giả văn nhiều nghiên cứu trước Từ thành phần ký tự riêng lẻ [4, 5, 13, 27, 28], cụm ký tự n-grams [3, 12, 15, 21], đến đặc điểm từ loại từ, mức độ đa dạng từ vựng [5, 6, 14, 25], từ công cụ [2, 6, 10, 14, 16], từ nội dung [2, 9, 11, 19, 21, 29] nghiên cứu sử dụng Trong nghiên cứu xem hoàn chỉnh lĩnh vực này, Mosteller Wallace (1964) sử dụng số từ công cụ để giải vấn đề tranh chấp việc xác định tác giả luận liên bang (Federalist Papers) Sau đó, có nhiều nghiên cứu lĩnh vực phân tích tác giả văn khai thác xác minh tính SỐ 02 (CS.01) 2019 hữu ích từ cơng cụ lĩnh vực với số từ sử dụng từ 122 đến 645 từ Các đặc trưng dựa ký tự đặc điểm từ ký tự đơn lẻ/cụm ký tự, độ dài tự, loại từ, mức độ đa dạng dùng từ sử dụng phổ biến De Vel et al [7] sử dụng đặc trưng độ dài từ/câu, loại từ, tần suất ký tự/loại ký tự, với đặc trưng ngữ pháp khác để phân biệt 156 emails tiếng Anh Zheng et al Abbasi Chen [1] sử dụng 79 đặc trưng từ vựng tổng số 418 đặc trưng để phân tích tác giả viết diễn đàn tiếng Anh tiếng Ả rập Các tác giả sử dụng tập đặc trưng hiệu dựa việc khai thác đặc điểm hình thái tả tiếng Ả rập (chẳng hạn bổ sung thêm hai đặc trưng phần kéo dài tiếng Arập) Iqbal et al [11] sử dụng 419 đặc trưng bao gồm đặc trưng dựa ký tự, đựa đặc điểm từ, đặc trưng ngữ pháp để xây dựng loại “vân chữ viết” nhằm xác minh tác giả email hỗ trợ điều tra tội phạm Một số nghiên cứu sử dụng cụm kết hợp ký tự (n-grams) để làm đặc trưng phân loại Stamatatos [25] nghiên cứu phương pháp sử dụng cụm ký tự có độ dài biến đổi để giải vấn đề nhận diện tác giả tin Reuters 50 tác giả khác Ý tưởng phương pháp so sánh cụm ký tự với cụm ký tự tương đồng giữ lại cụm ký tự trội Peersman et al [17] dự đốn tuổi giới tính người dùng chat dựa đoạn chat thu thập từ mạng xã hội Netlog Bỉ Tác giả sử dụng cụm ký tự từ làm đặc trưng phân loại Các cụm từ, từ, từ, từ cụm ký tự, ký tự, ký tự trích từ tập liệu sau chọn lọc thuật toán lựa chọn đặc trưng khi-bình phương (chisquare) Đối với thuật tốn học sâu, việc ứng dụng phân tích văn nói chung phân tích tác giả nói riêng nghiên cứu nhiều hơn, điển hình cơng bố thi PAN năm 2016, 2017 [23, 24] Khác với phương pháp học máy truyền thống, việc ứng dụng học sâu cho phân tích tác giả đòi hỏi việc chuyển đổi văn thành ma trận số để áp dụng quy trình huấn luyện mạng học sâu Do vậy, nghiên cứu học sâu cho phân tích tác giả khơng khai thác đặc trưng đa dạng phương pháp học máy truyền thống mà tìm cách chuyển đổi văn nói trên, phổ biến việc sử dụng tập nhúng từ tập nhúng ký tự Vấn đề trình bày chi tiết phần B Mạng nơ ron tích chập cho xử lý văn Mạng nơ ron tích chập kỹ thuật kiểm nghiệm ứng dụng rộng rãi lĩnh vực nhận diện hình ảnh Tuy nhiên, việc ứng dụng kỹ thuật cho lĩnh vực xử lý văn thời gian đầu hạn chế Vấn đề việc ứng dụng trực tiếp kỹ thuật xử lý văn việc biểu diễn thành dạng ma trận số tương tự hình ảnh Vấn đề giải nhờ việc véc tơ hoá từ chia văn thành đoạn có kích thước số từ Việc vec tơ hoá từ theo mơ hình mã hố one-hot (mã hố kiểu 1-of-V, V kích thước tập từ vựng) tỏ không hiệu độ dài véc tơ lớn không khai thác liên quan ngữ nghĩa từ Phương pháp véc tơ hoá từ sử dụng phổ biến hiệu tập nhúng từ (word embeddings) Phương pháp sử dụng mạng nơ ron có tầng ẩn với đầu vào tập liệu lớn TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 30 Dương Trần Đức sinh không gian véc tơ với số chiều nhỏ nhiều so với kích thước tập từ vựng (chỉ khoảng vài trăm) Mỗi từ tập liệu gắn với véc tơ khơng gian từ có ngữ cảnh đặt gần không gian véc tơ [12] Ngoài ra, chia văn thành đoạn có kích thước nhau, số đoạn khơng có đủ kích thước đệm vào số từ trống đủ kích thước quy định Các kỹ thuật xử lý giúp cho đoạn văn biểu diễn ma trận số giống hình ảnh áp dụng phương pháp CNN liệu Một số nghiên cứu điển hình phân tích văn sử dụng kỹ thuật nghiên cứu [12, 23], tác giả sử dụng mạng nơ ron tích chập để nhận diện đặc điểm giới tính ngôn ngữ tác giả viết mạng xã hội Twitter cho kết khả quan khả ứng dụng CNN xử lý văn Bên cạnh việc sử dụng tập nhúng từ, tập nhúng ký tự ứng dụng rộng rãi, điển hình nghiên cứu [24], tác giả nghiên cứu sử dụng mạng nơ ron tích chập cụm ký tự để nhận diện đặc điểm tác giả viết ngắn III PHƯƠNG PHÁP Tương tự số nghiên cứu trước ứng dụng CNN cho xử lý văn bản, nghiên cứu áp dụng kỹ thuật tập nhúng từ để tạo véc tơ từ tiến hành chia văn thành đoạn (đệm từ trống cho đoạn thiếu từ) Cụ thể, văn thực tách từ cơng cụ tách từ có sẵn [18], sau chia thành đoạn có kích thước k từ Các từ sau biểu diễn véc tơ có độ dài e theo kỹ thuật word embedding Khi đó, đoạn văn biểu diễn ma trận , cột tương ứng với véc tơ từ Ma trận sử dụng làm đầu vào cho CNN Mạng áp dụng lọc tích chập (convolutional filters) cụm từ với số lượng từ khác Giả sử lọc áp dụng phần C (từ từ thứ i đến từ thứ w, ký hiệu C[i : i + w -1]), với w kich thước lọc (cũng số từ cụm từ) Ma trận kết O sử dụng làm đầu vào cho hàm sigmoid g, với số bias b để tạo đặt trưng fi văn [24] O = H C[i : i + w -1] (1) fi = g (O + b) (2) Bộ lọc áp dụng phần khác C tạo đồ đặc trưng (feature map) f = [f1, f2, , fk-w+1] (3) Hình cho thấy cấu trúc CNN với số lọc m = 500 kích thước lọc w = 2, 3, từ Lưu ý số hàng lọc ma trận đầu vào ln kích thước véc tơ từ Tiếp theo, thao tác max-pooling over time thực đồ đặc trưng đầu Theo đó, có giá trị lớn đồ đặc trưng = max{f} sử dụng để làm đặc trưng tương ứng với lọc Ý tưởng việc lấy giá trị quan trọng (giá trị lớn nhất) đồ đặc trưng Việc lấy giá trị lớn cho phép q trình thực nhiều lọc kích thước khác (số từ khác nhau) SỐ 02 (CS.01) 2019 Hình Mạng CNN cụm lớp and lọcmax tích chập, Figur e1 N-gr am CNN Word embeddings aretừ fed với to convolutional pooling layers, and the final classification is done via a softmax layer applied to the final text representation max-pooling, softmax [23] Như vậy, lọc tạo đặc trưng Các đặc trưng kết hợp với thành véc tơ cuối Word Convolutional Neural (W-CNN) receive softmax a fixed-length sequence of lớp kết nối đầyNetworks đủ (fully connected) words input.để Figure depictsdự theđoán W-CNN W-CNN first layer applies sửasdụng thực1 đầuarchitecture CNN 2.1 Wor d Convolutional Neur al Networ ks a set of convolutional filters of different sizes For the concrete case of Figure m = { 500, 500, = { 2,kết 3, 4}quả The convolution by these filĐể500} tốiand ưuw hoá CNN operation này, baperformed tham số ters is only applied in one dimension Then a max-pooling over time operation is perđược tuỳ chỉnh Đầu tiên kích thước đoạn văn formed over the output feature maps, where only the maximum value of each feature đầuThe vào thước đầu (tính theo sốconcatenated từ) nhỏ mapbản is used maxKích pooling outputs for vào each feature map are in a vecsẽ khó đạt the hiệu quả, thước lớn làm tor Figure shows output vector of sizekhi 1500kích composed by the maximum activation values generated by each over tạp the input softmaxsốlayer is giảm số mẫu convolutional làm tăng độfilter phức thựcFinally, aTham added, profiling task.bộ Dropout regularization was also n depends thứwhere hai its làsize số Abộ lọc m on vàthekích thước lọc w Số lọc used after the Embedding layer with a p = 0.25 Given that we train our network using lớn tăng khả đại diện, nhiên dễ dẫn đến trình sequences of text of one author, we used a bagging scheme for prediction stage If we khớp lọc lớnncó thể giúp bắt havetrạng n sequences of text Kích for onethước author, we generate predictions fornắm the correspondmối quan hệaverage rộng từ, với điều kíchthethước ing author, then we the predictions and get the kiện class with highesttập value In that wayliệu an author labeled with ứng its respective phảiislớn tương [24] gender and language variety Ngoài ra, tập nhúng từ thực nghiệm theo hai loại tập nhúng từ tạo trước (pre-trained) tập Several CNN architectures were explored for finding the most suitable models for the nhúng từ tạo trình huấn luyện mơ hình author profiling task Our exploration focused on two kinds of hyperparameters, InputTập nhúng từ tạo trước sử dụng tập véc tơ từ huấn luyện trước liệu tiếng Việt thu thập từ trang Wikipedia tiếng Việt Tập nhúng từ tạo q trình huấn luyện mơ hình véc tơ từ huấn luyện dựa tập liệu sử dụng nghiên cứu 2.2 I mplementation details IV THỰC NGHIỆM VÀ KẾT QUẢ A Dữ liệu Trong nghiên cứu này, sử dụng tập liệu nghiên cứu trước nhận diện đặc điểm tác giả viết diễn đàn [8] để tiện so sánh kết Tập liệu thu thập cách sử dụng thu thập liệu tự động (crawler) để thu thập viết từ diễn đàn phổ biến Việt Nam otofun.net.vn, webtretho.com, tinhte.vn Do viết diễn đàn viết tự chứa nhiều nội dung nhiễu, phương pháp lọc làm liệu thực nói Sau bước xử lý làm sạch, tập liệu thu thập bao gồm có 6.831 viết từ 104 người dùng Tổng cộng có 736.252 từ trung bình 107 từ/bài Các viết lựa chọn có thông tin đặc điểm người viết, dùng làm liệu huấn luyện cho hệ thống Độ dài viết giới hạn khoảng từ 250 đến 1.500 ký tự để loại bỏ viết ngắn dài (bài viết dài chứa đoạn văn chép từ nguồn khác) Bảng cho thấy thông số thông kê tập ngữ liệu huấn luyện TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 31 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT BẰNG HỌC SÂU Bảng Thống kê tập ngữ liệu huấn luyện Bảng Kết thực nghiệm Đặc điểm tác giả Số viết Lớp đặc điểm Tỷ lệ Đặc điểm tác giả WCNN Pre-trained WCNN Self-trained SVM Full Giới tính 4.474 Nam 54% Giới tính 92.17 93.96 91.72 Nữ 46% Độ tuổi 72.36 72.95 71.26 Ít 22 21% Vùng miền 84.34 84.85 84.28 Từ 24 đến 27 27% 62.07 62.23 61.43 Nhiều 32 52% Nghề nghiệp Bắc 57% Nam 43% Kinh doanh, bán hàng 36% Kỹ thuật, công nghệ 31% Giáo dục, y tế 33% Độ tuổi 3.017 Vùng miền Nghề nghiệp 3.960 3.453 B Kết đánh giá Các thực nghiệm thực sử dụng thư viện Tensorflow Với kỹ thuật Gradient Descent, độ xác tính tốn so sánh 200 vòng (epochs) mơ hình có độ xác tốt lưu lại để làm kết thực nghiệm Các tham số thử nghiệm để tối ưu khoảng sau: Kích thước đầu vào (tính theo số từ): Nhỏ từ 32 lớn 256 (mỗi lần tăng gấp đơi) Kích thước lọc w: Các lọc thử nghiệm gồm {1, 2, 3}, {2, 3, 4}, {3, 4, 5} Số lọc m: từ 300 đến 1.500 Lần lượt lọc 100, 200, 300, 400, 500, - Ngoài ra, hai tham số khác áp dụng để tránh vấn đề khớp tham số drop-out =0,5 L2 regularization = 0,7 Tập liệu chia thành hai tập huấn luyện kiểm tra với tỷ lệ tập kiểm tra 10% Bảng Giá trị tham số tối ưu Tham số Giá trị tối ưu Kích thước đầu vào 128 Kích thước lọc {3, 4, 5} Số lọc 1000 Số drop-out 0,5 L2 regularization 0,7 Bảng cho thấy kết qủa nhận diện tập kiểm tra với tham số tốt trường hợp: - Mạng nơ rơn tích chập từ với tập nhúng từ tạo trước (WCNN Pre-trained) - Mạng nơ ron tích chập từ với tập nhúng từ tự huấn luyện (WCNN Self-trained) Thuật toán học máy truyền thống SVM tập đặc trưng đầy đủ (kết lấy từ nghiên cứu trước tập liệu [8]) SỐ 02 (CS.01) 2019 Đối với việc sử dụng tập nhúng từ khác nhau, tập nhúng từ tự huấn luyện cho kết tốt tập nhúng từ huấn luyện từ trước Điều giải thích tập nhúng từ tự huấn luyện có khả phản ánh sát thực mối quan hệ từ tập liệu Mặc dù vậy, kết tập nhúng từ huấn luyện trước có độ xác cao phương pháp học máy truyền thống Ngoài ra, việc sử dụng tập nhúng từ huấn luyện trước xem phương pháp độc lập liệu véc tơ từ tạo cách độc lập với tập liệu dùng nghiên cứu V KẾT LUẬN Trong nghiên cứu này, chúng tơi trình bày phương pháp sử dụng học sâu dựa mạng nơ ron tích chập để xác định đặc điểm tác giả văn tiếng Việt Đây phương pháp có nhiều khác biệt so với phương pháp học máy truyền thống ứng dụng xử lý văn chưa có nhiều nghiên cứu lĩnh vực nhận diện đặc điểm tác giả văn bản, đặc biệt văn tiếng Việt Các kết thực nghiệm cho thấy độ xác nhận diện sử dụng phương pháp tốt so với phương pháp học máy truyền thống thực nghiệm cho kết tốt tập liệu SVM Các tham số thực tối ưu qua thực nghiệm bảng cho thấy kết hợp tốt tham số - Kết bảng cho thấy phương pháp có kết tốt phương pháp học máy truyền thống có kết tốt nghiên cứu trước SVM thực nghiệm tập liệu Kết cho thấy tiềm phương pháp, đặc biệt khả tối ưu hệ thống tham số phương pháp đa dạng có nhiều ảnh hưởng đến kết nhận diện Hướng phát triển tiến hành nghiên cứu loại đầu vào khác tập nhúng ký tự tập nhúng cặp ghép n ký tự (n-grams) thay tập nhúng từ Các loại đầu vào thử nghiệm ngôn ngữ khác cho kết khả quan, chưa thử nghiệm ngôn ngữ tiếng Việt Ngoài ra, tham số mạng nơ ron tích chập cần bổ sung mở rộng khoảng thực tối ưu nhằm tìm tham số tốt Do việc huấn luyện mạng nơ ron tích chập hoạt động tiêu tốn tài nguyên thời gian, nghiên cứu chưa thực tối ưu cách triệt để tham số thuật toán TÀI LIỆU THAM KHẢO [1] A Abbasi, H Chen, Applying authorship analysis to extremist-group Web forum messages, IEEE Intelligent Systems (2005) TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 32 Dương Trần Đức [2] A Abbasi, H Chen, Writeprints: A Style-based approach to identity-level identification and similarity detection in cyberspace, ACM Transactions on Information Systems, 26 (2), pp: 1-29 (2008) [3] S Argamon, M Koppel, J Fine, and A Shimoni, Gender, Genre, and Writing Style in Formal Written Texts, Text 23(3), August (2003) [4] S Argamon, M Koppel, J Pennebaker, and J Schler, Automatically Profiling the Author of an Anonymous Text, Communications of the ACM , in press (2008) [5] M Corney, O DeVel, A Anderson, and G Mohay, Gender-preferential text mining of e-mail discourse, In ACSAC’02: Proc of the 18th Annual Computer Security Applications Conference, Washington, DC, pp : 21-27 (2002) [6] P Dang, T Giang, and P Son, Author profiling for Vietnamese blogs, International Conference on Asian Language Processing (2009) [7] O De Vel, A Anderson, M Corney, and G Mohay, Mining e-mail content for author identification forensics, SIGMOD Record 30(4), pp 55-64 (2001) [8] D Đức, P Sơn, T Hạnh, Xác định đặc điểm tác giả viết diễn đàn tiếng Việt dựa âm tiết vần, Chun san cơng trình nghiên cứu, phát triển, ứng dụng Công nghệ thông tin Truyền thông, Bộ Thông tin Truyền thông, số 17(37) (2017) [9] S Goswami, S Sarkar, and M Rustagi, Style-based analysis of bloggers’ age and gender, In Proceedings of the Third International ICWSM Conference The AAAI Press (2009) [10] G Gressel, P Hrudya, K Surendran, S Thara, A Aravind, and P Prabaharan, Ensemble learning approach for author profiling, Notebook for PAN at CLEF (2014) [11] F Iqbal, Messaging Forensic Framework for Cybercrime Investigation A Thesis in the Department of Computer Science and Software Engineering - Concordia University Montréal, Canada (2010) [12] Y Kim, Convolutional neural networks for sentence classification, In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp 1746–1751, Association for Computational Linguistics, Doha, Qatar (2014) [13] M Koppel, S Argamon, and A R Shimoni, Automatically categorizing written texts by author gender Literary and Linguistic Computing, 17(4), pp : 401-412 (2002) [14] T Kucukyilmaz, C Aykanat, B B Cambazoglu, and F Can, Chat mining: predicting user and message attributes in computer-mediated communication Information Processing and Management, 44(4), pp - 1448-1466 (2008) [15] D Nguyen, Noah A Smith, and Carolyn P Rosé, Author age prediction from text using linear regression In Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, LaTeCH ’11, pages 115–123, Stroudsburg, PA, USA, 2011 Association for Computational Linguistics (2011) [16] D Nguyen, R Gravel, D Trieschnigg, and T Meder, "How old you think i am?"; a study of language and age in twitter Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media (2013) [17] C Peersman, W Daelemans, and L V Vaerenbergh, Predicting age and gender in online social networks In Proceedings of the 3rd international workshop on Search and mining user-generated contents, SMUC ’11, pages 37– 44, New York, NY, USA, 2011 ACM (2007) [18] L H Phuong, N T M Huyen, R Azim, T H Vinh, A hybrid approach to word segmentation of Vietnamese texts, Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, (2008) [19] F Rangel, P Rosso, M Potthast, B Stein, Overview of the 5th Author Profiling Task at PAN 2017: Gender and Language Variety Identification in Twitter In: Working SỐ 02 (CS.01) 2019 [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] Notes Papers of the CLEF 2017 Evaluation Labs CEUR Workshop Proceedings CLEF and CEUR-WS.org (2017) F Rangel, and P Rosso, Use of language and author profiling: Identification of gender and age In Natural Language Processing and Cognitive Science, p 177 (2013) J Savoy, Authorship attribution based on specific vocabulary ACM Trans Inf Syst 30, (2012) J Schler, M Koppel, S Argamon, and J Pennebaker, Effects of Age and Gender on Blogging In 43 proceedings of AAAI Spring Symposium on Computational Approaches for Analyzing Weblogs (2006) S Sierra, M Montes-y-Gómez, T Solorio, and F A González, Convolutional Neural Networks for Author Profling In Working Notes Papers of the CLEF 2017 Evaluation Labs (CEUR Workshop Proceedings), Vol 1866 CLEF and CEUR-WS.org (2017) P Shrestha, S Sierra, F Gonzalez, M Montes, P Rosso, T Solorio, Convolutional neural networks for authorship attribution of short texts In: Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, pp 669–674 Association for Computational Linguistics, Valencia, Spain (2017) E Stamatatos, N Fakotakis, G Kokkinakis, Automatic text categorization in terms of genre and author, Computational Linguistics 26(4), pp 471-495 (2000) C Zhang, and P Zhang, Predicting gender from blog posts Technical report, Technical Report University of Massachusetts Amherst, USA (2010) X Zhang, J Zhao, Y Le Cun, Character-level convolutional networks for text classification In: Advances in Neural Information Processing Systems pp 649–657 (2015) R Zheng, H Chen, Z Huang, and Y Qin, Authorship Analysis in Cybercrime Investigation (Eds.): ISI 2003, LNCS 2665, pp : 59-73 (2003) R Zheng, J Li, H Chen, and Z Huang, “A framework for authorship identification of online messages: Writing-style features and classification techniques,” Journal of the American Society for Information Science and Technology, vol 57, no 3, pp 378–393 (2006) AUTHOR PROFILING FOR VIETNAMESE TEXT USING DEEP LEANING Abstracrt: Author profiling is the task of identify the characteristics of authors such as gender, age, etc only based on analysis of their texts This paper show reseach on author profiling of Vietnamese texts using deep learning based on Convolutional Neural Networks (CNN) The experiments were conducted on the datasets which was experimented in the previous research on author profiling of Vietnamese texts [8] The experiments show that the new method has better results than the traditional machine learning methods such as SVM (Support Vector Machine) and Random Forest on author profiling task Keywords: deep learning, convolutional neural network, author profiling Dương Trần Đức Tốt nghiệp Đại Ảnh tác giả học KHTN, Đại học Quốc gia Hà Nội ngành Công nghệ thông tin năm 1999, Thạc sỹ chuyên ngành Hệ thống thông tin Đại học Tổng hợp Leeds, Vương Quốc Anh năm 2004, Tiến sỹ chuyên ngành Kỹ thuật máy tính Học viện Cơng nghệ Bưu Viễn thơng năm 2018 Hiện cơng tác Khoa Công nghệ Thông tin, Học viện Công nghệ Bưu Viễn thơng TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 33 Nguyễn Thị Yến, Đinh Thị Thái Mai, Lê Nhật Thăng CÁC PHƯƠNG PHÁP QUẢN LÝ NHIỄU TRONG TRUYỀN THÔNG D2D Nguyễn Thị Yến*, Đinh Thị Thái Mai**, Lê Nhật Thăng* *Học viện Công nghệ Bưu Viễn Thơng **Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội I GIỚI THIỆU Trong thập kỷ qua, lưu lượng liệu di động tăng lên đáng kể Dự báo vài năm tới đây, gia tăng tiếp tục nhiều gấp nhiều lần [1], điều cho thấy tải mạng di động với kiến trúc truyền thống tăng lên dần không đáp ứng nhu cầu đặt Để đáp ứng tải lưu lượng ngày tăng, truyền thông thiết bị với thiết bị (D2D) [2], [3] đề xuất Truyền thông D2D ngày thu hút quan tâm từ giới học thuật tới ngành công nghiệp lớn nhằm giải loạt vấn đề cấp bách mà mạng di động thơng thường gặp phải q tải gia tăng nhanh chóng thiết bị di động hay khơng phù hợp với số đòi hỏi độ trễ dịch vụ Nhiều nghiên cứu chứng minh quan trọng truyền thông D2D mạng hệ (NGNs) [4], [5] Các kết dựa phân tích mô nghiên cứu cho thấy lợi ích vượt trội cho ứng dụng giảm tải trễ cho mạng Tác giả liên hệ: Nguyễn Thị Yến, Email: nguyenthiyen.nty281182@gmail.com Đến tòa soạn: 7/2019, chỉnh sửa: 8/2019/2019, chấp nhận đăng: 8/2019 SỐ 02 (CS.01) 2019 Về bản, truyền thông D2D chia thành hai hướng truyền thơng D2D sử dụng chung dải tần số với truyền thông di động (In band) truyền thông D2D sử dụng khác dải tần số với truyền thơng di động (Out band) Trong đó, truyền thơng D2D Inband chia thành loại Underlay (U-D2D) Overlay (OD2D) Hình miêu tả khác biệt hai phương pháp truyền thông D2D In band Underlay D2D Thời gian Từ khóa: Mạng truyền thơng D2D, quản lý nhiễu, phân bổ tài nguyên, U-D2D, SINR tế bào, tăng dung lượng kênh hay mở rộng vùng phủ sóng [6], [7] Out band Tóm tắt: Với gia tăng nhanh chóng số lượng thiết bị cầm tay (đặc biệt điện thoại thông minh), mạng di động truyền thống dần đáp ứng nhu cầu dung lượng tốc độ ngày cao hay độ trễ yêu cầu ngày thấp Trong bối cảnh này, truyền thông thiết bị với thiết bị (D2D) xem công nghệ hiệu việc tăng hiệu phổ giảm tải cách giảm lưu lượng liệu di động mạng di động Tuy nhiên, để đạt nhiều lợi ích, truyền thơng D2D phải sử dụng nguồn tài nguyên cách linh hoạt Điều dẫn đến nhiễu truyền thông D2D truyền thông di động Trong báo này, thực phân tích, đánh giá hai phương pháp quản lý nhiễu: sử dụng vùng hạn chế nhiễu sử dụng vùng ngăn chặn nhiễu người dùng D2D người dùng di động áp dụng cho đường xuống kịch mạng di động tái sử dụng tần số phần (Partial Frequency Reuse - PFR) kênh pha-đinh Rayleigh Kết mô công cụ Matlab cho thấy tính hiệu phương pháp quản lý nhiễu qua việc cải thiện dung lượng hệ thống so sánh với phương pháp thông thường.1 Overlay D2D D2D Di động Di động Phổ di động Phổ di động Truyền thông di động Truyền thông D2D Phổ di động Phổ ISM Hình Hai phương pháp truyền thơng D2D Để đạt hiệu suất dung lượng kênh, phương pháp dựa tái sử dụng tần số xem có hiệu Truyền thơng D2D Inband-Underlay ngoại lệ Nguồn tài nguyên, cụ thể kênh tần số tận dụng tối đa để cấp phát cho truyền thông D2D Trong thực tế, trường hợp cặp liên kết D2D dùng chung tài nguyên với người dùng mạng di động (CUE) gây nhiễu [8] Trong năm vừa qua, nhiều thuật toán đề xuất để giải vấn đề Các phương pháp chủ yếu sử dụng điều khiển công suất dựa chất lượng kênh truyền [9], [10] Mục đích cuối tối đa thông lượng hệ thống mà đảm bảo mức SINR cho người dùng di động Một số nhóm tác giả đề xuất giao thức đề cập [11] Trong báo này, nghiên cứu đánh giá hai phương pháp quản lý nhiễu truyền thông D2D xem xét đến ảnh hưởng môi trường truyền lan không gian tự do: phương pháp quản lý nhiễu sử dụng vùng hạn chế nhiễu (ILA) phương pháp quản lý nhiễu sử dụng vùng ngăn chặn nhiễu (ISA) Hai phương pháp có chung ý tưởng xây dựng vùng hạn TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 34 CÁC PHƯƠNG PHÁP QUẢN LÝ NHIỄU TRONG TRUYỀN THÔNG D2D chế nhiễu cho thiết bị D2D đầu cuối Điểm khác biệt hai phương pháp mơ hình tính tốn bán kính vùng quản lý nhiễu Sau đó, nguồn tài nguyên sử dụng cho người dùng di động nằm bán kính vùng loại bỏ khỏi danh sách cấp phát cho truyền thơng D2D Cuối cùng, hiệu hệ thống đánh giá tác động kênh pha-đinh Reyleigh Phần lại báo tổ chức sau: phần II, chúng tơi miêu tả mơ hình, hoạt động hệ thống truyền thông D2D Trong phần III, IV trình bày cụ thể phương pháp quản lý nhiễu sử dụng vùng hạn chế nhiễu (ILA) phương pháp quản lý nhiễu sử dụng vùng ngăn chặn nhiễu (ISA) Phần V giới thiệu kết mô phân tích đánh giá, so sánh hiệu phương pháp quản lý nhiễu Cuối cùng, kết luận báo trình bày phần VI II MƠ HÌNH HỆ THỐNG TRUYỀN THƠNG D2D Trong phần này, giới thiệu ngắn gọn mô hình hệ thống truyền thơng D2D sở lý thuyết phương pháp quản lý nhiễu nghiên cứu dùng D2D khu vực Z1 Z Cuối cùng, BS định nguồn tài nguyên thích hợp cho người dùng D2D, nhằm cải thiện thông lượng mạng B Hoạt động hệ thống truyền thông D2D Truyền thông D2D mô kịch mạng tế bào gồm trạm Hình Mạng di động sử dụng OFDMA kết hợp với công nghệ tái sử dụng tần số phần (PFR) [13] PFR nghiên cứu mạng dựa OFDMA để khắc phục vấn đề nhiễu đồng kênh Trong PFR, vùng phủ trạm gốc phân chia thành vùng trung tâm vùng biên, tế bào sử dụng chung tần số cho vùng trung tâm sử dụng tần số đôi khác cho vùng biên khác với vùng trung tâm Trong vùng phủ trạm, người dùng trung tâm sử dụng kênh trung tâm biên, người dùng biên sử dụng kênh ứng với vùng biên Do đó, can thiệp tế bào người dùng di động người dùng D2D gần loại bỏ thông lượng hệ thống cải thiện A Mơ hình hệ thống truyền thơng D2D Chúng ta xét mơ hình mạng gồm M người dùng di động (CUE) cặp truyền thông D2D Chúng phân bố cách ngẫu nhiên tế bào chịu quản lý BS Như thấy Hình 2, người truyền D2D (TUE) truyền liệu mức lượng Pd tới người nhận D2D (RUE) Khoảng cách từ BS đến TUE RUE d1 d Khoảng cách TUE RUE L TUE đặt vùng phủ Z1 có bán kính r1 , RUE đặt vùng phủ Z có bán kính r2 CUEM CUEK CUE2 Hình Hoạt động hệ thống truyền thông D2D BS Chúng xác định thông lượng cách áp dụng công thức Shannon [12] Đối với mạng di động có chứa cặp truyền thơng D2D, dung lượng mạng tổng dung lượng truyền thông di động ( Cc ) truyền thông CUE1 r2 D2D ( Cd ): RUE L r1 Ctotal  Cc  Cd Z2 Truyền liệu Nhiễu TUE Trong đó, Cc Cd tính sau: Z1 K M K i 1 j 1 Cc   log 1  SINRci   Hình Mơ hình hệ thống truyền thơng D2D Chúng tơi giả sử có K tổng số M CUE chia sẻ tài nguyên cho truyền thơng D2D Tín hiệu từ BS lúc gây nhiễu cho cặp truyền thông D2D Đồng thời, K CUE bị ảnh hưởng nhiễu từ cặp truyền thông D2D Vì vậy, việc BS quản lý nhiễu truyền thơng D2D mạng di động cần thiết Quy trình để hạn chế nhiễu phương pháp mô tả sau Đầu tiên, BS hạn chế nhiễu truyền thông D2D mạng di động cách sử dụng phương pháp vùng hạn chế nhiễu Sẽ CUEs sử dụng tài nguyên với người SỐ 02 (CS.01) 2019 (1)  log 1  SINR  cj Cd  K log 1  SINRd  (2) (3) Với, SINRci SINR CUEi chia sẻ tài nguyên với người dùng D2D, SINRcj SINR CUE j khơng có nhiễu với truyền thơng D2D SINRd SINR TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 35 ... KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 31 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT BẰNG HỌC SÂU Bảng Thống kê tập ngữ liệu huấn luyện Bảng Kết thực nghiệm Đặc điểm tác giả Số viết Lớp đặc. ..XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ VĂN BẢN TIẾNG VIỆT BẰNG HỌC SÂU luận Cuối cùng, kết luận trình bày phần V báo II TỔNG QUAN A Phân tích tác giả văn Phân tích tác giả văn q trình phân... pháp sử dụng học sâu dựa mạng nơ ron tích chập để xác định đặc điểm tác giả văn tiếng Việt Đây phương pháp có nhiều khác biệt so với phương pháp học máy truyền thống ứng dụng xử lý văn chưa có

Ngày đăng: 15/05/2020, 21:37