Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
1,23 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Ứng dụng học chuyển tiếp tốn trích xuất thông tin từ CV xin việc NGUYỄN HỒNG SƠN nguyenhongson.kstn.hust@gmail.com Ngành: Toán Tin Giảng viên hướng dẫn: TS Nguyễn Thị Thanh Huyền Viện: Toán ứng dụng Tin học HÀ NỘI, 03/2021 Chữ kí GVHD LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN Tóm tắt nội dung luận văn Trích chọn thơng tin văn lĩnh vực nhỏ xử lý ngơn ngữ tự nhiên có tính ứng dụng cao có nhu cầu cấp thiết thực tế với đối tượng văn chứa đựng thơng tin quan trọng cần trích xuất Nhận diện thực thể tên toán quan trọng thuộc lĩnh vực với yêu cầu đặt nhận biết chuỗi từ văn đại diện cho tên đối tượng Có nhiều phương pháp giải toán này, phương pháp học chuyển tiếp cho thấy khả mạnh mẽ toán xử lý ngơn ngữ tự nhiên nói chung tốn nhận diện thực thể tên nói riêng Các kết mơ hình học chuyển tiếp bật BERT, ALBERT, XLNET, ELECTRA cho thấy khả mô hình hóa hiệu đặc trưng tổng qt ngơn ngữ Tuy nhiên miền liệu có tính đặc thù cao, số nhược điểm học chuyển tiếp nói chung mơ hình BERT nói riêng bộc lộ rõ ràng Trong nội dung luận văn, tác giả tập trung vào tốn trích xuất thông tin từ CV xin việc Tác giả đề xuất hệ thống trích xuất thơng tin ứng dụng học chuyển tiếp giải toán nhận diện thực thể tên Do liệu có tính đặc thù cao, tác giả nhận thấy mơ hình BERT khơng đạt hiệu mong muốn Để giải vấn đề này, tác giả đề xuất phương pháp cải thiện độ xác mơ hình việc tiền huấn luyện mơ hình ngôn ngữ Flair miền liệu ngôn ngữ từ CV xin việc Các kết thử nghiệm liệu đánh giá cho thấy mơ hình Flair có kích thước nhỏ, kiến trúc đơn giản khả giới hạn mơ hình BERT, tiền huấn luyện miền liệu, mơ hình có khả học đặc trưng liệu đưa dự đốn xác đáng kể Song song với việc thực thực nghiệm cần thiết, tác giả nghiên cứu cơng trình liên quan đến ưu nhược điểm phương pháp học chuyển tiếp nói chung mơ hình thực nghiệm Dựa kết cơng trình đó, kết hợp với đánh giá chi tiết đặc trưng liệu, tác giả đưa đề xuất tiềm để cải tiến kết hệ thống Từ khóa: Information extraction, Transfer learning, BERT, Flair Hà Nội, ngày 30 tháng 03 năm 2021 GIẢNG VIÊN HƯỚNG DẪN HỌC VIÊN Kí ghi rõ họ tên Kí ghi rõ họ tên LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN Lời cảm ơn Tác giả có năm tháng khơng thể quên học tập rèn luyện mái trường Đại học Bách Khoa Hà Nội chương trình thạc sĩ khoa học với dạy thầy cô Viện Toán Ứng dụng Tin học Mặc dù quãng thời gian khơng q dài ln quãng thời gian tuyệt vời đời tác giả Những đóng góp nhỏ bé luận văn nhắc nhở tác giả nghiên cứu kết khơng thể hồn thiện không nhờ giúp đỡ người Lời đầu tiên, tác giả xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Thị Thanh Huyền, người trực tiếp hướng dẫn tận tình, chu đáo mặt chuyên môn, động viên mặt tinh thần để tác giả hồn thành luận văn Cơ đưa nhiều lời nhận xét giá trị, lời khuyên trao đổi nhiều ý nghĩa Cô cổ vũ tác giả từ ý tưởng đề tài nhen nhóm tâm trí tác giả, giúp cho tác giả tâm nghiên cứu hồn thiện Trong suốt q trình thực luận văn, tác giả học nhiều kinh nghiệm chắn có ích nghiệp khoa học sau tác giả Tác giả trân trọng ý kiến nhận xét cụ thể, chi tiết tận tâm TS Lê Chí Ngọc xin gửi lời cám ơn đến thầy Thầy nhiệt tình giúp đỡ tác giả khoảng thời gian khó khăn Với kiến thức sâu sắc lĩnh vực học máy trí tuệ nhân tạo, thầy cho tác giả điểm sai, thiếu sót nghiên cứu Trên tất cả, tận tâm thầy khơng riêng tác giả mà cịn với tất học viên, sinh viên điều mà tác giả ngưỡng mộ lớn Nhiệt huyết lượng gần vô hạn thầy khoa học đã, luôn tạo động lực cho tác giả đường nghiên cứu Tác giả xin cảm ơn chân thành tới TS Nguyễn Minh Tiến, giảng viên trường Đại học Sư Phạm Kỹ Thuật Hưng Yên, NLP team leader công ty TNHH Cinnamon Lab TS Nguyễn Minh Tiến giúp đỡ, góp ý cho tác giả nhiều không phạm vi chủ đề mà tác giả nghiên cứu, mà công việc nghiên cứu khoa học nói chung Tác giả khơng thể qn trải nghiệm lần trình bày báo khoa học, với nhiều sai sót sơ đẳng, điểm yếu điểm thiếu anh góp ý tận tình giúp tác giả trường thành nhiều công việc nghiên cứu Tác giả xin cảm ơn tất thầy cơ, bạn bè Viện Tốn Ứng dụng tin học Những kiến thức bổ ích mà tác giả thu thơng qua q trình học tập nghiên cứu, hướng dẫn dạy thầy cô, bạn bè nơi nên tảng giúp tác giả hồn thiện luận văn Khơng thế, LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN hành trang quan trọng tác giả sau Hơn nữa, kỷ niệm suốt quãng thời gian rèn luyện nơi kỷ niệm đáng nhớ đáng trân trọng tác giả Tác giả muốn gửi lời cảm ơn tới tồn anh chị, bạn, đồng nghiệp cơng ty TNHH Cinnamon Lab, đặc biệt bạn team NLP Khơng có giúp đỡ người, tác giả khơng thể trưởng thành có kiến thức chắn ngày hôm Những năm tháng rèn luyện người, quãng thời gian nghiên cứu, thực nghiệm, niềm vui lúc thành công áp lực nảy sinh vấn đề luyện tác giả trở thành người mạnh mẽ sẵn sàng đương đầu với thách thức khoa học Một lời cảm ơn chân thành tác giả xin gửi đến đồng nghiệp Công ty TNHH Techainer Mặc dù thời gian đồng hành tác giả cơng ty khơng q dài, kỷ niệm vơ đáng nhớ Nếu khơng có anh em, bạn bè công ty, tác giả khơng thể hồn thiện liệu tất nhiên đề tài nghiên cứu Những kinh nghiệm mà anh em, bạn bè truyền đạt cho tác giả suốt trình nghiên cứu làm việc tác giả trân trọng vận dụng sống nghiệp khoa học Lời cuối không phần quan trọng, lời cảm ơn chân thành sâu sắc nhất, tác giả xin gửi tới gia đình, người yêu thương nhất, người luôn bên, động viên, cổ vũ tác giả Sự giúp đỡ mặt tinh thần vô quan trọng lớn lao giúp tác giả có thêm động lực để cố gắng phấn đấu, khơng lùi bước trước khó khăn thử thách Tác giả theo đuổi nghiệp khoa học khơng có giúp đỡ từ người Từ sâu thẳm trái tim, tác giả xin gửi lời cảm ơn đến bố mẹ, Nguyễn Văn Hồ Phạm Thị Lan, người hy sinh nhiều để tác giả có ngày hơm Tác giả xin cảm ơn chị em gái, tạo động lực cho tác giả giai đoạn khó khăn Tác giả trân trọng cám ơn thầy cô đọc, đánh giá đưa nhận xét luận văn Ngồi ra, có nhiều người khác mà tác giả cần phải gửi lời cám ơn, nhiên thật khó để liệt kê hết tên người Vậy nên, tác giả xin phép giữ tên người tâm trí hy vọng người hiểu Nguyễn Hồng Sơn Mục lục Lời nói đầu 13 Tổng quan tốn 1.1 Bài tốn trích chọn thơng tin văn 1.1.1 Giới thiệu 1.1.2 Bài toán nhận diện thực thể tên 1.2 Bài tốn trích chọn thông tin CV xin việc 1.2.1 CV xin việc 1.2.2 Đặc điểm liệu 1.2.3 Mục tiêu, toán 1.2.4 Một số nghiên cứu liên quan 1.2.5 Thách thức 1.3 Các hướng tiếp cận thông thường 1.3.1 Các phương pháp sử dụng luật 1.3.2 Các mơ hình học máy 1.3.3 Các mơ hình học sâu 14 14 14 14 15 15 17 18 19 19 20 20 20 22 23 23 24 30 32 35 35 36 36 38 39 Transfer learning xử lý ngôn ngữ tự nhiên 2.1 BERT - Mơ hình biểu diễn hai chiều tiền huấn luyện 2.1.1 Cơ chế attention 2.1.2 Mơ hình Transformer 2.1.3 BERT 2.2 Flair - Chuỗi nhúng ngữ cảnh cho gán nhãn 2.2.1 Mơ hình tự hồi quy 2.2.2 Mơ hình ngơn ngữ tự hồi quy 2.2.3 Mạng neuron hồi tiếp 2.2.4 Mạng nhớ ngắn hạn dài 2.2.5 Mô hình ngơn ngữ Flair LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN Hệ thống trích lọc thơng tin từ CV xin việc sử dụng Transfer learning 3.1 Kiến trúc hệ thống 3.2 Phương pháp đánh giá 3.3 Nhận diện thực thể tên sử dụng mơ hình BERT 3.3.1 Kết mơ hình BERT 3.3.2 Nhận xét kết mơ hình BERT 3.3.3 Nhược điểm mơ hình BERT 3.4 Nhận diện thực thể tên sử dụng mơ hình Flair 3.4.1 Huấn luyện mơ hình ngơn ngữ Flair 3.4.2 Mơ hình nhận diện thực thể tên Flair 3.4.3 Kết mô hình Flair 3.5 Nhược điểm phương hướng cải tiến 3.5.1 Nhược điểm 3.5.2 Hướng cải tiến 41 41 42 44 44 45 46 48 48 49 52 54 54 54 Kết luận 55 Chỉ mục 57 Tài liệu tham khảo 59 Phụ lục 61 A Công bố khoa học liên quan 62 Danh sách hình vẽ 1.1 1.2 Ví dụ CV xin việc CV trình bày dạng bảng 16 18 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 Mơ hình sequence-to-sequence thông thường Soft attention Global attention Mô hình Transformer Biểu diễn liệu đầu vào BERT Mơ hình ngơn ngữ tự hồi quy Nguyên tắc hoạt động RNN Mạng neuron hồi tiếp hai chiều (bên phải) Kiến trúc LSTM 24 26 27 30 33 36 37 38 39 3.1 3.2 3.3 3.4 3.5 Kiến trúc tổng quan Confusion matrix Kiến trúc mơ hình BERT-NER Mơ hình gán nhãn Mơ hình ngơn ngữ Flair 41 42 44 50 51 Danh sách bảng 3.1 3.2 3.3 3.4 3.5 Kết Kết Kết Kết học vấn Kết mơ mơ mơ mơ mơ hình hình hình hình hình BERT-NER Flair-NER cho liệu kinh nghiệm làm việc Flair-NER cho liệu thông tin Flair-NER cho thơng tin liên quan đến trình độ Flair-NER cho thông tin liên quan đến kỹ 45 52 53 53 53 Bảng kí hiệu từ ngữ viết tắt Từ viết tắt Ý nghĩa AE Autoencoder, Tự mã hóa AR Autoregressive, Tự hồi quy BERT Bidirectional Encoder Representations from Transformers, Mơ hình biểu diễn ngơn ngữ hai chiều CRF Conditional random field, Trường điều kiện ngẫu nhiên CV Curriculum Vitae HMM Hidden Markov model, Mơ hình Markov ẩn LM Language model, mơ hình ngơn ngữ LSTM Long short term memory, Mạng nhớ dài ngắn NER Named entity recognition, Nhận diện thực thể tên RNN Recurrent neural network, Mạng neuron hồi tiếp 10 Lời nói đầu Bài tốn trích chọn thơng tin văn (Document information extraction) tiếp cận khai thác theo nhiều hướng khác Trong phổ biến phương pháp học sâu (deep learning) dựa liệu lớn ghi nhận kết tốt với tính tổng quát cao phương pháp học máy (machine learning) dựa việc phân tích đánh giá đặc trưng liệu Tuy nhiên thực tế lĩnh vực xử lý ngơn ngữ tự nhiên tập liệu huấn luyện thường khơng sẵn có tốn nhiều chi phí để tạo Điều đặt yêu cầu rõ ràng cho phương pháp tiếp cận tập trung vào việc khai thác đặc trưng ngôn ngữ từ liệu có kích thước nhỏ khai thác thông tin từ tập liệu lớn sử dụng thông tin học áp dụng lên toán cụ thể Transfer learning (học chuyển tiếp) đời dựa ý tưởng thứ hai, cho phép sử dụng thông tin tổng quan lĩnh vực để áp dụng vào toán cụ thể Các kết nghiên cứu nhiều toán với nhiều tập liệu đa dạng cho thấy khả vượt trội phương pháp học chuyển tiếp [1] [2] [3] Trong khuôn khổ luận văn này, tác giả tập trung vào việc đánh giá khả học chuyển tiếp áp dụng cho tốn trích xuất thơng tin từ hồ sơ xin việc (curriculum vitae - CV), từ đưa kết luận hiệu hạn chế số mơ hình học chuyển tiếp Tác giả tập trung vào liệu hồ sơ xin việc loại văn thông dụng đời sống phức tạp có nhu cầu xử lý thực tế lớn Đây loại văn quan trọng cá nhân trình tìm kiếm việc làm Nói riêng tình hình việc làm Việt Nam, số thống kê quý IV năm 2020 [4] : • Lực lượng lao động từ 15 tuổi trở lên quý IV năm 2020 55,1 triệu người • Trong quý IV năm 2020, lực lượng lao động tăng 563.8 ngàn người so với quý trước • Tỷ lệ lao động qua đào tạo có cấp quý IV năm 2020 24.6% 11 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN điển hơn, LSTM Mặc dù việc LSTM hiệu so với Transformer rõ ràng, nhiên khẳng định trường hợp, mơ hình Transformer-based tốt LSTM-based Kết thực nghiệm cho thấy giả thuyết tác giả xác 3.4 Nhận diện thực thể tên sử dụng mơ hình Flair 3.4.1 Huấn luyện mơ hình ngơn ngữ Flair Kết Flair cho thấy mơ hình ngơn ngữ xây dựng mức ký tự đem lại hiệu ấn tượng Mơ hình dạng có khả vượt trội sau đây: • Khả tối ưu cục bộ: Mặc dù mơ hình ngơn ngữ huấn luyện chuỗi ký tự dài, tham số mơ hình tối ưu theo đoạn ngắn, từ ta định độ dài ngữ cảnh mà mơ hình xem xét q trình huấn luyện Việc giảm độ dài chuỗi q trình tối ưu giúp mơ hình tập trung vào đặc trưng mang tính cục thay ngữ cảnh tồn cục • Khả xử lý sai tả: Do tín hiệu đầu vào ký tự, mơ hình khơng chịu ảnh hưởng độ xác thuật toán tách từ Một số ký tự đặc biệt (ký tự ẩn, ký tự đánh dấu, ) bị giảm ảnh hưởng đến khả biểu diễn ngơn ngữ mơ hình Tác giả huấn luyện lại mơ hình ngơn ngữ Flair dựa tập liệu 10063 CV xin việc Trước huấn luyện mơ hình, tác giả có nhận xét ngôn ngữ sử dụng loại liệu sau: • Câu văn ngắn, liên kết câu văn văn yếu • Trong nhiều trường hợp, định dạng câu văn thể ý nghĩa thân câu văn nhiều ngữ cảnh xung quanh Ta thấy rõ điều quan sát trường liệu liên quan đến địa chỉ, thời gian, phòng ban, phận, • Ngơn từ có tính trùng lặp cao Ví dụ địa cơng ty nơi ở, thông tin thời gian làm việc thời gian tốt nghiệp, Với đặc trưng liệu vậy, tác giả nhận thấy mơ hình q lớn không phù hợp yêu cầu tính đa dạng tín hiệu đầu vào, 48 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN tập liệu huấn luyện lớn ngơn ngữ mang tính trùng lặp cao Mơ hình lớn yêu cầu sức mạnh phần cứng lớn hơn, thời gian chi phí cho việc huấn luyện lớn Do vậy, mơ hình ngơn ngữ tác giả lựa chọn hai khối LSTM chiều với kích thước vector ẩn 512 Để khai thác đặc trưng câu văn ngắn, thơng tin mang tính cục câu văn, tác giả tập trung vào tối ưu đoạn ngắn (32 ký tự) Điều khiến cho mơ hình có khả học tốt đặc trưng mẫu, định dạng câu văn vai trị ngữ cảnh (context) khơng cịn chiếm trọng số lớn Mơ hình ngơn ngữ đánh giá số Perplexity Một cách trực quan, Perplexity hiểu độ đo tính khơng chắn Chỉ số Perplexity mơ hình ngơn ngữ xem xét mức độ hỗn tạp mơ hình dự đốn ký tự Về mặt tốn học, Perplexity định nghĩa sau: ppl(P, Q) = 2H(P,Q) (3.4.1) Trong đó, H(P, Q) giá trị entropy chéo hai phân phối P Q Xét riêng trường hợp mơ hình ngơn ngữ, Perplexity tính tốn sau: ppl(p, x0:m ) = 2−( M log2 m i=0 pxi ) = 2( M log2 m i=0 −pxi ) (3.4.2) Trong đó, M số lượng đơn vị ngôn ngữ (trong trường hợp ký tự) chuỗi x0:m Kết cụ thể sau: • Mơ hình ngơn ngữ theo chiều thuận: ppl = 2.64 • Mơ hình ngơn ngữ theo chiều nghịch: ppl = 2.56 Kết cho thấy mơ hình có khả mơ tả tương đối tốt tính chất ngơn ngữ sử dụng loại văn Tuy kết thấp kết báo cáo kết nghiên cứu [11] với ppl = 2.42 cho tiếng Anh, nhiên ta thấy khác biệt chủ yếu đến từ kích thước mơ hình kích thước tập liệu huấn luyện 3.4.2 Mơ hình nhận diện thực thể tên Flair Mơ hình dự đốn sử dụng mạng LSTM hai chiều tín hiệu đầu vào xử lý lớp nhúng Kết mạng LSTM hai chiều sau truyền qua mạng neuron với lớp ẩn, để lấy kết tương ứng vector xác suất tương ứng với lớp tương tự mơ hình thơng thường 49 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN Hình 3.4: Mơ hình gán nhãn Vector xác suất kết lớp dự đoán sử dụng BiLSTM tiếp tục đưa vào mơ hình CRFs [10] để đưa kết chuỗi nhãn tương ứng với chuỗi liệu ban đầu Phương pháp đưa cho lớp đánh giá điểm số chuỗi dự đoán yi:n dựa hai thành phần Thành phần thứ xác suất thu từ kết lớp dự đoán Thành phần thứ hai phân phối xác suất hai chuỗi nhãn dán, ký hiệu T [i, j] tương ứng xác suất từ tố có nhãn i theo sau từ tố có nhãn j , xác suất học mơ hình CRF Cụ thể, điểm số chuỗi dự đốn tính tốn sau: n n [yi ] + s(yi:n ) = i=1 T [yi−1 , yi ] (3.4.3) i=2 Lớp nhúng từ Lớp nhúng từ - Word embedding - trọng tâm Flair Như nói trên, lớp nhúng tích hợp đầy đủ đặc tính tốt mơ hình nhúng thơng thường, gia tăng cách hiệu độ xác mơ hình dự đốn Lớp nhúng từ bao gồm hai thành phần quan trọng lớp nhúng theo ngữ cảnh giúp Flair học mối quan hệ ngữ nghĩa biểu diễn từ dựa chuỗi ký tự Thành phần thứ hai mơ hình xếp chồng lớp nhúng, giúp khai thác hiệu đến từ mơ hình nhúng khác Lớp nhúng ngữ cảnh Lớp nhúng ngữ cảnh - Contextual string embeddings - với chất mạng LSTM , huấn luyện cách sử dụng mơ hình ngơn ngữ cấp độ kí tự, huấn luyện để dự đốn kí tự câu Chi tiết mơ hình 50 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN trình bày 2.2.11 Nghĩa mơ hình xem xét đến trạng thái ẩn kí tự câu sử dụng trạng thái ẩn đại diện cho ký tự Trong kiến trúc mạng LSTM, xác suất điều kiện P (xt |x0:t−1 ) tính xấp xỉ thơng qua đầu ht T P (xt |x0:t−1 ) ≈ P (xt |ht ; θ) (3.4.4) t=0 Hình 3.5: Mơ hình ngơn ngữ Flair Để tạo đại diện cho từ, ta sử dụng mơ hình thuận (forward) nghịch (backward) với kiến trúc giống hướng dự đốn khác (mơ hình thuận dự đốn kí tự cịn mơ hình nghịch dự đốn kí tự trước đó) Đối với mơ hình thuận, ta sử dụng đầu trạng thái ẩn sau truyền kí tự cuối từ qua mơ hình, cịn mơ hình nghịch ta sử dụng đầu trạng thái ẩn sau truyền kí tự từ qua mơ hình Với hfti+1 −1 trạng thái ẩn mơ hình ngơn ngữ thuận vị trí phía trước từ mà ta xét, hbti−1 +1 tương ứng trạng thái ẩn mơ hình ngơn ngữ nghịch vị trí phía sau từ mà ta xét, vector đại diện cho từ tạo sau: wi := hfti+1 −1 ++hbti−1 +1 (3.4.5) Xếp chồng lớp nhúng Việc xếp chồng lớp nhúng (Stack Embeddings) cho phép mơ hình khai thác ưu điểm mơ hình nhúng khác Việc xếp chồng lớp nhúng 51 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN đơn giản thực cách ghép nối vector nhúng lại với tạo thành vector nhúng cho từ xem xét 3.4.3 Kết mơ hình Flair Sau có mơ hình ngơn ngữ, tác giả thực huấn luyện đánh giá kết mơ hình nhận diện thực thể tên Kích thước hidden vector mơ hình nhận diện thực thể tên 1024 Kết cho tập liệu kinh nghiệm làm việc thể chi tiết 3.2 Tên trường Số lượng mẫu Precision Recall F1-score Giai đoạn làm việc 3480 0.95 0.90 0.92 Tên công ty 3589 0.85 0.81 0.83 Vị trí làm việc 3569 0.86 0.82 0.84 Địa công ty 164 0.75 0.65 0.70 Micro Average 10820 0.86 Macro Average 10820 0.82 Bảng 3.2: Kết mơ hình Flair-NER cho liệu kinh nghiệm làm việc Ta thấy kết mơ hình Flair cho tốn nhận diện thực thể liên quan đến kinh nghiệm làm việc cao kết mơ hình BERT Kết tất trường tăng, trường thông tin có liệu địa cơng ty Điều chứng tỏ khả mơ hình ngơn ngữ tương đối tốt việc diễn đạt đặc trưng liệu Ta thấy tượng cân Precision Recall khơng cịn xảy mơ hình Flair Mặc dù giá trị Recall bị suy giảm (0.65 so với 0.88), giá trị Precision tăng mạnh (0.75 so với 0.21) Như vậy, khả xử lý tính nhập nhằng mơ hình tốt nhiều Tiếp tục sử dụng mơ hình này, ta có kết cho nhóm thông tin khác mô tả chi tiết Bảng 3.3, 3.4 3.5 Bảng 3.3 kết mơ hình liệu liên quan đến thông tin ứng viên Mặc dù địa chỉ, địa email số điện thoại thông tin đặc trưng, vài mẫu, thông tin bị che bị làm sai lệch mục đích cá nhân người cung cấp liệu, khiến cho kết trường không cao Bảng 3.4 thể kết trích xuất trường liên quan đến trình độ học vấn tương đối tốt ổn định Kết trích xuất trường liên quan đến kỹ thường thấp, cụ thể 52 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN Tên trường Precision Recall F1-score Tên ứng viên 0.92 0.92 0.92 Ngày sinh 0.97 0.97 0.97 Giới tính 0.93 0.93 0.93 Địa 0.79 0.77 0.78 Số điện thoại 0.86 0.93 0.89 Email 0.94 0.87 0.90 Micro Average 0.89 Macro Average 0.90 Bảng 3.3: Kết mơ hình Flair-NER cho liệu thơng tin Tên trường Precision Recall F1-score Giai đoạn 0.94 0.85 0.89 Tên trường học 0.86 0.79 0.82 Cấp bậc 0.86 0.84 0.85 Phòng ban 1.0 0.8 0.89 Chuyên ngành 0.86 0.84 0.85 Micro Average 0.85 Macro Average 0.86 Bảng 3.4: Kết mơ hình Flair-NER cho thơng tin liên quan đến trình độ học vấn Tên trường Precision Recall F1-score Kỹ mềm 0.40 0.84 0.54 Kỹ chuyên môn 0.32 0.73 0.45 Ngôn ngữ 0.52 0.82 0.64 Bảng 3.5: Kết mơ hình Flair-NER cho thơng tin liên quan đến kỹ thể Bảng 3.5 Nguyên nhân đến từ liệu Kỹ ứng viên thường mô tả dạng liệt kê (đối với kỹ chuyên môn ngôn ngữ), dạng câu văn dài (đối với kỹ mềm), mà khơng có ngữ cảnh kèm, mơ hình chủ yếu sử dụng khả ghi nhớ để dự đốn Chính điểm khiến tính tổng qt mơ hình khơng cao kết đánh giá tập liệu kiểm tra thấp nhiều so với loại thông tin khác Như vậy, mặt tổng quan, mô hình Flair đem lại kết tốt F1-score hầu hết thông tin 80% Tuy nhiên, để áp dụng kết 53 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN vào thực tế cần bước tiến lớn Mặc dù Flair khắc phục số nhược điểm BERT loại liệu này, nhiên hai mô hình có chung số điểm yếu cần cải tiến Ở phần tiếp theo, tác giả tập trung phân tích vào điểm yếu đưa hướng cải tiến hứa hẹn cho đề tài 3.5 Nhược điểm phương hướng cải tiến 3.5.1 Nhược điểm Dễ dàng thấy CV xin việc văn có cấu trúc Mặc dù CV viết theo phong cách riêng, cách thức trình bày phần không giống nhau, thân CV thường tuân theo cấu trúc gồm nhiều phần riêng biệt Các loại thông tin thường nằm số phần cố định văn Do vậy, tác giả nhận thấy hai nhược điểm mơ hình tại: • Thơng tin mặt vị trí từ ngữ: Cả BERT FLair mơ hình sử dụng liệu đầu vào ngôn ngữ, tức liệu chiều Tuy nhiên thông tin mặt vị trí từ ngữ văn quan trọng, tức liệu cần bổ sung thơng tin mặt vị trí hai chiều Mặt khác, để chuyển liệu biểu diễn không gian hai chiều liệu tuần tự, mơ tả Hình 3.1, bước hóa tác giả sử dụng luật để ghép nối từ ngữ, câu văn lại với Bộ luật điểm yếu lớn hệ thống tính tổng qt khơng cao • Thơng tin mang tính cục bộ: Một số loại thông tin nằm số phần định văn bản, việc xác định phần chứa thơng tin giúp tăng độ xác mơ hình lên nhiều Thay tìm kiếm thơng tin tồn văn bản, ta cần tìm kiếm số phần định Trong kiến trúc tổng quan, tác giả sử dụng mơ hình phân loại câu văn, đề mục đoạn văn để xác định thành phần chứa thông tin tương ứng Tuy nhiên nhiều trường hợp , câu văn đề mục khơng rõ ràng, khiến cho mơ hình dự đốn sai, từ làm giảm độ xác tồn hệ thống 3.5.2 Hướng cải tiến Do nhược điểm thiếu thơng tin mặt vị trí từ ngữ đóng vai trò quan trọng việc làm giảm độ xác hệ thống, tác giả nghiên cứu 54 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN tìm số phương pháp cải thiện điểm Dưới số hướng tiếp cận có nhiều hứa hẹn: • LayoutLM [26]: mơ hình LayouLM Yiheng Xu cộng đưa cải tiến BERT việc đưa thêm thông tin vị trí từ ngữ khơng gian hai chiều vào trình tiền huấn luyện Ở phiên đầu tiên, thơng tin mặt vị trí giá trị tuyệt đối, nhiên nhóm tác giả nhận nhược điểm đưa phiên LayouLMv2 [27] với thơng tin vị trí tương đối từ ngữ Như vậy, ta sử dụng mơ hình để đưa thêm đặc trưng mặt vị trí từ ngữ vào mơ hình từ cải thiện kết mơ hình Tuy nhiên mơ hình Transformer-based nên yêu cầu mặt phần cứng thử thách lớn • SPADE [28] : Đây mơ hình dựa đồ thị, cho phép kết hợp thơng tin mặt từ ngữ vị trí cách hiệu Trong cơng trình này, Wonseok Hwang cộng đưa phương pháp mã hóa vị trí từ ngữ không gian hai chiều hiệu Mặc dù mơ hình kiểm chứng dựa liệu văn thưa, nhiên kết mơ hình tiềm 55 Kết luận Trong phạm vi nội dung luận văn, tác giả đạt kết sau: • Tác giả xây dựng hệ thống trích xuất thơng tin từ CV xin việc, áp dụng học chuyển tiếp vào toán nhận diện thực thể tên - bốn toán hệ thống • Tác giả thử nghiệm mơ hình BERT cho toán nhận diện thực thể tên Dựa kết thực nghiệm phân tích chi tiết đặc điểm liệu, kết hợp việc nghiên cứu kỹ lưỡng cơng trình liên quan đến việc đánh giá nhược điểm mơ hình BERT, tác giả nhược điểm mơ hình BERT việc áp dụng vào miền liệu ngôn ngữ CV xin việc • Tác giả nghiên cứu mơ hình ngơn ngữ Flair nhận thấy ưu điểm vượt trội mơ hình so với BERT miền liệu mang tính đặc thù cao Từ đó, tác giả đưa phương pháp học chuyển tiếp cách thực tiền huấn luyện mơ hình miền liệu ngôn ngữ CV xin việc áp dụng mơ hình vào tốn nhận diện thực thể tên Kết cuối cho thấy phương pháp học chuyển tiếp tác giả đạt kết vượt trội so với BERT Với kết đạt được, luận văn có tiềm ứng dụng rõ ràng hệ thống tìm kiếm quản trị nhân Một hệ thống quản trị nhân hoàn chỉnh bao gồm nhiều thành phần nhiều chức khác nhau, từ tìm kiếm ứng viên đến đánh giá lực nhân viên Bài tốn trích xuất thơng tin từ CV xin việc áp dụng cho bước tìm kiếm sàng lọc ứng viên số lượng lớn hoàn toàn tự động , giúp cho hệ thống tìm kiếm nhân hoạt động hiệu đem lại nhiều giá trị kinh tế giá trị nhân văn Giá trị kinh tế thể chỗ doanh nghiệp tối ưu trình tìm kiếm sàng lọc ứng viên, từ cắt giảm đáng kể chi phí cho việc tìm kiếm nhân Đối với ứng viên, họ dễ dàng tìm kiếm việc làm phù hợp thông 56 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN tin họ tiếp nhận xử lý nhanh hơn, từ giúp làm giảm tỉ lệ thất nghiệp cải thiện đời sống Cuối số hướng phát triển tiềm luận văn: • Cải thiện độ xác mơ hình: Tác giả đề xuất hai hướng tiếp cận cải thiện độ xác hệ thống SPADE LayoutLM Ngoài ra, số phương pháp xử lý ảnh áp dụng để tăng hiệu mơ hình • Phát triển tốn đánh giá nhân dựa thơng tin trích xuất từ CV xin việc: Thơng tin trích xuất có ý nghĩa lớn, mang tính định tính định lượng cao, ta xây dựng mơ hình đánh giá, xếp hạng ứng viên yêu cầu công việc cụ thể dựa thông tin 57 Chỉ mục F1 -score, 43 Mơ hình ngơn ngữ, 36, 40 mơ hình ngơn ngữ, 50 Distilled BERT, 46 mơ hình ngơn ngữ, 48 Named entity recognition, 14, 44 Next Sentence Prediction, 34 ALBERT, 2, 46 Attention, 23, 24, 30 Autoencoder, 35 Autoregressive, 35 Perplexity, 49 Precision, 43, 46, 52 Recall, 43, 45, 52 Recurrent neural network, 36 BERT, 2, 23, 32, 35, 44 Conditional Random Fields, 21, 50 confusion matrix, 42 Contextual string embeddings, 50 CV xin việc, 15, 48 SCIBERT, 47 Self attention, 28, 29, 31 self-supervised, 32 Soft attention, 25 SPADE, 55, 57 ELECTRA, exBERT, 47 Transfer learning, 11, 23 Transformer, 23, 30–32, 44 Flair, 2, 35, 39, 48 Global attention, 27 Word embedding, 50 WordPiece, 33 Hard attention, 26 Hidden Markov Model, 20 XLNET, 2, 47 Information extraction, 14 K-BERT, 47 LayoutLM, 55, 57 LSTM, 23, 35, 38, 40, 48–50 Masked LM, 33 Maximum Entropy Markov Models, 21 Multi-head attention, 29, 31 Multi-head attention„ 31 58 Tài liệu tham khảo [1] J Devlin, M.-W Chang, K Lee, and K Toutanova, “Bert: Pre-training of deep bidirectional transformers for language understanding,” in NAACLHLT, 2019 [2] Z Lan, M Chen, S Goodman, K Gimpel, P Sharma, and R Soricut, “Albert: A lite bert for self-supervised learning of language representations,” ArXiv, vol abs/1909.11942, 2020 [3] Z Yang, Z Dai, Y Yang, J Carbonell, R Salakhutdinov, and Q V Le, “Xlnet: Generalized autoregressive pretraining for language understanding,” in NeurIPS, 2019 [4] T cục thống kê, “Thông cáo báo chí tình hình lao động việc làm q iv năm 2020.” https://www gso.gov.vn/du-lieu-va-so-lieu-thong-ke/2021/01/ thong-cao-bao-chi-tinh-hinh-lao-dong-viec-lam-quy-iv-va-nam-2020/ [5] J Chen, L Gao, and Z Tang, “Information extraction from resume documents in pdf format,” in Document Recognition and Retrieval, 2016 [6] M.-T Nguyen, V Phan, L T Linh, N H Son, L Dung, M Hirano, and H Hotta, “Transfer learning for information extraction with limited data,” in PACLING, 2019 [7] V Bhatia, P Rawat, A Kumar, and R Shah, “End-to-end resume parsing and finding candidates for a job description using bert,” ArXiv, vol abs/1910.03089, 2019 [8] A Degirmenci, “Introducation to hidden markov models.” https: //scholar.harvard.edu/files/adegirmenci/files/hmm_adegirmenci_ 2014.pdf [9] P Blunsom, “Maximum entropy markov models for semantic role labelling,” in ALTA, 2004 59 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN [10] C Sutton and A McCallum, “An introduction to conditional random fields for relational learning,” 2007 [11] A Akbik, D A J Blythe, and R Vollgraf, “Contextual string embeddings for sequence labeling,” in COLING, 2018 [12] D Bahdanau, K Cho, and Y Bengio, “Neural machine translation by jointly learning to align and translate,” CoRR, vol abs/1409.0473, 2015 [13] T Brown, B Mann, N Ryder, M Subbiah, J Kaplan, P Dhariwal, A Neelakantan, P Shyam, G Sastry, A Askell, S Agarwal, A Herbert-Voss, G Krueger, T Henighan, R Child, A Ramesh, D M Ziegler, J Wu, C Winter, C Hesse, M Chen, E Sigler, M Litwin, S Gray, B Chess, J Clark, C Berner, S McCandlish, A Radford, I Sutskever, and D Amodei, “Language models are few-shot learners,” ArXiv, vol abs/2005.14165, 2020 [14] C Raffel, N M Shazeer, A Roberts, K Lee, S Narang, M Matena, Y Zhou, W Li, and P J Liu, “Exploring the limits of transfer learning with a unified text-to-text transformer,” ArXiv, vol abs/1910.10683, 2020 [15] A Vaswani, N M Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, L Kaiser, and I Polosukhin, “Attention is all you need,” ArXiv, vol abs/1706.03762, 2017 [16] T Kudo and J Richardson, “Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing,” in EMNLP, 2018 [17] R Rosenfeld, “Two decades of statistical language modeling: where we go from here?,” Proceedings of the IEEE, vol 88, pp 1270–1278, 2000 [18] E T K Sang and F D Meulder, “Introduction to the conll-2003 shared task: Language-independent named entity recognition,” ArXiv, vol cs.CL/0306050, 2003 [19] I Beltagy, M E Peters, and A Cohan, “Longformer: The long-document transformer,” ArXiv, vol abs/2004.05150, 2020 [20] N Kitaev, L Kaiser, and A Levskaya, “Reformer: The efficient transformer,” ArXiv, vol abs/2001.04451, 2020 [21] V Sanh, L Debut, J Chaumond, and T Wolf, “Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter,” ArXiv, vol abs/1910.01108, 2019 60 LUẬN VĂN THẠC SĨ NGUYỄN HỒNG SƠN [22] I Beltagy, K Lo, and A Cohan, “Scibert: A pretrained language model for scientific text,” in EMNLP/IJCNLP, 2019 [23] W Liu, P Zhou, Z Zhao, Z Wang, Q Ju, H Deng, and P Wang, “K-bert: Enabling language representation with knowledge graph,” ArXiv, vol abs/1909.07606, 2020 [24] W.-H Tai, H T Kung, and X Dong, “exbert: Extending pre-trained models with domain-specific vocabulary under constrained training resources,” in EMNLP, 2020 [25] M Lewis, Y Liu, N Goyal, M Ghazvininejad, A Mohamed, O Levy, V Stoyanov, and L Zettlemoyer, “Bart: Denoising sequence-to-sequence pretraining for natural language generation, translation, and comprehension,” ArXiv, vol abs/1910.13461, 2020 [26] Y Xu, M Li, L Cui, S Huang, F Wei, and M Zhou, “Layoutlm: Pretraining of text and layout for document image understanding,” Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery Data Mining, 2020 [27] Y Xu, Y Xu, T Lv, L Cui, F Wei, G Wang, Y Lu, D Florêncio, C Zhang, W Che, M Zhang, and L Zhou, “Layoutlmv2: Multi-modal pre-training for visually-rich document understanding,” ArXiv, vol abs/2012.14740, 2020 [28] W Hwang, J Yim, S Park, S Yang, and M Seo, “Spatial dependency parsing for semi-structured document information extraction,” arXiv: Computation and Language, 2020 61 PHỤ LỤC A Công bố khoa học liên quan Tác giả cơng bố hai cơng trình nghiên cứu khoa học liên quan đến đề tài luận văn Cả hai cơng trình tập trung vào việc đánh giá độ hiệu khả áp dụng học chuyển tiếp vào tốn trích xuất thơng tin từ văn nhiều lĩnh vực khác điều kiện liệu huấn luyện bị hạn chế Dựa kết nghiên cứu này, tác giả có nhận định đánh giá mơ hình học chuyển tiếp, đặc biệt mơ hình BERT, đóng góp trực tiếp vào q trình phân tích vấn đề đưa giải pháp cho đề tài luận văn Dưới hai công bố khoa học tác giả: • Nguyen, M.T., Le, D.T., Linh, L.T., Hong Son, N., Duong, D.H.T., Cong Minh, B., Hai Phong, N and Huu Hiep, N., 2020, October AURORA: An Information Extraction System of Domain-specific Business Documents with Limited Data In Proceedings of the 29th ACM International Conference on Information & Knowledge Management (pp 3437-3440) • Nguyen, M.T., Phan, V.A., Son, N.H., Hirano, M and Hotta, H., 2019, October Transfer learning for information extraction with limited data In International Conference of the Pacific Association for Computational Linguistics (pp 469-482) Springer, Singapore 62 ... bộc lộ rõ ràng Trong nội dung luận văn, tác giả tập trung vào tốn trích xuất thơng tin từ CV xin việc Tác giả đề xuất hệ thống trích xuất thơng tin ứng dụng học chuyển tiếp giải toán nhận diện... nghiên cứu tốn trích xuất thơng tin từ CV xin việc theo bố cục gồm ba chương: • Chương thứ trình bày tốn trích xuất thơng tin từ văn nói chung tốn trích xuất thơng tin từ CV xin việc nói riêng... học chuyển tiếp tốn trích xuất thơng tin từ CV xin việc" Đối tượng phạm vi nghiên cứu đề tài bao gồm: • Đối tượng nghiên cứu: Bài tốn trích xuất thơng tin từ văn sử dụng học chuyển tiếp • Tập