1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Trích xuất dữ liệu từ resume dựa trên mô hình question-answering kết hợp bert

52 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI:

TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học: PGS TS Quản Thành Thơ

Cán bộ chấm nhận xét 1: Lê Văn Quốc Anh

Cán bộ chấm nhận xét 2: Nguyễn Lưu Thùy Ngân

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 12 tháng 01 năm 2022 (trực tuyến)

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1 TS Nguyễn Đức Dũng………… - Chủ tịch Hội đồng 2 TS Nguyễn Tiến Thịnh………… - Thư ký

4 Nguyễn Lưu Thùy Ngân………….- Phản biện 2 5 TS Lê Thanh Vân …….…… … - Ủy viên

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

TS Nguyễn Đức Dũng

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Trần Quốc Tính MSHV: 1970522 Ngày, tháng, năm sinh: 21/08/1997 Nơi sinh: Phú Yên Chuyên ngành: Khoa học máy tính Mã số : 8.48.01.01

I TÊN ĐỀ TÀI : Trích xuất dữ liệu từ resume dựa trên mô hình Question -

Answering kết hợp BERT / Extract information from resume based on BERT Question - Answering model

II NHIỆM VỤ VÀ NỘI DUNG :

Phát triển một mô hình dựa trên các kỹ thuật học sâu hiện đại có khả năng tự động trích xuất dữ liệu từ resume Phương pháp đề xuất được đưa ra ở đây là phương pháp hỏi đáp dựa trên kiến trúc transformer kết hợp sử dụng segmentation text để phân đoạn resume thành những segment của những phần thông tin cần trích xuất sau đó dựa vào kĩ thuật hỏi đáp để trích xuất ra những thông tin trên những segment chúng ta đã phân tách Mô hình hỏi đáp sẽ được xây dựng bằng các fine-tune mô hình bert

III NGÀY GIAO NHIỆM VỤ : 06/09/2021

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 12/12/2021 V CÁN BỘ HƯỚNG DẪN : PGS TS Quản Thành Thơ

Trang 4

LỜI CẢM ƠN

Để hoàn thành được đề tài luận văn thạc sĩ này, tôi xin bày tỏ sự cảm kích đặc biệtcũng như lời cảm ơn chân thành đến người thầy của tôi, PGS.TS Quản Thành Thơ,người đã định hướng, trực tiếp dìu dắt và tận tình chỉ bảo cho tôi trong suốt quá trìnhthực hiện Xin chân thành cảm ơn những bài giảng, những buổi thảo luận về tư duyvà phương pháp thực hiện đã giúp tôi có được thêm nhiều kiến thức quý giá trongviệc hoàn thành tốt luận văn này Đồng thời, thầy cũng là người luôn cho tôi khôngchỉ những lời khuyên vô cùng quý giá về kiến thức chuyên môn mà còn là sự tận tâmtrong quá trình giảng dạy Một lần nữa, tôi xin gửi lời cảm ơn đến thầy bằng tất cảtấm lòng và sự biết ơn của mình.

Tôi cũng xin chân thành cảm ơn quý Thầy Cô ở Khoa Khoa Học Máy Tính – TrườngĐại Học Bách Khoa TP.HCM đã cùng với tri thức và tâm huyết của mình để truyềnđạt kiến thức quý báu cho những học viên cao học như tôi trong suốt thời gian họctập và nghiên cứu.

Sau cùng, tôi xin cảm ơn gia đình, anh chị, bạn bè, các bạn học viên, những ngườiđã giúp đỡ, hỗ trợ tôi cũng như góp ý cho tôi quá trình thực hiện và hoàn thành đềtài luận văn thạc sĩ này.

Chân thành cảm ơn.

TP Hồ Chí Minh, ngày 15 tháng 11 năm 2021.Học Viên

Trần Quốc Tính

Trang 5

TÓM TẮT LUẬN VĂN

Trong thời đại công nghiệp 4.0 khi mà cụm từ Chuyển Đổi Số (Digital tion) [1] thường được nhắc đến ở nhiều nơi như ở văn phòng công sở, trường học,ngân hàng, bệnh viện v.v thì dường như mọi việc đều được đưa lên máy tính điệntử, một công cụ mà ta có thể tận dụng khả năng tính toán và bộ nhớ siêu hạng củanó để xử lí các công việc mà con người mất rất nhiều thời gian và công sức để hoànthành Các công ty doanh nghiệp và cơ quan tuyển dụng cũng vậy, họ xử lý rất nhiềuhồ sơ hàng ngày Rõ ràng đây không nên là nhiệm vụ của con người, chúng ta cầncó một hệ thống thông minh tự động có thể lấy ra tất cả các thông tin quan trọngtừ các resume không có cấu trúc và chuyển tất cả chúng sang một định dạng có cấutrúc chung để sau đó có thể được xếp hạng cho một vị trí công việc cụ thể Thông tinđược trích xuất có thể bao gồm tên, địa chỉ email, hồ sơ xã hội, trang web cá nhân,số năm kinh nghiệm làm việc, kinh nghiệm làm việc, số năm học, kinh nghiệm giáodục, chứng chỉ, kinh nghiệm tình nguyện, tham khảo v.v Thông tin được trích xuấtsau đó được lưu trữ trong cơ sở dữ liệu (thường là NoSQL) để sử dụng sau này.Không giống như các dữ liệu phi cấu trúc khác (ví dụ: nội dung email, nội dungtrang web, v.v.), resume là dạng dữ liệu dường như có cấu trúc hơn Thông tin đượclưu trữ trong các tập hợp rời rạc Mỗi bộ chứa dữ liệu về chi tiết liên hệ, kinh nghiệmlàm việc hoặc học vấn của người đó Mặc dù các resume này rất khó phân tích cúpháp Điều này là do chúng khác nhau về các loại thông tin, thứ tự của chúng, cáchviết, v.v Hơn nữa, chúng có thể được viết ở nhiều định dạng khác nhau Một số địnhdạng phổ biến bao gồm ’.txt’, ’.pdf’, ’.doc’, ’.docx’, ’.odt’, ’.rtf’, v.v Để phân tích cúpháp dữ liệu từ các loại resume một cách hiệu quả thì mô hình không được dựa vàothứ tự hoặc kiểu dữ liệu.

Transforma-Trong luận văn này ta tập trung vào xây dựng hệ thống trích xuất dữ liệu, một hệthống dựa trên nền tảng mô hình BERT [2] và phương pháp trích xuất hỏi đáp Luậnvăn tập trung tìm hiểu và phân tích bài toán hỏi đáp trên nền tảng mô hình BERT,nghiên cứu các phương pháp hiện có để chọn lựa giải pháp phù hợp, thực hiện cáckỹ thuật làm sạch dữ liệu, rút trích đặc trưng và điều chỉnh tham số Đồng thời chúngta cũng nghiên cứu và áp dụng các kỹ thuật học sâu trong việc tìm ra các câu trả lờiphù hợp với thực thể ta cần rút trích bằng cách thực hiện bằng cách tỉnh chỉnh môhình BERT với mục đích hỏi đáp để trả lời các câu hỏi được đưa vào khi mô hìnhđọc qua resume sau đó nghiên cứu và đề xuất giải pháp liên quan đến khai phá dữliệu nhằm nâng cao tính hiệu quả của giải thuật trong việc xử lý dữ liệu mới Cuốicùng chúng ta sẽ thực hiện một số kịch bản thử nghiệm để đánh giá các giải pháp đềxuất.

Trang 6

In the industrial age 4.0 when the phrase Digital Transformation [1] is often tioned in many places such as in offices, schools, banks, hospitals, etc It seemsthat everything is put on an electronic computer, a tool that can take advantage of itssuper-computing ability and memory to handle tasks that take a lot of time and effort.power to complete Corporate companies and recruitment agencies too, they processa lot of applications on a daily basis Obviously this shouldn’t be a human task, weneed an intelligent automated system that can pull out all the important informa-tion from unstructured resumes and transfer it all them into a common structuredformat that can then be rated for a specific job position Extracted information mayinclude name, email address, social profiles, personal website, number of years ofwork experience, work experience, years of education, educational experience, certi-fications, experience volunteer experience, reference etc The extracted informationis then stored in a database (usually NoSQL) for later use Unlike other unstructureddata (e.g email body, web page content, etc.), resume is a seemingly more structuredform of data Information is stored in discrete sets Each set contains data about theperson’s contact details, work experience or education Although these resumes aredifficult to parse This is because they differ in the types of information, their order,spelling, etc Furthermore, they can be written in a variety of formats Some com-mon formats include ’.txt’, ’.pdf’, ’.doc’, ’.docx’, ’.odt’, ’.rtf’, etc To parse data fromresume types efficiently, the model must not rely on order or data type.

men-In this thesis, we focus on building a data extraction system, a system based on theBERT [2] model and the QA extraction method The thesis focuses on understand-ing and analyzing the question-and-answer problem on the basis of the BERT model,studying the existing methods to choose the appropriate solution, implementing datacleaning techniques, feature extraction and parameter adjustment At the same time,we also study and apply deep learning techniques in finding the right answers for theentity we need to extract by refining the BERT model for the purpose of asking andanswering questions Answer the questions included when the model reads throughthe resume, then research and propose solutions related to data mining to improvethe effectiveness of the algorithm in processing new data Finally, we will performsome test scenarios to evaluate the proposed solutions.

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫnkhoa học của PGS TS Quản Thành Thơ Các nội dung nghiên cứu, kết quả trong đềtài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những sốliệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chínhtác giả thu thập từ việc đo đạc thực tế và các nguồn khác nhau có ghi rõ trong phầntài liệu tham khảo.

Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như số liệu củacác tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc Nếuphát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dungluận văn của mình.

TP Hồ Chí Minh, ngày 15 tháng 11 năm 2021.Học Viên

Trần Quốc Tính

Trang 8

1.4 Đối tượng nghiên cứu 5

2CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN62.1 Tình hình nghiên cứu thế giới 6

2.2 Đề xuất phương pháp nghiên cứu 8

3CƠ SỞ LÝ THUYẾT103.1 Giới thiệu Word Representation 10

3.2 Kỹ thuật Word Embedding 11

4.2 Tiền xử lí dữ liệu 26

Trang 9

4.3 Xây dựng mô hình 27

4.4 Phương pháp đánh giá 30

5KẾT QUẢ THỬ NGHIỆM335.1 Mục tiêu thử nghiệm 33

5.2 Quá trình thử nghiệm 33

5.3 Kết quả thử nghiệm 33

5.4 Demo hệ thống 35

6KẾT LUẬN356.1 Đánh giá kết quả. 35

6.2 Một số hạn chế. 36

6.3 Hướng phát triển. 36

6.4 Tiềm năng trong thực tế 36

TÀI LIỆU THAM KHẢO 37

PHẦN LÝ LỊCH TRÍCH NGANG 39

Trang 10

• Hình 5 : Quá trình xử lí của một hệ thống hỏi đáp cổ điển

• Hình 6 : Mô hình pipeline để trích xuất thông tin từ resume sử dụng based

semantic-• Hình 7 : Kiến trúc học sâu để trích xuất thông tin từ resume sử dụng based

semantic-• Hình 8 : Mô hình trích xuất thông tin từ resume sử dụng rule-based• Hình 9 : Cấu trúc xây dựng mô hình Sentence to vector

• Hình 10 : Biểu diễn về Recurrent Neural Network• Hình 11 : Minh hoạ kiến trúc Transformer

• Hình 12 : Minh hoạ về Scaled Dot-Product Attention• Hình 13 : Minh hoạ về Multi-Head Attention

• Hình 14 : Minh hoạ về quá trình huấn luyện Masked Language Model (MLM)• Hình 15 : Minh hoạ về quá trình huấn luyện Next Sentence Prediction (NSP)• Hình 16 : Minh hoạ về quá trình tinh chỉnh mô hình hỏi đáp dựa trên BERT• Hình 17 : Bộ dữ liệu resume từ website VietnamWorks

• Hình 18 : Quá trình tiền xử lí dữ liệu để lấy ra giá trị các start token và endtoken

• Hình 19 : Kiến trúc hệ thống đề xuất

• Hình 20 : Minh hoạ về quá trình xử lí Segmentation Text

• Hình 21 : Quá trình huấn luyện với BERT trên bộ dữ liệu Vietnamworks

• Hình 22 : Ví dụ cụ thể quá trình huấn luyện với BERT trên bộ dữ liệu works

Trang 11

Vietnam-• Hình 23 : Các khái niệm về Confusion matrix trong bài toán hỏi đáp• Hình 24 : Biểu đồ exact match và F1-score trong quá trình huấn luyện• Hình 25 : Biểu đồ exact match và F1-score trên tập test

• Hình 26 : Kết quả demo hệ thống

Trang 12

DANH SÁCH BẢNG BIỂU

• Bảng 1 : Kết quả khi huấn luyện với mô hình BERT• Bảng 2 : So sánh giữa các mô hình

Trang 13

DANH TỪ VIẾT TẮT

• NLP : Natural Language Processing

• CBOW : Continuous Bag-of-Words• RNN : Recurrent Neural Network

• BERT : Bidirectional Encoder Representation from Transforme• QA : Question Answer

• CRF : Conditional Random Field

• BiLSTM : Bidirectional Long Short-Term Memory• NER : Named Entity Recognition

Trang 14

1GIỚI THIỆU ĐỀ TÀI

1.1 Giới thiệu chung

Hiện nay quá trình tuyển dụng đã và đang phát triển theo thời gian Bên trong môhình tuyển dụng những thế hệ đầu tiên, các công ty sẽ quảng cáo vị trí tuyển dụngcủa họ trên báo chí và truyền hình Người tìm việc sẽ gửi hồ sơ của họ qua đườngbưu điện và hồ sơ của họ sẽ được sắp xếp theo cách thủ công Sau khi lọt vào danhsách, nhóm tuyển dụng sẽ gọi ứng viên cho các vòng phỏng vấn tiếp theo Khôngcần phải nói, điều này là một thủ tục tốn thời gian nhưng các ngành công nghiệp bắtđầu ngày càng tăng và nhu cầu tuyển dụng cũng vậy, do đó các công ty bắt đầu cảitiến quá trình tuyển dụng của họ và từ đó tư vấn tuyển dụng đã ra đời Các cơ quannày yêu cầu người nộp đơn tải lên resume của họ trên các trang web của họ theo cácđịnh dạng cụ thể Các cơ quan này sau đó sẽ xem xét dữ liệu của ứng viên và gửidanh sách rút gọn ứng viên cho công ty Quá trình này có một hạn chế là có rất nhiềungười tìm việc và mỗi người tìm việc đều có định dạng resume riêng Để khắc phụctất cả các vấn đề trên, một thuật toán thông minh được yêu cầu có thể phân tích cúpháp thông tin từ bất kỳ resume nào, cuối cùng sắp xếp nó theo từng cụm và xếphạng Mô hình sử dụng xử lý ngôn ngữ tự nhiên để hiểu resume và sau đó phân tíchcú pháp thông tin từ nó Sau khi trích xuất thông tin, nó sẽ được lưu trữ trong khodữ liệu Khi nhà tuyển dụng đăng tin tuyển dụng, hệ thống xếp hạng hồ sơ dựa trênso sánh với từ khóa và hiển thị những cái phù hợp nhất với nhà tuyển dụng [3].

1.2 Mục tiêu đề tài

Trích xuất thông tin từ resume

Trích xuất thông tin từ resume là việc chuyển đổi dữ liệu resume dạng tự do thànhmột tập hợp thông tin có cấu trúc phù hợp để lưu trữ, báo cáo và thao tác bằng phầnmềm Việc trích xuất thông tin từ resume giúp nhà tuyển dụng quản lý hiệu quả cácdữ liệu resume Nhiều chuyên gia nhân sự sử dụng các công cụ trích xuất thông tintừ resume để tự động hóa việc lưu trữ, nhập và phân tích dữ liệu văn bản trên resume.Định dạng phổ biến nhất của resume mà nhà tuyển dụng nhận được là Word hoặcPDF Mặc dù những tài liệu này rất dễ đọc và dễ hiểu đối với con người nhưng việcbiểu diễn cho máy tính hiểu quả là một thử thách.

Các nhà tuyển dụng sử dụng trình trích xuất thông tin để tối ưu hóa quá trìnhsàng lọc resume của ứng viên Công nghệ trích xuất thông tin cho phép các nhàtuyển dụng thu thập, lưu trữ và sắp xếp số lượng lớn hồ sơ xin việc một cách hiệuquả nhất Sau khi có được dữ liệu, resume có thể dễ dàng được tìm kiếm và phântích Các công cụ phân tích resume là một phần của hầu hết các nền tảng Theo DõiNgười Nộp Đơn (Applicant Tracking Software - ATS) Theo một số ước tính, công

Trang 15

Hình 1: Việc sàn lọc resume thường gây khó khăn cho nhà tuyển dụng

nghệ trích xuất thông tin từ resume tốt nhất không chỉ hoạt động nhanh hơn theo cấpsố nhân so với quá trình trích xuất thông tin thủ công của con người, chuyển số giờlao động thành giây mà còn có thể tái tạo độ chính xác của con người với tỷ lệ 95% Mô hình trích xuất thông tin bắt đầu bằng cách tải lên, tự động hoặc thủ công,tất cả các resume cho một vị trí nhất định vào phần mềm trích xuất Sau khi cácresume được tải lên, các công cụ trích xuất thông tin từ resume là chương trình đượcthiết kế để quét tài liệu, phân tích và trích xuất thông tin quan trọng đối với nhàtuyển dụng Đối với hầu hết các chuyên gia nhân sự, thông tin quan trọng cần đượctrích xuất bằng trình trích xuất bao gồm các kỹ năng, kinh nghiệm làm việc, thôngtin liên hệ, thành tích, học vấn, chứng chỉ và một số chuyên môn nghiệp vụ nhất định.Bằng cách xác định và tổ chức các resume với thông tin liên quan hoặc loại bỏnhững ứng viên không có thông tin đó, phần mềm trích xuất thông tin giúp ngườiquản lý tuyển dụng tiết kiệm vô số thời gian nếu không phải đọc qua từng resumetheo cách thủ công [5]

Trang 16

Hình 2: Minh hoạ về cấu trúc trong resume

Hình 3: Minh hoạ sơ lược về quá trình trích xuất thông tin từ resume

Báo cáo này tập trung vào phương pháp được đề xuất để trích xuất thông tin từresume là dùng phương pháp hỏi đáp dựa trên mô hình BERT.

Phương pháp hỏi đáp

Trang 17

Phương pháp hỏi đáp (Question Answering - QA) [4] là một phương pháp truyxuất thông tin trong đó một câu trả lời chính xác được tính toán để phản hồi cho mộtcâu hỏi đã được yêu cầu, thay vì một tập hợp các phần có thể chứa các câu trả lờicủa một đoạn văn bản cho trước Ý tưởng cơ bản của phương pháp QA trong xử lýngôn ngữ tự nhiên (NLP) là cung cấp câu trả lời chính xác của các câu hỏi cho ngườidùng Các phương pháp QA này được phân loại là phương pháp QA dựa trên vănbản, phương pháp Factoid QA, phương pháp QA dựa trên web, phương pháp QAdựa trên truy xuất thông tin hoặc trích xuất thông tin, phương pháp QA miền hạnchế và phương pháp QA dựa trên quy tắc.

Hình 4: Ví dụ về phương pháp hỏi đáp

Rất nhiều phương pháp QA đã xuất hiện từ những năm 1960 Các phương phápQA này đã cố gắng trả lời các câu hỏi của người dùng bằng các giải thuật khác nhau.Việc triển khai QA đã giải quyết các vấn đề của các lĩnh vực khác nhau Loại câuhỏi và cấu trúc câu trả lời cũng khá đa dạng Các phương pháp gần đây lấy và xử lýdữ liệu từ nhiều nguồn để trả lời các câu hỏi được trình bày bằng ngôn ngữ tự nhiên[5].

Phương pháp hỏi đáp nhằm cung cấp giải pháp cho các truy vấn được diễn đạtbằng ngôn ngữ tự nhiên một cách tự động Phương pháp này nhằm mục đích truyxuất các câu trả lời mong đợi cho các câu hỏi chứ không phải là một danh sách tàiliệu được xếp hạng như hầu hết các phương pháp truy xuất thông tin hay làm Ýtưởng về phương pháp hỏi đáp cho thấy sự tiến bộ đáng chú ý trong công nghệ truyxuất thông tin, đặc biệt là khả năng truy cập các nguồn tri thức theo cách tự nhiênbằng cách truy vấn và truy xuất các câu trả lời phù hợp bằng những từ ngắn gọn.

Các chương trình hỏi đáp cổ điển có thể xây dựng câu trả lời thông qua truy vấncơ sở kiến thức (cơ sở dữ liệu kiến thức có cấu trúc) hoặc một cơ sở dữ liệu kiếnthức phi cấu trúc bằng ngôn ngữ tự nhiên Phương pháp trả lời câu hỏi có thể là miềnđóng (trả lời các câu hỏi từ một miền cụ thể) hoặc miền mở (dựa trên các kiến thứcphổ biến) từ việc phân loại câu hỏi IBM’s Watson là một ví dụ về kiểu phương phápQA sau này.

Ở đề tài này chúng ta nghiên cứu phương pháp trả lời miền kín dựa trên những

Trang 18

Hình 5: Quá trình xử lí của một hệ thống hỏi đáp cổ điển

phương pháp hiện đại Phương pháp nhận các câu hỏi ngôn ngữ tự nhiên và kết hợpvới dữ liệu ngữ cảnh của câu hỏi Chúng ta sẽ tính toán để trích xuất câu trả lời trongdữ liệu ngữ cảnh phù hợp với câu hỏi Phương pháp sẽ có sử dụng những kĩ thuậthiện đại như word embedding, kiến trúc Transformer và mô hình BERT để giúp choquá trình được tối ưu hoá và chính xác nhất có thể.

1.3 Giới hạn đề tài

Vì thời gian nghiên cứu đề tài có hạn nên phạm vi nghiên cứu cũng được giới hạnnhư sau:

• Ngôn ngữ của dữ liệu được sử dụng trong hệ thống này là tiếng Anh.

• Sử dụng dữ liệu thu thập được từ các resume từ đó xây dựng lên bộ câu hỏi câu trả lời cho từng thông tin trong resume.

-• Áp dụng các mô hình học sâu BERT dựa trên kiến trúc Transformer nhằm huấnluyện dữ liệu.

• Phương pháp chỉ có khả năng trả lời các câu hỏi liên quan đến nội dung dữ liệuđã được huấn luyện.

1.4 Đối tượng nghiên cứu

Đề tài này hướng đến việc nghiên cứu về các đối tượng:• Dữ liệu về resume

Trang 19

• Word Embedding• Kiến trúc Transformer

• Mô hình Question Answering dựa trên BERT

• Các phương pháp đánh giá dựa trên confusion matrix

2.1 Tình hình nghiên cứu thế giới

Những tiến bộ gần đây trong công nghệ thông tin như Trích Xuất Thông Tin mation Extraction - IE) [6] cung cấp những cải tiến đáng kể trong việc chuyển đổithông tin văn bản dạng thô thành dữ liệu có cấu trúc, tạo thành dữ liệu đầu vào đểkhai phá các dạng dữ liệu phức tạp hơn trong tập dữ liệu văn bản Trích xuất thôngtin từ resume, còn được gọi là phân tích cú pháp từ resume, cho phép trích xuất thôngtin liên quan từ resume có hình thức tương đối có cấu trúc sang dữ liệu có cấu trúc.Có hai phương pháp được sử dụng trong việc trích xuất thông tin từ resume:

(Infor-• Semantic-based là nghiên cứu về ý nghĩa trong ngôn ngữ Nó có thể được ápdụng cho toàn bộ văn bản hoặc cho các từ đơn lẻ Có kể đến phương pháp tiêubiểu là Named Entity Recognition (NER) [6] v.v Các phương pháp trích xuấtthông tin dựa trên ngữ nghĩa cố gắng xác định các từ, cụm từ và mẫu nhất địnhthường sử dụng cụm từ thông dụng hoặc từ điển Điều này thường được sử dụngnhư một bước thứ hai sau khi phân tích từ vựng của một tài liệu nhất định.• Rule-based là trích xuất thông tin dựa trên quy tắc Phương pháp này so sánh

và sử dụng biểu thức chính quy trên văn bản thô, các công cụ và thành phần sosánh dựa trên quy tắc không chỉ cho phép ta tìm thấy các từ và cụm từ ta đangtìm kiếm mà còn phân tích các từ xung quanh.

Hiện nay trên thế giới cũng có nhiều nghiên cứu về trích xuất dữ liệu từ resume.Chúng ta có thể lọc ra một số nghiên cứu tiêu biểu để xem qua về những phươngpháp trích thông tin và có cái nhìn tổng quan về quá trình nghiên cứu của đề tài này.Với hướng nghiên cứu về rule-based đề cập tới những kĩ thuật trích xuất thông tincơ bản như phân tích văn bản (Text Analytics) kết hợp với rule-based và NER [7].Bên cạnh đó những thông tin khi được trích xuất sẽ dùng kĩ thuật bigdata để thôngtin đưa qua một lớp map-reduce để phân tách các cặp key-value liên quan tới cáctrường dữ liệu muốn trích xuất trong resume Từ đó đối chiếu với bộ dữ liệu côngviệc khổng lồ để tìm được công việc phù hợp cho ứng viên Đối với cách tiếp cậnRule-based ta có kể đến một số phương pháp chính:

• Dùng biểu thức chính quy: ta có thể dùng biểu thức chính quy để trích xuất cáithành phần như số điện thoại, email, ngày sinh, v.v.

Trang 20

• Các từ gợi ý: như giới từ (ví dụ: trong phân đoạn thông tin kinh nghiệm làmviệc, từ đứng sau “at” rất có thể là tên công ty)

• Tên phổ biến hoặc nổi tiếng: thông qua từ điển dữ liệu của các tổ chức nổi tiếng,địa điểm nổi tiếng, công ty hoặc tổ chức, bằng cấp học thuật, v.v.

• Từ tiền tố và hậu tố của từ: dành cho các tổ chức (ví dụ: Đại học, Cao đẳng, v.v.)và công ty (ví dụ: Corp., Associates, v.v.)

• Cách viết tên người: nói chung tên của người được viết hoa chữ cái đầu tiên thìchúng ta sẽ đoán rằng từ này có thể là tên của người đó.

Một số nghiên cứu hướng đến phương pháp dựa trên ngữ nghĩa (Semantic-based)để trích xuất thông tin từ resume Bên cạnh đó cũng kết hợp một số phương phápkhác để có được một pipeline hoàn chỉnh cho quá trình trích xuất này Cụ thể phươngpháp mà nghiên cứu này [3] đề xuất tới là dùng các kĩ thuật như phân tích từ vựng(lexical analysis) sau đó sử dụng phân tích ngữ pháp (syntactic analysis) tận dụngcây phân tích (parse tree) để xác định cú pháp tiếp theo là dùng kĩ thuật phân tíchngữ nghĩa để xác định nghĩa của từ và cuối cùng là kết hợp chúng lại (compile) đểxác định từng thực thể trong resume Từ đó có thể rút trích được những thông tinmong muốn.

Bên cạnh đó một số nghiên cứu khác cũng sử dụng phương pháp dựa trên ngữnghĩa (Semantic-based) nhưng với kỹ thuật mạng nơ-ron và CRF để phân đoạn vàtrích xuất các thông tin khác nhau từ resume Mô hình CNN được sử dụng để phânđoạn và so sánh với mô hình BiLSTM Mô hình dựa trên CRF được chọn để tríchxuất thông tin và so sánh với mô hình BiLSTM-CNN [8] Nghiên cứu này đã phânđoạn và trích xuất một số phần thông tin từ các khối thông tin như thông tin cá nhân,giáo dục và nghề nghiệp Kết quả đầu ra là tệp JSON chứa 23 trường dữ liệu chưathông tin của resume.

Ngoài ra còn có hướng nghiên cứu khác đề cập tới việc trích xuất dữ liệu từ sume kết hợp 2 phương pháp rule-based và semantic-based [6] Ban đầu sẽ dùng kĩthuật phân đoạn văn bản (Text Segmentation) để có thể tách resume thành nhữngđoạn nhỏ, dễ cho việc trích xuất dữ liệu Sau đó sẽ cho những đoạn dữ liệu này quamột cấu trúc trích xuất dữ liệu dựa trên quy tắc để trích xuất một số thông tin Cuốicùng là dùng kĩ thuật semantic-based để trích xuất ra những thông tin mong muốn.Ở giai đoạn cuối cùng nhóm tác giả đã sử dụng mô hình học sâu như ConvolutionalNeural Network (CNN), Bidirectional Long Short-Term Memory (BiLSTM), Con-ditional Random Field (CRF) để phục vụ cho nhiệm vụ phân tích Named EntityRecognition (NER).

Trang 21

re-Hình 6: Mô hình pipeline để trích xuất thông tin từ resume sử dụng semantic-based [3]

2.2 Đề xuất phương pháp nghiên cứu

Sơ lược qua những công trình nghiên cứu gần đây ta có thể thấy cả hai phương pháplà semantic-based và rule-based đều được pháp triển và mỗi phương pháp đều có sựhiệu quả riêng Với sự phát triển về phần cứng thì hiện nay các mô hình học sâu đượcphát triển rộng rãi và được sử dụng ở nhiều nơi, trên nhiều lĩnh vực nên những môhình học sâu dường như đánh giá cao trong các nhiệm vụ về NLP và những mô hìnhhọc sâu thường đi kèm với phương pháp semantic-based vì vậy với nhiệm vụ lần nàyvới bài toán trích xuất thông tin từ resume chúng ta cũng sẽ chọn một mô hình họcsâu kết hợp với phương pháp semantic-based để giải quyết vấn đề được đặt ra.

Những nghiên cứu liên quan đề cập tới các mô hình học sâu như BiLSTM, CRF,

Trang 22

Hình 7: Kiến trúc học sâu để trích xuất thông tin từ resume sử dụng semantic-based [8]

RNN để áp dụng trích xuất thông tin nhưng hiện tại có những mô hình đã ra đời đểkhắc phục những thiếu sót của những mô hình này và có những kết quả đáng ngạcnhiên Một trong số đó phải kể đến kiến trúc Transformer rất nổi tiếng hiện nay.

Trang 23

Hình 8: Mô hình trích xuất thông tin từ resume sử dụng rule-based [6]

Hiện tại kiến trúc Transformer đạt hiệu quả cao trên các task downtream nhờcó những cơ chế cải tiến đột phá trong xử lí ngôn ngữ tự nhiên như self-attention,encoder-decoder, multihead-attention Đây thực sự là một kiến trúc nên thử nghiệmđể áp dụng cho bài toàn trích xuất thông tin nhằm cải thiện hiệu quả cho quá trìnhtrích xuất Một trong những mô hình áp dụng kiến trúc Transformer khá thành côngđó là mô hình BERT.

Phương pháp đề xuất được đưa ra ở đây là phương pháp hỏi đáp dựa trên BERTkết hợp sử dụng segmentation text để phân đoạn resume thành những segment củanhững phần thông tin cần trích xuất sau đó dựa vào kĩ thuật hỏi đáp để trích xuất ranhững thông tin trên những segment chúng ta đã phân tách Mô hình hỏi đáp sẽ đượcxây dựng bằng các fine-tune mô hình bert.

3.1 Giới thiệu Word Representation

Khác với các mô hình xử lý ảnh khi các giá trị đầu vào là cường độ màu sắc đã đượcmã hoá thành giá trị số trong khoảng [0, 255] Mô hình xử lý ngôn ngữ tự nhiên cóđầu vào chỉ là các chữ cái kết hợp với dấu câu Làm sao chúng ta có thể mã hoá đượcnhững từ ngữ để làm đầu vào cho mạng nơ ron? Một trong các kĩ thuật để biểu diễntừ là kĩ thuật one-hot vectơ [9] Trước khi đi vào phương pháp biểu diễn, chúng tacần làm rõ một số khái niệm:

• Documents (Văn bản): Là tập hợp các câu trong cùng một đoạn văn có mối liênhệ với nhau Văn bản có thể được coi như một bài báo, bài văn v.v.

• Corpus (Bộ văn bản): Là một tập hợp gồm nhiều văn bản thuộc các đề tài khácnhau, tạo thành một nguồn tài nguyên dạng văn bản Một văn bản cũng có thể

Trang 24

được coi là corpus của các câu trong văn bản Các bộ văn bản lớn thường có từvài nghìn đến vài trăm nghìn văn bản trong nó.

• Character (kí tự): Là tập hợp gồm các chữ cái (nguyên âm và phụ âm) và dấucâu Mỗi một ngôn ngữ sẽ có một bộ các kí tự khác nhau.

• Word (từ vựng): Là các kết hợp của các kí tự tạo thành những từ biểu thị mộtnội dung, định nghĩa xác định, chẳng hạn con người có thể coi là một từ vựng.Từ vựng có thể bao gồm từ đơn có 1 âm tiết và từ ghép nhiều hơn 1 âm tiết.• Dictionary (từ điển): Là tập hợp các từ vựng xuất hiện trong văn bản.

• Volcabulary (từ vựng): Tập hợp các từ được trích xuất trong văn bản Tương tựnhư từ điển.

Trước khi biểu diễn từ chúng ta cần xác định từ điển của văn bản Số lượng từ là hữuhạn và được lặp lại trong các câu Do đó thông qua từ điển gồm tập hợp tất cả các từcó thể xuất hiện, ta có thể mã hoá được các câu dưới dạng ma trận mà mỗi dòng củanó là một vectơ one-hot của từ.

Định nghĩa One-hot vectơ của từ: Giả sử chúng ta có từ điển là tập hợp gồm từ vựnganh, em, gia đình, bạn bè, Khi đó mỗi từ sẽ được đại diện bởi một giá trị chính làindex của nó Từ anh có index = 0, gia đình có index = 2 One-hot vectơ của từ vựngthứ i, i ≤ (n-1) sẽ là vectơ e = [0, , 0, 1, 0, , 0] sao cho phần từ thứ i = 1 Lúc đóvectơ e = [0, , 0, 1, 0, , 0] là vectơ biểu diễn của từ thông qua kĩ thuật one-hotvectơ.

3.2 Kỹ thuật Word Embedding

Trong cuốn sách Introduction to Information Retrieval [10] xuất bản năm 2008, cáctác giả đã giải thích về các kỹ thuật khai thác thông tin từ nhiều nguồn dữ liệu khácnhau, đặc biệt là ở dạng văn bản Có hai kỹ thuật cổ điển nổi tiếng cho mục tiêu khaithác thông tin được thảo luận trong cuốn sách này, bao gồm Count-Vectorizationhoặc Bag of words (BOW) [11] và trọng số của Term Frequency - Inverse DocumentFrequency (TFIDF) [12] Đặc biệt trong hai phương pháp này là trọng số TF-IDF đãđược chứng minh là hiệu quả trong việc xác định các từ khóa quan trọng trong tàiliệu Tuy nhiên, chúng không thể phản ánh thông tin về vị trí từ trong tài liệu và hầunhư không truyền tải được ngữ nghĩa của từ cũng như toàn bộ tài liệu.

Word Embedding là một kỹ thuật sau này nổi lên như một phương pháp hiệuquả hơn để biểu diễn từ Thuật ngữ này lần đầu tiên được đặt ra bởi Yoshua Bengiotrong bài báo nổi tiếng có tên "Neural Probabilistic Language Models" [13] xuất bảnnăm 2003 Bài báo khuyến nghị rằng một vectơ từ có thể "embed" ngữ nghĩa của từtrong một số vectơ để chúng được máy tính xử lý một cách hiệu quả Lấy cảm hứngtừ ý tưởng đó, một số kỹ thuật embedding sau đó đã được báo cáo như Word2vec[14], GloVe [15], fastText [16], ELMO [17] và BERT [2] Nói chung, một kỹ thuậtembedding cần đáp ứng các điều kiện sau.

Trang 25

• Chỉ có một biểu diễn duy nhất cho mỗi từ, tức là hai từ khác nhau nên được biểudiễn bằng hai vectơ khác nhau.

• Hai từ giống nhau, về mặt ngữ nghĩa của chúng, nên được biểu diễn bằng haivectơ giống nhau, xét về khoảng cách của chúng trong không gian embedding.

Word2vec - Mô hình Skip-Gram

Word2vec là viết tắt của từ word to vector Word2vec là một trong những kỹ thuậtphổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên Nó đã được công bố công khaivào năm 2013 bởi một nhóm các nhà nghiên cứu do Tomas Mikolov đứng đầu và đãđược đăng ký bảo hộ phương thức của sáng chế [14] Dựa trên AutoEncoder [18],Word2vec đã giải quyết các vấn đề liên quan đến ý nghĩa ngữ cảnh của mô hìnhAutoEncoder bằng cách chuyển đổi mỗi từ trong kho ngữ liệu thành một vectơ dựatrên thông tin ngữ cảnh của chúng trong corpus đó Do đó, mô hình có thể học đểtạo ra một vectơ tương tự cho những từ chia sẻ cùng một thông tin ngữ cảnh Thôngtin ngữ cảnh của từ tiêu điểm là một cửa sổ chứa các từ ở bên trái và bên phải củatừ tiêu điểm, chúng được gọi là các từ ngữ cảnh Kích thước của cửa sổ, ký hiệu làk, đại diện cho k từ ở phía bên trái và k từ ở phía bên phải của từ tiêu điểm Hai kỹthuật huấn luyện chính của Word2vec là CBOW và Skip-gram [19].

Ý tưởng chính đằng sau mô hình Skip-Gram là nó lấy từng từ trong một bộ corpus(chúng ta sẽ gọi nó là bộ từ trọng tâm) và cũng lấy từng từ một trong số các từ baoquanh nó trong một "window" được xác định cung cấp một mạng neural mà sau khitraining sẽ dự đoán xác suất cho mỗi từ thực sự xuất hiện trong cửa sổ xung quanhtừ trọng tâm.

Kỹ thuật Term Frequency - Inverse Document Frequency

TF-IDF [12] là viết tắt của term frequency-inverse document frequency là một kỹthuật trọng số phổ biến để truy xuất thông tin và khai thác văn bản, nó phản ánh tầmquan trọng của một từ đối với tài liệu Tầm quan trọng của một từ tăng tỷ lệ thuậnvới số lần từ xuất hiện trong tài liệu, nhưng nó cũng giảm tỷ lệ nghịch với tần số màtừ đó xuất hiện trong toàn bộ văn bản TF-IDF cũng được sử dụng để lọc những từstopwords trong các bài toán như tóm tắt văn bản và phân loại văn bản.

TF-IDF bao gồm TF và IDF, lần lượt là Term Frequency (tần suất xuất hiện củatừ) và Inverse Document Frequency (nghịch đảo tần suất của văn bản) TF đại diệncho tần số một từ xuất hiện trong tài liệu Còn ý tưởng chính của IDF là: nếu một từxuất hiện nhiều hơn trong các tài liệu khác, từ này sẽ ít quan trọng hơn.

Term frequency là số lần một từ ti xuất hiện trong tài liệu dj, có thể được biểuthị bằng TF(ti j) Trong điều kiện loại bỏ các stop word, càng nhiều từ ti xuất hiệntrong tài liệu, thì từ ti càng quan trọng đối với tài liệu Nó có thể được định nghĩa là:

Trang 26

T F(tij) = N(ti, dj)

N(ti, dj) là số lần tixuất hiện trong dj và N(dj) là tổng số từ trong tài liệu dj.

Inverse document frequency có nghĩa là khả năng đại diện của thuật ngữ ti cho dj tàiliệu và số tiền của nó trong tất cả các tài liệu N(ti, C) là tỷ lệ nghịch, được biểu thịbằng IDF(ti):

IDF(ti) = log N(C)

N (ti, dj) là số lần tixuất hiện trong djvà N (dj) là tổng số thuật ngữ trong tài liệu dj.

Cuối cùng ta có công thức tính Term Frequency - Inverse Document Frequencylà :

Kỹ thuật Sent2vec

Tương tự như Word2vec thì Sent2vec là viết tắt của từ sentence to vector Nó làkĩ thuật dùng để biểu diễn một câu thành các vectơ thay gì một từ như Word2vec.Với Sent2vec ta có thể dùng 2 cách sau đây để tính ra vectơ đại diện cho câu từ vectơđại diện của những từ trong câu:

• Giá trị trung bình của vectơ Word2vec: Bạn chỉ có thể lấy giá trị trung bình củatất cả các vectơ từ trong một câu Vectơ trung bình này sẽ đại diện cho vectơcâu của bạn.

• Trung bình của vectơ Word2vec với TF-IDF: đây là một trong những cách tiếpcận tốt nhất mà ta sẽ đề xuất Chỉ cần lấy các vectơ từ và nhân nó với điểmTF-IDF của từ đó Chỉ cần lấy giá trị trung bình và nó sẽ đại diện cho vectơ câu.Với 2 cách này ta có thể tính toán được vectơ đại diện của câu mà chúng ta mongmuốn.

Cosine similarity

Tất cả chúng ta đều quen thuộc với các vectơ: chúng có thể là 2 chiều, 3 chiều hoặcvô số chiều Bây giờ ta hãy suy nghĩ về 2 chiều một chút, bởi vì nó dễ hình dung hơntrong tâm trí của chúng ta và trước tiên hãy làm mới khái niệm về tích vô hướng của2 vectơ Tích vô hướng giữa hai vectơ bằng với hình chiếu của một trong số chúngtrên vectơ kia Do đó, tích vô hướng giữa hai vectơ là giống nhau (nghĩa là có cácthành phần giống hệt nhau) bằng với mô đun bình phương của chúng, trong khi nếu

Ngày đăng: 31/07/2024, 10:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN