0

Trích xuất dữ liệu từ resume dựa trên mô hình question answering kết hợp bert

52 0 0
  • Trích xuất dữ liệu từ resume dựa trên mô hình question answering kết hợp bert

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Tài liệu liên quan

Thông tin tài liệu

Ngày đăng: 12/05/2022, 11:07

! ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KH12 TRẦN QUỐC TÍNH! TRÍCH XUẤT DỮ LIỆU TỪ RESUME DỰA TRÊN MƠ HÌNH QUESTION - ANSWERING KẾT HỢP BERT ! Chuyên ngành: Khoa học Máy tính Mã số: 8.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 01 năm 2022 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI: TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: PGS TS Quản Thành Thơ Cán chấm nhận xét 1: Lê Văn Quốc Anh Cán chấm nhận xét 2: Nguyễn Lưu Thùy Ngân Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 12 tháng 01 năm 2022 (trực tuyến) Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS Nguyễn Đức Dũng………… - Chủ tịch Hội đồng TS Nguyễn Tiến Thịnh………… - Thư ký Lê Văn Quốc Anh …………… - Phản biện Nguyễn Lưu Thùy Ngân………….- Phản biện TS Lê Thanh Vân …….…… … - Ủy viên Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH TS Nguyễn Đức Dũng ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA! CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ! Họ tên học viên: Trần Quốc Tính MSHV: 1970522 Ngày, tháng, năm sinh: 21/08/1997 Nơi sinh: Phú Yên Chuyên ngành: Khoa học máy tính Mã số : 8.48.01.01 I.!TÊN ĐỀ TÀI : Trích xuất liệu từ resume dựa mơ hình Question Answering kết hợp BERT / Extract information from resume based on BERT Question - Answering model II.! NHIỆM VỤ VÀ NỘI DUNG : Phát triển mơ hình dựa kỹ thuật học sâu đại có khả tự động trích xuất liệu từ resume Phương pháp đề xuất đưa phương pháp hỏi đáp dựa kiến trúc transformer kết hợp sử dụng segmentation text để phân đoạn resume thành segment phần thơng tin cần trích xuất sau dựa vào kĩ thuật hỏi đáp để trích xuất thông tin segment phân tách Mơ hình hỏi đáp xây dựng finetune mơ hình bert III.! NGÀY GIAO NHIỆM VỤ : 06/09/2021 IV.! NGÀY HOÀN THÀNH NHIỆM VỤ: 12/12/2021 V.! CÁN BỘ HƯỚNG DẪN : PGS TS Quản Thành Thơ Tp HCM, ngày … tháng … năm 2022 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN PGS TS Quản Thành Thơ TRƯỞNG KHOA KHOA HỌC KỸ THUẬT VÀ MÁY TÍNH i Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính LỜI CẢM ƠN Để hoàn thành đề tài luận văn thạc sĩ này, tơi xin bày tỏ cảm kích đặc biệt lời cảm ơn chân thành đến người thầy tôi, PGS.TS Quản Thành Thơ, người định hướng, trực tiếp dìu dắt tận tình bảo cho tơi suốt q trình thực Xin chân thành cảm ơn giảng, buổi thảo luận tư phương pháp thực giúp tơi có thêm nhiều kiến thức q giá việc hoàn thành tốt luận văn Đồng thời, thầy người cho lời khuyên vô quý giá kiến thức chuyên mơn mà cịn tận tâm q trình giảng dạy Một lần nữa, xin gửi lời cảm ơn đến thầy tất lòng biết ơn Tơi xin chân thành cảm ơn q Thầy Cơ Khoa Khoa Học Máy Tính – Trường Đại Học Bách Khoa TP.HCM với tri thức tâm huyết để truyền đạt kiến thức quý báu cho học viên cao học suốt thời gian học tập nghiên cứu Sau cùng, tơi xin cảm ơn gia đình, anh chị, bạn bè, bạn học viên, người giúp đỡ, hỗ trợ tơi góp ý cho tơi q trình thực hồn thành đề tài luận văn thạc sĩ Chân thành cảm ơn TP Hồ Chí Minh, ngày 15 tháng 11 năm 2021 Học Viên Trần Quốc Tính ii Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính TĨM TẮT LUẬN VĂN Trong thời đại cơng nghiệp 4.0 mà cụm từ Chuyển Đổi Số (Digital Transformation) [1] thường nhắc đến nhiều nơi văn phịng cơng sở, trường học, ngân hàng, bệnh viện v.v dường việc đưa lên máy tính điện tử, cơng cụ mà ta tận dụng khả tính tốn nhớ siêu hạng để xử lí cơng việc mà người nhiều thời gian công sức để hồn thành Các cơng ty doanh nghiệp quan tuyển dụng vậy, họ xử lý nhiều hồ sơ hàng ngày Rõ ràng không nên nhiệm vụ người, cần có hệ thống thơng minh tự động lấy tất thông tin quan trọng từ resume khơng có cấu trúc chuyển tất chúng sang định dạng có cấu trúc chung để sau xếp hạng cho vị trí cơng việc cụ thể Thơng tin trích xuất bao gồm tên, địa email, hồ sơ xã hội, trang web cá nhân, số năm kinh nghiệm làm việc, kinh nghiệm làm việc, số năm học, kinh nghiệm giáo dục, chứng chỉ, kinh nghiệm tình nguyện, tham khảo v.v Thơng tin trích xuất sau lưu trữ sở liệu (thường NoSQL) để sử dụng sau Không giống liệu phi cấu trúc khác (ví dụ: nội dung email, nội dung trang web, v.v.), resume dạng liệu dường có cấu trúc Thơng tin lưu trữ tập hợp rời rạc Mỗi chứa liệu chi tiết liên hệ, kinh nghiệm làm việc học vấn người Mặc dù resume khó phân tích cú pháp Điều chúng khác loại thông tin, thứ tự chúng, cách viết, v.v Hơn nữa, chúng viết nhiều định dạng khác Một số định dạng phổ biến bao gồm ’.txt’, ’.pdf’, ’.doc’, ’.docx’, ’.odt’, ’.rtf’, v.v Để phân tích cú pháp liệu từ loại resume cách hiệu mơ hình khơng dựa vào thứ tự kiểu liệu Trong luận văn ta tập trung vào xây dựng hệ thống trích xuất liệu, hệ thống dựa tảng mơ hình BERT [2] phương pháp trích xuất hỏi đáp Luận văn tập trung tìm hiểu phân tích tốn hỏi đáp tảng mơ hình BERT, nghiên cứu phương pháp có để chọn lựa giải pháp phù hợp, thực kỹ thuật làm liệu, rút trích đặc trưng điều chỉnh tham số Đồng thời nghiên cứu áp dụng kỹ thuật học sâu việc tìm câu trả lời phù hợp với thực thể ta cần rút trích cách thực cách tỉnh chỉnh mơ hình BERT với mục đích hỏi đáp để trả lời câu hỏi đưa vào mơ hình đọc qua resume sau nghiên cứu đề xuất giải pháp liên quan đến khai phá liệu nhằm nâng cao tính hiệu giải thuật việc xử lý liệu Cuối thực số kịch thử nghiệm để đánh giá giải pháp đề xuất iii Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính ABSTRACT In the industrial age 4.0 when the phrase Digital Transformation [1] is often mentioned in many places such as in offices, schools, banks, hospitals, etc It seems that everything is put on an electronic computer, a tool that can take advantage of its super-computing ability and memory to handle tasks that take a lot of time and effort power to complete Corporate companies and recruitment agencies too, they process a lot of applications on a daily basis Obviously this shouldn’t be a human task, we need an intelligent automated system that can pull out all the important information from unstructured resumes and transfer it all them into a common structured format that can then be rated for a specific job position Extracted information may include name, email address, social profiles, personal website, number of years of work experience, work experience, years of education, educational experience, certifications, experience volunteer experience, reference etc The extracted information is then stored in a database (usually NoSQL) for later use Unlike other unstructured data (e.g email body, web page content, etc.), resume is a seemingly more structured form of data Information is stored in discrete sets Each set contains data about the person’s contact details, work experience or education Although these resumes are difficult to parse This is because they differ in the types of information, their order, spelling, etc Furthermore, they can be written in a variety of formats Some common formats include ’.txt’, ’.pdf’, ’.doc’, ’.docx’, ’.odt’, ’.rtf’, etc To parse data from resume types efficiently, the model must not rely on order or data type In this thesis, we focus on building a data extraction system, a system based on the BERT [2] model and the QA extraction method The thesis focuses on understanding and analyzing the question-and-answer problem on the basis of the BERT model, studying the existing methods to choose the appropriate solution, implementing data cleaning techniques, feature extraction and parameter adjustment At the same time, we also study and apply deep learning techniques in finding the right answers for the entity we need to extract by refining the BERT model for the purpose of asking and answering questions Answer the questions included when the model reads through the resume, then research and propose solutions related to data mining to improve the effectiveness of the algorithm in processing new data Finally, we will perform some test scenarios to evaluate the proposed solutions iv Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi hướng dẫn khoa học PGS TS Quản Thành Thơ Các nội dung nghiên cứu, kết đề tài trung thực chưa công bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ việc đo đạc thực tế nguồn khác có ghi rõ phần tài liệu tham khảo Ngoài ra, luận văn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm nội dung luận văn TP Hồ Chí Minh, ngày 15 tháng 11 năm 2021 Học Viên Trần Quốc Tính v Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Mục lục NHIỆM VỤ LUẬN VĂN THẠC SĨ i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii ABSTRACT iv LỜI CAM ĐOAN v MỤC LỤC vi DANH SÁCH HÌNH ẢNH viii DANH SÁCH BẢNG BIỂU x DANH TỪ VIẾT TẮT xi 1 5 CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 2.1 Tình hình nghiên cứu giới 2.2 Đề xuất phương pháp nghiên cứu 6 CƠ SỞ LÝ THUYẾT 3.1 Giới thiệu Word Representation 3.2 Kỹ thuật Word Embedding 3.3 Kiến trúc Transformer 3.4 Mơ hình Bidirectional Encoder Representation from Transformer - BERT 3.5 Mơ hình hỏi đáp dựa BERT 10 10 11 15 MÔ HÌNH ĐỀ XUẤT 4.1 Dữ liệu thử nghiệm 4.2 Tiền xử lí liệu 25 25 26 GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu chung 1.2 Mục tiêu đề tài 1.3 Giới hạn đề tài 1.4 Đối tượng nghiên cứu 22 24 vi Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính 4.3 4.4 Xây dựng mơ hình 27 Phương pháp đánh giá 30 KẾT QUẢ THỬ NGHIỆM 5.1 Mục tiêu thử nghiệm 5.2 Quá trình thử nghiệm 5.3 Kết thử nghiệm 5.4 Demo hệ thống KẾT LUẬN 6.1 Đánh giá kết 6.2 Một số hạn chế 6.3 Hướng phát triển 6.4 Tiềm thực tế 33 33 33 33 35 35 35 36 36 36 TÀI LIỆU THAM KHẢO 37 PHẦN LÝ LỊCH TRÍCH NGANG 39 vii Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính DANH SÁCH HÌNH ẢNH • Hình : Việc sàn lọc resume thường gây khó khăn cho nhà tuyển dụng • Hình : Minh hoạ cấu trúc resume • Hình : Minh hoạ sơ lược trình trích xuất thơng tin từ resume • Hình : Ví dụ phương pháp hỏi đáp • Hình : Q trình xử lí hệ thống hỏi đáp cổ điển • Hình : Mơ hình pipeline để trích xuất thơng tin từ resume sử dụng semanticbased • Hình : Kiến trúc học sâu để trích xuất thơng tin từ resume sử dụng semanticbased • Hình : Mơ hình trích xuất thơng tin từ resume sử dụng rule-based • Hình : Cấu trúc xây dựng mơ hình Sentence to vector • Hình 10 : Biểu diễn Recurrent Neural Network • Hình 11 : Minh hoạ kiến trúc Transformer • Hình 12 : Minh hoạ Scaled Dot-Product Attention • Hình 13 : Minh hoạ Multi-Head Attention • Hình 14 : Minh hoạ q trình huấn luyện Masked Language Model (MLM) • Hình 15 : Minh hoạ trình huấn luyện Next Sentence Prediction (NSP) • Hình 16 : Minh hoạ q trình tinh chỉnh mơ hình hỏi đáp dựa BERT • Hình 17 : Bộ liệu resume từ website VietnamWorks • Hình 18 : Q trình tiền xử lí liệu để lấy giá trị start token end token • Hình 19 : Kiến trúc hệ thống đề xuất • Hình 20 : Minh hoạ q trình xử lí Segmentation Text • Hình 21 : Quá trình huấn luyện với BERT liệu Vietnamworks • Hình 22 : Ví dụ cụ thể trình huấn luyện với BERT liệu Vietnamworks viii Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hình 16: Minh hoạ q trình tinh chỉnh mơ hình hỏi đáp dựa BERT • Các embedding vectơ sau đưa vào kiến trúc tranformer multi-head attention với nhiều layer Ta thu vectơ output encoder • Sau tiến hành dự đoán phân phối xác suất cho vị trí từ decoder, step truyền vào decoder vectơ output encoder vectơ embedding input decoder để tính encoder-decoder attention Sau chiếu qua liner layer softmax để thu phân phối xác suất cho output tương ứng • Trong kết trả output Transformer ta cố định kết câu Question cho trùng với câu Question input Các vị trí cịn lại thành phần mở rộng Start/End Span tương ứng với câu trả lời tìm từ câu input Lưu ý q trình huấn luyện fine-tune lại tồn tham số model BERT cut off top linear layer huấn luyện lại từ đầu tham số linear layer mà thêm vào kiến trúc model BERT để customize lại phù hợp với tốn [23][24] MƠ HÌNH ĐỀ XUẤT 4.1 Dữ liệu thử nghiệm Bộ liệu sử dụng để huấn luyện liệu resume từ website VietNamWorks VietNamWorks website tuyển dụng hàng đầu Việt 25 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Nam Dữ liệu gồm có câu hỏi câu trả lời cho trường liệu mà ta muốn trích xuất từ resume Kiểu liệu trường văn Hình 17: Bộ liệu resume từ website VietnamWorks Bộ liệu gồm 2386 câu hỏi liên quan đến trường liệu cần trích xuất Education, Experience, Certificate, Reference, Hobby, Activity, Major, Job Title, Skill trích xuất thủ cơng từ 1000 resume khác website VietNamWorks 4.2 Tiền xử lí liệu Để thực q trình fine-tune Transformer đơn giản, liệu phải kiểu liệu mà Python đọc Từ liệu câu trả lời ta cần xác định vị trí câu trả lời ngữ cảnh resume nên ta cần làm thêm việc xác định vị trí bắt đầu câu trả lời (answer_start) Mỗi từ điển chứa hai thuộc tính, "context" "qas" • context: paragraph text mà câu hỏi đưa từ • qas: Một danh sách câu hỏi câu trả lời Câu hỏi câu trả lời trình bày dạng dictionaries Mỗi dictionaries qas có định dạng sau • id: (string) Một ID cho câu hỏi Phải tồn tập liệu • question: (string) câu hỏi • answers: (list) Danh sách câu trả lời cho câu hỏi Một câu trả lời đại diện dictionaries với thuộc tính sau • answer: (string) Câu trả lời cho câu hỏi Phải chuỗi ngữ cảnh • answer_start: (int) Chỉ mục bắt đầu câu trả lời ngữ cảnh Chúng ta chuyển đổi liệu VietNamWorks sang định dạng dễ dàng 26 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hình 18: Q trình tiền xử lí liệu để lấy giá trị start token end token 4.3 Xây dựng mô hình Mơ hình đề xuất gồm phần phần nhận xử lí file resume, phân đoạn (segmentation) cho trường liệu phần trích xuất thơng tin từ mơ hình hỏi đáp dựa BERT Hệ thống Backend Đầu tiên ta đề cập tới phần nhận xử lí file resume Đây hệ thống Backend nhận file truyền vào có kiểu liệu PDF word để xử lí trả liệu mong muốn văn tiếng Anh Về phần ta xử dụng API có sẵn Python để xây dựng hệ thống Backend Minh hoạ trình xử lí Segmentation Text Tiếp theo phần segmentation cho trường liệu Mục đích phần xác định segment trường muốn trích xuất để thu hẹp kích thước văn cần trích xuất resume liệu văn resume nhiều gồm nhiều segment khác nên đưa vào mơ hình trích xuất dễ dẫn đến trích xuất khơng phần liệu mong muốn nên việc segmentation cần thiết cho resume có cấu trúc dài phức tạp 27 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hình 19: Kiến trúc hệ thống đề xuất Để làm điều với kiến thức tham khảo từ báo trên, đa số tác giả áp dụng kĩ thuật heuristic xác định mục, dùng từ khoá.v.v để phân đoạn cho trường liệu Việc hiệu với resume có cấu trúc đơn giản với cấu trúc resume phức tạp việc dường khó Để giải vấn đề nghĩ đến segmentation kĩ thuật đại word embedding Hình 20: Segmentation Text Với kĩ thuật word embedding ta kết hợp với kĩ thuật tên sliding window Với kĩ thuật ta xác định cửa sổ trượt với thơng số kích thước cửa sổ 28 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính (size) bước nhảy (step) Khi nhận liệu dạng văn resume ta tiến hành trượt cửa sổ văn để lấy segment văn Phương pháp giống với tích chập xử lý ảnh Với liệu segment lấy ta tiếp hành cho qua sen2vec để có biểu diễn vectơ segment này, lúc ta lấy biểu diễn từ đại diện cho trường liệu ta cần lấy education, experience, certificate, reference, hobby, activity, major, job title, skill Sau có vectơ biểu diễn thành phần ta đưa vào cơng thức cosine-similarity để tính độ tương đồng từ đại diện trường liệu với segment ta lấy Kết ta lấy segment có độ tương đồng lớn sau xếp Mô hình trích xuất thơng tin với BERT Sau ta có segment có chứa liệu cần trích xuất ta cho segment qua model hỏi đáp dựa BERT train với liệu VietNamWorks Model trích xuát liệu theo trường dựa theo câu hỏi cài đặt sẵn lúc ta có liệu cần trích xuất Q trình huấn luyện cho mơ hình: Trong trình này, sau ta tiền xử lí liệu xong liệu làm chia làm train test Với liệu train ta đưa câu hỏi câu trả lời vào train theo batch batch có batch size số lần train qua toàn bộ liệu số epoch điều chỉnh trình train để có kết tốt Cịn câu hỏi câu trả lời ta đưa vào mơ hình huấn luyện dạng text Từng câu hỏi câu trả lời nối với token [SEP] để phân biệt đầu chuỗi token [CLS] để đánh dấu cho bắt đầu chuỗi Khi chuỗi nối lại đánh dấu đưa qua lớp embedding để mã hoá diệu text thành vectơ Tiếp theo ta cho qua lớp positional encoding để mã hoá vị trí Cuối ta đưa vào mơ hình BERT để huấn luyện cho mơ hình hỏi đáp Hàm loss định nghĩa cross-entropy cho token bắt đầu kết thúc câu trả lời Ta cấu hình hàm tối ưu để có kết tốt Để minh hoạ chi tiết cho trình ta lấy ví dụ sau: Ta đưa vào model câu hỏi "What skill is mentioned?" đoạn context có câu trả lời "In resume, the skills are excel" Khi đưa vào mô hình ta gắn phần câu hỏi với context lại với thêm token [CLS] [SEP] nên input có dạng "[CLS] What skill is mentioned [SEP] In resume, the skills are excel" Sau nhận vào input mơ hình cho input qua cơng đoạn xử lí embedding gồm bước token embedding, position embedding segment embedding để có vectơ embedding từ Tiếp sau ta cho vectơ embedding qua kiến trúc transformer gồm encoder decoder để tính tốn giá trị Scaled Dot-Product Attention, Multi-Head Attention encoder decoder tương ứng Qua q trình ta có output decoder Output ta cho qua lớp fully connected softmax để đưa phân phối xác suất cho token Cuối ta cần lấy token 29 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hình 21: Q trình huấn luyện với BERT liệu Vietnamworks có giá trị xác suất cao cho start token end token câu trả lời 4.4 Phương pháp đánh giá Confusion matrix [25] bảng thường sử dụng để mơ tả hiệu suất mơ hình phân loại tập liệu thử nghiệm mà giá trị thực biết Bản thân confusion matrix tương đối đơn giản để hiểu, thuật ngữ liên quan gây nhầm lẫn 30 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hình 22: Ví dụ cụ thể q trình huấn luyện với BERT liệu Vietnamworks Prediction outcome Positive Negative Total Positive a b a+b Actual value Negative c d c+d Total a+c b+d N Bây xác định thuật ngữ nhất: • True positives (TP): Đây trường hợp dự đoán Positive kết thực Positive Đối với tồn hỏi đáp giá trị số token trùng với câu trả lời dự đoán kết thực • True negatives (TN): Chúng ta dự đốn Negative kết thực Negative Đối với tồn hỏi đáp giá trị số token trùng với câu trả lời dự đốn kết thực • False positives (FP): Chúng ta dự đoán Positive kết thực Negative Đối với toàn hỏi đáp giá trị số token dự đoán sai 31 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính so với câu trả lời thực • False negatives (FN): Chúng ta dự đoán Negative kết thực Positive Đối với toàn hỏi đáp giá trị số token kết bị dự đốn khơng phải câu trả lời thực Hình 23: Các khái niệm Confusion matrix toán hỏi đáp Precision = TP TP ; Recall = T P + FP T P + FN (6) Metrics cho tốn hỏi đáp Có hai số liệu đo lường sử dụng nhiều tập liệu câu hỏi trả lời, bao gồm SQuAD Exact match (EM) F1-score Những điểm số tính cặp câu hỏi, câu trả lời riêng lẻ Khi có nhiều câu trả lời cho câu hỏi định, điểm tối đa tất câu trả lời tính Điểm EM F1 tổng thể tính cho mơ hình cách lấy trung bình điểm số ví dụ riêng lẻ Exact match Chỉ số nghe đơn giản Đối với cặp câu hỏi, câu trả lời, ký tự dự đốn mơ hình khớp xác với ký tự (một các) câu trả lời EM = 1, khơng EM = Đây số liệu nghiêm ngặt nghĩa hoàn toàn khơng có gì, bị lệch ký tự dẫn đến điểm Khi đánh giá theo ví dụ khơng có câu trả lời, mơ hình dự đốn sai văn nào, tự động nhận điểm cho ví dụ F1-Score F1-score thước đo phổ biến cho toán phân loại sử dụng rộng rãi QA Nó phù hợp quan tâm precision recall Trong trường hợp này, tính tốn dựa từ riêng lẻ dự đoán so 32 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính với từ câu trả lời Số lượng từ chia sẻ dự đoán kết thực sở F1-score: precision tỷ lệ số từ chia sẻ tổng số từ dự đoán recall tỷ lệ số từ chia sẻ đến tổng số từ kết thực F1 − Score = × Precision × Recall Precision + Recall (7) KẾT QUẢ THỬ NGHIỆM 5.1 Mục tiêu thử nghiệm • Hiện thực xây dựng mơ hình Question Answering dựa BERT với liệu VietNamWorks • Điều chỉnh tham số mơ hình • Kiểm tra tính đắn mơ hình Question Answering dựa BERT 5.2 Q trình thử nghiệm Sau train Google Colab ta có số kết ban đầu ghi lại 5.3 Kết thử nghiệm Sau trình train kết F1-score Exatc match ban đầu thu là: Traning Test EM 0.97 0.73 EM-Approximate 0.98 0.82 F1-Score 0.99 0.92 Precisions 0.99 0.91 Recall 0.99 0.93 Bảng 1: Kết huấn luyện với mơ hình BERT Với kết thu có giá trị exact match 0.97 tập train tập test 0.73 coi chấp nhận với liệu tuỳ chọn chưa tinh chỉnh nhiều Trong trình huấn luyện nhận thấy đa số kết thường sai khác so với kết thực có token nên ta có thêm thơng số approximation exact match tính cách cho phép câu trả lời sai mức ±1 so với kết thực tế Với kết ta thấy cần cải thiện tinh chỉnh liệu để mơ hình học hiệu để đạt kết 0,8x tập test 33 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hình 24: Biểu đồ exact match F1-score trình huấn luyện Hình 25: Biểu đồ exact match F1-score tập test Sau huấn luyện với mơ hình BERT ta có thử với số mơ hình khác tiếng tốn hỏi đáp RoBerta, AlBert ELECTRA để có kết so sánh bảng Thông qua kết có ta thấy mơ hình Albert cho kết tốt với liệu VietnamWorks gần thơng số Kết giải thích ngắn gọn sau: 34 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Model BERT RoBerta AlBert ELECTRA Traning Test Traning Test Traning Test Traning Test EM 0.97 0.73 0.96 0.73 0.98 0.75 0.96 0.62 EM-Approximate 0.98 0.82 0.97 0.81 0.99 0.84 0.97 0.71 F1-Score 0.99 0.92 0.99 0.92 0.99 0.93 0.98 0.87 Precisions 0.99 0.91 0.99 0.91 0.99 0.93 0.98 0.85 Recall 0.99 0.93 0.99 0.94 0.99 0.93 0.99 0.90 Bảng 2: So sánh mô hình • Các tham số embedding xác thực hóa tách chúng khỏi trạng thái ẩn, cho phép thơng số embedding có kích thước thấp Điều làm giảm hàng loạt tham số mơ hình giúp tính tốn nhanh • Chia sẻ thông số nhiều lớp phân đoạn attention phân đoạn encoder, phân đoạn chuyển tiếp nguồn cấp liệu Một lần nữa, điều làm giảm số lượng tham số đáng kể • Một task ngơn ngữ khác: thay Next Sentence Prediction (NSP), Sentenceorder prediction (SOP) thực hiện, để cải thiện lo ngại NSP Với ba điểm khác biệt chính, tác giả cố gắng chứng minh mơ hình NLP tốt khơng thiết có nghĩa mơ hình lớn Các thí nghiệm cho thấy mơ hình tốt theo ngữ cảnh (ALBERT xxlarge) đào tạo để cải thiện BERT lớn 70% lượng tham số lớn BERT Điều cho thấy mơ hình ngơn ngữ tốt tạo với tham số 5.4 Demo hệ thống Với hệ thống xây dựng định nghĩa bên ta chạy demo hệ thống nhận kết tốt KẾT LUẬN 6.1 Đánh giá kết Tổng kết thành trình nghiên cứu lý thuyết Word Embedding, Transformer, BERT, Question Answering gồm nguyên nhân đời, sở lý thuyết, sơ lược mơ hình cách xử lí với liệu Kết nghiên cứu dùng làm tài liệu tham khảo cho muốn làm quen với tốn trích xuất liệu từ resume giúp tiết kiệm thời gian tiếp cận 35 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hình 26: Kết demo hệ thống 6.2 Một số hạn chế • Kết huấn luyện chưa đạt mong muốn (exact match 0.8x) • Chưa triển khai mơ hình với liệu tiếng Việt 6.3 Hướng phát triển Ta đề xuất số cải tiến để có kết khả quan : • Xây dựng kết hợp với mơ hình BERT tiếng Việt qua xây dựng mơ hình Question Answering tiếng Việt [26] • Sau trích xuất liệu xong ta lưu lại sở liệu 6.4 Tiềm thực tế Từ kết phân tích dự định xây dựng ứng dụng trích xuất liệu từ resume để giúp cho nhà tuyển dụng sử dụng thực tế 36 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính TÀI LIỆU THAM KHẢO References [1] Bounfour, Digital Futures, Digital Transformation Springer International Publishing Cham, 2016 ISBN: 9780198520115 [2] J Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies vol 1.10 (2019), pp 4171–4186 DOI: http://dx.doi.org/10.18653/v1/N19-1423 [3] S Sanyal et al., “Resume Parser with Natural Language Processing” In: International Journal of Engineering Science and Computing vol 7, no 2.2, pp 4484–4489, Feb 2017 DOI: http: //dx.doi.org/10.18653/v1/N19-1423 [4] A Bouziane et al., “Question Answering Systems: Survey and Trends,” In: International Conference on Advanced Wireless Information and Communication Technologies (AWICT 2015) vol 73, 2015, pp 366–375 DOI: https://doi.org/10.1016/j.procs.2015.12.005 [5] B Ojokoh1 and E Adebisi, “LASSO: A Tool for Surfing the Answer Net,” In: Journal of King Saud University - Computer and Information Sciences vol 32, pp 635–646, July 2020 DOI: https://doi.org/10.1016/j.jksuci.2018.08.005 [6] V V Nguyen, V L Pham, and N S Vu, “Study of Information Extraction in Resume,” Technical Report, VNU University of Engineering and Technology, 2018 [7] M Pandey and S S Rautaray, “A CV Parser Model using Entity Extraction Process and Big Data Tools,” In: I.J Information Technology and Computer Science vol 9, pp 21–31, 2018 DOI: https://doi.org/10.5815/ijitcs.2018.09.03 [8] Ayishathahira, Sreejith, and Raseek “Combination of Neural Networks and Conditional Random Fields for Efficient Resume Parsing,” In: 2018 International CET Conference on Control, Communication, and Computing (IC4), July 2018 DOI: https : / / doi org / 10 1109 / CETIC4.2018.8530883 [9] Sun M Liu Z Lin Y, Word Representation Representation Learning for Natural Language Processing Springer, Singapore., 2016 ISBN: 9780198520115 DOI: https://doi.org/10 1007/978-981-15-5573-2_2 [10] C D Manning, H Schutze and P Raghavan, Introduction to information retrieval, 10th edition Cambridge University Press, 2008 [11] Z S Harris, “Distributional structure,” In: WORD, vol 39, no 2-3, pp 146–162, 1954 [12] G Salton and C Buckley, “Term-weighting approaches in automatic text retrieval,” Information Processing and Management, vol 24 no 5, pp 513–523, 1988 [13] Y Bengio et al., “A neural probabilistic language model,” The Journal of Machine Learning Research (JMLR), vol 3, pp 1137–1155, 2003 [14] T Mikolov et al., “Efficient estimation of word representations in vector space,” In: 1st International Conference on Learning Representations, ICLR 2013 - Workshop Track Proceedings, 2013, pp 1–12 DOI: https://doi.org/10.48550/arXiv.1301.3781 [15] J Pennington, R Socher, and C Manning, “Glove: Global Vectors for Word Representation,” In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Process-ing (EMNLP), Doha, Quatar, 2014, pp 1532–1543 [16] A Joulin et al., “Fasttext.zip: Compressing text classification models,” Internet: arXivpreprintarXiv:1612.03651, 2021 37 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính [17] M E Peters et al., “Deep contextualized word representations.” In: North American Chapter of the Association for Computational Linguistics (NAACL), New Orleans, Louisiana, 2018 [18] I Goodfellow, Y Bengio, and A Courville, Deep Learning The MIT Press, 2016, pp 12–27 [19] T T Quan, “Modern Approaches in Natural Language Processing," VNU Journal of Science: Comp Science Com Eng, vol 37, no 1, 2021 [20] D E Rumelhart, G E Hinton, and R J Williams, “Learning representations by back-propagating errors,” Nature, vol 6088, no 2-3, pp 533–536, 1986 [21] A Vaswani et al., “Attention Is All You Need,” In: Proceedings of the 31st International Conference on Neural Information Processing Systems, Dec 2017, pp 6000–6010 DOI: https: //arxiv.org/pdf/1706.03762.pdf [22] A Singh, "End-to-end Masked Language Modeling with BERT," Internet: https://keras io/examples/nlp/masked_language_modeling/, 2021 [23] S Schwager and J Solitario, "Question and Answering on SQuAD 2.0: BERT Is All You Need." Internet: https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/ reports/default/15812785.pdf, 2021 [24] Y Zhang and Z Xu, "BERT for Question and Answering on SQuAD 2.0." Internet: https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/reports/ default/ 15848021.pdf, 2021 [25] A Kulkarni, D Chong, and A Batarseh, “Foundations of data imbalance and solutions for a data democracy,” In: At the Nexus of Artificial Intelligence, Software Development, and Knowledge Engineering, 2020 DOI: https://doi.org/10.1016/B978-0-12-8183663.00005-8 [26] T M T Nguyen and M Shcherbakov, “Vietnamese Question Answering System from Multilingual BERT Models to Monolingual BERT Model,” In: 2020 9th International Conference System Modeling and Advancement in Research Trends (SMART), 2020 DOI: https: //doi.org/10.1109/SMART50582.2020.9337155 38 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: Trần Quốc Tính Ngày, tháng, năm sinh: 21/08/1997 Nơi sinh: Phú Yên Địa liên lạc: 223 Nguyễn Xí, phường 13, quận Bình Thạnh, TP Hồ Chí Minh Q TRÌNH ĐÀO TẠO • Trường Đại học Bách Khoa TP HCM – Sinh viên khoa KH KT Máy tính (khóa 2015 – 2019) • Trường Đại học Bách Khoa TP HCM – Học viên cao học Khoa học Máy tính (khóa 2019 – nay) Q TRÌNH CƠNG TÁC • Từ 06/2018 đến 12/2019: làm việc Cơng ty FPT Telecom • Từ 12/2019 đến nay: làm việc Công ty Navigos Group 39 ... : Trích xuất liệu từ resume dựa mơ hình Question Answering kết hợp BERT / Extract information from resume based on BERT Question - Answering model II.! NHIỆM VỤ VÀ NỘI DUNG : Phát triển mơ hình. .. pháp liệu từ loại resume cách hiệu mơ hình khơng dựa vào thứ tự kiểu liệu Trong luận văn ta tập trung vào xây dựng hệ thống trích xuất liệu, hệ thống dựa tảng mơ hình BERT [2] phương pháp trích xuất. .. người coi từ vựng Từ vựng bao gồm từ đơn có âm tiết từ ghép nhiều âm tiết • Dictionary (từ điển): Là tập hợp từ vựng xuất văn • Volcabulary (từ vựng): Tập hợp từ trích xuất văn Tương tự từ điển
- Xem thêm -

Xem thêm: Trích xuất dữ liệu từ resume dựa trên mô hình question answering kết hợp bert ,