TÌM HIỂU VỀ TRÍCH RÚT THÔNG TIN VÀ ỨNG DỤNG TRONG VIỆC TRÍCH RÚT SƠ YẾU LÝ LỊCH

29 0 0
TÌM HIỂU VỀ TRÍCH RÚT THÔNG TIN VÀ ỨNG DỤNG TRONG VIỆC TRÍCH RÚT SƠ YẾU LÝ LỊCH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Quá trình tuyển dụng đã phát triển theo thời gian. Các ngành công nghiệp bắt đầu phát triển và nhu cầu tuyển dụng cũng tăng theo. Do đó, các công ty bắt đầu gia công quá trình tuyển dụng của họ. Việc tìm kiếm ứng viên giữa hàng trăm nghìn hồ sơ xin việc là một phần công việc thường ngày của các nhà tuyển dụng. Vấn đề đặt ra là nhà tuyển dụng không thể ngồi đọc từng hồ sơ xin việc của từng ứng viên, việc này tốn rất nhiều thời gian và nhân lực, thậm trí không thể tìm được các ứng viên phù hợp với mong muốn của công ty. Hoặc một sinh viên đang cố gắng làm đẹp bản lý lịch không có cấu trúc của mình và chuyển đổi thành một định dạng pdf đẹp để dễ dàng liên kết với cơ hội việc làm trực tiếp từ hồ sơ xin việc. Chính vì vậy để giải quyết vấn đề này, nhóm nhóm đưa ra giải pháp phân tích thông tin từ sơ yếu lý lịch bằng cách sử dụng xử lý ngôn ngữ tự nhiên, tìm các từ khóa, phân cụm chúng vào các lĩnh vực dựa trên từ khóa của chúng và cuối cùng hiển thị sơ yếu lý lịch phù hợp nhất cho nhà tuyển dụng dựa trên đối sánh từ khóa. Tiết kiệm thời gian và xử lý được nhiều hồ sơ xin việc hơn, trong thời gian ngắn hơn.

TRƯỜNG ĐẠI HỌC XÂY DỰNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN o0o BÁO CÁO ĐỒ ÁN XỬ LÝ NGƠN TỰ NHIÊN Đề tài: TÌM HIỂU VỀ TRÍCH RÚT THƠNG TIN VÀ ỨNG DỤNG TRONG VIỆC TRÍCH RÚT SƠ YẾU LÝ LỊCH Hà Nội, tháng năm 2022 Mục lục CHƯƠNG I: GIỚI THIỆU Lý chọn đề tài Mục đích nghiên cứu phạm vi nghiên cứu a Mục đích nghiên cứu Nội dung nghiên cứu 4 Bố cục Ý nghĩa đề tài CHƯƠNG II: CƠ SỞ LÝ THUYẾT SỬ DỤNG TRONG ĐỀ TÀI Bài tốn trích rút thơng tin Định nghĩa toán 1.2 Kiến trúc hệ thống trích rút thơng tin Bài tốn trích rút thơng tin cá nhân Định nghĩa tốn 2.2 Phương pháp giải tốn trích rút thơng tin cá nhân Bài tốn trích rút thực thể Định nghĩa tốn Bài tốn trích rút mối quan hệ 8 4.1 Định nghĩa toán 4.2 Trích rút mối quan hệ tốn trích rút thơng tin cá nhân Ứng dụng tốn trích rút thơng tin cá nhân Chuyển đổi từ PDF thành văn 8 2.1 1.1 3.1 10 6.1 Thuật toán phân tích bố cục 10 6.2 Nhóm kí tự thành từ dịng 10 6.3 Nhóm dịng vào hộp 11 6.4 Nhóm hộp văn theo thứ bậc 12 6.5 Làm việc với kí tự xoay 12 Biểu thức quy 12 7.1 Định nghĩa 12 7.2 Các phép tốn biểu thức qui 13 7.3 Ứng dụng biểu thức quy để trích rút quan hệ 13 Bài tốn trích rút dựa xây dựng mẫu 13 8.1 Xây dựng mẫu thủ công 13 8.1.1 Trường tên 14 8.1.2 Trường Email 14 8.1.3 Trường số điện thoại 15 Xây dựng mẫu tự động 15 Bài tốn trích rút dựa luật 15 8.2 9.1 Phương pháp dựa từ điển 15 9.2 Phương pháp dựa luật 16 9.2.1 Luật gán nhãn 16 9.2.2 Luật ngữ cảnh 16 9.2.3 Luật sửa đổi 16 9.2.4 Khái quát luật 17 10 StopWords (từ dừng) 17 11 Tokenization 17 11.1 Word-based tokenization 18 11.2 Character-based tokenization 18 11.3 Subword-based tokenization 19 12 Phương pháp đánh giá kết CHƯƠNG III: THỰC NGHIỆM 19 21 Đọc sơ yếu lý lịch 21 Trích xuất tên 21 Trích xuất số điện thoại 22 Trích xuất Email 22 Trích xuất kỹ 22 CHƯƠNG IV: KẾT QUẢ 24 CHƯƠNG V: KẾT LUẬN 25 5.1 Các kết đạt đồ án 25 5.1.1 Về lý thuyết 25 5.1.2 Về thực nghiệm 25 5.1.3 Nhận xét 25 5.2 Hướng phát triển Phụ lục hình ảnh 25 26 Phụ lục bảng 27 TÀI LIỆU THAM KHẢO 28 CHƯƠNG I: GIỚI THIỆU Lý chọn đề tài Quá trình tuyển dụng phát triển theo thời gian Các ngành công nghiệp bắt đầu phát triển nhu cầu tuyển dụng tăng theo Do đó, cơng ty bắt đầu gia cơng q trình tuyển dụng họ Việc tìm kiếm ứng viên hàng trăm nghìn hồ sơ xin việc phần công việc thường ngày nhà tuyển dụng Vấn đề đặt nhà tuyển dụng ngồi đọc hồ sơ xin việc ứng viên, việc tốn nhiều thời gian nhân lực, trí khơng thể tìm ứng viên phù hợp với mong muốn công ty Hoặc sinh viên cố gắng làm đẹp lý lịch khơng có cấu trúc chuyển đổi thành định dạng pdf đẹp để dễ dàng liên kết với hội việc làm trực tiếp từ hồ sơ xin việc Chính để giải vấn đề này, nhóm nhóm đưa giải pháp phân tích thơng tin từ sơ yếu lý lịch cách sử dụng xử lý ngơn ngữ tự nhiên, tìm từ khóa, phân cụm chúng vào lĩnh vực dựa từ khóa chúng cuối hiển thị sơ yếu lý lịch phù hợp cho nhà tuyển dụng dựa đối sánh từ khóa Tiết kiệm thời gian xử lý nhiều hồ sơ xin việc hơn, thời gian ngắn Mục đích nghiên cứu phạm vi nghiên cứu a Mục đích nghiên cứu Thơng qua nghiên cứu đề tài “ Tìm hiểu trích rút thơng tin ứng dụng việc trích rút sơ yếu lý lịch”, nhóm nhóm mong muốn số kết quả: ● Nghiên cứu phương pháp trích rút thơng tin từ lựa chọn phương pháp phù hợp với toán ● Xây dựng hệ thống trích rút thơng tin từ sơ yếu lý lịch b Phạm vi nghiên cứu Đề tài tập trung vào việc trích rút thơng tin cá nhân từ sơ yếu lý lịch xin việc tiếng việt định dạng tập tin pdf Với mặc định, văn đề cập đến thông tin người Hệ thống trích rút từ văn thực thể: tên người, số điện thoại, email, kỹ Cuối cùng, hệ thống lưu liệu vừa trích xuất dạng giá trị phân tách dấu phẩy (csv) Nội dung nghiên cứu Trong đề tài này, để giải tốn trích rút thơng tin nhóm sử dụng nhận dạng thực thể, trích xuất dựa mẫu, biểu thức quy, kỹ thuật tách từ Bố cục Bố cục báo cáo gồm chương phụ lục: Chương I giới thiệu động cơ, mục tiêu phạm vi nghiên cứu, đóng góp cấu trúc báo cáo Chương II giới thiệu tổng quan tốn trích rút thơng tin, tốn liên quan đến trích rút thực thể Chương III phân tích thiết kế kệ thống trích rút thơng tin từ sơ yếu lí lịch Chương IV thực nghiệm , nhận xét đánh giá kết từ hệ thống Ý nghĩa đề tài Với kết đạt được, đề tài mang lại số kết nghiên cứu định việc trích rút thơng tin, đặc biệt trích rút thực thể , kết hợp phương pháp biểu thức quy để giải toán cụ thể Đồng thời, đề tài xây dựng hệ thống trích rút thơng tin từ văn sơ yếu lý lịch Nguồn thơng tin sử dụng cho hệ thống lọc sơ yếu lý lịch giúp cho quy trình tuyển dụng tiết kiệm thời gian chi phí CHƯƠNG II: CƠ SỞ LÝ THUYẾT SỬ DỤNG TRONG ĐỀ TÀI Bài tốn trích rút thơng tin Định nghĩa tốn 1.1 “Trích rút thơng tin” (IE – Information Extraction) q trình phát thực thể/tên, mối quan hệ kiện từ văn có cấu trúc, bán cấu trúc hay phi cấu trúc; chuyển chúng sang dạng thể có cấu trúc Việc trích rút thơng tin có cấu trúc từ nguồn liệu khơng có cấu trúc cơng việc nhiều khó khăn thu hút quan tâm nhiều nhà nghiên cứu hai thập kỉ qua Có nhiều mức độ trích rút thơng tin từ văn như: nhận diện thực thể có tên (Named Entity Recognition – NER), trích rút quan hệ thực thể (Relation Extraction - RE), phân giải đồng tham chiếu (Co-Reference Resolution)… Các kĩ thuật sử dụng q trình rút trích thơng tin gồm có: Phân đoạn, phân lớp, kết hợp phân cụm Kết hệ thống trích chọn thơng tin thường mẫu (template) chứa số lượng xác định trường điền thơng tin IE có nhiều ứng dụng rộng rãi hữu ích Trên giới IE ứng dụng nhiều vào việc trích chọn thơng tin internet Các ứng dụng thực tế ví dụ: Hỗ trợ, tư vấn mua hàng; chăm sóc khách hàng; tìm kiếm câu trả lời cho hệ thống hỏi đáp; theo dõi thông tin dịch bệnh; tham gia vào hệ thống quản lý thông tin cá nhân … Một số ứng dụng xử lý ngôn ngữ tự nhiên (Natural Language Processing): Truy hồi thơng tin (IR): Tìm kiếm, lấy tài liệu để đáp ứng yêu cầu thơng tin Trích rút thơng tin (IE): Lấy thông tin văn theo khuôn mẫu, yêu cầu, 1.2 Kiến trúc hệ thống trích rút thơng tin Theo MUC (Message Understanding Conferences) [1] hệ thống trích rút thơng tin có thao tác sau: Hình 1: Cấu trúc hệ thống trích rút thơng tin Kiến trúc hệ thống trích rút sở để xây dựng hệ thống trích rút thơng tin cá nhân (từ sở yếu lý lịch) Do phần giải thích kiến trúc hệ thống trích rút a Tiền xử lý liệu Văn đầu vào trước đến bước nhận dạng thực thể phải tiền xử lý, bao gồm bước: Tách câu, tách từ, gán nhãn từ loại phân cụm b Nhận dạng thực thể Nhận dạng thực thể (Named Entity Recogintion – NER) việc tìm phân loại thực thể tên, địa chỉ, thời gian, tổ chức… có văn c Giải đồng tham chiếu Giải đồng tham chiếu (Coreference Resolution – CO) việc nhận dạng đồng tham chiếu thực thể cách kết hợp thông tin mô tả nằm rải rác văn tới thực thể mà tham chiếu Thao tác mang tính chất hỗ trợ cho thao tác khác Nó bị ảnh hưởng người dùng, loại văn bản, hay lĩnh vực d Trích rút mối quan hệ Dị tìm mối quan hệ (Relation detection) trình tìm tất mối quan hệ thực thể câu cách xây dựng tập luật để trích rút dựa mơ hình học máy (như CRFs, HMM,…) Kết q trình dị tìm mối quan hệ phụ thuộc nhiều vào việc xác định thực thể câu độ phức tạp mẫu câu Bài tốn trích rút thơng tin cá nhân Định nghĩa toán 2.1 Bài toán trích rút thơng tin cá nhân (Personal Information Extraction) việc trích rút thơng tin quan tâm nhân từ nguồn liệu bán cấu trúc hay khơng có cấu trúc ( ví dụ như: sơ yếu lý lịch, văn bản, trang web, ) chuyển chúng sang định dạng biểu diễn có cấu trúc (ví dụ: sở liệu) Bài tốn trích rút thơng tin cá nhân tương tự tốn trích thơng tin tiểu sử (Biographcial Information Extraction) Trích rút thơng tin nhân tốn hẹp trích rút thơng tin thơng tin cần trích rút tập trung vào nhân cụ thể Phương pháp giải tốn trích rút thơng tin cá nhân 2.2 Để giải tốn trích rút thông tin cá nhân từ văn tiếng Việt áp dụng sơ yếu lý lịch, nhóm nhóm đề xuất phương pháp sau: ● Trích rút thực thể ● Trích rút quan hệ ● Sử dụng biểu thức quy Bài tốn trích rút thực thể 3.1 Định nghĩa tốn Nhận dạng thực thể có tên (Named-Entity Recognition - NER) việc tìm kiếm phân lớp từ, cụm từ văn vào nhóm thực thể xác định trước tên người, địa danh, tổ chức, ngày tháng, tỷ lệ, … Hội thảo MUC phân toán NER thành loại: - Trích rút tên thực thể bao gồm: tên người, tên tổ chức, tên địa điểm Nhận dạng biểu thức thời gian “3-7-2001”, “03-07-2001”, “05:45”, Trích rút biểu thức số, “5%”, “2m”, “15kg”, … Bài tốn trích rút thực thể tốn đơn giản số tốn trích rút thông tin Tuy nhiên, NER bước bản, quan trọng trước tính đến việc giải toán phức tạp lĩnh vực Trước xác định quan hệ thực thể ta phải xác định đâu thực thể tham gia vào mối quan hệ Lúc đầu NER coi thao tác đơn giản IE, ngày có vai trị quan trọng định đến vấn đề khác có độ phức tạp cao truy vấn thông tin (Information Retrieval – IR) hay quan hệ hỏi đáp (Question Answering Systems - QA) Có nhiều phương pháp đề xuất để giải cho toán chia thành nhóm: nhóm phương pháp dựa tri thức nhóm phương pháp dựa kĩ thuật học máy Bài tốn trích rút mối quan hệ 4.1 Định nghĩa tốn Trích rút mối quan hệ (Relation Extraction -RE) việc xác định mối quan hệ cặp thực thể văn Ví dụ: Trích rút mối quan hệ tương đối khác so với trích rút thực thể Trong trích rút thực thể quan tâm đến chuỗi từ trình bày nhãn thực thể trích rút mối quan hệ nêu liên kết thực thể với 4.2 Trích rút mối quan hệ tốn trích rút thơng tin cá nhân Mục đích đồ án trích rút thông tin liên quan đến thực thể tên người cần quan tâm gồm: Tên, số điện thoại, email, kĩ Trong toán này, bước tốn trích rút mối quan hệ thực thể trích rút thực thể tên người mà văn tập trung đề cập đến Các bước trích rút thực thể có mối quan hệ với thực thể tên người Mối quan hệ hiểu “điện thoại” (quan hệ tên số điện thoại), “địa email” (quan hệ tên email), “có kĩ năng” (quan hệ người kĩ năng) Sau văn nhận dạng thực thể, tác giả sử dụng luật, từ điển biểu thức quy để nhận mối quan hệ Ứng dụng toán trích rút thơng tin cá nhân Một hệ thống trích rút thơng tin cá nhân tốt ứng dụng nhiều lĩnh vực khác Một số ứng dụng bao gồm: ● Hệ thống hỏi đáp : Hệ thống hỏi đáp tự động hệ thống xây dựng để thực việc tự động tìm kiếm xác câu trả lời từ tập lớn tài liệu cho câu hỏi thay đưa danh sách tài liệu ● Hệ thống tóm tắt: Hệ thống tóm tắt đưa thơng tin tiểu sử cá nhân từ nhiều văn thay đưa danh sách văn ● Hỗ trợ hệ thống tìm kiếm: Hệ thống tìm kiếm thơng tin nhận đầu vào từ khóa trả tập tài liệu có chứa từ khóa Số lượng kết trả máy tìm kiếm thường lớn có lên tới hàng nghìn trang web Khi tích hợp hệ thống trích rút thơng tin cá nhân vào hệ thống tìm kiếm với từ khóa người với thuộc tính ngày sinh, cơng việc Thì hệ thống tìm kiếm trả kết sát với u cầu cách nhanh chóng xác gặp khác biểu diễn nội dung (đồng nghĩa, cách viết,…) Có hai cách tiếp cận khác nhiệm vụ là: xây dựng mẫu (pattern) thủ công mẫu tự động 8.1 Xây dựng mẫu thủ công Tài liệu văn mà trích rút gồm có trường thơng tin sau: Tên đầy đủ (Full name), Địa Email, Số điện thoại, kĩ Giả sử cần trích rút thơng tin cụ thể có dạng: Ví dụ: Table 1: Bảng thơng tin trích rút name email Phone_number skills Đào Duy Hưng ddhung@gmail.com +84236985495 [‘python’, ‘Java’, ‘Css’, ‘Ai’, ‘Html’, ‘C++’] Nguyễn Thị Anh anh@gmail.com +84589875456 [‘Bootstrap’, ‘Java’, ‘Css’, ‘Javascript’, ‘Sql’] Trần Duy Cường +84589756985 [‘Bootstrap’, ‘Mysql, ‘Laravel, ‘Java, ‘Sql’] cuongtd@gmail.com Tiếp theo, xây dựng kiểu thuộc tính với mẫu trích rút tách biệt kết hợp với 100 biểu thức quy IsCapitalized, All-Caps, IsDigit, Numeric, ContainsDash, EndsInPeriod, ConstainsAtSign Việc mô tả cách trích rút trường liệt kê dưới: 8.1.1 Trường tên Chúng ta sử dụng tập luật để phát sinh biến thể (variants) tên người đưa Đầu tiên, chia tên cho thành tên họ ( first name last name) Sau chung ta phát sinh hai biến thể sau: tên trước họ họ trước tên.Ví dụ biến thể xảy họ tên là: dấu phẩy họ tên (Lê, Long), từ xuất hai tên (Lê Văn Long), tên theo sau họ (Long Lê), họ theo sau dấu phẩy đến tên (Lê, Long) Chúng ta cân nhắc tất kết hợp biến thể với tước vị sau: Ông, bà, quý bà, quý ông, Giáo sư, Tổng thống, Bộ trưởng, Thủ tướng, Đại tướng, Bà, Phu nhân, Tiến sĩ, Vua, Nữ hồng, Phó Tổng thống, Thượng nghị sĩ, Luật sư, Thiếu tá, Thiếu tướng, Tướng, Thiếu tướng….Ví dụ cho tên cho trước “Quang Trung”, xử lý nói nhận chuỗi từ “ông Quang Trung” biến thể tên cho 8.1.2 Trường Email 14 Địa E-mail thích sử dụng biểu thức quy ([^@|\s]+@[^@]+\.[^@|\s]+) Chúng ta loại bỏ khả địa email quảng cáo xuất nhiều web webmaster@domain or support@domain cách xây dựng thủ công danh sách dừng (stop list) địa email Ta nhận thấy người có xu hướng sử dụng trường họ tên hai địa e-mail họ Các biến thể tên họ cá nhân cân nhắc vào ứng viên cho địa e-mail 8.1.3 Trường số điện thoại Chúng ta sử dụng biểu thức quy để thích chuỗi có dạng số điện thoại (?:(?:\+?([1-9]|[0-9][0-9]|[0-9][0-9][0-9])\s*(?:[.-]\s*)?)?(?:\(\s*([2-9]1[02-9]|[2-9][02-8]1|[2 -9][02-8][02-9])\s*\)|([0-9][1-9]|[0-9]1[02-9]|[2-9][02-8]1|[2-9][02-8][02-9]))\s*(?:[.-]\s*)?) ?([2-9]1[02-9]|[2-9][02-9]1|[2-9][02-9]{2})\s*(?:[.-]\s*)?([0-9]{5})(?:\s*(?:#|x\.?|ext\.?|exten sion)\s*(\d+))? Nếu cụm từ ám có chứa từ tel, telephone, phone, mobile, liên lạc, số điện thoại, di động văn cảnh, đánh dấu chuỗi ứng viên số điện thoại 8.2 Xây dựng mẫu tự động Chúng ta áp dụng cách tiếp cận tự động cho việc “học” mẫu từ mẫu huấn luyện Chúng ta sử dụng cách tiếp cận hai bước: (1) trích rút mẫu (2)lựa chọn mẫu Ở bước trích rút mẫu, trích rút mẫu ứng viên sử dụng liệu mẫu (sample data) Với tên tập thử nghiệm với thuộc tính, trích rút câu trang web thu thập “họ” người giá trị thuộc tính Sau xây dựng mẫu với từ thẻ (token) trước sau giá trị thuộc tính câu Tiếp đến, khái quát mẫu cách thay yếu tố tên người thẻ thay (placeholders) Và sử dụng nhãn NE, ta thay bổ sung thực thể định danh nhãn chúng Trong bước lựa chọn mẫu, lựa chọn mẫu theo cách tiếp cận kiểm tra chéo “bỏ một” (leave-one-out) Các mẫu trích rút từ tất giá trị, tên người áp dụng để trích rút thuộc tính tên người cho Việc lặp lại tên người đưa lần Tập mẫu kết áp dụng để trích rút thuộc tính cho tên “ẩn” Bài tốn trích rút dựa luật Ở mục này, ta xem xét thuật toán dựa luật cho việc trích rút thơng tin Có thể kể số hệ thống phát triển dựa luật AutoSlog (Riloff, 1993)[2], (LP)2 (Ciravegna, 2001)[3], Whisk (Soderland, 1999)[4], Rapier (Califf & Mooney, 1998)[5], SRV (Freitag, 1998)[6] Nói chung phương pháp quy loại: dựa từ điển, dựa luật, suy diễn gói(wrapper induction) 15 Phương pháp dựa từ điển 9.1 Với phương pháp này, hệ thống xây dựng mẫu từ điển, sau sử dụng từ điển để trích rút thơng tin khơng cần thiết từ văn không gán nhãn Hệ thống gọi hệ thống dựa từ điển hay dựa mơ hình (pattern) Ví dụ như: AutoSlog (Riloff, 1993)[2] CRYSTAL(Soderland et al., 1995)[4] Ví dụ với hệ thống AutoSlog (Riloff, 1993) hệ thống học từ điển văn trích rút từ mẫu huấn luyện AutoSlog xây dựng từ mẫu trích rút gọi nút khái niệm Nó định nghĩa trước tập gồm 13 mẫu ngôn ngữ, thông tin kiểu cú pháp như: chủ ngữ, đối tượng trực tiếp, cụm danh từ (NP) 9.2 Phương pháp dựa luật Khác với phương pháp dựa từ điển, phương pháp sử dụng luật thay cho từ điển để trích rút thơng tin từ văn Hai thuật tốn học hệ thơng là: phương pháp top down bottom up học luật từ trường hợp khái quát đến trường hợp đặc biệt ngược lại Các thuật toán đề xuất (LP)2 (Ciravegna, 2001)[3], iASA (Tang, Li, Luetal., 2005)[7],… (LP)2 (Ciravegna, 2001)[3] phương pháp học bottom up Nó học hai kiểu luật mà xác định tương ứng biên bắt đầu biên kết thúc văn trích rút Việc học thực từ mẫu tập người sử dụng định nghĩa (tập liệu huấn luyện) Có ba kiểu luật xác định (LP)2 là: luật gán nhãn, luật ngữ cảnh luật sửa đổi 9.2.1 Luật gán nhãn Luật gán nhãn bao gồm phía trái chứa đựng mẫu điều kiệntrên chuỗi từ kết nối và phía phải action chèn chuỗi SGML (Standard Generalized Markup Language) vào văn xác định vị trí biên từ (instance) hay chưa Mỗi luật chèn nhãn SGML riêng lẻ, ví dụ Ngồi cịn có luật nhận biết toànbộ việc làm đầy slot (tức chèn hai nhãn chí nhiều slot 9.2.2 Luật ngữ cảnh Khi áp dụng cho tập test, khối quy tắc tốt cung cấp kết tốt mặt precision, nhưng hiệu hạn chế mặt recall Điều có nghĩa luật chèn vào nhãn (recall thấp) nói chung nhãn (precision cao) Để nâng cao recall mà không ảnh hưởng đến precision cần thiết phải xác định luật bổ sung (LP)2 (Ciravegna, 2001) ví dụ luật ngữ cảnh (LP)2 học luật cho việc chèn nhãn độc lập so với nhãn khác Một số luật dùng để đóng liệu (slot) luật tốt mở khơng phải để đóng Các luật lựa chọn gọi luật ngữ cảnh Ví dụ xem xét luật chèn nhãn từ khóa viết hoa chữ thường Đây khơng phải luật tốt đưa recall 16 cao/precison thấp tập tài liệu Corpus, đáng tin cậy dùng để đóng nhãn mở Sự tin cậy cho luật ngữ cảnh tính cách sử dụng tỷ lệ lỗi giống sử dụng cho luật tốt Tóm lại, tập luật gánnhãn bao gồm khối luật tốt luật ngữ cảnh 9.2.3 Luật sửa đổi Các luật gán nhãn áp dụng tập mẫu test đưa vài khơng xác việc phát biên lọc liệu (slot) Ví dụ cho luật ngữ cảnh “at pm”, ta thấy pm cần biểu thức thời gian Do luật suy dẫn (LP)2 cho việc dịch chuyển nhãn sai vị trí tới vị trí cách học từ lỗi tạo trình gán nhãn tập tài liệu huấn luyện 9.2.4 Khái quát luật Việc khái qt hóa quan trọng phân tích đầu vào ngôn ngữ tự nhiên Nếu không khái quát, sinh tập luật lớn bao gồm luật bao phủ hạn chế số lượng trường hợp Các tập luật phù hợp tập huấn luyện giới hạn độ xác mẫu test Có hai cách thuật toán khái quát luật suy diễn ban đầu: mặt ràng buộc mẫu khởi tạo bỏ qua Ví dụ “ at pm” “at 5pm” mơ hình luật “word at,word *, word pm” Trong ví dụ đề cập (“ at 4pm” “at pm”), luật (“ word = at, LexCat = Digit, word = pm”) khái quát tốt luật dùng ký tự thay cách sử dụng ràng buộc thay với tri thức ngôn ngữ tự nhiên bổ sung 10 StopWords (từ dừng) Stopwords hiểu đơn giản từ có tần số xuất nhiều the, to từ thường mang giá trị ý nghĩa không khác nhiều văn khác Ví dụ từ "the" hay "to" văn khơng bị thay đổi ý nghĩa Có nhiều cách để loại bỏ StopWords có cách là: - Dùng từ điển - Dựa theo tần suất xuất từ 11 Tokenization Tokenization (tách từ) bước quan trọng trình tiền xử lý văn Cho dù bạn làm việc với kỹ thuật NLP truyền thống hay sử dụng kỹ thuật học sâu nâng cao khơng thể bỏ qua bước Nói cách đơn giản, 17 tokenization trình tách cụm từ, câu, đoạn văn, nhiều tài liệu văn thành đơn vị nhỏ Mỗi đơn vị nhỏ gọi Tokens.  Có thể coi tokens khối xây dựng NLP tất mơ hình NLP xử lý văn thô cấp độ Tokens Chúng sử dụng để tạo từ vựng kho ngữ liệu (một tập liệu NLP) Từ vựng sau chuyển thành số (ID) giúp lập mơ hình Tokens thứ – từ (word), từ phụ (sub-word) chí ký tự (character) Các thuật tốn khác tn theo quy trình khác việc thực mã hóa khác biệt ba loại tokens Ví dụ: Câu gốc “Let us learn tokenization.”: Thuật tốn mã hóa dựa từ (word-based tokenization algorithm) chia câu thành từ: [“Let”, “us”, “learn”, “tokenization.”] Thuật tốn mã hóa dựa từ phụ (subword-based tokenization algorithm) chia câu thành từ khóa phụ: [“Let”, “us”, “learn”, “token”, “ization.”] Thuật tốn mã hóa dựa ký tự (character-based tokenization algorithm) chia câu thành ký tự, chữ Ba kỹ thuật mã hóa hoạt động khác có ưu điểm nhược điểm riêng phân tích cụ thể bên 11.1 Word-based tokenization Đây kĩ thuật tokenization sử dụng phổ biến phân tích văn Nó chia đoạn văn thành từ (ví dụ tiếng Anh) âm tiết (ví dụ tiếng Việt) dựa dấu phân cách Dấu phân cách hay dùng dấu cách trắng Tuy nhiên, tách văn khơng theo dấu phân cách Ví dụ tách từ tiếng Việt từ tiếng Việt chứa âm tiết nối với dấu cách trắng Tách từ thực dễ dàng cách sử dụng phương thức split () RegEx Python Ngồi ra, có nhiều thư viện Python – NLTK, spaCy, Keras, Gensim, giúp bạn thực việc cách thuận tiện Thực tế, mơ hình NLP sử dụng phương pháp tách từ phù hợp theo ngôn ngữ Tuỳ thuộc vào tốn, mà văn xử lý loại tokens khác Mỗi token thường có tính biểu diễn ID, ID cách mã hố hay cách định danh token khơng gian số Hạn chế kỹ thuật dẫn đến kho ngữ liệu khổng lồ lượng từ vựng lớn, khiến mơ hình cồng kềnh địi hỏi nhiều tài ngun tính tốn Bên cạnh đó, hạn chế liên quan đến từ sai tả Nếu kho ngữ liệu có từ “knowledge” viết sai tả thành “knowldge”, mơ hình gán token OOV cho từ sau 18 Do đó, để giải tất vấn đề này, nhà nghiên cứu đưa kỹ thuật mã hóa dựa ký tự 11.2 Character-based tokenization Mã hóa dựa ký tự chia văn thô thành ký tự riêng lẻ Logic đằng sau mã hóa ngơn ngữ có nhiều từ khác có số ký tự cố định Điều dẫn đến lượng từ vựng nhỏ Ví dụ tiếng Anh có 256 ký tự khác (chữ cái, số, ký tự đặc biệt) chứa gần 170.000 từ vốn từ vựng Do đó, mã hóa dựa ký tự sử dụng token so với mã hóa dựa từ Một lợi mã hóa dựa ký tự khơng có từ khơng xác định OOV Do đó, biểu diễn từ chưa biết (những từ khơng nhìn thấy q trình huấn luyện) cách biểu diễn cho ký tự Một ưu điểm khác từ sai tả viết tả lại, thay đánh dấu chúng mã thông báo OOV làm thơng tin Loại mã hóa đơn giản làm giảm độ phức tạp nhớ thời gian Vì vậy, liệu có phải thuật tốn tốt hay hồn hảo để tách từ? Câu trả lời khơng (ít Ngôn ngữ tiếng Anh)! Một ký tự thường không mang ý nghĩa thông tin từ Ngoài ra, kỹ thuật giúp giảm kích thước từ vựng lại làm tăng độ dài chuỗi mã hóa dựa ký tự Mỗi từ chia thành ký tự đó, chuỗi mã hóa dài nhiều so với văn thơ ban đầu Vì vậy, thấy, dù giải nhiều thách thức mà mã hóa dựa từ gặp phải, mã hóa dựa ký tự có số vấn đề định 11.3 Subword-based tokenization Một kỹ thuật phổ biến khác mã hóa dựa từ khóa phụ Đây giải pháp nằm mã hóa dựa từ ký tự Ý tưởng giải đồng thời vấn đề mã hóa dựa từ (kích thước từ vựng lớn, có nhiều tokens OOV, khác biệt ý nghĩa từ giống nhau) mã hóa dựa ký tự (chuỗi dài token riêng lẻ ý nghĩa hơn) Các thuật tốn mã hóa dựa từ khóa phụ sử dụng nguyên tắc sau - Không chia từ thường dùng thành từ phụ nhỏ Chia từ thành từ phụ có ý nghĩa Hầu hết mơ hình tiếng Anh sử dụng dạng thuật tốn mã hóa từ phụ, đó, phổ biến WordPeces sử dụng BERT DistilBERT, Unigram XLNet ALBERT, Bye-Pair Encoding GPT-2 RoBERTa Mã hóa dựa từ khóa phụ cho phép mơ hình có kích thước từ vựng phù hợp học biểu diễn độc lập theo ngữ cảnh có ý nghĩa Mơ hình chí xử lý từ mà chưa thấy trước phân tách dẫn đến từ phụ biết 19 Như vậy, cách phương pháp mã hóa phát triển theo thời gian để đáp ứng nhu cầu ngày tăng NLP đưa giải pháp tốt cho vấn đề Các kỹ thuật kể VinBigdata ứng dụng trực tiếp trình nghiên cứu, phân tích liệu tiếng nói chữ viết, từ đó, giải tốn nhận dạng/tổng hợp tiếng nói, dịch máy, hỏi đáp tự động,… Đây sở để phát triển nhiều giải pháp mang tính ứng dụng cao chatbot, voicebot, trợ lý ảo đa năng,…, phục vụ mục tiêu gia tăng trải nghiệm người dùng tối ưu hóa hiệu sản xuất, kinh doanh 12 Phương pháp đánh giá kết Hệ thống trích rút thực thể đánh giá chất lượng thơng qua độ đo: độ xác P (precision), độ bao phủ R (recall) độ đo F (F-measure) Độ Recall (R): phân số thể tỷ lệ thơng tin rút trích Bao nhiêu phần trăm thông tin rút Tỷ lệ số lượng câu trả lời tìm thấy với tổng số câu trả lời Độ tin cậy Precision (P): độ đo hay phân số thể khả tin cậy thông tin trích xuât Tỷ lệ tổng số câu trả lời tìm thấy với tổng số câu trả lời tìm thấy Tuy nhiên, có Precision hay có Recall khơng đánh giá chất lượng mơ hình Chỉ dùng Precision, mơ hình đưa dự đốn cho điểm mà chắn Khi Precision = 1, nhiên ta khơng thể nói mơ hình tốt Chỉ dùng Recall, mơ hình dự đốn tất điểm positive Khi Recall = 1, nhiên ta khơng thể nói mơ hình tốt Khi F- measure sử dụng F- measure trung bình điều hịa (harmonic mean) precision recall (giả sử hai đại lượng khác Ba độ đo tinh toán theo công thức sau (mỗi kiểu thực thể ứng với độ đo này): 𝑃= 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑐𝑜𝑟𝑟𝑒𝑐𝑡+𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡+𝑠𝑝𝑢𝑟𝑖𝑜𝑢𝑠 𝑅= 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑐𝑜𝑟𝑟𝑒𝑐𝑡+𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡+𝑚𝑖𝑠𝑠𝑖𝑛𝑔 𝐹= 2*𝑃*𝑅 𝑃+𝑅 Ý nghĩa giá trị correct, incorrect, missing spurious định nghĩa sau: Table 2: Bảng giải thích ý nghĩa công thức Giá trị Ý nghĩa Correct Số trường hợp gán Incorrect Số trường hợp bị gán sai 20 Missing Số trường hợp bị thiếu Spurious Số trường hợp bị thừa 21 CHƯƠNG III: THỰC NGHIỆM Đọc sơ yếu lý lịch Sơ yếu lý lịch thường dạng pdf Vì vậy, thách thức nhóm đọc sơ yếu lý lịch chuyển đổi thành văn đơn giản Đối với điều này, nhóm sử dụng thuật tốn phân tích bố cục trình bày Tiền xử lý Khi chuyển từ định dạng pdf, văn có dạng sau: “Phan Huy Bảo \n \nBack-end PHP \n \nNgày sinh: 19-01-2001 \n \nGiới tính: Nam \n \nĐiện thoại: 0983785181 \n \nEmail: \n \nĐịa chỉ: \n \n \nMỤC TIÊU NGHỀ NGHIỆP \n \n \n- Học tập tiếp thu kinh nghiệm chuyên môn Hoàn thiện thân Trải \n\n72 Trần Đại Nghĩa, Hai Bà Trưng,Hà Nội \n\nbao190101@gmail.com \n\nnghiệm môi trường làm việc chuyên nghiệp \n \n- Trong vòng năm tới trở thành lập trình viên PHP chuyên nghiệp \n \nvà học thêm NodeJS \n \nHỌC VẤN \n \n \n08-2019 - 02-2022 \n \n \n\nChuyên ngành: Khoa học Máy tính \n\nĐẠI HỌC XÂY DỰNG HÀ \n\nTên cấp: Kỹ sư \n\nIt-lpus \n\nHọc viên \n\nMô tả: \n\n \nKINH NGHIỆM LÀM VIỆC \n \n \n10-2021 - 02-2022 \n \n \n \n \n \n \n \n \n \n \n\nĐỒ ÁN TỐT NGHIỆP KHÓA HỌC LẬP TRÌNH WEB PHP FULL- \n\nSTACK Thành tích đạt được: \n\nShop bán hàng quần áo online AlloShop \n\nLên ý tưởng dự án, chức dự án, \n\n+ Shop bán hàng online gồm có: giao diện chức cho phía client admin \n\n+ Chức chính: mua hàng, đặt… “ Nhiệm vụ lúc cần làm xử lý ký tự gây nhiễu, cụ thể thấy rõ ký tự “\n” ký tự xuống dịng, ngồi số văn khác chứa ký tư “\x0c” cần xử lý cách xóa bỏ khỏi văn Sau xóa bỏ ký tự nhiễu, văn lúc “Phan Huy Bảo Back-end PHP Ngày sinh: 19-01-2001 Giới tính: Nam Điện thoại: 0983785181 Email: Địa chỉ: MỤC TIÊU NGHỀ NGHIỆP - Học tập tiếp thu kinh nghiệm chun mơn Hồn thiện thân Trải 72 Trần Đại Nghĩa, Hai Bà Trưng,Hà Nội bao190101@gmail.com nghiệm môi trường làm việc chuyên nghiệp - Trong vòng năm tới trở thành lập trình viên PHP chuyên nghiệp học thêm NodeJS HỌC VẤN 08-2019 - 02-2022 Chuyên ngành: Khoa học Máy tính ĐẠI HỌC XÂY DỰNG HÀ Tên cấp: Kỹ sư It-lpus Học viên Mô tả: KINH NGHIỆM LÀM VIỆC 10-2021 - 02-2022 ĐỒ ÁN TỐT NGHIỆP KHĨA HỌC LẬP TRÌNH WEB PHP FULL- STACK Thành tích đạt được: Shop bán hàng quần áo online AlloShop - Lên ý tưởng dự án, chức dự án, + Shop bán hàng online gồm có: giao diện chức cho phía client admin + Chức chính: mua hàng, đặt hàng, xem chi tiết sản phẩm, quản lý sản phẩm cho admin, quản lý đơn hàng, xem chi tiết đơn hàng, - Phân chia công việc, hồn thiện chức năn…” Trích xuất tên Để trích xuất tên từ sơ yếu lý lịch, sử dụng biểu thức quy Nhưng nhóm sử dụng cơng cụ tinh vi gọi Spacy Spacy mô-đun xử lý ngôn ngữ tự nhiên cường độ công nghiệp sử dụng để xử lý văn ngơn ngữ Nó 22 kèm với mơ hình đào tạo trước để gắn thẻ, phân tích cú pháp nhận dạng thực thể Thông thường họ tên đại từ riêng, nhóm xây dựng mẫu bao gồm danh từ riêng liên tiếp: {'POS': 'PROPN'}, {'POS': 'PROPN'}, {'POS': 'PROPN'} Trích xuất số điện thoại Để trích xuất số điện thoại, nhóm sử dụng biểu thức quy Số điện thoại có nhiều hình thức (+84)123456780 +84123456780 +84 123 456 780 +91 123456780 Do đó, cần xác định biểu thức quy chung khớp với tất kết hợp tương tự số điện thoại Nhờ mẫu này, nhóm trích xuất số điện thoại từ văn sơ yếu lý lịch cách thực tinh chỉnh nhẹ Mẫu biểu thức quy có dạng sau: (?:(?:\+?([1-9]|[0-9][0-9]|[0-9][0-9][0-9])\s*(?:[.-]\s*)?)?(?:\(\s*([2-9]1[02-9]|[2-9][02-8] 1|[2-9][02-8][02-9])\s*\)|([0-9][1-9]|[0-9]1[02-9]|[2-9][02-8]1|[2-9][02-8][02-9]))\s*(?:[.-]\s*) ?)?([2-9]1[02-9]|[2-9][02-9]1|[2-9][02-9]{2})\s*(?:[.-]\s*)?([0-9]{5})(?:\s*(?:#|x\.?|ext\.?|exte nsion)\s*(\d+))? Trích xuất Email Để trích xuất email từ sơ yếu lý lịch, nhóm sử dụng cách tiếp cận tương tự mà nhóm sử dụng để trích xuất số điện thoại di động Email có biểu mẫu cố định, tức chuỗi chữ số theo ký hiệu @, lần theo sau chuỗi, theo sau dấu (chấm) chuỗi cuối Chúng ta sử dụng biểu thức quy để trích xuất biểu thức từ văn Mẫu biểu thức quy có dạng sau: ([^@|\s]+@[^@]+\.[^@|\s]+) Trích xuất kỹ Bây nhóm trích xuất số thơng tin người đó, trích xuất thứ quan trọng từ ​quan điểm nhà tuyển dụng, tức kỹ Chúng ta trích xuất kỹ cách sử dụng kỹ thuật gọi Tokenization Tokenization đơn giản chia văn thành đoạn văn, đoạn văn thành câu, câu thành từ Do đó, có hai kỹ thuật mã thơng báo: Sentence Tokenization Word Tokenization Trước thực Tokenization, phải tạo liệu mà so sánh kỹ sơ yếu lý lịch cụ thể Đối với điều này, nhóm tạo tệp giá trị phân tách dấu phẩy (.csv) với kỹ mong muốn Ví dụ: nhóm nhà tuyển dụng nhóm tìm kiếm ứng cử viên với kỹ bao gồm NLP, ML, AI nhóm tạo tệp CSV có nội dung: machine learning,ml,artificial intelligence,ai,natural language processing,nlp Giả sử nhóm đưa tệp trên, với tên file Skills.csv, nhóm hướng đến xa để mã hóa văn trích xuất nhóm so sánh kỹ với kỹ tệp Skills.csv Hiện tệp skills.csv nhóm bao gồm 99 kỹ khác mà nhóm có 23 thể tìm Để đọc tệp CSV, nhóm sử dụng mơ-đun Pandas Sau đọc tệp, nhóm xóa tất từ dừng (Stop words) khỏi văn sơ yếu lý lịch nhóm Nói tóm lại, từ dừng từ không thay đổi ý nghĩa câu bị xóa CHƯƠNG IV: KẾT QUẢ Nhóm xây dựng tập kiểm thử thủ công từ 15 mẫu sơ yếu lý lịch khác đánh giá theo phương pháp đánh giá trình bày chương II Table 3: Bảng kết Thực thể Trường Trường hợp hợp sai Trường Trường hợp thiếu hợp thừa Precision Recall F1-meas ure Họ tên 4 66.67% 50% 57.14% Email 15 0 100% 100% 100% Số điện thoại 15 0 100% 100% 100% Nhận xét: Sử dụng biểu thức quy để trích xuất thực thể email, số điện thoại cho kết vơ xác Cịn thực thể họ tên việc trích xuất theo mẫu cho kết không cao, sau xem trực tiếp liệu trích xuất ra, nhóm nhận thấy có số sơ yếu lý lịch khơng trích dẫn họ tên, họ tên bị nhầm lẫn với tên địa Ví dụ: Trong sơ yếu lý lịch có địa Hai Bà Trưng hệ thống trích xuất “Hai Bà Trưng” họ tên thay họ tên thực tế “Phạm Huy Hưng” Riêng thực thể kỹ nhóm chưa tìm thang đo phù hợp để đánh giá cá nhân có nhiều kỹ năng, có kỹ trích xuất đúng, có kỹ trích xuất thiếu, có kỹ trích xuất thừa 24 CHƯƠNG V: KẾT LUẬN 5.1 Các kết đạt đồ án Mục tiêu đồ án nghiên cứu lý thuyết phương pháp trích rút thơng tin, chọn phương pháp phù hợp cho tốn trích rút thơng tin nhân Từ xây dựng hệ thống trích rút thơng tin nhân từ sơ yếu lý lịch tiếng Việt Thông qua nội dung báo cáo từ chương tới chương 3, nhóm trình bày tồn nghiên cứu hệ thống trích rút thơng tin, khái niệm lý thuyết trích rút nghiên cứu tốn trích rút thơng tin cá nhân sơ yếu lý lịch tiếng Việt Trên sở phân tích ưu nhược điểm phương pháp trích rút thực thể trích rút quan hệ, nhóm lựa chọn áp dụng phương pháp phù hợp với toán đề 5.1.1 Về lý thuyết Tìm hiểu phương pháp trích rút thơng tin, từ lựa chọn tìm hiểu phương pháp trích rút biểu thức quy, kỹ thuật tokenization, nhận dạng thực thể Thuật toán chuyển đổi định dạng pdf dạng văn 5.1.2 Về thực nghiệm Xây dựng hệ thống trích rút thơng tin từ sơ yếu lý lịch tiếng Việt với định dạng pdf 5.1.3 Nhận xét Trích rút thơng tin xử dụng nhận dạng thực thể, kỹ thuật tokeniztion cho kết không cao Nhưng bù lại sử dụng biểu thức quy cho kết xác 100% Trong trường hợp thơng tin trích rút thơng tin số điện thoại, email dễ dàng có độ xác cao Các thơng tin khác họ tên, kỹ khó trích rút, phụ thuộc vào độ phức tạp câu 5.2 Hướng phát triển Hiện đồ án trích rút số trường họ tên, số điện thoại, email, kỹ với hệ luật trích rút đơn giản Trong tương lai mở rộng trích rút trường khác, áp dụng phương pháp khác để nâng cao tính xác hệ thống Bổ sung giao diện trực quan để dễ đánh giá 25 Phụ lục hình ảnh Hình 1: Cấu trúc hệ thống trích rút thơng tin Hình 2: Đầu phân tích bố cục hệ thống phân cấp đối tượng bố trí 26 Phụ lục bảng Table 1: Bảng thơng tin trích rút Table 2: Bảng giải thích ý nghĩa công thức Table 3: Bảng kết 13 19 23 27 [1] TÀI LIỆU THAM KHẢO D Perzanowski et al., “MUC-7 evaluation of IE technology: Overview of results,” 7th Messag Underst Conf MUC 1998 - Proc., no April, 1998 [2] E Riloff and W Phillips, “An Introduction to the Sundance and AutosSlog Systems.,” Tech Rep UUCS-04-015, Sch Comput Univ Utah, no UUCS-04-015, pp 1–47, 2004 [3] F Ciravegna, “(LP)2, an Adaptive Algorithm for Information Extraction from Web-related Texts,” Proc IJCAI2001 Work Adapt Text Extr Min., vol 20, no 1, pp 1–10, 2001, [Online] Available: http://staffwww.dcs.shef.ac.uk/people/F.Ciravegna/paperi/Atem01.pdf [4] S Soderland, “Learning information extraction rules for semi-structured and free text,” Mach Learn., vol 34, no 1, pp 233–272, 1999, doi: 10.1023/a:1007562322031 [5] M E Califf and R J Mooney, “Relational learning of pattern-match rules for information extraction,” CoNLL 1997 - Comput Nat Lang Learn Proc 1997 Meet ACL Spec Interes Gr Nat Lang Learn., pp 9–15, 1997 [6] J Tang, M Hong, D Zhang, B Liang, and J Li, “Information extraction: Methodologies and applications,” Emerg Technol Text Min Tech Appl., pp 1–33, 2007, doi: 10.4018/978-1-59904-373-9.ch001 [7] J Tang, J Li, H Lu, B Liang, X Huang, and K Wang, “iASA: Learning to annotate the Semantic Web,” Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics), vol 3730 LNCS, no 60443002, pp 110–145, 2005, doi: 10.1007/11603412_4 28

Ngày đăng: 11/06/2023, 23:38

Tài liệu cùng người dùng

Tài liệu liên quan