Liên kết thực thể cho tiếng việt (entity linking for vietnamese)

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HẠNH LIÊN KẾT THỰC THỂ CHO TIẾNG VIỆT (Entity Linking For Vietnamese) LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ NỘI - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HẠNH LIÊN KẾT THỰC THỂ CHO TIẾNG VIỆT (Entity Linking For Vietnamese) Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã Số: 8480103.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS PHAN XUÂN HIẾU Hà Nội –2019 i MỤC LỤC LỜI CAM ĐOAN iv DANH MỤC HÌNH VẼ v DANH MỤC BẢNG vi CHƢƠNG 1: KHÁI QUÁT VỀ BÀI TOÁN LIÊN KẾT THỰC THỂ 1.1 Thực thể 1.2 Hệ tri thức 1.3 Nhận dạng thực thể 1.4 Liên kết thực thể CHƢƠNG 2: PHÂN TÍCH VÀ XỬ LÝ BỘ DỮ LIỆU 2.1 Chuẩn bị liệu 2.2 Định nghĩa thực thể 2.3 Các kiểu thực thể 2.3.1 Con người (PER) 2.3.2 Tổ chức (ORG) 2.3.3 Địa điểm (LOC) 11 2.3.4 Đặc tính khác (MISC) 13 2.4 Liên kết thực thể tới Wikipedia 17 2.5 Nhập nhằng liên kết thực thể 20 CHƢƠNG 3: CƠ SỞ LÝ THUYẾT 25 3.1 Nhận dạng thực thể 25 3.1.1 Giới thiệu CRFs 25 3.1.2 Ứng dụng CRFs Stanford NER 35 3.2 Liên kết thực thể 37 3.2.1 Mơ hình đồ thị 37 3.2.2 Thuật toán đồ thị 39 CHƢƠNG 4: TÙY CHỈNH CÔNG CỤ VÀ THỰC NGHIỆM 42 4.1 Cài đặt 42 4.1.1 Kiến trúc hệ thống AIDA-light (system architecture) 42 4.1.2 Tùy chỉnh công cụ AIDA-light cho tiếng Việt 43 ii 4.2 Thực nghiệm kết 45 iii LỜI CẢM ƠN Lời đầu tiên, xin bày tỏ cảm ơn chân thành sâu sắc đến thầy giáo PGS.TS Phan Xuân Hiếu – người hướng dẫn tạo điều kiện tốt cho từ bắt đầu đến hồn thành luận văn thầy giáo TS Nguyễn Bá Đạt – người hướng dẫn trực tiếp, bảo, khuyến khích giúp đỡ suốt q trình làm luận văn tơi Thầy Hiếu thầy Đạt cho gợi ý dẫn quý báu trình nghiên cứu hồn thiện luận văn thạc sĩ Tơi xin gửi lời cảm ơn tới thầy cô khoa Công nghệ thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội hướng dẫn, bảo tạo điều kiện cho học tập nghiên cứu trường suốt thời gian qua Đồng thời, xin cảm ơn tất người thân gia đình tơi tồn thể đồng nghiệp bạn bè người quan tâm, giúp đỡ, giới thiệu tài liệu hữu ích thời gian học tập nghiên cứu luận văn tốt nghiệp Mặc dù, tơi cố gắng hồn thành luận văn chắn không tránh khỏi sai sót, tơi kính mong nhận thơng cảm bảo thầy cô bạn Tôi xin chân thành cảm ơn! iv LỜI CAM ĐOAN Tôi Lê Thị Hạnh, học viên lớp Khoa Học Máy Tính K22, xin cam đoan luận văn thạc sỹ khoa học máy tính “Liên kết thực thể cho Tiếng Việt” viết hướng dẫn thầy giáo PGS.TS Phan Xuân Hiếu TS Nguyễn Bá Đạt Tất kết đạt luận văn trình tìm hiểu, nghiên cứu riêng tơi Tồn nội dung trình bày luận văn kết cá nhân tổng hợp từ nhiều nguồn tài liệu khác Các tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 22 tháng 09 năm 2018 Người cam đoan Lê Thị Hạnh v DANH MỤC HÌNH VẼ Hình 2.1 Minh họa gán nhãn thực thể tập liệu Hình 3.1 Đồ thị biểu diễn mơ hình CRFs 27 Hình 3.2 Mơ tả hàm tiềm 27 Hình 3.3 Giải thích minh họa Mention-Entity Graph 39 Hình 4.1 Kiến trúc hệ thống AIDA-light 42 vi DANH MỤC BẢNG Bảng 2.1 Minh họa cách tiếp cận End-to-End 19 Bảng 2.2 Minh họa cách tiếp cận Disambiguation-Only 19 Bảng 4.1 Môi trường thực nghiệm 45 Bảng 4.2 Dữ liệu thực nghiệm 45 Bảng 4.3 Kết thực nghiệm 46 Bảng 4.4 Biểu đồ so sánh kết thực nghiệm 47 vii MỞ ĐẦU Bài toán liên kết thực thể tốn quan trọng lĩnh vực xử lý ngơn ngữ tự nhiên, trích xuất thơng tin, hỏi đáp, v.v Nó có nhiệm vụ liên kết thực thể có tên (named entity) vào hệ sở tri thức (knowledge base) Qua chương trình trí tuệ nhân tạo có khả hiểu phân tích văn cách tốt Ví dụ câu “Tổng thống Obama đến thăm Việt Nam” Cụm từ “Tổng thống Obama” nhận dạng thực thể có tên thuộc lớp người (Person) liên kết tới trang Wikipedia có liên kết là: Barack_Obama – tổng thống thứ 44 Hoa Kỳ Trong luận văn này, trước tiên xây dựng liệu Tiếng Việt cho tốn liên kết thực thể Sau đó, chúng tơi tùy chỉnh công cụ AIDA-light, phát triển viện Max-Planck cho ngơn ngữ tiếng Anh, để tương thích với ngơn ngữ tiếng Việt Toàn tập liệu tài liệu liên quan mở cho cộng đồng sử dụng phát triển Nội dung luận văn được chia thành chương sau:  Chƣơng 1: Khái quát toán liên kết thực thể trình bày số kiến thức tảng liên quan  Chƣơng 2: Phân tích xử lý liệu trình bày việc đưa hệ thống quy tắc cho trình gán nhãn liên kết thực thể có tên tới Wikipedia  Chƣơng 3: Cơ sở lý thuyết trình bày thuật tốn CRFs ứng dụng cơng cụ nhận dạng Stanford NER thuật tốn Graph ứng dụng cơng cụ liên kết thực thể AIDA-light cho tiếng Việt  Chƣơng 4: Thực nghiệm trình bày q trình thử nghiệm mơ hình cho tập liệu tiếng Việt đánh giá kết thực nghiệm việc ứng dụng vào mơ hình đề xuất  Kết luận tổng kết kết đóng góp kết đạt q trình nghiên cứu thực luận văn hướng phát triển tương lai để hoàn thiện kết nghiên cứu CHƢƠNG 1: KHÁI QUÁT VỀ BÀI TOÁN LIÊN KẾT THỰC THỂ Liên kết thực thể (Entity Linking – EL) toán quan trọng nhiều lĩnh vực xử lý ngôn ngữ tự nhiên (natural language processing), trích xuất thơng tin (information extraction), hỏi đáp tự động (question answering), nhiều tốn trí tuệ nhân tạo khác Cụ thể, EL liên kết thực thể có tên (named entities) đề cập văn vào hệ tri thức định nghĩa trước (ví dụ: DBpedia1), kho thực thể (entity repository) (ví dụ: Wikipedia2) Ví dụ 1.1 mơ tả kết thu từ EL câu văn chứa thực thể có tên người – “Nguyễn Xuân Phúc” thực thể có tên địa danh – “Việt Nam” Trong đó, EL liên kết thực thể thứ với trang Wikipedia thủ tướng Nguyễn Xuân Phúc liên kết thực thể thứ hai với trang Wikipedia đất nước Việt Nam Ví dụ 1.1 Liên kết thực thể nghiên cứu ứng dụng nhiều ngôn ngữ phổ biến tiếng Anh, tiếng Trung, tiếng Đức v.v Trong tiếng Việt, EL có số nghiên cứu đưa ra, nhiên số lượng chưa nhiều hạn chế tập liệu chuẩn 1.1 Thực thể Thực thể (entity) đối tượng tập hợp đối tượng giới tự nhiên Thực thể có tên (named entity) thực thể người, địa điểm, tổ chức, kiện, sản phẩm v.v biểu thị tên riêng “Obama”, “Apple Inc.” https://wiki.dbpedia.org/ https://vi.wikipedia.org/ 37 Giải thích: Stanford NER gán nhãn liệu chuỗi dạng word by word Những từ không gãn nhãn đánh dấu “O”, từ gán nhãn gán theo lớp Hạn chế Stanford NER toán nhận dạng thực thể Standford NER cơng cụ hữu ích cho mơ hình nhận dạng thực thể hỗ trợ ngơn ngữ tiếng Anh, tiếng Trung, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha tiếng Ả Rập Đặc biệt, hoạt động với độ xác cao cho tiếng Anh Tuy nhiên, cơng cụ có phiên riêng nhà phát triển việc tự xây dựng thư viện cho ngôn ngữ khác tiếng Việt Hạn chế Stanford NER cần nhiều tài nguyên cho trường hợp POS tagging, tiếng Việt thiếu liệu chuẩn Đây hạn chế việc phát triển mơ hình cách rộng rãi 3.2 Liên kết thực thể Trong phần giới thiệu mơ hình đồ thị thuật toán sử dụng để liên kết thực thể cơng cụ AIDA-light 3.2.1 Mơ hình đồ thị  Đồ thị Mention-Entity Xây dựng đồ thị vơ hướng có trọng số, có đỉnh (node) thực thể có tên đề cập văn (mentions) thực thể Wikipedia (candidate entities) [9] Đồ thị gồm có hai cạnh:  Một cạnh nối mentions candidate entities đánh trọng số dựa vào độ tương đồng ngữ cảnh mentions candidate entities, kết hợp với độ ưu tiên Ví dụ độ ưu tiên nói đến “Barack Obama” mà khơng có ngữ cảnh kèm người ta thường hiểu nói đến tổng thống Mỹ “Barack Obama”  Một cạnh nối entity – entity đánh trọng số dựa độ tương đồng ngữ cảnh entity với 38 Hình 3.3 Ví dụ Mention-Entity Graph Giải thích: Trong ví dụ: “They performed Kashmir, written by Page and Plant Page played unusual chords on his Gibson”  Mentions: Kashmir, Page, Plant, Gibson  Candidate entities: Kashmir: tên hát (song) ban nhạc rock Led Zeppelin, tên khu vực (region) tiểu lục địa Ấn Độ Page: tên người với tên đầy đủ Larry Page, Jimmy Page, hay tên thành phố Page bang Arizona Plant: tên người với tên đầy đủ Robert Plant Gibson: tên nhạc cụ có tên đầy đủ Gibson Les Paul, tên đảo Misouri 39 Hình 3.3 Giải thích minh họa Mention-Entity Graph Đồ thị mention-entity thường có mật độ dày, thường có đến hàng trăm hay nghìn node đặc biệt phía candidate entities Ví dụ, với tên gọi “Nhân”, tìm kiếm tên kho liệu Wikipedia có hàng trăm, hàng nghìn kết tên “Nhân” trả Hoặc ví dụ tên quốc gia “Việt Nam” biểu thị đội bóng quốc gia Việt Nam, hay tên quốc gia Việt Nam, v.v 3.2.2 Thuật toán đồ thị Trong đồ thị mention-entity đưa ra, mục tiêu tính tốn đồ thị dày đặc lý tưởng (dense subgraph) mà chứa tất node mention cạnh mention-entity cho mention, từ liên kết thực thể Có hai thách thức đây: Đầu tiên làm rõ khái niệm dày đặc lý tưởng Cách tiếp cận đơn giản đo mật độ đồ thị theo tổng trọng số cạnh Đồ thị dày đặc lý tưởng đồ thị mà có tổng trọng số cạnh cao 40 Thách thức thứ hai độ phức tạp tính tốn Một vấn đề tính tốn dense subgraph toán quy toán Steiner tree14 dạng NP-hard15 Đây tốn có độ phức tạp lớn, để giải vấn đề này, Johannes Hoffar cộng [9] đưa thuật toán greedy algorithm Dưới mơ tả thuật tốn sử dụng: Sau áp dụng thuật toán 1, thu đồ thị với mật độ lớn đảm bảo ln có liên kết node mentions entity  Kashmir: liên kết tới “Kashmir song”  Page: liên kết đến tới “Jimmy Page”  Plant: liên kết đến tới “Gibson les paul” 14 15 https://vi.wikipedia.org/wiki/C%C3%A2y_Steiner https://en.wikipedia.org/wiki/NP-hardness 41 Những hạn chế AIDA-light toán liên kết thực thể cho tiếng Việt Cũng giống khó khăn Stanford NER, vấn đề tài nguyên liệu chuẩn hạn chế chung nhiều toán nhận dạng, liên kết thực thể Không tốn nhận dạng thực thể ví dụ “Tuấn Hưng” người, liên kết thực thể cần làm rõ “Tuấn Hưng” “ca sỹ Tuấn Hưng” hay đối tượng cụ thể Ngồi ra, mức độ xác tốn liên kết thực thể AIDA-light chưa cao (xấp xỉ 80% tiếng Anh) Đây điểm cần cải thiện việc tối ưu hóa thuật tốn 42 CHƢƠNG 4: TÙY CHỈNH CÔNG CỤ VÀ THỰC NGHIỆM Trong chương này, giới thiệu kiến trúc tổng quan hệ thống AIDA-light cách tùy chỉnh cơng cụ để liên kiết thực thể văn tiếng Việt 4.1 Cài đặt 4.1.1 Kiến trúc hệ thống AIDA-light (system architecture) AIDA-light công cụ liên kết thực thể cho tiếng Anh phát triển viện Max-Planck, Đức [13] AIDA-light sử dụng Stanford NER tagger [23] để gán nhãn named mentions (tên riêng) trước liên kết thực thể vào hệ tri thức YAGO Hình 4.1 mơ kiến trúc tổng quan hệ thống Hình 4.1 Kiến trúc hệ thống AIDA-light Đầu tiên, AIDA-light xác định thực thể dễ liên kết (easy mentions) dựa số lượng candidates mà mentions ánh xạ đến hệ tri thức Cụ thể, tên riêng có (hoặc ít) ứng cử viên, ví dụ tên đầy đủ “Nguyễn Xuân Phúc”, dễ dàng liên kết vào hệ tri thức tên có nhiều (hoặc nhiều) ứng cử viên, ví dụ “Phúc” Quá trình liên kết thực thể cho easy mentions thường có độ xác cao Tiếp theo đó, thực thể xác định hệ tri thức cung cấp thêm thơng tin văn 43 (ví dụ, văn nói trị, văn nói âm nhạc, v.v.), qua giúp liên kết thực thể có độ nhập nhằng cao lại tốt hơn.\ 4.1.2 Tùy chỉnh công cụ AIDA-light cho tiếng Việt Do nguồn liệu cho tiếng Việt (như wordnet v.v.) nhiều hạn chế, chúng tơi tập trung tùy chỉnh ba đặc tính quan trọng hệ thống bao gồm: độ ưu tiên (prior), độ tương đồng ngữ cảnh văn đầu vào thực thể (mention-entity-context-similarity), độ tương đồng ngữ cảnh thực thể chọn (entity-entity-context-coherence) Tiền xử lý  Tải liệu Wikipedia phiên tiếng Việt  Loại bỏ thành phần html, lại liệu (nội dung văn bản)  Loại bỏ trang có nội dung khơng phù hơp như: trang điều hướng (redirect), trang khái niệm thực thể có tên (sinh viên, nhà nước, v.v.) Độ ƣu tiên (prior function) Độ ưu tiên phản ánh khả mention Mi đề cập đến thực thể Ei, j liên quan đến cấu trúc liên kết Wikipedia Do đó, coi tần số tương đối mà liên kết điểm neo Mi trỏ đến viết Wikipedia đại diện cho thực thể Ei,j ( ) Số lượng count tương ứng lấy từ chép gần viết Wikipedia tiếng Anh Mỗi số lượng count chuẩn hóa số lần Mi xuất liên kết điểm neo tất số liên kết Wikipedia Do giá trị thực khoảng [0,1] 44 Độ ưu tiên tính xác suất tên riêng liên kết đến thực thể tương ứng Wikipedia Ví dụ: tồn Wikipedia, tên “Tuấn Hưng” liên kết đến ca sỹ Tuấn Hưng lần, liên kết đến xã Tuấn Hưng lần Như vậy: độ ưu tiên việc liên kết tên “Tuấn Hưng” đến ca sỹ Tuấn Hưng 9/10 = 0.9 Độ tƣơng đồng ngữ cảnh (Context similarity) Độ tương đồng ngữ cảnh định nghĩa độ tương đồng 〈 〉 quanh mention Mi token token ngữ cảnh khóa Tok(Ei,j) entity đề xuất Ei,j Do đó, ước tính hệ số trùng lặp token từ ngữ cảnh đề cập T’ token Tok(Ei,j) (do sử dụng từ gốc token loại bỏ từ dừng) Nó tạo giá trị thực khoảng đến Độ tương đồng ngữ cảnh văn đầu vào thực thể, thực thể với định nghĩa độ đo Jaccard vector ngữ cảnh Cụ thể ngữ cảnh văn đầu vào xác định N (độ dài vector) từ có trọng số tf-idf cao Ngữ cảnh thực thể tính tương tự dựa trang Wikipedia tương ứng với thực thể Ví dụ: ngữ cảnh ca sỹ Tuấn Hưng là: ca, hát, Quả dưa hấu, v.v Ngữ cảnh kết hợp Entity – Entity (Entity – Entity context coherence) Hàm ngữ cảnh kết hợp Entity – Entity phản ánh xác mối liên hệ theo cặp hai thực thể entity – entity thông qua tập token chúng Tok(Ei,j) Tok(Et,v) 45 Nó lần tính hệ số chồng lấn hai token Nó sinh giá trị thực khoảng đến 4.2 Thực nghiệm kết Môi trƣờng thực nghiệm Bảng 4.1 Môi trường thực nghiệm Ngơn ngữ lập trình: java Dữ liệu thực nghiệm Bảng 4.2 Dữ liệu thực nghiệm 46 Bộ liệu đƣợc gán nhãn Kết Dữ liệu thực nghiệm tổng số 383 báo với 9432 mentions, disambiguate thời gian 1267289 ms cho kết sau: Bảng 4.3 Kết thực nghiệm 47 Bảng 4.4 Biểu đồ so sánh kết thực nghiệm Độ xác liên kết thực thể 9432 thực thể (mention) 383 báo (article) tới Wikipedia 48, % Kết thể độ khó toán liên kết thực thể Lưu ý rằng, chất lượng công cụ thực tế sử dụng cơng nghiệp (ví dụ Google) tiếng Anh khiêm tốn: F1 đạt xấp xỉ 80% [25] 48 KẾT LUẬN Những đóng góp luận văn Trong luận văn này, bước đầu tiếp cận nghiên cứu toán liên kết thực thể tiếng Việt Bài toán đánh giá tốn khó vấn đề nhập nhằng liệu Ví dụ, với tốn nhận dạng thực thể (named entity recognition), hệ thống cần nhận diện tên riêng “Tuấn Hưng” phân vào loại người, địa điểm, tổ chức, v.v Tuy nhiên với toán liên kết thực thể “Tuấn Hưng” cần liên kết đến thực thể hàng trăm hay hàng ngàn ứng cử viên từ hệ tri thức Đóng góp lớn chúng tơi đề tài xây dựng tập liệu tiếng Việt tùy chỉnh công cụ liên kết thực thể AIDA-light để chạy văn tiếng Việt Mặc dù kết thực nghiệm chưa cao (F1 đạt 48.5%) thành cơng bước đầu q trình thử nghiệm toán liên kết thực thể cho cho tiếng Việt Lưu ý rằng, chất lượng công cụ thực tế sử dụng cơng nghiệp (ví dụ Google) tiếng Anh khiêm tốn: F1 đạt xấp xỉ 80% [25] Đặc biệt, trình tùy chỉnh công cụ AIDA-light chạy văn tiếng Việt, xây dựng công cụ xử lý liệu Wikipedia Cơng cụ có khả hoạt động tương đối độc lập ngôn ngữ Như vậy, chúng tơi có khả tùy chỉnh cơng cụ AIDA-light cho hồng loạt ngơn ngữ khác tiếng Lào, Campuchia, Indonesia, v.v Điều có ý nghĩa cho ngơn ngữ phổ biến nhiều hạn chế mặt tài nguyên (các ngôn ngữ vùng Đông Nam Á, Châu Phi, v.v.) Định hƣớng nghiên cứu tƣơng lai Để độ xác liệu chạy mơ hình thực nghiệm cao hơn, điều kiện quan trọng xây dựng tập liệu gán nhãn đầu vào xác hơn, đa dạng Do đó, việc xây dựng tập liệu tiếng Việt đủ lớn gán nhãn xác cần thiết cho toán liên kết thực thể cho tiếng Việt Ngồi việc tích hợp nguồn ngữ liệu khác wordnet, v.v vào hệ thống hướng nghiên cứu có tiềm 49 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Bá Đạt (2009), “Nhận dạng thực thể văn tiếng Việt”, khóa luận tốt nghiệp đại học hệ quy, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội, tr.29 [2] Nguyễn Cẩm Tú (2005), “Nhận biết loại thực thể văn tiếng Việt nhằm hỗ trợ web ngữ nghĩa tìm kiếm hướng thực thể”, khóa luận tốt nghiệp đại học hệ quy, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội, tr.15-16 [3] Nguyễn Trung Kiên (2006), “Phân đoạn từ tiếng Việt sử dụng mơ hình CRFs”, khóa luận tốt nghiệp đại học hệ quy, Trường Đại học Cơng nghệ, Đại học Quốc Gia Hà Nội, tr.21-22 [4] Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn Cẩm Tú (2005), Gán nhãn từ loại tiếng Việt dựa phương pháp học máy thống kê http://www.jaist.ac.jp/~bao/VLSP-text/ICTrda08/ICT08-VLSP-SP83.pdf Tiếng Anh [5] Andrew Borthwick “A maximum entropy approach to Named Entity Recognition” New York University, 1999 [6] D.B Nguyen, J Hoffart, M Theobald, G Weikum, (April, 2014) “AIDA-light: High-throughput named-entity disambiguation” In Linked Data on the Web at WWW 2014, At Seoul, South Korea [7] Dat, N B., Son, H H., Son, B P & Thai, P N (2010, March) “Named Entity Recognition for Vietnamese” Intelligent Information and Database Systems In Proceedings of Second International Conference, ACIIDS, pp.205-214 [8] Jenny Rose Finkel, Christoper D Manning, Trond Grenager (January, 2005) “Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling” In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (pp 363-370) [9] J Hoffart, M A Yosef, I Bordino, H Furstenau, M Pinkal, M Spaniol, B Taneva, S Thater, and G Weikum (July, 2011) “Robust Disambiguation 50 of Named Entities in Text” In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, EMNLP 2011, At Edinburgh, UK [10] Hammersley, J., & Clifford P “Markov fields on finite graphs and lattices” Unpublished manuscript ,1971 [11] Henry, R., Barbara, P & Aidan, H (2018, May) “What should Entity Linking link?” In Conference Alberto Mendelzon International Workshop, pp.1-2 [12] M A Yosef, J Hoffart, I Bordino, M Spaniol, & G Weikum (August, 2011) “AIDA: An Online Tool for Accurate Disambiguation of Named Entities in Text and Tables” in Proceedings of the VLDB Endowment [13] McCallum, A., Freitag, D., & Pereira, F C (2000, June) “Maximum Entropy Markov Models for Information Extraction and Segmentation” In ICML (Vol 17, pp.591-598) [14] McCallum, A., & Li, W (2003, May) “Early results for named entity recognition with conditional random fields, feature induction and webenhanced lexicons” In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume (pp 188- 191) Association for Computational Linguistics [15] Lafferty, J., McCallum, A., & Pereira, F C (2001) “Conditional random fields: Probabilistic models for segmenting and labeling sequence data” [16] Robert Malouf (August, 2002) “A Comparison of Algorithms for Maximum Entropy Parameter Estimation” In Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002) http://www.hoffart.ai/wp-content/papercite-data/pdf/hoffart-2013wk.pdf [17] Tu, N C., Oanh, T T., Hieu, P X., & Thuy, H Q (2005) “Named entity recognition in vietnamese free-text and web documents using conditional random fields” In The 8th Conference on Some selection problems of Information Technology and Telecommunication [18] Zhou, G., & Su, J (2002, July) “Named entity recognition using an HMM-based chunk tagger” In proceedings of the 40th Annual Meeting on Association for Computational Linguistics (pp 473-480) Association for Computational Linguistics 51 Trang web [19] https://catalog.ldc.upenn.edu/LDC2001T02 [20] https://catalog.ldc.upenn.edu/LDC2003T13 [21] https://en.wikipedia.org/wiki/Conditional_random_field [22] https://nlp.stanford.edu/software/CRF-NER.html [23] https://nlp.stanford.edu/software/tagger.shtml [24] https://www.aflat.org/conll2003/ner/ [25] http://lemurproject.org/clueweb12/FACC1/ ... Nguyễn Cẩm Tú cộng [7] 1.4 Liên kết thực thể Liên kết thực thể tốn nhằm liên kết thực thể có tên vào hệ tri thức, kho thực thể định nghĩa trước Liên kết thực thể thường thực sau q trình NER chuỗi... toán Liên kết thực thể cho tiếng Việt theo cách tiếp cận Disambiguation-Only Lý có nhiều nghiên cứu toán nhận dạng thực thể cho tiếng Việt, nghiên cứu toán liên kết thực thể cho tiếng Việt chưa... Sri Lanka Ví dụ 2.3.4.7 17 2.4 Liên kết thực thể tới Wikipedia Định nghĩa liên kết thực thể Trong xử lý ngôn ngữ tự nhiên, liên kết thực thể nhằm liên kết thực thể có tên tới sở tri thức kho

Định dạng
Số trang	60
Dung lượng	2,12 MB