Nhận dạng thực thể có tên 46

Nhận dạng thực thể có tên (Named Entity Recognition – NER) là xác định các từ hoặc cụm từ trong văn bản là tên của các thực thể thuộc các thể loại (hoặc lớp) cho trước như con người, tổ chức, nơi chốn, . . . Sau đây là một văn bản ví dụ, trích từ Mikheev và CS (1999),

được chú thích với bốn loại thực thể là Date, Person, Organization, và Location. On <Date>Jan 13th</Date>, <Person> John Briggs Jr</Person> contacted

<Organization> Wonderful Stockbrockers Inc</Organization> in <Loca- tion>New York</Location> and instructed them to sell all his shares in <Or- ganization>Acme</Organization>.

Khi được giới thiệu trong MUC-6 (Grishman và Sundheim, 1996), NER được chia thành ba công việc nhỏ là nhận biết tên của các thực thể là con người, tổ chức, nơi chốn (gán nhãn ENAMEX), nhận biết các biểu thức thời gian như “02/04/2006”, “1-12-97”, “10h:20’”, . . . (gán nhãn TIMEX), và nhận biết các biểu thức số như “45%”, “15m”, “25kg”, . . . (gán nhãn NUMEX). Bên dưới là một ví dụ minh họa về chú thích các thực thể

có tên trích trong Grishman và Sundheim (1996). Trong đó, Dooner được chú thích là một con người, Ammirati & Puris được chú thích là một tổ chức, $400 million được chú thích là một món tiền, . . .

Mr. <ENAMEX TYPE= “PERSON”>Dooner</ENAMEX> met with <ENA- MEX TYPE= “PERSON”> Martin Puris </ENAMEX>, president and chief executive officer of <ENAMEX TYPE= “ORGANIZATION”> Ammirati & Puris </ENAMEX>, about <ENAMEX TYPE= “ORGANIZATION”> McCann </ENAMEX>‘s acquiring the agency with billings of <NUMEX TYPE =”MONEY”> $400 million </NUMEX>, but nothing has materialized. NER đã được nghiên cứu và đánh giá từ MUC-6 (1995). Bài toán tương tự cũng được

định nghĩa, nghiên cứu và đánh giá trong các hội nghị CoNLL là CoNLL-2002 (Tjong Kim Sang, 2002) và CoNLL-2003 (Tjong Kim Sang và De Meulder, 2003), và trong ACE (Doddington và CS, 2004). Thay vì nhận biết và phân lớp các thực thể sử dụng một vài lớp mức cao như trong MUC-6, một số nghiên cứu phân lớp các thực thể vào các lớp mịn hơn, dựa trên một ontology (Dill và CS, 2003; Cimiano và Völker, 2005; Kiryakov và CS, 2005) hoặc một hệ thống phân cấp các lớp thực thể (Nadeau, 2007). Gần đây có nhiều nghiên cứu trong lĩnh vực tin sinh học (bioinformatics) đã tạo các nguồn tài nguyên về sinh học như GENIA (Ohta và CS, 2002 116) và Gene Ontology20. Chính điều đó là cơ sở cho việc thu hút sự quan tâm trong mảng rút trích thông tin liên quan tới các thực thể sinh học như các loại gien, các loại protein, hoặc các loại bệnh (Leaman và Gonzalez, 2008).

Các phương pháp được đề xuất cho NER có thể được chia thành các nhóm là: nhóm các phương pháp dựa trên tri thức (Humphreys và CS, 1998; Nguyen, V. và Cao, 2007), nhóm các kỹ thuật học máy (Bikel và CS, 1999; Borthwick 1998; Tjong Kim Sang, 2002; Tjong Kim Sang và De Meulder, 2003; Tri và CS, 2007), và nhóm các phương pháp lai - kết hợp giữa một phương pháp dựa trên tri thức và một kỹ thuật học máy (Mikheev và CS, 1998; Mikheev và CS, 1999). Các hệ thống dựa trên tri thức chủ yếu dựa trên các luật,

được hiện thực thủ công sử dụng các ngôn ngữ đặc thù ví dụ như dùng văn phạm JAPE (Cunningham và CS, 2000).

Các hệ thống dựa trên tri thức thường áp dụng cho một lĩnh vực cụ thể, và thậm chí phụ thuộc vào một ngôn ngữ cụ thể. Do vậy, chúng ít khả chuyển (portable) hơn các phương pháp học máy, bởi vì khi muốn áp dụng cho một lĩnh vực mới hoặc một ngôn ngữ

mới, các luật gần như phải được viết lại hoặc điều chỉnh cho phù hợp, đây là công việc đòi hỏi nhiều thời gian, công sức và kinh phí, nó yêu cầu người viết luật phải có các kiến thức chuyên sâu về lĩnh vực và ngôn ngữ cụ thểđó.

Thay vì sử dụng các luật được viết thủ công, tốn nhiều chi phí và thời gian, các phương pháp học có giám sát được đề xuất để tự động sinh ra các luật từ các tập dữ liệu huấn luyện sử dụng các kỹ thuật học có giám sát khác nhau như được trình bày trong

Tjong Kim Sang (2002) và Tjong Kim Sang và De Meulder (2003). Thông thường, các

phương pháp học máy như thế khả chuyển và “mạnh” (robust) hơn so với các phương pháp dựa trên tri thức. Bởi vì, khi cần áp dụng một phương pháp học máy cho một lĩnh vực mới, các phương pháp học máy chỉ cần được huấn luyện lại dựa trên các tập dữ liệu huấn luyện mới phù hợp với lĩnh vực mới. Hơn nữa, các luật mà khi xây dựng tập luật các chuyên gia có thể bỏ qua, có thểđược tựđộng xác định và sinh ra bởi các phương pháp học máy. Mặc dù “mạnh” và khả chuyển, các phương pháp học có giám sát có một hạn chế là chúng yêu cầu tập dữ liệu, trong đó các thực thể có tên đã được chú thích, có kích thước đủ lớn và có chất lượng cao, điều này đòi hỏi nhiều nỗ lực để xây dựng các tập dữ liệu huấn luyện.

Để khắc phục hạn chếđó, các kỹ thuật học bán giám sát đã được đề xuất. Kỹ thuật học bán giám sát (Riloff và Jones, 1999) chỉ yêu cầu một tập dữ liệu, trong đó các thực thể có tên đã được chú thích, có kích thước nhỏ, kết hợp với một lượng lớn dữ liệu trong đó các thực thể có tên chưa được chú thích (Collins và Singer, 1999). Bên cạnh các kỹ thuật học vừa nêu, kỹ thuật học không có giám sát cũng đã được đề xuất, không yêu cầu bất kì dữ

liệu huấn luyện nào, để nhận dạng các thực thể có tên (Cimiano và Völker, 2005).

Trong luận án này, chúng tôi thực thi NER như là một bước tiền xử lý. Tùy vào nguồn tri thức sử dụng, hoặc hệ thống mà chúng tôi nhúng các phương pháp của chúng tôi trong

đó để thực hiện các thí nghiệm, chúng tôi sử dụng các môđun NER khác nhau. Trong Chương 3 chúng tôi sử dụng môđun NER của KIM khi thí nghiệm trên tập dữ liệu tiếng Anh dùng ontology của KIM, và sử dụng môđun NER của VN-KIM khi thí nghiệm trên tập dữ liệu tiếng Việt dùng ontology của VN-KIM. Chương 4 và Chương 5 chúng tôi sử

dụng NER của GATE phiên bản 3.0.

Hệ thống nhận dạng thực thể có tên trong GATE sử dụng các mẫu so trùng được viết dựa trên văn phạm JAPE. Các mẫu so trùng này được viết dưới dạng các luật, với mỗi luật có một độ ưu tiên. Hình 2.12 minh họa một luật được viết bằng văn phạm JAPE để nhận biết tên người trong một văn bản tiếng Anh. Luật này có nghĩa là một từ trong một văn bản

mà được gán từ loại “NNP”, theo sau là một dấu phẩy, sau dấu phẩy là dạng viết tắt dành cho họ tên. Ví dụ như luật trong Hình 2.12 sẽ nhận ra “Jones, F.W.” là tên của một con người. Một khi nhận ra tên một người xuất hiện trong văn bản khớp với luật này, thì phần sau dấu “-->” sẽđược kích hoạt. Các hệ thống NER trong KIM và VN-KIM cũng được xây dựng sử dụng các luật viết bằng JAPE, dựa trên và mở rộng các luật nhận dạng thực thể có tên của GATE.

Hình 2.12: Luật nhận biết tên người bằng tiếng Anh được viết đảo ngược của GATE

Đánh giá

Nhiều công trình đã sử dụng phương pháp đánh giá của MUC (Chinchor, 1992) để đánh giá hiệu quả của các phương pháp NER. Các thực thể có tên xuất hiện trong văn bản

được nhận ra và phân lớp lần lượt bởi con người và bởi một hệ thống nhận dạng thực thể

có tên. Kết quảđược tạo bởi người và máy sẽđược so trùng với nhau.

Bảng 2.2: Các loại trả lời đểđánh giá một hệ thống nhận dạng thực thể có tên

Đúng (Correct) response = key

Đúng một phần (Partial) response ≅ key

Không đúng (Incorect) response ≠ key

Dư(Spurious) không có key, nhưng có response

Thiếu (Missing) không có response, nhưng có key

Bảng 2.2 trình bày các loại trả lời cho mỗi chú thích tạo ra bởi một hệ thống nhận dạng thực thể có tên trong Chinchor (1992). Gọi key (chú thích đúng) là một chú thích

được thực hiện thủ công, response là chú thích được tạo ra bởi một hệ thống nhận dạng thực thể có tên. Gọi text cụm từ được chú thích bởi key, kí hiệu là key.text. Tương tự, chúng ta cũng có response.text.

• Nếu key.text và response.text trùng nhau trong cùng văn bản và lớp của thực thể được xác định đúng, thì response là đúng (Đúng).

• Nếu key.text và response.text trùng nhau trong cùng văn bản và lớp của thực thể

trong key và response không trùng nhau, thì response là sai (Không đúng).

• Nếu lớp của thực thểđược xác định đúng và key.text và response.text chỉ giao nhau (trùng nhau một phần), mà không giống nhau hoàn toàn, thì response là đúng một phần (Đúng một phần).

• Một response được gọi là dư nếu response.text không so trùng được với bất kì

key.text nào (Dư).

• Một keyđược gọi là thiếu nếu key.text không so trùng được với bất kì response.text

nào (Thiếu).

Cho trước D là một tập dữ liệu kiểm thử chứa tổng số key là T và một hệ thống nhận dạng các thực thể có tên S. Đểđánh giá hiệu quả của hệ thống S trên tập dữ liệu D, một số độ đo như độ chính xác (precision), độđầy đủ (recall) và độ Fđã được sử dụng rộng rãi. Dựa vào các khái niệm trong Bảng 2.2, các độđo này được định nghĩa như sau.

Độ chính xác (P) là tỉ lệ phần trăm giữa tổng số thực thểđược nhận dạng chính xác và tổng số thực thể mà S thực hiện nhận dạng. Hay nói cách khác, độ chính xác quan tâm số

thực thểđược nhận dạng là thực sựđúng trong tổng số các trường hợp hệ thống thực hiện, mà không quan tâm liệu S có bỏ qua các thực thể lẽ ra nó phải nhận dạng (tức là bỏ qua các trường hợp thiếu) hay không. Độ chính xác càng cao, thì khả năng xác định đúng thực thể,

đúng lớp càng tốt đối với S. Partial / Spurious Incorrect Correct Partial / Correct P 2 1 2 1 + + + + = (2.1) Độ đầy đủ (R) là tỉ lệ phần trăm giữa tổng số thực thể được nhận dạng chính xác và tổng số thực thể vốn có trong D – tức là tổng số key T. Hay nói cách khác, độđầy đủ quan tâm bao nhiêu thực thể vốn có trong Dđược nhận dạng chính xác, mà không quan tâm có

bao nhiêu trường hợp nhận dạng dư. Độ đầy đủ càng cao thì số thực thể vốn có trong D được nhận dạng chính xác càng nhiều. Partial / Incorrect Correct Partial / Correct R 2 1 Missing 2 1 + + + + = (2.2)

ĐộFđược đề xuất bởi van Rijsbergen (1979), là trung bình có trọng số cho cả hai, độ

chính xác và độđầy đủ. Trong đó β phản ảnh trọng số của P so với R. R P R * P F + ) β ( ) + β ( = β 2 2 1 (2.3) Khi β bằng 1, F là trung bình điều hòa của P và R. Phương trình 2.4 là điều chỉnh của

Phương trình 2.3 khi β bằng 1. R P R * P F + = 2 (2.4)

Do F1 thường được sử dụng, nên trong luận án này khi đề cập đến độF chúng tôi mặc

định là độF1.

Mô hình không gian véctơ 45

Phân hạng ứng viên dựa trên ontology 75