Kỹ thuật nhận dạng thực thể có tên trong văn bản- 123docz.net

Sau khi gán nhãn được từ loại cho các thành phần trong câu, để nhận dạng được sự kiện chúng ta cần áp dụng kĩ thuật chunking. Chunking là quá trình trích xuất các cụm từ từ văn bản không có cấu trúc. Những từ đơn lẻ có thể không thể hiện ý nghĩa thực sự của văn bản ví dụ như cụm từ “South Africa” thì có ý nghĩa rõ ràng hơn từng từ “South” và “Africa”.

Chunking hoạt động trên nền tảng của việc gán nhãn từ loại. Chunking sử dụng các nhãn đã được gán là nguyên liệu đầu vào để đưa ra những cụm từ có ý nghĩa. Tương tự như trong việc gán nhãn từ loại thì cũng có sẵn những tập nhãn Chunk tiêu chuẩn như chia câu theo cụm danh từ (Noun Phrase), phân chia theo cụm động từ (Verb Phrase)… Việc phân chia này rất quan trọng và là bước tiền xử lý trước khi trích xuất các thông tin quan trọng về sự kiện như người tham gia, địa điểm.. hay còn được gọi là kỹ thuật nhận diện thực thể có tên trong văn bản ( Named Entity Recognition). Để phân chia theo cụm danh từ chúng ta cần định nghĩa cấu trúc ngữ pháp phân chia theo các nhãn từ loại. Luật này có thể biểu diễn thông qua biểu thức chính quy. Một quy tắc xác định rằng nếu tìm thấy lần lượt một từ hạn định (determiner - DT) đến một vài tính từ (JJ) rồi đến một danh từ (NN) thì có thể thực hiện một phân chia theo cụm danh từ.

Xét ví dụ

sentence = "Apple CEO Steve Jobs has passed away" # dữ liệu đầu vào grammar = ('''

NP: {<DT>?<JJ>*<NN>} # luật định nghĩa cụm danh từ NP ''')

#Thực hiện gán nhãn

Sau khi thực hiện chunking thì việc nhận dạng thực thể sẽ dễ dàng hơn. Nhận dạng thực thể có tên chính là việc xác định một từ hay một cụm từ có phải là tên của một người, một địa danh hay một tổ chức không. Ngoài ra thuật ngữ này có thể mở rộng để bao gồm những thông tin khác không phải là thực thể như ngày tháng, thời gian và thậm chí là cả những biểu thức số như giá cả.

Ví dụ với câu nói “Apple CEO Steve Jobs has passed away” chúng ta có thể phân tích thành

Hình 2.4 Ví dụ Nhận dạng thực thể có tên

Trong đó Apple là tên tổ chức, CEO là chức danh và Steve Jobs là tên riêng của người. Sử dụng những thông tin này giúp ích trong quá trình trích xuất sự kiện cũng như xác định mối quan hệ giữa các thành phần tham gia. Cụ thể như trong các nghiên cứu đánh giá phân tích tình cảm, chúng ta có thể biết được đánh giá của khách hàng đối với một nhãn hàng, một sản phẩm có hướng tích cực hay tiêu cực.

Bảng 2.1: Ví dụ các loại thực thể có tên riêng

Loại thực thể Nhãn Phân loại ví dụ Ví dụ

Người PER Người, nhân vật Steve Job has passed away Tổ chức ORG Công ty, đội

bóng

Google announced new Pixel phone

Địa danh LOC Núi, biển Fansipanis a mountain in

Vietnam

Thực thể về chính trị

GPE Quốc gia, bang, tỉnh

Ha Noi is the capital of Vietnam

Nhận dạng thực thể có tên là quá trình tìm các vùng văn bản có chứa tên riêng và sau đó phân loại các thực thể. Việc nhận dạng này khá khó khăn do các phân khúc có tính trừu tượng. Chúng ta cần phải quyết định đâu là thực thể, đâu không phải là thực thể và ranh giới để phân định chúng.

Ví dụ dưới đây thể hiện sự nhập nhằng của từ “Washington” mang nhiều định danh khác nhau tùy vào ngữ cảnh cụ thể

Thuật toán chuẩn cho việc nhận dạng thực tể có tên thường là quá trình gắn nhãn chuỗi các từ và kết quả thu được xác định được cả loại nhãn và biên của thực thể. Các bộ phân loại tuần tự thường sử dụng như trường ngẫu nhiên có điều kiện hay mô hình cực đại hóa Entropy để dán nhãn các thành phần thể hiện sự xuất hiện của các thực thể có tên trong văn bản.

Ví dụ:

[PER Washington] was born into slavery on the farm of James Burroughs.

[ORG Washington] went up 2 games to 1 in the four-game series.

Blair arrived in [LOC Washington] for what may well be his last state visit.

In June, [GPE Washington] passed a primary seatbelt law.

#IN

American Airlines, a unit of AMR Corp, immediately matched the move, spokesman Tim Wagner said.

#OUT

[ORG American Airlines], a unit of [ORG AMR Corp.], immediately matched

Có thể được biểu diễn dưới kí pháp IOB như sau

Hình 2.5 Ví dụ ký pháp nhãn IOB

Ký pháp IOB bao gồm ba thành phần là thẻ bắt đầu thực thể (B- Beginning), thẻ trong thực thể (I – Inside) và thẻ ngoài thực thể (O – Outside). Trong một văn bản có n thực thể sẽ có 2n+1 thẻ. Việc sử dụng ký pháp IOB cũng thể hiện được khối lượng thông tin như kí pháp dùng ngoặc (dùng để biểu diễn các vector hoặc hàm tuyến tính trong lĩnh vực toán học). Từ đó dễ dàng trích xuất thông tin về thực thể của sự kiện trong văn bản.

Vì Twitter có chứa nhiều loại thực thể đặc biệt và không phổ biến do vậy việc xây dựng tập dữ liệu huấn luyện cho việc phân loại thực thể có tên là một nhiệm vụ rất khó khăn. Trong một tập dữ liệu tweet bất kì thì một vài kiểu dữ liệu chỉ xuất hiện một vài lần. Hơn nữa do đặc trưng ngắn gọn nên mỗi tweet không có đủ ngữ cảnh để xác định loại thực thể nằm trong nó. Ví như tweet

“Watching ABDC in 45min..” – ABDC : American Best Dance Crew( là một chương trình thực tế về các nhóm nhảy của Mỹ)

Nếu không có tri thức biết trước thì khó có thể hiểu thực thể “ABDC” là thuộc loại nào. Tuy nhiên chúng ta có thể xác định được các thực thể này có thể liên quan đến chương trình truyền hình nếu có sự xuất hiện của từ khóa”watching” hay “premiers”. Để giải quyết vấn đề về những dạng thực thể đặc biệt này chúng ta có thể sử dụng danh sách thực thể từ những bộ dữ liệu rất lớn như Freebase làm đầu vào cho phương pháp distant supervision.

Ở đây chúng ta sẽ xem xét phương pháp Labeled Latent Dirichlet Allocation được đề cập bởi Ramage và cộng sự. Mô hình này xem xét mỗi chuỗi thực thể sẽ là tập hợp của nhiều loại thực thể khác nhau chứ không sử dụng một tham số ẩn để đại diện cho một loại thực thể. Điều này cho phép thông tin về một thực thể được phân phối đều trên toàn bộ miền dữ liệu giúp giải quyết được tính mơ hồ của thực thể vì thực tế một thực thể có thể thuộc nhiều dạng khác nhau. Mỗi thực thể trong tập dữ liệu sẽ liên kết mới một mô hình túi từ trong ngữ cảnh thực thể này được nhắc đến. Mỗi túi từ này liên quan tới một phân phối trên tất cả các tập dữ liệu và mỗi chủ đề chứa một tập hợp các từ khóa. Xem xét mỗi tin nhắn tweet d được thể hiện bằng một tập hợp các từ 𝒘(𝑑) = (𝑤1, … . 𝑤𝑁𝑑) và một tập định danh xác định chủ đề có tồn tại hay không ∆(𝑑)= (𝑙1, … . 𝑙𝑇) với 𝑤𝑖 ∈ {1, … . 𝑉} và mỗi 𝑙𝐾 ∈ {0,1}. Ở đây Nd là độ dài văn bản, V là toàn bộ tập từ điển và T là toàn bộ số lượng nhãn duy nhất trong từ điển. Ở đây số lượng chủ đề là giá trị T trong từ điển. Để ánh xạ một-một giữa chủ đề và từ điển loại thực thể Freebase thì chúng ta sử dụng ràng buộc 𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝜃𝑒) là phân phối trên toàn bộ tập chủ đề và 𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝛽𝑡) là phân phối của chủ đề với từng từ. Ví dụ như 𝜃𝐴𝑚𝑎𝑧𝑜𝑛 là phân phối tương ứng với 2 loại chủ đề “COMPANY” hay “LOCATION”. Với những thực thể mà không tìm thấy trong từ điển Freebase thì sẽ không có phân phối (𝜃𝑒). Mô hình tổng quát của phương pháp được thể hiện như sau

Hình 2.6 Mô hình tổng quát Labeled Latent Dirichlet Allocation

Với mỗi chủ đề 𝑙𝑇 tính toán 𝛽𝑡 trên toàn tập từ điển dựa trên phân phối Dirichlet. Rồi sau đó với mỗi văn bản tính toán (𝜃𝑒) là phân phối với mỗi chủ đề và cuối cùng với mỗi từ được lấy mẫu từ (𝜃𝑒). Để suy luận giá trị ẩn có thể áp dụng phương pháp lấy mẫu Collapsed Gibbs (Griffiths and Steyvers, 2004), một thuật toán nhanh, đơn giản và hiệu quả để huấn luyện Labeled Latent Dirichlet Allocation.

Kỹ thuật nhận dạng thực thể có tên trong văn bản (NER)

Trích xuất mối quan hệ

Thực nghiệm trích xuất sự kiện từ tweet