Sau khi gán nhãn được từ loại cho các thành phần trong câu, để nhận dạng được sự kiện chúng ta cần áp dụng kĩ thuật chunking. Chunking là quá trình trích xuất các cụm từ từ văn bản không có cấu trúc. Những từ đơn lẻ có thể không thể hiện ý nghĩa thực sự của văn bản ví dụ như cụm từ “South Africa” thì có ý nghĩa rõ ràng hơn từng từ “South” và “Africa”.
Chunking hoạt động trên nền tảng của việc gán nhãn từ loại. Chunking sử dụng các nhãn đã được gán là nguyên liệu đầu vào để đưa ra những cụm từ có ý nghĩa. Tương tự như trong việc gán nhãn từ loại thì cũng có sẵn những tập nhãn Chunk tiêu chuẩn như chia câu theo cụm danh từ (Noun Phrase), phân chia theo cụm động từ (Verb Phrase)… Việc phân chia này rất quan trọng và là bước tiền xử lý trước khi trích xuất các thông tin quan trọng về sự kiện như người tham gia, địa điểm.. hay còn được gọi là kỹ thuật nhận diện thực thể có tên trong văn bản ( Named Entity Recognition). Để phân chia theo cụm danh từ chúng ta cần định nghĩa cấu trúc ngữ pháp phân chia theo các nhãn từ loại. Luật này có thể biểu diễn thông qua biểu thức chính quy. Một quy tắc xác định rằng nếu tìm thấy lần lượt một từ hạn định (determiner - DT) đến một vài tính từ (JJ) rồi đến một danh từ (NN) thì có thể thực hiện một phân chia theo cụm danh từ.
Xét ví dụ
sentence = "Apple CEO Steve Jobs has passed away" # dữ liệu đầu vào grammar = ('''
NP: {<DT>?<JJ>*<NN>} # luật định nghĩa cụm danh từ NP ''')
#Thực hiện gán nhãn
Sau khi thực hiện chunking thì việc nhận dạng thực thể sẽ dễ dàng hơn. Nhận dạng thực thể có tên chính là việc xác định một từ hay một cụm từ có phải là tên của một người, một địa danh hay một tổ chức không. Ngoài ra thuật ngữ này có thể mở rộng để bao gồm những thông tin khác không phải là thực thể như ngày tháng, thời gian và thậm chí là cả những biểu thức số như giá cả.
Ví dụ với câu nói “Apple CEO Steve Jobs has passed away” chúng ta có thể phân tích thành
Hình 2.4 Ví dụ Nhận dạng thực thể có tên
Trong đó Apple là tên tổ chức, CEO là chức danh và Steve Jobs là tên riêng của người. Sử dụng những thông tin này giúp ích trong quá trình trích xuất sự kiện cũng như xác định mối quan hệ giữa các thành phần tham gia. Cụ thể như trong các nghiên cứu đánh giá phân tích tình cảm, chúng ta có thể biết được đánh giá của khách hàng đối với một nhãn hàng, một sản phẩm có hướng tích cực hay tiêu cực.
Bảng 2.1: Ví dụ các loại thực thể có tên riêng
Loại thực thể Nhãn Phân loại ví dụ Ví dụ
Người PER Người, nhân vật Steve Job has passed away Tổ chức ORG Công ty, đội
bóng
Google announced new Pixel phone
Địa danh LOC Núi, biển Fansipanis a mountain in
Vietnam
Thực thể về chính trị
GPE Quốc gia, bang, tỉnh
Ha Noi is the capital of Vietnam
Nhận dạng thực thể có tên là quá trình tìm các vùng văn bản có chứa tên riêng và sau đó phân loại các thực thể. Việc nhận dạng này khá khó khăn do các phân khúc có tính trừu tượng. Chúng ta cần phải quyết định đâu là thực thể, đâu không phải là thực thể và ranh giới để phân định chúng.
Ví dụ dưới đây thể hiện sự nhập nhằng của từ “Washington” mang nhiều định danh khác nhau tùy vào ngữ cảnh cụ thể
Thuật toán chuẩn cho việc nhận dạng thực tể có tên thường là quá trình gắn nhãn chuỗi các từ và kết quả thu được xác định được cả loại nhãn và biên của thực thể. Các bộ phân loại tuần tự thường sử dụng như trường ngẫu nhiên có điều kiện hay mô hình cực đại hóa Entropy để dán nhãn các thành phần thể hiện sự xuất hiện của các thực thể có tên trong văn bản.
Ví dụ:
[PER Washington] was born into slavery on the farm of James Burroughs.
[ORG Washington] went up 2 games to 1 in the four-game series.
Blair arrived in [LOC Washington] for what may well be his last state visit.
In June, [GPE Washington] passed a primary seatbelt law.
#IN
American Airlines, a unit of AMR Corp, immediately matched the move, spokesman Tim Wagner said.
#OUT
[ORG American Airlines], a unit of [ORG AMR Corp.], immediately matched
Có thể được biểu diễn dưới kí pháp IOB như sau
Hình 2.5 Ví dụ ký pháp nhãn IOB
Ký pháp IOB bao gồm ba thành phần là thẻ bắt đầu thực thể (B- Beginning), thẻ trong thực thể (I – Inside) và thẻ ngoài thực thể (O – Outside). Trong một văn bản có n thực thể sẽ có 2n+1 thẻ. Việc sử dụng ký pháp IOB cũng thể hiện được khối lượng thông tin như kí pháp dùng ngoặc (dùng để biểu diễn các vector hoặc hàm tuyến tính trong lĩnh vực toán học). Từ đó dễ dàng trích xuất thông tin về thực thể của sự kiện trong văn bản.
Vì Twitter có chứa nhiều loại thực thể đặc biệt và không phổ biến do vậy việc xây dựng tập dữ liệu huấn luyện cho việc phân loại thực thể có tên là một nhiệm vụ rất khó khăn. Trong một tập dữ liệu tweet bất kì thì một vài kiểu dữ liệu chỉ xuất hiện một vài lần. Hơn nữa do đặc trưng ngắn gọn nên mỗi tweet không có đủ ngữ cảnh để xác định loại thực thể nằm trong nó. Ví như tweet
“Watching ABDC in 45min..” – ABDC : American Best Dance Crew( là một chương trình thực tế về các nhóm nhảy của Mỹ)
Nếu không có tri thức biết trước thì khó có thể hiểu thực thể “ABDC” là thuộc loại nào. Tuy nhiên chúng ta có thể xác định được các thực thể này có thể liên quan đến chương trình truyền hình nếu có sự xuất hiện của từ khóa”watching” hay “premiers”. Để giải quyết vấn đề về những dạng thực thể đặc biệt này chúng ta có thể sử dụng danh sách thực thể từ những bộ dữ liệu rất lớn như Freebase làm đầu vào cho phương pháp distant supervision.
Ở đây chúng ta sẽ xem xét phương pháp Labeled Latent Dirichlet Allocation được đề cập bởi Ramage và cộng sự. Mô hình này xem xét mỗi chuỗi thực thể sẽ là tập hợp của nhiều loại thực thể khác nhau chứ không sử dụng một tham số ẩn để đại diện cho một loại thực thể. Điều này cho phép thông tin về một thực thể được phân phối đều trên toàn bộ miền dữ liệu giúp giải quyết được tính mơ hồ của thực thể vì thực tế một thực thể có thể thuộc nhiều dạng khác nhau. Mỗi thực thể trong tập dữ liệu sẽ liên kết mới một mô hình túi từ trong ngữ cảnh thực thể này được nhắc đến. Mỗi túi từ này liên quan tới một phân phối trên tất cả các tập dữ liệu và mỗi chủ đề chứa một tập hợp các từ khóa. Xem xét mỗi tin nhắn tweet d được thể hiện bằng một tập hợp các từ 𝒘(𝑑) = (𝑤1, … . 𝑤𝑁𝑑) và một tập định danh xác định chủ đề có tồn tại hay không ∆(𝑑)= (𝑙1, … . 𝑙𝑇) với 𝑤𝑖 ∈ {1, … . 𝑉} và mỗi 𝑙𝐾 ∈ {0,1}. Ở đây Nd là độ dài văn bản, V là toàn bộ tập từ điển và T là toàn bộ số lượng nhãn duy nhất trong từ điển. Ở đây số lượng chủ đề là giá trị T trong từ điển. Để ánh xạ một-một giữa chủ đề và từ điển loại thực thể Freebase thì chúng ta sử dụng ràng buộc 𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝜃𝑒) là phân phối trên toàn bộ tập chủ đề và 𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝛽𝑡) là phân phối của chủ đề với từng từ. Ví dụ như 𝜃𝐴𝑚𝑎𝑧𝑜𝑛 là phân phối tương ứng với 2 loại chủ đề “COMPANY” hay “LOCATION”. Với những thực thể mà không tìm thấy trong từ điển Freebase thì sẽ không có phân phối (𝜃𝑒). Mô hình tổng quát của phương pháp được thể hiện như sau
Hình 2.6 Mô hình tổng quát Labeled Latent Dirichlet Allocation
Với mỗi chủ đề 𝑙𝑇 tính toán 𝛽𝑡 trên toàn tập từ điển dựa trên phân phối Dirichlet. Rồi sau đó với mỗi văn bản tính toán (𝜃𝑒) là phân phối với mỗi chủ đề và cuối cùng với mỗi từ được lấy mẫu từ (𝜃𝑒). Để suy luận giá trị ẩn có thể áp dụng phương pháp lấy mẫu Collapsed Gibbs (Griffiths and Steyvers, 2004), một thuật toán nhanh, đơn giản và hiệu quả để huấn luyện Labeled Latent Dirichlet Allocation.