Để trích xuất được thông tin sự kiện từ nội dung tweet, chúng ta sẽ lần lượt áp dụng các phương pháp tiền xử lý để xác định các thành phần ngữ nghĩa, thực thể liên quan đến sự kiện, hành động kích hoạt sự kiện, thời gian,….
2.1.1 Kỹ thuật gán nhãn từ loại (POS Tagging) bằng mô hình trường ngẫu nhiên có điều kiện
Gán nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu. Đây là bước cơ bản trước khi phân tích sâu văn phạm hay các vấn đề xử lý ngôn ngữ phức tạp khác. Thông thường, một từ có thể có nhiều chức năng ngữ pháp. Ví dụ như trong câu "They refuse to permit us to obtain the refuse permit." thì cùng một từ "refuse" nhưng từ thứ nhất giữ chức năng ngữ pháp là động từ nhưng từ thứ hai lại là danh từ trong câu. Các thành phần trong câu thường được phân loại vào một trong tám loại chính đó là danh từ (nouns), đại từ (pronouns), tính từ (adjectives), động từ (verbs), trạng từ (adverbs), giới từ (prepositions), liên từ (conjunctions) và thán từ (interjections).
Hình 2.1 Danh sách 8 thành phần cơ bản trong câu
Những nghiên cứu sau này đã mở rộng danh sách các thành phần này. Tiêu biểu là bộ từ điển Penn Treebank bao gồm 45 thành phần và bộ từ điển Brown bao gồm 87 thành phần.
Khi làm việc với bài toán này thường đối mặt với hai thách thức chính
- Sự nhập nhằng (ambiguity): một từ có thể có nhiều từ loại hay một từ có thể có nhiều ý nghĩa. Một ví dụ như từ “bear” trong 2 ví dụ sau vừa là danh từ vừa là động từ
- Trong thực tế có nhiều từ không xuất hiện trong ngữ liệu huấn luyện nên khi xây dựng mô hình gán nhãn sẽ gặp nhiều khó khăn
Xét ví dụ
Để gán nhãn từ loại người ta có sử dụng phương pháp dựa trên luật có sẵn hoặc phương pháp dựa trên thống kê. Đối với các mô hình dựa trên phương pháp dựa trên luật sẽ xem xét ngữ cảnh cụ thể của từ hiện tại, từ liền cạnh và các đặc trưng của chúng như có được viết hoa hay không, có kết thúc bằng –ing. Những đặc trưng này được đánh trọng số kết hợp với những thành phần xác định như giới từ, đại từ từ đó xây dựng các chuỗi luật như “đổi nhãn a sang nhãn b khi gặp một từ sau nhãn z” để áp dụng cho từng mô hình riêng. Phương pháp này có đặc điểm hướng tri thức, các luật được xây dựng bằng tay và số lượng luật thường giới hạn (khoảng 1000 luật). Đối với phương pháp dựa trên thông kê thưởng sử dụng các kỹ thuật học có giám sát cụ thể là xác suất liên hợp thường gọi là mô hình sinh mẫu. Trong đó mô hình Markov ẩn (Hidden Markov model) , trường ngẫu nhiên có điều kiện (Conditional Random Fields) là một trong những mô hình thuộc phân nhóm này. Cho tập huấn luyện (𝑥(1), 𝑦(1)) … (𝑥(𝑚), 𝑦(𝑚)), trong đó đầu vào gồm 𝑥(𝑖) là mẫu quan sát, 𝑦(𝑖) là nhãn
#IN
"Apple CEO Steve Jobs has passed away" # dữ liệu đầu vào grammar = ('''
NP: {<DT>?<JJ>*<NN>} # luật định nghĩa cụm danh từ NP ''')
#OUT
gán cho mẫu quan sát. Ta đặt X là tập dữ liệu đầu vào, Y là tập dữ liệu đầu ra. Nhiệm vụ của chúng ta là xây dựng được hàm 𝑓: 𝑋 → 𝑌 ánh xạ 𝑥 vào không gian 𝑓(𝑥) . Để tính hàm 𝑓(𝑥) ta có thể sử dụng mô hình điều kiện conditional model. Đây là mô hình thường dùng trong tác vụ phân lớp. Ví dụ, cho vào một từ 𝑥, xác định xem đây là từ có tag là 𝑦
𝑝(𝑦|𝑥)
Sau khi huấn luyện các tham số của mô hình. Ta cho dữ liệu đầu vào là 𝑥, dữ liệu đầu ra sẽ được tính dựa theo công thức
𝑓(𝑥) = arg 𝑚𝑎𝑥𝑦⋲𝑌 𝑝(𝑦|𝑥) (1)
Một hướng tiếp cận khác là generative model, thay vì tính trực tiếp hàm 𝑝(𝑦|𝑥) ta tính xác suất hợp (joint probability)
𝑝(𝑥, 𝑦) Hàm này được phân tích thành
𝑝(𝑥, 𝑦) = 𝑝(𝑦)𝑝(𝑥|𝑦) Trong đó
𝑝(𝑦)là phân bố xác suất tiền nghiệm (prior probability distribution) của nhãn
𝑦.
𝑝(𝑥|𝑦) là khả năng phát sinh 𝑥 khi cho trước nhãn 𝑦.
Khi cho dữ liệu test đầu vào 𝑥, ta sẽ dự đoán nhãn 𝑦 như sau
𝑓(𝑥) = arg 𝑚𝑎𝑥𝑦 𝑝(𝑦|𝑥) = arg 𝑚𝑎𝑥𝑦 𝑝(𝑦)𝑝(𝑥|𝑦)𝑝(𝑥)
Ở đây chúng ta sẽ xem xét cụ thể sử dụng phương pháp trường ngẫu nghiên có điều kiện (Conditional Random Fields). Mô hình trường ngẫu nhiên có điều kiện (Conditional Random Fields) được giới thiệu lần đầu vào năm 2001 bởi Lafferty và đồng nghiệp. Conditional Random Fields là mô hình dựa trên xác suất điều kiện, nó có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. Tuy vậy, khác với các mô hình xác suất khác, trường ngẫu nhiên có điều kiện là mô hình đồ thị vô hướng. Điều này cho phép trường ngẫu nhiên có điều kiện có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong mô hình đồ thị có hướng khác. Bản chất “phân phối điều kiện” và “phân phối toàn cục” của trường ngẫu nhiên có điều kiện cho phép mô hình này khắc phục được những nhược điểm của các mô hình trước đó trong việc gán nhãn và phân đoạn dữ liệu dạng chuỗi mà tiêu biểu là vấn đề “label bias”.
Mô hình trường ngẫu nhiên có điều kiện được định nghĩa 𝑝(𝑦|𝑥) = 𝑝(𝑦1, 𝑦2, … 𝑦1|𝑥) = 1
𝑍(𝑥)∏ Ψ(𝑦𝑐, x)
𝑐⋲𝐶
Với Z(x) là thừa số chuẩn hóa trên toàn bộ các chuỗi nhãn có thể
𝑍(𝑥) = ∑ ∏ Ψ(𝑦𝑐, x)
𝑐⋲𝐶 𝑦
Bằng cách áp dụng nguyên lý cực đại hóa Entropy, hàm tiềm năng của một trường ngẫu nhiên có điều kiện có dạng hàm số mũ
Ψ(𝑦𝑐, x) = exp (∑ 𝛼𝑖 𝑛
𝑖=1
𝑓𝑖(𝑦𝑐, 𝑥, 𝑐))
Khi đó mô hình CRF có thể được viết lại
𝑝𝜃(𝑦|𝑥) = 1 𝑍𝜃(𝑥)exp (∑ ∑ 𝛼𝑖 𝑛 𝑖=1 𝑓𝑖(𝑦𝑐, 𝑥, 𝑐) 𝑐⋲𝐶 ) Với F = {f1, f2, …,fn} là tập thuộc tính (feature)
θ = {λ1, λ1,…, λn} là tập trọng số tương ứng với các thuộc tính
𝑍𝜃(𝑥) = ∑ exp (∑ ∑ 𝛼𝑖 𝑛 𝑖=1 𝑓𝑖(𝑦𝑐, 𝑥, 𝑐) 𝑐⋲𝐶 ) 𝑦
Trong trường ngẫu nhiên có điều kiện có hai dạng đặc trưng
- Thuộc tính cạnh (e- edge feature) : phụ thuộc Markov giữa các vị trí liền kề
𝑓<𝑙𝑒′,𝑙>(𝑠𝑡−1, 𝑠𝑡, 𝑡) = {1 𝑛ế𝑢 𝑠0 𝑛𝑔ượ𝑐 𝑙ạ𝑖𝑡−1 = 𝑙′ 𝑣à 𝑠𝑡 = 𝑙
Ví dụ: đặc trưng có luật là một từ là danh từ nếu từ trước đó là tính từ
𝑓<𝑡í𝑛ℎ_𝑡ừ,𝑑𝑎𝑛ℎ_𝑡ừ>𝑒 (𝑠𝑡−1, 𝑠𝑡, 𝑡) = {1 𝑛ế𝑢 𝑠𝑡−10 𝑛𝑔ượ𝑐 𝑙ạ𝑖= 𝑡í𝑛ℎ_𝑡ừ 𝑣à 𝑠𝑡 = 𝑑𝑎𝑛ℎ_𝑡ừ
- Thuộc tính quan sát (o – observation feature) : đặc điểm quan sát được từ chuỗi dữ liệu đầu vào
𝑓<𝑥𝑜 𝑗,𝑙>(𝑠𝑡, 𝑜, 𝑡) = {1 𝑛ế𝑢 𝑥0 𝑛𝑔ượ𝑐 𝑙ạ𝑖𝑖(𝑜, 𝑡) = 𝑇𝑅𝑈𝐸 𝑣à 𝑠𝑡 = 𝑙 Ví dụ: đặc trưng có luật là nếu một từ kết thúc bằng “tive” thì nó là tính từ
𝑓<𝑠𝑢𝑓𝑓𝑖𝑥(𝑜𝑜 𝑡)=𝑡𝑖𝑣𝑒,𝑡í𝑛ℎ_𝑡ừ>(𝑠𝑡, 𝑜, 𝑡) {1 𝑛ế𝑢 [𝑠𝑢𝑓𝑓𝑖𝑥(𝑜𝑡) = 𝑡𝑖𝑣𝑒] = 𝑇𝑅𝑈𝐸 𝑣à 𝑠𝑡 = 𝑡í𝑛ℎ_𝑡ừ 0 𝑛𝑔ượ𝑐 𝑙ạ𝑖
Với những đặc điểm như không sử dụng giả định độc lập, tối ưu toàn cục, chuẩn hóa toàn cục thì mô hình trường ngẫu nhiên có điều kiện đạt độ chính xác cao hơn mô hình chuỗi Markov ẩn (Hidden Markov Model) và mô hình cực đại hóa Entropy (Maximum Entropy Model) , giải quyết được vấn đề “label bias”. Tuy nhiên mô hình này cũng có một vài nhược điểm như thời gian huấn luyện tăng khi số nhãn nhiều và mô hình có thể lớn gây tốn bộ nhớ.