SVM ra đời từ lý thuyết học thống kê do Vapnik và Chervonenkis [10] xây dựng và có nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dựng trong thực tiễn. Tư tưởng chung của học máy SVM như sau:
- Giai đoạn xây dựng mô hình: Cho một tập mẫu dữ liệu huấn luyện đã được gán nhãn lớp, như vậy có một tập nhãn lớp tương ứng xác định tên tập mẫu. Mỗi mẫu dữ liệu được biểu diễn dưới dạng một vector đặc trưng. Dựa vào vector
đặc trưng của các mẫu dữ liệu huấn luyện, mô hình máy vector hỗ trợ sẽ được xây dựng để phân tách các mẫu học. Trong trường hợp khả tách tuyến tính, nó là một siêu phẳng (hyperplane) trong không gian dùng để phân tách tuyến tính các mẫu thuộc các nhãn lớp khác nhau với khoảng cách lớn nhất có thể. Trong trường hợp không khả tách tuyến tính, chúng ta có thể sử dụng lề mềm (soft margin) để phân tách mẫu học, hay sử dụng ánh xạ phi tuyến để chuyển không
16
gian ban đầu sang không gian mới có số chiều lớn hơn mà ởđó các mẫu học có khả năng phân tách tuyến tính.
- Giai đoạn sử dụng mô hình: Mô hình đã xây dựng sẽđược sử dụng để gán nhãn lớp cho các mẫu dữ liệu mới.
Đối với bài toán trích chọn quan hệ phương thức, chúng ta chỉ cần phân vào 2 lớp: một lớp là các cụm trạng từ/cụm giới từ biểu diễn quan hệ phương thức, một lớp là các từ loại khác không biểu diễn quan hệ phương thức.
a. Trường hợp khả tách tuyến tính
Hình 3. Mô hình máy vector hỗ trợ khả tách tuyến tính
Đầu vào của thuật toán là một tập dữ liệu huấn luyện, mỗi mẫu được đánh dấu rơi vào một trong hai lớp gọi chung là lớp mẫu âm (negative) và lớp mẫu dương (positive). Đầu ra của mô hình là một mặt siêu phẳng phân tách các mẫu dương và mẫu âm với khoảng cách lề cực đại.
Thuật toán SVM được mô tả cụ thể như sau: Cho 1 tập huấn luyện các cặp (xi, yi), với i = 1, …, l; trong đó xi ∈ Rn là không gian vector đặc trưng n chiều; yi ∈ {-1, +1}, các mẫu dương là các mẫu xi thuộc lĩnh vực quan tâm và được gán nhãn yi = +1, các mẫu âm là các mẫu xi không thuộc lĩnh vực quan tâm và được gán nhãn yi = −1.
Trong trường hợp này, bộ phân lớp SVM là một siêu phẳng phân tách tập mẫu dương khỏi tập mẫu âm với độ chênh lệnh cực đại. Độ chênh lệch cực đại này còn gọi là lề của siêu phẳng (margin). Lề xác định khoảng cách giữa các mẫu dương với mẫu âm gần mặt siêu phẳng nhất (chính là khoảng cách giữa các mẫu nằm trên 2 đường nét
đứt tới đường nét đậm). Các mặt siêu phẳng trong không gian đối tượng có phương trình là wTx + b = 0, trong đó w là vector pháp tuyến, b là tham số mô hình phân lớp
17
(bộ phân lớp). Khi thay đổi w và b, hướng và khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi. Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau, và lề càng lớn thì lỗi tổng quát hóa của bộ phân lớp càng giảm. Thuật toán SVM ước lượng các tham số w và b nhằm tìm ra mặt siêu phẳng phân tách lớp mẫu dương khỏi lớp mẫu âm với lề cực đại. Mặt siêu phẳng này còn được gọi là mặt siêu phẳng lề tối
ưu hay ranh giới quyết định (decision boundary), hoặc là lề cứng (hard margin). Bộ phân lớp SVM được định nghĩa như sau:
f(x) = sign(wTx + b) (1)
trong đó
sign(z) = +1 nếu z ≥ 0, sign(z) = −1 nếu z < 0.
Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại, nếu f(x) = −1 thì x thuộc về
lớp âm.
Tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau :
wT xi + b ≥ +1 nếu yi = +1 (2)
wT xi + b ≤ −1 nếu yi = −1 (3)
Hai mặt siêu phẳng có phương trình là wTx + b = ±1 được gọi là các mặt siêu phẳng hỗ
trợ (các đường nét đứt trên hình).
Để xây dựng một mặt siêu phẳng lề tối ưu, ta phải giải bài toán: Cực đại hóa: 1 1 1 1 2 N N N T i i j i j i j i i j y y x x α α α = = = − ∑ ∑∑ (4) với các ràng buộc: αi ≥ 0 (5) và 1 N i i i y α = ∑ = 0 (6)
trong đó các hệ số Lagrange αi, i = 1, 2, ..., N, là các biến cần được tối ưu hóa.
b. Trường hợp không khả tách tuyến tính
Có thể giải quyết theo 2 phương pháp sau:
Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phép một số
mẫu huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặc vẫn ở vị trí đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phẳng hỗ trợ tương
18
ứng. Trong trường hợp này, các hệ số Lagrange của bài toán quy hoạch toàn phương có thêm một cận trên C dương – tham số do người sử dụng lựa chọn. Tham số này tương ứng với giá trị phạt đối với các mẫu bị phân loại sai.
Cụ thể, tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau: wT xi + b ≥ +1 - ξ nếu yi = +1 (7) wT xi + b ≤ −1 + ξ nếu yi = −1 (8)
ξ≥ 0 (9)
Để xây dựng một mặt siêu phẳng lề tối ưu, ta phải giải bài toán: Cực đại hóa: 1 , 1 1 2 N N T i i j i j i j i i j y y x x α α α = = − ∑ ∑ (10) với các ràng buộc 1 0 N i i i y α = = ∑ (11) 0 ≤ αi≤ C (12) Hình 4. Phương pháp lề mềm
Cách thứ hai sử dụng một ánh xạ phi tuyến Φ để ánh xạ các điểm dữ liệu đầu vào sang một không gian mới có số chiều cao hơn.
Φ : Rd→ RD (D >> d) x →Φ(x)
Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thể phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu. Một mặt quyết định tuyến tính trong không gian mới sẽ tương ứng với một mặt quyết định phi tuyến trong không gian ban đầu. Khi đó, bài toán ban đầu sẽ trở thành:
19 1 1 1 1 ( , ) 2 N N N i i j i j i j i i j y y k x x α α α = = = − ∑ ∑∑ (13) với các ràng buộc: 0 ≤αi≤ C (14) 1 N i i i y α = ∑ = 0 (15)
trong đó k là một hàm nhân thoản mãn:
k(xi, xj) = Φ(xi)T. Φ(xj) (16) Với việc dùng một hàm nhân, ta không cần biết rõ về ánh xạ Φ. Hơn nữa, bằng cách chọn một nhân phù hợp, ta có thể xây dựng được nhiều bộ phân lớp khác nhau.
Có một số hàm nhân cơ bản sau đây:
- Đa thức: k(xi, xj) = ( amma.xT oef0)degree i j
g x +c
- Hàm vòng RBF (Radial Basic Function): k x x( , ) exp(i j = −gamma x.| i−xj| )2
- Hàm chữ S Sigmoid: k(xi, xj) = tanh( . .T oef 0)
i j
gamma x x +c
trong đó gamma, coef0 và degree là các tham số nhân.
2.2.2 Trích chọn đặc trưng
Một sốđặc trưng với cụm trạng từ trong tiếng Anh [2]:
Bảng 4. Các đặc trưng của cụm trạng từ
STT Đặc trưng Giá trị Giải thích
1 parent-node {S,VP} Nốt cha thuộc phân cấp trên trong cây cú pháp của cụm trạng từ
2 num-leaves ℵ số từ trong cụm trạng từ
3 adverb {often,strongly..} trạng từ chính trong cụm trạng từ
4 dictionary {yes,no} cụm trạng từ có thuộc từđiển không?
5 ends-with-ly {yes,no} cụm trạng từ có kết thúc với đuôi –ly không?
20
7 POS-tag-aft POStags nhãn của từ loại sau cụm trạng từ
8 verb {assigned,go...} động từ chính mà cụm trạng từ bổ nghĩa
9 distance ℵ số từ nằm giữa cụm trạng từ và động từ
Xét đặc trưng thứ 4, bộ từđiển trạng từ do Girju và cộng sự xây dựng năm 2003
[3] dựa trên WordNet và TreeBank, gồm những trạng từ mà chứa mẫu “in a … manner” trong định nghĩa của chúng. Kết quả thu được 2183 trạng từ. Ví dụ: từ điển chứa “strongly” với định nghĩa là “with strength or in a strong manner”.
Ví dụ: We [work [damn hard]ADVP at what we do for damn little pay]VP and […] thì tập đặc trưng là {parent-node:VP; num-leaves:2; adverb:hard; dictionary:no; ends-with-ly:no; POS-tag-bef:RB; POS-tag-aft:IN; verb:work; distance:1} và đây là một ví dụ dương.
Một sốđặc trưng với cụm giới từ trong tiếng Anh [2]:
Bảng 5. Các đặc trưng của cụm giới từ
STT Đặc trưng Giá trị Giải thích
1 parent-node {S,VP} nốt cha thuộc phân cấp trên trong cây cú pháp của cụm giới từ
2 next-node {NP,SBAR...} nốt ngang hàng ở phía bên phải của cụm giới từ
3 num-pp-bef ℵ số cụm giới từ ngang hàng trước cụm giới từ đang xét
4 num-pp-aft ℵ số cụm giới từ ngang hàng sau cụm giới từ đang xét
5 first-word {with,after…} từđầu tiên trong cụm giới từ
6 first-POS- tag
POStags nhãn từ loại đầu tiên trong cụm giới từ
7 first-prep {by,on…} giới từđầu tiên trong cụm giới từ
21
9 POS-tag-aft POStags nhãn từ loại sau first-word 10 word-aft {one,their…} từ sau first-word
11 has-rb {yes,no} cụm giới từ có chứa trạng từ không? 12 has-quotes {yes,no} cụm giới từ có chứa dấu ngoặc kép không? 13 head-np-
lemma
{amount,year...} danh từ chính trong cụm giới từ
14 head-is-last {yes,no} danh từ chính trong cụm giới từ có phải là từ
cuối cùng của câu không? 15 head-has-
cap
{yes,no} cụm giới từ có từ viết hoa không?
16 verb {approved,fly...} động từ mà cụm giới từ bổ ngữ
17 verb-lemma {approve,be...} động từ nguyên thể mà cụm giới từ bổ ngữ
18 verb-pas {yes,no} động từ có ở dạng bịđộng không?
Xét đặc trưng thứ 3 và 4, đếm số các cụm giới từ ngang hàng trước và sau cụm giới từ đang xét. Bởi vì cụm giới từ thường được sắp xếp theo thứ tự quan hệ phương thức, quan hệđịa điểm, quan hệ thời gian [12].
Xét đặc trưng thứ 12, cụm giới từ có dấu ngoặc kép có nhiều khả năng biểu diễn quan hệ phương thức hơn, phân đoạn text giữa các dấu ngoặc kép để trích chọn
được cụm từ chỉ quan hệ phương thức. Ví dụ: use in “very modest amounts” (sử dụng với số lượng rất vừa phải).
Xét đặc trưng thứ 13, giúp kiểm tra ràng buộc DOMAIN và RANGE. Chỉ có những danh từ nào là đối tượng trừu tượng không chứa thời gian hoặc là trạng thái mới biểu diễn quan hệ phương thức. Các ví dụđúng cho quan hệ phương thức: haul in the guests’ [honor], lift in two [stages].
Xét đặc trưng thứ 18, xét một động từ có ở dạng bị động không? Trong nhiều trường hợp, cụm giới từ bắt đầu bằng “by” – nó có nhiều khả năng biểu diễn quan hệ
tác nhân (AGENT) hơn là biểu diễn quan hệ phương thức.
Ví dụ: “When the fruit is ripe, it [[fall]y from the tree [by itself]PP”, he says.
22
Four of the planes [were purchases]y [by International Lease]PP from Singapore Airline in a transaction [...]
(Bốn chiếc máy bay đã được mua bởi International Lease từ Singapore Airline trong một phiên giao dịch.)
=> Câu đầu thể hiện quan hệ phương thức, nhưng câu thứ 2 biểu diễn quan hệ
tác nhân.
Ví dụ: Karipharma is a New Jersey-based pharmaceuticals concern that [sell products [under the Purepac label] PP] VP thì tập đặc trưng là {parent-node:VP; next- node:-; num-pp-bef:0; num-pp-aft:0; first-word:under; first-POS-tag:IN; first- prep:under; POS-tag-bef:NNS; POS-tag-aft:DT; word-aft:the; has-rb:no; has- quotes:no; head-np-lemma:label; head-is-last:yes; head-has-cap:yes; verb:sells; verb- lemma:sell; verb-pas:no} và đây là một ví dụ dương.
2.2.3 Quan hệ phương thức trong tiếng Việt
Cụm trạng từ/cụm giới từ là các mẫu cơ bản biểu diễn quan hệ phương thức [2]. Dưới đây là một sốđặc điểm của những cụm từ này trong tiếng Việt:
Cụm trạng từ (hay còn gọi là phó từ) là những từ dùng để bổ nghĩa cho động từ, tính từ, một trạng từ khác hay cho cả câu. Trạng từ có thể được phân làm nhiều loại tùy vào vị trí và ý nghĩa của nó trong câu [13]:
1. Trạng từ chỉ cách thức: diễn tả một hành động như thế nào (chẳng hạn như: nhanh, chậm, lười biếng…). Ví dụ: Anh ta chạy rất nhanh.
2. Trạng từ chỉ thời gian: (chẳng hạn như: sáng, trưa, chiều, tối, ngày mai…). Ví dụ:
Ngày mai, anh ta đi chơi.
3. Trạng từ chỉ tần suất: diễn tả mức độ của một hành động (chẳng hạn như: thường thường, thường xuyên, có khi, ít khi…). Ví dụ: Cô ta thường xuyên về thăm mẹ. 4. Trạng từ chỉ nơi chốn: diễn tả hành động hiện đang xảy ra ởđâu (chẳng hạn như:
ởđây, ở kia, ở khắp mọi nơi, chỗ khác…). Ví dụ: Tôi đang đứng ởđây.
5. Trạng từ chỉ mức độ: diễn tả mức độ của một tính chất hoặc một đặc tính (chẳng hạn như: giỏi, kém, dở…). Ví dụ: Cô ta bơi giỏi.
6. Trạng từ chỉ số lượng: diễn tả số lượng (một, hai lần…). Ví dụ: Nhà vô địch đã chiến thắng hai lần.
23
7. Trạng từ nghi vấn: là những trạng từ thường đứng ởđầu câu hỏi (chẳng hạn như: khi nào, như thế nào, ởđâu, tại sao…). Ví dụ: Tại sao anh lại đến đây?
8. Trạng từ liên hệ: là những trạng từ giúp liên kết hai chủ đề hoặc hai câu lại với nhau. Chúng còn có thể là từ diễn tả: lý do, thời gian, nơi chốn. Ví dụ: Căn phòng này là nơi tôi sinh ra.
Do giới hạn về thời gian, nên chúng tôi chỉ tập trung vào trạng từ chỉ cách thức và
trạng từ chỉ mức độ.
Cụm giới từ biểu diễn quan hệ phương thức phải thỏa mãn: danh từ chính trong cụm giới từ phải là từ chỉđối tượng trừu tượng không chứa thời gian (ntao) (như giới thiệu trong mục 1.3).
24
CHƯƠNG 3. MÔ HÌNH GIẢI QUYẾT BÀI TOÁN
TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC TỪ VĂN
BẢN TIẾNG VIỆT
Qua quá trình khảo sát phương pháp trích chọn quan hệ phương thức của tác giả
Eduardo Blanco và Dan Moldovan (2010) [2], Girju và cộng sự (2003) [3], và dựa trên những điều kiện thực tế về tài nguyên ngôn ngữ học, các kĩ thuật học máy xử lý ngôn ngữ tự nhiên cũng như các đặc trưng riêng của ngôn ngữ tiếng Việt. Chúng tôi xin đề
xuất một mô hình để trích chọn quan hệ phương thức
Đầu vào: tập các câu trong văn bản dạng nguyên bản
Đầu ra: cụm trạng từ/cụm giới từ chỉ quan hệ phương thức
Ví dụ:
Đầu vào:
Ban hội thNm nói nhiều hơn nữa trong bài phát biểu cuối nhiệm kỳ rằng Ban Chấp hành thành phố có vị trí phụ trách tổng thể trong cuộc bầu cử, "xứng đáng với lời khen ngợi và cảm ơn của thành phố Atlanta" cho cách thức mà cuộc bầu cửđược tiến hành.
Ban hội thNm thảo luận về một số chủđề khác, trong đó có việc Atlanta và Fulton County mua bán các phòng ban với nhau nhằm "vận hành tốt và thực hiện theo những điều lệđược chấp nhận mang lại lợi ích tốt nhất cho cả hai chính phủ".
Đầu ra:
riêng_ra/ADVP
về/E cuộc_khủng_hoảng/N-ntao qua/E chương_trình/N-ntao
25
Hình 5. Mô hình trích chọn quan hệ phương thức từ văn bản tiếng Việt
Dữ liệu huấn luyện Tiền xử lý văn bản Trích chọn đặc trưng Dữ liệu kiểm tra Tiền xử lý văn bản Trích chọn đặc trưng Từđiển ngữ nghĩa Học SVM Phân lớp SVM Cụm trạng từ/ cụm giới từ chỉ quan hệ phương thức Quá trình học Quá trình phân lớp Phân lớp SVM Extractor
26 - Bước 1: Chu;n bị dữ liệu
o Dữ liệu khoảng 300 câu chứa/không chứa quan hệ phương thức được dịch từ bộ corpus Brown [14].
o Chia dữ liệu theo tỷ lệ 3:1, nghĩa là khoảng 225 câu trong tập dữ liệu huấn luyện và khoảng 75 câu trong tập dữ liệu kiểm tra.
- Bước 2:Tiền xử lý văn bản
o Tách từ, gán nhãn từ loại sử dụng công cụ JVnTextPro [15].
Bảng 6. Một số nhãn từ loại trong JVnTextPro Nhãn Ý nghĩa
N Noun (danh từ)
Np Personal Noun (danh từ riêng)
Nc Classification Noun (danh từ chỉ loại)
Nu Unit Noun (danh từđơn vị)
V Verb (động từ) A Adjective (tính từ) P Pronoun (đại từ) L Attribute (định từ) M Numeral (số từ) R Adjunct (phụ từ) E Preposition (giới từ) C Conjunction (liên từ) I Interjection (thán từ)
27
B Words from foreign countries (từ mượn tiếng nước ngoài như Internet…)
Ny Abbreviation (từ viết tắt)
X Un-known (các từ không phân loại được)