Trong một số nghiên cứu về bài toán gán nhãn từ loại, hàm đa thức dưới đây được sử dụng [12]:
K (x, y) = (x • y
+1)d (3.23)
Với C (trong biểu thức(3.21)) và d (trong biểu thức (3.23)) luôn nhận giá trị không đổi và được xác định trong thực nghiệm. Thơng thường thì C và d lần lượt được cố định là 1 và 2 cho tất cả các thực nghiệm. Một tập các giá trị xi thỏa mãn α >0 được gọi là véc tơ hỗ trợ, phần biểu thức được tính tổng trong biểu thức (3.21) có thể được tính chỉ sử dụng các vector hỗ trợ.
Chúng ta thấy rằng SVM là mặt phẳng quyết định chỉ phụ thuộc vào các vector hỗ trợ, khi các điểm khác bị xóa đi thì thuật tốn vẫn cho kết quả giống như ban đầu. Chính đặc điểm này làm cho SVM khác với các thuật toán khác như KNN, LLSF, Nnet, NB vì tất cả dữ liệu trong tập huấn luyện đều được dùng để tối ưu hóa kết quả.
Một vấn đề được đặt ra là, phương pháp SVM có thể chia dữ liệu làm hai lớp, tuy nhiên đối với bài toán gán nhãn từ loại cho dữ liệu văn bản, số lớp tương ứng với số từ loại mà ta cần xác định luôn lớn hơn hai, vậy liệu phương pháp SVM có phù hợp để giải quyết bài tốn gán nhãn từ loại hay khơng?. Để giải quyết vấn đề này. thường thì dữ liệu với hơn hai lớp sẽ được xử lý bằng phương pháp pair-wise, tức là với dữ liệu chứa N lớp, ta sẽ xây dựng tất cả các cặp của hai lớp khác nhau, tổng số sẽ là N(N-1)/2 cặp. Từng lớp tốt hơn trong một cặp hai lớp sẽ được xác định bằng cách sử dụng bộ phân lớp 2 lớp, cuối cùng, lớp chính xác sẽ được xác định dựa trên cơ sở đánh giá kết quả của N(N-1)/2 lần phân lớp.
3.3.3. Huấn luyện SVM
Huấn luyện SVM thực chất là việc giải bài toán quy hoạch toàn phương SVM [11]. Các phương pháp số giải bài toán quy hoạch này yêu cầu phải lưu trữ một ma
trận có kích thước bằng bình phương của số lượng mẫu huấn luyện. Trong những bài tốn thực tế, điều này là khơng khả thi vì thơng thường kích thước của tập dữ liệu huấn luyện thường rất lớn (có thể lên tới hàng chục nghìn mẫu). Nhiều thuật tốn khác nhau được phát triển để giải quyết vấn đề nêu trên. Những thuật toán này dựa trên việc phân rã tập dữ liệu huấn luyện thành những nhóm dữ liệu. Điều đó có nghĩa là bài tốn quy hoạch tồn phương lớn được phân rã thành các bài tốn quy hoạch tồn phương với kích thước nhỏ hơn. Sau đó, những thuật tốn này kiểm tra các điều kiện KKT (Karush Kuhn Tucker) để xác định phương án tối ưu .
Một trong những phương pháp tiêu biểu là thuật tốn huấn luyện SVM tối ưu hóa tuần tự cực tiểu (Sequential Minimal Optimization - SMO), dựa vào lý thuyết Lagrange để giải bài tốn quy hoạch tồn phương. Thuật toán này sử dụng tập dữ liệu huấn luyện (còn gọi là tập làm việc) có kích thước nhỏ nhất bao gồm hai hệ số Lagrange.
Bài tốn quy hoạch tồn phương nhỏ nhất phải gồm hai hệ số Lagrange vì các hệ số Lagrange phải thỏa mãn ràng buộc đẳng thức (3.22). Phương pháp SMO cũng có một số heuristic cho việc chọn hai hệ số Lagrange để tối ưu hóa ở mỗi bước. Mặc dù có nhiều bài tốn quy hoạch tồn phương con hơn so với các phương pháp khác, mỗi bài toán con này được giải rất nhanh dẫn đến bài tốn quy hoạch tồn phương tổng thể cũng được giải một cách nhanh chóng.
Chương 4. THỰC NGHIỆM ÁP DỤNG BA MƠ HÌNH HỌC MÁY CHO BÀI TỐN GÁN NHÃN TỪ LOẠI
TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ
Mặc dù trên thế giới đã có nhiều phương pháp được đề xuất cho việc giải quyết bài tốn gán nhãn từ loại, nhưng vì tiếng Việt có những đặc trưng riêng phức tạp và tiềm ẩn nhiều nhập nhằng nên một phương pháp cho kết quả cao ở ngôn ngữ khác chưa chắc đã đạt được kết quả tương tự với tiếng Việt. Dựa trên cơ sở lý thuyết đã có ở chương 3, khóa luận tiến hành thực nghiệm áp dụng ba mơ hình học máy MEM, CRF và SVM cho bài toán gán nhãn từ loại tiếng Việt trên cùng môi trường thực nghiệm và tập đặc trưng. Từ kết quả thu được, khóa luận đưa ra một số so sánh về kết quả đạt được cũng như một số nhận xét sơ bộ về ưu nhược điểm của các phương pháp này.
Việt:
4.1. Mơ tả thực nghiệm 4.1.1. Phần cứng
Máy tính cá nhân Celeron R, Chip 3.06 GHz, Ram 1 GB
4.1.2. Phần mềm
Sử dụng các công cụ dưới đây để tiến hành thực nghiệm gán nhãn từ loại tiếng
• Thực nghiệm gán nhãn từ loại tiếng việt sử dụng mô hình MEM bằng hệ thống tích hợp mơ hình tách từ và gán nhãn từ loại tiếng Việt được xây dựng bởi tác giả Trần Thị Oanh, phịng thí nghiệm các hệ tích hợp thơng minh, trường đại học Cơng nghệ, đại học Quốc gia Hà nội, năm 2008 [4].
• Thực nghiệm gán nhãn từ loại tiếng việt sử dụng mơ hình CRF bằng cơng cụ CRF++ xây dựng bởi tác giả người Nhật Taku Kudo [24]. Công cụ được viết bằng C++, bản cập nhật mới nhất ngày 06 tháng 05 năm 2009.
• Thực nghiệm gán nhãn từ loại tiếng việt sử dụng mơ hình SVM dựa trên cơng cụ SVMmulticlass. Đây là một công cụ phát triển từ công cụ SVMlight, được xây dựng bởi tác giả Thorsten Joachims [22] (Department of Computer Science, Cornell University). Bản cập nhật mới nhất là version 2.20 ngày 14 tháng 8 năm 2008.
• Khóa luận đã xây dựng các cơng cụ trợ giúp bằng ngôn ngữ C++ và Delphi để hỗ trợ thực nghiệm, bao gồm:
o Chuẩn hóa dữ liệu theo định dạng phù hợp
o Mã hóa dữ liệu theo yêu cầu của hệ thống gán nhãn o
Áp dụng đặc trưng chuẩn hóa biểu thức chính quy o
Xây dựng từ điển để hỗ trợ trích chọn đặc trưng
o Trích chọn đặc trưng về thơng tin từ vựng và thông tin nhãn từ loại
o Đánh giá độ chính xác của kết quả
4.1.3. Dữ liệu thực nghiệm và tập nhãn từ loại
Để áp dụng thực nghiệm ba phương pháp học máy MEM, CRF và SVM, khóa luận sử dụng hai bộ dữ liệu riêng biệt được gán nhãn với hai tập nhãn khác nhau cho huấn luyện và kiểm thử nhằm tăng tính khách quan cho kết quả đạt được. Hai bộ dữ liệu đều được thu thập từ các báo điện tử có uy tín ở Việt Nam và bao gồm nhiều văn bản thuộc các chủ đề khác nhau như: Cơng nghệ thơng tin, Kinh tế, Chính trị, Xã hội, Pháp luật, Đời sống … Trong nội dung của khóa luận, dữ liệu đã được qua bước tiền xử lý, tức là đã được tách từ, quy chuẩn theo đúng định dạng cần thiết và đã được gán nhãn sẵn để phục vụ cho quá trình học có giám sát cũng như kiểm thử. Các nhãn sẽ được xác định bằng cách viết hoa và đi liền (cách một dấu cách) hoặc phân cách với từ mà nó xác định bằng dấu “/” hay “//”, quy tắc ký hiệu này có thể thay đổi một cách dễ dàng tuy thuộc vào yêu cầu sử dụng dữ liệu.
• Bộ dữ liệu thứ nhất (bộ dữ liệu Viet TreeBank): Đây là sản phẩm của dự án quốc gia VLSP, gồm 142 văn bản, tương ứng với khoảng hơn 10.000 câu và khoảng
230.1 từ. Bộ dữ liệu này được gán nhãn từ loại bằng tập nhãn từ loại VTB (Viet Tree Bank) gồm 16 nhãn từ loại, 1 nhãn cho từ không gán nhãn được và 1 nhãn cho ký hiệu đặc biệt.
Bảng 5. Tập nhãn từ loại Viet Tree Bank cho tiếng Việt
STT Tên nhãn Ý nghĩa của nhãn
1 N Danh từ 2 Np Danh từ riêng 3 Nc Danh từ chỉ loại 4 Nu Danh từ đơn vị 5 V Động từ 6 A Tính từ 7 P Đại từ 8 L Định từ 2 9 M Số từ 10 R Phó từ 11 E Giới từ 3 (kết từ chính phụ) 12 C Liên kết từ (kết từ đẳng lập) 13 I Thán từ 14 T Trợ từ, tình thái từ (tiểu từ) 4
15 B Từ tiếng nước ngoài (hay từ vay mượn)
16 Y Từ viết tắt
17 X Các từ không phân loại được
18++ Ký hiệu Các ký hiệu đặc biệt khác (?, /, #, $ …) Một câu ví dụ ở bộ dữ liệu thứ nhất:
Một/M buổi/N trưa/N đang/R ngồi/V chờ/V khách/N ở/E bến/N Đinh_Bộ_Lĩnh/Np,/, tôi/P thấy/V một/M đồng_nghiệp/N già/A móc/V trong/E bao/N nilơng/N ra/V một/M quyển/Nc giáo_trình/N đại_học/N mơn/N Triết_học/N Mác/Np - /- Lênin/Np./.
• Bộ dữ liệu thứ hai được xây dựng bởi nhóm tác giả Trần Thị Oanh, gồm 780 văn bản, tương ứng với khoảng 8000 câu và khoảng 150.000 từ. Bộ dữ liệu này được
gán nhãn từ loại bằng tập nhãn VnPOS gồm 13 nhãn từ loại, 1 nhãn cho các từ không thể gán nhãn và các nhãn ký hiệu đặc biệt.
Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt
STT Tên nhãn Ý nghĩa của nhãn
1 NN Danh từ thường 2 NC Danh từ chỉ loại 3 NP Danh từ riêng 4 VB Động từ 5 JJ Tính từ 6 PP Đại từ 7 D Định từ và số từ 8 AD Phụ từ 9 IN Giới từ 10 CC Liên từ 11 UH Thán từ 12 RB Trợ từ 13 TN Thành ngữ 14 X Các từ không thể gán nhãn được 15++ Ký hiệu Các ký hiệu đặc biệt khác (#, ^, &, …) Một câu ví dụ ở bộ dữ liệu thứ hai:
Tờ//NC Wall_Street_Journal//NP ghi//VB lời//NC phát_biểu//VB của//IN Tổng_Giám_đốc//NN kiêm//VB Giám_đốc_điều_hành//NN Mazda//NP,//, Hisakazu_Imaki//NP ://: Chúng_tôi//PP sẽ//AD đảm_nhiệm//VB vai_trò//NN phát_triển//VB nền_tảng//NN kiến_trúc//NN cho//IN các//D thế_hệ//NN xe//NN Ford//NP hạng//NC nhỏ//JJ trong//IN tương_lai//NN.//.
Nhìn chung cả hai tập nhãn đều mới được xây dựng ở mức thô, nhưng tạm thời trong các yêu cầu trước mắt thì số lượng nhãn là đủ đáp ứng yêu cầu thực nghiệm để
đối chiếu, so sánh kết quả đạt được khi sử dụng các mơ hình học máy khác nhau cho bài tốn gán nhãn từ loại.
4.2. Mơ tả tập đặc trưng dựa trên mức từ và mức hình vị
Lựa chọn các thuộc tính từ tập dữ liệu huấn luyện là nhiệm vụ quan trọng nhất, giữ vai trò quyết định chất lượng của một hệ thống gán nhãn từ loại. Các thuộc tính được lựa chọn càng tinh tế thì độ chính xác của hệ thống càng tăng. Tập các đặc trưng sử dụng trong thực nghiệm của khoá luận này được xây dựng như sau:
• Tiếp thu một số đặc trưng tiêu biểu và thông dụng thường được sử dụng trong nhiều ngôn ngữ trên thế giới (như tiếng Anh [15], tiếng Thái [12], tiếng Trung Quốc [20], …)
• Bố sung thêm một số đặc trưng có khả năng là hữu ích, phù hợp với đặc điểm riêng của tiếng Việt đã được đề xuất trong một vài nghiên cứu trước đây ([4]). Với cách xây dựng như trên, tập đặc trưng được sử dụng trong thực nghiệm của khoá luân bao gồm các đặc trưng sau:
4.2.1. Các đặc trưng dựa vào thông tin từ vựng và thông tin từ loại
Các thuộc tính tại vị trí i trong chuỗi dữ liệu quan sát gồm hai phần, một là thơng tin ngữ cảnh tai vị trí i của chuỗi dữ liệu quan sát, một là phần thông tin về nhãn tương ứng. Cơng việc lựa chọn các thuộc tính thực chất là chọn ra các mẫu vị từ ngữ cảnh
(context predicate template), các mẫu này thể hiện những các thông tin đáng quan tâm
tại một vị trí bất kì trong chuỗi dữ liệu quan sát. Áp dụng các mẫu ngữ cảnh này tại mơt vị trí trong chuỗi dữ liệu quan sát cho ta các thông tin ngữ cảnh (context predicate) tại vị trí đó. Mỗi thơng tin ngữ cảnh tại i khi kết hợp với thông tin nhãn tương ứng tại vị trí đó sẽ cho ta một thuộc tính của chuỗi dữ liệu quan sát tại i. Như vậy một khi đã có các mẫu ngữ cảnh, ta có thể rút ra được hàng nghìn thuộc tính một cách tự động từ tập dữ liệu huấn luyện.
Xét một cửa sổ trượt với kích cỡ bằng 5 trượt dọc theo dữ liệu đang xét như ví dụ trong hình 14. Thơng tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng cho MEM, CRF và SVM được cho trong bảng 7.
V Dứt
t1 t2
N N , N C
tiếng máy_bay , bầu_trời như
w-2 w-1 w0 w1 w2
R V V A
được vút lên cao