Cụm trạng từ/cụm giới từ là các mẫu cơ bản biểu diễn quan hệ phương thức [2]. Dưới đây là một sốđặc điểm của những cụm từ này trong tiếng Việt:
Cụm trạng từ (hay còn gọi là phó từ) là những từ dùng để bổ nghĩa cho động từ, tính từ, một trạng từ khác hay cho cả câu. Trạng từ có thể được phân làm nhiều loại tùy vào vị trí và ý nghĩa của nó trong câu [13]:
1. Trạng từ chỉ cách thức: diễn tả một hành động như thế nào (chẳng hạn như: nhanh, chậm, lười biếng…). Ví dụ: Anh ta chạy rất nhanh.
2. Trạng từ chỉ thời gian: (chẳng hạn như: sáng, trưa, chiều, tối, ngày mai…). Ví dụ:
Ngày mai, anh ta đi chơi.
3. Trạng từ chỉ tần suất: diễn tả mức độ của một hành động (chẳng hạn như: thường thường, thường xuyên, có khi, ít khi…). Ví dụ: Cô ta thường xuyên về thăm mẹ. 4. Trạng từ chỉ nơi chốn: diễn tả hành động hiện đang xảy ra ởđâu (chẳng hạn như:
ởđây, ở kia, ở khắp mọi nơi, chỗ khác…). Ví dụ: Tôi đang đứng ởđây.
5. Trạng từ chỉ mức độ: diễn tả mức độ của một tính chất hoặc một đặc tính (chẳng hạn như: giỏi, kém, dở…). Ví dụ: Cô ta bơi giỏi.
6. Trạng từ chỉ số lượng: diễn tả số lượng (một, hai lần…). Ví dụ: Nhà vô địch đã chiến thắng hai lần.
23
7. Trạng từ nghi vấn: là những trạng từ thường đứng ởđầu câu hỏi (chẳng hạn như: khi nào, như thế nào, ởđâu, tại sao…). Ví dụ: Tại sao anh lại đến đây?
8. Trạng từ liên hệ: là những trạng từ giúp liên kết hai chủ đề hoặc hai câu lại với nhau. Chúng còn có thể là từ diễn tả: lý do, thời gian, nơi chốn. Ví dụ: Căn phòng này là nơi tôi sinh ra.
Do giới hạn về thời gian, nên chúng tôi chỉ tập trung vào trạng từ chỉ cách thức và
trạng từ chỉ mức độ.
Cụm giới từ biểu diễn quan hệ phương thức phải thỏa mãn: danh từ chính trong cụm giới từ phải là từ chỉđối tượng trừu tượng không chứa thời gian (ntao) (như giới thiệu trong mục 1.3).
24
CHƯƠNG 3. MÔ HÌNH GIẢI QUYẾT BÀI TOÁN
TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC TỪ VĂN
BẢN TIẾNG VIỆT
Qua quá trình khảo sát phương pháp trích chọn quan hệ phương thức của tác giả
Eduardo Blanco và Dan Moldovan (2010) [2], Girju và cộng sự (2003) [3], và dựa trên những điều kiện thực tế về tài nguyên ngôn ngữ học, các kĩ thuật học máy xử lý ngôn ngữ tự nhiên cũng như các đặc trưng riêng của ngôn ngữ tiếng Việt. Chúng tôi xin đề
xuất một mô hình để trích chọn quan hệ phương thức
Đầu vào: tập các câu trong văn bản dạng nguyên bản
Đầu ra: cụm trạng từ/cụm giới từ chỉ quan hệ phương thức
Ví dụ:
Đầu vào:
Ban hội thNm nói nhiều hơn nữa trong bài phát biểu cuối nhiệm kỳ rằng Ban Chấp hành thành phố có vị trí phụ trách tổng thể trong cuộc bầu cử, "xứng đáng với lời khen ngợi và cảm ơn của thành phố Atlanta" cho cách thức mà cuộc bầu cửđược tiến hành.
Ban hội thNm thảo luận về một số chủđề khác, trong đó có việc Atlanta và Fulton County mua bán các phòng ban với nhau nhằm "vận hành tốt và thực hiện theo những điều lệđược chấp nhận mang lại lợi ích tốt nhất cho cả hai chính phủ".
Đầu ra:
riêng_ra/ADVP
về/E cuộc_khủng_hoảng/N-ntao qua/E chương_trình/N-ntao
25
Hình 5. Mô hình trích chọn quan hệ phương thức từ văn bản tiếng Việt
Dữ liệu huấn luyện Tiền xử lý văn bản Trích chọn đặc trưng Dữ liệu kiểm tra Tiền xử lý văn bản Trích chọn đặc trưng Từđiển ngữ nghĩa Học SVM Phân lớp SVM Cụm trạng từ/ cụm giới từ chỉ quan hệ phương thức Quá trình học Quá trình phân lớp Phân lớp SVM Extractor
26 - Bước 1: Chu;n bị dữ liệu
o Dữ liệu khoảng 300 câu chứa/không chứa quan hệ phương thức được dịch từ bộ corpus Brown [14].
o Chia dữ liệu theo tỷ lệ 3:1, nghĩa là khoảng 225 câu trong tập dữ liệu huấn luyện và khoảng 75 câu trong tập dữ liệu kiểm tra.
- Bước 2:Tiền xử lý văn bản
o Tách từ, gán nhãn từ loại sử dụng công cụ JVnTextPro [15].
Bảng 6. Một số nhãn từ loại trong JVnTextPro Nhãn Ý nghĩa
N Noun (danh từ)
Np Personal Noun (danh từ riêng)
Nc Classification Noun (danh từ chỉ loại)
Nu Unit Noun (danh từđơn vị)
V Verb (động từ) A Adjective (tính từ) P Pronoun (đại từ) L Attribute (định từ) M Numeral (số từ) R Adjunct (phụ từ) E Preposition (giới từ) C Conjunction (liên từ) I Interjection (thán từ)
27
B Words from foreign countries (từ mượn tiếng nước ngoài như Internet…)
Ny Abbreviation (từ viết tắt)
X Un-known (các từ không phân loại được)
Mrk Puntuations (các dấu câu)
o Gán nhãn bằng tay sử dụng tri thức từ từ điển tiếng Việt để bổ sung thêm các nhãn: nhãn /ADVP cho các cụm trạng từ bổ nghĩa cho động từ, tính từ, một trạng từ khác hay cho cả câu; nhãn /N-ntao cho cụm danh từ chỉ đối tượng trừu tượng không chứa thời gian.
- Bước 3:Trích chọn đặc trưng
o Xác định một tập các đặc trưng cho cụm trạng từ/cụm giới từ
o Chuyển dữ liệu thô thành các vector đặc trưng làm đầu vào cho bộ phân lớp libSVM [16].
- Bước 4:Học và phân lớp SVM
o Quá trình học: Dựa vào vector đặc trưng của các mẫu dữ liệu huấn luyện, mô hình máy vector hỗ trợ sẽđược xây dựng để phân tách các mẫu học.
o Quá trình phân lớp: Mô hình đã xây dựng sẽđược sử dụng để phân lớp cho các mẫu dữ liệu mới.
28
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
Dựa vào cơ sở lý thuyết và đề xuất mô hình ở chương ba, chúng tôi tiến hành thực nghiệm phân lớp khoảng gần 300 câu vào 2 lớp: một lớp là cụm trạng từ/cụm giới từ biểu diễn quan hệ phương thức, một lớp là các loại từ khác không biểu diễn quan hệ
phương thức. Sau đó, chúng tôi cũng xây dựng một bộ trích chọn để tiến hành trích chọn các cụm trạng từ/cụm giới từ chỉ quan hệ phương thức.