Câu là đơn vị ùng từ, h y đ ng hơn là ùng ngữ mà cấu tạo nên trong quá trình tư uy, thông áo; n c ngh hoàn ch nh, c cấu tạo ngữ pháp và c tính chất độc lập [3].
X t về cấu tr c câu, tiếng Việt c h i loại câu là câu ơn và câu ghép.
d.1. Câu đơn
Câu đơn là loại câu cơ sở củ tiếng Việt, o gồm một n ng cốt đơn h y một kết cấu chủ vị. Về mặt ngữ ngh , câu đơn m ng ngh tự thân, c n câu gh p m ng ngh kết hợp. Câu đơn c thể là câu kh ng định, câu phủ định, câu nghi vấn, câu tường thuật, c u c u khiến, câu iểu cảm. Ví ụ:
- Cái xe này tốt.
- Tôi chư làm xong việc này. - Anh đi làm chư
- N đ ng đi đến trường. - Con đi ngủ đi
- Con m o mới đ p làm s o
N ng cốt đơn củ một câu đơn là một kết cấu chủ vị. Ngoài r , câu đơn c n c các thành ph n ngoài n ng cốt [3]:
- Thành ph n th n gọi. Ví ụ bạn ơi, chúng ta i n o".
- Thành ph n chuyển tiếp. Ví ụ nh Trường, trái lại, hông l gì cả".
- Thành ph n ch thích. Ví ụ N , em tôi, r t thông inh". - Thành ph n tình huống. Ví ụ Trong máy tính, dữ liệu
- Thành ph n khởi ý. Ví ụ Thu c, anh hông hút".
Để iểu iễn một câu đơn, người t thường ùng mô hình suy iễn câu đơn như s u: Px - Cx - Vx - Bx. Với P: thành ph n phụ C: chủ ngữ V: vị ngữ B: B ngữ, định ngữ. x: thành ph n c thể kh i triển tiếp.
Cách iểu iễn này r ràng rất thuận tiện trong việc xây ựng ộ luật c pháp và tiến hành phân tích c pháp cho một câu đ u vào.
d. . Câu gh p
Về mặt ngữ pháp, câu gh p o gồm ộ phận chủ yếu là một n ng cốt gh p, được tạo nên ởi ít nhất h i vế và mụ i vờ thường o gồm một n ng cốt đơn. Ví ụ:
Mây t n, mư tạnh.
Tuy r ng câu đơn ch c một n ng cốt đơn nhưng không phải o giờ câu đơn c ng ng n hơn câu gh p, c những c u r t đơn giản như c u trờn c ng là một câu gh p. Người t c thể chi câu gh p thành h i loại: câu gh p song song và câu gh p qu lại [3].
d.2.1. Câu ghép song song
Là loại câu gh p c thể c h i vế h y nhiều hơn, tuy nhiên sự liên kết giữ các vế là l ng l o, c thể tách thành các câu đơn mà vẫn ảo toàn ngh .
Trong một số trường hợp các vế c qu n hệ, sử ụng các kết từ, tuy nhiên ý ngh độc lập củ các vờ v n tương đối r ràng. Ví ụ:
Khán giả h reo, cờ phất rực trời, cuộc đấu iễn r quyết liệt. N v y tụi và tụi tiờ n lại phí n .
d.2.2. Câu ghép qua lại
Là loại câu c h i vế và vế này là điều kiện tồn tại củ vế ki . C cả h i vế thì câu mới c ý ngh trọn v n. Nối giữ h i vế là các liên từ, thông thường người t ùng cả cặp liên từ. T c thể iểu iễn câu gh p là c u c ạng như s u:
xN1 + yN2
Một trong các liên từ c thể được loại . T c một số ví ụ như s u: - ( i) vì N1 (cho) nên/ N2. - Để N1 (cho) nên/ N2. - N u N1 thì N2. - hông những N1 c n N2 - ... Tôi đi th n chết
V phở ngon nên cử hành củ n mới đông khách thế.
d.2.3. C c th nh phần câu.
- Vị ngữ: Thành ph n chính, sung, giải thích ý ngh cho thành ph n chủ ngữ.
- Trạng ngữ: Thành ph n th yếu, sung ý ngh cho câu, ch nơi chốn, thời gi n, không gi n
- B ngữ: Thành ph n phụ thuộc, sung ý ngh cho động từ làm vị ngữ.
- Định ngữ: Thành ph n phụ thuộc, sung ý ngh cho vị ngữ.
e. Các đ c điểm chính tả v văn bản tiếng Việt
Hiện n y, chính tả tiếng Việt chư thống nhất, tuy đã c những quy t c chuẩn mực nhất định. Việc nghiên c u các đặc điểm chính tả tiếng Việt c ý ngh đặc iệt qu n trọng trong kh u tiờ n xử lý ữ liệu, tạo nguồn ữ liệu đ u vào cho những ph s u như phân tích c pháp h y đánh trọng số cho các từ terms , lập ch mục.
Một số vấn đề về chính tả tiếng Việt mà t c n qu n tâm như s u:
- C c chữ ng â : Các chữ đồng âm như “M ”/ “Mỹ”, “k ”/ “kỹ”... thường ị sử ụng lẫn nh u.
- Từ a phương: Trong v n ản người t vẫn thường sử ụng một số từ đị phương th y cho các từ ph thông. Ví dụ “cây kiểng” thay cho “cây cảnh”.
- tr d u: Theo quy định đánh ấu tiếng Việt, ấu được đặt trên nguyên âm c ưu tiên c o nhất. Tuy nhiên khi viết v n ản, o m i người sử ụng các ộ g tiếng Việt khác nh u nờn nhiờ u khi ấu được đặt không theo chuẩn. Ví ụ h i chữ: “h ” hay “hoả”.
- C ch vi t hoa: Theo quy định, đ u c u và đ u tên riêng phải viết ho . Tuy nhiên vẫn tồn tại một số cách viết như s u: “T ng công ty Dệt may Việt n m”.
- hiên â ti ng nư c ngo i: Các cách viết s u vẫn được chấp nhận mà không c quy chuẩn trong v n ản tiếng Việt: “Singapore”/ “Xinh-ga-po”...
- Từ gạch nối: Do cách viết ấu gạch nối tuỳ tiờ n nờn không thể phân iệt giữ nối tên riêng h y ch thích.
Những vấn đề vừ nêu trên thực sự gây r nhiễu trong ữ liệu đ u vào, đ i h i phải c một hệ thống tiền xử lý tốt, đảm ảo cho việc phân tích c pháp được thực hiện c hiệu quả.
2. Các giải pháp đánh giá hiệu quả đề ra giải pháp cho phân tích văn bản tiếng Việt
C rất nhiều ài toán phân loại v n ản. Tuy nhiên, ở đây em ch xin nh c tới h i ài toán đại iện, và c ng là h i ài toán đ ng được qu n tâm nhiều nhất. Đ là ài toán phân loại v n ản tiếng Việt và thu thập thông tin từ v n ản tiếng Việt.
. B i toán phân loại văn bản tiếng Việt
C n xây ựng một hệ thống c thể phân loại được tài liệu tiếng Việt. H y n i khác đi, khi đư r một tài liệu tiếng Việt, hệ thống c n ch r r ng đ là loại v n ản thuộc chủ đề nào v n hoá, kinh tế, chính trị, thể th o,... .
Ở trên ch ng t đã trình ày h i phương pháp phân loại khác nh u, đ là phương pháp sử ụng từ điển phân cấp chủ đề và phương pháp cây quyết định.
Đối với giải thuật sử ụng từ điển phân cấp chủ đề, c thể hiểu đây là một phương pháp chuẩn. Quá trình thực hiện khá ễ àng và mọi kết quả đã được lường trước. Tuy nhiên, đây là một phương pháp thu được hiệu quả không c o. Lý o là phương pháp này không đề cập đến vấn đề ngữ ngh củ v n ản.
Ở phương pháp th h i, ch ng t đã g n ài toán vào một ạng trí tuệ nhân tạo. So với phương pháp trước thì phương pháp này cho kết quả tốt hơn o tính mềm o, tính tự học củ giải thuật. Tuy nhiên, kết quả đạt được vẫn c n rất khiêm tốn.
Do một số đặc trưng, như đ nờu ở trên, củ v n ản tiếng Việt, việc phân tích v n ản sẽ rất ph c tạp. Việc áp ụng h i phương pháp đ nờu ở trên ch thu được các kết quả tương đối hạn chế. Để giải giải quyết ài toán phân loại v n ản tiếng Việt một cách triệt để phương pháp phân tích c pháp được ưu tiên lên hàng đ u.
Trong đề tài này củ em chư đề cập được đến phương pháp này. N thuộc vào các phương pháp ử lý ngôn ng tự nhiên. Do thời gi n c hạn hướng tiếp cận n đ u không đ ng, nên em vẫn để ng phương pháp này. Tuy nhiên, hướng mục tiêu củ em trong kì làm luận v n tốt nghiệp tới sẽ tập trung giải chuyết ài toán này. Đ là: “Phõn loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.”
b. B i toán thu thập thông tin từ văn bản tiếng Việt
Ở trên ch ng t đ chỡnh ày phương pháp cho ài toán thu thập thông tin. Đ là các phương pháp: mô hình Boole n, mô hình không gi n vec-tơ, và mạng nơ-ron.
Đối với mô hình Boole n, đây là phương pháp truy vấn thông tin ự theo các iểu th c logic. ưu điểm lớn nhất củ phương pháp này là tính đơn giản, ễ cài đặt và tốc độ nh nh. Tuy nhiên, hạn trế lớn nhất củ n không gi n lưu trữ và giá thành cho việc thêm ớt v n ản từ kho lưu trữ tài liệu.
Phương pháp th h i đã cài tiến được một số hạn trế củ phương pháp th c nhất. Tuy nhiên, nhược điểm lớn nhất củ phương pháp này là tốc độ. Tuy nhiên, đây vẫn là một phương án c tính khả thi c o. Phương pháp này nên được áp ụng cho thu thập thông tin tiếng Việt.
Phương pháp th ự trên giải thuật trí tuệ nhân tạo. ưu điểm củ phương pháp này là khả n ng huấn luyện được củ hệ thống. Khi các mẫu huấn luyện và phương pháp huấn luyện tốt, hệ thống sẽ cho r các kết quả rất tốt. Nhưng nhược điểm củ phương pháp này là giải thuật ph c tạp, kh cài đặt.
IV. Xây dựng th chương tr nh tách thuật ng tiếng Việt theo phương pháp cổ điển
1. Chương tr nh và bài toán đư c giải quyết
Để phục vụ cho ài toán phân tích v n ản tiếng Việt, em đã xây ựng thử nghiệm một chương trình Tách thuật ng tiếng Việt. Chương trình được viết ng ngôn ngữ j v . Bài toán đặt r được mô tả như s u:
Xây dựng một công cụ tỏch cỏc thuật ng trong một văn bản tiếng Việt theo một từ điển thuật ng có sẵn
Đ u vào củ ài toán là một tệp tin ch một tài liệu tiếng Việt được định ạng Text ưới ạng phông .VN ví ụ phông .VnTime , một tệp tin ch thông tin về các thuật ngữ c ng được đinh ạng Text ưới ạng phông .VN.
Đ u r củ ài toán là một tệp tin định ạng Text ởi phông .VN, trong đ chư các thông tin về các thuật ngữ tìm được theo khuân ạng: “Tờn thuật ngữ ” số từ tìm được .
Chương trình được xây ựng ng ngôn ngữ j v và được đặt với tên
tachthuatngu .
2. Kết quả chạy chương tr nh
Khi chạy chương trình với tệp tin Test.txt tệp tin mẫu c s n với nội ung là một áo cáo nghiên c u về lý thuyết tập thô, kết quả hiện r với nội ung như s u:
Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien)
thông tin 40 hàm 34 kh i thác 33 truy vấn 26 thực hiện 22 ữ liệu 22 tập thô 14 hệ thống 10) xử lý 10 không gi n ung s i 8 phân nh m 5 từ khoá 5 lưu trữ 5 nghiên c u 4 ngữ ngh 3 kh i phá ữ liệu 3 khái niệm 2 ch tiêu 2
S u h i ng mở đ u, trên m i ng s u đ ghi tờn thuật ngữ tì ược (số lần xu t hiện trong t i liệu). Ví ụ: với từ tập th t thấy xuất hiện 14 l n trong tài liệu.
TÀI LIỆU THAM KHẢO
[1] “Text C tegoriz tion Using Hier rchic l Topic Diction ry” - Alexander Gelbu h Grigori Sidorov Adolfo Guzmỏn-Arenas
[2] “M chine Le rning in Autom te Text C tegoriz tion” - Fabrizio Sebastiani
[3] “Ngữ pháp tiờ ng Viờ t” – Trung tâm Kho học xã hội và Nhân v n quốc gi – Nhà xuất ản Kho học và xã hội – Hà nội 2000
PHỤ LỤC
Các th ng tin về báo cáo
Trên đ mềm gồm c :
- Báo cáo 2 ản softcopy n m trong các tệp tin
“A:\Docs\BaocaoTTTN. oc”, và “A:\Docs\BaocaoTTTN.p f” - Bản ảo vệ ng Microsoft PowerPoint “A:\Docs\B ove.ppt” - Chương trình emo ch trong thư mục “A:\Project” o gồm
mã nguồn viết ng j v ch trong thư mục “A:\Project\src” và mã ịch ch trong thư mục “A:\Project\t chthu tngu”.
Cách chạy chương tr nh demo
Yêu c u:
- Trên máy tính chư ộ ịch j v .
- Đặt đường ẫn đến thư mục ch tệp tin “j v .exe” trong PATH. - S o thư mục “A:\Project” vào một nơi khác trên đ c ng
Cách chạy:
- Vào chế độ Command Prompt
- Chuyển đến thư mục “Project” đã s o trên đ c ng
- Ghừ vào ng lệnh: “j v t chthu tngu.M in ten_file_tai_lieu” - S u khi chương trình kết th c, kết quả đã được ghi r tệp tin như
chương trình thông o. Bạn c thể mở tệp tin này nên mở ng Notep để xem kết quả
Ch ý: Tệp tin đ u vào phải c ạng text, ch các v n ản đặt ở phông .VN.
TỪ ĐIỂN THUẬT NGỮ
Data Mining Khai phá v n ản ữ liệu
Text Mining Kh i phá ữ liệu v n ản
Text Categorization Phân loại v n ản
Text Clustering Lập nh m v n ản
Information Retrieval (IR) Thu thập thông tin
Neural Network Mạng Nơ-ron
Decision tree Cây quyết định
AI-based method Phương pháp ự trí tuệ nhân tạo
similarity Độ tương đồng
Vector space model (VSM) Mô hình không gi n vec-tơ Text summarization T ng hợp v n ản