Câu tiếng việt

Một phần của tài liệu Text mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản (Trang 56)

Câu là đơn vị ùng từ, h y đ ng hơn là ùng ngữ mà cấu tạo nên trong quá trình tư uy, thông áo; n c ngh hoàn ch nh, c cấu tạo ngữ pháp và c tính chất độc lập [3].

X t về cấu tr c câu, tiếng Việt c h i loại câu là câu ơncâu ghép.

d.1. Câu đơn

Câu đơn là loại câu cơ sở củ tiếng Việt, o gồm một n ng cốt đơn h y một kết cấu chủ vị. Về mặt ngữ ngh , câu đơn m ng ngh tự thân, c n câu gh p m ng ngh kết hợp. Câu đơn c thể là câu kh ng định, câu phủ định, câu nghi vấn, câu tường thuật, c u c u khiến, câu iểu cảm. Ví ụ:

- Cái xe này tốt.

- Tôi chư làm xong việc này. - Anh đi làm chư

- N đ ng đi đến trường. - Con đi ngủ đi

- Con m o mới đ p làm s o

N ng cốt đơn củ một câu đơn là một kết cấu chủ vị. Ngoài r , câu đơn c n c các thành ph n ngoài n ng cốt [3]:

- Thành ph n th n gọi. Ví ụ bạn ơi, chúng ta i n o".

- Thành ph n chuyển tiếp. Ví ụ nh Trường, trái lại, hông l gì cả".

- Thành ph n ch thích. Ví ụ N , em tôi, r t thông inh". - Thành ph n tình huống. Ví ụ Trong máy tính, dữ liệu

- Thành ph n khởi ý. Ví ụ Thu c, anh hông hút".

Để iểu iễn một câu đơn, người t thường ùng mô hình suy iễn câu đơn như s u: Px - Cx - Vx - Bx. Với P: thành ph n phụ C: chủ ngữ V: vị ngữ B: B ngữ, định ngữ. x: thành ph n c thể kh i triển tiếp.

Cách iểu iễn này r ràng rất thuận tiện trong việc xây ựng ộ luật c pháp và tiến hành phân tích c pháp cho một câu đ u vào.

d. . Câu gh p

Về mặt ngữ pháp, câu gh p o gồm ộ phận chủ yếu là một n ng cốt gh p, được tạo nên ởi ít nhất h i vế và mụ i vờ thường o gồm một n ng cốt đơn. Ví ụ:

Mây t n, mư tạnh.

Tuy r ng câu đơn ch c một n ng cốt đơn nhưng không phải o giờ câu đơn c ng ng n hơn câu gh p, c những c u r t đơn giản như c u trờn c ng là một câu gh p. Người t c thể chi câu gh p thành h i loại: câu gh p song song và câu gh p qu lại [3].

d.2.1. Câu ghép song song

Là loại câu gh p c thể c h i vế h y nhiều hơn, tuy nhiên sự liên kết giữ các vế là l ng l o, c thể tách thành các câu đơn mà vẫn ảo toàn ngh .

Trong một số trường hợp các vế c qu n hệ, sử ụng các kết từ, tuy nhiên ý ngh độc lập củ các vờ v n tương đối r ràng. Ví ụ:

Khán giả h reo, cờ phất rực trời, cuộc đấu iễn r quyết liệt. N v y tụi và tụi tiờ n lại phí n .

d.2.2. Câu ghép qua lại

Là loại câu c h i vế và vế này là điều kiện tồn tại củ vế ki . C cả h i vế thì câu mới c ý ngh trọn v n. Nối giữ h i vế là các liên từ, thông thường người t ùng cả cặp liên từ. T c thể iểu iễn câu gh p là c u c ạng như s u:

xN1 + yN2

Một trong các liên từ c thể được loại . T c một số ví ụ như s u: - ( i) N1 (cho) nên/ N2. - Để N1 (cho) nên/ N2. - N u N1 thì N2. - hông những N1 c n N2 - ... Tôi đi th n chết

V phở ngon nên cử hành củ n mới đông khách thế.

d.2.3. C c th nh phần câu.

- Vị ngữ: Thành ph n chính, sung, giải thích ý ngh cho thành ph n chủ ngữ.

- Trạng ngữ: Thành ph n th yếu, sung ý ngh cho câu, ch nơi chốn, thời gi n, không gi n

- B ngữ: Thành ph n phụ thuộc, sung ý ngh cho động từ làm vị ngữ.

- Định ngữ: Thành ph n phụ thuộc, sung ý ngh cho vị ngữ.

e. Các đ c điểm chính tả v văn bản tiếng Việt

Hiện n y, chính tả tiếng Việt chư thống nhất, tuy đã c những quy t c chuẩn mực nhất định. Việc nghiên c u các đặc điểm chính tả tiếng Việt c ý ngh đặc iệt qu n trọng trong kh u tiờ n xử lý ữ liệu, tạo nguồn ữ liệu đ u vào cho những ph s u như phân tích c pháp h y đánh trọng số cho các từ terms , lập ch mục.

Một số vấn đề về chính tả tiếng Việt mà t c n qu n tâm như s u:

- C c chữ ng â : Các chữ đồng âm như “M ”/ “Mỹ”, “k ”/ “kỹ”... thường ị sử ụng lẫn nh u.

- Từ a phương: Trong v n ản người t vẫn thường sử ụng một số từ đị phương th y cho các từ ph thông. Ví dụ “cây kiểng” thay cho “cây cảnh”.

- tr d u: Theo quy định đánh ấu tiếng Việt, ấu được đặt trên nguyên âm c ưu tiên c o nhất. Tuy nhiên khi viết v n ản, o m i người sử ụng các ộ g tiếng Việt khác nh u nờn nhiờ u khi ấu được đặt không theo chuẩn. Ví ụ h i chữ: “h ” hay “hoả”.

- C ch vi t hoa: Theo quy định, đ u c u và đ u tên riêng phải viết ho . Tuy nhiên vẫn tồn tại một số cách viết như s u: “T ng công ty Dệt may Việt n m”.

- hiên â ti ng nư c ngo i: Các cách viết s u vẫn được chấp nhận mà không c quy chuẩn trong v n ản tiếng Việt: “Singapore”/ “Xinh-ga-po”...

- Từ gạch nối: Do cách viết ấu gạch nối tuỳ tiờ n nờn không thể phân iệt giữ nối tên riêng h y ch thích.

Những vấn đề vừ nêu trên thực sự gây r nhiễu trong ữ liệu đ u vào, đ i h i phải c một hệ thống tiền xử lý tốt, đảm ảo cho việc phân tích c pháp được thực hiện c hiệu quả.

2. Các giải pháp đánh giá hiệu quả đề ra giải pháp cho phân tích văn bản tiếng Việt

C rất nhiều ài toán phân loại v n ản. Tuy nhiên, ở đây em ch xin nh c tới h i ài toán đại iện, và c ng là h i ài toán đ ng được qu n tâm nhiều nhất. Đ là ài toán phân loại v n ản tiếng Việt và thu thập thông tin từ v n ản tiếng Việt.

. B i toán phân loại văn bản tiếng Việt

C n xây ựng một hệ thống c thể phân loại được tài liệu tiếng Việt. H y n i khác đi, khi đư r một tài liệu tiếng Việt, hệ thống c n ch r r ng đ là loại v n ản thuộc chủ đề nào v n hoá, kinh tế, chính trị, thể th o,... .

Ở trên ch ng t đã trình ày h i phương pháp phân loại khác nh u, đ là phương pháp sử ụng từ điển phân cấp chủ đề và phương pháp cây quyết định.

Đối với giải thuật sử ụng từ điển phân cấp chủ đề, c thể hiểu đây là một phương pháp chuẩn. Quá trình thực hiện khá ễ àng và mọi kết quả đã được lường trước. Tuy nhiên, đây là một phương pháp thu được hiệu quả không c o. Lý o là phương pháp này không đề cập đến vấn đề ngữ ngh củ v n ản.

Ở phương pháp th h i, ch ng t đã g n ài toán vào một ạng trí tuệ nhân tạo. So với phương pháp trước thì phương pháp này cho kết quả tốt hơn o tính mềm o, tính tự học củ giải thuật. Tuy nhiên, kết quả đạt được vẫn c n rất khiêm tốn.

Do một số đặc trưng, như đ nờu ở trên, củ v n ản tiếng Việt, việc phân tích v n ản sẽ rất ph c tạp. Việc áp ụng h i phương pháp đ nờu ở trên ch thu được các kết quả tương đối hạn chế. Để giải giải quyết ài toán phân loại v n ản tiếng Việt một cách triệt để phương pháp phân tích c pháp được ưu tiên lên hàng đ u.

Trong đề tài này củ em chư đề cập được đến phương pháp này. N thuộc vào các phương pháp ử lý ngôn ng tự nhiên. Do thời gi n c hạn hướng tiếp cận n đ u không đ ng, nên em vẫn để ng phương pháp này. Tuy nhiên, hướng mục tiêu củ em trong kì làm luận v n tốt nghiệp tới sẽ tập trung giải chuyết ài toán này. Đ là: “Phõn loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.”

b. B i toán thu thập thông tin từ văn bản tiếng Việt

Ở trên ch ng t đ chỡnh ày phương pháp cho ài toán thu thập thông tin. Đ là các phương pháp: mô hình Boole n, mô hình không gi n vec-tơ, và mạng nơ-ron.

Đối với mô hình Boole n, đây là phương pháp truy vấn thông tin ự theo các iểu th c logic. ưu điểm lớn nhất củ phương pháp này là tính đơn giản, ễ cài đặt và tốc độ nh nh. Tuy nhiên, hạn trế lớn nhất củ n không gi n lưu trữ và giá thành cho việc thêm ớt v n ản từ kho lưu trữ tài liệu.

Phương pháp th h i đã cài tiến được một số hạn trế củ phương pháp th c nhất. Tuy nhiên, nhược điểm lớn nhất củ phương pháp này là tốc độ. Tuy nhiên, đây vẫn là một phương án c tính khả thi c o. Phương pháp này nên được áp ụng cho thu thập thông tin tiếng Việt.

Phương pháp th ự trên giải thuật trí tuệ nhân tạo. ưu điểm củ phương pháp này là khả n ng huấn luyện được củ hệ thống. Khi các mẫu huấn luyện và phương pháp huấn luyện tốt, hệ thống sẽ cho r các kết quả rất tốt. Nhưng nhược điểm củ phương pháp này là giải thuật ph c tạp, kh cài đặt.

IV. Xây dựng th chương tr nh tách thuật ng tiếng Việt theo phương pháp cổ điển

1. Chương tr nh và bài toán đư c giải quyết

Để phục vụ cho ài toán phân tích v n ản tiếng Việt, em đã xây ựng thử nghiệm một chương trình Tách thuật ng tiếng Việt. Chương trình được viết ng ngôn ngữ j v . Bài toán đặt r được mô tả như s u:

Xây dựng một công cụ tỏch cỏc thuật ng trong một văn bản tiếng Việt theo một từ điển thuật ng có sẵn

Đ u vào củ ài toán là một tệp tin ch một tài liệu tiếng Việt được định ạng Text ưới ạng phông .VN ví ụ phông .VnTime , một tệp tin ch thông tin về các thuật ngữ c ng được đinh ạng Text ưới ạng phông .VN.

Đ u r củ ài toán là một tệp tin định ạng Text ởi phông .VN, trong đ chư các thông tin về các thuật ngữ tìm được theo khuân ạng: “Tờn thuật ngữ ” số từ tìm được .

Chương trình được xây ựng ng ngôn ngữ j v và được đặt với tên

tachthuatngu .

2. Kết quả chạy chương tr nh

Khi chạy chương trình với tệp tin Test.txt tệp tin mẫu c s n với nội ung là một áo cáo nghiên c u về lý thuyết tập thô, kết quả hiện r với nội ung như s u:

Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien)

thông tin 40 hàm 34 kh i thác 33 truy vấn 26 thực hiện 22 ữ liệu 22 tập thô 14 hệ thống 10) xử lý 10 không gi n ung s i 8 phân nh m 5 từ khoá 5 lưu trữ 5 nghiên c u 4 ngữ ngh 3 kh i phá ữ liệu 3 khái niệm 2 ch tiêu 2

S u h i ng mở đ u, trên m i ng s u đ ghi tờn thuật ngữ tì ược (số lần xu t hiện trong t i liệu). Ví ụ: với từ tập th t thấy xuất hiện 14 l n trong tài liệu.

TÀI LIỆU THAM KHẢO

[1] “Text C tegoriz tion Using Hier rchic l Topic Diction ry” - Alexander Gelbu h Grigori Sidorov Adolfo Guzmỏn-Arenas

[2] “M chine Le rning in Autom te Text C tegoriz tion” - Fabrizio Sebastiani

[3] “Ngữ pháp tiờ ng Viờ t” – Trung tâm Kho học xã hội và Nhân v n quốc gi – Nhà xuất ản Kho học và xã hội – Hà nội 2000

PHỤ LỤC

Các th ng tin về báo cáo

Trên đ mềm gồm c :

- Báo cáo 2 ản softcopy n m trong các tệp tin

“A:\Docs\BaocaoTTTN. oc”, và “A:\Docs\BaocaoTTTN.p f” - Bản ảo vệ ng Microsoft PowerPoint “A:\Docs\B ove.ppt” - Chương trình emo ch trong thư mục “A:\Project” o gồm

mã nguồn viết ng j v ch trong thư mục “A:\Project\src” và mã ịch ch trong thư mục “A:\Project\t chthu tngu”.

Cách chạy chương tr nh demo

Yêu c u:

- Trên máy tính chư ộ ịch j v .

- Đặt đường ẫn đến thư mục ch tệp tin “j v .exe” trong PATH. - S o thư mục “A:\Project” vào một nơi khác trên đ c ng

Cách chạy:

- Vào chế độ Command Prompt

- Chuyển đến thư mục “Project” đã s o trên đ c ng

- Ghừ vào ng lệnh: “j v t chthu tngu.M in ten_file_tai_lieu” - S u khi chương trình kết th c, kết quả đã được ghi r tệp tin như

chương trình thông o. Bạn c thể mở tệp tin này nên mở ng Notep để xem kết quả

Ch ý: Tệp tin đ u vào phải c ạng text, ch các v n ản đặt ở phông .VN.

TỪ ĐIỂN THUẬT NGỮ

Data Mining Khai phá v n ản ữ liệu

Text Mining Kh i phá ữ liệu v n ản

Text Categorization Phân loại v n ản

Text Clustering Lập nh m v n ản

Information Retrieval (IR) Thu thập thông tin

Neural Network Mạng Nơ-ron

Decision tree Cây quyết định

AI-based method Phương pháp ự trí tuệ nhân tạo

similarity Độ tương đồng

Vector space model (VSM) Mô hình không gi n vec-tơ Text summarization T ng hợp v n ản

Một phần của tài liệu Text mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản (Trang 56)

Tải bản đầy đủ (PDF)

(69 trang)