Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển

Một phần của tài liệu Thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản. (Trang 39 - 42)

theo phương pháp cổ điển

1. Chương trình và bài toán được giải quyết

Để phục vụ cho bài toán phân tích văn bản tiếng Việt, em đã xây dựng thử nghiệm một chương trình Tách thuật ngữ tiếng Việt. Chương trình được viết bằng ngôn ngữ java. Bài toán đặt ra được mô tả như sau:

Xây dựng một công cụ tách các thuật ngữ trong một văn bản tiếng Việt theo một từ điển thuật ngữ có sẵn

Đầu vào của bài toán là một tệp tin chứa một tài liệu tiếng Việt được định dạng Text dưới dạng phông .VN (ví dụ phông .VnTime), một tệp tin chứa thông tin về các thuật ngữ cũng được đinh dạng Text dưới dạng phông .VN.

Đầu ra của bài toán là một tệp tin định dạng Text bởi phông .VN, trong đó chưa các thông tin về các thuật ngữ tìm được theo khuân dạng: “Tên thuật ngữ ” (số từ tìm được).

Chương trình được xây dựng bằng ngôn ngữ java và được đặt với tên

“tachthuatngu”.

2. Kết quả chạy chương trình

Khi chạy chương trình với tệp tin “Test.txt” (tệp tin mẫu có sẵn) với nội dung là một báo cáo nghiên cứu về lý thuyết tập thô, kết quả hiện ra với nội dung như sau:

Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien) "th«ng tin" (40) "hµm" (34) "khai th¸c" (33) "truy vÊn" (26) "thùc hiÖn" (22) "d÷ liÖu" (22) "tËp th«" (14) "hÖ thèng" (10) "xö lý" (10)

"kh«ng gian dung sai" (8) "ph©n nhãm" (5) "tõ kho¸" (5) "lu tr÷" (5) "nghiªn cøu" (4) "ng÷ nghÜa" (3) "khai ph¸ d÷ liÖu" (3) "kh¸i niÖm" (2) "chØ tiªu" (2)

Sau hai dòng mở đầu, trên mỗi dòng sau đó ghi “tên thuật ngữ tìm được” (số lần xuất hiện trong tài liệu). Ví dụ: với từ “tập thô” ta thấy xuất hiện 14 lần trong tài liệu.

TÀI LIỆU THAM KHẢO

[1] “Text Categorization Using a Hierarchical Topic Dictionary” - Alexander Gelbukh, Grigori Sidorov, Adolfo Guzmán-Arenas

[2] “Machine Learning in Automated Text Categorization” - Fabrizio Sebastiani

[3] “Ngữ pháp tiếng Việt” – Trung tâm Khoa học xã hội và Nhân văn quốc gia – Nhà xuất bản Khoa học và xã hội – Hà nội 2000

PHỤ LỤC

Các thông tin về báo cáo

Trên đĩa mềm gồm có:

- Báo cáo (2 bản softcopy) nằm trong các tệp tin “A:\Docs\BaocaoTTTN.doc”, và “A:\Docs\BaocaoTTTN.pdf”

- Bản bảo vệ bằng Microsoft PowerPoint “A:\Docs\Baove.ppt”

- Chương trình demo chứa trong thư mục “A:\Project” bao gồm mã nguồn viết bằng java chứa trong thư mục “A:\Project\src” và mã dịch chứa trong thư mục “A:\Project\tachthuatngu”.

Cách chạy chương trình demo

Yêu cầu:

- Trên máy tính chưa bộ dịch java.

- Đặt đường dẫn đến thư mục chứa tệp tin “java.exe” trong PATH. - Sao thư mục “A:\Project” vào một nơi khác trên đĩa cứng

Cách chạy:

- Vào chế độ Command Prompt

- Chuyển đến thư mục “Project” đã sao trên đĩa cứng

- Ghõ vào dòng lệnh: “java tachthuatngu.Main ten_file_tai_lieu

- Sau khi chương trình kết thúc, kết quả đã được ghi ra tệp tin như chương trình thông bao. Bạn có thể mở tệp tin này (nên mở bằng Notepad) để xem kết quả

TỪ ĐIỂN THUẬT NGỮ

Data Mining Khai phá văn bản dữ liệu

Text Mining Khai phá dữ liệu văn bản

Text Categorization Phân loại văn bản

Text Clustering Lập nhóm văn bản

Information Retrieval (IR) Thu thập thông tin

Neural Network Mạng Nơ-ron

Decision tree Cây quyết định

AI-based method Phương pháp dựa trí tuệ nhân tạo

similarity Độ tương đồng

Vector space model (VSM) Mô hình không gian vec-tơ Text summarization Tổng hợp văn bản

Một phần của tài liệu Thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản. (Trang 39 - 42)

Tải bản đầy đủ (DOC)

(41 trang)
w