theo phương pháp cổ điển
1. Chương trình và bài toán được giải quyết
Để phục vụ cho bài toán phân tích văn bản tiếng Việt, em đã xây dựng thử nghiệm một chương trình Tách thuật ngữ tiếng Việt. Chương trình được viết bằng ngôn ngữ java. Bài toán đặt ra được mô tả như sau:
Xây dựng một công cụ tách các thuật ngữ trong một văn bản tiếng Việt theo một từ điển thuật ngữ có sẵn
Đầu vào của bài toán là một tệp tin chứa một tài liệu tiếng Việt được định dạng Text dưới dạng phông .VN (ví dụ phông .VnTime), một tệp tin chứa thông tin về các thuật ngữ cũng được đinh dạng Text dưới dạng phông .VN.
Đầu ra của bài toán là một tệp tin định dạng Text bởi phông .VN, trong đó chưa các thông tin về các thuật ngữ tìm được theo khuân dạng: “Tên thuật ngữ ” (số từ tìm được).
Chương trình được xây dựng bằng ngôn ngữ java và được đặt với tên
“tachthuatngu”.
2. Kết quả chạy chương trình
Khi chạy chương trình với tệp tin “Test.txt” (tệp tin mẫu có sẵn) với nội dung là một báo cáo nghiên cứu về lý thuyết tập thô, kết quả hiện ra với nội dung như sau:
Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien) "th«ng tin" (40) "hµm" (34) "khai th¸c" (33) "truy vÊn" (26) "thùc hiÖn" (22) "d÷ liÖu" (22) "tËp th«" (14) "hÖ thèng" (10) "xö lý" (10)
"kh«ng gian dung sai" (8) "ph©n nhãm" (5) "tõ kho¸" (5) "lu tr÷" (5) "nghiªn cøu" (4) "ng÷ nghÜa" (3) "khai ph¸ d÷ liÖu" (3) "kh¸i niÖm" (2) "chØ tiªu" (2)
Sau hai dòng mở đầu, trên mỗi dòng sau đó ghi “tên thuật ngữ tìm được” (số lần xuất hiện trong tài liệu). Ví dụ: với từ “tập thô” ta thấy xuất hiện 14 lần trong tài liệu.
TÀI LIỆU THAM KHẢO
[1] “Text Categorization Using a Hierarchical Topic Dictionary” - Alexander Gelbukh, Grigori Sidorov, Adolfo Guzmán-Arenas
[2] “Machine Learning in Automated Text Categorization” - Fabrizio Sebastiani
[3] “Ngữ pháp tiếng Việt” – Trung tâm Khoa học xã hội và Nhân văn quốc gia – Nhà xuất bản Khoa học và xã hội – Hà nội 2000
PHỤ LỤC
Các thông tin về báo cáo
Trên đĩa mềm gồm có:
- Báo cáo (2 bản softcopy) nằm trong các tệp tin “A:\Docs\BaocaoTTTN.doc”, và “A:\Docs\BaocaoTTTN.pdf”
- Bản bảo vệ bằng Microsoft PowerPoint “A:\Docs\Baove.ppt”
- Chương trình demo chứa trong thư mục “A:\Project” bao gồm mã nguồn viết bằng java chứa trong thư mục “A:\Project\src” và mã dịch chứa trong thư mục “A:\Project\tachthuatngu”.
Cách chạy chương trình demo
Yêu cầu:
- Trên máy tính chưa bộ dịch java.
- Đặt đường dẫn đến thư mục chứa tệp tin “java.exe” trong PATH. - Sao thư mục “A:\Project” vào một nơi khác trên đĩa cứng
Cách chạy:
- Vào chế độ Command Prompt
- Chuyển đến thư mục “Project” đã sao trên đĩa cứng
- Ghõ vào dòng lệnh: “java tachthuatngu.Main ten_file_tai_lieu”
- Sau khi chương trình kết thúc, kết quả đã được ghi ra tệp tin như chương trình thông bao. Bạn có thể mở tệp tin này (nên mở bằng Notepad) để xem kết quả
TỪ ĐIỂN THUẬT NGỮ
Data Mining Khai phá văn bản dữ liệu
Text Mining Khai phá dữ liệu văn bản
Text Categorization Phân loại văn bản
Text Clustering Lập nhóm văn bản
Information Retrieval (IR) Thu thập thông tin
Neural Network Mạng Nơ-ron
Decision tree Cây quyết định
AI-based method Phương pháp dựa trí tuệ nhân tạo
similarity Độ tương đồng
Vector space model (VSM) Mô hình không gian vec-tơ Text summarization Tổng hợp văn bản