IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển
2. Kết quả chạy chương trình
Khi chạy chương trình với tệp tin “Test.txt” (tệp tin mẫu có sẵn) với nội dung là một báo cáo nghiên cứu về lý thuyết tập thô, kết quả hiện ra với nội dung như sau:
Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien)
"th«ng tin" (40) "hµm" (34) "khai th¸c" (33) "truy vÊn" (26)
"thùc hiÖn" (22) "d÷ liÖu" (22) "tËp th«" (14) "hÖ thèng" (10) "xö lý" (10)
"kh«ng gian dung sai" (8) "ph©n nhãm" (5) "tõ kho¸" (5) "l-u tr÷" (5) "nghiªn cøu" (4) "ng÷ nghÜa" (3) "khai ph¸ d÷ liÖu" (3) "kh¸i niÖm" (2) "chØ tiªu" (2)
Sau hai dòng mở đầu, trên mỗi dòng sau đó ghi “tên thuật ngữ tìm được” (số lần xuất hiện trong tài liệu). Ví dụ: với từ “tập thô” ta thấy xuất hiện 14 lần trong tài
TÀI LIỆU THAM KHẢO
[1] “Text Categorization Using a Hierarchical Topic Dictionary” -
Alexander Gelbukh, Grigori Sidorov, Adolfo Guzmán-Arenas
[2] “Machine Learning in Automated Text Categorization” - Fabrizio Sebastiani
[3] “Ngữ pháp tiếng Việt” – Trung tâm Khoa học xã hội và Nhân văn quốc gia – Nhà xuất bản Khoa học và xã hội – Hà nội 2000
PHỤ LỤC Các thông tin về báo cáo
Trên đĩa mềm gồm có:
- Báo cáo (2 bản softcopy) nằm trong các tệp tin
“A:\Docs\BaocaoTTTN.doc”, và “A:\Docs\BaocaoTTTN.pdf”
- Bản bảo vệ bằng Microsoft PowerPoint “A:\Docs\Baove.ppt”
- Chương trình demo chứa trong thư mục “A:\Project” bao gồm mã nguồn viết bằng java chứa trong thư mục “A:\Project\src” và mã dịch chứa trong thư mục “A:\Project\tachthuatngu”.
Cách chạy chương trình demo
Yêu cầu:
- Trên máy tính chưa bộ dịch java.
- Đặt đường dẫn đến thư mục chứa tệp tin “java.exe” trong PATH.
- Sao thư mục “A:\Project” vào một nơi khác trên đĩa cứng
Cách chạy:
- Vào chế độ Command Prompt
- Chuyển đến thư mục “Project” đã sao trên đĩa cứng
- Ghõ vào dòng lệnh: “java tachthuatngu.Main ten_file_tai_lieu”
- Sau khi chương trình kết thúc, kết quả đã được ghi ra tệp tin như chương trình thông bao. Bạn có thể mở tệp tin này (nên mở bằng Notepad) để xem kết quả
TỪ ĐIỂN THUẬT NGỮ
Data Mining Khai phá văn bản dữ liệu
Text Mining Khai phá dữ liệu văn bản
Text Categorization Phân loại văn bản
Text Clustering Lập nhóm văn bản
Information Retrieval (IR) Thu thập thông tin
Neural Network Mạng Nơ-ron
Decision tree Cây quyết định
AI-based method Phương pháp dựa trí tuệ nhân tạo
similarity Độ tương đồng
Vector space model (VSM) Mô hình không gian vec-tơ
Text summarization Tổng hợp văn bản
Term Thuật ngữ
MỤC LỤC
MỤC LỤC ... 57
BẢNG DANH MỤC HÌNH HOẠ ... 61
LỜI GIỚI THIỆU ... 1
I. Đặt vấn đề ... 5
II. Cơ sở lý thuyết ... 7
a. Khai phá dữ liệu (Data Mining) ... 7
b. Khai phá dữ liệu văn bản (Text Mining) ... 8
2. Bài toán phân loại văn bản (Text categorization) ... 12
a. Khái niệm phân loại văn bản ... 12
b. Các phương pháp phân loại văn bản ... 13
b.1. Sử dụng từ điển phân cấp chủ đề ... 13
b.1.1. Giải thuật phân lớp và phân cấp chủ đề ... 13
b.1.2. Sự phù hợp và sự phân biệt của các trọng số ... 14
b.2. Phương pháp cây quyết định (Decision tree) ... 16
3. Bài toán thu thập thông tin (Information retrieval - IR) ... 18
a. Khái niệm thu thập thông tin ... 18
b. Các phương pháp thu thập thông tin ... 20
b.1. Các phương pháp chuẩn ... 21
b.1.1. Mô hình Boolean ... 21
b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) ... 23
b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) ... 28
b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) ... 29
4. Một số công cụ phân tích văn bản tiếng Anh ... 35
III. Các giải pháp áp dụng cho Vietnamese Text Mining ... 39
1. Đặc trưng của văn bản tiếng Việt ... 39
a. Các đơn vị của tiếng Việt ... 39
a.1. Tiếng và đặc điểm của tiếng ... 39
a.1.1. Tiếng và giá trị ngữ âm ... 39
a.1.2. Tiếng và giá trị ngữ nghĩa ... 39
a.1.3. Tiếng và giá trị ngữ pháp ... 40
a.2.1. Từ là đơn vị nhỏ nhất để đặt câu ... 40
a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định ... 41
a.3. Câu và các đặc điểm của câu ... 41
a.3.1. Câu có ý nghĩa hoàn chỉnh ... 41
a.3.2. Câu có cấu tạo đa dạng. ... 42
b. Các phương tiện ngữ pháp của tiếng việt. ... 42
b.1. Trong phạm vi cấu tạo từ. ... 42
b.2. Trong phạm vi cấu tạo câu. ... 42
c. Từ tiếng việt ... 43
c.1. Từ đơn - từ ghép ... 43
c.2. Từ loại ... 45
c.3. Dùng từ cấu tạo ngữ ... 45
d. Câu tiếng việt ... 46
d.1. Câu đơn ... 47
d.2. Câu ghép ... 48
d.2.1. Câu ghép song song ... 48
d.2.2. Câu ghép qua lại ... 48
d.2.3. Các thành phần câu... 49
e. Các đặc điểm chính tả và văn bản tiếng Việt ... 49
2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt ... 50
a. Bài toán phân loại văn bản tiếng Việt... 51
b. Bài toán thu thập thông tin từ văn bản tiếng Việt ... 51
IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển ... 53
2. Kết quả chạy chương trình ... 53
TÀI LIỆU THAM KHẢO... 55
PHỤ LỤC ... 56
Các thông tin về báo cáo ... 56
Cách chạy chương trình demo ... 56
BẢNG DANH MỤC HÌNH HOẠ
Hình 1: Một ví dụ về cây quyết định Hình 2. Mô hình thu thập thông tin chuẩn
Hình 3. Đồ thị biểu diễn các vec-tơ của bài báo D1 và D2
Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2 Hình 5. Mạng nơ-ron: toán tử AND (a) và toán tử OR (b)
Hình 6. Mạng nơ-ron với lớp ẩn: toán tử NOR Hình 7: Mô hình biểu diễn mạng nơ-ron Hình 8: Minh hoạ công cụ TextAnalyst