... 2009.
Học viên
Lưu Văn Tăng
4
Luận văn tốt nghiệp
Chương 2. Các công cụ phân tích vănbảntiếng Việt
Trong chương này em giới thiệu một số công cụ phân tích vănbản
tiếng Việt đã có áp dụng ... một vănbảntiếngViệt bất kỳ. Hãy phân tách vănbản đó ra thành
các đơn vị câu độc lập.
Bài toán tách câu đặt ra với mục đích xây dựng công cụ tự động tách các câu
trong một vănbảntiếngViệt ... ngữ liệu cho phân tích vănbảntiếng
Việt, các hướng tiếp cận để giải các bài toán đó.
Chương 2 – Giới thiệu một số công cụ trong xây dựng kho ngữ liệu cho phân
tích vănbảntiếng Việt.
• Công...
... vănbản
2.2 Kỹ thuật phân cụm vănbảntiếngViệt dựa trên thuật toán phân cấp
2.2.1 Phân cụm vănbản
2.2.1.1 Khái niệm phân cụm vănbản
Định nghĩa: Thuật toán phân cụm nhóm tập các vănbản ... vănbảntiếngViệt đã được phân cụm.
2.1 Phương pháp biểu diễn vănbản
2.1.1 Khái niệm
Biểu diễn vănbản là phương pháp mô tả nội dung hoặc đặc trưng của vănbản [1].
Khi biểu diễn vănbản ... tài “Tra cứu vănbản
tiếng Việt dựa trên kỹ thuật phân cụm”. Các đóng góp của luận văn
- Nghiên cứu, cải tiến một số phương pháp tra cứu đối với vănbảntiếng
Anh áp dụng cho tiếng Việt.
- Sử...
... các trường hợp sau:
q là thành phần thô trong vănbản d
j
[3-1]
q là thành phần thô dưới trong vănbản d
j
[3-2]
q là thành phần thô trên trong vănbản d
j
[3-3]
4- q bao hàm thô d
j
(ngược ... Với q là một truy vấn ta có các trường
hợp sau:
Văn bản d
j
là thành phần thô trong q [4-1]
Văn bản d
j
là thành phần thô dưới trong q [4-2]
Văn bản d
j
là thành phần thô trên trong q [4-3]
5- ... thuộc, bổ sung ý nghĩa cho vị ngữ.
4. Các đặc điểm của tiếngViệt
TrÞnh §øc Cêng Trang 10
Đồ án tốt nghiệp
Tìm kiếm vănbảntiếng Việt
3.1 Cõu n
Cõu n l loi cõu c s ca ting Vit, nú bao gm...
... N2/1
Bảng 3. Quá trình phân tích từ trên xuống
Bảng 5. Tập luật của văn phạm tiếngViệt 48
Bảng 6. Tập luật của văn phạm tiếng Anh 50
Khoá luận tốt nghiệp
6
Danh mục hình
Hình 1. Phân ... phương án phân tích cho một câu tiếngViệt nhập nhằng 62
Hình 19. Cây phân tích ứng với cách tách từ đúng 62
Danh mục bảng
Bảng 1. Phân tích từ trên xuống, ưu tiên chiều sâu cho văn phạm ... toán cho bài toán phân tích cú pháp tiếng Anh.
Trong phần phụ lục của khoá luận em sẽ trình bày chi tiết bài toán tách từ vựng tiếng
Việt.
Chương 4. Xây dựng văn phạm tiếngViệt
Khoá luận tốt...
... việc trên một tập lớn các tài
liệu như phânlớpvăn bản, phân loại văn bản, tìm kiếm vănbản do đó mối
tương quan giữa các từ chiết xuất được và tập vănbản phải được lưu ý đến.
Ngưỡng kết hợp ... liệu vănbản sẽ được trình bầy ở phần sau.
2. Các kỹ thuật khai phá
Các bài toán thường được quan tâm trong khai phá dữ liệu vănbản là
Phân loại vănbản (text categorization), Phânlớpvănbản ... trong tiếngViệt có thể là một tiếng hay gồm nhiều tiến. Hơn nữa,
trong tiếngViệt những từ nhiều tiếng có thể được ghép bởi những tiếng hay
từ khác có nghĩa. Ví dụ như hai từ chỉ một tiếng...
... danh đối với các vănbảntiếngViệt khác.
Cách viết địa danh trên các bản đồ vì thế là vấn đề được lưu tâm từ trước
tới nay. Tuy nhiên, trên thực tế cách viết địa danh trên các bản đồ vẫn chưa ... trong tiếng Việt, âm /r/ chỉ tồn tại với tư c¸ch là một âm
của phương ngữ nhưng do một qúa trình tiếp xúc giữa tiếngViệt và các ngôn
ngữ phương Tây mà những âm /p/ và /r/ vào tiếngViệt và ... tiếp
Chủ yếu phiên theo tiếng Hán và cách đọc Hán Việt
“Ngày 17. 2 tại Hà Nội, ngài Ha- tô- ri, đại sứ Nhật Bản tại Việt Nam và
GS Nguyễn Trọng Nhân, chủ tịch hội Nhãn Khoa Việt Nam cùng ký kết...
... chung và đồng nhất cho các bản đồ để
định
2. Một số ý kiến về vấn đề chuẩn hố địa danh nước ngồi trên các vănbản
tiếng Việt
2.1. Những qui định của quốc tế và Việt Nam về cách viết địa danh ... các văn bản.
4. Bố cục
Ngồi phần mở đầu và kết luận, đề tài của chúng tơi gồm bốn chương và
một phụ lục
Chương 1. Lý luận chung
Chuơng 2. Tình hình viết địa danh trên một số vănbảntiếngViệt ... một văn bản. Vì vậy, chúng ta cần nhận thấy rằng để thống nhất cách
viết địa danh trên tất cả các vănbản thì phải việc trước tiên là cần phải thống
nhất cách viết ngay trong bản thân từng văn...
... toán phânlớpvăn bản
1.4.2. Bài toán Phân nhóm văn bản
Bài toán Phân nhóm vănbản (Text Clustering) có điểm khác so với bài toán
Phân lớpvănbản ở chỗ cho một tập vănbản chưa được phân loại ... vănbản điển hình
1.4.1. Bài toán Phânlớpvăn bản
Bài toán phânlớpvănbản (Text Categorization) là một bài toán hay, có nhiều
ứng dụng trong thực tế. Đầu vào của bài toán là tập các vănbản ... biệt là ở Việt Nam, khi Khai phá
văn bản mới được chúng ta quan tâm tới trong khoảng chục năm trở lại đây. Các bài toán
điển hình của Khai phá vănbản như Phânlớpvăn bản, Phân nhóm vănbản hiện...
... Tổng quan về phânlớpvănbản và học bán giám sát
3
Chương 1 TỔNG QUAN VỀ PHÂNLỚPVĂNBẢN VÀ
HỌC BÁN GIÁM SÁT
1.1. PhânlớpvănbảnPhânlớpvănbản là việc gán một vănbản (tài liệu) ...
MỤC LỤC
MỞ ĐẦU 1
Chương 1 TỔNG QUAN VỀ PHÂNLỚPVĂNBẢN VÀ HỌC BÁN
GIÁM SÁT 3
1.1. Phânlớpvănbản 3
1.2. Thuật toán phânlớpvănbản điển hình 5
1.2.1. Thuật toán Naive Bayes 5
... cơ bản như sau:
• Chương 1 trình bày tổng quan về phânlớpvănbản và học bán giám sát. Trước
khi giới thiệu về phânlớpvănbảnbán giám sát, khóa luận trình bày những nét cơ
bản nhất về phân...
... Dữ liệu đƣợc chia làm 2 loại
Dữ liệu song ngữ :
VănbảntiếngViệt không dấu
VănbảntiếngViệt có dấu
Dữ liệu đơn ngữ
VănbảntiếngViệt có dấu
Xây dựng mô hình ngôn ngữ
Xây dựng ... trên văn bản. Đối với các
thứ tiếng Châu Âu, ta có thể dễ dàng nhận ra một từ, do các từ đƣợc phân cách bởi
khoảng trắng. Điều này lại không đúng với tiếng Việt. Trong tiếng Việt, các tiếng_ hay ...
Hinh 1.2.1-1 Thêm dấu tiếngViệt tự động bằng AMPad 11
Hình 1.2.2-2 Gõ tiếngViệt không dấu trên VietPad 12
Hình 1.2.3-3 Vănbản sau khi thực hiện chức năng thêm dấu tiếngViệt của
VietPad 12...
... phục vụ tìm kiếm vănbản 69 5
LỜI MỞ ĐẦU 1
PHẦN I. CƠ SỞ LÝ THUYẾT 3
I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT___________________3
1.Tính chính xác của vănbảntiếngViệt 3
2. Từ tiếngViệt 4
2.1. Từ ... LÝ VĂNBẢNTIẾNGVIỆT 56
1.1 Tổ chức từ điển 56
1.2. Tổ chức cơ sở dữ liệu vănbản 57
1.3. Xác định các từ khoá trong vănbản 58
MỤC LỤC
MỤC LỤC 1
Hình 1: Mô hình xác định từ đại diện cho vănbản ... 491 59
Bảng 1: Bảng tần suất của một số văn bản
Nếu chúng ta kiểm tra các vănbản này, chúng ta cần chú ý rằng d
1
và d
2
là
tương tự nhau vì sự phân bố các từ trong d
1
phản ánh sự phân bố...