... Một ý kiến nhỏ về cách ghi dấu thanh trên vănbản
tiếng Việt
1. Những nguyên tắc chung
Vấn đề cải cách giáo dục, sự phát triển của tin học… trong những ... ngày càng cao trong viết lách cũng như trong in ấn.
Một trong những yêu cầu đó là cách ghi dấu thanh của tiếng Việt. Dấu thanh và
thanh điệu có liên quan chặt chẽ với nhau, nhưng chữ viết nói ... bản của thanh
điệu trong âm tiết. Ví dụ: gà, ngã, đặc, tính…
1.2. Nguyên tắc hợp lí
Xuất phát từ đặc điểm riêng, mỗi ngôn ngữ có một cách thể hiện thanh điệu khác
nhau. Chẳng hạn, trong tiếng...
... các trường hợp sau:
q là thành phần thô trong vănbản d
j
[3-1]
q là thành phần thô dưới trong vănbản d
j
[3-2]
q là thành phần thô trên trong vănbản d
j
[3-3]
4- q bao hàm thô d
j
(ngược ... Với q là một truy vấn ta có các trường
hợp sau:
Văn bản d
j
là thành phần thô trong q [4-1]
Văn bản d
j
là thành phần thô dưới trong q [4-2]
Văn bản d
j
là thành phần thô trên trong q [4-3]
5- ... thuộc, bổ sung ý nghĩa cho vị ngữ.
4. Các đặc điểm của tiếngViệt
TrÞnh §øc Cêng Trang 10
Đồ án tốt nghiệp
Tìm kiếm vănbảntiếng Việt
3.1 Cõu n
Cõu n l loi cõu c s ca ting Vit, nú bao gm...
...
6. S1 4 nil S1/1
7. S2 5 nil N2/1
Bảng 3. Quá trình phân tích từ trên xuống
Bảng 5. Tập luật của văn phạm tiếngViệt 48
Bảng 6. Tập luật của văn phạm tiếng Anh 50
Khoá luận tốt nghiệp ... pháp tiếng Anh.
Trong phần phụ lục của khoá luận em sẽ trình bày chi tiết bài toán tách từ vựng tiếng
Việt.
Chương 4. Xây dựng văn phạm tiếngViệt
Khoá luận tốt nghiệp
47
4.2.5. Văn phạm tiếng ... một câu tiếngViệt nhập nhằng 62
Hình 19. Cây phân tích ứng với cách tách từ đúng 62
Danh mục bảng
Bảng 1. Phân tích từ trên xuống, ưu tiên chiều sâu cho văn phạm phi ngữ cảnh 15
Bảng 2....
... trên một tập lớn các tài
liệu như phân lớp văn bản, phân loại văn bản, tìm kiếm vănbản do đó mối
tương quan giữa các từ chiết xuất được và tập vănbản phải được lưu ý đến.
Ngưỡng kết hợp mà ... liệu vănbản sẽ được trình bầy ở phần sau.
2. Các kỹ thuật khai phá
Các bài toán thường được quan tâm trong khai phá dữ liệu vănbản là
Phân loại vănbản (text categorization), Phân lớp vănbản ... trong tiếngViệt có thể là một tiếng hay gồm nhiều tiến. Hơn nữa,
trong tiếngViệt những từ nhiều tiếng có thể được ghép bởi những tiếng hay
từ khác có nghĩa. Ví dụ như hai từ chỉ một tiếng...
... thời định hướng cách xử
lý địa danh đối với các vănbảntiếngViệt khác.
Cách viết địa danh trên các bản đồ vì thế là vấn đề được lưu tâm từ trước
tới nay. Tuy nhiên, trên thực tế cáchviết địa ... thiết
trong các ngôn ngữ khác một cách chủ động và có bản lĩnh của tiếng Việt.
- “Viết nguyên dạng có những điều lợi ích không thể phủ nhận đối vơi
tiếng Việt: sự chính xác và khoa học, không ... tiếp
Chủ yếu phiên theo tiếng Hán và cách đọc Hán Việt
“Ngày 17. 2 tại Hà Nội, ngài Ha- tô- ri, đại sứ Nhật Bản tại Việt Nam và
GS Nguyễn Trọng Nhân, chủ tịch hội Nhãn Khoa Việt Nam cùng ký kết...
... một cách xử lý chung và đồng nhất cho các bản đồ để
định
2. Một số ý kiến về vấn đề chuẩn hố địa danh nước ngồi trên các vănbản
tiếng Việt
2.1. Những qui định của quốc tế và Việt Nam về cách ... một văn bản. Vì vậy, chúng ta cần nhận thấy rằng để thống nhất cách
viết địa danh trên tất cả các vănbản thì phải việc trước tiên là cần phải thống
nhất cáchviết ngay trong bản thân từng văn ... trong từng vănbản cụ thể.
Bước 3.
So sánh, đối chiếu cách xử lý địa danh trên các văn bản. Từ đó đánh giá sự
khơng thống nhất trong cáchviết địa danh. Trong đề tài này, chúng tơi chọn cách
ghi...
... 2009.
Học viên
Lưu Văn Tăng
4
Luận văn tốt nghiệp
Chương 2. Các công cụ phân tích vănbảntiếng Việt
Trong chương này em giới thiệu một số công cụ phân tích vănbản
tiếng Việt đã có áp dụng ... một vănbảntiếngViệt bất kỳ. Hãy phân tách vănbản đó ra thành
các đơn vị câu độc lập.
Bài toán tách câu đặt ra với mục đích xây dựng công cụ tự động tách các câu
trong một vănbảntiếngViệt ... máy tính.
- Tóm tắt văn bản: Từ một vănbản dài, máy tính tóm tắt thành vănbản ngắn
hơn với những nội dung cơ bản nhất.
- Dịch tự động: Là việc dịch tự động từ tiếng này sang tiếng khác, chẳng...
... bài toán phân lớp văn bản
1.4.2. Bài toán Phân nhóm văn bản
Bài toán Phân nhóm vănbản (Text Clustering) có điểm khác so với bài toán
Phân lớp vănbản ở chỗ cho một tập vănbản chưa được phân ... nhiên cũng như các đặc trưng ngôn ngữ tiếngViệt cần thiết cho bài toán Tóm tắt
văn bảntiếng Việt. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên trong tiếngViệt đã
được nêu ra và sẽ được giải ... biệt là ở Việt Nam, khi Khai phá
văn bản mới được chúng ta quan tâm tới trong khoảng chục năm trở lại đây. Các bài toán
điển hình của Khai phá vănbản như Phân lớp văn bản, Phân nhóm vănbản hiện...
... Dữ liệu đƣợc chia làm 2 loại
Dữ liệu song ngữ :
VănbảntiếngViệt không dấu
VănbảntiếngViệt có dấu
Dữ liệu đơn ngữ
VănbảntiếngViệt có dấu
Xây dựng mô hình ngôn ngữ
Xây dựng ... dấu tiếngViệt tự động bằng AMPad 11
Hình 1.2.2-2 GõtiếngViệt không dấu trên VietPad 12
Hình 1.2.3-3 Vănbản sau khi thực hiện chức năng thêm dấu tiếngViệt của
VietPad 12
Hình 1.2.3-4 : Gõ ... trên văn bản. Đối với các
thứ tiếng Châu Âu, ta có thể dễ dàng nhận ra một từ, do các từ đƣợc phân cách bởi
khoảng trắng. Điều này lại không đúng với tiếng Việt. Trong tiếng Việt, các tiếng_ hay...
... phục vụ tìm kiếm vănbản 69 5
LỜI MỞ ĐẦU 1
PHẦN I. CƠ SỞ LÝ THUYẾT 3
I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT___________________3
1.Tính chính xác của vănbảntiếngViệt 3
2. Từ tiếngViệt 4
2.1. Từ ... LÝ VĂNBẢNTIẾNGVIỆT 56
1.1 Tổ chức từ điển 56
1.2. Tổ chức cơ sở dữ liệu vănbản 57
1.3. Xác định các từ khoá trong vănbản 58
MỤC LỤC
MỤC LỤC 1
Hình 1: Mô hình xác định từ đại diện cho vănbản ... câu hỏi đặt ra là tại sao bảng tần xuất lại quan trọng? Để giải thích một cách
chính thức câu hỏi này hãy làm một ví dụ gồm một vài vănbản mang tính giả thiết.
Term /văn bản d
1
d
2
d
3
d
4
d
5
d
6
t
1
615...
... Bài toán phân loại vănbản
Tiếng Việt
Xét bài toán phân loại vănbản
Tiếng Việt, cho một vănbản bất kỹ hãy xác
định chủ đề của vănbản đó dựa trên một tập
gồm 200 văn bản.
5. Thực Nghiệm ...
đến phân loại vănbản như: các phương pháp
phân loại vănbảnTiếng Anh, các phương
pháp tách từ Tiếng Việt, và cách tiến hành đi
vào làm công cụ phân loại văn bản.
Trong luận văn có sử dụng ... trọng liên quan đến vấn đề
phân loại văn bản. Rút ra những kinh
nghiệm của bản thân
[1] Nguyễn Phương Thái, Kiểm lỗi Chính tả
Cảm Ngữ cảnh Tiếng Việt, Luận văn thạc sĩ,
Khoa Công nghệ, 2003....
... các vănbản được gán nhãn mẫu, làm
tăng chất lượng bộ gán nhãn. Kho dữ liệu
này cũng đặc biệt hữu ích cho việc nghiên
cứu văn phạm tiếng Việt. Việc nghiên cứu
văn phạm trên cơ sở các vănbản ... đợi, khi xử lí các văn
bản cùng một văn phong, tập mẫu càng
lớn thì tỉ lệ lỗi càng giảm
- Tập mẫu v
ới các vănbản có văn phong
khác nhau có ảnh hưởng tới kết quả gán
nhãn.
Bảng 1. Kết quả ...
"-uy", cách ghi dấu thanh, cáchviết thuật
ngữ khoa học, sử dụng con chữ f, j, w, z cho
các từ mượn tiếng nước ngoài, v.v.).
Trên thực tế, trong các vănbảntiếng
Việt vẫn không có...