... 2009.Học viênLưu Văn Tăng4Luận văn tốt nghiệpChương 2. Các công cụ phân tích vănbảntiếng Việt Trong chương này em giới thiệu một số công cụ phân tích vănbản tiếng Việt đã có áp dụng ... một vănbảntiếngViệt bất kỳ. Hãy phân tách vănbản đó ra thành các đơn vị câu độc lập.Bài toán tách câu đặt ra với mục đích xây dựng công cụ tự động tách các câu trong một vănbảntiếngViệt ... ngữ liệu cho phân tích vănbảntiếng Việt, các hướng tiếp cận để giải các bài toán đó.Chương 2 – Giới thiệu một số công cụ trong xây dựng kho ngữ liệu cho phân tích vănbảntiếng Việt. • Công...
... vănbản 2.2 Kỹ thuật phâncụmvănbảntiếngViệt dựa trên thuật toán phân cấp 2.2.1 Phâncụmvănbản 2.2.1.1 Khái niệm phâncụmvănbản Định nghĩa: Thuật toán phâncụm nhóm tập các vănbản ... thống tra cứu vănbảntiếngViệt dựa trên kỹ thuật phâncụm được chia thành hai pha chính: Pha phâncụm và pha tra cứu. - Pha phân cụm: Pha thực hiện phâncụmvănbản thành các cụm riêng biệt. ... vănbảntiếngViệt đã được phân cụm. 2.1 Phương pháp biểu diễn vănbản 2.1.1 Khái niệm Biểu diễn vănbản là phương pháp mô tả nội dung hoặc đặc trưng của vănbản [1]. Khi biểu diễn văn bản...
... các trường hợp sau:q là thành phần thô trong vănbản dj [3-1]q là thành phần thô dưới trong vănbản dj [3-2]q là thành phần thô trên trong vănbản dj [3-3]4- q bao hàm thô dj (ngược ... Với q là một truy vấn ta có các trường hợp sau: Văn bản dj là thành phần thô trong q [4-1] Văn bản dj là thành phần thô dưới trong q [4-2] Văn bản dj là thành phần thô trên trong q [4-3]5- ... thuộc, bổ sung ý nghĩa cho vị ngữ.4. Các đặc điểm của tiếngViệt TrÞnh §øc Cêng Trang 10Đồ án tốt nghiệp Tìm kiếm vănbảntiếng Việt 3.1 Cõu nCõu n l loi cõu c s ca ting Vit, nú bao gm...
... N2/1 Bảng 3. Quá trình phân tích từ trên xuống Bảng 5. Tập luật của văn phạm tiếngViệt 48 Bảng 6. Tập luật của văn phạm tiếng Anh 50 Khoá luận tốt nghiệp 6 Danh mục hình Hình 1. Phân ... phương án phân tích cho một câu tiếngViệt nhập nhằng 62 Hình 19. Cây phân tích ứng với cách tách từ đúng 62 Danh mục bảng Bảng 1. Phân tích từ trên xuống, ưu tiên chiều sâu cho văn phạm ... toán cho bài toán phân tích cú pháp tiếng Anh. Trong phần phụ lục của khoá luận em sẽ trình bày chi tiết bài toán tách từ vựng tiếng Việt. Chương 4. Xây dựng văn phạm tiếngViệt Khoá luận tốt...
... việc trên một tập lớn các tài liệu như phân lớp văn bản, phân loại văn bản, tìm kiếm vănbản do đó mối tương quan giữa các từ chiết xuất được và tập vănbản phải được lưu ý đến. Ngưỡng kết hợp ... liệu vănbản sẽ được trình bầy ở phần sau.2. Các kỹ thuật khai pháCác bài toán thường được quan tâm trong khai phá dữ liệu vănbản là Phân loại vănbản (text categorization), Phân lớp vănbản ... phép chúng ta loại bỏ những cụm từ và nhóm cụm từ mà chúng ta phân biệt được giữa những tài liệu khác nhau. Với lượng các vănbản lớn để tạo bảng chỉ số từ các vănbản thì một trong những vấn...
... danh đối với các vănbảntiếngViệt khác.Cách viết địa danh trên các bản đồ vì thế là vấn đề được lưu tâm từ trước tới nay. Tuy nhiên, trên thực tế cách viết địa danh trên các bản đồ vẫn chưa ... trong tiếng Việt, âm /r/ chỉ tồn tại với tư c¸ch là một âm của phương ngữ nhưng do một qúa trình tiếp xúc giữa tiếngViệt và các ngôn ngữ phương Tây mà những âm /p/ và /r/ vào tiếngViệt và ... tiếpChủ yếu phiên theo tiếng Hán và cách đọc Hán Việt “Ngày 17. 2 tại Hà Nội, ngài Ha- tô- ri, đại sứ Nhật Bản tại Việt Nam và GS Nguyễn Trọng Nhân, chủ tịch hội Nhãn Khoa Việt Nam cùng ký kết...
... chung và đồng nhất cho các bản đồ để định 2. Một số ý kiến về vấn đề chuẩn hố địa danh nước ngồi trên các vănbản tiếng Việt 2.1. Những qui định của quốc tế và Việt Nam về cách viết địa danh ... các văn bản. 4. Bố cục Ngồi phần mở đầu và kết luận, đề tài của chúng tơi gồm bốn chương và một phụ lục Chương 1. Lý luận chung Chuơng 2. Tình hình viết địa danh trên một số vănbảntiếngViệt ... một văn bản. Vì vậy, chúng ta cần nhận thấy rằng để thống nhất cách viết địa danh trên tất cả các vănbản thì phải việc trước tiên là cần phải thống nhất cách viết ngay trong bản thân từng văn...
... toán phân lớp văn bản 1.4.2. Bài toán Phân nhóm văn bản Bài toán Phân nhóm vănbản (Text Clustering) có điểm khác so với bài toán Phân lớp vănbản ở chỗ cho một tập vănbản chưa được phân loại gì ... biệt là ở Việt Nam, khi Khai phá văn bản mới được chúng ta quan tâm tới trong khoảng chục năm trở lại đây. Các bài toán điển hình của Khai phá vănbản như Phân lớp văn bản, Phân nhóm vănbản hiện ... vănbản điển hình1.4.1. Bài toán Phân lớp văn bản Bài toán phân lớp vănbản (Text Categorization) là một bài toán hay, có nhiều ứng dụng trong thực tế. Đầu vào của bài toán là tập các văn bản...
... liệu đƣợc chia làm 2 loại Dữ liệu song ngữ : VănbảntiếngViệt không dấu VănbảntiếngViệt có dấu Dữ liệu đơn ngữ VănbảntiếngViệt có dấu Xây dựng mô hình ngôn ngữ Xây dựng mô ... trên văn bản. Đối với các thứ tiếng Châu Âu, ta có thể dễ dàng nhận ra một từ, do các từ đƣợc phân cách bởi khoảng trắng. Điều này lại không đúng với tiếng Việt. Trong tiếng Việt, các tiếng_ hay ... là câu tiếng nƣớc ngoài f đƣợc phân đoạn thành I cụm từ Giả thiết là phân bố xác suất đều trên toàn bộ các phân đoạn có thể có. Mỗi cụm từ tiếng nƣớc ngoài trong đƣợc dịch sang cụm từ tiếng...
... phục vụ tìm kiếm vănbản 69 5LỜI MỞ ĐẦU 1PHẦN I. CƠ SỞ LÝ THUYẾT 3I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT___________________31.Tính chính xác của vănbảntiếngViệt 32. Từ tiếngViệt 42.1. Từ ... LÝ VĂNBẢNTIẾNGVIỆT 561.1 Tổ chức từ điển 561.2. Tổ chức cơ sở dữ liệu vănbản 571.3. Xác định các từ khoá trong vănbản 58MỤC LỤCMỤC LỤC 1Hình 1: Mô hình xác định từ đại diện cho vănbản ... 491 59Bảng 1: Bảng tần suất của một số văn bản Nếu chúng ta kiểm tra các vănbản này, chúng ta cần chú ý rằng d1 và d2 làtương tự nhau vì sự phân bố các từ trong d1 phản ánh sự phân bố...