... chính xác. Cách viết của tiếngViệt trong các vănbảntiếngViệt trên Internet rất đa dạng và phong phú. Vì vậy, đôi khi thông tin viết trong các vănbảntiếngViệttrên Internet không thật ... của văn bản. TiếngViệt có nhiều cách viết, cách thể hiện nội dung nên quá trình trích rút thông tin từ các vănbảntiếngViệt gặp nhiều khó khăn hơn trong các vănbảntiếng Anh. Trong luận văn, ... những vănbảnviết đúng, đầy đủ các tiền tố và quy tắc trình bày của thực thể tên. 5 thực thể tên trong các vănbảntiếngViệt còn gặp nhiều khó khăn hơn so với bài toán trong các vănbản tiếng...
... danh đối với các vănbảntiếngViệt khác.Cách viết địa danh trên các bản đồ vì thế là vấn đề được lưu tâm từ trước tới nay. Tuy nhiên, trên thực tế cách viết địa danh trên các bản đồ vẫn chưa ... ngoài trên một số vănbản tiếng Việt hiện nayPHẦN MỞ ĐẦU1. Lí do chọn đề tàiĐịa danh là một phạm trù lịch sử. Địa danh phản ánh nhiều khía cạnh địa lý, lịch sử, văn hoá . Địa danh được xem ... xúc giữa tiếngViệt và các ngôn ngữ phương Tây mà những âm /p/ và /r/ vào tiếngViệt và ngày nay chúng ta gọi /pari/ (paris) chứ không gọi là /bazi/ cho hợp với âm vốn có của tiếng Việt. Ngày...
... địa danh trên một số vănbảntiếngViệt hiện nay Chương 3. Đánh giá tình hình địa danh nước ngoài trên các văn bản, giải pháp và kiến nghị. THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN 39loại báo. Bảng 9 ... III ĐÁNH GIÁ TÌNH HÌNH ĐỊA DANH TRÊN CÁC VĂN BẢN, GIẢI PHÁP VÀ KIẾN NGHỊ 1. Tổng kết, so sánh và đánh giá tình hình viết địa danh trên các vănbản tiếng Việt hiện nay Qua chương 2, chúng ... chung và đồng nhất cho các bản đồ để định 2. Một số ý kiến về vấn đề chuẩn hoá địa danh nước ngoài trên các vănbản tiếng Việt 2.1. Những qui định của quốc tế và Việt Nam về cách viết địa...
... Một ý kiến nhỏ về cách ghi dấu thanh trênvănbản tiếng Việt 1. Những nguyên tắc chung Vấn đề cải cách giáo dục, sự phát triển của tin học… ... cũng như in ấn được thuận lợi. TiếngViệt thì khác, âm tiết ngoài cấu trúc mở còn có cấu trúc không mở, cho nên, nếu dùng chữ cái để thể hiện thanh điệu như tiếng H'mông thì sẽ gây nhầm ... bản của thanh điệu trong âm tiết. Ví dụ: gà, ngã, đặc, tính… 1.2. Nguyên tắc hợp lí Xuất phát từ đặc điểm riêng, mỗi ngôn ngữ có một cách thể hiện thanh điệu khác nhau. Chẳng hạn, trong tiếng...
... CỨU VĂNBẢNTIẾNGVIỆT DỰA TRÊN KỸ THUẬT PHÂN CỤM. Trong chương này, luận văn giới thiệu các phương pháp biểu diễn văn bản, đồng thời trình bày chi tiết một phương pháp biểu diễn vănbảntiếng ... Việt dựa trên tập dữ liệu vănbảntiếngViệt đã được phân cụm. 2.1 Phương pháp biểu diễn vănbản 2.1.1 Khái niệm Biểu diễn vănbản là phương pháp mô tả nội dung hoặc đặc trưng của vănbản [1]. ... Kỹ thuật phân cụm vănbảntiếngViệt dựa trên thuật toán phân cấp 2.2.1 Phân cụm vănbản 2.2.1.1 Khái niệm phân cụm vănbản Định nghĩa: Thuật toán phân cụm nhóm tập các vănbản vào các tập...
... loại vănbảntiếngViệt gồm a)Đặc trưng văn bản: bao gồm tìm dãy từ phổ biến trong tập ngữ liệu vănbản và tạo đồ thị đồng hiện nhằm xác lập nghĩa của từ đặc trưng b) Tạo luật phân lớp văn bản. ... xử lý theo số vănbản và ngưỡng minsupp Độ chính xác của kết quả phân lớp được trình bày trong bảng 3. Bảng 3: Độ chính xác của kết quả phân lớp Số vănbản huấn luyện Số vănbản kiểm tra ... TẠO VECTƠ ĐẶC TRƯNG VĂNBẢN 4.1. Tìm dãy từ phổ biến Thuật toán tìm tập phổ biến được ứng dụng để tìm dãy từ phổ biến trong tập dữ liệu gồm nhiều văn bản. Mỗi vănbản được xem là một giao tác....
... án tốt nghiệp Tìm kiếm vănbảntiếng ViÖtII. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂNBẢN 1. Biểu diễn văn bản Như chúng ta đã biết, bài toán khai phá dữ liệu vănbản là đi phát hiện các tri ... các bài toán làm việc trên một tập lớn các tài liệu như phân lớp văn bản, phân loại văn bản, tìm kiếm vănbản do đó mối tương quan giữa các từ chiết xuất được và tập vănbản phải được lưu ý đến. ... diện cho văn bản một cách chính xác và đặc trưng cho văn bản. Việc trích lọc các từ đại diện cho văn bản là một khâu quan trọng trong việc giải quyết bài toán khai phá dữ liệu văn bản. Mô...
... 6. S1 4 nil S1/1 7. S2 5 nil N2/1 Bảng 3. Quá trình phân tích từ trên xuống Bảng 5. Tập luật của văn phạm tiếngViệt 48 Bảng 6. Tập luật của văn phạm tiếng Anh 50 Khoá luận tốt nghiệp ... pháp tiếng Anh. Trong phần phụ lục của khoá luận em sẽ trình bày chi tiết bài toán tách từ vựng tiếng Việt. Chương 4. Xây dựng văn phạm tiếngViệt Khoá luận tốt nghiệp 474.2.5. Văn phạm tiếng ... một câu tiếngViệt nhập nhằng 62 Hình 19. Cây phân tích ứng với cách tách từ đúng 62 Danh mục bảng Bảng 1. Phân tích từ trên xuống, ưu tiên chiều sâu cho văn phạm phi ngữ cảnh 15 Bảng 2....
... các kỹ thuật khai phá dữ liệu vănbản khác, giải quyết các bài toán làm việc trên một tập lớn các tài liệu như phân lớp văn bản, phân loại văn bản, tìm kiếm vănbản do đó mối tương quan giữa ... dụng một hàm thống kê cho điểm trên các từ. Hàm này gán điểm cho mỗi từ dựa trên tần xuất của từ đó trên toàn bộ vănbản nói chung và phân bố xác xuất trên mỗi vănbản nói riêng. Chúng ta sẽ tiến ... liệu vănbản sẽ được trình bầy ở phần sau.2. Các kỹ thuật khai pháCác bài toán thường được quan tâm trong khai phá dữ liệu vănbản là Phân loại vănbản (text categorization), Phân lớp văn bản...
... 2009.Học viênLưu Văn Tăng4 Luận văn tốt nghiệpChương 2. Các công cụ phân tích vănbảntiếng Việt Trong chương này em giới thiệu một số công cụ phân tích vănbản tiếng Việt đã có áp dụng ... một vănbảntiếngViệt bất kỳ. Hãy phân tách vănbản đó ra thành các đơn vị câu độc lập.Bài toán tách câu đặt ra với mục đích xây dựng công cụ tự động tách các câu trong một vănbảntiếngViệt ... máy tính.- Tóm tắt văn bản: Từ một vănbản dài, máy tính tóm tắt thành vănbản ngắn hơn với những nội dung cơ bản nhất.- Dịch tự động: Là việc dịch tự động từ tiếng này sang tiếng khác, chẳng...
... bài toán phân lớp văn bản 1.4.2. Bài toán Phân nhóm văn bản Bài toán Phân nhóm vănbản (Text Clustering) có điểm khác so với bài toán Phân lớp vănbản ở chỗ cho một tập vănbản chưa được phân ... nhiên cũng như các đặc trưng ngôn ngữ tiếngViệt cần thiết cho bài toán Tóm tắt văn bảntiếng Việt. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên trong tiếngViệt đã được nêu ra và sẽ được giải ... Như vậy, Tóm tắt vănbản đã ra đời trước khi có sự ra đời của Khai phá vănbản ! Và khi Khai phá vănbản ra đời, dựa trên những đặc điểm của nó, người ta mới xếp Tóm tắt văn bản vào lĩnh vực...
... Dữ liệu đƣợc chia làm 2 loại Dữ liệu song ngữ : VănbảntiếngViệt không dấu VănbảntiếngViệt có dấu Dữ liệu đơn ngữ VănbảntiếngViệt có dấu Xây dựng mô hình ngôn ngữ Xây dựng ... “từ” trênvăn bản. Đối với các thứ tiếng Châu Âu, ta có thể dễ dàng nhận ra một từ, do các từ đƣợc phân cách bởi khoảng trắng. Điều này lại không đúng với tiếng Việt. Trong tiếng Việt, các tiếng_ hay ... Hinh 1.2.1-1 Thêm dấu tiếngViệt tự động bằng AMPad 11 Hình 1.2.2-2 Gõ tiếngViệt không dấu trên VietPad 12 Hình 1.2.3-3 Vănbản sau khi thực hiện chức năng thêm dấu tiếngViệt của VietPad 12...