Đặc điểm chính tả và cấu trúc câu trong tiếng Việt

MỤC LỤC

Câu đơn

Câu đơn là loại câu cơ sở của tiếng Việt, nó bao gồm một nòng cốt đơn hay một kết cấu chủ vị. Về mặt ngữ nghĩa, Câu đơn mang ngữ nghĩa tự thân, còn câu ghép mang nghĩa kết hợp. Câu đơn có thể là câu khẳng định, câu phủ định, câu nghi vấn, câu tường thuật, câu cầu khiến, câu biểu cảm.

Câu ghép

Vì phở ngon nên cửa hàng của nó mới đông khách đến thế 3.3 Các thành phần của câu. Vị ngữ: Thành phần chính, bổ sung, giải thích ý nghĩa cho thành phần chủ yếu. Trạng ngữ: Thành phần chủ yếu, bổ sung ý nghĩa cho câu, chỉ nơi chốn, thời gian, không gian, ….

Bổ ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho động từ làm vị ngữ.

Các đặc điểm của tiếng Việt

Đặc điểm chính tả

Cách viết hoa tuỳ tiện đối với danh từ riêng: Tồn tại nhiều cách viết khác nhau ví dụ như Việt nam / Việt Nam. Phiên âm nước ngoài: là hình thức biến chữ ngoại quốc thành chữ địa phương. Nhưng hiện nay tồn tại cả hai cách viết đó là phiên âm hoặc không phiên âm.

Dấu gạch nối thường xuất hiện các từ đa âm nước ngoài du nhập vào Việt Nam. Các cách viết không thống nhất sẽ gây rất nhiều khó khăn trong việc kiểm tra chính tả cũng như áp dụng kiểm tra chính tả tự động bằng máy tính.

Vấn đề đa nghĩa và nhập nhằng trong ngôn ngữ

MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂN BẢN 1. Biểu diễn văn bản

Các kỹ thuật khai phá

Các bài toán thường được quan tâm trong khai phá dữ liệu văn bản là Phân loại văn bản (text categorization), Phân lớp văn bản (text classification), lập chỉ mục tìm kiếm (text indexing). Nếu dữ liệu dạng văn bản đã được lập chỉ mục, với mục đích trợ giúp cho quá trình xử lý ngôn ngữ tự nhiên, cấu trúc chỉ mục (indexing structure) có thể được sử dụng cho quá trình phát hiện tri thức chính xác từ dữ liệu văn bản. Trong phần này, chúng ta xem xét cách tìm kiếm thông tin trong một tập các tài liệu đã được lập chỉ mục bằng cách tìm kiếm (retrieveing) một cách tự động những mối quan hệ kết hợp giữa các từ khoá (key-word), được gọi là luật kết hợp (association rule).

Khi một sơ đồ đánh trọng số được lựa chọn thì việc đánh chỉ mục tự động có thể được thực hiện như là phép lựa chon đơn giản, trong đó các từ được lựa chọn thoả mãn ràng buộc trong số đã cho. Tuy nhiên, một trong những nhược điểm của phương pháp này là do không có thêm bất kỳ một tri thức (ví dụ như từ điển xếp loại đồng. nghĩa) nên thủ tục lập chỉ mục tự động tạo ra các chỉ mục chung chung, không thực sự mạnh mẽ, chặt chẽ, hướng chủ đề.

Phân nhóm văn bản

Cuối cùng, thuật toán này đều có tính toàn cục ở chỗ tất cả các cặp nhóm đều được xử lý để tính toán độ tương đồng và do đó độ phức tạp tính toán đều là O(n2). Các thuật toán phân nhóm dạng không phân cấp hoạt động theo cách thức trái ngược so với các thuật toán phân nhóm phân cấp. Các thuật toán này luôn tăng đơn điệu số phần tử của từng nhóm và các nhóm mới có thể là kết quả của quá trình tách hay hợp các nhóm cũ.

Các phương pháp phân nhóm không phân cấp có thể yêu cầu các văn bản không thể được trùng nhau ở các nhóm khác nhau (như phương pháp chia) hoặc có thể trùng nhau.

MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN 1. Tìm hiểu chung về các hệ thống khai thác thông tin

Tìm kiếm văn bản theo mô hình không gian vectơ

Một trong những mô hình phân nhóm hoặc tìm kiếm văn bản truyền thống đó là dựa theo mô hình không gian vectơ, với cơ sở lí thuyết về ma trận xây dựng những vấn đề liên quan tới kỹ thuật phân nhóm các tài liệu, cách tiếp cận tới những vấn đề trong truy vấn cơ sở dữ liệu văn bản. Trong đồ án này sẽ trình bày cụ thể hơn về mô hình không gian vectơ áp dụng cho bài toán tìm kiếm văn bản, các khái niệm và xây dựng thuật toán cho tìm kiếm thông tin. A là một giải thuật nhận chuỗi ký tự theo chủ đề là t làm đầu vào và trả lại một tập các văn bản A(t) ở đầu ra.

Ví dụ: Thuộc tính thích hợp có thể thực hiện trên nghiệm Dtest⊆ D của những văn bản và tập hợp kiểm tra độ tương tự Ttest của các chủ đề. Độ chính xác (Precision) của giải thuật A với sự tập trung tới thuộc tính thích hợp và tập thử nghiệm Dtest là Pt% cho chủ đề t ⊆ Ttest được tính.

PHƯƠNG ÁN GIẢI QUYẾT VÀ CÀI ĐẶT THỬ NGHIỆM I. PHƯƠNG ÁN GIẢI QUYẾT

CÀI ĐẶT THỬ NGHIỆM

TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT 1 Tổ chức từ điển

Cũng trong cơ sở dữ liệu này em định nghĩa một bảng chứa các từ không có nghĩa, ít ý nghĩa, các ký hiệu để từ đó giúp cho việc tách các từ có nghĩa trong văn bản nhanh hơn và chia nhỏ các đoạn cần tách tốt hơn. Chính việc chia nhỏ các đoạn cần tách tốt sẽ giúp cho thuật toán tách từ có nghĩa đạt hiệu quả cao hơn vì tránh phải thực hiện nhiều vòng lặp thừa mà không tách ra được từ có nghĩa nào cả. Việc chuyển đổi dữ liệu văn bản từ dạng phi cấu trúc về dạng cấu trúc đó là một công việc cần thiết để từ đó chúng ta có thể áp dụng các kỹ thuật khai phá văn bản nói chung cũng như tìm kiếm văn bản tiếng Việt nói riêng.

Để giải quyết tốt bài toán này chúng ta cần phải tổ chức tốt từ điển, cần phải có một giải thuật tách từ tiếng Việt hợp lý để chọn ra tập các từ đại diện cho văn bản. Các từ đại diện cho văn bản phải thoả mãn các tính chất đó là một tập các từ có thể phân biệt được giữa văn bản này với các văn bản khác nhưng đồng thời phải đưa ra được các từ mang tính trọng tâm của văn bản. Đánh giá kết quả: Như chúng ta đã biết, sự khó khăn nhất của bài toán khai phá dữ liệu văn bản tiếng Việt nói chung cũng như bài toán tìm kiếm văn bản tiếng Việt nói riêng thì ngoài một giải thuật tìm kiếm tốt ra chúng ta cần phải có một phương án giải quyết thật tốt bài toán bài toán tiền xử lý dữ liệu.

TRSM là một mô hình khá phù hợp với bài toán tìm kiếm văn bản tiếng Việt không những đẫ giải quyết khá tốt vấn đề đồng nghĩa mà nó còn đưa ra được những tài liệu sau khi truy vấn theo phương pháp xấp xỉ, đây là một phương pháp khá mới và cũng hiệu quả dựa trên lý thuyết mờ để tìm kiếm thông tin. Để xây dựng hệ thống tìm kiếm văn bản tiếng Việt sử dụng mô hình tập thô dung sai đạt hiệu quả cao, ngoài phần tách các từ đại diện cho văn bản ra chúng ta còn phải tính chính xác được lớp dung sai của các term để từ đó xây dựng tập xấp xỉ trên và dưới đại diện cho văn bản một cách chính xác. Bởi vì kết quả của phần trước làm đầu vào cho phần sau và kết quả cuối cùng sẽ phụ thuộc trực tiếp vào tất cả các phần mà mô hình lý thyuết tập thô dung sai đưa ra.

Trong thời gian làm đồ án tốt nghiệp em đã tìm hiểu về các đặc điểm của tiếng Việt cũng như các cách chuyển đổi nguồn dữ liệu văn bản tiếng Việt ở dạng phi cấu trúc về dạng cấu trúc để làm đầu vào cho các mô hình khai phá dữ văn bản liệu nói chung và nguồn dữ liệu phục vụ cho bài toán tìm kiếm văn bản tiếng Việt nói riêng. Đồ án đã trình bầy một số phương pháp về xử lý văn bản tiếng Việt, nghiên cứu một số phương pháp để lọc ra tập các từ khoá và hai mô hình tìm kiếm văn bản tiếng Việt đó là mô hình không gian vector và mô hình tập thô dung sai đồng thời áp dụng mô hình lý thuyết tập thô dung sai để cài đặt chương trình. Việc tự động được thực hiện từ việc tách từ, đánh trọng số cho các từ được tách, lọc các từ đại diện cho văn bản và cuối cùng là áp dụng và cải tiến mô hình tập tập thô dung sai vào công việc tìm kiếm văn bản Việt.

Những terms được tách ra của văn bản cần phải có đầy đủ những yếu tố sau: Đó là các từ đại diện đặc trưng nhất của văn bản và đồng thời phân biệt được sự khác biệt giữa văn bản này với văn bản khác trong tập các văn bản. Xây dựng một mô hình tìm kiếm văn bản tiếng Việt dựa trên mô hình TRSM đồng thời có những cải tiến về mặt thuật toán để có thể đáp ứng được tính hợp lý, chính xác cao trong việc tìm kiếm văn bản tiếng Việt.