Phân loại từ loại trong tiếng Việt: Tìm kiếm văn bản

MỤC LỤC

Từ loại

Tất nhiên trong việc phân loại trên chỉ có ý nghĩa tương đối, vì trong nhiều tài liệu khác nhau vẫn có sự khác nhau về cách phân chia theo từ loại. Nếu xem xét một cách kỹ lưỡng hơn nữa về mặt cú pháp, trong mỗi loại từ còn có thể chia nhỏ hơn được nữa.

Câu tiếng Việt

Câu đơn

Câu đơn là loại câu cơ sở của tiếng Việt, nó bao gồm một nòng cốt đơn hay một kết cấu chủ vị. Về mặt ngữ nghĩa, Câu đơn mang ngữ nghĩa tự thân, còn câu ghép mang nghĩa kết hợp. Câu đơn có thể là câu khẳng định, câu phủ định, câu nghi vấn, câu tường thuật, câu cầu khiến, câu biểu cảm.

Câu ghép

Vị ngữ: Thành phần chính, bổ sung, giải thích ý nghĩa cho thành phần chủ yếu. Trạng ngữ: Thành phần chủ yếu, bổ sung ý nghĩa cho câu, chỉ nơi chốn, thời gian, không gian, …. Bổ ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho động từ làm vị ngữ.

Các đặc điểm của tiếng Việt

Đặc điểm chính tả

Chính tả tiếng Việt đã có một hệ thống các quy tắc chuẩn mực. Tuy vậy, vẫn còn có một số từ tồn tại nhiều cách viết khác nhau. Ngay cả bản thân một người cũng có lúc viết thế này, có lúc lại viết khác. Sự sai khác này là do những nguyên nhân sau:. giông bão). Cách viết hoa tuỳ tiện đối với danh từ riêng: Tồn tại nhiều cách viết khác nhau ví dụ như Việt nam / Việt Nam. Phiên âm nước ngoài: là hình thức biến chữ ngoại quốc thành chữ địa phương.

Các cách viết không thống nhất sẽ gây rất nhiều khó khăn trong việc kiểm tra chính tả cũng như áp dụng kiểm tra chính tả tự động bằng máy tính.

MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂN BẢN 1. Biểu diễn văn bản

Các kỹ thuật khai phá

Trong phần này, ta sẽ xem xét một số những kỹ thuật dùng để khai phá tri thức từ tập các văn bản như phát hiện các luật kết hợp (association rules discovery), lập chỉ mục tự động (automated indexing)…. Nếu dữ liệu dạng văn bản đã được lập chỉ mục, với mục đích trợ giúp cho quá trình xử lý ngôn ngữ tự nhiên, cấu trúc chỉ mục (indexing structure) có thể được sử dụng cho quá trình phát hiện tri thức chính xác từ dữ liệu văn bản. Trong phần này, chúng ta xem xét cách tìm kiếm thông tin trong một tập các tài liệu đã được lập chỉ mục bằng cách tìm kiếm (retrieveing) một cách tự động những mối quan hệ kết hợp giữa các từ khoá (key-word), được gọi là luật kết hợp (association rule).

Tuy nhiên, một trong những nhược điểm của phương pháp này là do không có thêm bất kỳ một tri thức (ví dụ như từ điển xếp loại đồng nghĩa) nên thủ tục lập chỉ mục tự động tạo ra các chỉ mục chung chung, không thực sự mạnh mẽ, chặt chẽ, hướng chủ đề.

Phân nhóm văn bản

Các thuật toán phân nhóm dạng không phân cấp hoạt động theo cách thức trái ngược so với các thuật toán phân nhóm phân cấp. Các thuật toán này luôn tăng đơn điệu số phần tử của từng nhóm và các nhóm mới có thể là kết quả của quá trình tách hay hợp các nhóm cũ. Các phương pháp phân nhóm không phân cấp có thể yêu cầu các văn bản không thể được trùng nhau ở các nhóm khác nhau (như phương pháp chia) hoặc có thể trùng nhau.

MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN 1. Tìm hiểu chung về các hệ thống khai thác thông tin

Tìm kiếm văn bản theo mô hình không gian vectơ

Một trong những mô hình phân nhóm hoặc tìm kiếm văn bản truyền thống đó là dựa theo mô hình không gian vectơ, với cơ sở lí thuyết về ma trận xây dựng những vấn đề liên quan tới kỹ thuật phân nhóm các tài liệu, cách tiếp cận tới những vấn đề trong truy vấn cơ sở dữ liệu văn bản. Trong đồ án này sẽ trình bày cụ thể hơn về mô hình không gian vectơ áp dụng cho bài toán tìm kiếm văn bản, các khái niệm và xây dựng thuật toán cho tìm kiếm thông tin. A là một giải thuật nhận chuỗi ký tự theo chủ đề là t làm đầu vào và trả lại một tập các văn bản A(t) ở đầu ra.

Với việc đưa vào thuộc tính thích hợp (relevant) với hai đối số: Một chủ đề t và một văn bản d. Nếu relevant(t,d) là đúng thì có nghĩa là văn bản d được xem xét thích hợp với chủ đề t. Ví dụ: Thuộc tính thích hợp có thể thực hiện trên nghiệm Dtest⊆ D của những văn bản và tập hợp kiểm tra độ tương tự Ttest của các chủ đề.

Độ chính xác (Precision) của giải thuật A với sự tập trung tới thuộc tính thích hợp và tập thử nghiệm Dtest là Pt% cho chủ đề t ⊆ Ttest được tính.

PHƯƠNG ÁN GIẢI QUYẾT VÀ CÀI ĐẶT THỬ NGHIỆM I. PHƯƠNG ÁN GIẢI QUYẾT

CÀI ĐẶT THỬ NGHIỆM

TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT 1 Tổ chức từ điển

Cũng trong cơ sở dữ liệu này em định nghĩa một bảng chứa các từ không có nghĩa, ít ý nghĩa, các ký hiệu để từ đó giúp cho việc tách các từ có nghĩa trong văn bản nhanh hơn và chia nhỏ các đoạn cần tách tốt hơn. Chính việc chia nhỏ các đoạn cần tách tốt sẽ giúp cho thuật toán tách từ có nghĩa đạt hiệu quả cao hơn vì tránh phải thực hiện nhiều vòng lặp thừa mà không tách ra được từ có nghĩa nào cả. Việc chuyển đổi dữ liệu văn bản từ dạng phi cấu trúc về dạng cấu trúc đó là một công việc cần thiết để từ đó chúng ta có thể áp dụng các kỹ thuật khai phá văn bản nói chung cũng như tìm kiếm văn bản tiếng Việt nói riêng.

Để giải quyết tốt bài toán này chúng ta cần phải tổ chức tốt từ điển, cần phải có một giải thuật tách từ tiếng Việt hợp lý để chọn ra tập các từ đại diện cho văn bản. Các từ đại diện cho văn bản phải thoả mãn các tính chất đó là một tập các từ có thể phân biệt được giữa văn bản này với các văn bản khác nhưng đồng thời phải đưa ra được các từ mang tính trọng tâm của văn bản. Đánh giá kết quả: Như chúng ta đã biết, sự khó khăn nhất của bài toán khai phá dữ liệu văn bản tiếng Việt nói chung cũng như bài toán tìm kiếm văn bản tiếng Việt nói riêng thì ngoài một giải thuật tìm kiếm tốt ra chúng ta cần phải có một phương án giải quyết thật tốt bài toán bài toán tiền xử lý dữ liệu văn bản.

TRSM là một mô hình khá phù hợp với bài toán tìm kiếm văn bản tiếng Việt không những đẫ giải quyết khá tốt vấn đề đồng nghĩa mà nó còn đưa ra được những tài liệu sau khi truy vấn theo phương pháp xấp xỉ, đây là một phương pháp khá mới và cũng hiệu quả dựa trên lý thuyết mờ để tìm kiếm thông tin. Để xây dựng hệ thống tìm kiếm văn bản tiếng Việt sử dụng mô hình tập thô dung sai đạt hiệu quả cao, ngoài phần tách các từ đại diện cho văn bản ra chúng ta còn phải tính chính xác được lớp dung sai của các term để từ đó xây dựng tập xấp xỉ trên. Trong thời gian làm đồ án tốt nghiệp em đã tìm hiểu về các đặc điểm của tiếng Việt cũng như các cách chuyển đổi nguồn dữ liệu văn bản tiếng Việt ở dạng phi cấu trúc về dạng cấu trúc để làm đầu vào cho các mô hình khai phá dữ văn bản liệu nói chung và nguồn dữ liệu phục vụ cho bài toán tìm kiếm văn bản tiếng Việt nói riêng.

Đồ án đã trình bầy một số phương pháp về xử lý văn bản tiếng Việt, nghiên cứu một số phương pháp để lọc ra tập các từ khoá và hai mô hình tìm kiếm văn bản tiếng Việt đó là mô hình không gian vector và mô hình tập thô dung sai đồng thời áp dụng mô hình lý thuyết tập thô dung sai để cài đặt chương trình. Việc tự động được thực hiện từ việc tách từ, đánh trọng số cho các từ được tách, lọc các từ đại diện cho văn bản và cuối cùng là áp dụng và cải tiến mô hình tập tập thô dung sai vào công việc tìm kiếm văn bản Việt. Những terms được tách ra của văn bản cần phải có đầy đủ những yếu tố sau: Đó là các từ đại diện đặc trưng nhất của văn bản và đồng thời phân biệt được sự khác biệt giữa văn bản này với văn bản khác trong tập các văn bản.

Xây dựng một mô hình tìm kiếm văn bản tiếng Việt dựa trên mô hình TRSM đồng thời có những cải tiến về mặt thuật toán để có thể đáp ứng được tính hợp lý, chính xác cao trong việc tìm kiếm văn bản tiếng Việt.