MỤC LỤC
Để xây dựng được một hệ thống luật cú pháp tốt, ta cần phải chia các loại ngữ một cách chặt chẽ hơn. Chẳng hạn, danh ngữ kết thúc trái (là danh ngữ mà vế trái của nó đã ở điểm tận cùng), ta không thể thêm hay bổ sung từ nào vào đầu để tạo nên danh ngữ mới.
Câu đơn là loại câu cơ sở của tiếng Việt, nó bao gồm một nòng cốt đơn hay một kết cấu chủ vị. Câu đơn có thể là câu khẳng định, câu phủ định, câu nghi vấn, câu tường thuật, câu cầu khiến, câu biểu cảm.
Vị ngữ: Thành phần chính, bổ sung, giải thích ý nghĩa cho thành phần chủ yếu. Trạng ngữ: Thành phần chủ yếu, bổ sung ý nghĩa cho câu, chỉ nơi chốn, thời gian, không gian, ….
Chính tả tiếng Việt đã có một hệ thống các quy tắc chuẩn mực. Tuy vậy, vẫn còn có một số từ tồn tại nhiều cách viết khác nhau. Ngay cả bản thân một người cũng có lúc viết thế này, có lúc lại viết khác. Sự sai khác này là do những nguyên nhân sau:. giông bão). Các cách viết không thống nhất sẽ gây rất nhiều khó khăn trong việc kiểm tra chính tả cũng như áp dụng kiểm tra chính tả tự động bằng máy tính.
Trong phần này, chúng ta xem xét cách tìm kiếm thông tin trong một tập các tài liệu đã được lập chỉ mục bằng cách tìm kiếm (retrieveing) một cách tự động những mối quan hệ kết hợp giữa các từ khoá (key-word), được gọi là luật kết hợp (association rule). Tuy nhiên, một trong những nhược điểm của phương pháp này là do không có thêm bất kỳ một tri thức (ví dụ như từ điển xếp loại đồng nghĩa) nên thủ tục lập chỉ mục tự động tạo ra các chỉ mục chung chung, không thực sự mạnh mẽ, chặt chẽ, hướng chủ đề.
Các thuật toán này luôn tăng đơn điệu số phần tử của từng nhóm và các nhóm mới có thể là kết quả của quá trình tách hay hợp các nhóm cũ. Các phương pháp phân nhóm không phân cấp có thể yêu cầu các văn bản không thể được trùng nhau ở các nhóm khác nhau (như phương pháp chia) hoặc có thể trùng nhau.
Một trong những mô hình phân nhóm hoặc tìm kiếm văn bản truyền thống đó là dựa theo mô hình không gian vectơ, với cơ sở lí thuyết về ma trận xây dựng những vấn đề liên quan tới kỹ thuật phân nhóm các tài liệu, cách tiếp cận tới những vấn đề trong truy vấn cơ sở dữ liệu văn bản. Trong đồ án này sẽ trình bày cụ thể hơn về mô hình không gian vectơ áp dụng cho bài toán tìm kiếm văn bản, các khái niệm và xây dựng thuật toán cho tìm kiếm thông tin.
Như vậy trong bảng tần xuất FreqT văn bản dj biểu diễn bằng số cột j, còn số lần xuất hiện của term ti được biểu diễn bằng hàng i trong ma trận bảng tần xuất. Nếu chúng ta kiểm tra các văn bản này, chúng ta cần chú ý rằng d1 và d2 là tương tự nhau vì sự phân bố các từ trong d1 phản ánh sự phân bố các từ trong d2. Vì vậy, trong bảng tần suất, chúng ta thường quan tâm đến tỉ lệ giữa số lần xuất hiện của một từ trong văn bản và tổng số từ trong văn bản đó.
Sau đây, chúng ta giả sử rằng bảng tần xuất FreqT(i,j) là những số thực lớn hơn hay bằng không và giá trị chính xác đã được xác định.
Quá trình phân tích giá trị riêng (Singular Value Decomposion SVD) Ta nói m x n là cấp của ma trận M nếu như nó có m hàng và n cột. Sau đó, hàng đầu tiên của M được trở thành cột đầu tiên của MT, hàng thứ hai của M trở thành cột thứ hai của MT và tiếp tục, cho tới khi thứ m hàng của M trở thành thứ m cột của MT. Ma trận M là đã được nói là trực giao (Orthogonal) nếu (Mt x M) là ma trận đơn vị (ma trận có các phần tử trên đường chéo là 1).
Do đó, khi hệ thống cơ sở dữ liệu văn bản có thể có thể chọn rất tốt sau khi đã làm kích thước của ma trận bởi sự loại trừ hai hàng và cột trước của ma trận đơn này.
Một nút N trong TV_Tree đại diện cho vùng chứa tất cả các điểm x như vậy khoảng cách hoạt động (với tương ứng tới chiều hoạt động trong N.ActiveDims) giữa x và N.Center nhỏ hơn hoặc bằng N.Radius. Ngoài Center, Radius và ActiveDims, 1 nút trong cây TV_Tree cũng chứa một mảng, Child hoặc Numchild là con trỏ tới nút khác có cùng kiểu. Mỗi nút trong cây TV (kể cả gốc và lá) phải ít nhất là chứa một nửa (half full) có nghĩa là ít nhất con trỏ Child không chứa Nil.
Tuy nhiên, có một số kỹ thuật khác được sử dụng hiệu quả hơn so với cơ sở dữ liệu văn bản nhằm giải quyết được thời gian và độ phức tạp thuật toán thực hiện.
Trái với cách tiếp cận cổ điển, định nghĩa tập hợp một cách duy nhất dựa trên các phần tử của tập đó và không cần thêm bất cứ thông tin gì về các phần tử của tập (thông tin về các phần tử có thể biểu diễn. Ví dụ như dưới dạng thuộc tính-giá trị mà đôi khi được gọi là hệ thông tin). Quan hệ khụng phõn biệt được chính là điểm khởi đầu của lý thuyết tập thô và quan hệ này chỉ ra rằng sự mập mờ và không chắc chắn có quan hệ chặt chẽ với tính không phân biệt được và chúng có thể định nghĩa dựa trên các cơ sở của quan hệ này. Điểm đầu tiên của lý thuyết tập thô là mỗi tập X trong tập vũ trụ U có thể được xem xét một cách xấp xỉ bởi các xấp xỉ dưới và xấp xỉ trên trong một không gian xấp xỉ R=(U,R) với R⊆ UìU là một quan hệ tương đương.
Một điểm quan trọng cần lưu ý là trong chiến lược của chúng ta trong các cấp độ A11 , A12 ,…,A43 cho chúng ta số lượng các tài liệu là không lớn lắm nhưng với cấp độ A51, A52 thì có thể mang lại số lượng lớn các tài liệu, điều này tỏ ra không thuận lợi đối với chúng ta.
Việc chuyển đổi dữ liệu văn bản từ dạng phi cấu trúc về dạng cấu trúc đó là một công việc cần thiết để từ đó chúng ta có thể áp dụng các kỹ thuật khai phá văn bản nói chung cũng như tìm kiếm văn bản tiếng Việt nói riêng. Đánh giá kết quả: Như chúng ta đã biết, sự khó khăn nhất của bài toán khai phá dữ liệu văn bản tiếng Việt nói chung cũng như bài toán tìm kiếm văn bản tiếng Việt nói riêng thì ngoài một giải thuật tìm kiếm tốt ra chúng ta cần phải có một phương án giải quyết thật tốt bài toán bài toán tiền xử lý dữ liệu văn bản. TRSM là một mô hình khá phù hợp với bài toán tìm kiếm văn bản tiếng Việt không những đẫ giải quyết khá tốt vấn đề đồng nghĩa mà nó còn đưa ra được những tài liệu sau khi truy vấn theo phương pháp xấp xỉ, đây là một phương pháp khá mới và cũng hiệu quả dựa trên lý thuyết mờ để tìm kiếm thông tin.
Để xây dựng hệ thống tìm kiếm văn bản tiếng Việt sử dụng mô hình tập thô dung sai đạt hiệu quả cao, ngoài phần tách các từ đại diện cho văn bản ra chúng ta còn phải tính chính xác được lớp dung sai của các term để từ đó xây dựng tập xấp xỉ trên. Trong thời gian làm đồ án tốt nghiệp em đã tìm hiểu về các đặc điểm của tiếng Việt cũng như các cách chuyển đổi nguồn dữ liệu văn bản tiếng Việt ở dạng phi cấu trúc về dạng cấu trúc để làm đầu vào cho các mô hình khai phá dữ văn bản liệu nói chung và nguồn dữ liệu phục vụ cho bài toán tìm kiếm văn bản tiếng Việt nói riêng. Đồ án đã trình bầy một số phương pháp về xử lý văn bản tiếng Việt, nghiên cứu một số phương pháp để lọc ra tập các từ khoá và hai mô hình tìm kiếm văn bản tiếng Việt đó là mô hình không gian vector và mô hình tập thô dung sai đồng thời áp dụng mô hình lý thuyết tập thô dung sai để cài đặt chương trình.