PHẦN II PHƯƠNG ÁN GIẢI QUYẾT VÀ CÀI ĐẶT THỬ NGHIỆM I PHƯƠNG ÁN GIẢI QUYẾT

Một phần của tài liệu Tìm kiếm văn bản tiếng Việt (Trang 59 - 68)

III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN 1 Tìm hiểu chung về các hệ thống khai thác thông tin

4- q bao hàm thô dj (ngược với 3): Với q là một truy vấn ta có các trường hợp sau:

PHẦN II PHƯƠNG ÁN GIẢI QUYẾT VÀ CÀI ĐẶT THỬ NGHIỆM I PHƯƠNG ÁN GIẢI QUYẾT

I. PHƯƠNG ÁN GIẢI QUYẾT

Như chúng ta đã biết, nhiệm vụ của hệ thống tìm kiếm văn bản là phải xử lý dữ liệu ở dạng phi cấu trúc. Các hệ thống tìm kiếm văn bản tập chung

vào hai lĩnh vực chính là tìm kiếm duyệt. Tìm kiếm được xử dụng khi

người dùng đã biết chính xác họ muốn tìm văn bản về lĩnh vực cũng như chủ đề gì còn duyệt là được xử dụng khi người dùng chưa biết chính xác cái mà hộ muốn tìm.

Tìm kiếm và duyệt bổ xung lẫn nhau và tỏ ra hết sức hiệu quả khi ta kết hợp cả hai kỹ thuật theo thứ tự thích hợp. Kỹ thuật duyệt có thể được sử dụng để phát hiện các chủ đề cần tìm kiếm sau đó áp dụng kỹ thuật tìm kiếm trên kết quả.

Có rất nhiều mô hình tìm kiếm thông tin đã được xây dựng để phục vụ cho việc tìm kiếm văn bản. Mỗi mô hình tìm kiếm đều có các tiêu chí tìm kiếm khác nhau, kỹ thuật áp dụng cũng khác nhau nhưng chúng đều phải xây dựng dựa trên các các mục tiêu cụ thể đó là:

Biểu diễn văn bản. Biểu diễn truy vấn. Hàm tìm kiếm

Nhờ có mô hình tìm kiếm thông tin, mỗi văn bản được biểu diễn bằng tập của một số thành phần đặc trưng đó là các term. Mỗi term sẽ được ánh xạ thành một điểm trong không gian nhiều chiều hơn. Tuỳ theo từng mô hình, không gian này có thể là không gian vector n chiều (với mô hình không gian vector), không gian tập thô dung sai (với mô hình tập thô dung sai)…

Mô hình Phương pháp đánh giá Xếp hạng trọng lượng term Chi phí Toán tử logic Chính xác Không Không Thấp Không gian vector Không chính xác Liên tục Có Trung bình Tập thô Không chính xác Rời rạc Có Thấp

Bảng 4: Các đặc trưng cơ bản của một số mô hình tìm kiếm thông tin

Trong các mô hình tìm kiếm thông tin đã được đưa ra, chúng ta thấy mỗi một mô hình có những điểm mạnh và điểm hạn chế nhất định. Nhưng qua nghiên cứu ta thấy mô hình lý thuyết tập thô thể hiện được những điểm mạnh nhất là trong việc khai dữ liệu phá văn bản nói chung và việc tìm kiếm văn bản tiếng Việt nói riêng. Mô hình lý thuyết tập thô dung sai được xây dựng dựa trên mô hình lý thuyết tập thô nhưng đồng thời nó đã khắc phục được những nhược điểm của mô hình lý thuyết tập thô. Mô hình tập thô dung sai đã sử dụng các lớp dung sai thay cho việc sử dụng các lớp tương đương như mô hình tập thô đã sử dụng. Cụ thể là có thể loại bỏ được tính chất đối xứng, một trong những tính chất khá nghiêm ngặt của mô hình lý thuyết tập thô.

Vì lý do trên cộng với một khả năng mà mô hình tập thô dung sai có thể giải quyết được vấn đề đồng nghĩa cho nên em chọn mô hình này để nghiên cứu chi tiết để áp dụng trực tiếp vào bài toán tìm kiếm văn bản tiếng Việt.

Phần trên chúng ta đã tìm hiểu về khả năng của TRSM trong việc khai thác thông tin. Dưới đây chúng ta sẽ xây dựng một mô hình cụ thể để có thể phục vụ cho việc tìm kiếm văn bản tiếng Việt dựa trên mô hình tập thô dung sai.

Để giải quyết bài toán tìm kiếm văn bản tiếng Việt trong cơ sở dữ liệu văn bản chúng ta phải làm một loạt các công việc như tiền xử lý văn bản, tách từ, chích lọc các từ đại diện cho văn bản, kỹ thuật lưu trữ từ điển và và sử dụng mô hình tập thô dung sai để tìm kiếm văn bản. Nếu các công việc trên được xử lý tốt thì kết quả của việc tìm kiếm sẽ đạt hiệu quả cao hơn.

Yêu cầu xử lý dữ liệu

Đối với bài toán phân nhóm cũng như các bài toán tìm kiến văn bản, dữ liệu đầu vào phải được tiền xử lý để tìm được các đặc tính cơ bản. Cụ thể trong bài toán văn bản tiếng Việt, văn bản đầu vào phải được tiền xử lý để tách thành các term. Sau đó chọn ra các term đại diên cho văn bản từ đó có thể áp dụng kỹ thuật tính lớp dung sai cho từng term sau đó tính lớp xấp xỉ trên và xấp xỉ dưới cho từng văn bản.

Tách các term từ văn bản

Xây dựng một lược đồ mã hoá term-ID nhằm tiết kiệm không gian lưu trữ và tăng tốc độ xử lý nhờ không phải làm việc trực tiếp với văn bản nguyên thuỷ. Gán trọng số cho các term đã tách.

Xây dựng tập các từ đại diện cho văn bản. Chức năng này có thể loại bỏ các term có trọng số nhỏ hơn một ngưỡng nào đó nhằm tăng tốc độ tính toán và giảm không gian lưu trữ.

Trong bài toán phân nhóm văn bản dùng mô hình tập thô dung sai này, quá trình tiền xử lý còn có thể thực hiện công việc sau:

Xác định các lớp dung sai cho các term

Xác định các xấp xỉ trên và xấp xỉ dưới cho mỗi văn bản đầu vào. Trong tất cả các hệ thống, việc đọc từ bộ nhớ ngoài (đĩa từ) luôn có tốc độ thấp hơn rất nhiều so vơi đọc từ bộ nhớ trong. Do vậy, quá trình tiền xử lý phải được tổ chức sao cho số lần đọc dữ liệu từ bộ nhớ ngoài là tối thiều và dung lượng bộ nhớ trong sử dụng là tối đa.

Các phương pháp tách từ tiếng Việt

Một văn bản tiếng Việt, hay cụ thể hơn là một câu tiếng Việt có thể được tách thành các từ theo các phương pháp sau. Mỗi phương pháp đều có những hạn chế nhất định. Do đó, chúng ta phải chọn một phương pháp hợp lý và phù hợp với yêu cầu của từng bài toán cụ thể.

Phân tích cú pháp tiếng Việt. Phương pháp này cho kết quả rất tốt nhưng do đặc điểm ngữ pháp của tiếng Việt, việc thiết kế và cài đặt được một chương trình phân tích cú pháp gặp rất nhiều khó khăn.

Thống kê tần suất xuất hiện. Phương pháp này đã được nghiên cứu và áp dụng với một số ngôn ngữ như tiếng Anh, tiếng Pháp trong trường hợp muốn tách một cụm từ. Phương pháp này xác định một cụm từ dựa trên tần suất xuất hiện cạnh nhau của các từ nằm trong cụm từ đó. Phương pháp này đơn giản hơn phương pháp phân tích cú pháp nhưng phải quét qua toàn bộ

văn bản để tính toán xác suất xuất hiện. Đối với từ ghép tiếng Việt, việc tính toán này là không cần thiết.

Dựa vào từ điển. Đây là phương pháp đơn giản nhất do văn bản được tách chỉ dựa vào từ điển. Ta không phải quét qua toàn bộ văn bản hoặc toàn bộ câu mà chỉ lấy một số hình vị đủ dài rồi tìm trong từ điển. Phương pháp này có thể sử dụng tốt khi từ điển đầy đủ. Nhược điểm chính của phương pháp này là không phân biệt được các từ đồng âm khác nghĩa.

Như đã trình bày ở trên, phương pháp tách từ dựa vào từ điển là phương pháp đơn giản nhất và có hiệu quả tương đối tốt do các từ đồng âm khác nghĩa thường xuất hiện rất ít trong cùng một văn bản tiếng Việt. Do vậy, chúng ta sẽ chọn phương pháp này làm công cụ tách từ trong quá trình tiền xử lý văn bản tiếng Việt.

1. Nhập văn bản cần tách

2. Thực hiện tách văn bản đầu vào thành các câu 3. Đọc câu tiếp theo trong văn bản

4. Đọc hình vị tiếp theo w trong câu cần tách

5. Lấy l là số hình vị tối đa của từ có hình vị đầu tiên là w 6. Đọc l hình vị vào word

Nếu tìm thấy word trong stoplist 7. Xoá l hình vị khỏi câu cần tách

8. Trong khi không tìm thấy word trong từ điển và stoplist và l>0 Xoá hình vị cuối cùng khỏi word

giảm l đi 1 lặp lại bước 8

Nếu l>0

thực hiện công việc tiền xử lý tiếp theo đối với word Xoá l hình vị khỏi văn bản đầu vào

Ngược lại:

bổ xung w vào tập không tách được Xoá 1 hình vị khỏi câu đầu vào

9. Lặp lại từ bước 4 cho đến khi câu rỗng.

10. Lặp lại từ bước 3 cho đến khi tất cả các câu trong văn bản được tách

Loại bỏ các từ mang ít thông tin

Văn bản tiếng Việt thường có rất nhiều từ không mang hoặc mang ít thông tin. Những từ này chỉ có chức năng bổ sung ý nghĩa cho từ (thường là danh từ) đứng bên cạnh nó (ví dụ như: các , cái, con, những,…) hoặc đóng vai trò là liên từ giữa các thành phần trong câu (ví dụ như: và, mặc dù, cho nên…). Rõ ràng là việc để lại các từ mang ít thông tin (từ bây giờ được gọi là từ phụ) trong tập các từ đại diện cho văn bản sẽ làm nội dung của văn bản không tập trung vào trọng tâm và do đó có thể dẫn tới kết quả phân nhóm không tốt.

Như vậy, các từ phụ phải được loại bỏ ngay trong quá trình tiền xử lý để đại diện văn bản gần với nội dung trung tâm của văn bản. Thao tác này phải được thực hiện trước khi các thực hiện tách các từ khoá. Tập các từ phụ được tổ chức thành một từ điển từ phụ và được sử dụng mỗi khi tách được một từ tthuộc văn bản đầu vào.

Chọn các từ khoá đại diện cho văn bản.

Sau khi đã tách thành công văn bản chúng ta thực hiện công việc tiếp theo đó là chọn ra các từ đại diện tốt nhất cho văn bản. Đây là công việc quan trọng và có ảnh hưởng trực tiếp đến quá trình tìm kiếm văn bản. Nếu các term được chọn là đại diện cho văn bản mà không tốt thì kết quả tìm kiếm văn bản sẽ trả lại những tài liệu không mong đợi. Việc chọn các từ khoá phụ thuộc vào nhiều kỹ thuật. Ví dự như từ loại được ưu tiên, tầm quan trọng của từ trong văn bản cũng như tần trọng số của từ. Các kỹ thuật gán trọng số thực hiện đánh giá tầm quan trọng của các từ có nghĩa trong văn bản để từ đó trọn ra các từ có nghĩa và là đại diện xứng đáng nhất cho văn bản.

Bước tiếp theo của công việc xử lý dữ liệu văn bản để phục vụ cho mô hình TRSM trong việc tìm kiếm văn bản tiếng việt đó là từ những từ đại diện

cho từng văn bản ta phải tính được lớp dung sai cho từng term để từ đó xây dụng tập các xấp xỉ trên và xấp xỉ dưới cho từng văn bản.

Dưới đây là phác thảo mô hình thực hiện của hệ thống tìm kiếm văn bản tiếng Việt mà em xây dựng trong đồ án này

Hình 4. Kiến trúc của hệ thống

Chức năng của hệ thống tìm kiếm văn bản tiếngViệt sử dụng mô hình TRSM gồm hai nhiệm vụ chính đó là :

- Xác định các lớp dung sai của tất cả các term và tập các xấp xỉ trên và tập các xấp xỉ dưới của tất cả các tài liệu

- Tìm kiếm các tài liệu theo yêu cầu của người sử dụng

Trong nhiệm vụ thứ nhất hệ thống cung cấp các công cụ cho việc cập nhật cơ sở dữ liệu. Hệ thống tính các lớp dung sai của các term theo một giá

Cơ sở dữ li quan h ệ d u Các xấp xỉ trên/dưới Các xấp x Các tài liệu chính xác Truy vấn Q So sánh

trị ngưỡng nào đó. Công việc tiếp theo hệ thống sau khi đã có được lớp dung sai của các term trong văn bản là xác định các xấp xỉ trên và dưới cho từng tài liệu trong tập tất cả các tài liệu trong cơ sở dữ liệu văn bản. Chú ý rằng khi tính lớp dung sai mỗi term chúng ta phải đặt ra một ngưỡng cụ thể. Ví dụ

như trong đồ án này khi cài đặt giải thuật em đặt ngưỡng là θ=2. Điều này có

nghĩa là term A có quan hệ dung sai với term B khi mà A và B xuất hiện cùng nhau ít nhất là trong hai văn bản trở lên.

Đối với nhiệm vụ thứ hai, khi người sử dụng đưa vào một truy vấn điều đầu tiên là hệ thống sẽ thực hiện tách từ có nghĩa cho câu truy vấn. Sau đó tính dung sai và tính các xấp xỉ của truy vấn đó sau đó thực hiện các phép đối chiếu giữa các xấp xỉ trên và dưới của truy vấn và các xấp xỉ trong các văn bản để xác định các cấp độ phù hợp qua đó đưa ra được các tài liệu theo yêu cầu của người sử dụng.

Trên cơ sở của mô hình trên có thể thấy công việc chính phải thực hiện bao gồm :

- Xây dựng chương trình thực hiện công việc quản trị cơ sở dữ liệu. - Tạo giao diện ngưới dùng để thực thi quá trình tìm kiếm tài liệu. Trong công việc thứ nhất có thể hình dung để có thể khai thác được thông tin chúng ta phải có chiến lược trong việc lưu trữ thông tin. Trong đề tài này dữ liệu là các tài liệu dạng văn bản sau quá trình tiền xử lý tập các term đại diện cho tài liệu sẽ được lưu trữ vào cơ sở dữ liệu. Công việc tiếp theo là dựa trên cơ sở dữ liệu này chúng ta thực hiện tính các không gian xấp xỉ cho từng tài liệu dựa trên lý thuyết tập thô dung sai. Kết quả của công việc quản trị cơ sở dữ liệu này là chúng ta nhận được một cơ sở dữ liệu của các văn bản trong cơ sở dữ liệu lưu trữ thông tin về các tài liệu cũng như không gian xấp xỉ của từng tài liệu.

Công việc thứ hai mà em đặt ra trong đề tài là mô phỏng một giao diện người dùng cho việc tìm kiếm tài liệu theo yêu cầu của người sử dụng. Để có thể thực hiện công việc tìm kiếm thông tin người sử dụng nhập vào một truy vấn. Thông qua tiền xử, câu lý truy vấn này được phân tách thành các term. Hệ thống sẽ thực hiện tính các không gian xấp xỉ của truy vấn và áp dụng thuật toán TRSM để cung cấp các tài liệu có khả năng đáp ứng thông tin theo yêu cầu người sử dụng với các cấp độ chính xác được chỉ ra.

Một phần của tài liệu Tìm kiếm văn bản tiếng Việt (Trang 59 - 68)

Tải bản đầy đủ (DOC)

(86 trang)
w