Ngữ liệu tiếng Việt

Chúng tôi xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt và chương trình đánh giá các hệ thống tìm kíêm thông tin, đặc biệt là các hệ thống tìm kiếm thông tin tiếng Việt nên việc nói đến ngữ liệu tiếng Việt là phần không thể thiếu.

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Khác với tiếng Anh, Pháp (thường được dùng trong các hệ thống tìm kiếm thống tin phổ biến), tiếng Việt có những đặc thù riêng, đặc biệt trong việc xác định từ tiếng Việt.

2.3.1. Từ

2.3.1.1. Quan niệm về từ

Theo [10 ], thì tổng hợp từ các sách ngôn ngữ học đại cương, sách ngữ pháp và sách về từ vựng học, chúng tôi xin trình bày lại một số định nghĩa điển hình về từ

như sau:

♦ Từ là một hình thái tự do nhỏ nhất.

♦ Từ là đơn vị ngôn ngữ có tính hai mặt : âm và nghĩa. Từ có khả năng độc lập về cú pháp khi sử dụng trong lời.

♦ Từ là đơn vị nhỏ nhất có nghĩa của ngôn ngữ, được vận dụng độc lập, tái hiện tự do trong lời nói để xây dựng nên câu”. Đây cũng chính là định nghĩa mà trong ngôn ngữ học đại cương hay sử dụng.

Từ các định nghĩa trên, ta rút ra những nét đặc trưng chính của từ như sau: Về hình thức : từ phải là một khối về cấu tạo (mặt chính tả, ngữ âm) Về nội dung : từ phải có ý nghĩa hoàn chỉnh.

Về khả năng : từ có khả năng hoạt động tự do và độc lập về cú pháp.

Ngoài ra, ta còn gặp một số thuật ngữ khác trong ngôn ngữ học đại cương mà S.E.Jakhontov [ 11] đưa ra để nhận diện từ, như:

1. Từ ngữ âm: đó là những đơn vịđược thống nhất với hiện tượng ngữ âm nào

đó. Đối với Việt ngữ, đó chính là những âm tiết, hay còn gọi là “tiếng”, “tiếng một 2. Từ chính tả: đó là những khoảng cách giữa 2 chỗ trên văn tự; tức là những

đơn vị được viết liền thành khối, đối với tiếng Việt, đó chính là “chữ”

3. Từ hoàn chỉnh: đó là những cấu trúc ổn định, không thể tách rời hay hoán vị các thành tố của chúng.

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

4. Từ từ điển học: đó là đơn vị mà căn cứ vào đặc điểm ý nghĩa của nó phải xếp riêng trong từđiển.

5. Từ biến tố: đó là những đơn vị luôn luôn gồm 2 phần: gốc từ (biểu thị ý nghĩa đối tượng) và phụ tố (biểu thị mối liên hệ với các từ khác trong câu). Đây còn gọi là từ ngữ pháp.

Về phương diện xử lý tự động bằng máy tính, thì từ chính tả và từ từ điển là hai loại được nhận diện dễ nhất và được sử dụng nhiều nhất trong tài liệu này.

2.3.1.2. Quan niệm về hình vị

Trong ngữ pháp truyền thống thì hình vị được xem là thành tố trực tiếp để tạo nên từ. Do đó, hình vị được xem như là đơn vị tế bào gốc, đơn vị tế bào của ngữ pháp, và còn được gọi là từ tố. Chính vì vậy, mà việc nhận diện hình vị phải là bước đi

đầu tiên trong việc nhận diện từ. Để nhận diện hình vị, Jakhontov đưa ra cách phân xuất câu đến mức tối giản, gọi là từ câu, hay hình vị; ngoài ra, giới ngôn ngữ

học hay sử dụng phương pháp lập hình vuông Greenberg để đối sánh. Ví dụ: đối sánh “có lý” và “có ý”, ta tách được thành 3 hình vị: “có”, “lý” và “ý”.

Trước hết ta hãy xem lại quan niệm về hình vị (morpheme) trong ngôn ngữ học

đại cương: theo Baudouin de Courtenay thì hình vị là bộ phận nhỏ nhất có nghĩa của từ, còn theo Bloomfield thì hình vị là đơn vị ngôn ngữ nhỏ nhất có nghĩa. Nhưng quan niệm thường thấy trong ngôn ngữ học đại cương là: “hình vị là đơn vị

ngôn ngữ nhỏ nhất có nghĩa và/hoặc có giá trị (chức năng) về mặt ngữ pháp”. “Từ” được cấu tạo bằng một hình vị hay nhiều hình vị kết hợp với nhau theo những nguyên tắc nhất định. Ví dụ: anti-virus (chống vi rút). Hình vị bao gồm hai loại: hình vị tự do (như: work, home,…) và hình vị hạn chế (như: -ed, -less,…). Trong hình vị hạn chế gồm hình vị biến tố (như: work-ed) và hình vị phái sinh (như: home-less).

2.3.1.3. Khái niệm về cấu tạo từ

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Ví dụ: anti + poison = antipoison. Hình vị là đơn vị ngôn ngữ nhỏ nhất có nghĩa và/hoặc có giá trị (chức năng) về mặt ngữ pháp.

Hình vị gồm các loại :

- Hình vị tự do : tự nó xuất hiện với tư cách là một từđộc lập, ví dụ : house, man, black, nhà, người, đen...

- Hình vị hạn chế : xuất hiện trong tư thế đi kèm, phụ thuộc vào hình vị khác, nó bao gồm các hình vị biến tố và hình vị phát sinh.

Ví dụ : -ing, -ed, -s, -ness, ...

Để cấu tạo từ, người ta dùng các phương thức : - Dùng một hình vị.

- Tổ hợp 2 hay nhiều hình vị.

- Thêm phụ tố (tiền, trung, hậu tố) vào. - Láy.

2.3.2. Ranh giới từ

Nhận diện ranh giới từ (word boundary identification) hay còn gọi là phân

đoạn từ (word segmentation) là một công đoạn tiên quyết đối với hầu hết các hệ

xử lý ngôn ngữ tự nhiên. Đối với các ngôn ngữ biến hình (tiếng Anh, tiếng Nga,...) thì ranh giới từđược xác định chủ yếu bằng khoảng trắng hay dấu câu, còn đối với các ngôn ngữ đơn lập (trong đó có tiếng Việt) thì khoảng trắng không thể là tiêu chí để nhận diện từ. Muốn xác định được ranh giới từ trong các ngôn ngữ này, chúng ta phải dựa vào các thông tin ở mức cao hơn, như hình thái, từ pháp, cú pháp, hoặc ngữ nghĩa và thậm chí cả ngữ dụng.

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Chương 3 : THIẾT KẾ VÀ CÀI ĐẶT 3.1. Xây dựng bộ ngữ liệu dùng để đánh giá

Như chúng tôi đã trình bày trong các phần trên, chúng tôi xây dựng bộ ngữ liệu dùng đểđánh giá theo tiêu chuẩn của TREC. Việc xây dựng gồm 3 phần sau :

3.1.1. Xây dựng kho ngữ liệu bằng tiếng Việt

Chúng tôi xây dựng kho ngữ liệu dùng để đánh giá bằng cách thu thập tài liệu từ các báo điện tử, chẳng hạn : www.tuoitre.com.vn, www.thanhnien.com.vn, www.vnexpress.net . Các tài liệu này bao gồm rất nhiều lĩnh vực khác nhau gồm có khoa học kỹ thuật, kinh tế, giáo dục, văn hóa, thời sự … Kho ngữ liệu của chúng tôi cho đến nay đã có gần 15.000 tài liệu, với kích thước lưu trữ là 34 MB.

Tuy nhiên, các tài liệu này ở dưới dạng thô, chưa được chuẩn hóa nên bước quan trọng nhất là chuẩn hóa ngữ liệu.

3.1.1.1. Chuẩn hóa ngữ liệu

Chuẩn hóa ngữ liệu là chuẩn hoá thành một dạng, một tiêu chuẩn duy nhất. Việc chuẩn hoá ngữ liệu gồm các nhiệm vụ sau:

3.1.1.1.1.Chuẩn hóa dạng ngữ liệu

Chuẩn hoá dạng ký tự: đưa về đúng dạng điện tử, định dạng tập tin (từ các định dạng tập tin khác nhau sẽ chuyển về txt, loại bỏ những thứ không phải là văn bản), đúng mã ký tự (chuyển về mã Unicode). Chuẩn hoá tập tin: mỗi tập tin ngữ liệu sẽ gồm một số câu (khoảng 2000 từ), mỗi câu có thể nằm trên một dòng, hết câu, ngắt xuống dòng cứng sau dấu chấm câu. Mỗi đầu câu, sẽ có một mã số định danh để cho biết thông tin về văn bản, như: ngôn ngữ (Anh, Việt, Pháp, Hoa, …), lĩnh vực của tập tin (văn học, tin học, kinh tế, thể

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

thơ, ký, …) và thông tin về số hiệu câu (câu thứ mấy trong tập tin), số hiệu văn bản (văn bản thứ mấy trong tiểu loại/lĩnh vực đang xét). Chuẩn hoá chính tả: xem xét biến thể hình thái chính tả, như: quy tắc bỏ dấu thanh (với tiếng Việt: bỏ dấu trên nguyên âm chính theo nguyên tắc thẩm mỹ hay bỏ trên nguyên âm chính theo nguyên tắc ngữ âm học), các biến thể chữ viết, như: cách viết i/y trong tiếng Việt “hoá lý” và “hóa lí”.

3.1.1.1.2.Định dạng ngữ liệu

Sau khi thu thập ngữ liệu và chuẩn hóa ngữ liệu về dạng văn bản, chúng tôi chuyển tất cả ngữ liệu sang định dạng XML với một thẻ định danh như

DOCNO của TREC. Thẻđịnh danh của chúng tôi là DOCID. Sở dĩ chúng tôi chuyển sang định dạng XML là vì như thế chúng tôi có thể dễ dàng chuyển đổi định dạng để tìm kiếm cho tất cả các hệ thống tìm kiếm khác nhau. Định dạng ngữ liệu của chúng tôi có trong phần phụ lục.

Chúng tôi có chương trình cho phép chuyển đổi định dạng từ text sang XML giống tài liệu của chúng tôi. Chương trình này rất hữu ích trong việc tạo thêm tài liệu cho kho ngữ liệu của chúng tôi.

3.1.2. Xây dựng tập câu hỏi bằng tiếng Việt

Tập câu hỏi được xây dựng bằng cách đọc lướt qua một số tài liệu và tạo một tập X câu hỏi. Sau đó, chúng tôi tạo định dạng cho câu hỏi theo tiêu chuẩn của TREC, tức câu hỏi phải có phần định danh, tiêu đề, mô tả và tường thuật. Câu hỏi cũng

được định dạng ở XML.

Tiếp theo, chúng tôi chạy tập X các câu hỏi cho các hệ thống tìm kiếm. Rồi xem lại kết quả tìm kiếm của các hệ thống để lựa chọn những câu hỏi nào là tối ưu nhất

để tạo tập Y câu hỏi chính thức. Vì vậy Y luôn nhỏ hơn hay bằng X.

Cả câu hỏi và ngữ liệu tiếng Việt đều phải được tách từ trong trường hợp

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Anh không thể nào được dùng để đánh giá hệ thống tiếng Việt. Do đó, chúng tôi cũng xây dựng một chương trình tách từ cho ngữ liệu tiếng Việt.

3.1.3. Tách từ tiếng Việt

Để nhận diện ranh giới từ, chúng tôi đã sử dụng một số hình như: MM Maximum Matching: forward / backward ; LRMM: Left Right, RLMM: Right Left và phương pháp MMSEG : Maximum Matching Segmentation.

Theo phương pháp LRMM để phân đoạn từ tiếng Việt trong một ngữ/câu, ta đi từ trái sang phải và chọn từ có nhiều âm tiết nhất mà có mặt trong từđiển, rồi cứ tiếp tục cho từ kế tiếp cho đến hết câu. Với cách này, ta dễ dàng tách được chính xác các ngữ/câu như: “hợp tác xã | mua bán”; “thành lập | nước | Việt Nam | dân chủ | cộng hoà”,…. Phương pháp RLMM thì ngược lại, trong một câu/ngữ, ta

đi từ phải sang trái và chọn từ có nhiều âm tiết nhất mà có mặt trong từđiển, rồi cứ tiếp tục cho từ kế tiếp cho đến hết câu. Phương pháp MMSEG là sự kết hợp của cả hai phương pháp LRMM và RLMM, do đó MMSEG cho kết quả tốt hơn hai phương pháp trên.

3.1.4. Xây dựng bảng đánh giá

Chúng tôi xây dựng bảng đánh giá theo phương pháp Pooling. Chúng tôi chạy các hệ thống khác nhau đểđánh giá. Chúng tôi đã tìm hiểu các hệ thống sau:

Hệ thống SMART [12 ] của Đại học Cornell phát triển, một hệ thống kinh

điển về mô hình vec-tơ .

Hệ thống XIOTA [ 13], hệ thống cho phép định dạng ngữ liệu theo XML,

được phát triển tại Pháp.

Hệ thống Terrier [14 ] của Đại học Glasgow, Scot-len. Hệ thống này được dùng để chạy các track Tetra, Robust của TREC.

Hệ thống Lucene [15 ], do nhóm Jakarta Apache phát triển, đây là một search engine được dùng phổ biến.

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Hệ thống Tìm kiếm Tiếng Việt hay Search4Vn của một nhóm làm luận văn khóa 2001 phát triển để tìm kiếm thông tin tiếng Việt.

Tuy nhiên, đa số các hệ thống làm cho tiếng Anh nên mã hóa của các hệ thống này không hỗ trợ tiếng Việt (mặc dù tiếng Việt được mã hóa bằng mã Unicode), vì vậy muốn thực thi các hệ thống tìm kiếm cho tiếng Việt bắt buộc chúng tôi phải thực hiện chuyển mã cho chương trình tìm kiếm. Các hệ thống này được viết trên rất nhiều ngôn ngữ khác nhau, gồm có ngôn ngữ C trên Linux, ngôn ngữ BASH Shell, ngôn ngữ Java, JSP, ngôn ngữ DOT NET; và tài liệu cho các thành phần mã nguồn không đầy đủ nên chúng tôi khó có thể chỉnh sửa hết tất cả các hệ thống. Chúng tôi đã làm hết khả năng có thể đểđọc mã nguồn và tìm cách sửa mã cho hệ

thống tìm kiếm nhưng chúng tôi chỉ có thể chạy được vài hệ thống.

Sau khi chạy các hệ thống, chúng tôi giao các bảng liên quan lại thành bảng liên quan chuẩn. Sau đó, chúng tôi đọc lại và tạo bảng đánh giá liên quan chuẩn hòan chỉnh.

3.1.4.1. Hệ thống SMART

3.1.4.1.1.Giới thiệu hệ thống SMART

SMART là một hệ thống tìm kiếm thông tin dựa trên mô hình vector được

đề xuất bởi Salton vào cuối những năm 60. Mục đích chính của SMART là cung cấp một nền tảng cho việc xây dựng tìm kiếm thông tin, lập chỉ mục,

đánh giá tìm kiếm thông tin.

Mục đích thứ hai là cung cấp cho người dùng thông tin cuối cùng vừa nhỏ

thích hợp với người dùng.

SMART có những ưu điểm và khuyết điểm của nó.SMART được thiết kế

rất linh hoạt, nó cho phép thêm chỉnh sửa các đoạn mã và có thể chạy trên bất kỳ hệ thống UNIX với yêu cầu về kích thước bộ nhớ nhỏ.

3.1.4.1.2.Quá trình tìm kiếm thông tin của SMART

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

1. lập chỉ mục tự động : trích dẫn và xác định các yếu tố thông tin là từ hay cụm từ (term) của tài liệu và câu truy vấn.

2. Phân loại tài liệu: tập hợp các tài liệu có liên quan với nhau để tạo thành những lớp tài liệu có cùng chủđề, làm như vậy để hệ thống có thể tìm được nhiều tài liệu có chủ đề tương tự đồng thời cũng làm tăng tốc độ xử lý của hệ thống (xin xem giải thích phần dưới).

3. Xác định tài liệu được trả về bằng cách tính độ tương tự (similarity) giữa các yếu tố thông tin được lưu trữ và các yếu tố thông tin vừa được phân tích từ câu truy vấn mới nhập vào, sắp xép kết quả trả về theo thứ tự giảm dần

độ tương tự. Quá trình này , hệ thống SMART dùng mô hình vec-tơ.

4. Cải tiến câu lệnh tìm kiếm (câu truy vấn) nhằm xây dựng lại câu truy vấn dựa vào những thông tin được lấy từ kết quả của quá trình phục hồi truy vấn trước.

3.1.4.1.3.Mô hình vec-tơ của hệ thống SMART

Trong mô hình này, mỗi tài liệu được đặc trưng bởi 1 vector của tập các từ

ngữ (term). Tập các từ ngữ này được xác định bởi quá trình lập chỉ mục của hệ

thống. Có nghĩa là với mỗi tài liệu cụ thể DOCi sẽ được xác định bởi tập từ

ngữ TERM1 ,TERM2,…..,TERMt (Từ ngữở đây có thể gọi 1 cách rộng hơn là yếu tố thông tin vì nó có thể là một từ, ngữ được trích dẫn từ các tài liệu hay một từ , cụm từ lấy từ các từđiển thuật ngữ đồng nghĩa). Một tập các tài liệu DOC1, DOC2, …., DOCn có thểđược biểu diễn thành 1 ma trận trong đó mỗi dòng của ma trận là 1 tài liệu, mỗi cột biểu diễn 1 yếu tố thông tin của các atì liệu.

TERM1 TERM2 … TERMt DOC1 TERM11 TERM12 … TERM1t DOC2 TERM21 TERM22 … TERM2t ….

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

TERMij gọi là trọng số thông tin của yếu tố thông tin TEMj trong tài liệu DOCi , nó chính là tần số xuất hiện của TERMj trong tài liệu DOCi.

TERMij=0 có nghĩa là trong tài liệu DOCi không tồn tại yếu tố thông tin TERMj

=> Tương tự như vậy các câu truy vấn khi được đưa vào hệ thống cũng sẽ được biểu diễn thành vector có t thành phần TERM có sẵn của tài liệu. Nhưng giá trị của các TERMij không phải là trọng số mà có giá trị trị nhị phân.

- Khi TERMij=0 : từ (ngữ) của câu truy vấn không có trong tập yếu tố thông tin tài liệu

- TERMij=1 : từ (ngữ) của câu truy vấn có trong tập yếu tố thông tin tài liệu Biểu diễn hình học của tập vec-tơ tài liệu:

Đánh giá sự liên quan

Các vấn đề về độ liên quan