2.2.4.1. TREC là gì?
TREC là viết tắt của Text REtrieval Conference, có nghĩa là Hội nghị về Tìm kiếm Thông tin Văn bản, được tổ chức hằng năm tại Viện Quốc gia về Tiêu chuẩn và Công nghệ Hoa Kỳ (NIST _ National Institute Standard and Technology) [ 8]. TREC là một loạt Hội nghị chuyên cung cấp cơ sở hạ tầng cho việc kiểm tra, đánh giá quy mô lớn về công nghệ tìm kiếm (chủ yếu là tìm kiếm văn bản). Hội nghị
TREC được tạo ra để thúc đẩy nghiên cứu về các công nghệ tìm kiếm thông tin. Các mục tiêu chính của TREC là :
• Khuyến khích các nghiên cứu trong tìm kiếm thông tin dựa trên ngữ liệu
đánh giá qui mô lớn.
• Phát triển giao tiếp, liên lạc giữa các ngành công nghiệp, giáo dục và chính phủ bằng cách cung cấp một diễn đàn mởđể trao đổi các ý kiến nghiên cứu.
• Hỗ trợ trao đổi công nghệ từ những phòng thí nghiệm nghiên cứu thành những sản phẩm thương mại.
• Cải thiện vượt bật các phương pháp luận tìm kiếm trên các vấn đề thế giới thực và các độ đo cho tìm kiếm thông tin.
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
• Tạo ra một loạt ngữ liệu đánh giá liên quan các khía cạnh khác nhau của tìm kiếm thông tin.
• Phát triển các công nghệ đánh giá thích hợp sẵn có mà được sử dụng bởi ngành công nghệp và giáo dục, bao gồm cả việc phát triển các công nghệ đánh giá mới thích hợp hơn với các hệ thống hiện tại.
Chu trình Hội nghị hằng năm của TREC :
TREC gồm các lĩnh vực tập trung khác nhau gọi là TRACK. Nhiệm vụ của các TRACK chủ yếu là tập trung vào vấn đề con của tìm kiếm thông tin văn bản. Chính những TRACK này tiếp thêm sinh lực, và làm cho TREC tiếp tục phát triển vì những TRACK này thực hiện :
+ Ngữ liệu chuyên môn hóa hỗ trợ nghiên cứu trong các lĩnh vực mới. + Những thí nghiệm qui mô lớn gỡ những lỗi mà công việc gặp phải.
Kêu gọi tham gia Xác định công việc Kiếm được tài liệu Thử nghiệm tìm kiếm thông tin Phát triển chủ đề Đánh giá độ liên quan Đánh giá kết quả Phân tích kết quả Hội nghị TREC Tiến hành công bố
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Tuy nhiên, sự phát triển tập hợp TRACK trong một TREC cụ thể phụ thuộc vào :
+ Sự hưởng ứng của những người tham gia.
+ Các công việc mà TREC đưa ra có thích hợp hay không + Nhu cầu về tài trợ
+ Sự ràng buộc về nguồn ngữ liệu…
Đánh giá theo tiêu chuẩn của TREC chính là xây dựng bộ ngữ lịêu dùng để đánh giá theo chuẩn của TREC và phương pháp đánh giá theo độ liên quan theo chuẩn TREC, thêm vào đó là phương pháp đánh giá kết quả theo chuẩn 11 điểm của độ bao phủ.
Vì phương pháp đánh giá theo độ liên quan, phương pháp đánh giá kết quả
theo chuẩn 11 điểm của độ bao phủđã được trình bày đến trong các phần trên nên chúng tôi chủ yếu sẽ trình bày trong phần tiếp theo về cách xây dựng ngữ liệu của TREC.
2.2.4.2. Cách xây dựng ngữ liệu của TREC
Như chúng tôi đã đề cập, TREC đánh giá các hệ thống tìm kiếm thông tin theo mô hình hướng hệ thống. Theo mô hình này, bắt buộc hệ thống đánh giá phải thực hiện các công việc đã đề cập trong phần 2.2.2. Trong đó, phần xây dựng bộ ngữ
liệu đánh giá là phần quan trọng nhất và TREC làm rất tốt công việc này do kích thước của bộ ngữ liệu rất lớn và thực tế. Ngoài ra, việc đánh giá thì mở cho rất nhiều nhóm nghiên cứu, số người tham gia vào TREC qua các năm tăng lên một cách nhanh chóng. Số lượng có ý nghĩa các nhóm tham gia mỗi năm, bảo đảm sự ổn định và có thể so sánh qua các năm. TREC cũng xây dựng bộ ngữ liệu dùng để đánh giá gồm ba phần : tập tài liệu hay kho ngữ mẫu, tập câu truy vấn, và bảng
đánh giá liên quan chuẩn. Đối với từng phần, TREC đều đưa ra các chuẩn xây dựng và định dạng khá tốt. Vì vậy, chúng tôi cũng thực hiện định dạng bộ ngữ liệu theo chuẩn TREC. Sau đây là cách xây dựng ngữ liệu của TREC [ 9].
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
2.2.4.2.1.Xây dựng tập hợp các tài liệu
Tùy thuộc vào mục đích, nhu cầu của người thực hiện đánh giá, họ sẽ chọn tập các tài liệu xác định để xây dựng. Tập tài liệu này phải là mẫu của các loại văn bản mà họ chọn. Tuy nhiên, tập các tài liệu này phải được xem xét các
điều kiện về thể loại, số lượng, là văn bản đầy đủ hoặc là bản tóm tắt. Ngoài ra, việc lựa chọn tập tài liệu mà phản ánh được tính đa dạng của vấn đề, của việc lựa chọn từ ngữ, văn phong, hình thức… cũng rất quan trọng. Tập hợp tài liệu thường phải rất lớn.
Ngữ liệu chính của TREC chứa 3 gigabytes văn bản (trên 1,000,000 tài liệu). Các tài liệu được sử dụng ở các TRACK khác nhau là nhỏ hoặc lớn phụ
thuộc vào nhu cầu của TRACK đó và dữ liệu có sẵn.
Các tập tài liệu chính của TREC chủ yếu bao gồm những bài báo giấy và những bài báo điện tử, ngoài ra còn có một số tài liệu khác nhưng số lượng tài liệu này rất ít. Những cấu trúc cấp cao trong mỗi tài liệu được gán nhãn bằng SGML, và mỗi tài liệu được gán bởi một thẻ xác định duy nhất được gọi là
DOCNO (số thứ tự của tài liệu). Để giữ tính thật của tài liệu, văn bản sẽđược giữ gần giống với văn bản gốc có thể. Tuy nhiên, ngữ liệu của TREC không
được xác định, sửa các lỗi chính tả, tách câu, tách những bảng cấu trúc lạ và những lỗi tương tự như vậy.
2.2.4.2.2.Xây dựng các chủ đề
TREC phân biệt một lời yêu cầu thông tin (topic - chủ đề ) với cấu trúc dữ
liệu mà được thật sự đưa vào trong một hệ thống tìm kiếm thông tin (query - câu truy vấn). Bộ ngữ liệu của TREC cung cấp các chủđề cho phép một phạm vi lớn các phương pháp tạo câu truy vấn được đánh giá và cũng bao gồm một sự trình bày rõ ràng rằng tiêu chuẩn gì làm cho tài liệu liên quan đến chủ đề. Mỗi cách trình bày chủ đề thường gồm bốn phần : một thẻ định danh (number), một tiêu đề (title), một đoạn mô tả (description) và một đoạn tường thuật (narrative).
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trong đó thẻ định danh được dùng để phân biệt các chủđề với nhau. Còn
đoạn mô tả được dùng để mô tả rõ ràng hơn nội dung tiêu đề của chủđề. Đoạn tường thuật được tạo ra để làm chuẩn cho biết tài liệu nào thật sự liên quan đến chủđề đang đề cập.
Ngoài ra, những phần khác nhau của các chủ đề của TREC cho phép người nghiên cứu kiểm tra hiệu quả chiều dài những câu truy vấn khác nhau với biểu diễn tìm kiếm.
Từ một chủ đề có thể tạo ra nhiều câu truy vấn khác nhau. Khi tìm kiếm, các câu truy vấn sẽ được sử dụng để tìm kiếm. Thông thường, mỗi năm TREC lại tạo 50 chủđề mới.
Chủ đề được tạo ra bởi những người đánh giá. Họ tạo ra các chủ đề ứng viên và gởi đến NIST. Các chủđềứng viên này liên quan đến những vấn đề bất kỳ mà họ quan tâm. Sau đó, NIST sẽ tìm kiếm thông tin với các chủ đề ứng viên này bằng hệ thống tìm kiếm TREC PRISE. Cuối cùng, NIST sẽ chọn ra những chủ đề nào có số lượng kết quả trả về gần với ngưỡng các tài liệu liên quan đã được đặt ra và số lượng các chủđể được chọn phải chia đều cho những người đánh giá
2.2.4.2.3.Xây dựng bảng đánh giá liên quan chuẩn
Bảng đánh giá liên quan chuẩn là bảng chứa các chủđề và các tài liệu liên quan thật sự của các chủ đề đó. Dựa trên bảng đánh giá liên quan chuẩn này, người đánh giá xác định các tài liệu nào là thật sự liên quan đến chủđề nào sau khi chạy các hệ thống tìm kiếm. TREC hầu như sử dụng bảng đánh giá liên quan theo độ liên quan nhị phân (hoặc tài liệu liên quan đến chủ đề hoặc không). Để biết là tài liệu đó có liên quan thật sự hay không thì người đánh giá sẽ xem trong phần tường thuật của chủ đề. Phần này ghi rất chi tiết về những tài liệu như thế nào là liên quan. Sau đó, người đánh giá sẽ đánh dấu tài liệu nào là liên quan và tài liệu nào không liên quan.
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Ví dụ : Chủ đề về “kinh tế tri thức”, nó có tường thuật là : “Các tài liệu
được gọi là liên quan là những tài liệu nói về nền kinh tế tri thức, thế nào là nền kinh tế tri thức, ảnh hưởng của nền kinh tế tri thức của các nước trên thế
giới”.
Nhưng cách đánh giá bằng thủ công của người không thể thực hiện được với số lượng tài liệu quá lớn, đặc biệt là tài liệu của TREC. Vì vậy, TREC áp dụng phương pháp Pooling để làm bảng đánh giá liên quan chuẩn. Phương pháp này chúng tôi đã trình bày ở trên. Tại NIST, khi những người tham gia
đăng ký hệ thống tìm kiếm của họ tại NIST, họ phải thực hiện tìm kiếm với các chủđề của NIST bằng hệ thống tìm kiếm của họ. Sau đó, kết quảđược sắp xếp theo thứ tự các tài liệu trong bộ ngữ liệu kiểm tra đối với từng chủđề. NIST sẽ
chọn một số các kết quả và trộn lại với nhau, nếu chọn càng nhiều hệ thống thì bảng đánh giá liên quan chuẩn càng chính xác. Sau mỗi lần chạy, X tài liệu
đúng nhất (thường X =100) được thêm vào trong Pool hay còn gọi là danh sách các tài liệu chính xác của từng chủđề. Nhiều tài lịêu được tìm thấy trong trong X có trong nhiều hơn một lần chạy để tìm kiếm, vì vậy Pool thường nhỏ hơn con số lý thuyết X*số_lượng _các_bảng_kết_quả_được_chọn.
Bộ ngữ liệu dùng để đánh giá theo phương pháp Pooling mặc dù không công bằng lắm trong trường hợp đánh giá các hệ thống chưa tham gia vào tìm kiếm
để lấy bảng đánh giá liên quan chuẩn nhưng phương pháp này cho ra kết quả
có thể tin cậy được. Và sự khác biệt khi tính độ bao phủ, độ chính xác không chênh lệch nhiều so với đánh giá bằng thủ công.
2.3. Ngữ liệu tiếng Việt
Chúng tôi xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt và chương trình đánh giá các hệ thống tìm kíêm thông tin, đặc biệt là các hệ thống tìm kiếm thông tin tiếng Việt nên việc nói đến ngữ liệu tiếng Việt là phần không thể thiếu.
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Khác với tiếng Anh, Pháp (thường được dùng trong các hệ thống tìm kiếm thống tin phổ biến), tiếng Việt có những đặc thù riêng, đặc biệt trong việc xác định từ tiếng Việt.
2.3.1. Từ
2.3.1.1. Quan niệm về từ
Theo [10 ], thì tổng hợp từ các sách ngôn ngữ học đại cương, sách ngữ pháp và sách về từ vựng học, chúng tôi xin trình bày lại một số định nghĩa điển hình về từ
như sau:
♦ Từ là một hình thái tự do nhỏ nhất.
♦ Từ là đơn vị ngôn ngữ có tính hai mặt : âm và nghĩa. Từ có khả năng độc lập về cú pháp khi sử dụng trong lời.
♦ Từ là đơn vị nhỏ nhất có nghĩa của ngôn ngữ, được vận dụng độc lập, tái hiện tự do trong lời nói để xây dựng nên câu”. Đây cũng chính là định nghĩa mà trong ngôn ngữ học đại cương hay sử dụng.
Từ các định nghĩa trên, ta rút ra những nét đặc trưng chính của từ như sau: Về hình thức : từ phải là một khối về cấu tạo (mặt chính tả, ngữ âm) Về nội dung : từ phải có ý nghĩa hoàn chỉnh.
Về khả năng : từ có khả năng hoạt động tự do và độc lập về cú pháp.
Ngoài ra, ta còn gặp một số thuật ngữ khác trong ngôn ngữ học đại cương mà S.E.Jakhontov [ 11] đưa ra để nhận diện từ, như:
1. Từ ngữ âm: đó là những đơn vịđược thống nhất với hiện tượng ngữ âm nào
đó. Đối với Việt ngữ, đó chính là những âm tiết, hay còn gọi là “tiếng”, “tiếng một 2. Từ chính tả: đó là những khoảng cách giữa 2 chỗ trên văn tự; tức là những
đơn vị được viết liền thành khối, đối với tiếng Việt, đó chính là “chữ”
3. Từ hoàn chỉnh: đó là những cấu trúc ổn định, không thể tách rời hay hoán vị các thành tố của chúng.
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
4. Từ từ điển học: đó là đơn vị mà căn cứ vào đặc điểm ý nghĩa của nó phải xếp riêng trong từđiển.
5. Từ biến tố: đó là những đơn vị luôn luôn gồm 2 phần: gốc từ (biểu thị ý nghĩa đối tượng) và phụ tố (biểu thị mối liên hệ với các từ khác trong câu). Đây còn gọi là từ ngữ pháp.
Về phương diện xử lý tự động bằng máy tính, thì từ chính tả và từ từ điển là hai loại được nhận diện dễ nhất và được sử dụng nhiều nhất trong tài liệu này.
2.3.1.2. Quan niệm về hình vị
Trong ngữ pháp truyền thống thì hình vị được xem là thành tố trực tiếp để tạo nên từ. Do đó, hình vị được xem như là đơn vị tế bào gốc, đơn vị tế bào của ngữ pháp, và còn được gọi là từ tố. Chính vì vậy, mà việc nhận diện hình vị phải là bước đi
đầu tiên trong việc nhận diện từ. Để nhận diện hình vị, Jakhontov đưa ra cách phân xuất câu đến mức tối giản, gọi là từ câu, hay hình vị; ngoài ra, giới ngôn ngữ
học hay sử dụng phương pháp lập hình vuông Greenberg để đối sánh. Ví dụ: đối sánh “có lý” và “có ý”, ta tách được thành 3 hình vị: “có”, “lý” và “ý”.
Trước hết ta hãy xem lại quan niệm về hình vị (morpheme) trong ngôn ngữ học
đại cương: theo Baudouin de Courtenay thì hình vị là bộ phận nhỏ nhất có nghĩa của từ, còn theo Bloomfield thì hình vị là đơn vị ngôn ngữ nhỏ nhất có nghĩa. Nhưng quan niệm thường thấy trong ngôn ngữ học đại cương là: “hình vị là đơn vị
ngôn ngữ nhỏ nhất có nghĩa và/hoặc có giá trị (chức năng) về mặt ngữ pháp”. “Từ” được cấu tạo bằng một hình vị hay nhiều hình vị kết hợp với nhau theo những nguyên tắc nhất định. Ví dụ: anti-virus (chống vi rút). Hình vị bao gồm hai loại: hình vị tự do (như: work, home,…) và hình vị hạn chế (như: -ed, -less,…). Trong hình vị hạn chế gồm hình vị biến tố (như: work-ed) và hình vị phái sinh (như: home-less).
2.3.1.3. Khái niệm về cấu tạo từ
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Ví dụ: anti + poison = antipoison. Hình vị là đơn vị ngôn ngữ nhỏ nhất có nghĩa và/hoặc có giá trị (chức năng) về mặt ngữ pháp.
Hình vị gồm các loại :
- Hình vị tự do : tự nó xuất hiện với tư cách là một từđộc lập, ví dụ : house, man, black, nhà, người, đen...
- Hình vị hạn chế : xuất hiện trong tư thế đi kèm, phụ thuộc vào hình vị khác, nó bao gồm các hình vị biến tố và hình vị phát sinh.
Ví dụ : -ing, -ed, -s, -ness, ...
Để cấu tạo từ, người ta dùng các phương thức : - Dùng một hình vị.
- Tổ hợp 2 hay nhiều hình vị.
- Thêm phụ tố (tiền, trung, hậu tố) vào. - Láy.
2.3.2. Ranh giới từ
Nhận diện ranh giới từ (word boundary identification) hay còn gọi là phân
đoạn từ (word segmentation) là một công đoạn tiên quyết đối với hầu hết các hệ
xử lý ngôn ngữ tự nhiên. Đối với các ngôn ngữ biến hình (tiếng Anh, tiếng Nga,...) thì ranh giới từđược xác định chủ yếu bằng khoảng trắng hay dấu câu, còn đối với các ngôn ngữ đơn lập (trong đó có tiếng Việt) thì khoảng trắng không thể là tiêu chí để nhận diện từ. Muốn xác định được ranh giới từ trong các ngôn ngữ này, chúng ta phải dựa vào các thông tin ở mức cao hơn, như hình thái, từ pháp, cú pháp, hoặc ngữ nghĩa và thậm chí cả ngữ dụng.