Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 134 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
134
Dung lượng
2,01 MB
Nội dung
LUẬN VĂNTỐTNGHIỆP
HỆ THỐNGTÌMKIẾMTHÔNGTIN
XUYÊN NGÔNNGỮVIỆT – ANH – HOA
Giáo viên hướng dẫn : Ts Hồ Quốc Bảo & Ts Đinh Điền
Sinh viên thực hiện : Nguyễn Thị Hồng Nhung
& Nguyễn Thị Tuyết Mai
Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa
MỤC LỤC
MỤC LỤC 1
MỞ ĐẦU 3
Chương 1: TỔNG QUAN 5
1.1 Giới thiệu mô hình tìmkiếmthôngtin (Information Retrieval): 5
1.2 Hệ thốngtìmkiếmthôngtinxuyênngônngữ (CLIR): 9
1.2.1 Khái niệm: 9
1.2.2 Các vấn đề của CLIR: 10
1.3 Các hướng tiếp cận: 11
1.3.1 Dịch máy (Machine Translation for Text Translation): 11
1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri): 14
1.3.3 Dựa trên ngữliệu (Corpus-based techniques): 22
1.4 Một số công trình nghiên cứu trong và ngoài nước: 30
1.4.1 Ở Việt Nam: 30
1.4.2 Trên thế giới: 31
1.5 Kết luận: 32
Chương 2: CƠ SỞ LÝ THUYẾT 35
2.1 Giới thiệu về MRD (Machine Readable Dictionary) 35
2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới: 35
2.1.2 Vai trò và cấu trúc của MRD: 39
2.1.3 Khai thác tài nguyên từ điển: 41
2.1.4 Xây dựng từ điển tự động: 42
2.1.5 Cấu trúc vĩ mô và vi mô của từ điển MRD: 43
2.1.6 Một số từ điển MRD: 43
2.2 Các phương pháp tách từ: 51
2.2.1 Mô hình WFST: 51
2.2.2 Mô hình MMSEG: 57
2.3 Các phương pháp khử nhập nhằng: 64
2.3.1 Giới thiệu: 64
2.3.2 Khử nhập nhằng: 65
2.4 Kết luận: 70
Chương 3: PHÂN TÍCH và THIẾT KẾ 72
3.1 Tổng quan hệ thống: 72
3.1.1 Phát biểu bài toán: 72
3.1.2 Mô hình hệ thống: 72
3.1.3 Phát sinh quản lý: 73
3.2 Phân tích – thiết kế hệ thống: 76
3.2.1 Mô hình Usecase: 76
3.2.2 Đặc tả usecase: 77
3.2.3 Sơ đồ tuần tự: 78
3.2.4 Thiết kế lớp: 81
3.2.5 Thiết kế giao diện: 94
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
1
Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa
3.3 Xây dựng hệ thống: 97
3.3.1 Tổ chức các MRD: 97
3.3.2 Phương pháp tìmkiếm dựa trên MRD: 106
3.3.3 Tìmkiếmtàiliệu bằng công cụ tìm kiếm: 110
CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM 112
4.1 Cài đặt: 112
4.1.1 Tiền xử lý: 112
4.1.2 Cấu trúc dữ liệu: 112
4.1.3 Dịch từ từ điển: 113
4.1.4 Khử nhập nhằng : 113
4.1.5 Tìm kiếm: 116
4.2 Thử nghiệm: 117
4.2.1 Module dịch và khử nhập nhằng: 117
4.2.2 Chương trình demo trên web: 117
4.3 Đánh giá : 119
4.3.1 Module dịch và khử nhập nhằng: 119
4.3.2 Chương trình tìmkiểm trên Web: 120
Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN 122
5.1 Kết luận: 122
5.2 Huớng phát triển: 122
5.2.1 Đối với từ điển và ngữ liệu: 122
5.2.2 Đối với IR Engine: 123
5.2.3 Mở rộng ngônngữtìmkiếm cho hệ thống: 124
PHỤ LỤC 125
TÀI LIỆU THAM KHẢO 132
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
2
Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa
MỞ ĐẦU
Với sự phát triển nhanh chóng của công nghệ tin học, khối lượng thôngtin được lưu
trữ trên máy tính ngày càng nhiều. Vì vậy cần có các hệ thốngtìmkiếmthôngtin
(Information Retrieval) cho phép người dùng tìmkiếm một cách chính xác và nhanh
nhất các thôngtin mà họ cần trên kho tư liệu khổng lồ này. Hơn nữa, trong xu thế toàn
cầu hóa như hiện nay, rất nhiều các tổ chức, các công ty quốc tế hình thành, lại xuất
hiện một nhu cầu mới trong việc tìmkiếmthôngtin đó là tìmkiếmthôngtin đa ngữ để
người dùng có thể khai thác một cách hiệu quả nhất kho tàiliệu đa ngữ mà họ có. Một
ví dụ cụ thể về kho tư liệu đa ngữ là Internet. Các trang Web bằng nhiều ngônngữ
khác nhau xuất hiện ngày càng nhiều, trong khi các công cụ tìmkiếm đơn ngữ (search
engine) chỉ có thể trả về các tàiliệu được viết cùng ngônngữ với ngônngữ của câu
truy vấn (query). Do đó vấn đề đặt ra là liệu có thể xây dựng một hệ tìmkiếmthông
tin mà thôngtin trả về là tất cả các tàiliệu ở các ngônngữ khác nhau trong kho tư liệu
có liên quan đến câu truy vấn (không phụ thuộc vào ngônngữ của câu truy vấn). Đây
chính là bài toán đặt ra cho việc nghiên cứu các hệ tìmkiếm đa ngữ/ xuyênngữ
(multilanguage IR/ cross language IR).
Mục tiêu của các hệ thốngtìmkiếmxuyênngữ là cung cấp công cụ cho người dùng để
có thể mô tả nhu cầu tìmkiếmthôngtin ở ngôn ng
ữ mà mình diễn đạt giỏi nhất
(thường là tiếng mẹ đẻ), hệ thống sẽ phải trả về tất cả các tàiliệu ở tất cả các ngônngữ
có trong kho tư liệu đang tìmkiếm có liên quan đến nhu cầu thôngtin của người dùng.
Trên đây là nhu cầu chung của hầu hết các ngônngữ và tiếng Việt của chúng ta cũng
không phải là ngoại lệ. Khác với các ngônngữ khác, tiếng Việt có nhiều đặ
c điểm
riêng biệt và rất khó xử lý bằng máy tính, nên các đề tài nghiên cứu hay các chương
trình ứng dụng liên quan đến các hệ thốngtìmkiếm bằng tiếng Việt còn rất ít. Mà nhu
cầu tìmkiếmtàiliệu trên kho tàng kiến thức của thế giới của người Việt là rất lớn. Với
mong muốn phát triển nhiều hơn nữa các hệ thốngtìmkiếmxuyênngônngữ bằng
tiếng Việt, chúng tôi xây dựng “Hệ thố
ng tìmkiếmthôngtinxuyênngônngữViệt –
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
3
Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa
Anh – Hoa” cho phép người dùng nhập câu truy vấn bằng tiếng Việt và trả về các tài
liệu có liên quan bằng tiếng Việt, tiếng Anh và tiếng Hoa. Trong luậnvăn này chúng
tôi lựa chọn tiếng Anh và tiếng Hoa là hai đại diện tiêu biểu cho hai loại hình ngôn
ngữ biến hình và đơn lập. Từ đó cho thấy rằng hệ thốngtìmkiếmthôngtinxuyênngữ
có thể thực thi trên hai loại hình ngônngữ khác nhau.
Bố cục của luậnvăn gồm các chương sau:
•
Chương 1 – TỔNG QUAN : giới thiệu tổng quan về hệ thốngtìmkiếm
(IR), hệ thốngtìmkiếmthôngtinxuyênngônngữ (CLIR), các hướng tiếp cận
và các vấn đề cần giải quyết của hệ thống.
• Chương 2 – CƠ SỞ LÝ THUYẾT: trình bày cơ sở lý thuyết và các
phương pháp đã nghiên cứu trong luận văn.
• Chương 3 – PHÂN TÍCH VÀ THIẾT KẾ: phân tích và thiết kế hệ
thống.
• Ch
ương 4 – CÀI ĐẶT VÀ KIỂM TRA: cài đặt, kiểm thử chương trình.
• Chương 5 – KẾT LUẬN và HƯỚNG PHÁT TRIỂN: trình bày các kết
quả đạt được, các đánh giá về hệ thống và hướng phát triển trong tương lai.
• Phần TÀILIỆU THAM KHẢO và PHỤ LỤC: trình bày các thôngtin có
liên quan được sử dụng trong luận văn.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
4
Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa
Chương 1: TỔNG QUAN
Trong chương này, chúng tôi sẽ trình bày khái quát về các hệ thốngtìmkiếm
(Information Retrieval), hệ thốngtìmkiếmthôngtinxuyênngônngữ (Cross-Language
Information Retrieval) và một số khảo sát về tình hình nghiên cứu trong và ngoài
nước. Cuối chương chúng tôi sẽ rút ra kết luận chung và lựa chọn hướng tiếp cận cho
hệ thống của mình. Nội dung trình bày bao gồm:
9 Giới thiệu mô hình tìmkiếmthông tin.
9 Hệ thốngtìmkiếmthôngtinxuyênngôn ngữ.
9 Một số công trình nghiên cứu trong và ngoài nước.
9 K
ết luận.
1.1 Giới thiệu mô hình tìmkiếmthôngtin (Information
Retrieval):
Hệ thốngtìmkiếmthôngtinxuyênngữ (Cross Language Information Retrieval -
CLIR) có liên hệ rất mật thiết với hệ thốngtìmkiếmthôngtin (Information Retrieval -
IR) và cũng có rất nhiều đặc trưng của hệ thống này (IR). Qui trình của hệ thốngtìm
kiếm thôngtin như sau:
• Người dùng muốn xem những tàiliệu liên quan đến một chủ đề nào đó.
• Người dùng cung cấp một mô tả về chủ đề đó dưới dạng câu truy vấn.
•
Từ câu truy vấn này hệ thống sẽ lọc ra những cụm từ chỉ mục.
• Những cụm từ chỉ mục này sẽ được so khớp với những cụm từ chỉ mục
của các tàiliệu đã được xử lý trước đó.
• Những tàiliệu nào có mức độ liên quan cao nhất sẽ được trả về cho
người dùng.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
5
Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa
Mục đích của IR là hiển thị cho người dùng một tập các thôngtin thỏa mãn nhu cầu
của họ. Chúng ta định nghĩa chính xác cho thôngtin cần thiết là “câu truy vấn”(query),
và các thôngtin được chọn là “tài liệu” (documents). Mỗi cách tiếp cận trong IR bao
gồm 2 thành phần chính: một là các kỹ thuật để biểu diễn thôngtin (câu truy vấn, tài
liệu), và hai là phương pháp so sánh các cách biểu diễn này. Mục đích là để tự động
qui trình kiểm tra các tàiliệu bằng cách tính toán độ tương quan giữa các câu truy vấn
và tài liệu. Qui trình tự động này thành công khi nó trả về các kết quả giống với các
kết quả được con người tạo ra khi so sánh câu truy vấn với các tài liệu.
Có một vấn đề thường xảy ra đối với hệ thốngtìmkiếm là những từ mà người dùng
đưa ra trong câu truy vấn thường khác xa những từ trong tập tàiliệu chứa thôngtin mà
họ tìm kiếm. Trường hợp như thế gọi là “paraphrase problem” (vấn đề về di
ễn giải).
Để giải quyết vấn đề này hệ thống đã tạo ra các hàm biểu diễn xử lý các câu truy vấn
và các tàiliệu một cách khác nhau để đạt đến một độ tương thích nào đó.
d
Hàm biểu diễn
câu truy vấn
Không gian
biểu diễn
R
[0,1]
Xử lý của con người
j
Hàm biểu
diễn tàiliệu
Câu truy vấn
Biểu diễn 2
Tài liệu
c
Hàm so sánh
q
Biểu diễn 1
[0,1]
Không gian
tài liệu
D
Không gian câu
truy vấn
Q
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
6
Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa
Hình 1.1: Mô hình hệ thốngtìmkiếmthôngtin
Gọi miền xác định của hàm biểu diễn câu truy vấn q là Q, tập hợp các câu truy vấn có
thể có; và miền giá trị của nó là R, không gian thống nhất biểu diễn thông tin. Gọi
miền xác định của hàm biểu diễn tàiliệu d là D, tập hợp các tài liệu; và miền giá trị
của nó là R
2
. Miền xác định của hàm so sánh c là R x R và miền giá trị của nó là
[0,1], tập các số thực từ 0 đến 1. Trong một hệ thốngtìmkiếm lí tưởng:
c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D,
khi j: Q x D > [0,1] biểu diễn việc xử lý của người dùng giữa các mối quan hệ của 2
thông tin, được tính dựa trên một tiêu chuẩn nào đó (ví dụ: sự
giống nhau về nội dung
hay sự giống nhau về kiểu …). Hình 1.1 minh họa mối quan hệ này.
Có hai kiểu hệ thốngtìm kiếm: tìmkiếm dựa trên so khớp chính xác và dựa trên sắp
xếp. Mô hình trên đây có thể mô tả cả 2 cách tiếp cận. Trong hệ thốngtìmkiếm dựa
trên so khớp chính xác, miền giá trị của c được giới hạn từ 0 đến 1, và nó được chuyển
sang nhị phân để quyết định liệu 1 tài liệ
u có thỏa biểu thức bool được xác định bởi
câu truy vấn hay không? Các IR dựa trên so khớp chính xác thường cung cấp các tài
liệu không sắp xếp thỏa câu truy vấn của người dùng, hầu hết các hệ thốngtìmkiếm
hiện nay đều dùng cách này. Cách hoạt động chi tiết của hệ thống sẽ được mô tả ở
phần sau.
Đối với hệ thống IR dựa trên sắp xếp, thì các tàiliệu sẽ được sắp xếp theo th
ứ tự giảm
dần về mức độ liên quan. Có 3 loại hệ thốngtìmkiếm dựa trên sắp xếp: “ranked
Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên miền giá trị của c là
[0,1], tuy nhiên chúng khác nhau ở cách tính “giá trị trạng thái tìm kiếm” (“retrieval
status value”):
• Trong hệ thống dựa trên “ranked Boolean” giá trị này là mức độ mà
thông tin thỏa mãn biểu thức bool được chỉ ra bởi các thôngtin còn lại.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
7
Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa
• Trong hệ thống dựa trên “probabilistic” , khái niệm này hơi khác một
chút, giá trị này là xác suất mà thôngtin có liên quan đến một câu truy vấn. Rất
nhiều hệ thốngtìmkiếm dựa trên xác suất được thiết kế để chấp nhận câu truy
vấn được diễn tả bằng ngônngữ tự nhiên hơn là một biểu thức bool.
• Trong hệ thốngtìmkiếm dựa trên sự giống nhau, giá trị trạng thái tìm
kiếm được tính bằ
ng cách tính mức độ giống nhau của nội dung thông tin.
Trong các hệ thốngtìmkiếm dựa trên so khớp chính xác, việc đánh giá hệ thống chủ
yếu dựa trên việc đánh giá mức độ liên quan. Giả sử j là giá trị nhị phân và được cho
trước. Nói cách khác, ta giả sử rằng các tàiliệu hoặc có hoặc không có liên quan đến
câu truy vấn, và độ liên quan giữa tàiliệu và câu truy vấn do con người xác định là
chính xác. Theo giả định này, tính hiệu quả của các hệ
thốngtìmkiếm dựa trên so
khớp chính xác được đánh giá dựa trên 2 đại lượng thống kê là “độ chính xác”
(precision) và “độ bao phủ” (recall). Độ chính xác là tỉ lệ các tàiliệu được chọn, các
tài liệu thực sự liên quan đến các thôngtin mà người dùng cần, độ bao phủ là tỉ lệ tài
liệu có liên quan được sắp xếp chính xác theo độ liên quan bởi hệ thốngtìm kiếm. Nói
cách khác, độ chính xác bằng 1 trừ đi tỉ lệ cảnh báo sai, trong khi đó độ bao phủ
đo
mức độ hoàn chỉnh của việc tìm kiếm. Bảng 1.1 minh họa cho các mối quan hệ này.
Actually is
Selected as
Relevant Not relevant
Relevant Found False alarm
Not Relevant Missed
alarmFalseFound
Found
ecision
+
=Pr
MissedFound
Found
call
+
=Re
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
8
Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa
Bảng 1.1: Tính độ hiệu quả của hệ thốngtìmkiếmthôngtin
Việc đánh giá tính hiệu quả của hệ thốngtìmkiếm dựa trên sắp xếp thì phức tạp hơn.
Một cách tính độ hiệu quả phổ biến cho các hệ thống này là “độ chính xác trung bình”.
Nó được tính bằng cách chọn một tập lớn hơn các tàiliệu ở đầu danh sách có giá trị
bao phủ giữa 0 và 1. Phương pháp thường được sử d
ụng là phương pháp tính dựa trên
5, 7, 11 điểm theo độ bao phủ. Độ chính xác sau đó sẽ được tính cho từng tập một. Qui
trình sẽ được lặp lại cho từng câu truy vấn, và tương ứng mỗi độ chính xác trung bình
sẽ cho một độ bao phủ. Mỗi giá trị trung bình của những số này sau đó sẽ được tính
toán và ghi nhận như là một đặc trưng của hệ thống. Độ chính xác trung bình càng lớn
thì càng tốt, và việc so sánh chỉ thực sự có ý nghĩa khi chúng ta sử dụng cùng một tập
tài liệu và câu truy vấn. Tuy nhiên độ chính xác trung bình cũng làm giảm đi mức độ
thay đổi của các câu truy vấn có các đặc tính khác nhau (ví dụ như số lượng tàiliệu có
liên quan khác nhau). Hơn thế nữa, các tàiliệu có liên quan thường tập trung ở đầu
danh sách sắp xếp nên thông thường độ chính xác sẽ giảm mỗi khi tập tàiliệu được mở
rộng để tăng độ
bao phủ.
1.2 Hệ thốngtìmkiếmthôngtinxuyênngônngữ (CLIR):
1.2.1 Khái niệm:
Hệ thốngtìmkiếmthôngtinxuyênngônngữ (CLIR) là hệ thốngtìmkiếm (IR) cho
phép người dùng nhập câu truy vấn bằng một ngônngữ để tìmkiếm các tàiliệu trong
một ngônngữ khác. Đối tượng sử dụng hệ thốngtìmkiếmthôngtinxuyênngữ (CLIR)
là:
• Những người có khả năng đọc các tàiliệu tiếng nước ngoài, nhưng gặp
khó khăn khi tạo câu truy vấn bằng ngônngữ đó.
• Những người gặp khó kh
ăn khi đọc/ tìmkiếm các tàiliệu tiếng nước
ngoài nhưng lại cần một số lượng giới hạn các tàiliệu được tìmkiếm bằng
CLIR để sử dụng trong các hệ thống dịch máy (MT), thay vì phải dịch toàn bộ
tập hợp các tài liệu.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
9
[...]... hệ thốngtìmkiếmxuyênngữ , “Kỹ thuật dịch ngữ và mở rộng câu truy vấn cho hệ thốngtìmkiếmxuyênngữ , “Giải quyết việc khử nhập nhằng cho GVHD: TS Hồ Bảo Quốc TS Đinh Điền 31 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa tìmkiếmxuyênngữ Trong đó, họ đã sử dụng từ điển song ngữ Anh- Tây Ban Nha để tìmkiếm các tài liệu. .. gấn nhất với hệ thốngtìmkiếmxuyênngữ hiện tại Bảng 1.2 cho thấy một vài kiểu từ điển đồng nghĩa phổ biến được sử dụng trong các hệ thốngtìmkiếmxuyênngữ Các thôngtin chi tiết hơn về từ điển xuyênngữ sẽ được trình bày ở phần sau GVHD: TS Hồ Bảo Quốc TS Đinh Điền 14 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa Kiểu... dịch các tàiliệu thay vì dịch câu truy vấn Bởi vì các tàiliệu thường dài hơn các câu truy vấn, nên một hệ thống dịch máy được nhúng vào hàm GVHD: TS Hồ Bảo Quốc TS Đinh Điền 12 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa biểu diễn tàiliệu d có thể có nhiều thông tin về ngữ cảnh để chọn lựa ngữ nghĩa hơn là một hệ thống được...Hệ thốngtìmkiếm thông tin xuyên ngônngữViệt – Anh – Hoa • Những người biết các từ khóa hoặc cụm từ tiếng nước ngoài, và muốn đọc các tàiliệu có liên quan với những từ khóa hoặc cụm từ đó bằng ngônngữ bản xứ 1.2.2 Các vấn đề của CLIR: Vì câu truy vấn do người dùng nhập vào và các tàiliệu được tìmkiếm ở hai ngônngữ khác nhau nên CLIR cần phải có qui trình chuyển ngữ cùng với qui trình tìm kiếm. .. và ngoài nước: 1.4.1 Ở Việt Nam: GVHD: TS Hồ Bảo Quốc TS Đinh Điền 30 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thốngtìmkiếm thông tin xuyên ngônngữViệt – Anh – Hoa Theo tìm hiểu của chúng tôi, trong nước hiện nay đã có một số công trình nghiên cứu liên quan như sau: 1 “Ứng dụng xử lý ngônngữ tự nhiên trong hệ tìmkiếm thông tin trên văn bản tiếng Việt , Hồ Bảo Quốc, Đồng... dụng thông thường của từ Sự khác nhau là ở chỗ từ điển này không cần con người xây dựng Giống như các kỹ thuật tìmkiếmxuyênngôn GVHD: TS Hồ Bảo Quốc TS Đinh Điền 23 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thốngtìmkiếm thông tin xuyên ngônngữViệt – Anh – Hoa ngữ khác, kỹ thuật xây dựng từ điển tự động là một nghiên cứu quan trọng kế thừa từ ngữ cảnh của tìmkiếm đơn ngữ. .. xuất xuyênngữ là các cụm từ ban đầu sẽ bị loại ra khỏi câu truy vấn mở rộng nếu nó không mang cùng một nghĩa trong cả 2 ngônngữ GVHD: TS Hồ Bảo Quốc TS Đinh Điền 19 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa Một khía cạnh khác của dự án EMIR[2] là việc ứng dụng việc phân rã nhanh nhưng không sâu để tận dụng thôngtin ngữ. .. 0112229 Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa Hình 1.2 Tích hợp tìmkiếmxuyênngữ với dịch máy Có lẽ hầu hết các hướng tiếp cận trực tiếp đến tìmkiếmxuyênngônngữ là việc thực thi q hoặc d bằng cách sử dụng hệ thống dịch hoàn toàn tự động để mang câu truy vấn và tàiliệu vào không gian biểu diễn R dựa trên một ngônngữ nhất định Một điểm yếu của hệ thống dịch tự động là nó chỉ có... Đinh Điền 32 Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa Những phạm vi khác nhau của những ngữliệu song song có sẵn và ngữliệu có sẵn những đánh giá thích hợp vẫn là một trở ngại lớn nhất cho việc đánh giá những kỹ thuật dựa vào ngữliệu Chúng ta không biết rằng một thể hiện của một ngữliệu song song lớn ứng với một tập... Nguyễn Thị Hồng Nhung - 0112235 Nguyễn Thị Tuyết Mai - 0112229 Hệ thốngtìmkiếmthôngtinxuyênngônngữViệt – Anh – Hoa 0.8 0.7 0.6 EMIR Độ chính xác 0.5 SYSTRAN SPIRIT Anglais 0.4 0.3 0.2 0.1 0 10 20 30 40 50 60 70 80 90 Độ bao phủ Hình 1.3 So sánh tìmkiếm đơn ngữ của SPIRIT, tìmkiếm song ngữ của EMIR và dịch câu truy vấn của SYSTRAN 1.3.2.4 Đánh giá ưu khuyết điểm: Ưu điểm : Tài nguyên từ điển . tập tài liệu được mở
rộng để tăng độ
bao phủ.
1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):
1.2.1 Khái niệm:
Hệ thống tìm kiếm thông tin xuyên. nhiều hơn nữa các hệ thống tìm kiếm xuyên ngôn ngữ bằng
tiếng Việt, chúng tôi xây dựng “Hệ thố
ng tìm kiếm thông tin xuyên ngôn ngữ Việt –
GVHD: TS. Hồ