Chương trình tìm kiểm trên Web:

Một phần của tài liệu hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa (Trang 120 - 133)

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Đối với chương trình tìm kiếm trên web, độ hiệu quả là khá cao, chương trình có thể

trả về các tài liệu tiếng Anh và tiếng Hoa tương đương với khi người dùng tìm kiếm trực tiếp bằng tiếng Anh và tiếng Hoa trên Google. Đây là một kết quảđáng khích lệ. Tuy nhiên, tốc độ tìm kiếm của chương trình lại phụ thuộc khá nhiều vào tính ổn định của đường truyền mạng. Với chất lượng của đường mạng khá tốt thì thời gian chương trình download các tài liệu chỉ mất khoảng 10s, thời gian tối đa để lấy tài liệu là 60s. Nếu thời gian lấy tài liệu về từ Google lớn hơn 60s thì chương trình sẽ không hiện

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Chương 5: KT LUN và HƯỚNG PHÁT TRIN 5.1 Kết luận:

Hệ thống tìm kiếm xuyên ngữ Việt – Anh – Hoa là hệ thống tìm kiếm xuyên ngữ đầu tiên ở Việt Nam. Mặc dù vẫn còn một số hạn chế nhưng hệ thống đã đạt được một số

thành công nhất định. Hệ thống cho thấy việc tìm kiếm xuyên ngữ bằng tiếng Việt tuy khác các ngôn ngữ khác nhưng hoàn toàn có thể thực hiện được.

Ngoài mục đích minh họa cho hai loại hình ngôn ngữ tiêu biểu, việc lựa chọn tiếng Anh và tiếng Hoa cho hệ thống còn mang nhiều ý nghĩa khác. Tiếng Anh là một ngôn ngữ quốc tế phổ biến và thông dụng, đối với tiếng Hoa, là ngôn ngữ có số lượng người nói nhiều nhất trên thế giới; thông qua hệ thống người dùng có thể tiếp cận với kho thông tin khổng lồ trên thế giới.

Những thành công mà hệ thống đạt được là nhờ may mắn kế thừa các kết quả từ [16]. Việc sử dụng công cụ tách từ đạt độ chính xác đến 98% là một khởi đầu tốt cho hệ

thống. Mặt khác điểm chính của hệ thống là khử nhập nhằng các bản dịch, mà qui trình này đòi hỏi phải có ngữ liệu. Nếu không có kho ngữ liệu thì chắc chắn việc khử

nhập nhằng sẽ không đạt được độ chính xác cao. Và ngữ liệu song ngữ từ [11] lại là một đóng góp vô cùng quan trọng cho hệ thống. Trong thời gian sắp tới chúng tôi sẽ

tiếp tục phát triển và nâng cao tính hiệu quả của hệ thống.

5.2 Huớng phát triển:

5.2.1 Đối với từđiển và ngữ liệu:

™ MRD Việt – Anh mà chúng tôi xây dựng có cấu trúc khá đầy đủ (gồm cả

trường lĩnh vực, tham chiếu và đồng nghĩa) tuy nhiên số lượng các mục từ còn hạn chếđặc biệt là các từ ghép và thuật ngữ chuyên ngành. Một MRD đầy đủ

hơn sẽ giúp cho giai đoạn chuyển ngữ đạt độ chính xác cao hơn. Tuy nhiên, việc mở rộng từđiển đòi hỏi thời gian và công sức khá lớn.

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

™ MRD Anh – Hoa có cấu trúc khá đơn giản. Việc bổ sung thêm những trường như lĩnh vực, đồng nghĩa là khả thi dựa vào ngữ liệu song song.

™ Ngữ liệu là nguồn tài nguyên vô cùng quí và hiếm. Những ngữ liệu mà chúng tôi dùng hiện nay là ngữ liệu song ngữ Việt – Anh (về lĩnh vực tin học) và ngữ

liệu đơn ngữ tiếng Hoa (thu thập từ các bài báo tiếng Hoa). Trong tương lai, chúng tôi sẽ cố gắng bổ sung một số ngữ liệu ở lĩnh vực khác để việc khử nhập nhằng đạt hiệu quả cao hơn.

5.2.2 Đối với IR Engine:

™ Trong luận văn này chúng tôi sử dụng Google như là một IR Engine. Ngoài Google hiện nay còn có rất nhiều công cụ mạnh khác có khả năng tìm kiếm trên Internet. Để tăng tính hiệu quả của việc tìm kiếm, chúng ta hoàn toàn có thể gọi thực thi các search engine khác.

™ Trên thực tế các hệ thống tìm kiếm có IR Engine riêng biệt để làm công việc tìm kiếm cụ thể. Chẳng hạn, hệ thống tìm kiếm xuyên ngữ mà chúng tôi xây dựng có thể dùng ba IR Engine khác nhau (VIR Engine, EIR Engine và CIR Engine) để tìm kiếm thông tin cần tìm cho ba loại ngôn ngữ Việt – Anh – Hoa. Như vậy hướng phát triển trong tương lai là xây dựng các IR Engine chuyên biệt cho từng ngôn ngữ giúp tăng độ chính xác khi tìm kiếm thông tin. Lúc đó hệ thống có thểđược xây dựng theo mô hình sau:

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Người dùng

Câu truy vấn bằng tiếng Việt

™ Trong các IR Engine chúng ta có thể dùng kỹ thuật local feedback để mở rộng câu truy vấn, làm phong phú hơn tài liệu tìm kiếm .

5.2.3 Mở rộng ngôn ngữ tìm kiếm cho hệ thống:

Với giả thuyết là các nguồn tài nguyên từ điển và ngữ liệu của một ngôn ngữ khác (chẳng hạn như tiếng Pháp) là khá đầy đủ thì hệ thống của chúng tôi hoàn toàn có thể

tìm kiếm tài liệu có liên quan đến câu truy vấn trong ngôn ngữ đó. Việc bổ sung các ngôn ngữ khác cho hệ thống chỉ là vấn đề thời gian. (adsbygoogle = window.adsbygoogle || []).push({});

Bộ dịch Bộ khử nhập nhằng Các từđiển Câu truy vấn tiếng Anh Câu truy vấn tiếng Hoa Các tài liệu có liên quan đến câu truy vấn

bằng ba ngôn ngữ Việt - Anh - Hoa EIR Engine Ngữ liệu VIR Engine CIR Engine

Hình 5.1 Mô hình của hệ thống truy xuất xuyên ngữ Việt – Anh – Hoa (dùng ba IR Engine)

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa PHỤ LỤC 1. DANH SÁCH CÁC PHỤ TỐ TIẾNG ANH: HẬU TỐ DẪN XUẤT Stt Hậu tố Nghĩa tiếng Việt Ghi chú, Ví dụ 1. ability khả_năng ~ readability (khả_năng đọc) 2. able có_thể ~ được; khả_~ readable (có_thểđọc được), transferrable (khả_chuyển) 3. ably có_thể ~ được; khả_~ interchangeably (có_thể hoán_đổi

được), transferrably (khả_chuyển)

4. al (thuộc về) ~ national (quốc_gia)

5. ance sự ~ assistance (sự trợ_giúp)

6. ant ~ assistant (trợ_giúp)

7. ate Làm cho ~ fascinate (làm cho chặt)

8. ation sự ~ decoration (sự-trang_trí)

9. cation sự ~ application (sự-áp_dụng)

10. ed* (đã được / bị) ~ closed-door (cửa bịđóng)

11. ee người/vật được interviewee (người được phỏng_vấn)

12. en Làm bằng ~ golden (làm bằng vàng)

13. en Làm cho ~ shorten (làm cho ngắn)

14. ence sự ~ dependence (sự-phụ_thuộc)

15. ent ~ referent (tham_khảo)

16. er* người/máy ~ printer (thợ_in, máy_in)

17. ese tiếng/người ~ Japanese (tiếng_Nhật), Vietnamese

18. ful ~ đầy handful (nắm_tay đầy), cupful

19. hood thời_kỳ ~ childhood (thời_kỳ niên_thiếu)

20. ial (thuộc về) ~ sentential (thuộc về câu)

21. ian người ~, ~_viên technician (kỹ_thuật_viên)

22. ibility khả_năng ~ comprehensibility (khả_năng hiểu)

23. ible có_thể ~ được; khả_~

visible (có_thể nhìn thấy được), visible (khả_kiến)

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

khả_~ visible (khả_kiến)

25. ic (có tính) ~ graphic (đồ_hoạ)

26. ing* (đang) ~ running car (xe_hơi đang chạy) (adsbygoogle = window.adsbygoogle || []).push({});

27. ion sự ~ action (hành_động)

28. ise/ize ~_hóa normalise/-ize (bình_thường_hoá)

29. ism chủ_nghĩa ~ socialism (chủ_nghĩa xã_hội)

30. ist người ~, nhà_~ scientist (nhà_khoa_học)

31. ity sự ~ activity (sự-hoạt_động)

32. ive ~ active (tích_cực)

33. less không có ~; bất_~, vô_~

careless (bất_cẩn, không cẩn_thận)

34. let ~ nhỏ booklet (cuốn-sách nhỏ)

35. like giống như ~ humanlike (giống như người)

36. ly (một cách) ~ strongly (một cách mạnh_mẽ)

37. Ment sự ~ replacement (sự-thay_thế)

38. ness sự ~ brightness (sự-chói_sáng)

39. Logy (ngành)_~_học etymology (ngành_từ_nguyên_học)

40. or người/máy_~ editor (người_hiệu_đính), generator (máy_phát)

41. st,nd,rd,t h

thứ ~ 31st, 32nd, 33rd ,34th (thứ 31,32,32,34)

42. tion sự ~ evolution (sự-tiến_triển)

43. Tive ~ talkative (hay nói)

44. Y có ~ cloudy, rocky (có mây, có đá)

Lưu ý:

• Dấu ~ đểđại diện cho thân từ.

• Các hậu tốđánh dấu * là những hậu tố bị trùng với hậu tố của biến cách. TIỀN TỐ DẪN XUẤT

Stt Tiền tố Nghĩa tiếng Việt Ghi chú, Ví dụ

1. Anti chống ~, kháng_~ antivirus (chống virút), antibody (kháng_thể) 2. Auto ~ tự_động autocar (xe_hơi tự_động)

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

3. Bi Hai ~, lưỡng_~ bicenter (lưỡng_tâm) 4. Centi Xen-ti_~ centimeter (xen_ti_mét) 5. Co đồng_~ co-author (đồng_tác_giả)

6. Counter trái ngược với ~ counterclockwise (ngược chiều kim

đồng_hồ)

7. De khử_~, giải_~ decode (giải_mã) (adsbygoogle = window.adsbygoogle || []).push({});

8. Dis khử_ discharge (khử_tích_điện)

9. Former cựu_~ former-president (cựu_tổng_thống) 10. Giga gi_ga_~ gigabyte (gi_ga_byte)

11. Hexa sáu ~, lục_~ hexagon (lục_giác) 12. Hyper siêu_~ hypertext (siêu_văn bản) 13. in, il, im,

ir (*)

không ~, bất_~, vô_~

illiterate (không biết chữ), impatient (không kiên_nhẫn), irregular

(bất_quy_tắc)

14. Inter ~ lẫn nhau, liên_~ interconnection (kết_nối lẫn nhau) 15. Kilo kí_lô_~ kilogram (kí_lô_gam)

16. Macro ~ vĩ mô macro-economy (kinh_tế vĩ_mô) 17. Mega mê_ga_~ megawatt (mê_ga_oát)

18. Meta siêu ~ metavariable (siêu_biến) 19. Micro vi_~ micro-instruction (vi_lệnh) 20. Mid giữa ~, trung ~ midterm (giữa kỳ, trung_hạn) 21. Milli mi_li ~ millimeter (mi_li_mét)

22. Mis ~ sai, ~ lầm mismatch (không trùng nhau) 23. Mono đơn_~ monotone (đơn_điệu) 24. Multi đa_~ multi-media (đa_phương_tiện) 25. Nano na_nô ~ nanofarad (na_nô_fara)

26. Non không ~, phi ~ non-profit (không lợi_nhuận) 27. Oct tám ~, bát_~ octal (bát_phân)

28. Over quá_~ overload (quá_tải) 29. Pent năm ~, ngũ_~ pentagon (ngũ_giác)

30. Photo quang_~ photo-electronic (quang_điện_tử) 31. Pico pi_cô_~ picofarad (pi_cô_farad)

32. Post hậu_~, sau ~ post-graduate (sau đại_học) 33. Pre tiền_~ pre-process (tiền_xử_lý) 34. Pseudo ~_giả pseudo-code (mã_giả)

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

35. Quad bốn ~, tứ ~ quadruple (bộ bốn)

36. Re ~ lại, tái_~ re-calculate (tính_toán lại) 37. Self tự_~ self-educate (tự_học) 38. Semi bán_~ semi-conductor (bán_dẫn) 39. Stereo ~ nổi stereo-image (hình_ảnh_nổi) 40. Sub ~_con, ~ phụ subprogram (chương_trình_con) 41. Super siêu_~ super-conductor (siêu_dẫn) 42. Tele ~ từ xa, viễn ~ tele-meter (đo_lường từ xa) 43. Tera tê_ra_~ terabyte (tê_ra_byte)

44. Tri ba ~, tam_~ triangle (tam_giác), tripod (ba cực) 45. Ultra cực_~ ultraviolet (cực_tím)

46. Un không ~ unhappy (không hạnh_phúc) 47. Under dưới ~,hạ ~, ~thấp under-estimate (đánh_giá thấp) 48. Vice phó ~ vice-director (phó_giám_đốc)

(*): “in-” biến thể thành “il-” khi đứng trước “l”; thành “im-” khi đứng trước “b”, “m” hay “p” và thành “ir-” khi đứng trước “r”.

Lưu ý: dấu gạch dưới (“_”) để nối các hình vị trong cùng một từ của tiếng Việt. 2. DANH SÁCH CÁC PHÓ TỪ TIẾNG VIỆT: DANH TỪ CHỈ LOẠI (KHÔNG PHẢI ĐỘNG VẬT ) Stt Loại từ Ví dụ Ghi chú 1. Ang Văn 2. Bài thơ, diễn văn,

3. bản tuyên ngôn, tài liệu, tiểu thuyết 4. bộ từđiển, máy,

5. bông hoa,

6. bức tranh, thư, tượng, vách, ảnh 7. cái Bàn, ghế, đầu, thuyền;

khuyết điểm, tâm trạng

chiếm đa số cho các danh từ cụ

thể cũng như trừu tượng 8. cây nến, đèn, roi, bút, súng, đàn, tăm vật có hình trụ, dài 9. căn phòng, nhà

10. chiếc Bàn, ghế, thuyền, chỉ sự lẻ loi

11. con Dao, thuyền, sông, con đa sốđược dùng chỉđộng vật (adsbygoogle = window.adsbygoogle || []).push({});

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 12. cơn gió, 13. cuốn Sách, tập, vở, tiểu thuyết sự vật đóng thành quyển 14. đoá Hoa 15. hòn đạn, bi, núi có dạng tròn 16. khẩu súng, đại bác

17. lá Bùa, thư, phiếu, đơn có dạng dẹp giống lá cây 18. làn Gió

19. màn kịch,

20. món Quà, nợ,

21. nền Văn hoá, độc lập, khoa học, chỉ danh từ trừu tượng 22. nóc Nhà

23. ngọn cờ, núi,

24. ngôi Nhà, đền, mộ, (sao) chỉ công trình xây dựng 25. pho tượng, truyện, sách

26. quả Bom, núi, có hình tròn (giống trái cây) 27. quyển Sách, vở

28. tấm ảnh, tranh, bảng, bìa

29. tấn tuồng, kịch

30. toà Nhà, lâu đài chỉ công trình xây dựng

31. thanh gươm, kiếm

32. thửa ruộng, đất

33. vì sao, vua

34. vở kịch, tuồng

DANH TỪ CHỈ LOẠI (NGƯỜI/CON VẬT)

Stt Loại từ Ví dụ Ghi chú

1. anh Sinh viên, cán bộ

2. bà chủ nhiệm, vợ

3. bác thợ, phu xe

4. chị Giáo viên, nhà báo

5. bậc vĩ nhân, anh hùng trọng

6. cái Tí, Tỉu

7. cậu học trò, con trai

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

9. con Trâu, bò, gà chỉ dùng cho con vật 10. cô dược sĩ, y tá

11. chàng thi sĩ, văn nhân văn chương 12. chú Liên lạc, tài xế

13. đấng Anh hùng, thánh thần trọng

14. em học sinh, nhi đồng 15. lão quản gia, tri huyện khinh

16. mụ Đàn bà, vợ khinh (adsbygoogle = window.adsbygoogle || []).push({});

17. nàng công chúa, tiên văn chương 18. người Giáo viên, thợ nề

19. tay thầu khoán, nhà buôn khinh 20. tên sĩ quan địch, nguỵ binh khinh 21. thằng quỷ sứ, mật thám khinh 22. vị phụ lão, chủ tịch trọng 23. viên sĩ quan, đại uý

24.

DANH TỪ CHỈĐƠN VỊ QUY ƯỚC

Stt Từ Tiếng Anh Ví dụ Ghi chú

1. cân pound thịt

2. chai bottle rượu

3. chuyến time tàu, hàng đây là đơn vị lâm thời

4. cục clot Đá

5. dãy Row, line Nhà dùng với danh từ tập hợp 6. đàn herd Gà dùng với danh từ tập hợp 7. đoàn herd, người dùng với danh từ tập hợp

8. đoạn section, Văn

9. giấc sleep,slunker ngủ đây là đơn vị lâm thời

10. giọt drop nước

11. gói pack thuốc lá

12. hạt grain, drop cát, gạo

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

14. hột grain gạo

15. hòn Ball, piece Đá

16. lít litter rượu

17. lon jar, pot, can gạo

18. miếng piece thịt

19. sợi string, thread dây, chỉ

20. tấn Ton sắt, vàng 21. thìa spoon Canh

22. thước metter vải

23. thúng basket gạo

24. thùng barrel, cask rượu

25. tờ sheet giấy

26. trận battle Mưa đây là đơn vị lâm thời 27. xâu thread, string Cá

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

TÀI LIU THAM KHO (adsbygoogle = window.adsbygoogle || []).push({});

[1] Lisa Ballesteros, W.Bruce Croft . “Statistical Methods for Cross-Language

Information Retrieval ”. Computer Science Department – University of Massachusetts.

[2] Christian Fluhr, Dominique Schmit, Philippe Ortet, Faza Elkateb, Karine Gurtner, Khaled Radwan. “Distributed Cross-Lingual Informtion retrieval”. DIST/SMTI CEA- Saclay France.

[3 ] Mark. W .Davis and Ted. E. Dunning, March 1995. Query translation using an evolutionary programming for multi-lingual information retrieval. In proceeding the Fourth Annual Conference on Evolutionary Programming.

[4] Michael L. Littman, Susan T. Dumais, Thomas K. Landauer, “Automatic Cross- Language Information Retrieval using Latent Semantic Indexing”, Computer Science Department, Brown University.

[5] Lisa Ballesteros, W. Bruce Croft, Resolving Ambiguity for Cross-language Retrieval, 1997.

[6] Lisa Ballesteros, W. Bruce Croft, Phrase Translation and Query Expansion Techniques for Cross-Language Information Retrieval, 1997

[7 ] Yamabana Kiyoshi, Muraki Kazunori, Doi Shinichi, Kamei Shin-ichiro . “A language conversion front-end for Cross-language Information Retrieval ”.

[8] Atsushi Fuiji and Tetsuya Ishikawa. 9.2002. “Japanise/English Cross-Language Information Retrieval: Exploration of Query Translation and Translisteration”.

[9] J.S.Chang, Y.C.Lin, Y.K.Su (1995). “Automatic Construction of a Chinese Electronic Dictionary”. Proceedings of Workshop of ACL-1995, pp.107-120.

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

[11] Đinh Điền (2004), “Một số vấn đề trong việc xây dựng từđiển tiếng Việt điện tử”, Tập san Khoa học Xã hội và Nhân văn – ĐH Khoa học Xã hội & Nhân văn TP HCM, 2004 (27), trang 37 – 46.

[12] George Miller (2000): Introduction to WordNet,

http://www.cogsci.princeto.edu/~vn/.Prenceton

[13] Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word Segmentation”, Proceedings of NLPPRS’01 (The 6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg 749-756.

[14] Tsai, C. H. (1996), MMSEG: A word identification system for Mandarin Chinese text based on two variations of the maximum matching algorithm, Unpublished manuscript, University of Illinois at Urbana-Champaign.

[15] Mark W. Davis và William C.Ogden , 1997. “Implementing Cross-Language Text Retrieval Systems for Large-scale Text Collections and the World Wide Web”. Computing Research Laboratory – New Mexico State Univeristy

[16] Đinh Điền (2005). “Xây dựng và khai thác kho ngữ liệu song ngữ Anh – Việt”. Luận án tiến sĩ ngôn ngữ học, Trường đại học Khoa học Xã hội và Nhân văn.

[17] Lê Thuý Ngọc, Đỗ Mỹ Nhung, Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt, Luận văn cử nhân tin học, GVHD: Nguyễn Thị Diễm Tiên.

Một phần của tài liệu hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa (Trang 120 - 133)