Trang 1 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN HUỲNH SƠN LÂM XÂY DỰNG TỪ ĐIỂN CỘNG TÁC THUẬT NGỮ ANH – VIỆT LĨNH VỰC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠN
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
HUỲNH SƠN LÂM
XÂY DỰNG TỪ ĐIỂN CỘNG TÁC THUẬT NGỮ ANH – VIỆT LĨNH VỰC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
TP HỒ CHÍ MINH – Năm 2017
Trang 2ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
HUỲNH SƠN LÂM
XÂY DỰNG TỪ ĐIỂN CỘNG TÁC THUẬT NGỮ
ANH – VIỆT LĨNH VỰC CÔNG NGHỆ THÔNG TIN VÀ
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự hướng dẫn khoa học của TS Nguyễn Lưu Thùy Ngân Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công
trình nào khác
Người viết luận văn
Huỳnh Sơn Lâm
Trang 4LỜI CẢM ƠN
Em xin chân thành gửi lời cảm ơn đến các thầy, cô giáo khoa Khoa học máy tính, Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh đã giảng dạy, giúp đỡ em trong suốt quá trình học tập tại Trường
Em xin gửi lời cảm ơn sâu sắc tới cô giáo, TS Nguyễn Lưu Thùy Ngân, người
đã trực tiếp hướng dẫn, chỉ bảo, giúp đỡ em hoàn thành luận văn này
Em xin chân thành cảm ơn!
Trang 5MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 6
DANH SÁCH BẢNG BIỂU 7
DANH SÁCH HÌNH VẼ 8
MỞ ĐẦU 9
1 Lý do chọn đề tài 9
2 Mục tiêu nghiên cứu 10
3 Đối tượng, phạm vi nghiên cứu 10
4 Nội dung luận văn 10
Chương 1: TỔNG QUAN VỀ ĐỀ TÀI 12
1.1 Bài toán rút trích thuật ngữ 12
1.2 Bài toán xây dựng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực ICT 13
1.3 Tiểu kết chương 1 19
Chương 2: CƠ SỞ LÝ THUYẾT 20
2.1 Các khái niệm liên quan 20
2.1.1 Thuật ngữ lĩnh vực công nghệ thông tin và truyền thông 20
2.1.2 Từ điển cộng tác 21
2.2 Một vài thuật toán thường sử dụng trong bài toán rút trích thuật ngữ 22
2.2.1 Sử dụng độ đo cục bộ TF 22
2.2.2 Kết hợp độ đo cục bộ TF và độ đo toàn cục IDF 23
Trang 62.2.3 Kết hợp độ đo cục bộ chi bình phương với độ đo tồn cục IDF 24
2.2.4 K - láng giềng gần nhất 25
2.2.5 Nạve Bayes 26
2.2.6 S3VM 27
2.3 Một vài mơ hình ứng dụng từ điển cộng tác 29
2.3.1 VocBench 29
2.3.2 MediaWiki 33
2.4 Tiểu kết chương 2 37
Chương 3: MƠ HÌNH ĐỀ XUẤT 39
3.1 Phương pháp rút trích thuật ngữ ICT 39
3.1.1 Yêu cầu bài tốn 39
3.1.2 Phương pháp 39
3.2 Phương pháp xây dựng từ điển cộng tác 41
3.2.1 Các phân nhĩm thuật ngữ sử dụng trong từ điển 41
3.2.2 Cơ chế cộng tác 43
3.2.3 Dữ liệu từ điển 44
3.3 Tiểu kết chương 3 45
Chương 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ 46
4.1 Bài tốn rút trích thuật ngữ ICT 46
4.1.1 Dữ liệu thử nghiệm 46
4.1.2 Các kết quả thử nghiệm 46
4.2 Ứng dụng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực ICT 49
4.2.1 Giới thiệu ứng dụng 49
4.2.2 Đánh giá chức năng chính của ứng dụng 52
4.2.3 Đánh giá tính hữu ích của ứng dụng 53
Trang 74.3 Tiểu kết chương 4 54
Chương 5: KẾT LUẬN VÀ KHUYẾN NGHỊ 55
5.1 Kết quả đạt được 55
5.2 Hạn chế 55
5.3 Hướng phát triển 55
TÀI LIỆU THAM KHẢO 57
PHỤ LỤC 1: PHIẾU KHẢO SÁT 59
Trang 8DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Trang 9DANH SÁCH BẢNG BIỂU
Trang 10DANH SÁCH HÌNH VẼ
01 Hình 1.1 Giao diện tra từ của Bamboo tra từ
02 Hình 1.2 Giao diện chính của Glosbe.com
03 Hình 1.3 Giao diện tra từ của rung.vn
04 Hình 2.1 Giao diện chính của công cụ VocBench
05 Hình 2.2 Biểu trƣng của Wikipedia
06 Hình 2.3 Biểu trƣng của Wikimedia Commons
08 Hình 3.1 Mô hình cơ cấu tổ chức khoa và bộ môn của UIT
tin theo Danh mục giáo dục đào tạo cấp IV
10 Hình 3.3 Các phân nhóm thuật ngữ sử dụng trong từ điển
11 Hình 3.4 Sơ đồ cơ chế cộng tác của từ điển
12 Hình 4.1 Màn hình tra cứu thuật ngữ
13 Hình 4.2 Màn hình thêm mới thuật ngữ
14 Hình 4.3 Màn hình cập nhật thuật ngữ
15 Hình 4.4 Màn hình thêm mới file thuật ngữ
16 Hình 4.5 Màn hình Quản trị nội dung từ điển
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Phát triển nền kinh tế tri thức đang là một yêu cầu lớn được đặt ra trong toàn
bộ sự phát triển kinh tế và xã hội Việc đẩy mạnh ứng dụng công nghệ thông tin và truyền thông đã được xác định là động lực to lớn nhất để thúc đẩy nền kinh tế tri
thức phát triển Có thể hiểu rằng, công nghệ thông tin và truyền thông là một ngành nghề rộng lớn có ảnh hưởng tới nhiều ngành nghề khác nhau của xã hội, nhất là
những xã hội phát triển có sử dụng hàm lượng tri thức cao
Ngày 17/10/2000, Bộ Chính trị, Ban Chấp hành Trung ương Đảng Cộng sản
Việt Nam (Khóa VIII) đã ban hành Chỉ thị số 58-CT/ TW về “Đẩy mạnh ứng dụng
và phát triển công nghệ thông tin phục vụ sự nghiệp công nghiệp hóa, hiện đại hóa” (Chỉ thị 58) Dưới sự chỉ đạo của Đảng và điều hành của Chính phủ, trong 10 năm qua, công nghệ thông tin và truyền thông Việt Nam đã đạt được nhiều thành tựu
quan trọng và đáp ứng được những mục tiêu đề ra Công nghiệp Công nghệ thông
tin đã trở thành ngành kinh tế quan trọng, có tốc độ phát triển hàng năm cao so với các khu vực khác, có tỷ lệ đóng góp cho tăng trưởng GDP của cả nước ngày càng
tăng
Cùng với sự phát triển đó, nhu cầu nguồn nhân lực công nghệ thông tin và truyền thông chất lượng cao cũng không ngừng tăng cao trong những năm qua Theo định hướng quy hoạch quốc gia đến năm 2020, Việt Nam cần khoảng 1 triệu lao động ngành Công nghệ thông tin Vì lẽ đó, số người giam gia học tập, nghiên
cứu trong lĩnh vực công nghệ thông tin và truyền thông không ngừng tăng cao trong những năm qua Một vấn đề đặt ra trong quá trình học tập và nghiên cứu là nhu cầu tra cứu từ vựng, thuật ngữ tiếng Anh chuyên ngành Để đáp ứng nhu đó, nhiều bộ từ điển đã ra đời dưới nhiều dạng khác nhau như: từ điển giấy, từ điển trực tuyến, ứng dụng từ điển trên các thiết bị di động, … nhưng vẫn chưa thể đáp ứng tốt được yêu cầu tra cứu của đa số người sử dụng vì lĩnh vực công nghệ thông tin và truyền thông
là một trong các lĩnh vực luôn không ngừng phát triển với một tốc độ rất nhanh, số thuật ngữ mới cũng xuất hiện rất nhiều và nhanh chóng
Trang 12Để giải quyết vấn đề này một giải pháp đã được đề ra trong những năm gần đây là xây dựng từ điển thuật ngữ theo dạng cộng tác Giải pháp này được xây dựng dựa trên ý tưởng chính là huy động tối đa tri thức cộng đồng để xây dựng một bộ từ điển dần hoàn thiện từng ngày và đáp ứng nhu cầu của người sử dụng Tuy nhiên, thực tế cho thấy những bộ từ điển thuật ngữ Anh – Việt chuyên ngành hiện tại vẫn chưa đáp ứng được đầy đủ nhu cầu sử dụng
Với những lý do nêu trên, chúng tôi chọn đề tài “Xây dựng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực công nghệ thông tin và truyền thông” để thực hiện
2 Mục tiêu nghiên cứu
- Nghiên cứu kỹ thuật rút trích thuật ngữ bằng Tiếng Anh tự động từ các bài báo khoa học về lĩnh vực công nghệ thông tin và truyền thông (ICT) để bổ sung vào
từ điển
- Xây dựng từ điển cộng tác thuật ngữ Anh - Việt cho lĩnh vực ICT với khoảng
1500 từ vựng ban đầu
3 Đối tượng, phạm vi nghiên cứu
Trong khuôn khổ luận văn, chúng tôi thực hiện các nội dung sau:
- Tìm hiểu khái niệm và cách thức tổ chức, hoạt động của một bộ từ điển cộng tác trực tuyến
- Tìm hiểu bài toán rút trích và một số thuật toán rút trích phổ biến hiện nay
- Tìm hiểu công cụ VocBench
- Xây dựng từ điển cộng tác thuật ngữ Anh - Việt cho lĩnh vực ICT với khoảng
1500 từ vựng ban đầu
- Nghiên cứu và đề xuất kỹ thuật rút trích thuật ngữ bằng Tiếng Anh một cách
tự động từ các bài báo khoa học về lĩnh vực ICT để bổ sung vào từ điển
4 Nội dung luận văn
Nội dung của luận văn được trình bày trong 05 chương:
Chương 1: Tổng quan về đề tài
Giới thiệu tổng quan về đề tài bao gồm bài toán rút trích thuật ngữ; bài toán xây dựng từ điển thuật ngữ Anh – Việt cho lĩnh vực ICT
Trang 13Chương 2: Cơ sở lý thuyết
Trình bày các khái niệm liên quan đến đề tài; các công trình liên quan về từ điển cộng tác; tổng quan về bài toán rút trích và một số thuật toán rút trích phổ biến Chương 3: Mô hình đề xuất
Đề xuất mô hình tổ chức lưu trữ bộ từ điển thuật ngữ Anh – Việt lĩnh vực ICT
và xây dựng phương pháp rút trích thuật ngữ từ bài báo chuyên ngành bằng tiếng Anh để làm dữ liệu bổ sung từ vựng cho từ điển
Chương 4: Thử nghiệm và đánh giá
Giới thiệu việc xây dựng, cài đặt bộ từ điển cộng tác trên nền tảng web cộng tác; triển khai thử nghiệm và khảo sát tính hữu ích của hệ thống đối với người sử dụng
Chương 5: Kết luận và khuyến nghị
Tổng kết những kết quả đạt được của đề tài; hạn chế của đề tài; đồng thời đề
ra hướng phát triển của đề tài
Trang 14Chương 1: TỔNG QUAN VỀ ĐỀ TÀI
1.1 Bài toán rút trích thuật ngữ
Theo từ điển Tiếng Việt (Hoàng Phê, 2010), Thuật ngữ là Từ ngữ biểu thị một khái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất
định Ngoài ra, theo B Q Zadeh và S Handschuh [11] thì Thuật ngữ là những đơn
vị từ vựng xác định, đại diện cho một kiến thức cơ bản nhất của một lĩnh vực tri
thức Như vậy, Thuật ngữ (Terminology) là một từ hay một cụm từ diễn tả một khái niệm thuộc một ngành khoa học nhất định
Rút trích thuật ngữ (Terminology extraction) là một trong những hướng nghiên cứu rút trích thông tin từ văn bản phổ biến hiện nay Rút trích thuật ngữ từ
một hay nhiều văn bản tức là tìm kiếm và lấy ra tất cả các từ, cụm từ được xác định
là thuật ngữ Thuật ngữ được trích ra có thể là thuật ngữ đã từng xuất hiện trong văn bản khoa học nào đó, hoặc đó có thể là một thuật ngữ hoàn toàn mới được công bố Hiện nay, đã có nhiều nghiên cứu và tìm ra các kỹ thuật, phương pháp để giải
quyết bài toán rút trích thuật ngữ Đã có nhiều phương pháp, thuật toán được đề xuất và thử nghiệm trên nhiều bộ dữ liệu huấn luyện khác nhau, tuy nhiên những
kết quả thu được chỉ ở mức chấp nhận được và vẫn cần có sự can thiệp thủ công của con người để có thể tăng thêm độ tin cậy và chính xác của kết quả
Một số công trình nghiên cứu có thể kể đến như:
- Công trình “Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc” [6] đề xuất xác định từ mới dựa trên độ quan trọng của
từ được tính theo công thức kết hợp của độ đo cục bộ và độ đo toàn cục Theo đó,
một thuật toán đánh giá từ khóa dựa trên sự kết hợp của độ đo cục bộ và độ đo toàn
cục là TF.IDF (Term Frequency - Inverse Document Frequency) cho một kết quả
khá tốt (51,98%) trên bộ dữ liệu mẫu
- Theo báo cáo khoa học “Automatic Term Extraction Based on Perplexity of
Compound Words” [16] đề xuất rút trích thuật ngữ dựa trên phương pháp kết hợp
loại và tần số qua entropy (Combining Types and Frequencies via Entropy) Nhóm
tác giả đã áp dụng phương pháp này với tập các bài báo và tóm tắt trên Mainichi
Trang 15Web News từ 04/2011 đến 3/2012 Kết quả đạt được trên 40% với các bài báo thuộc lĩnh vực kinh tế, thế giới, xã hội, chính trị
- Một hướng tiếp cận khác cho rút trích là dựa trên mô hình ontology (Chau và Tuoi, 2009) Nhóm tác giả Chau và Tuoi [14] đã sử dụng phương pháp đề xuất trên tập dữ liệu TREC (Text REtrieval Conference) (http://trec.nist.gov/data/): TREC-07 (446 câu hỏi); TREC-06 (492 câu hỏi) và TREC-02 (440 câu hỏi) đã được dịch sang tiếng Việt Kết quả đạt được độ chính xác xấp xỉ 74,6%
- Một hướng tiếp cận rút trích khác là dựa trên lý thuyết về dãy con chung dài nhất (Longest Common Subquence – LCS) [15] Áp dụng rút trích multi-word Expression (MWE) kết hợp heuristic và phát hiện Embebbed Base Phrase (EBP) trên tập mẫu 8000 câu Kết quả đạt xấp xỉ 36% với N-gram
1.2 Bài toán xây dựng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực ICT
Hiện nay, công nghệ thông tin và truyền thông là một trong những ngành đang trong thời kỳ phát triển bùng nổ, thu hút một lượng lớn người học tập, nghiên cứu các chuyên ngành trong lĩnh vực
Do vậy, để đáp ứng nhu cầu tra cứu phục vụ cho mục đích học tập và nghiên
cứu của đa số người sử dụng, đã có không ít ấn bản từ điển thuật ngữ của các chuyên ngành thuộc lĩnh vực công nghệ thông tin và truyền thông đã ra đời Tuy
nhiên, hầu hết đều chưa đáp ứng được nhu cầu thực tế của đa số người sử dụng Đa
số các lý do được đưa ra đều xoay quanh 3 vấn đề tồn tại tiêu biểu của một ấn bản
từ điển thuật ngữ chuyên ngành là:
(1) Khó khăn và tốn nhiều thời gian trong việc tra cứu một cách thủ công, không có tính di động cao, chưa đáp ứng được nhu cầu tra cứu lập tức, một nhu cầu luôn tồn tại đối với những cá nhân hoạt động trong lĩnh vực công nghệ thông tin và truyền thông;
(2) Đa số từ điển chưa được phân loại theo từng chuyên ngành cụ thể trong
cùng lĩnh vực;
(3) Số lượng thuật ngữ trong từng bộ từ điển còn hạn chế, hầu hết đều không
có khả năng cập nhật kịp thời những thuật ngữ mới trong lĩnh vực, nhất là lĩnh vực
Trang 16công nghệ thông tin và truyền thông là một trong các lĩnh vực có sự xuất hiện, bổ
sung và cập nhật thuật ngữ với tốc độ rất cao
Từ đó, ý tưởng về việc xây dựng bộ từ điển thuật ngữ lĩnh vực công nghệ thông tin và truyền thông đã ra đời Đã có không ít các bộ từ điển thuật ngữ chuyên
ngành đã ra đời với mong muốn đáp ứng nhu cầu tra cứu của đa số người dùng nhằm phục vụ nhu cầu học tập và nghiên cứu của họ
Một số ứng dụng từ điển được xây dựng dưới dạng ứng dụng web hiện nay có thể kể đến như:
Bamboo tra từ
Hình 1.1 Giao diện tra từ của Bamboo tra từ
Bamboo tra từ (tratu.soha.vn) là trang từ điển trực tuyến đa chuyên ngành, được Công ty Cổ phần Truyền thông Việt Nam VC Corp phát triển dựa trên nền
tảng mở mediawiki cho phép người dùng tra cứu nghĩa của từ trong các lĩnh vực
khác nhau Nội dung của Bamboo tra từ tuân thủ Giấy phép Creative Commons Attribution ShareAlike
Cơ sở dữ liệu được kế thừa nguồn dữ liệu từ trang từ điển trực tuyến Vietdic,
cộng với việc thường xuyên bổ sung các nguồn dữ liệu từ việc mua lại các từ điển
có bản quyền như Prodic và Javidic, Bamboo Tra từ hiện đang sở hữu một nguồn
dữ liệu khổng lồ và quý giá Nhưng điều tạo nên sự khác biệt giữa Bamboo Tra từ
và các trang từ điển khác, đó chính là những đóng góp của cộng đồng các thành
Trang 17viên Bamboo Tra từ trong việc xây dựng nguồn dữ liệu từ điển Hiện nay số lượng
thành viên của Bamboo tra từ đã lên đến con số hơn 30,000
Bên cạnh tính năng chính hỗ trợ cho việc tra cứu và dịch thuật, Bamboo tra từ còn được tích hợp thêm nhiều tiện ích để người dùng có thể sử dụng một cách dễ
dàng và nhanh chóng nhất
(1) Box Hỏi – Đáp dành cho người dùng
Ngoài tính năng tra từ thân thiện và dễ sử dụng, Box Hỏi – Đáp chính là điểm
đến thú vị nhất đối với những người thường xuyên truy cập Bamboo tra từ Với sự
tham gia của rất nhiều thành viên tích cực, trong đó có cả những người làm công tác dịch thuật chuyên nghiệp, Box Hỏi – Đáp luôn là nơi giải đáp tốt nhất những thắc
mắc về học tập ngoại ngữ và dịch thuật của các thành viên cộng đồng Bamboo Tra
từ
(2) Tra từ Add-on cho Firefox dành cho người dùng
Với mục đích trợ giúp cho người dùng sử dụng các trình duyệt đang được ưa chuộng nhất hiện nay trong việc tra cứu, nhóm phát triển Bamboo tra từ đã cho ra
đời add-on tra từ dành cho Firefox với giao diện đơn giản, dễ sử dụng và tính tương tác cao
(3) Tra từ Bookmarklet dành cho người dùng
Ban đầu là một tiện ích được nhóm phát triển Bamboo tra từ cho ra đời nhằm
đáp ứng yêu cầu của đa số người dùng Internet Explorer Nhưng Tra từ Bookmarklet dần cho thấy sự ưu việt bằng khả năng tương tác với tất cả các trình
duyệt phổ biến hiện nay
(4) Forum Bamboo tra từ dành cho người dùng
Forum Bamboo tra từ là một không gian cộng đồng khác của Bamboo Tra từ
bên cạnh Box Hỏi – Đáp Với nhiều không gian dành cho giải trí hơn, các thành
viên sẽ có được khoảng thời gian thư giãn sau giờ học tập làm việc căng thẳng
(5) Tiện ích nhúng tra cứu nhanh trên website dành cho Webmaster
Bamboo tra từ hiện cho phép tích hợp tính năng tra cứu lên trang web của bạn Chỉ cần vài thao tác đơn giản, đã có thể khai thác được nguồn dữ liệu khổng lồ Bamboo tra từ, với các bộ từ điển lớn: Anh – Pháp – Việt – Nhật,… và hơn 20 từ
điển chuyên ngành khác
Trang 18(6) Module Bamboo tra từ cho Joomla dành cho Webmaster
Module Bamboo tra từ là tính năng mới mà Bamboo tra từ phát triển dành riêng cho mã nguồn mở Joomla Đây là module hỗ trợ người dùng tra cứu từ điển
trực tiếp ngay trên web
Mặc dù có nhiều tính năng ưu việt, nhưng Bamboo tra từ chưa thực sự phù
hợp dành cho các cá nhân đang học tập và nghiên cứu các chuyên ngành thuộc lĩnh vực công nghệ thông tin và truyền thông vì:
(1) Số lượng thuật ngữ lĩnh vực này còn khá hạn chế (chưa có chuyên mục
riêng);
(2) Chưa hỗ trợ giải thích khái niệm thuật ngữ mà chỉ mới dừng lại ở mức hỗ trợ ngữ nghĩa từ vựng
Glosbe.com – the multilingual online dictionary
Hình 1.2 Giao diện chính của Glosbe.com
Glosbe.com là một ứng dụng từ điển được xây dựng trên mô hình web cộng
tác với sự hỗ trợ tra cứu ngữ nghĩa từ vựng trên nhiều ngôn ngữ khác nhau Glosbe.com cung cấp một dữ liệu từ điển lớn nhằm đáp ứng nhu cầu tra cứu của
người dùng Đồng thời Glosbe.com cũng rất trân trọng và hoan nghên tất cả các đóng góp của người dùng thông qua môi trường cộng tác công khai trên giao diện
Trang 19ứng dụng web của từ điển Một số dữ liệu của Glosbe.com hiện có đƣợc cấp phép với CC-BY-SA, một số là FDL, một số có giấy phép tùy chỉnh
Tuy nhiên, Glosbe.com đƣợc đánh giá là một bộ từ điển đáp ứng khá tốt những nhu cầu tra cứu phổ thông, nhƣng chƣa đáp ứng đầy đủ nhƣ cầu tra cứu các thuật ngữ chuyên ngành nói chung và những thuật ngữ lĩnh vực công nghệ thông tin
và truyền thông nói riêng
Rung.vn
Hình 1.3 Giao diện tra từ của rung.vn
Trang 20Rung.vn là một ứng dụng từ điển trực tuyến, một ứng dụng dành cho cộng đồng dịch thuật mở với mục tiêu Dịch thuật tương tác - Dịch thuật không giới hạn Rung.vn cung cấp cho người dùng các bộ từ điển trực tuyến miễn phí, có hình minh hoạ, có phiên âm nhiều thứ tiếng Anh, Việt, Trung, Hàn, Nhật, Pháp, Viết tắt, Hiện tại Rung.vn mới bổ sung thêm 2 bộ từ điển nữa là Anh - Nhật và Nhật – Anh Bên cạnh đó, Rung.vn cũng đã bổ sung thêm ứng dụng bookmarklet hỗ trợ tra cứu
và dịch đoạn văn bản trên mọi trình duyệt tại các trang mà bạn đang xem
Trong lúc tra từ, chúng ta thường copy qua lại những văn bản để tra thì chúng
ta vô tình copy luôn những ký tự hoặc từ không mong muốn, do đó rung.vn đã hiểu
và phát triển cho bạn một từ điển thông minh Dù bạn copy hay gõ dư hay thiếu từ,
hở đầu hở đuôi thì kết quả cũng gần như từ bạn mong muốn, và bao gồm các từ gợi
ý giúp chúng ta có thêm nhiều lựa chọn
Rung.vn được xây dựng trên nền tảng Mã nguồn mở nên nội dung của từ đều
có thể thêm hoặc sửa lại theo đúng nghĩa bởi cộng đồng Rung.vn rất hoan nghênh
sự đóng góp của cộng đồng tham gia vào việc chỉnh sửa này để tạo nên một bộ từ
điển hoàn thiện và hoàn toàn miễn phí cho cộng đồng
Nhận xét
So với các ấn bản từ điển đã phát hành thì những bộ từ điển thuật ngữ trực
tuyến hiện đại đã bước đầu có được một số ưu điểm vượt trội có thể kể đến như sau: (1) Có tính di động cao, được hỗ trợ trên nhiều thiết bị, được truy cập thông
qua các thiết bị hỗ trợ, đáp ứng nhu cầu tra cứu nhanh;
(2) Có khả năng cập nhật và bổ sung nhanh chóng nhờ vào các cơ chế quản lý ứng dụng của nhà phân phối;
(3) Đa số các bộ từ điển này đều có sự kế thừa, tổng hợp từ các ấn bản từ điển
đã được phát hành, có số lượng các thuật ngữ là tương đối lớn so với các ấn bản từ điển giấy
Tuy nhiên, những ứng dụng từ điển này vẫn có một số vấn đề còn tồn tại và
cần được giải quyết Hầu hết những ứng dụng từ điển này đều được xây dựng dưới hình thức một ứng dụng web, một chương trình ứng dụng trên máy tính hay một
ứng dụng trên các thiết bị di động Nhưng thực tế là những ứng dụng này chỉ tổng hợp tất cả thuật ngữ cùng phần chú giải vào dữ liệu từ điển của ứng dụng chứ chưa
Trang 21có một sự phân loại tổ chức từ điển theo từng chuyên ngành trong lĩnh vực công
nghệ thông tin và truyền thông Một vấn đề còn tồn tại nữa đó là những từ điển này chưa thật tận dụng có hiệu quả được sự cộng tác của người dùng trực tiếp thông qua ứng dụng
Mô hình từ điển thuật ngữ dựa trên cơ sở ứng dụng web cộng tác cùng với một
mô hình tổ chức phân loại phù hợp cho từ điển thật sự là một giải pháp phù hợp cho nhu cầu tra cứu thuật ngữ phục vụ việc học tập và nghiên cứu của các cá nhân đang hoạt động trong lĩnh vực Mô hình ứng dụng web cộng tác là một mô hình có thể
tận dụng tối ưu nhất sự đóng góp của tất cả các cá nhân sử dụng từ điển nhằm cùng góp phần xây dựng từ điển ngày càng hoàn thiện hơn Bên cạnh đó mô hình web
cộng tác là một mô hình phù hợp nhất cho việc kịp thời cập nhật những thuật ngữ
mới bằng việc tận dụng những tri thức của người dùng được đóng góp cho từ điển thông qua các hoạt động cộng tác xây dựng từ điển
Trang 22Chương 2: CƠ SỞ LÝ THUYẾT
2.1 Các khái niệm liên quan
2.1.1 Thuật ngữ lĩnh vực công nghệ thông tin và truyền thông
Theo Từ điển Oxford, Thuật ngữ là một từ hoặc cụm từ được sử dụng như tên của một đối tượng nào đó trong một ngôn ngữ cụ thể; là từ ngữ chuyên môn của
một vấn đề riêng biệt Công nghệ thông tin và truyền thông (Information and Communications Technology – ICT) là ngành học nghiên cứu về việc sử dụng máy tính, internet, video và các công nghệ khác như là một môn tại các trường học
Theo từ điển Tiếng Việt (Hoàng Phê, 2010), Thuật ngữ là từ ngữ biểu thị một khái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất
định
Theo bộ từ điển mở Wiktionaty thì Thuật ngữ là Từ ngữ biểu thị một khái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất định Theo các định nghĩa về thuật ngữ như trên, ta xác định được các đặc điểm chính của thuật ngữ là:
- Thuật ngữ khác với từ ngữ phổ thông
- Mỗi thuật ngữ thuộc một lĩnh vực khoa học công nghệ chỉ biểu thị một khái
niệm và ngược lại mỗi khái niệm trong lĩnh vực đó chỉ được biểu hiện bằng một
thuật ngữ duy nhất
- Thuật ngữ không có tính biểu cảm
Theo bộ bách khoa toàn thư mở Wikipedia thì Công nghệ thông tin và truyền thông, thường được gọi là ICT, là cụm từ thường dùng như từ đồng nghĩa rộng hơn cho công nghệ thông tin (IT), nhưng thường là một thuật ngữ chung để nhấn mạnh vai trò của truyền thông hợp nhất và sự kết hợp của viễn thông (đường dây điện
thoại và tín hiệu không dây), hệ thống quản lý tòa nhà thông minh và hệ thống nghe-nhìn trong công nghệ thông tin hiện đại "ICT" được sử dụng như là một thuật ngữ chung cho tất cả các loại công nghệ cho phép người dùng tạo, truy cập và thao tác với thông tin ICT là một sự kết hợp của công nghệ thông tin và công nghệ truyền thông
Trang 23Như vậy, thuật ngữ lĩnh vực công nghệ thông tin và truyền thông là những từ, cụm từ biểu thị một khái niệm cụ thể thuộc lĩnh vực công nghệ thông tin và truyền thông, nghiên cứu máy tính, internet, video và các công nghệ liên quan khác Đa số thuật ngữ thường chỉ tập trung xuất hiện trong các văn bản khoa học trong cùng lĩnh vực
Từ các định nghĩa và đặc điểm đã nêu của một từ được cho là thuật ngữ, ta có thể xác định được một số dấu hiệu nhận biết giúp xác định một từ có khả năng là
thuật ngữ lĩnh vực công nghệ thông tin và truyền thông trong văn bản khoa học thuộc lĩnh vực công nghệ thông tin và truyền thông như sau:
- Thường chỉ xuất hiện trong các văn bản khoa học và tài liệu chuyên ngành
trong cùng lĩnh vực (Công nghệ thông tin và truyền thông)
- Là từ khóa trong văn bản (đa số là bài báo khoa học)
- Là danh ngữ, thường là danh từ hay cụm danh từ
- Là từ mới, thường có giải thích khái niệm đi kèm
- Là từ được viết tắt trong văn bản, thường là những thuật ngữ được sử dụng nhiều lần trong văn bản
nguyên, cách sử dụng hay các câu ví dụ, trích dẫn Từ điển là nơi giải thích thông
tin về ngôn ngữ của con người một cách dễ hiểu và khách quan nhất Thông thường
từ điển được trình bày dưới dạng sách Ngày nay, từ điển còn được số hóa và cung cấp dưới dạng phần mềm máy tính, ứng dụng trên nền web hay ứng dụng trên di
động,
Cộng tác là quá trình trao đổi, trợ giúp, phối hợp giữa một nhóm người nhằm đạt được một mục tiêu xác định Việc cộng tác đã được con người thực hiện từ rất lâu và đây chính là cơ sở cho sự phát triển và hình thành nên xã hội loài người, giúp con người phát triển từ giai đoạn bầy đàn sang giai đoạn xã hội Hoạt động cộng tác
Trang 24của con người được thể hiện dưới nhiều hình thức khác nhau: Cộng tác trong công việc, cộng tác trong việc truyền đạt tri thức
Từ điển cộng tác là một loại từ điển cho phép các cá nhân sử dụng có thể sửa chữa, góp ý xây dựng để bộ từ điển ngày càng hoàn thiện và chính xác Từ
điển công tác thường được xây dựng dưới dạng các bộ từ điển trực tuyến, miễn phí cho tất cả người sử dụng
Một bộ từ điển cộng tác trực tuyến thường đi kèm một cơ chế cộng tác Một
cơ chế cộng tác hiệu quả là một cơ chế cộng tác có khả năng vừa kích thích sự cộng tác của cá nhân, vừa hạn chế những ý kiến đóng góp không chính xác Một cơ chế
cộng tác hợp lý sẽ giúp xây dựng một ứng dụng cộng tác phát triển và thật sự hữu
ích cho người dùng
2.2 Một vài thuật toán thường sử dụng trong bài toán rút trích thuật ngữ
2.2.1 Sử dụng độ đo cục bộ TF
TF - Term Frequency, độ đo cục bộ (local weight) là độ đo thống kê giá trị
thông tin của một từ trong một văn bản theo tần số xuất hiện của từ đó trong văn
bản Theo đó, một từ được cho là từ khóa, là từ có chứa độ lợi thông tin càng cao thì
số lần xuất hiện của từ trong văn bản càng cao và giá trị TF càng lớn
Giá trị TF, tần số xuất hiện của một từ trong một văn bản được tính bằng thương của số lần xuất hiện của một từ trong văn bản và số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản đó, giá trị sẽ thuộc khoảng [0, 1] Cụ thể như sau:
* ( ) +Trong đó:
- f(t,d): số lần xuất hiện từ t trong văn bản d
- max{f(w,d):w d}: số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn
Trang 25và thường được sử dụng kết hợp với độ đo toàn cục (global weight) hay các độ đo
khác nhằm tăng độ tin cậy cho phương pháp
2.2.2 Kết hợp độ đo cục bộ TF và độ đo toàn cục IDF
Hướng tiếp cận này thường sử dụng thông tin thống kê tần số xuất hiện để chọn lựa các từ khóa quan trọng trong văn bản Ưu điểm chính của các hướng tiếp
cận dựa trên thống kê này là có thể áp dụng dễ dàng cho nhiều ngôn ngữ
Thông tin thống kê này thường bao gồm hai loại: Độ đo cục bộ và độ đo toàn
cục Độ đo cục bộ là độ đo thống kê của một từ trong nội bộ văn bản cần rút trích từ khóa Trong khi đó độ đo toàn cục là độ đo thống kê của từ đó trong một tập hợp
nhiều văn bản khác nhau cho trước
Một số độ đo thống kê cục bộ thông dụng có thể được sử dụng để lựa chọn các
từ khóa quan trọng như: tần số xuất hiện (TF), độ phân bố chi bình phương (χ2 ), độ lợi thông tin (IG), thông tin tương hỗ (MI), hoặc độ mạnh của thuật ngữ (TS) Còn
về độ đo thống kê toàn cục thì có thể kể đến độ đo IDF (Inverse Document Frequency), dùng để đo nghịch đảo sự phổ biến của một từ trong một tập hợp văn
bản cho trước Cần phải có một tập dữ liệu văn bản lớn cho trước để có thể sử dụng
độ đo toàn cục
Hiện nay một thuật toán rút trích từ khóa dựa trên sự kết hợp của độ đo cục bộ
và toàn cục là TF.IDF cũng cho kết quả khá tốt Cách tiếp cận của TF.IDF sẽ ước
lượng được độ quan trọng của một từ đối với một văn bản trong danh sách tập tài
liệu văn bản cho trước
Nguyên lý cơ bản của TF.IDF [6] là: độ quan trọng của một từ sẽ tăng lên cùng với số lần xuất hiện của nó trong văn bản và sẽ giảm xuống nếu từ đó xuất
hiện trong nhiều văn bản khác Do đó độ đo sự quan trọng của một từ t trong tài liệu
f sẽ được tính bằng: TF*IDF, với TF là độ phổ biến của từt trong tài liệu f và IDF là
nghịch đảo độ phổ biến của từt trong các tài liệu còn lại của tập tài liệu Công thức
Trang 26Trong đó:
Ns(t) : Số lần xuất hiện của từ t trong tài liệu f
∑w: Tổng số các từ trong tài liệu f
∑d= tổng số tài liệu d:t d : số tài liệu có chứa từ t
Ví dụ, nếu chúng ta có một văn bản gồm 100 từ, trong đó từ “computer” xuất hiện 5 lần thì ta có độ phổ biến: TF(“computer”) = 5/100 = 0.05 Bây giờ giả sử
chúng ta có 1000 tài liệu, trong đó có 200 tài liệu chứa từ “computer” Lúc này ta sẽ tính được IDF(“computer”) = ln(1000/200) = 1.61 Như vậy ta tính được độ đo TF.IDF = TF * IDF = 0.05 * 1.61 = 0.0805
Độ đo này của từ càng cao thì khả năng là từ khóa càng lớn Hướng tiếp cận
độ đo TF.IDF này rất thông dụng hiện nay
2.2.3 Kết hợp độ đo cục bộ chi bình phương với độ đo toàn cục IDF
Hướng tiếp cận này dựa vào thông tin thống kê trong nội bộ văn bản (độ phân
bố chi bình phương - ) và thông tin thống kê với tập dữ liệu bên ngoài văn bản (IDF) [8] Trọng số (độ quan trọng) W của mỗi từ ứng viên t bằng cách kết hợp hai
độ đo này theo công thức:
Với:
- freq(w, c) là số lần xuất hiện cùng nhau của từ w và nhóm c
- là tổng số từ có trong các câu mà w xuất hiện
- là tần suất xuất hiện của nhóm c
phân bố của một từ trong văn bản Độ đo này được xem như độ quan trọng của từ trong văn bản Độ đo này càng cao thì khả năng là từ cần rút trích càng nhiều
Trang 27Độ đo toàn cục IDF của một từ t trong tập văn bản D được tính như sau:
Với:
- |D| là số tài liệu trong tập tài liệu D
- |{d:t d}| là số tài liệu trong D có chứa từ t
Độ đo W(t) = (t).IDF(t) của từ có giá trị càng cao thì khả năng là từ cần rút trích càng cao
2.2.4 K - láng giềng gần nhất
Thuật toán K – láng giềng gần nhất [5] (K-Nearest Neighbors algorithm, K-NN) được sử dụng rất phổ biến trong lĩnh vực Data Mining K-NN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query Point) và tất cả các đối tượng trong Training Data
Một đối tượng được phân lớp dựa vào K láng giềng của nó K là số nguyên
dương được xác định trước khi thực hiện thuật toán
Một số công thức tính khoảng cách thường được dùng trong K-NN:
Thuật toán K-NN được mô tả như sau:
- Bước 1 Xác định giá trị tham số K (số láng giềng gần nhất)
Trang 28- Bước 2 Tính khoảng cách giữa các Query Point với tất cả các đối tượng trong Training Data (thường sử dụng khoảng cách Euclid)
- Bước 3 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với Query Point
- Bước 4 Lấy tất cả các lớp của K láng giềng gần nhất đã xác định
- Bước 5 Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho
Query Point
2.2.5 Nạve Bayes
Định lý Bayes
Cho X, C là các biến bất kỳ (rời rạc, liên tục, cấu trúc) Mục tiêu của ta là dự
đốn C từ X Từ mơ hình Bayes ta cĩ thể lượng giá các tham số của P(X|C), P(C)
trực tiếp từ tập huấn luyện Sau đĩ, ta sử dụng định lý Bayes để tính P(C|X=x)
Độc lập điều kiện (conditional independence): X độc lập điều kiện với Y khi
cho Z nếu phân bố xác suất trên X độc lập với các giá trị của Y khi cho các giá trị
của Z Ta thường viết P(X|Y,Z) = P(X|Z)
Giả sử D là tập huấn luyện gồm các mẫu biểu diễn dưới dạng X =< x1, …, xn>
Ci,D là tập các mẫu của D thuộc lớp Ci(i = {1, …, m}) Các thuộc tính x1, …, xn độc lập điều kiện đơi một với nhau khi cho lớp C
Trường hợp X là giá trị rời rạc
Giả sử X =< x 1, …, xn> Trong đĩ, xi nhận các giá trị rời rạc Khi đĩ, lượng
Trang 29( ) | |
| |
| |
với m là số lớp, r là số giá trị rời rạc của thuộc tính
Trường hợp X là giá trị liên tục
Nếu thuộc tính nhận giá trị liên tục thì xác suất P(X_k|C_i) thường được tính dựa theo phân bố Gauss với giá trị trung bình mu và độ lệch sigma:
( )
√
( )
2.2.6 S3VM
Thuật toán S3VM [5] (Semi-supervised support vector machine) có mục đích nhằm xây dựng một máy hỗ trợ vector sử dụng tập dữ liệu huấn luyện là một lượng nhỏ các dữ liệu đã gán nhãn (training set) và một lượng lớn chưa gán nhãn (working set) Bài toán truyền dẫn sẽ dự đoán giá trị của một hàm phân lớp tới các điểm đã cho trong tập dữ liệu chưa gán nhãn
Thuật toán S3VM được xây dựng để sử dụng hỗn hợp dữ liệu huấn luyện là dữ liệu đã gán nhãn và chưa gán nhãn với mục đích là gán các nhãn cho dữ liệu trong tập dữ liệu huấn luyện chưa gán nhãn một các tốt nhất có thể Sau đó sử dụng hỗn
Trang 30hợp dữ liệu đã gán nhãn cho trước và dữ liệu vừa được gán nhãn để huấn luyến và phân lớp những dữ liệu mới
Ta nhận thấy rằng nếu toàn bộ dữ liệu huấn luyện đã được gán nhãn thì bài
toán này lại trở thành bài toán học có giám sát SVM (Support vector machine) Ngược lại nếu toàn bộ dữ liệu huấn luyện chưa được gán nhãn thì bài toán lại trở thành bài toán học không giám sát
Nội dung thuật toán
Cụ thể hơn ta có bài toán sau:
}
Vấn đề ở đây là ta cần phải xác định y j trong tập dữ liệu chưa được gán nhãn
Ta thực hiện tìm kiếm một siêu phẳng w và ghi nhãn một trong những ví dụ không
có nhãn, do đó hàm mục tiêu SVM được giảm thiểu, và bị ràng buộc bởi một r phần nhỏ của dữ liệu không có nhãn được phân loại tích cực Ta có:
Trang 31∑ ( ( ))
Tập dữ liệu chưa gán nhãn sau khi đã gán nhãn sẽ được đưa vào tập dữ liệu
huấn luyện, tiếp theo đó sẽ sử dụng thuật toán SVM để học tạo ra SVM mới, SVM này chính là S3VM có một siêu phẳng mới Sau đó áp dụng siêu phẳng này để phân lớp các mẫu dữ liệu mới được đưa vào
Vậy giải thuật S3VM chính là một phương pháp cải tiến của giải thuật SVM, giải thuật đã tận dụng được những ưu điểm của học có giám sát là có độ chính xác cao và đã tận dụng được nguồn dữ liệu huấn luyện không gán nhãn rất sẵn có nhằm giải quyết bài toán phân lớp một cách tối ưu Tuy nhiên vì giải thuật được xây dựng trên nền tảng là giải thuật SVM nên nó vẫn gặp phải những vấn đề của giải thuật
SVM như sự bùng nổ tổ hợp, độ phức tạp cao, giải quyết bài toán tối ưu khó, …
2.3 Một vài mô hình ứng dụng từ điển cộng tác
2.3.1 VocBench
VocBench [10] là một ứng dụng web mã nguồn mở, đa ngôn ngữ, hỗ trợ biên tập và quản lý từ vựng, chú giải bằng SKOS và SKOS-XL VocBench được phát
triển bởi FAO (Food and Agriculture Organization) và các đối tác, và được thiết kế
để đáp ứng các nhu cầu của web ngữ nghĩa và các môi trường liên kết dữ liệu VocBench cung cấp công cụ và chức năng tạo điều kiện cho việc hợp tác chỉnh sửa thuật ngữ đa ngôn ngữ Nó cũng bao gồm quản lý và quản lý nhóm tính năng cho
phép chỉnh sửa một cách linh hoạt
VocBench là kết quả của một nỗ lực chung của nhóm ART, Đại học Rome Tor Vergata Trong phiên bản 2.0, VocBench đã trải qua một cải tiến lớn, với sự hỗ trợ của RDF từ hệ thống Semantic Turkey, với các tính năng mới và cải tiến đáng
kể
Trang 32Giao diện người dùng
Hình 2.1 Giao diện chính của công cụ VocBench
VocBench đã được xây dựng dưới dạng một ứng dụng web, được truy cập thông qua bất kỳ trình duyệt nào Do đó giúp người dùng giảm đi việc cài đặt phần mềm và cấu hình Giao diện người dùng bao gồm nhiều tab, mỗi một liên kết với
thông tin và các chức năng cụ thể Hình 2.1 cho ta thấy được giao diện làm việc của VocBench một cách tổng quát nhất, với cây khái niệm trên bên trái, và mô tả các
khái niệm được chọn ở bên phải, tập trung vào các tab giới hạn Các khái niệm trong cây có thể được thể hiện qua nhãn của chúng trong tất cả các ngôn ngữ được lựa chọn để hiển thị Một tùy chọn Toggles giữa một điểm của chỉ nhãn được lựa
chọn trước, và tất cả các nhãn Các đặc tính đa ngôn ngữ của VocBench không hạn chế để quản lý nội dung, giao diện của nó cũng được địa lý hóa trong các ngôn ngữ khác nhau, hiện nay: tiếng Anh, tiếng Tây Ban Nha, Hà Lan và Thái Lan
Điều khiển truy cập dựa trên vai trò
VocBench thúc đẩy sự phân công trách nhiệm thông qua một cơ chế kiểm soát truy cập dựa trên vai trò, kiểm tra phân quyền người dùng cho các chức năng yêu
cầu thông qua vai trò mà người dùng chấp nhận VocBench hỗ trợ phân quyền người dùng với 4 vai trò cơ bản: Quản trị viên (Administrators), chỉnh sửa ontology
Trang 33(Ontology editors), chỉnh sửa thuật ngữ (Term editors), người phê duyệt (Validators) và người xuất bản (Publishers)
Truy vấn SPARQL
VocBench hỗ trợ thống kê một vài số liệu liên quan đến bộ từ điển xây dựng
và các quy trình làm việc hợp tác Ngoài ra, VocBench còn hỗ trợ người dùng tự
truy vấn/cập nhật qua SPARQL 1.1 Người dùng có thể sử dụng bộ công cụ được
dựa trên mã nguồn mở là Flint SPARQL Editor Openup/FlintSparqlEditor) để thực hiện các truy vấn SPARQL
(https://github.com/TSO-Một vài từ điển cộng tác được xây dựng trên nền tảng VocBench có thể kể đến như sau:
Agrovoc - Multilingual agricultural thesaurus
Agrovoc [12] là một bộ từ vựng được xây dựng, kiểm soát và phát triển bởi Tổ chức Nông nghiệp và Lương thực Liên Hợp Quốc (FAO) và Ủy ban Cộng đồng Châu Âu vào đầu năn 1980, được cập nhật thường xuyên và sử dụng rộng rãi để lập chỉ mục và lấy dữ liệu trong hệ thống thông tin nông nghiệp Agrovoc được sử dụng trên toàn thế giới bởi các nhà nghiên cứu, cán bộ thư viện, quản lý thông tin và những người khác, để lập chỉ mục, lấy và tổ chức dữ liệu trong hệ thống thông tin
nông nghiệp Từ năm 2004, Agrovoc đã được làm sạch và giàu ngữ nghĩa Cho tới
nay, Agrovoc đã có hơn hơn 32,000 khái niệm có tổ chức trong một hệ thống phân
cấp Mỗi khái niệm có thể được hỗ trợ lên đến trên 27 ngôn ngữ gồm: Arabic, Burmese, Chinese, Czech, English, French, German, Hindi, Hungarian, Italian, Japanese, Khmer, Korean, Lao, Malay, Moldovian, Persian, Polish, Portuguese, Russian, Slovak, Spanish, Telugu, Thai, Turkish, Ukrainian, Vientamese Nó không chỉ chứa thuật ngữ của ngành nông nghiệp, mà còn các thuật ngữ trong lâm nghiệp, thủy sản, thực phẩm và các lĩnh vực khác Những thuật ngữ được sử dụng để xác
định rõ ràng các nguồn lực Thật vậy, những kiến thức có trong vốn từ vựng cho
phép quá trình lập chỉ mục tiêu chuẩn hóa, làm cho việc tìm kiếm đơn giản và hiệu
quả hơn
Biotech - FAO Glossary of Biotechnology for Food and Agriculture
Biotech là một bộ từ điển Công nghệ sinh học trong lĩnh vực thực phẩm và
nông nghiệp; là một bản nâng cấp, bổ sung từ bộ từ điển Công nghệ sinh học và Kỹ
Trang 34thuật di truyền được công bố bởi FAO vào năm 1999 Ban đầu, ý tưởng về một tập hợp các thuật ngữ liên quan đến lĩnh vực công nghệ sinh học và di truyền ra đời khi
sự trao đổi và thảo luận về chuyên môn giữa các quốc gia trở nên khó khăn Sự khác biệt trong cách giải thích các thuật ngữ có nguy cơ làm cho các cuộc đàm phán bị
thất bại Từ đó ý tưởng về việc xây dựng một bộ từ điển giải thích thuật ngữ Công nghệ sinh học và kỹ thuật di truyền đã ra đời Bộ từ điển ra đời đã cung cấp một tập hợp các thuật ngữ và các từ viết tắt được sử dụng thường xuyên trong lĩnh vực công nghệ sinh học cho thực phẩm và nông nghiệp Đây là một nguồn tài liệu tham khảo
có giá trị vô cùng to lớn cho các nhà nghiên cứu và kỹ thuật viên Bản công bố đầu tiên đã nhận được sự quan tâm của đông đảo người dùng trên toàn thế giới; thông
qua sự đóng góp của đông đảo người dùng, Biotech dần trở nên hoàn thiện Bản
công bố lần thứ hai đã được cập nhật khoảng 3,196 thuật ngữ và định nghĩa liên
quan; Phiên bản thứ hai này cũng đã được dịch sang nhiều ngôn ngữ khác nhau nhằm đáp ứng nhu cầu sử dụng của người dùng Đến 2012, một hệ thống quản lý
thuật ngữ mới đã được giới thiệu, cho phép bổ sung và cập nhật các thuật ngữ có
trong từ điển với sự hỗ trợ trên nhiều ngôn ngữ khác nhau Đến nay, bộ từ điển bao gồm khoảng trên 3,190 thuật ngữ và định nghĩa trong các ngôn ngữ sau: Arabic,
Chinese, English, French, Kazakh, Polish, Russian, Serbian, Spanish and Vietnamese (http://fao.org/biotech/biotech-glossary/en/)
GEMET - GEneral Multilingual Environmental Thesaurus
GEMET (https://eionet.europa.eu/gemet/) là một bộ từ vựng, thuật ngữ trong
lĩnh vực môi trường với hơn 11,179 định nghĩa trong hơn 20 ngôn ngữ khác nhau
và được công bố bởi European Environment Agency Bộ từ điển được xây dựng trên nền tảng của SKOS, hệ thống tổ chức cơ bản và cũng là tiêu chuẩn đăng ký
Trang 35siêu dữ liệu, ISO 11.179 Cơ sở của từ điển chính là một SKOS ontology đưa ra các mối quan hệ giữa tất cả các thuật ngữ trong một tập tin có cấu trúc RDF, ngoài ra còn có một phần dành cho dữ liệu từ điển
UAT - Unified Astronomy Thesaurus
UAT (http://astrothesaurus.org/thesaurus/) là một bộ từ điển hợp nhất về lĩnh vực thiên văn học và được phát triển Institute of Physics Publishing, the American Institute of Physics và SPIE UAT là một bộ từ điển mở, tương thích và hỗ trợ cộng đồng UAT là một bản tổng hợp các từ vựng riêng lẻ, đa dạng và khác nhau về thiên văn học thành một bộ từ điển thống nhất, miễn phí, chất lượng cao, chính thức hóa các khái niệm và mội quan hệ giữa chúng UAT được xây dựng dựa trên IAU với sự
bổ sung các thuật ngữ từ triển Institute of Physics Publishing, the American
Institute of Physics và SPIE
2.3.2 MediaWiki
MediaWiki (https://www.mediawiki.org/wiki/MediaWiki/vi) là phần mềm wiki dựa trên máy chủ, được thiết kế để sử dụng trong các website phạm vi lớn MediaWiki là phần mềm nguồn mở, miễn phí, được sử dụng rộng rãi cho một số lượng các website nổi tiếng, bao gồm, Wikipedia và Wikimedia Commons Một trong những tính năng chính của MediaWiki là tạo và hiển thị nội dung đa dạng,
bao gồm cả các công thức toán học thông qua LaTeX, các tập tin đa phương tiện, bao gồm các nội dung do người sử dụng tải lên MediaWiki có thể được sử dụng cả trong mạng nội bộ tổ chức được kết nối mạng, hoặc bên ngoài trên Internet
Wikipedia đã sử dụng MediaWiki, cùng với những tính năng ưu việt của các phần mềm trước MediaWiki, khi nó dừng sử dụng UseModWiki vào các năm 2002/2003 Nhiều công việc phát triển trên MediaWiki xuất xứ từ các yêu cầu về tính năng và chức năng bổ sung từ những người sử dụng và những người vận hành Tính mở rộng phạm vi, đặc biệt là các yêu cầu cho nhân bản cơ sở dữ liệu xuyên
khắp các cụm nhiều máy chủ, đã biến MediaWiki thành một công cụ cộng tác chuyên nghiệp, phù hợp một cách lý tưởng cho các môi trường chia sẻ tri thức Sự đưa vào các phương pháp có suy tính thận trọng để mở rộng chức năng, được biết như là các mở rộng, đang tích cực cho phép các nhà sáng tạo và phát triển nội dung gia tăng phạm vi và khả năng của MediaWiki
Trang 36MediaWiki đã chứng tỏ là là công cụ tốt nhất trong số các công cụ wiki mã
nguồn mở hiện tại Việc đang được Internet Journal bình chọn làm công cụ wiki tốt nhất là một sự công nhận thành quả đã hỗ trợ cho MediaWiki, nhưng vẫn còn thực
tế lớn hơn là không chỉ MediaWiki được chọn là công cụ cho các công ty như Intel® và Novell, mà còn có phần mềm cung cấp wiki lớn nhất thế giới: Wikipedia MediaWiki cung cấp một số tính năng quan trọng so với các công cụ wiki khác, được mô tả cụ thể trong Bảng 2.1 bên dưới
Bảng 2.1 Một số tính năng chính của MediaWiki
Hỗ trợ đa ngôn ngữ Hiện nay, MediaWiki hỗ trợ 140 ngôn ngữ khác nhau
cụ thể thông qua các nguồn cung cấp RSS
Các trang báo cáo
đặc biệt
Những người dùng có thể định vị các số liệu thống kê trang Web, danh sách người sử dụng, các bài viết mới tạo ra, tất cả các trang theo tiêu đề, các bài viết ưa thích nhất, các bài viết phổ biến và các báo cáo khác giúp họ chuyển qua các nội dung
Các danh sách thảo
luận
Người dùng có thể theo dõi và tham gia vào các cuộc thảo luận liên quan đến nội dung của một bài viết thông qua trang thảo luận
Phân biệt các sửa
đổi
Những người dùng có thể so sánh các sửa đổi được chỉ ra bên cạnh với những thay đổi được đánh dấu