nhưng vẫn chưa thé đáp ứng tốt được yêu cầu tra cứu của đa số người sử dụng vì lĩnh vực công nghệ thông tin và truyền thông là một trong các lĩnh vực luôn không ngừng phát triển với một
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINHTRUONG ĐẠI HỌC CONG NGHỆ THONG TIN
HUYNH SON LAM
XÂY DUNG TỪ DIEN CONG TÁC THUẬT NGỮ
ANH - VIỆT LĨNH VỰC CÔNG NGHỆ THÔNG TIN VÀ
TRUYÈN THÔNG
LUẬN VĂN THẠC SĨNGÀNH KHOA HỌC MÁY TÍNH
TP HO CHÍ MINH - Năm 2017
Trang 2ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINHTRUONG ĐẠI HỌC CONG NGHỆ THONG TIN
HUYNH SON LAM
XÂY DUNG TỪ DIEN CONG TÁC THUẬT NGU
ANH - VIỆT LĨNH VUC CÔNG NGHỆ THONG TIN VA
TRUYÈN THÔNG
NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SO: 60.48.01.01
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGUYEN LƯU THUY NGAN
TP HO CHÍ MINH - Năm 2017
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện
dưới sự hướng dẫn khoa học của TS Nguyễn Lưu Thùy Ngân Các số liệu, kết quả
nêu trong luận văn là trung thực và chưa từng được ai công bố trong bat kỳ công
trình nào khác.
Người viết luận văn
Huỳnh Sơn Lâm
Trang 4LỜI CẢM ƠN
Em xin chân thành gửi lời cảm ơn đến các thầy, cô giáo khoa Khoa học máy
tính, Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ ChíMinh đã giảng dạy, giúp đỡ em trong suốt quá trình học tập tại Trường
Em xin gửi lời cảm ơn sâu sắc tới cô giáo, TS Nguyễn Lưu Thùy Ngân, người
đã trực tiếp hướng dẫn, chỉ bảo, giúp đỡ em hoàn thành luận văn này
Em xin chân thành cảm ơn!
Trang 5LỜI CAM ĐOAN.
LỜI CẢM ƠN
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHU VIET TAT
DANH SÁCH BANG BIEU
DANH SÁCH HÌNH VẼ
2 Mục tiêu nghiên cứu
3 Đối tượng, phạm vi nghiên cứu
4 Nội dung luận văn
Chương 1: TONG QUAN VE DE TÀI
1.1 Bài toán rút trích thuật ngữ
1.2 Bài toán xây dựng từ điển cộng tác thuật ngữ Anh — Việt lĩnh vực ICT 131.3 Tiểu kết chương 1
Chương 2: CƠ SỞ LÝ THUYET
2.1 Các khái niệm liên quan
2.1.1 Thuật ngữ lĩnh vực công nghệ thông tin và truyén thông
Trang 62.2.3 Kết hợp độ đo cục bộ chi bình phương Z2 với độ đo toàn cục IDF 24
3.1 Phương pháp rút trích thuật ngữ ICT
3.1.1 Yêu cầu bài toán
3.1.2 Phương pháp
3.2 Phương pháp xây dựng từ điền cộng tác
3.2.1 Các phân nhóm thuật ngữ sử dụng trong từ điên
3.2.2 Cơ chế cộng tác
3.2.3 Dữ liệu từ điên
3.3 Tiểu kết chương 3
Chương 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ
4.1 Bài toán rút trích thuật ngữ ICT
4.1.1 Dữ liệu thử nghiệm
4.1.2 Các kết quả thử nghiệm
4.2 Ứng dung từ điển cộng tác thuật ngữ Anh — Việt lĩnh vực ICT
4.2.1 Giới thiệu ứng dụng
4.2.2 Đánh giá chức năng chính của ứng dụng
4.2.3 Đánh giá tính hữu ích của ứng dụng
Trang 7TÀI LIỆU THAM KHẢO
PHY LUC I: PHIẾU KHẢO SÁT
Trang 8DANH MỤC CÁC KÝ HIỆU VÀ CHU VIET TAT
FAO IT ICT IDF TF K-NN CC-BY-SA-3.0
TREC LCS MWE EBP MVC
Y nghia
Association for Computational Linguistics
Food and Agriculture Organization
Công nghệ thông tin
Công nghệ thông tin và truyền thông
Inverse Document Frequency Term Frequency
K-Nearest Neighbors Creative Commons Attribution-ShareAlike 3.0
Text REtrieval Conference
Longest Common Subquence multi-word Expression
Embebbed Base Phrase
Model View Controller
Trang 9Bảng 2.1 Một số tinh năng chính của MediaWiki
Bang 4.1 Minh họa hết quả thử nghiệm với TF.IDF
Bang 4.2 Minh họa hết quả thử nghiệm với K-NN
Bảng 4.3 Minh họa hết quả thử nghiệm với y?.IDF
Bảng 4.4 So sánh các kết quả thử nghiệm
Bảng 4.5 Tổng hợp ý kiến đáng giá về tính hữu ích của ứng dụng
Trang 10Hình 1.2 Giao diện chính của Glosbe.com
Hình 1.3 Giao diện tra từ của rung.vn
Hình 2.1 Giao diện chính của công cụ VocBench
Hình 2.2 Biểu trưng của Wikipedia
Hình 2.3 Biểu trưng của Wikimedia Commons
Hình 3.1 Mô hình cơ cấu tổ chức khoa và bộ môn của UIT
Hình 3.2 Phân loại nhóm ngành và ngành Máy tính và Công nghệ thông
tin theo Danh mục giáo dục đào tạo cấp IV
Hình 3.3 Các phân nhóm thuật ngữ sử dụng trong từ điển
Hình 3.4 Sơ dé cơ chế cộng tác của từ điển
Hình 4.1 Màn hình tra cứu thuật ngữ
Hình 4.2 Màn hình thêm mới thuật ngữ
Hình 4.3 Màn hình cập nhật thuật ngữ
Hình 4.4 Màn hình thêm mới file thuật ngữ
Hình 4.5 Màn hình Quản trị nội dung từ điển
Trang 11MỞ DAU
1 Lý đo chọn đề tài
Phát triển nền kinh tế tri thức đang là một yêu cầu lớn được đặt ra trong toàn
bộ sự phát triển kinh tế và xã hội Việc day mạnh ứng dụng công nghệ thông tin vàtruyền thông đã được xác định là động lực to lớn nhất để thúc đây nền kinh tế trithức phát triển Có thể hiểu rằng, công nghệ thông tin và truyền thông là một ngành
nghề rộng lớn có ảnh hưởng tới nhiều ngành nghề khác nhau của xã hội, nhất là
những xã hội phát triển có sử dụng hàm lượng tri thức cao
Ngày 17/10/2000, Bộ Chính trị, Ban Chấp hành Trung ương Đảng Cộng sảnViệt Nam (Khóa VIII) đã ban hành Chi thị số 58-CT/ TW về “Đẩy mạnh ứng dụng
và phát triển công nghệ thông tin phục vụ sự nghiệp công nghiệp hóa, hiện đại hóa”(Chỉ thị 58) Dưới sự chỉ đạo của Đảng và điều hành của Chính phủ, trong 10 năm
qua, công nghệ thông tin và truyền thông Việt Nam đã đạt được nhiều thành tựu
quan trọng và đáp ứng được những mục tiêu đề ra Công nghiệp Công nghệ thôngtin đã trở thành ngành kinh tế quan trọng, có tốc độ phát triển hàng năm cao so với
các khu vực khác, có tỷ lệ đóng góp cho tăng trưởng GDP của cả nước ngày càng
tăng.
Cùng với sự phát triển đó, nhu cầu nguồn nhân lực công nghệ thông tin vàtruyền thông chất lượng cao cũng không ngừng tăng cao trong những năm qua.Theo định hướng quy hoạch quốc gia đến năm 2020, Việt Nam cần khoảng 1 triệu
lao động ngành Công nghệ thông tin Vì lẽ đó, số người giam gia học tập, nghiên
cứu trong lĩnh vực công nghệ thông tin và truyền thông không ngừng tăng cao trongnhững năm qua Một vấn đề đặt ra trong quá trình học tập và nghiên cứu là nhu cầutra cứu từ vựng, thuật ngữ tiếng Anh chuyên ngành Đề đáp ứng nhu đó, nhiều bộ từđiển đã ra đời dưới nhiều dang khác nhau như: từ điển giấy, từ điển trực tuyến, ứngdụng từ điển trên các thiết bị di động, nhưng vẫn chưa thé đáp ứng tốt được yêu
cầu tra cứu của đa số người sử dụng vì lĩnh vực công nghệ thông tin và truyền thông
là một trong các lĩnh vực luôn không ngừng phát triển với một tốc độ rất nhanh, sốthuật ngữ mới cũng xuất hiện rất nhiều và nhanh chóng
Trang 12Để giải quyết vấn đề này một giải pháp đã được đề ra trong những năm gầnđây là xây dựng từ điển thuật ngữ theo dạng cộng tác Giải pháp này được xây dựng
dựa trên ý tưởng chính là huy động tối da tri thức cộng đồng dé xây dựng một bộ từ
điển dan hoàn thiện từng ngày va đáp ứng nhu cầu của người sử dụng Tuy nhiên,thực tế cho thấy những bộ từ điển thuật ngữ Anh — Việt chuyên ngành hiện tại vẫn
chưa đáp ứng được đầy đủ nhu cầu sử dụng
Với những lý do nêu trên, chúng tôi chọn đề tài “Xây dựng từ điển cộng tácthuật ngữ Anh — Việt lĩnh vực công nghệ thông tin và truyền thông” để thực hiện
2 Mục tiêu nghiên cứu
- Nghiên cứu kỹ thuật rút trích thuật ngữ bằng Tiếng Anh tự động từ các bàibáo khoa học về lĩnh vực công nghệ thông tin và truyền thông (ICT) đề bé sung vào
từ điền
- Xây dựng từ điển cộng tác thuật ngữ Anh - Việt cho lĩnh vực ICT với khoảng
1500 từ vựng ban đầu
3 Đối tượng, phạm vi nghiên cứu
Trong khuôn khổ luận văn, chúng tôi thực hiện các nội dung sau:
- Tìm hiểu khái niệm và cách thức tô chức, hoạt động của một bộ từ điển cộng
tác trực tuyến
- Tìm hiểu bài toán rút trích và một số thuật toán rút trích phô biến hiện nay
- Tìm hiểu công cụ VocBench
- Xây dựng từ điển cộng tác thuật ngữ Anh - Việt cho lĩnh vực ICT với khoảng
1500 từ vựng ban đầu
- Nghiên cứu và đề xuất kỹ thuật rút trích thuật ngữ bằng Tiếng Anh một cách
tự động từ các bài báo khoa học về lĩnh vực ICT dé bổ sung vào từ điển
4 Nội dung luận văn
Nội dung của luận văn được trình bày trong 05 chương:
Chương 1: Tổng quan về đề tài
Giới thiệu tổng quan về đề tài bao gồm bài toán rút trích thuật ngữ; bài toánxây dựng từ điển thuật ngữ Anh — Việt cho lĩnh vực ICT
Trang 13Chương 2: Cơ sở lý thuyết
Trình bày các khái niệm liên quan đến dé tài; các công trình liên quan về từ
điển cộng tác; tổng quan về bài toán rút trích và một số thuật toán rút trích phổ biến
Chương 3: Mô hình đề xuất
Đề xuất mô hình tô chức lưu trữ bộ từ điển thuật ngữ Anh — Việt lĩnh vực ICT
và xây dựng phương pháp rút trích thuật ngữ từ bài báo chuyên ngành bằng tiếng
Anh để làm dữ liệu bổ sung từ vựng cho từ điển
Chương 4: Thử nghiệm và đánh giá
Giới thiệu việc xây dựng, cài đặt bộ từ điển cộng tác trên nên tảng web cộngtác; triển khai thử nghiệm và khảo sát tính hữu ích của hệ thống đối với người sử
dụng.
Chương 5: Kết luận và khuyến nghị
Tông kết những kết quả đạt được của đề tài; hạn chế của dé tài; đồng thời đề
ra hướng phát triển của đề tài
Trang 14
-I1-Chương 1: TONG QUAN VE DE TÀI
1.1 Bai toán rút trích thuật ngữ
Theo từ điển Tiếng Việt (Hoàng Phê, 2010), Thuật ngữ là Từ ngữ biểu thị mộtkhái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất
định Ngoài ra, theo B Q Zadeh và S Handschuh [11] thì Thuật ngữ là những don
vị từ vựng xác định, đại diện cho một kiến thức cơ bản nhất của ột lĩnh vực tri
thức Nhu vậy, Thuật ngữ (Terminology) là một từ hay một cụm từ diễn tả một khái
niệm thuộc một ngành khoa học nhất định
Rút trích thuật ngữ (Terminology extraction) là một trong những hướng
nghiên cứu rút trích thông tin từ văn bản phô biến hiện nay Rút trích thuật ngữ từmột hay nhiều văn bản tức là tìm kiếm và lấy ra tất cả các từ, cụm từ được xác định
là thuật ngữ Thuật ngữ được trích ra có thé là thuật ngữ đã từng xuất hiện trong văn
bản khoa học nào đó, hoặc đó có thê là một thuật ngữ hoàn toàn mới được công bố
Hiện nay, đã có nhiều nghiên cứu và tìm ra các kỹ thuật, phương pháp dé giảiquyết bài toán rút trích thuật ngữ Đã có nhiều phương pháp, thuật toán được đềxuất và thử nghiệm trên nhiều bộ dữ liệu huấn luyện khác nhau, tuy nhiên nhữngkết quả thu được chỉ ở mức chấp nhận được và vẫn cần có sự can thiệp thủ công củacon người dé có thé tăng thêm độ tin cậy và chính xác của kết quả
Một số công trình nghiên cứu có thể kẻ đến như:
- Công trình “Xây dựng hệ thống rút trích các nội dung chính của văn bảnkhoa học dựa trên cấu trúc” [6] đề xuất xác định từ mới dựa trên độ quan trọng của
từ được tính theo công thức kết hợp của độ đo cục bộ và độ đo toàn cục Theo đó,
một thuật toán đánh giá từ khóa dựa trên sự kết hợp của độ đo cục bộ và độ đo toàn
cục là TF.IDF (Term Frequency - Inverse Document Frequency) cho một kết quảkhá tốt (51,98%) trên bộ dữ liệu mẫu
- Theo báo cáo khoa hoc “Automatic Term Extraction Based on Perplexity of
Compound Words” [16] đề xuất rút trích thuật ngữ dựa trên phương pháp kết hợp
loại và tần số qua entropy (Combining Types and Frequencies via Entropy) Nhóm
tác giả đã áp dụng phương pháp này với tập các bài báo và tóm tắt trên Mainichi
Trang 15'Web News từ 04/2011 đến 3/2012 Kết quả đạt được trên 40% với các bài báo thuộclĩnh vực kinh tế, thế giới, xã hội, chính trị.
- Một hướng tiếp cận khác cho rút trích là dựa trên mô hình ontology (Chau vàTuoi, 2009) Nhóm tác giả Chau và Tuoi [14] đã sử dụng phương pháp đề xuất trên
tập dữ liệu TREC (Text REtrieval Conference) (http://trec.nist.gov/data/): TREC-07
(446 câu hoi); TREC-06 (492 câu hỏi) và TREC-02 (440 câu hoi) đã được dich sang
tiếng Việt Kết qua đạt được độ chính xác xắp xi 74,6%
- Một hướng tiếp cận rút trích khác là dựa trên lý thuyết về dãy con chung dàinhất (Longest Common Subquence — LCS) [15] Ap dụng rút trích multi-wordExpression (MWE) kết hợp heuristic và phát hiện Embebbed Base Phrase (EBP)trên tập mẫu 8000 câu Kết quả đạt x4p xi 36% với N-gram
1.2 Bài toán xây dựng từ điển cộng tác thuật ngữ Anh - Việt lĩnh vực ICT
Hiện nay, công nghệ thông tin và truyền thông là một trong những ngành đang
trong thời kỳ phát triên bùng nỗ, thu hút một lượng lớn người học tập, nghiên cứucác chuyên ngành trong lĩnh vực.
Do vậy, để đáp ứng nhu cầu tra cứu phục vụ cho mục đích học tập và nghiên
cứu của đa số người sử dụng, đã có không ít ấn bản từ điển thuật ngữ của các
chuyên ngành thuộc lĩnh vực công nghệ thông tin và truyền thông đã ra đời Tuynhiên, hầu hết đều chưa đáp ứng được nhu cầu thực tế của đa số người sử dụng Đa
số các lý do được đưa ra đều xoay quanh 3 vấn đề tồn tại tiêu biểu của một ấn bản
từ điển thuật ngữ chuyên ngành là:
(1) Khó khăn và tốn nhiều thời gian trong việc tra cứu một cách thủ công,không có tính di động cao, chưa đáp ứng được nhu cầu tra cứu lập tức, một nhu cầuluôn tồn tại đối với những cá nhân hoạt động trong lĩnh vực công nghệ thông tin vàtruyền thông;
(2) Đa số từ điển chưa được phân loại theo từng chuyên ngành cụ thể trong
cùng lĩnh vực;
(3) Số lượng thuật ngữ trong từng bộ từ điển còn hạn chế, hầu hết đều không
có khả năng cập nhật kịp thời những thuật ngữ mới trong lĩnh vực, nhất là lĩnh vực
Trang 16
-13-công nghệ thông tin và truyền thông là một trong các lĩnh vực có sự xuất hiện, bổ
sung và cập nhật thuật ngữ với tốc độ rat cao
Từ đó, ý tưởng về việc xây dựng bộ từ điển thuật ngữ lĩnh vực công nghệ
thông tin và truyền thông đã ra đời Đã có không ít các bộ từ điển thuật ngữ chuyênngành đã ra đời với mong muốn đáp ứng nhu cầu tra cứu của đa số người dùngnhằm phục vụ nhu cầu học tập và nghiên cứu của họ
Một số ứng dụng từ điển được xây dựng dưới dạng ứng dụng web hiện nay cóthể kể đến như:
Bamboo tra tir
Btratu E Datamining amv” EDD
nguyen Tuan Hy, en
Tintin bi omglecon Timiển|
eG 60cae
Hình 1.1 Giao diện tra từ của Bamboo tra từ
Bamboo tra từ (tratu.soha.vn) là trang từ điển trực tuyến đa chuyên ngành,được Công ty Cổ phần Truyền thông Việt Nam VC Corp phát triển dựa trên nền
tảng mở mediawiki cho phép người dùng tra cứu nghĩa của từ trong các lĩnh vực
khác nhau Nội dung của Bamboo tra từ tuân thủ Giấy phép Creative Commons
Attribution ShareAlike.
Cơ sở dữ liệu được kế thừa nguồn đữ liệu từ trang từ điển trực tuyến Vietdic,cộng với việc thường xuyên bổ sung các nguồn dữ liệu từ việc mua lại các từ điển
có bản quyền như Prodic và Javidic, Bamboo Tra từ hiện đang sở hữu một nguồn
dé liệu khổng lồ và quý giá Nhưng điều tạo nên sự khác biệt giữa Bamboo Tra từ
và các trang từ điền khác, đó chính là những đóng góp của cộng đồng các thành
Trang 17viên Bamboo Tra từ trong việc xây dựng nguồn dữ liệu từ điển Hiện nay số lượngthành viên của Bamboo tra từ đã lên đến con số hơn 30,000.
Bên cạnh tính năng chính hỗ trợ cho việc tra cứu và dịch thuật, Bamboo tra từ
còn được tích hợp thêm nhiều tiện ích để người dùng có thê sử dụng một cách dễdàng và nhanh chóng nhất
(1) Box Hỏi - Đáp dành cho người dùng
Ngoài tính năng tra từ thân thiện và dễ sử dụng, Box Hỏi — Đáp chính là điểmđến thú vị nhất đối với những người thường xuyên truy cập Bamboo tra từ Với sựtham gia của rất nhiều thành viên tích cực, trong đó có cả những người làm công tácdich thuật chuyên nghiệp, Box Hỏi — Đáp luôn là nơi giải đáp tốt nhất những thắcmắc về học tập ngoại ngữ và dịch thuật của các thành viên cộng đồng Bamboo Tra
từ.
(2) Tra từ Add-on cho Firefox dành cho người dùng
Với mục đích trợ giúp cho người dùng sử dụng các trình duyệt đang được ưa
chuộng nhất hiện nay trong việc tra cứu, nhóm phát triển Bamboo tra từ đã cho ra
đời add-on tra từ dành cho Firefox với giao diện đơn giản, dễ sử dụng và tính tương
tác cao.
(3) Tra từ Bookmarklet dành cho người dùng.
Ban đầu là một tiện ích được nhóm phát triển Bamboo tra từ cho ra đời nhằm
đáp ứng yêu cầu của đa số người dùng Internet Explorer Nhưng Tra từ
Bookmarklet dan cho thấy sự ưu việt bằng khả năng tương tác với tất cả các trìnhduyệt phổ biến hiện nay
(4) Forum Bamboo tra từ dành cho người dùng
Forum Bamboo tra từ là một không gian cộng đồng khác của Bamboo Tra từbên cạnh Box Hỏi — Đáp Với nhiều không gian dành cho giải trí hơn, các thành
viên sẽ có được khoảng thời gian thư giãn sau giờ học tập làm việc căng thăng.
(5) Tiện ích nhúng tra cứu nhanh trên website dành cho Webmaster
Bamboo tra từ hiện cho phép tích hợp tính năng tra cứu lên trang web của bạn.
Chỉ cần vài thao tác đơn giản, đã có thể khai thác được nguồn dữ liệu khổng lồBamboo tra từ, với các bộ từ điển lớn: Anh — Pháp — Việt — Nhật, và hơn 20 từ
điển chuyên ngành khác
eS:
Trang 18(6) Module Bamboo tra từ cho Joomla dành cho Webmaster
Module Bamboo tra từ là tính năng mới mà Bamboo tra từ phát triển dànhriêng cho mã nguồn mở Joomla Đây là module hỗ trợ người dùng tra cứu từ điểntrực tiếp ngay trên web
Mặc dù có nhiều tính năng ưu việt, nhưng Bamboo tra từ chưa thực sự phù
hợp dành cho các cá nhân đang học tập và nghiên cứu các chuyên ngành thuộc lĩnh
vực công nghệ thông tin và truyền thông vì:
(1) Số lượng thuật ngữ lĩnh vực này còn khá hạn chế (chưa có chuyên mục
Lon nhat tir dién Hoạt động gan đây Xã hội
Hình 1.2 Giao diện chính của Glosbe.com
Glosbe.com là một ứng dụng từ điển được xây dựng trên mô hình web cộngtác với sự hỗ trợ tra cứu ngữ nghĩa từ vựng trên nhiều ngôn ngữ khác nhau.Glosbe.com cung cấp một dữ liệu từ điển lớn nhằm đáp ứng nhu cầu tra cứu của
người dùng Đồng thời Glosbe.com cũng rất trân trọng và hoan nghên tất cả các
đóng góp của người dùng thông qua môi trường cộng tác công khai trên giao diện
Trang 19ứng dụng web của từ điển Một số dữ liệu của Glosbe.com hiện có được cấp phépvới CC-BY-SA, một số là FDL, một số có giấy phép tùy chỉnh.
Tuy nhiên, Glosbe.com được đánh giá là một bộ từ điển đáp ứng khá tốt
những nhu cau tra cứu phổ thông, nhưng chưa đáp ứng đầy đủ như cầu tra cứu các
thuật ngữ chuyên ngành nói chung và những thuật ngữ lĩnh vực công nghệ thông tin
và truyền thông nói riêng
Thuật ngữ (những từ chuyên môn của một vấn đề ring biệt)
"Hệ thống thuật ngữ của một ngành chuyên môn
“Cách đồng iêng các từ để làm tên gọ làm ký hiệu
Trang 20Rung.vn là một ứng dụng từ điển trực tuyến, một ứng dụng dành cho cộngđồng dich thuật mở với mục tiêu Dịch thuật tương tác - Dịch thuật không giới hạn.
Rung.vn cung cấp cho người dùng các bộ từ điển trực tuyến miễn phí, có hình minh
hoạ, có phiên âm nhiều thứ tiếng Anh, Việt, Trung, Hàn, Nhật, Pháp, Viết tắt, Hiện tại Rung.vn mới bổ sung thêm 2 bộ từ điển nữa là Anh - Nhật và Nhật — Anh.Bên cạnh đó, Rung.vn cũng đã bổ sung thêm ứng dụng bookmarklet hỗ trợ tra cứu
và dịch đoạn văn bản trên mọi trình duyệt tại các trang mà bạn đang xem.
Trong lúc tra từ, chúng ta thường copy qua lại những văn bản dé tra thì chúng
ta vô tình copy luôn những ký tự hoặc từ không mong muốn, do đó rung.vn đã hiểu
và phat triển cho bạn một từ điển thông minh Dù bạn copy hay gõ dư hay thiếu từ,
hở đầu hở đuôi thì kết quả cũng gần như từ bạn mong muốn, và bao gồm các từ gợi
ý giúp chúng ta có thêm nhiều lựa chọn
Rung.vn được xây dựng trên nền tảng Mã nguồn mở nên nội dung của từ đều
có thể thêm hoặc sửa lại theo đúng nghĩa bởi cộng đồng Rung.vn rất hoan nghênh
sự đóng góp của cộng đồng tham gia vào việc chỉnh sửa này để tạo nên một bộ từđiển hoàn thiện và hoàn toàn miễn phí cho cộng đồng
(2) Có khả năng cập nhật và bổ sung nhanh chóng nhờ vào các cơ chế quản lý
ứng dụng của nhà phân phối;
(3) Đa số các bộ từ điển này đều có sự kế thừa, tổng hợp từ các ấn bản từ điển
đã được phát hành, có số lượng các thuật ngữ là tương đối lớn so với các ấn bản từđiển giấy
Tuy nhiên, những ứng dụng từ điển này vẫn có một số vấn đề còn tồn tại vàcần được giải quyết Hầu hết những ứng dụng từ điển này đều được xây dựng dưới
hình thức một ứng dụng web, một chương trình ứng dụng trên máy tính hay một
ứng dụng trên các thiết bị di động Nhưng thực tế là những ứng dụng này chỉ tổng
hợp tat cả thuật ngữ cùng phan chú giải vào dữ liệu từ điển của ứng dụng chứ chưa
Trang 21có một sự phân loại tổ chức từ điển theo từng chuyên ngành trong lĩnh vực côngnghệ thông tin và truyền thông Một van đề còn tồn tại nữa đó là những từ điển này
chưa thật tận dụng có hiệu quả được sự cộng tác của người dùng trực tiếp thông qua
ứng dụng.
Mô hình từ điển thuật ngữ dựa trên cơ sở ứng dụng web cộng tác cùng với một
mô hình tô chức phân loại phù hợp cho từ điển thật sự là một giải pháp phù hợp chonhu cầu tra cứu thuật ngữ phục vụ việc học tập và nghiên cứu của các cá nhân đanghoạt động trong lĩnh vực Mô hình ứng dụng web cộng tác là một mô hình có thểtận dụng tối ưu nhất sự đóng góp của tất cả các cá nhân sử dụng từ điển nhằm cùnggóp phần xây dựng từ điển ngày càng hoàn thiện hơn Bên cạnh đó mô hình webcộng tác là một mô hình phù hợp nhất cho việc kịp thời cập nhật những thuật ngữ
mới bằng việc tận dụng những tri thức của người dùng được đóng góp cho từ điển
thông qua các hoạt động cộng tác xây dựng từ điền
1.3 Tiểu kết chương 1
Chương | đã trình bày một cách tổng quan về dé tài Phát biéu 2 bài toántương ứng với 2 mục tiêu của đề tài bao gồm: bài toán rút trích thuật ngữ và bàitoán xây dựng từ điển cộng tác thuật ngữ Anh — Việt lĩnh vực ICT
Trang 22
-19-Chương 2: CƠ SỞ LÝ THUYET
2.1 Các khái niệm liên quan
2.1.1 Thuật ngữ lĩnh vực công nghệ thông tin và truyền thông
Theo Từ điển Oxford, Thuật ngữ là một từ hoặc cụm từ được sử dụng như têncủa một đối tượng nào đó trong một ngôn ngữ cụ thể; là từ ngữ chuyên môn củamột vấn đề riêng biệt Công nghệ thông tin và truyền thông (Information and
Communications Technology — ICT) là ngành học nghiên cứu về việc sử dụng máy
tính, internet, video và các công nghệ khác như là một môn tại các trường học.
Theo từ điên Tiếng Việt (Hoàng Phê, 2010), Thuật ngữ là từ ngữ biểu thị mộtkhái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất
- Thuật ngữ khác với từ ngữ phô thông
- Mỗi thuật ngữ thuộc một lĩnh vực khoa học công nghệ chỉ biểu thị một kháiniệm và ngược lại mỗi khái niệm trong lĩnh vực đó chỉ được biêu hiện bằng mộtthuật ngữ duy nhất
- Thuật ngữ không có tính biểu cảm
Theo bộ bách khoa toàn thư mở Wikipedia thi Công nghệ thông tin và truyền
thông, thường được gọi là ICT, là cụm từ thường dùng như từ đồng nghĩa rộng hơncho công nghệ thông tin (IT), nhưng thường là một thuật ngữ chung để nhấn mạnh
vai trò của truyền thông hợp nhất và sự kết hợp của viễn thông (đường dây điện
thoại và tín hiệu không dây), hệ thống quản lý tòa nhà thông minh và hệ thống
nghe-nhin trong công nghệ thông tin hiện đại "ICT" được sử dụng như là một thuật
ngữ chung cho tat cả các loại công nghệ cho phép người dùng tạo, truy cập và thaotác với thông tin ICT là một sự kết hợp của công nghệ thông tin và công nghệtruyền thông
Trang 23Như vậy, thuật ngữ lĩnh vực công nghệ thông tin và truyền thông là những từ,
cụm từ biểu thị một khái niệm cụ thể thuộc lĩnh vực công nghệ thông tin và truyền
thông, nghiên cứu máy tính, internet, video và các công nghệ liên quan khác Đa sốthuật ngữ thường chỉ tập trung xuất hiện trong các văn bản khoa học trong cùng lĩnh
vue.
Từ các định nghĩa và đặc điểm đã nêu của một từ được cho là thuật ngữ, ta cóthể xác định được một số dấu hiệu nhận biết giúp xác định một từ có khả năng làthuật ngữ lĩnh vực công nghệ thông tin và truyền thông trong văn bản khoa họcthuộc lĩnh vực công nghệ thông tin và truyền thông như sau:
- Thường chỉ xuất hiện trong các văn bản khoa học và tài liệu chuyên ngànhtrong cùng lĩnh vực (Công nghệ thông tin và truyền thông)
- Là từ khóa trong văn bản (đa số là bài báo khoa học)
- Là danh ngữ, thường là danh từ hay cụm danh từ
- Là từ mới, thường có giải thích khái niệm đi kèm
- Là từ được viết tắt trong văn bản, thường là những thuật ngữ được sử dụngnhiều lần trong văn bản
2.1.2 Từ điển cộng tác
Từ điển là danh sách các từ ngữ được sắp xếp thành các từ vị chuẩn (lemma)
Một từ điền thông thường cung cấp các giải nghĩa các từ ngữ đó hoặc các từ ngữ
tương đương trong một hay nhiều thứ tiếng khác Ngoài ra còn có thể có thêm thôngtin về cách phát âm, các chú ý ngữ pháp, các dạng biến thé của từ, lịch sử hay từnguyên, cách sử dụng hay các câu ví dụ, trích dẫn Từ điển là nơi giải thích thôngtin về ngôn ngữ của con người một cách dễ hiểu và khách quan nhất Thông thường
từ điển được trình bày dưới dạng sách Ngày nay, từ điển còn được số hóa và cung
cấp dưới dạng phần mềm máy tính, ứng dụng trên nền web hay ứng dụng trên di
động,
Cộng tác là quá trình trao đổi, trợ giúp, phối hợp giữa một nhóm người nhằm
đạt được một mục tiêu xác định Việc cộng tác đã được con người thực hiện từ rấtlâu và đây chính là cơ sở cho sự phát triển và hình thành nên xã hội loài người, giúp
con người phát triển từ giai đoạn bầy đàn sang giai đoạn xã hội Hoạt động cộng tác
Trang 24
-21-của con người được thể hiện dưới nhiều hình thức khác nhau: Cộng tác trong côngviệc, cộng tác trong việc truyền đạt tri thức.
Từ điển cộng tác là một loại từ điển cho phép các cá nhân sử dụng có thểsứa chữa, góp ý xây dựng để bộ từ điển ngày càng hoàn thiện và chính xác Từđiển công tác thường được xây dựng dưới dạng các bộ từ điển trực tuyến, miễn phícho tat cả người sử dụng
Một bộ từ điển cộng tác trực tuyến thường đi kèm một cơ chế cộng tác Một
cơ chế cộng tác hiệu quả là một co chế cộng tác có khả năng vừa kích thích sự cộngtác của cá nhân, vừa hạn chế những ý kiến đóng góp không chính xác Một cơ chếcộng tác hợp lý sẽ giúp xây dựng một ứng dụng cộng tác phát triển và thật sự hữu
ích cho người dùng.
2.2 Một vài thuật toán thường sử dụng trong bài toán rút trích thuật ngữ
2.2.1 Sử dụng độ đo cục bộ TE
TF - Term Frequency, độ đo cục bộ (local weight) là độ đo thống kê giá trị
thông tỉn của một từ trong một văn bản theo tần số xuất hiện của từ đó trong văn
bản Theo đó, một từ được cho là từ khóa, là từ có chứa độ lợi thông tin càng cao thì
số lần xuất hiện của từ trong văn bản càng cao và giá trị TF càng lớn
Giá trị TF, tần số xuất hiện của một từ trong một văn bản được tính bằngthương của số lần xuất hiện của một từ trong văn bản và số lần xuất hiện nhiều nhất
của một từ bat ky trong van bản đó, giá trị sẽ thuộc khoảng [0, 1] Cụ thể như sau:
f(t, d
bốnTrong đó:
- f(t,d): số lần xuất hiện từ t trong văn bản d
- max{f(w,d):w€d}: số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn
Trang 25và thường được sử dụng kết hợp với độ đo toàn cục (global weight) hay các độ đokhác nhằm tăng độ tin cậy cho phương pháp.
2.2.2 Kết hợp độ đo cục bộ TF và độ đo toàn cục IDF
an để
Hướng tiếp cận này thường sử dụng thông tin thống kê tần số xuất
chọn lựa các từ khóa quan trọng trong văn bản Ưu điểm chính của các hướng tiếp
cận dựa trên thông kê này là có thể áp dụng dễ dàng cho nhiều ngôn ngữ
Thong tin thống kê này thường bao gồm hai loại: Độ đo cục bộ và độ đo toàncục Độ đo cục bộ là độ đo thống kê của một từ trong nội bộ văn bản cần rút trích từkhóa Trong khi đó độ đo toàn cục là độ đo thống kê của từ đó trong một tập hopnhiều văn bản khác nhau cho trước
Một số độ đo thống kê cục bộ thông dụng có thể được sử dụng đề lựa chọn các
từ khóa quan trọng như: tần số xuất hiện (TF), độ phân bó chỉ bình phương (7 ), độlợi thông tin (IG), thông tin tương hỗ (MD, hoặc độ mạnh của thuật ngữ (TS) Còn
về độ đo thống kê toàn cục thì có thé kể đến độ đo IDF (Inverse DocumentFrequency), dùng để đo nghịch đảo sự phổ biến của một từ trong một tập hợp văn
bản cho trước Cần phải có một tập dữ liệu văn bản lớn cho trước đề có thể sử dụng
độ đo toàn cục.
Hiện nay một thuật toán rút trích từ khóa dựa trên sự kết hợp của độ đo cục bộ
và toàn cục là TF.IDF cũng cho kết quả khá tốt Cách tiếp cận của TF.IDF sẽ ướclượng được độ quan trọng của một từ đối với một văn bản trong danh sách tập tài
liệu văn bản cho trước.
Nguyên lý cơ bản của TF.IDF [6] là: độ quan trọng của một từ sẽ tăng lên
cùng với số lần xuất hiện của nó trong văn bản và sẽ giảm xuống nếu từ đó xuấthiện trong nhiều văn bản khác Do đó độ đo sự quan trọng của một từ t trong tài liệu
f sẽ được tính bằng: TF*/DF, với TF là độ phé biến của từt trong tài liệu f và IDF là
nghịch đảo độ phổ biến của từt trong các tài liệu còn lại của tập tài liệu Công thứctổng quát như sau:
Weight,; = TF * IDF Với:
TF =Ns()/ Sw
IDF = log(Sd/(d:ted))
Trang 26
-23-Trong đó:
Ns() : Số lần xuất hiện của từ t trong tài liệu f
Yw: Tổng số các từ trong tài liệu f
Yd= tổng sé ti
d:téd : số
liệu
liệu có chứa từ t
Vi dụ, nếu chúng ta có một văn bản gồm 100 từ, trong đó từ “computer” xuất
hiện 5 lần thì ta có độ phổ biến: TF(“computer”) = 5/100 = 0.05 Bay giờ giả sử
chúng ta có 1000 tài liệu, trong đó có 200 tài liệu chứa từ “computer” Lúc này ta sẽ
tính được IDF(“computer”) = In(1000/200) = 1.61 Như vậy ta tính được độ do
TF.IDF = TF * IDF = 0.05 * 1.61 = 0.0805.
Độ đo này của từ càng cao thì kha năng là từ khóa càng lớn Hướng tiếp cận
độ đo TF.IDF này rất thông dụng hiện nay
2.2.3 Kết hợp độ đo cục bộ chỉ bình phương x? với độ đo toàn cục IDF
Hướng tiếp cận này dựa vào thông tin thống kê trong nội bộ văn bản (độ phân
bố chỉ bình phương - x”) và thông tin thống kê với tập dữ liệu bên ngoài văn bản(IDF) [8] Trọng số (độ quan trọng) W của mỗi từ ứng viên t bằng cách kết hợp hai
độ đo này theo công thức:
- freq(w, c) là số lần xuất hiện cùng nhau của từ w và nhóm c
- My là tổng số từ có trong các câu mà w xuất hiện
- p là tần suất xuất hiện của nhóm c
Độ đo cục bộ chỉ bình phương _z? là một loại độ đo thống kê, thống kê độ
phân bố của một từ trong văn bản Độ đo này được xem như độ quan trọng của từ
trong văn bản Độ đo này càng cao thì khả năng là từ cần rút trích càng nhiều
Trang 27D6 do toàn cục IDF của một từ t trong tập văn bản D được tính như sau:
D
IDF(t) = eT
Với:
- IDI là số tài liệu trong tập tài liệu D
~l{d:t€d)I là số tài liệu trong D có chứa từ t
Độ đo W(t) = x?().IDF() của từ có giá trị càng cao thì khả năng là từ cần rút
trích càng cao.
2.2.4 K - láng giềng gần nhất
Thuật toán K - láng giềng gần nhất [5] (K-Nearest Neighbors algorithm,K-NN) được sử dung rất phổ biến trong lĩnh vực Data Mining K-NN là phươngpháp dé phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần
xếp lớp (Query Point) và tat cả các đối tượng trong Training Data
Một đối tượng được phân lớp dựa vào K láng giềng của nó K là số nguyên
dương được xác định trước khi thực hiện thuật toán.
M6t số công thức tính khoảng cách thường được dùng trong K-NN:
dij) = I(r — xa + |xi2 — Xe _ #ip = xl)
Thuật toán K-NN được mô tả như sau:
- Bước 1 Xác định giá trị tham số K (số láng giềng gần nhất)
Trang 28
-25 Bước 2 Tính khoảng cách giữa các Query Point với tất cả các đối tượng
trong Training Data (thường sử dụng khoảng cách Euclid)
- Bước 3 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giéng
gần nhất với Query Point
- Bước 4 Lay tat cả các lớp của K láng giềng gần nhất đã xác định
- Bước 5 Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho
Query Point
2.2.5 Naive Bayes
Dinh lý Bayes
Cho X, C là các biến bất kỳ (rời rạc, liên tục, cấu trúc) Mục tiêu của ta là dự
đoán C từ X Từ mô hình Bayes ta có thê lượng giá các tham số của P(XIC), P(C)trực tiếp từ tập huấn luyện Sau đó, ta sử dụng định ly Bayes dé tính P(CIX=x)
Độc lập điều kiện (conditional independence): X độc lập điều kiện với Y khi
cho Z nếu phân bố xác suất trên X độc lập với các giá trị của Y khi cho các giá trịcủa Z Ta thường viết P(XIY,Z) = P(XIZ)
Giả sử D là tập huấn luyện gồm các mẫu biểu diễn dưới dạng X =< x), , X„>
€¡p là tập các mẫu của D thuộc lớp C,(i = {1, , m}) Các thuộc tinh x), , xạ độc
lập điều kiện đôi một với nhau khi cho lớp C
Trường hợp X là giá trị rời rạc
Giả sử X =< x), , xạ> Trong đó, x; nhận các giá trị rời rac Khi đó, lượng giá P(C;) và lượng giá P(x,|C;) theo công thức:
Trang 29với m là số lớp, r là số giá trị rời rac của thuộc tinh.
Trường hợp X là giá trị liên tục
Nếu thuộc tính nhận giá trị liên tục thì xác suất P(X_kIC_i) thường được tính
dựa theo phân bố Gauss với giá trị trung bình mu và độ lệch sigma:
Thuật toán S3VM [Š] (Semi-supervised support vector machine) có mục đích
nhằm xây dựng một máy hỗ trợ vector sử dụng tập dữ liệu huấn luyện là một lượng
nhỏ các dữ liệu đã gán nhãn (training set) và một lượng lớn chưa gán nhãn (working
set) Bài toán truyền dẫn sẽ dự đoán giá trị của một hàm phân lớp tới các điểm đã
cho trong tập dữ liệu chưa gán nhãn.
Thuật toán S3VM được xây dựng đê sử dụng hỗn hợp dữ liệu huấn luyện là dir
liệu đã gán nhãn và chưa gán nhãn với mục đích là gán các nhãn cho dữ liệu trong
tập dữ liệu huấn luyện chưa gán nhãn một các tốt nhất có thể Sau đó sử dụng hỗn
Trang 30
-27-hợp dữ liệu đã gán nhãn cho trước và dữ liệu vừa được gán nhãn để huấn luyến và
phân lớp những dữ liệu mới.
Ta nhận thấy rằng nếu toàn bộ dữ liệu huấn luyện đã được gán nhãn thì bài
toán này lại trở thành bài toán học có giám sát SVM (Support vector machine).
Ngược lại nếu toàn bộ dữ liệu huấn luyện chưa được gán nhãn thì bài toán lại trở
thành bài toán học không giám sát.
Nội dung thuật toán
Đầu vào:
D: Tập dữ liệu có nhãn và chưa có nhãn.
D= {(x;, yi) Ì xị € RỲ, yị €{-I,0, 1},¡= 1,2, ,n}
L: Tập dữ liệu đã gán nhãn trong D gồm | dữ liệu
Cuc tiéu hoa 5 lIwll? theo b, w, y;
Giải bài toán tôi ưu y(wx, +b) >1, = 1, 1
yi(wx, +b) > 1,i= 1, u
Cụ thê hơn ta có bài toán sau:
1 u
fa 1 A
a, {ia + ad, max(0,1 — y,(w x; + b)) + mà, max (0,1 ~ y,(w x) + 5)
Vấn đề ở đây là ta cần phải xác định yj trong tập dữ liệu chưa được gan nhãn
Ta thực hiện tìm kiếm một siêu phẳng w và ghi nhãn một trong những ví dụ không
có nhãn, do đó hàm mục tiêu SVM được giảm thiêu, và bị ràng buộc bởi một r phần
nhỏ của dữ liệu không có nhãn được phân loại tích cực Ta có:
Trang 31max (0, sign (w xy + b))
Tập dữ liệu chưa gán nhãn sau khi đã gán nhãn sẽ được đưa vào tập dữ liệu
huấn luyện, tiếp theo đó sẽ sử dụng thuật toán SVM để học tạo ra SVM mới, SVMnày chính là S3VM có một siêu phẳng mới Sau đó áp dụng siêu phẳng này để phânlớp các mẫu đữ liệu mới được đưa vào
Vậy giải thuật S3VM chính là một phương pháp cải tiến của giải thuật SVM,giải thuật đã tận dụng được những ưu điểm của học có giám sát là có độ chính xác
cao và đã tận dụng được nguồn dữ liệu huấn luyện không gán nhãn rất sẵn có nhằm
giải quyết bài toán phân lớp một cách tối ưu Tuy nhiên vì giải thuật được xây dựngtrên nền tảng là giải thuật SVM nên nó vẫn gặp phải những vấn đề của giải thuậtSVM như sự bùng né tổ hợp, độ phức tạp cao, giải quyết bài toán tối ưu khó,
2.3 Một vài mô hình ứng dụng từ điển cộng tác
2.3.1 VocBench
VocBench [10] là một ứng dụng web mã nguồn mở, đa ngôn ngữ, hỗ trợ biêntập và quản lý từ vựng, chú giải bằng SKOS và SKOS-XL VocBench được pháttriển bởi FAO (Food and Agriculture Organization) và các đối tác, và được thiết kế
để đáp ứng các nhu cầu của web ngữ nghĩa và các môi trường liên kết dữ liệu
VocBench cung cấp công cụ và chức năng tạo điều kiện cho việc hợp tác chỉnh sửathuật ngữ đa ngôn ngữ Nó cũng bao gồm quản lý và quản lý nhóm tính năng cho
phép chỉnh sửa một cách linh hoạt.
VocBench là kết quả của một nỗ lực chung của nhóm ART, Đại học Rome
Tor Vergata Trong phiên bản 2.0, VocBench đã trải qua một cải tiến lớn, với sự hỗ
trợ của RDF từ hệ thống Semantic Turkey, với các tính năng mới và cải tiến đáng
kê.
Trang 32
-20-Giao diện người dùng
Hình 2.1 Giao diện chính của công cụ VocBench
VocBench đã được xây dựng dưới dạng một ứng dụng web, được truy cập
thông qua bat kỳ trình duyệt nào Do đó giúp người dùng giảm đi việc cài đặt phần
mềm và cấu hình Giao diện người dùng bao gồm nhiều tab, mỗi một liên kết với
thông tin và các chức năng cụ thé Hình 2.1 cho ta thấy được giao diện làm việc củaVocBench một cách tông quát nhất, với cây khái niệm trên bên trái, và mô tả các
khái niệm được chọn ở bên phải, tập trung vào các tab giới hạn Các khái niệm
trong cây có thể được thể hiện qua nhãn của chúng trong tất cả các ngôn ngữ đượclựa chọn đề hiền thị Một tùy chon Toggles giữa một điểm của chỉ nhãn được lựachọn trước, và tất cả các nhãn Các đặc tính đa ngôn ngữ của VocBench không hạnchế để quản lý ¡ dung, giao diện của nó cũng được địa lý hóa trong các ngôn ngữ
khác nhau, hiện nay: tiếng Anh, tiếng Tây Ban Nha, Hà Lan và Thái Lan
Điều khiển truy cập dựa trên vai trò
VocBench thúc day sự phân công trách nhiệm thông qua một cơ chế kiểm soát
truy cập dựa trên vai trò, kiểm tra phân quyền người dùng cho các chức năng yêu
cầu thông qua vai trò mà người dùng chấp nhận VocBench hỗ trợ phân quyền
người dùng với 4 vai trò cơ bản: Quản trị viên (Administrators), chỉnh sửa ontology
Trang 33(Ontology editors), chỉnh sửa thuật ngữ (Term editors), người phê duyệt
(Validators) và người xuất bản (Publishers)
Truy vấn SPARQL
VocBench hỗ trợ thống kê một vài số liệu liên quan đến bộ từ điển xây dựng
và các quy trình làm việc hợp tác Ngoài ra, VocBench còn hỗ trợ người dùng tự
truy vắn/cập nhật qua SPARQL 1.1 Người dùng có thé sử dụng bộ công cụ đượcdựa trên mã nguồn mở là Flint SPARQL Editor (https://github.com/TSO-Openup/FlintSparqlEditor) dé thực hiện các truy vấn SPARQL
Một vài từ điển cộng tác được xây dựng trên nền tảng VocBench có thể kể đến
như sau:
Agrovoc - Multilingual agricultural thesaurus
Agrovoc [12] là một bộ từ vung được xây dựng, kiểm soát và phát triển bởi Tổchức Nông nghiệp và Lương thực Liên Hợp Quốc (FAO) và Ủy ban Cộng đồngChâu Âu vào đầu nan 1980, được cập nhật thường xuyên va sử dụng rộng rãi dé lậpchỉ mục và lấy dữ liệu trong hệ thống thông tin nông nghiệp Agrovoc được sử dụngtrên toàn thế giới bởi các nhà nghiên cứu, cán bộ thư viện, quản lý thông tin và
những người khác, để lập chỉ mục, lấy và tô chức dữ liệu trong hệ thống thông tin
nông nghiệp Từ năm 2004, Agrovoc đã được làm sạch và giàu ngữ nghĩa Cho tới
nay, Agrovoc đã có hơn hơn 32,000 khái niệm có tổ chức trong một hệ thống phâncấp Mỗi khái niệm có thé được hỗ trợ lên đến trên 27 ngôn ngữ gồm: Arabic,
Burmese, Chinese, Czech, English, French, German, Hindi, Hungarian, Italian,
Japanese, Khmer, Korean, Lao, Malay, Moldovian, Persian, Polish, Portuguese,
Russian, Slovak, Spanish, Telugu, Thai, Turkish, Ukrainian, Vientamese Nó không chỉ chứa thuật ngữ của ngành nông nghiệp, mà còn các thuật ngữ trong lâm nghiệp,
thủy sản, thực phẩm và các lĩnh vực khác Những thuật ngữ được sử dụng dé xácđịnh rõ ràng các nguồn lực Thật vậy, những kiến thức có trong vốn từ vựng chophép quá trình lập chỉ mục tiêu chuẩn hóa, làm cho việc tìm kiếm đơn giản và hiệu
quả hơn.
Biotech - FAO Glossary of Biotechnology for Food and Agriculture
Biotech là một bộ từ điển Công nghệ sinh học trong lĩnh vực thực phẩm vanông nghiệp; là một bản nâng cấp, bổ sung từ bộ từ điển Công nghệ sinh học và Kỹ
Trang 34
-31-thuật di truyền được công bố bởi FAO vào năm 1999 Ban đầu, ý tưởng về một tập
hợp các thuật ngữ liên quan đến lĩnh vực công nghệ sinh học và di truyền ra đời khi
sự trao đổi và thảo luận về chuyên môn giữa các quốc gia trở nên khó khăn Sự khác
biệt trong cách giải thích các thuật ngữ có nguy cơ làm cho các cuộc đàm phán bị
thất bại Từ đó ý tưởng về ién giải thích thuật ngữ Côngxây dựng một bộ từ
nghệ sinh học và kỹ thuật di truyền đã ra đời Bộ từ điển ra đời đã cung cấp một tậphợp các thuật ngữ và các từ viết tắt được sử dụng thường xuyên trong lĩnh vực côngnghệ sinh học cho thực phẩm và nông nghiệp Đây là một nguồn tài liệu tham khảo
có giá trị vô cùng to lớn cho các nhà nghiên cứu và kỹ thuật viên Bản công bố đầutiên đã nhận được sự quan tâm của đông đảo người dùng trên toàn thế giới; thôngqua sự đóng góp của đông đảo người dùng, Biotech dần trở nên hoàn thiện Bản
công bố lần thứ hai đã được cập nhật khoảng 3,196 thuật ngữ và định nghĩa liên
quan; Phiên bản thứ hai này cũng đã được dịch sang nhiều ngôn ngữ khác nhaunhằm đáp ứng nhu cầu sử dụng của người dùng Đến 2012, một hệ thống quản lýthuật ngữ mới đã được giới thiệu, cho phép bd sung và cập nhật các thuật ngữ cótrong từ điển với sự hỗ trợ trên nhiều ngôn ngữ khác nhau Đến nay, bộ từ điển bao
gồm khoảng trên 3,190 thuật ngữ và định nghĩa trong các ngôn ngữ sau: Arabic,
Chinese, English, French, Kazakh, Polish, Russian, Serbian, Spanish and
Vietnamese (http://fao.org/biotech/biotech-glossary/en/)
EUROVOC
EuroVoc (http://eurovoc.europa.eu/drupal/) là một bộ từ điên toàn thư đa ngôn
ngữ, đa ngành về các hoạt động của EU Bộ từ điển bao gồm các thuật ngữ được
định nghĩa trong 23 ngôn ngữ của cộng đồng EU gồm: Bulgarian, Croatian, Czech,
Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hungarian, Italian, Latvian, Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, Slovenian, Spanish and Swedish.
GEMET - GEneral Multilingual Environmental Thesaurus
GEMET (https://eionet.europa.eu/gemet/) là một bộ từ vựng, thuật ngữ trong
lĩnh vực môi trường với hơn 11,179 định nghĩa trong hơn 20 ngôn ngữ khác nhau
và được công bố bởi European Environment Agency Bộ từ điển được xây dựng
trên nền tảng của SKOS, hệ thống tổ chức cơ bản và cũng là tiêu chuẩn đăng ký
Trang 35siêu dữ liệu, ISO 11.179 Cơ sở của từ điền chính là một SKOS ontology đưa ra cácmối quan hệ giữa tất cả các thuật ngữ trong một tập tin có cầu trúc RDF, ngoài ra
còn có một phần dành cho đữ liệu từ điền
UAT - Unified Astronomy Thesaurus
UAT (http://astrothesaurus.org/thesaurus/) là một bộ từ điển hợp nhất về lĩnh
vực thiên văn học và được phát triển Institute of Physics Publishing, the American
Institute of Physics và SPIE UAT là một bộ từ điển mở, tương thích và hỗ trợ cộngđồng UAT là một bản tổng hợp các từ vựng riêng lẻ, đa dạng và khác nhau về thiênvăn học thành một bộ từ điên thống nhất, miễn phí, chất lượng cao, chính thức hóa
các khái niệm và mdi quan hệ giữa chúng UAT được xây dựng dựa trên IAU với sự
bổ sung các thuật ngữ từ triển Institute of Physics Publishing, the American
Institute of Physics và SPIE.
2.3.2 MediaWiki
MediaWiki (https://www.mediawiki.org/wiki/MediaWiki/vi) là phần mềmwiki dựa trên máy chủ, được thiết kế để sử dụng trong các website phạm vi lớn.MediaWiki là phần mềm nguồn mở, miễn phí, được sử dụng rộng rãi cho một số
lượng các website nổi tiếng, bao gồm, Wikipedia và Wikimedia Commons Một
trong những tính năng chính của MediaWiki là tạo và hiển thị nội dung đa dạng,bao gồm cả các công thức toán học thông qua LaTeX, các tập tin đa phương tiện,bao gồm các nội dung do người sử dụng tải lên MediaWiki có thé được sử dụng cảtrong mạng nội bộ tổ chức được kết nối mạng, hoặc bên ngoài trên Internet
Wikipedia đã sử dụng MediaWiki, cùng với những tính năng ưu việt của các
phần mềm trước MediaWiki, khi nó dừng sử dụng UseModWiki vào các năm
2002/2003 Nhiều công việc phát triển trên MediaWiki xuất xứ từ các yêu cầu về
tính năng và chức năng bô sung từ những người sử dụng và những người vận hành.
Tính mở rộng phạm vi, đặc biệt là các yêu cầu cho nhân bản cơ sở dữ liệu xuyênkhắp các cụm nhiều máy chủ, đã biến MediaWiki thành một công cụ cộng tác
chuyên nghiệp, phù hợp một cách lý tưởng cho các môi trường chia sẻ tri thức Sự
đưa vào các phương pháp có suy tính thận trọng để mở rộng chức năng, được biếtnhư là các mở rộng, đang tích cực cho phép các nhà sáng tạo và phát triển nội dung
gia tăng phạm vi và khả năng của MediaWiki.
Trang 36
-33-MediaWiki đã chứng tỏ là là công cụ tốt nhất trong số các công cụ wiki mãnguồn mở hiện tại Việc đang được Internet Journal bình chọn làm công cụ wiki tốt
nhất là một sự công nhận thành quả đã hỗ trợ cho MediaWiki, nhưng vẫn còn thực
tế lớn hơn là không chỉ MediaWiki được chọn là công cụ cho các công ty nhưIntel® và Novell, mà còn có phần mềm cung cấp wiki lớn nhất thế giới: Wikipedia
MediaWiki cung cấp một số tính năng quan trọng so với các công cụ wiki
khác, được mô tả cụ thể trong Bảng 2.1 bên dưới
Bảng 2.1 Một số tính năng chính của MediaWiki
Tính năng Mô tả
Thay vì lưu trữ cơ sở dit liệu trong tập tin văn ban, MediaWiki
Dựa vào cơ sở dữ ,
" dùng MySQL hoặc PostgreSQL Điêu này cho phép tat cả các liệu Ề f
sửa đôi của bài việt sẽ được lưu giữ.
Hỗ trợ đa ngôn ngữ |Hiện nay, MediaWiki hỗ trợ 140 ngôn ngữ khác nhau
Khả năng điều|Bồ sung lớn nhất của MediaWiki- Wikipedia - có hơn
chỉnh 1,000,000 bài viết
Chỉnh sửa từng Những người dùng có thé chỉnh sửa các phần bài viết thay vi
phần phải tải (chỉnh sửa) toàn bộ bài viết
RSS Những người dùng có thé theo doi các thay đồi với nội dung
cụ thể thông qua các nguồn cung cấp RSS
Những người dùng có thé định vị các số liệu thống kê trang
Web, danh sách người sử dụng, các bài viêt mới tạo ra, tat cả
Các trang báo cáo : De Lok
các trang theo tiêu đê, các bài viét ưa thích nhât, các bài viétđặc biệt mm ;: '
phô biên và các báo cáo khác giúp họ chuyên qua các nội
dung.
Người dùng có thể theo dõi và tham gia vào các cuộc thảo
Các danh sách thảo : Lo sk
ia luận liên quan đên nội dung của một bài việt thông qua trang
luận
thảo luận.
Phân biệt các sửa _ |Những người dùng có thé so sánh các sửa đồi được chỉ ra bênđổi cạnh với những thay đổi được đánh dấu