Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
359,96 KB
Nội dung
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 7, Số 2, 2017 217–230 217 PHÂN LOẠI TÊN THỂ LOẠI Ở WIKIPEDIA TIẾNG VIỆT Tạ Hồng Thắnga* a Khoa Cơng nghệ Thông tin, Trường Đại học Đà Lạt, Lâm Đồng, Việt Nam Lịch sử báo Nhận ngày 09 tháng 01 năm 2017 | Chỉnh sửa ngày 17 tháng 04 năm 2017 Chấp nhận đăng ngày 17 tháng 05 năm 2017 Tóm tắt Wikipedia tiếng bách khoa tồn thư mở lớn với mục đích phổ cập kiến thức cho tất người giới Với việc áp dụng robot khâu tạo tự động, dự án tiếng Việt 13 dự án ngơn ngữ có triệu viết Tuy nhiên, điều tạo cho Wikipedia tiếng Việt nhiều thách thức việc nâng cao chất lượng bài, xếp thể loại, chống phá hoại nội dung nhiều công tác khác Trong báo này, phân loại thể loại Wikipedia tiếng Việt, chi tiết cấu trúc quy ước đặt tên thể loại Phương pháp áp dụng tiêu chuẩn cấu trúc thể loại sẵn có tiếng Anh, dự án Wikipedia lớn mặt thông tin đóng góp, từ áp dụng cho phiên tiếng Việt Tuy nhiên, điều khơng thực dễ dàng, chúng tơi phải kết hợp nhiều phương pháp xã hội chuyên môn để đạt kỳ vọng Việc phân tích tên thể loại liệu từ Wikidata áp dụng tiền đề xây dựng công cụ chuyển dịch tên thể loại từ tiếng Anh sang tiếng Việt Từ khóa: Phân loại thể loại; Quy ước đặt tên; Thể loại Wikipedia GIỚI THIỆU Cây thể loại dự án Wikipedia tiếng Anh đối tượng nghiên cứu nhiều học giả giới với nhiều báo tái cấu trúc thể loại, loại bỏ thể loại dư thừa phân tích cấu trúc thể loại, rút trích quan hệ ngữ nghĩa thể loại… Việc quản lý cấu trúc thể loại khó thực cách hiệu dự án ngôn ngữ Wikipedia nhỏ trung bình vấn đề hạn chế mặt nhân lực Do đó, nhu cầu quản lý thể loại dự án cần thiết Trước hết, chúng tơi phân tích tên thể loại tiếng Anh tiếng Việt thành cấu trúc mẫu NLP tương ứng với nhau, từ áp dụng việc dịch thuật để tạo tên thể loại tiếng Việt từ tiếng Anh thông qua cấu trúc Tiếp đến, dựa vào cấu trúc thể loại tiếng Anh, xếp viết vào thể loại * Tác giả liên hệ: Email: thangth@dlu.edu.vn 218 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] tiếng Việt vừa tạo cách hợp lý Điều giúp tăng độ mịn cấu trúc thể loại dự án Tiếng Việt, giảm bớt việc thao tác tạo thể loại tay nhằm thúc đẩy chất lượng cộng tác Wikipedia tiếng Việt CÁC NGHIÊN CỨU LIÊN QUAN Trong báo này, dựa chủ yếu vào báo Nastase Strube (2008) việc phân loại dạng tên thể loại tiếng Anh Nghiên cứu tên cấu trúc thể loại Wikipedia nguồn quan hệ khái niệm Từ phân tích thực nghiệm thể loại phân tích thành dạng thể loại, mẫu phân tích quan hệ kèm theo Tên thể loại phân tích thành mẫu với từ nối có ký hiệu dựa theo tập Penn Treebank (Santorini, 1990) Việc phân loại quy mô lớn thông tin quan hệ xây dựng dựa hệ thống thể loại Wikipedia, phân tích từ mối quan hệ thể loại sử dụng phương pháp dựa kết nối mạng lưới việc so khớp cú pháp từ vựng Các mẫu phân tích từ tên thể loại tương tự cách Nastase Strube (2008), tập trung sâu vào mẫu isa nonisa Nghiên cứu Nguyễn, Lê, Tôn, Nguyễn (2012) chứa mẫu isa nonisa cho thể loại, nhiên nhóm xây dựng cách tiếp cận mơ hình Ontology tiếng Việt tập trung vào thể loại Tên thể loại sử dụng đầu vào việc phân loại văn báo Barak, Dagan, Shnarch (2009) Kết nghiên cứu dựa vào tính giống khơng gian LSA, từ nhận biết tương tự bối cảnh dạng thô Barak ctg (2009) nhận diện tham chiếu bền vững theo ngữ nghĩa tên thể loại, chứa biến thể đặc biệt để mở rộng từ vựng Ngồi ra, có nghiên cứu chủ yếu cấu trúc thể loại Wikipedia từ để đo độ tương đồng thể loại cụ thể dựa theo mối quan hệ thể loại cha, (Xu, Takeda, Hamasaki, & Wu, 2010) xây dựng đồ thị thể loại Wikipedia dựa thuật toán xử lý ngôn ngữ tự nhiên (Zesch & Gurevych, 2007) Các nghiên cứu đơn thực tiếng Anh, ý tưởng chúng tơi chuyển hóa thành tiếng Việt thấy tương đồng tên thể loại tiếng Việt, Tạ Hoàng Thắng 219 từ xây dựng tiêu chuẩn so khớp tiếng Anh tiếng Việt, đồng thời hướng tới việc tiếp cận dịch mẫu tên thể loại từ tiếng Anh sang tiếng Việt TIÊU CHUẨN ĐẶT TÊN THỂ LOẠI Ở WIKIPEDIA TIẾNG VIỆT Để phân loại tên thể loại tiếng Việt, trước hết phải xem xét đến số tiêu chuẩn đặt tên thể loại Wikipedia tiếng Việt Tiêu chuẩn thể loại cách đặt tên thể loại chủ yếu kế thừa từ phiên tiếng Anh tương đương kèm theo đóng góp biên tập dự án tiếng Việt Nhìn chung tên thể loại phải ngắn gọn, súc tích mà mô tả đầy đủ ý nghĩa viết, thể loại chứa bên thể loại Nội dung tiêu chuẩn thể loại thơng tin liên quan tìm thấy viết có tên Wikipedia: Thể loại Wikipedia1.†Theo đó, số quy ước tên thể loại phổ biến sau Sử dụng thể loại có "năm" với tất thể loại, ví dụ Thể loại:Khoa học năm 1990 thay Thể loại:Khoa học 1990 Sử dụng thể loại chứa tên quốc gia phổ biến tiếng Việt Thể loại:Văn hóa Úc thay Thể loại:Văn hóa Australia Ưu tiên sử dụng số nhiều cho thể loại, ví dụ Category:Cities of France dịch Thể loại:Các thành phố Pháp thay Thể loại:Thành phố Pháp Tuy nhiên, theo dự án thể loại (Wikimedia, 2015) trường hợp nên dùng số Vì vậy, kết Thể loại:Thành phố Pháp ưu tiên Do đó, viết chúng tơi khuyến cáo sử dụng số tiếng Việt dịch từ cụm từ số nhiều tiếng Anh PHÂN LOẠI TÊN THỂ LOẠI Để phục vụ cho mục đích chủ yếu dịch tên thể loại từ tiếng Anh sang tiếng Việt, phân loại tên thể loại theo số lượng biến mẫu phân tích Phương pháp gần giống cách phân tích dạng thể loại Nastase Strube (2008), khác chỗ trọng số lượng biến dạng thể loại mang tính ngữ pháp Cách tiếp cận giúp định rõ số lượng từ/cụm từ cần dịch để phục vụ cho mục 1https://vi.wikipedia.org/wiki/Wikipedia:Thể_loại TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CƠNG NGHỆ THƠNG TIN] 220 đích dịch tên thể loại từ tiếng Anh sang tiếng Việt công cụ dịch thuật nghiên cứu 4.1 Mẫu đơn Các mẫu đơn (mẫu biến) sử dụng biến để định nghĩa tên thể loại Biến thường danh từ, cụm danh từ hay số, không chứa liên từ phân chia thành thành phần nhỏ Ký hiệu mẫu đơn định nghĩa p = x1 Một số ví dụ mẫu đơn Bảng Bảng Phân tích số trường hợp mẫu đơn Tên thể loại Khoa học Science Động vật đặc hữu Endemic fauna 1990 Mẫu p = x1, x1 = Khoa học Dạng thể loại mẫu đơn p = x1, x1 = Động vật đặc hữu (endemic fauna = adj + noun) p = x1, x1 = 1990 mẫu đơn mẫu đơn Trong Bảng 1, thể loại Khoa học mẫu đơn chứa từ Thể loại Động vật đặc hữu mẫu đơn cụm danh từ khơng thể phân tách thành cụm nhỏ Các thể loại số coi mẫu đơn, chẳng hạn 1990 4.2 Mẫu hai biến Mẫu chứa biến (x1, x2) chứa liên từ (c1) khơng có liên từ Chúng tơi mơ tả mẫu ký hiệu p=x1c1x2, vài ví dụ mẫu hai biến liệt kê Bảng Trong Bảng 2, liên từ (conjunction) chủ yếu giới từ, mệnh đề quan hệ giản lược rỗng Chúng tơi nhận khơng loại có tên có liên từ vị trí đầu cuối Vì vậy, thể loại tiếng Anh dạng By country, Cities in hay By country in chắn khơng tồn khơng đủ nghĩa cấu thành tên thể loại Thể loại Films directed by Charles Frend có mẫu phân tích theo Nastase Strube (2008) X [VBN] Y Trong [VNB] dạng giản lược động từ khứ Tạ Hoàng Thắng 221 tiếng Anh Thể loại dịch sang tiếng Việt theo dự án Wikimedia (2015) có trường hợp là: • Phim đạo diễn Charles Frend: Mang tính bị động, có tính Việt, dễ nhận diện cách dịch từ từ tiếng Anh • Phim Charles Frend đạo diễn: Mang tính Việt Bảng Một số mẫu thể loại dạng biến Tên thể loại Nông nghiệp theo quốc gia Agriculture by country Thành phố Pháp Cities in France Người từ California People from California Phim đạo diễn Charles Frend Films directed by Charles Frend Văn hóa giao thông Transport culture Khoa học năm 2015 2015 in science Sách Việt Nam Books about Vietnam Mẫu p=x1c1x2 x1 Nông nghiệp Agriculture Thành phố Cities Người People c1 theo by in từ from x2 quốc gia country Pháp France California California Phim Films Giao thông Transport năm 2015 2015 Sách Books đạo diễn directed by ∅ Charles Frend Charles Frend Văn hóa Culture Khoa học Science Việt Nam Vietnam in about Thể loại Transport culture trường hợp mẫu biến mà khơng có liên từ Mẫu xem cụm danh từ Theo Nastase Strube (2008) mẫu có dạng XY với X = transport Y = culture Khi dịch tiếng Việt mẫu thành trở thành YX Thể loại Transport culture dịch tiếng Việt Văn hóa giao thơng Thể loại 2015 in science thể loại có chứa năm, theo tiêu chuẩn đặt tên thể loại Wikipedia tiếng Việt, mẫu phải có chữ "năm" trước số năm để xác định rõ ràng nghĩa Trường hợp thể loại 2015 in science dịch ngược thành Khoa học năm 2015 khơng có dịch giới từ in Cách dịch giới từ tiếng Anh sang tiếng Việt đa dạng phức tạp tùy theo nhiều trường hợp khơng đề cập đến viết TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 222 4.3 Mẫu ba biến Mẫu bao gồm biến (x1, x2, x3) có từ đến liên từ, mẫu kết hợp mẫu hai biến mẫu đơn Chúng ta biểu diễn mẫu thành ký hiệu p = x1c1x2c2x3 Các danh mục, thuộc mẫu này, thường phổ biến mẫu đơn mẫu biến Wikipedia Bảng mô tả số ví dụ mẫu ba biến Bảng Một số thể loại liệt kê dạng mẫu ba biến Tên thể loại Khoa học công nghệ theo quốc gia Science and technology by country Nợ phủ theo quốc gia Government debt by country Tiểu thuyết khoa học giả tưởng Science fiction novels Mẫu p=x1c1x2c2x3 x1 c1 Khoa học Science and Chính phủ ∅ Goverment Khoa học ∅ science x2 công nghệ technology nợ debt giả tưởng fiction c2 theo by theo by ∅ x3 quốc gia country quốc gia country tiểu thuyết novels Thể loại Government debt by country trường hợp phổ biến mẫu biến mà thường chứa liên từ (trong trường hợp giới từ by) Thể loại phân tích thành cụm dựa theo giới từ by là: Government debt country, cụm Government debt mẫu biến kiểu XY Thể loại dịch tiếng Việt Nợ phủ theo quốc gia Thể loại Science fiction novels trường hợp đặc biệt mẫu biến khơng có liên từ nào, trường hợp xem cụm danh từ với danh từ kết hợp liên tiếp Việc dịch cụm tiếng Việt vấn đề, trường hợp có cách dịch sau: • Tiểu thuyết khoa học giả tưởng: Đây cách dịch thông thường, tức từ bên phải sang, lấy từ dịch, phần cịn lại xem diễn dịch hay không, không lại tiếp tách cụm tất cụm dịch, ngược lại khơng dịch cụm Chẳng hạn, lấy novels dịch thành tiểu thuyết, tiếp đến cụm từ Science fiction dịch thành Khoa học giả tưởng Đảo ngược cụm dịch có kết Tiểu thuyết khoa học giả tưởng Các cụm từ dịch hoàn toàn lấy giá trị từ Wikidata với Tạ Hoàng Thắng 223 cụm từ liên kết với phiên ngôn ngữ (Vrandečić & Krưtzsch, 2014) • Tiểu thuyết giả tưởng khoa học: Kiểu dịch ngược với cách từ bên trái sang, lấy từ, dịch từ cụm lại dịch hết tồn từ Trong trường hợp này, tách làm cụm: science fiction novels Sau tiến hành dịch kết là: Khoa học tiểu thuyết giả tưởng, đảo ngược có kết Tuy nhiên, lấy giá trị từ Wikidata, dịch cụm từ fiction novels, cụm từ dùng từ điển dịch hay cơng cụ khác cách dịch sai không phổ biến 4.4 Các mẫu nhiều ba biến Ngoài ra, tên thể loại Wikipedia cịn phân tích thành mẫu với số biến lớn Các mẫu phân tách thành mẫu con, từ hiểu cấu trúc mẫu Chẳng hạn, thể loại tiếng Anh Science fiction novels by nationality phân tách thành mẫu biến Science fiction novels mẫu đơn nationality với liên từ giới từ by Thể loại dịch tiếng Việt Tiểu thuyết khoa học giả tưởng theo quốc tịch MỘT SỐ TRƯỜNG HỢP DỊCH THUẬT Từ việc phân tích tên thể loại thành mẫu sử dụng số lượng biến bài, thử áp dụng mẫu việc dịch thuật thông qua công cụ tự tạo Trong báo này, không nêu chi tiết cách thức thực tập liệu đầu vào mà phương pháp thực mà nêu số ví dụ dịch thuật sử dụng thông qua công cụ dịch thuật Các phần tiếp tục nghiên cứu xuất nghiên cứu khác 5.1 Quy trình dịch thuật Trong phần này, chúng tơi trực tiếp đề cập quy trình cách dịch mẫu thay trình bày tồn xử lý chi tiết mà cơng cụ dịch thuật thực Vì việc dịch TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CƠNG NGHỆ THƠNG TIN] 224 khơng đơn giản với số mẫu phức tạp, chọn lựa mẫu có giới từ, mẫu biến mẫu khơng chứa liên từ làm mẫu thử nghiệm công cụ dịch Các quy trình dịch cơng cụ chia làm bước sau đây: • Bước (Dịch mẫu biến): Đầu tiên, đầu vào có tên thể loại tiếng Anh cần dịch, xem đầu vào mặc định mẫu biến, kiểm tra xem tên có Wikidata hay khơng, có dừng việc dịch cho kết Nếu khơng cho kết khơng dịch • Bước (Dịch mẫu chứa giới từ): Chúng tơi dị tìm xem tên thể loại có chứa giới từ hay khơng, khơng có chúng tơi chuyển sang Bước Trường hợp tên thể loại chứa giới từ tách tên thể loại thành phần, phần trước giới từ, giới từ, phần sau giới từ Tiếp tục lặp lại Bước với ba phần này, sau gom kết có lại Chỉ cần bước cho kết khơng tìm thấy kết dịch từ Wikidata dừng trình dịch cho kết khơng dịch • Bước (Dịch mẫu cụm danh tính từ): Tên thể loại tách làm phần gồm từ cuối thể loại phần lại Tiếp tục lặp Bước cho hai phần Nếu phần không dịch được, chúng tơi lại tách cụm thành từ cuối thể loại phần lại Tiếp tục lặp Bước cho hai phần thể loại tách thành phần: Từ phần cịn lại mà khơng cho kết dịch dừng việc dịch Kết dịch đảo ngược vị trí • Bước (So khớp giám sát tay): Chúng sử dụng module tác giả Dao Simpson (2015) để so khớp cụm từ kết với cụm từ dịch trước Nếu kết cho kết tổng điểm trung bình >0.5 (tổng trung bình phần so khớp với cụm tiếng Anh cụm tiếng Việt với thể loại tương tự) giữ kết Tiếp tục, kiểm tra tương tự cách dịch thể loại cần dịch thể loại tương tự thông qua cấu trúc Tạ Hồng Thắng 225 tên phân tích (NameAnalysis) để đồng cách dịch cho thể loại cụm đặc trưng Cuối cùng, sử dụng phương pháp giám sát tay để kiểm tra kết dịch có hợp lý trước đưa kết xác cuối 5.2 Các ví dụ dịch thuật • Dịch trường hợp biến: Đầu tiên, xét đến trường hợp dịch biến Đầu vào sau: Category:Honiara -Q7403236 -Real Kakamora FC Trong Category:Honiara có số Q-id Q7403236 có nội dung đặc tả liên kết ngôn ngữ, mệnh đề RDF, nguồn nhiều phần khác Wikidata Nếu dịch thành công tên thể loại tên viết Real Kakamora FC xếp vào thể loại Tiếp đến lấy từ Honiara (tên thủ đô quần đảo Solomon) tìm kiếm Wikidata nhận thấy Q40921 có liên kết với tên giống với viết tiếng Việt Do đó, Category:Honiara dịch thành Thể loại:Honiara tiếng Việt Trường hợp chúng tơi đặt điểm xác (điểm so khớp) hiển nhiên lấy trực tiếp từ Wikidata với tên tương ứng Trường hợp khác mẫu biến thể loại có tên dịch trực tiếp từ Wikidata chứa cụm danh tính từ phân tích thành cụm nhỏ chứa giới từ Chúng xét đến trường hợp sau: Category:French Republican Calendar -Q8472929 -Lịch Thể loại phân tích thành cụm Calendar French Republican, nhiên dịch để nguyên cụm Frech Republican Calendar có kết tương ứng Wikidata Lịch cộng hịa Trong cơng cụ dịch, chúng tơi xem là mẫu biến dịch trực tiếp nguyên cụm từ Wikidata • Dịch mẫu chứa giới từ: Mẫu chứa giới từ (liên từ) chứa nhiều giới từ Xét đến trường hợp mẫu sau: Category:Poets from Melbourne -Q8767587 -Diane Fahey TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CƠNG NGHỆ THÔNG TIN] 226 Sau kiểm tra Bước tên thể loại khơng phải mẫu biến dịch nguyên cụm từ từ Wikidata Chúng ta xét đến xem mẫu có giới từ hay khơng, có giới từ from tên thể loại nên tách tên thành phần: Poets, from Melbourne Khi dị tìm Wikidata, kết tương ứng với phần: Nhà thơ, từ (dịch mặc định chương trình) Melbourne Ghép cụm kết loại dịch tiếng Việt Thể loại:Nhà thơ từ Melbourne Về vấn đề giới từ from dịch thành từ, rỗng đến từ, … Chúng mặc định dịch from thành từ Sau đó, chúng tơi tìm mẫu tương tự với tên thể loại tiếng Anh để xem cách dịch trước tên giới từ phù hợp Hình Trong Hình 1, Thể loại:Nhà thơ từ Melbourne loại tương tự Thể loại:Nhà thơ từ Thiên Tân với điểm so khớp 0.79, dựa vào việc so khớp cấu trúc phân tích tên (NameAnalysis) chúng tơi xác định thể loại tương ứng dịch giới từ from thành từ giữ cách dịch Hơn nữa, chức More similars cho phép xem nhiều thể loại tương tự Hình Ví dụ phân tích tên thể loại Thể loại:Nhà thơ từ Melbourne • Dịch mẫu không chứa liên từ: Để tăng độ xác mẫu này, chúng tơi sử dụng đa số bước cuối quy trình dịch (được nêu Mục 5.1): So khớp độ tương đương với kết trước giám sát tay kết dịch mẫu Rõ ràng, nhận thấy vài cách dịch sai mẫu này, nhiên thông qua bước dịch giảm thiểu phần lớn kết bị dịch sai Chúng xét đến trường hợp Tạ Hoàng Thắng 227 sau: Category:Water technology -Q6968052 -Thẩm thấu Trong Category:Water technology phân tích mẫu biến không chứa liên từ, dựa vào Bước để tách thành cụm: Water technology Dựa vào Wikidata, dịch sang tiếng Việt là: Nước công nghệ Chúng ta đảo ngược thành phần kết để có kết cuối Thể loại:Cơng nghệ nước Tuy nhiên, trường hợp đơn giản dễ dịch Chúng xét đến trường hợp khác sau: Category:Satellite navigation systems -Q6392458 - Dẫn đường chi tiết Dựa theo Bước 3, thể loại tách thành phần: Satellite navigation Systems Dựa vào Wikidata, thu tên dịch là: GNSS hệ thống Đảo ngược phần có kết Thể loại:Hệ thống GNSS Tiếp đến so khớp với thể loại tương tự dùng phương pháp giám sát tay kết Thể loại:Hệ thống GNSS Ở phần này, chúng tơi đề xuất phương pháp bổ sung xem xét độ phổ biển cụm từ Google đánh giá thang điểm để đưa kết luận cuối kết dịch Chẳng hạn, dùng Google có cụm từ Hệ thống GNSS với 977 kết tìm Cuối cùng, với trường hợp phức tạp dẫn đến trường hợp dịch sai mẫu không chứa liên từ Giải pháp cuối đưa vào danh sách đen để tránh dịch từ, cụm từ tương lai tìm kiếm phương pháp giải tốt KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài viết phân tích số dạng tên thể loại Wikipedia tiếng Việt, chủ yếu dựa số lượng biến sử dụng mẫu phân tích Việc phân tích có ý nghĩa quan trọng việc tìm hiểu tên thể loại tiếng Việt, đặc biệt có vai trị quan trọng việc chuyển dịch tên thể loại từ tiếng Anh sang tiếng Việt dựa bảng so khớp mẫu thể loại thứ tiếng Điều giúp biên tập viên giảm thiểu thời TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THƠNG TIN] 228 gian dịch tên thể loại lặp lại nhiều lần mang tính thủ cơng, từ tập trung vào việc nâng cao chất lượng nội dung viết Wikipedia Hiện tại, xây dựng công cụ dịch từ tên thể loại từ tiếng Anh sang tiếng Việt với dự án Wikimedia (2015) Phương pháp chuyển dịch chủ yếu lấy thể loại tiếng Anh, phân tách thể loại thành thành phần con, dựa vào Wikidata để dịch thành phần sang tiếng Việt theo liên kết ngoại ngữ, so khớp cách dịch trước để đạt đồng cách dịch thuật ngữ, cho phép người giám sát trình dịch lặp lại thao tác dịch thuật đạt kết yêu cầu Công cụ dịch bán tự động 5000 thể loại tập triple kèm theo để xếp viết vào thể loại Chúng sử dụng nhớ đệm gồm 56000 thể loại, 10000 trang viết để tăng tốc độ lấy liệu dịch thuật Đánh giá cách chủ quan, kết mang lại khả quan có đóng góp quan trọng việc xây dựng phát triển chất lượng viết Wikipedia tiếng Việt Công cụ dịch thuật không kỳ vọng để dịch tất thể loại từ Wikipedia tiếng Anh sang Wikipedia tiếng Việt mà cơng cụ giúp ích cho q trình dịch thuật có đóng góp định Wikipedia tiếng Việt Trong tương lai, tiếp tục xây dựng dự án nhỏ để dịch mẫu thể loại đa dạng Chúng xây dựng mơ hình Ontology để phân loại cụm từ tên thể loại, dựa vào công cụ Google Translate đo độ phổ biến cụm từ Google để từ đưa kết dịch xác hồn thiện Chúng tơi hi vọng mang lại cách nhìn khác cách dịch cụm từ nguồn tham khảo hữu ích cho nghiên cứu TÀI LIỆU THAM KHẢO Barak, L., Dagan, I., & Shnarch, E (2009) Text categorization from category name via lexical reference Paper presented at The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, USA Dao, T N., & Simpson, T (2005) Measuring similarity between sentences Retrieved from http://trac.research.cc.gatech.edu/ccl/export/184/SecondMindProject/SM/ SM.WordNet/Paper/WordNetDotNet_Semantic_Similarity.pdf Tạ Hoàng Thắng 229 Nastase, V., & Strube, M (2008) Decoding Wikipedia categories for knowledge acquisition Paper presented at The Twenty-third AAAI Conference on Artificial Intelligence, USA Nguyễn, Q C., Lê, T N., Tôn, L P., & Nguyễn, V T (2012) Một hướng tiếp cận xây dựng Ontology tiếng Việt Tạp chí Đại học Công nghiệp, 14(6), 23-31 Ponzetto, S P., & Strube, M (2007) Deriving a large-scale taxonomy from Wikipedia Paper presented at The AAAI Conference on Artificial Intelligence, USA Santorini, B (1990) Part-of-speech tagging guidelines for the Penn Treebank Project (3rd revision) Philadelphia, USA: University of Pennsylvania Tuc, H D (2003) Vietnamese-English bilingualism: Patterns of code-switching London, UK: Routledge Curzon Press Vrandečić, D., & Krötzsch, M (2014) Wikidata: A free collaborative knowledgebase Communications of the ACM, 57(10), 78-85 Wikimedia (2015) Project: Semi-automatically generated categories for Vietnamese Wikipedia Retrieved from https://meta.wikimedia.org/wiki/Grants:IEG/Semiautomatically_generate_Categories_for_Vietnamese_Wikipedia Xu, L., Takeda, H., Hamasaki, M., & Wu, H (2010) Typing software articles with Wikipedia category structure Retrieved from http://www.nii.ac.jp/TechReports/ public_html/10-002E.pdf Zesch, T., & Gurevych, I (2007) Analysis of the Wikipedia category graph for NLP applications Paper presented at The TextGraphs-2 Workshop, USA TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGHỆ THÔNG TIN] 230 CLASSIFYING CATEGORY NAMES IN VIETNAMESE WIKIPEDIA Ta Hoang Thanga* a The Faculty of Information Technology, Dalat University, Lamdong, Vietnam * Corresponding author: thangth@dlu.edu.vn Article history Received: January 09th, 2017 | Received in revised form: April 17th, 2017 Accepted: May 17th, 2017 Abstract Wikipedia is famous to be the biggest encyclopedia currently, the purpose of which is to spread knowledge for everyone in the world By using robots in the process of article generation, Vietnamese Wikipedia is one of 13 language projects which has more than million articles However, this raises a lot of challenges for Vietnamese Wikipedia in article quality improvement, category classification, anti-vandalism and other tasks In this paper, we classify categories in Vietnamese Wikipedia, particularly in category taxonomy and naming conventions The crucial method is to adopt standards and category taxonomy in the English project, the biggest Wikipedia project in term of the amount of contributed information Then we apply these to Vietnamese Wikipedia To this, we have to combine many social methods as well as techniques to gain expected results The evaluation of category names and data results from Wikidata which we obtained is a first step to build a tool to translate English categories into Vietnamese categories Keywords: Naming convention; Name taxonomy; Wikipedia category ... THỂ LOẠI Ở WIKIPEDIA TIẾNG VIỆT Để phân loại tên thể loại tiếng Việt, trước hết phải xem xét đến số tiêu chuẩn đặt tên thể loại Wikipedia tiếng Việt Tiêu chuẩn thể loại cách đặt tên thể loại. .. cáo sử dụng số tiếng Việt dịch từ cụm từ số nhiều tiếng Anh PHÂN LOẠI TÊN THỂ LOẠI Để phục vụ cho mục đích chủ yếu dịch tên thể loại từ tiếng Anh sang tiếng Việt, phân loại tên thể loại theo số... (2008) việc phân loại dạng tên thể loại tiếng Anh Nghiên cứu tên cấu trúc thể loại Wikipedia nguồn quan hệ khái niệm Từ phân tích thực nghiệm thể loại phân tích thành dạng thể loại, mẫu phân tích