ng dng h tr tra cu cm t dung tron

8 8 0
ng dng h tr tra cu cm t dung tron

Đang tải... (xem toàn văn)

Thông tin tài liệu

Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Đà Nẵng, ngày 17-18/08/2017 DOI: 10.15625/vap.2017.000112 ỨNG DỤNG HỖ TRỢ TRA CỨU CỤM TỪ DÙNG TRONG BÀI BÁO KHOA HỌC BẰNG TIẾNG ANH Đặng Văn Thìn, Nguyễn Văn Kiệt, Nguyễn Lƣu Thùy Ngân Trường Đại học Công nghệ thơng tin, ĐHQG Tp Hồ Chí Minh dangvanthin.uit@gmail.com, kietnv@uit.edu.vn, ngannlt@uit.edu.vn TĨM TẮT: Tiếng Anh ngơn ngữ quốc tế sử dụng để trình bày cơng trình nghiên cứu khoa học hội nghị giới Tuy nhiên, việc sử dụng tiếng Anh cách thành thạo khó khăn người nước không sử dụng tiếng Anh, bao gồm Việt Nam nước khác giới Để viết báo khoa học tiếng Anh, phải dành nhiều thời gian để tìm hiểu tra cứu cách dùng cụm từ chưa biết Trong báo này, chúng tơi trình bày kết thử nghiệm phương pháp rút trích cụm từ từ kho báo khoa học có sẵn xây dựng ứng dụng hỗ trợ tra cứu cụm từ để giúp người dùng tham khảo học cấu trúc, cụm từ chuyên dụng viết báo khoa học tiếng Anh Ứng dụng mong đợi giúp người dùng diễn tả xác nội dung báo khoa học tiếng Anh Từ khóa: hỗ trợ viết tài liệu học thuật, tìm kiếm cụm từ, tìm kiếm ví dụ I GIỚI THIỆU Ngày nay, nghiên cứu khoa học ngày đầu tư phát triển quốc gia trường đại học Trong hoạt động nghiên cứu khoa học nói chung báo khoa học đóng vai trị quan trọng Bài báo khoa học không sản phẩm tri thức mà minh chứng cho khả người làm khoa học đặc biệt báo khoa học quốc tế Từ đó, nhận thấy tầm quan trọng báo khoa học quốc tế tiếng Anh ln ngơn ngữ sử dụng để trình bày nội dung Tuy nhiên, người không sử dụng tiếng Anh ngơn ngữ viết báo khoa học tiếng Anh gặp nhiều khó khăn Họ phải tra cứu thuật ngữ cụm từ từ điển hay sách hướng dẫn viết báo để chắn từ ngữ, cụm từ diễn tả xác nội dung họ Điều cho thấy rằng, họ tốn nhiều thời gian để hoàn thành xác nội dung báo Thêm vào đó, việc tìm kiếm thơng tin khơng phải tiếng ngữ khó khăn cơng cụ dịch thuật chưa hiệu đạt kết mong muốn Nhận thấy khó khăn nên năm 2016, nhà nghiên cứu Ý mắt cơng cụ tìm kiếm ngơn ngữ Lugdwig [1] để giúp người viết câu tiếng Anh chuẩn xác qua việc tìm mẫu câu tương tự báo đăng tải trang tin tiếng New York Time, BBC,… Tuy nhiên, công cụ hỗ trợ viết tiếng Anh thông thường, hạn chế cho lĩnh vực nghiên cứu khoa học học thuật Bên cạnh đó, tác giả Yu-Chih Sun [2] trường đại học National Chiao Tung University, Taiwan xây dựng ứng dụng website hỗ trợ viết báo khoa học tra cứu cụm từ hữu ích Tuy nhiên, phương pháp tác giả sử dụng cụm từ rút trích tay, cụ thể sinh viên phân công để đọc lựa chọn cụm từ hữu ích báo, sau giáo viên có kinh nghiệm kiểm tra xem cụm từ có phải cụm từ hữu ích viết báo hay khơng FLOW (Chen et al, 2012) [3] hệ thống hỗ trợ viết tương tác trực tiếp với người dùng nhằm đề xuất cụm từ sử dụng viết báo khoa học dành cho người Trung Quốc Điều đặc biệt hệ thống giúp người dùng hoàn thành báo mà không bị gián đoạn từ vựng mà họ tiếng Anh Đối với tiếng Việt nay, có trang web “www.hellochao.com” có chức hỗ trợ người học tiếng Anh, người dùng truy vấn từ khóa tiếng Việt ứng dụng tìm kiếm sở liệu xây dựng sẵn để đưa câu nói tiếng Anh hoàn chỉnh thường dùng để giao tiếp hàng ngày Hệ thống sở liệu website có khoảng 300.000 cặp câu song ngữ Việt-Anh, câu tiếng Anh chuyển ngữ thành câu tiếng Việt phù hợp với ngữ cảnh văn hóa Tận dụng nguồn ngữ liệu báo công bố hội nghị quốc tế uy tín, chúng tơi tiến hành thử nghiệm phương pháp rút trích tự động cụm từ hữu ích xây dựng ứng dụng hỗ trợ tra cứu cụm từ câu ví dụ để người dùng tham khảo học cụm từ thường sử dụng báo khoa học tiếng Anh Chúng tơi trình bày mơ hình xây dựng ứng dụng tra cứu câu ví dụ dựa truy vấn với tra cứu cụm từ sử dụng viết báo khoa học mục 2.1 phương pháp rút trích tự động cụm từ hữu ích mục 2.2 Cịn tập ngữ liệu chúng tơi trình bày chi tiết mục 2.3 II CÀI ĐẶT CHƢƠNG TRÌNH 2.1 Ứng dụng tra cứu cụm từ Chúng phát triển ứng dụng hỗ trợ tra cứu cụm từ để hỗ trợ người dùng việc viết báo khoa học tiếng Anh Ứng dụng gồm hai chức chính: 1) Tìm kiếm câu ví dụ - Trả câu ví dụ dựa truy vấn cụm từ nhập vào từ người dùng; 2) Tra cứu thông tin cụm từ - Tra cứu cụm từ, mẫu câu sử dụng báo khoa học Đặng Văn Thìn, Nguyễn Văn Kiệt, Nguyễn Lưu Thùy Ngân 957 2.1.1 Mô hình tìm kiếm ví dụ Mục tiêu ứng dụng giúp người dùng hình dung kiểm tra cách sử dụng cụm từ báo khoa học thơng qua câu ví dụ tìm hiểu giới từ kèm, vị trí cụm từ câu, người dùng biết cụm từ có sử dụng viết báo khoa học hay khơng (ví dụ người dùng khơng biết sử dụng giới từ kèm với cụm danh từ training data “in” hay “on”.) Chúng tiến hành khảo sát mười bạn sinh viên chưa có kinh nghiệm viết báo khoa học đánh giá chức mang lại hiệu tra cứu cụm từ Ví dụ sinh viên muốn dịch câu “Chúng tơi thực tiến trình cách đồng thời” tiếng Việt sang tiếng Anh, họ sử dụng từ điển trực tuyến để tìm kiếm từ có nghĩa “đồng thời” “at once, at the same time, simultaneously, …” Tuy nhiên, theo ngữ cảnh báo khoa học từ “at once” có nghĩa tương đương “cùng lúc” thơng qua câu ví dụ sử dụng phương pháp “Furthermore, a hashtag can encode multiple topics at once.” hay “They process several examples at once and use a short-list vocabulary v with only the most frequent words.” Khi tìm kiếm câu vị cụm từ “as the same time”, kết trả câu ví dụ “To the best of our knowledge, this is the first model which trains two tasks at the same time.” “At the same time, with the help of the yago knowledge, we borrow the distant supervision technique to mine the implicit facts from the text.” Từ câu ví dụ, sinh viên chọn cụm từ “at the same time” thay cụm từ “at once” Do đó, dựa vào câu ví dụ đưa ứng dụng, người dùng tham khảo ngữ cảnh sử dụng cụm từ báo khoa học cách xác, trách trường hợp sử dụng sai từ để làm sai ngữ nghĩa câu văn Dựa vào ví dụ trên, người sử dụng tham khảo vị trí từ dùng câu tiếng Anh (ví dụ cụm từ “at once” thường sử dụng cuối câu cụm từ “at the same time” sử dụng vị trí khác câu) Ngoài ra, để thuận tiện cho người sử dụng, chúng tơi phân lớp câu ví dụ vào bảy lớp (“abstract”, “introduction”, “related work”, “methods”, “results and discussions”, “conclusions”, “acknowledgements”) theo cấu trúc chuẩn báo khoa học quốc tế dựa vào tiêu đề câu ví dụ rút trích từ báo khoa học Điều giúp người dùng hình dung câu ví dụ nằm phần báo Mơ hình thực chức tìm kiếm câu ví dụ trình bày Hình mơ tả chi tiết thành phần mơ hình chúng tơi trình bày sau Hình Sơ đồ chức tìm kiếm câu ví dụ Truy vấn ngƣời dùng: Truy vấn tiếng Anh tiếng Việt Đối với tiếng Việt, hệ thống kiểm tra tập từ điển thu thập từ nguồn khác [1], [2] Sau cụm từ dịch tác giả có kinh nghiệm lĩnh vực học thuật (ví dụ - query = “bài báo trình bày” ứng dụng trả kết “the paper presents”, “the paper shows”, …) Điều giúp người dùng chưa có kinh nghiệm viết báo khoa học tra cứu tiếng Việt Tuy nhiên, tập từ điển hạn chế, chúng tơi tập trung vào việc truy vấn tiếng Anh Bên cạnh đó, để đa dạng truy vấn, ứng dụng chấp nhận truy vấn thiếu “we develop a * method to …” – điều giúp cho người dùng đa dạng lựa chọn tính từ phù hợp với nội dung câu Bộ index: Tập ngữ liệu đánh mục Các đề mục báo phân loại thành bảy lớp theo cục báo khoa học Nhằm biết vị trí tương đối câu ví dụ báo khoa học, chúng tơi thực phương pháp phân lớp đơn giản dựa từ khóa đề mục Đề mục X phân vào lớp Y X chứa từ dấu hiệu lớp Y Chúng nhận thấy rằng, báo khoa học có đề mục “Introduction”, nên sử dụng luật heuristic sau đề mục “Introduction” mà đề mục X khơng có từ dấu hiệu lớp Y phân lớp vào lớp “Methods” Bảng liệt kê cụm từ dấu hiệu cho lớp Chúng lựa chọn khoảng 150 báo tập ngữ liệu để đánh giá kết Kết độ phân lớp 95,6% (1097/1147) 958 ỨNG DỤNG HỖ TRỢ TRA CỨU CỤM TỪ TRONG CÁC BÀI BÁO KHOA HỌC BẰNG TIẾNG ANH Bảng Các cụm từ dấu hiệu đề mục bố cục báo khoa học tiếng Anh Đề mục Cụm từ dấu hiệu Abstract Abstract Introduction Introduction Related Word Past work, Related work, Previous work, Recent work, Overview Methods Data, Model, Framework, Approach, Corpora, Method, Background, System Results and Discussions Result, Evaluation, Experiment, Analysis, Discussion Conclusion Conclusion, Future Work Acknowledgements Acknowledgements Mở rộng truy vấn ngữ nghĩa: Mở rộng query bước cần thiết dựa tập ngữ liệu nhỏ Thành phần mơ hình làm đa dạng phong phú câu ví dụ Hiện tại, chúng tơi tập trung giải mở rộng truy vấn ngữ nghĩa sau: Nếu truy vấn từ đơn mở rộng từ đồng nghĩa, cịn truy vấn dài mở rộng dựa động từ câu truy vấn Giả sử câu truy vấn người dùng “In this paper, we present ” việc ứng dụng mở rộng truy vấn dựa ngữ nghĩa động từ “present” mở rộng với động tự khác “show, demo, introduce, represent, …” trả kết thêm truy vấn “In this paper, we show …” vấn “In this paper, we introduce …” Từ người dùng có nhiều lựa chọn cho báo học thêm từ ngữ tương đương Chúng sử dụng từ đồng nghĩa Wordnet1 để mở rộng ngữ nghĩa dựa động từ truy vấn Hình Mơ hình mở rộng truy vấn ngữ nghĩa Tìm kiếm xếp hạng: Các câu ví dụ cụm từ truy vấn tâp ngữ liệu đánh index tìm kiếm xếp hạng để người dùng tham khảo cách tốt Để xếp hạng kết truy vấn, sử dụng độ đo TF-IDF để xếp hạng kết hợp với độ dài câu ví dụ Việc xếp hạng đưa câu ví dụ ngắn người dùng có khả hiểu nội dung ngữ cách cách sử dụng cụm từ hiệu Hình kết trả cho người dùng truy vấn “we present a * method” Trong vài trường hợp người dùng không hiểu rõ nội dung câu ví dụ, đưa thêm đoạn văn câu ví dụ bao gồm câu trước, câu ví dụ câu sau để người dùng tham khảo hiểu nghĩa cụm từ truy vấn theo ngữ cảnh Nếu người dùng muốn đọc tồn báo nhấn vào link tên báo khoa học bên câu ví dụ báo báo trực tiếp tìm kiếm google 2.1.2 Mơ hình tham khảo cụm từ Mục tiêu mơ hình giúp người dùng tham khảo cụm từ, mẫu câu gợi ý để sử dụng viết báo khoa học Hiện tại, thu thập tay đưa vào sở liệu cụm từ, mẫu câu nội dung mà cụm từ diễn tả đến báo khoa học (ví dụ cụm từ “ is a classic problem in ” dùng để diễn tả cho nội dung “Establishing the importance of the topic for the discipline” báo khoa học) Bên cạnh đó, chúng tơi phân loại nội dung vào đề mục báo khoa học (ví dụ nội dung “Establishing the importance of the topic for the discipline” thuộc đề mục báo “Introducing work”) tìm kiếm câu ví dụ chứa cụm từ tập ngữ liệu để người dùng hình dung cách sử dụng ngữ nghĩa câu Ngoài ra, cụm từ dịch sang tiếng Việt để người chưa có khả tiếng Anh tốt hiểu hình dung ngữ nghĩa cụm từ Tất cụm từ thu thập lấy từ sách tiếng hướng dẫn viết báo khoa học tiếng Anh [4], [5] để đưa vào sở liệu Ngồi ra, chúng tơi cịn cho người dùng tham khảo cụm từ hữu ích rút trích tự động dựa tập ngữ liệu có sẵn Bên cạnh việc tra cứu cụm từ hữu ích, người dùng cịn xem thêm nhiều ví dụ cụm từ https://wordnet.princeton.edu/ Đặng Văn Thìn, Nguyễn Văn Kiệt, Nguyễn Lưu Thùy Ngân 959 tập ngữ liệu Với chức này, chúng tơi hy vọng ứng dụng giúp người dùng có thêm đa dạng nhiều lựa chọn để diễn tả nội dung, kết nghiên cứu báo khoa học Hình Màn hình chụp truy vấn “we present a * method” ứng dụng 2.2 Rút trích tự động cụm từ hữu ích Các cụm từ hữu ích bao gồm mẫu cụm từ, thuật ngữ, thành ngữ, cụm từ chung với sử dụng viết báo khoa học (ví dụ “… is aligned with …”, “… is independent of …” hay “Table gives the performance of …”) Lưu ý đây, chúng tơi khơng rút trích cụm từ thuật ngữ chuyên môn lĩnh vực đặc biệt Dựa vào kết phân tích tác giả Kozawa et al 2010, cụm từ hữu ích phải có có đặc điểm sau: Cụm từ sử dụng thường xuyên báo khoa học Độ dài cụm từ khơng q ngắn Cụm từ có từ đằng trước từ đằng sau khác báo Dựa theo phân tích trên, chúng tơi thực phương pháp rút trích cụm từ hữu ích theo Hình đề xuất Kozawa, bổ sung bước để xác định xem cụm danh từ thay nhãn mơ hình tác giả Kozawa et al 2010 [6] Chúng mô tả chi tiết bước thực sau Đầu tiên chúng tơi phân tích câu tập ngữ liệu thành cụm base-phrase Sau xác định xem cụm danh từ thay thành nhãn Bởi cụm danh từ phân tích cụm danh từ chuyên ngành, cụm danh từ riêng Vì thế, để xác định xem cụm danh từ thay thành nhãn , tiến hành rút trích cụm danh từ danh sách cụm từ hữu ích [4], [5] mà chúng tơi thu thập để tạo thành từ điển danh từ Sau đó, chúng tơi xét trường hợp cụm danh từ xuất từ điển giữ nguyên, trường hợp ngược lại cụm danh từ thay nhãn Ngồi chúng tơi thay trường hợp cụm danh từ kép of thành nhãn theo kết luận Kozawa et al 2010 Tiếp theo, tách câu thành chuỗi base-phrase – lưu ý chuỗi base-phrase khơng q bốn cụm danh từ , cụm từ hữu ích thường khơng q bốn cụm Cuối cùng, sử dụng phương pháp thống kê luật ràng buộc cú pháp để loại bỏ cụm từ khơng hữu ích Phương pháp thống kê luật ràng buộc cú pháp trình bày mục 2.2.1 mục 2.2.2 báo Kết đánh giá phương pháp trình bày mục 2.2.3 2.3 Phƣơng pháp thơng kê Chúng tơi sử dụng hàm tính tốn Ikeno et al để xác định chuỗi cụm từ có phải cụm từ hữu ích hay khơng Ý tưởng bước xác định cụm từ có từ ngữ bên trái từ ngữ bên phải đa dạng tập ngữ liệu, cụm từ sử dụng viết báo khoa học Hàm tính tốn mơ tả sau: Lscore = log(tf(E)) x length(E) x Hl(E) (1) Rscore = log(tf(E)) x length(E) x Hr(E) (2) ỨNG DỤNG HỖ TRỢ TRA CỨU CỤM TỪ TRONG CÁC BÀI BÁO KHOA HỌC BẰNG TIẾNG ANH 960 Hình Sơ đồ rút trích tự động cụm từ hữu ích từ báo khoa học tiếng Anh Trong đó: • E chuỗi cụm từ xét • Tf(E) tần số xuất cụm từ E tập ngữ liệu báo khoa học • Length(E) độ dài chuỗi E • Hl(E), Hr(E) phân bố xác suất cụm base-phrase đằng trước đằng sau cụm từ E Phân bố xác suất Hl(E) Hr(E) tính tốn theo cơng thức sau: ( ) ∑ ( ) ( ) (3) ( ) ∑ ( ) ( ) (4) Với xác suất cụm từ đằng trước E công thức xác suất sau: ( ) ( ) ( ( | ) | ) xác suất cụm từ đằng sau E ( ) ( ( ) ( ) ( ) ( ( ) / tính tốn ) (5) ) (6) ( ) Cụm từ ứng viên E rút trích hàm Lscore(E) hàm Rcore(E) thõa bất đẳng thức sau với XE/EX, X với từ đằng trước từ đằng sau cụm từ E Lscore(E) > Lscore(XE) Rscore(E) > Rscore(EX) 2.4 Luật ràng buộc cú pháp Khi phân tích kết kết sử dụng phương pháp thống kê mục 2.2.1, nhận thấy cịn nhiều cụm từ rút trích tự động khơng có hữu ích người dùng tham khảo (ví dụ cụm từ “ to improve ”, có tần số xuất 301, cụm từ lại khơng có ý nghĩa tham khảo người dùng) Vì để loại bỏ cụm từ trên, lựa chọn khoảng 1000 cụm từ rút trích thành cơng từ bước thống kê để xây dựng tập luật ràng buộc Nếu cụm từ thỏa luật ràng buộc cú pháp loại bỏ khỏi kết cuối Các luật liệt kê bảng Đặng Văn Thìn, Nguyễn Văn Kiệt, Nguyễn Lưu Thùy Ngân 961 Bảng Luật ràng buộc cú pháp2 Nếu cụm từ có chứa động từ theo sau khơng có giới từ (in, on, to,…) cụm từ có chứa chủ từ “we” khơng có động từ hay cụm từ có chứa “ (or) ” Bắt đầu kết thúc cụm từ từ “and” từ “if” Các cụm từ bắt đầu bằng: such as ; to; of; for; and; but; from; if; are ; is ; than; because Nếu chuỗi từ loại (POS) cụm từ thuộc trường hợp sau đây: “NP TO WDT NP”; “NP TO VB NP”; “NP RB IN NP”; “NP JJ IN NP”, “NP IN WDT NP”; “NP VBZ IN NP”; “NP VBZ RB NP” Nếu chuỗi từ loại cụm từ bắt đầu bằng: “NP WDT”; “NP WP” Nếu kết chunking cụm từ trường hợp sau: “NP VP NP”; “NP ADVP”; “NP PP (NP PP) *” Các chuỗi chunking cụm từ kết thúc sau: “NP PP”; “NP (of|and|or|in) NP” III KẾT QUẢ THỬ NGHIỆM Sau thực phương pháp rút trích tự động cụm từ hữu ích, chúng tơi rút tổng cộng 9536 cụm từ hữu ích từ tập ngữ liệu báo khoa học có sẵn Để đánh giá kết thử nghiệm phương pháp rút trích tự động cụm từ hữu ích báo khoa học, tiến hành lựa chọn ngẫu nhiên 10 báo khoa học tiến hành rút trích cụm từ hữu ích Kết chúng tơi rút trích 498 cụm từ hữu ích sau chúng tơi tiến hành tính độ xác độ phủ kết mười báo chọn Nếu cụm từ xuất từ điển thu thập từ nguồn [4][5] cụm từ xem cụm từ hữu ích, cụm từ lại hai nhà nghiên cứu có nhiều kinh nghiệm viết báo khoa học quốc tế tiếng Anh đánh giá độc lập xem cụm từ có phải cụm từ hữu ích hay không Số lượng cụm từ đánh giá tổng số cụm từ xuất tài liệu tham khảo [4], [5] cụm từ đánh giá hai nhà nghiên cứu - lấy phần giao chung cụm từ mà hai nhà nghiên cứu gán nhãn giá trị giống xem cụm từ hữu ích Bên cạnh đó, chúng tơi kiểm tra loại kết loại bỏ phương pháp thống kê phương pháp ràng buộc cú pháp để xác định cụm từ bị loại bỏ Dựa vào đó, đánh giá phương pháp dựa độ đo 498 cụm từ rút trích tự động mười báo khoa học tiếng Anh rút ngẫu nhiên độ xác độ phủ Cơng thức tính độ xác độ phủ phương pháp rút trích tự động cụm từ hữu tính tốn sau: Độ xác = Số cụm từ rút trích xác / Tổng số cụm từ rút trích Độ phủ = Số cụm từ rút trích xác / Tổng số cụm từ xác Sau tổng hợp kết đánh giá nhà nghiên cứu, chúng tơi đạt kết độ xác trung bình gần 66% (330/498) Thống kê kết phương pháp thống kê luật ràng buộc có 72 cụm từ bị loại bỏ bước thống kê không thỏa hai điều kiện bất đẳng thức 19 cụm từ hữu ích bị loại bỏ luật ràng buộc Do đó, độ phủ phương pháp 78,4% (330/(330+72+19)) độ đo F1 71,66% Từ cho thấy phương pháp cho kết tốt áp dụng rút trích tự động cụm từ hữu ích cho ngơn ngữ khác báo khoa học tiếng Việt Một vài kết thí nghiệm phương pháp rút trích cụm từ hữu ích tự động chúng tơi liệt kê bảng bảng kết thống kê chi tiết tập ngữ liệu số cụm hữu ích mà chúng tơi thực nghiệm nguồn ngữ liệu chúng tơi Ngồi vài cụm xuất tập từ điển “The amount of ” hay “To the best of our knowledge ” cịn có cụm “In this paper, we consider ” “We conduct experiments on ” rút trích Điều giúp cho thấy phương pháp rút trích cụm từ mà tập từ điển khơng có, từ làm đa dạng cụm từ, khuôn mẫu (template) cho người dùng tham khảo sử dụng báo khoa học tiếng Anh Bảng Thống kê kết phương pháp rút trích tự động cụm từ hữu ích Số báo Số câu Số cụm rút trích tự động 1565 218847 9536 Sau quan sát cụm từ bị loại bỏ phương pháp luật ràng buộc ngữ nghĩa chúng tơi nhận thấy nhiều cụm từ hữu ích “We observe that ”, “This indicates that ” hay “Table summarizes ” khơng rút trích từ phương pháp thống kê hàm tính tốn Rscore(E) < Lscore(EX) Do cụm từ EX có tần số xuất hàm phân bố xác suất Hr gần với cụm từ hữu ích E Vì dạng trường hợp này, chúng tơi tìm hiểu tính toán lại độ đo phương pháp thống kê để giải trường hợp Bên cạnh đó, nhận thấy nhiều động từ rút trích chưa có giới từ xác câu cụm danh từ Hiện phương pháp xử lý bề mặt câu thay cụm danh từ nhãn chưa có phân tích sâu vào câu trúc ngữ Trong đó: NP cụm danh từ khác với nhãn , VP cụm động từ, PP cụm giới từ, ADVP cụm trạng từ Các ký tự nhãn từ loại (POS) tham khảo đây: https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html 962 ỨNG DỤNG HỖ TRỢ TRA CỨU CỤM TỪ TRONG CÁC BÀI BÁO KHOA HỌC BẰNG TIẾNG ANH nghĩa câu Thêm vào đó, phân tích cụm danh từ thành tính từ, trạng từ danh từ thay tính từ cụm danh từ thành nhãn dựa vào danh từ để xác định xem cụm danh từ có thay thành nhãn Vì thế, chúng tơi nghĩ sử dụng phương pháp bổ sung phân tích cấu trúc phụ thuộc dựa ngữ nghĩa câu, xử lý cụm danh từ đưa độ xác tin cậy cho cụm từ mà hệ thống rút trích Bảng Kết rút trích thành cơng từ tập ngữ liệu phương pháp rút trích tự động The amount of In this paper, we consider We evaluate our approach on is to convert NP to aims to maximize is learned from learn using can be formulated as In our experiments, we consider We conduct experiments on Figure demonstrates that It is not surprising that To the best of our knowledge provides a list of It can be seen that Xây dựng liệu Association for Computational Linguistics (ACL) tổ chức khoa học quốc tế nơi nghiên cứu hàng đầu vấn đề liên quan Ngơn ngữ học tính tốn hay Xử lý Ngơn ngữ Tự nhiên Do đó, báo hội nghị thuộc tổ chức ACL hội nghị ACL, CoNLL, EACL, NAACL, EMNLP từ năm 2014 đến năm 2016 sử dụng để làm tập ngữ liệu đảm bảo chất lượng độ tin cậy cho người dùng tham khảo câu ví dụ hay cụm từ rút trích tự động Tuy nhiên, báo định dạng theo báo khoa học với nhiều thông tin không cần thiết cơng thức, bảng số liệu, thích tài liệu tham khảo Vì thế, chúng tơi phải loại bỏ thơng tin thủ cơng sau sử dụng thư viện PDFxStream3 để đọc nội dung báo khoa học Tiếp theo, tổ chức ngữ liệu thành định dạng xml4 Hình để dễ dàng lưu trữ quản lý Để đảm bảo cho tập ngữ liệu xác, phải kiểm tra thủ công báo để tránh trường hợp sai sót q trình xử lý ngữ liệu Hình Định dạng xml báo khoa học sau xử lý https://www.snowtide.com/ Số lượng báo khoa học có đề mục 2.1.1, 2.1.2 2.1.1.1, … chiếm số lượng không đáng kể tổng số báo Vì chúng tơi định khơng biểu diễn cho trường hợp mà gộp chung với đề mục lớn Đặng Văn Thìn, Nguyễn Văn Kiệt, Nguyễn Lưu Thùy Ngân 963 IV KẾT LUẬN Trong báo này, chúng tơi trình bày kết thử nghiệm phương pháp rút trích cụm từ cách tự động dựa tập ngữ liệu có sẵn Phương pháp rút trích dựa phương pháp thống kê luật cú pháp để rút trích tự động cụm từ, mẫu câu (template) để làm đa dạng phong phú cụm từ cho người sử dụng Kết rút trích tự động cụm từ đạt độ đo F1 71,66% Bên cạnh đó, chúng tơi xây dựng ứng dụng hỗ trợ người dùng tra cứu cụm từ sử dụng báo khoa học tiếng Anh tảng web Ứng dụng có hai chức tìm kiếm câu ví dụ dựa truy vấn tra cứu cụm từ sử dụng báo khoa học Ứng dụng hy vọng giúp người dùng chưa có kinh nghiệm viết báo khoa học tiếng Anh cải thiện nội dung chất lượng báo khoa học quốc tế Trong tương lai, nghiên cứu công thức tính độ đo cụm từ phương pháp thống kê để giải trường hợp cụm từ hữu ích khác tiến hành phân tích câu để lựa chọn cụm ứng viên dựa việc phân tích ngữ nghĩa câu Sau đó, chúng tơi cài đặt thử nghiệm phương pháp rút trích tự động cụm từ hữu ích dành cho báo khoa học tiếng Việt Trong phần phát triển ứng dụng, mở rộng tập ngữ liệu ứng dụng lĩnh vực chun mơn khác để đa dạng hóa người dùng, đồng thời áp dụng phương pháp gợi ý tự động dựa đầu vào truy vấn người dùng LỜI CẢM ƠN Chúng cảm ơn thành viên nhóm nghiên cứu Xử lý Ngơn ngữ Tự nhiên – Phịng Thí nghiệm Truyền Tthơng Đa phương tiện (NLP-MMLab) thuộc trường Đại học Công nghệ thông tin góp ý xây dựng tập ngữ liệu cho nghiên cứu Chúng tơi cảm ơn phịng thí nghiệm MMLab hỗ trợ sở thí nghiệm để chúng tơi hồn thành nghiên cứu TÀI LIỆU THAM KHẢO [1] Ludwig s.r.l.s, Via Fiume 6,90133 Palermo, Italy Find your sentence Website “https://ludwig.guru/” [2] Yu-Chih Sun “Learner Perceptions of a Concordance Tool for Academic Writing” Computer Assisted Language Learning Vol.20, No 4, October 2007, pp 323 – 343 [3] Mei-Hua Chen, Shih-Ting Huang, Hung-Ting Hsieh, Ting-Hui Kao, Jason S Chang FLOW: A First-LanguageOriented Writing Assistant System ACL 2012, pages 157–162 [4] John Morley “Academic Phrasebank” The University of Manchester, 2014 [5] “English for Writing Research Papers Useful Phrases” Springer Website: “ http://www.springer.com/cda/content/ document/cda_downloaddocument/Free%2BDownload%2B-%2BUseful%2BPhrases.pdf%3FSGWID%3D0-0-45-1543172p177775190+&cd=1&hl=en&ct=clnk&gl=vn” [6] Shunsuke Kozawa, Yuta Sakai, Kenji Sugiki, and Shigeki Matsubara “Automatic Collection of Useful Phrases for English Academic Writing” Innovations in Intell Machines- 2, SCI 376, pp 45–59 [7] Yuanchao Liu, Xin Wang, Ming Liu, Xiaolong Wang Write-righter: “An Academic Writing Assistant System” Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16) [8] Sayako Maswana, Toshiyuki Kanamaru, Akira Tajino “Analyzing the Journal Corpus Data on English Expressions Across Disciplines” The Journal of ASIA TEFL, vol.10, No 4, pp 71-96, Winter 2013 [9] ZHAO Lili “The Application of Corpus in English Writing and Its Influences” Studies in Sociology of Science, Vol 6, No 6, 2015, pp 78-82 [10] Kato, Y., Egawa, S., Matsubara, S., Inagaki “English sentence retrieval system based on dependency structure and its evaluation” In Proceedings of 3rd International Conference on Information Digital Management, pp 279–285 THE PHRASE SEARCHING APPLICATION FOR ENGLISH SCIENTIFIC PAPERS Thin Van Dang, Kiet Nguyen Van, Ngan Nguyen Luu Thuy ABSTRACT: English is an international language used to present scientific research at conferences around the world However, using English in a proficient way is difficult for non-native speakers including Vietnamese and other countries' people To write a scientific paper in English, non-native novice writers need to spend time to learn unknown phrases or look up in dictionaries In this paper, we present a method for extracting useful expressions automatically from available scientific papers that were written by native speakers, and using the extracted expressions in an application for phrase-searching Our application is expected to help the user accurately express the content of the scientific English papers Keyword: writing assistance, academic writing, phrase search, example search

Ngày đăng: 16/12/2021, 12:24

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan