1. Trang chủ
  2. » Luận Văn - Báo Cáo

PHÁT HIỆN câu TƯƠNG ĐỒNG TRONG TIẾNG VIỆTpdf

51 203 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 51
Dung lượng 5,62 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN  NGUYỄN XN TỒN PHÁT HIỆN CÂU TƯƠNG ĐỒNG TRONG TIẾNG VIỆT LUẬN VĂN THẠC SĨ: NGÀNH KHOA HỌC MÁY TÍNH Tp Hồ Chí Minh, Năm 2018 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN  NGUYỄN XUÂN TOÀN PHÁT HIỆN CÂU TƯƠNG ĐỒNG TRONG TIẾNG VIỆT LUẬN VĂN THẠC SĨ: NGÀNH KHOA HỌC MÁY TÍNH Mã số chuyên ngành: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS ĐINH ĐIỀN Tp Hồ Chí Minh, Năm 2018 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu khoa học độc lập riêng tơi hướng dẫn khoa học PGS.TS Đinh Điền Các nội dung nghiên cứu, kết luận văn trung thực Mọi tham khảo sử dụng luận văn được trích dẫn nguồn tài liệu báo cáo danh mục tài liệu tham khảo Luận văn có sử dụng thuật tốn, cơng thức tác giả khác có trích dẫn thích nguồn gốc Các kết nghiên cứu thử nghiệm luận văn tự tìm hiểu, xây dựng, phân tích cách trung thực, khách quan hướng dẫn giảng viên hướng dẫn Mọi chép không hợp lệ, vi phạm quy chế nhà trường, tơi xin chịu hồn tồn trách nhiệm Học Viên Nguyễn Xn Tồn Tp Hồ Chí Minh, tháng 12 năm 2018 iii LỜI CẢM ƠN Lời đầu tiên, cho xin gửi lời cảm ơn chân thành đến Quý Thầy Cô, cán nhân viên Trường Đại học Công nghệ Thông tin dạy kiến thức bổ ích tạo điều kiện thuận lợi cho tơi q trình học tập trường Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến Thầy PGS TS Đinh Điền, cảm ơn Thầy tận tình hướng dẫn em thực luân văn Em xin kính chúc Thầy ln dồi sức khỏe để tiếp tục nghiên cứu khoa học giảng dạy Cuối xin gởi lời cảm ơn đến Cha Mẹ, gia đình, người thân, bạn bè đồng nghiệp quan tâm, ủng hộ suốt trình học tập cao học Học Viên Nguyễn Xn Tồn Tp Hồ Chí Minh, tháng 12 năm 2018 iv MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH viii DANH SÁCH CÁC TỪ VIẾT TẮT ix MỞ ĐẦU Chương Tổng quan 1.1 Tổng quan độ đo tương đồng ngữ nghĩa 1.2 Các cơng trình có liên quan Chương Cơ sở lý thuyết 2.1 Độ tương đồng câu 2.2 Các độ đo tương đồng dựa thống kê 2.2.1 Độ tương đồng Cosine 2.2.2 Độ đo khoảng cách Euclide 2.2.3 Độ đo khoảng cách Manhattan .9 2.2.4 Độ đo Jaccard 10 2.2.5 Độ đo Dice 11 2.3 Độ đo tương đồng ngữ nghĩa dựa Wordnet 11 2.3.1 Khái quát từ điển Wordnet .11 2.3.2 WordNet Tiếng Việt .13 2.3.3 Các độ đo tương đồng ngữ nghĩa dựa WordNet 13 2.3.3.1 Độ đo Path-length 13 v 2.3.3.2 Độ đo Leacock Chodorow 14 2.3.3.3 Độ đo Wu Palmer 14 2.3.3.4 Độ đo Resnik 15 2.3.3.5 Độ đo Lin .15 2.3.3.6 Độ đo Jiang-Conrath 15 Chương Phương pháp nghiên cứu 17 3.1 Mơ hình so sánh câu tương đồng 17 3.2 Kiến trúc hệ thống đề xuất 19 3.3 So sánh độ tương đồng hai câu tiếng Việt 21 3.3.1 Tiền xử lý 21 3.3.2 Xác định cụm từ chung 22 3.3.3 Loại bỏ từ dừng 25 3.3.4 Xác định cặp từ tương đồng 26 3.3.5 Tính độ tương đồng câu 28 Chương Thực nghiệm ứng dụng 30 4.1 Môi trường thực nghiệm 30 4.1.1 Môi trường thực nghiệm .30 4.1.2 Ngữ liệu thực nghiệm 31 4.1.3 Độ đo đánh giá 31 4.2 Đánh giá thảo luận kết 32 4.3 Chương trình ứng dụng thử nghiệm 33 KẾT LUẬN 38 CƠNG TRÌNH CỦA TÁC GIẢ 40 TÀI LIỆU THAM KHẢO 41 vi DANH MỤC CÁC BẢNG Bảng 2.1: Vector mô tả tần suất xuất Bảng 3.1: Danh sách dấu câu cần loại bỏ tiếng Việt 22 Bảng 4.1: Danh sách công cụ hỗ trợ dùng hệ thống 30 Bảng 4.2 Kết chạy mơ hình thử nghiệm 33 Bảng 4.3: Kết đánh giá mơ hình 33 vii DANH MỤC CÁC HÌNH Hình 2-1: Ví dụ nhánh WordNet tiếng Anh 12 Hình 3-1 Kiến trúc mơ hình so sánh tương đồng tác giả Ngơ Xn Bách 17 Hình 3-2: Mơ hình hệ thống phát câu tương đồng tiếng Việt 20 Hình 4-1: Kết khảo sát ngưỡng 𝛼 khoảng từ đến 32 Hình 4-2: Giao diện hệ thống phát câu tương đồng tiếng Việt 34 Hình 4-3: Giao diện nhập liệu đầu vào 35 Hình 4-4: kết thực thao tác tách từ 35 Hình 4-5: Kết thực thao tác so sánh hai câu 36 Hình 4-6: So sánh nhiều câu tiếng Việt 36 Hình 4-7: Kết so sánh nhiều câu 37 viii DANH SÁCH CÁC TỪ VIẾT TẮT Từ viết tắt Nội dung Simmat Similarity Matching Metric Sim Similarity JPPF Java Parallel Processing Framework CS Cosine Word Similarity LCS Longest Common Subsequence SVM Support Vector Machines MEM Maximum Entropy Model KNN K-Nearest Neighbor ix MỞ ĐẦU Trong năm gần đây, Internet ngày phát triển bùng nổ làm cho nguồn thông tin, liệu, văn sản sinh liên tục ngày phong phú Vì vậy, việc sử dụng, tra cứu thơng tin trở nên khó khăn người dùng thường trở nên bối rối dễ lạc vào ma trận thơng tin, khó phân biệt sàng lọc, đánh giá văn tương đồng để thuận tiện cho việc sử dụng Trong kho liệu ấy, bao gồm lượng lớn thông tin văn viết Tiếng việt chưa kiểm duyệt, xử lý Đánh giá độ tương đồng ngữ nghĩa vấn đề xuất từ lâu quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt lĩnh vực phát đạo văn, phân cụm, tóm tắt văn lĩnh vực dịch máy Tuy nhiên, việc đánh giá độ tương đồng ngữ nghĩa cho tiếng Việt gặp nhiều khó khăn Nguyên nhân chủ yếu đặc điểm ngơn ngữ tiếng Việt có nhiều điểm khác so với ngôn ngữ khác Tiếng Việt thuộc nhóm ngơn ngữ nghèo tài ngun, chưa có ngữ liệu tốt WordNet tiếng Việt, nên việc áp dụng phương pháp khai thác thơng tin cịn nhiều hạn chế Vì vậy, cần có nghiên cứu giúp khai thác hiệu nguồn tài nguyên Trên sở đó, khuôn khổ đề tài luận văn muốn đề xuất hướng giải phương pháp sử dụng độ đo tương đồng để đánh giá độ tương đồng ngữ nghĩa hai câu tiếng Việt Mục tiêu đề tài “Phát câu tương đồng tiếng Việt” tập trung vào khảo sát, nghiên cứu đề xuất mơ hình so sánh độ tương đồng ngữ nghĩa tiếng Việt cách có hiệu nhằm cải tiến phép đo tương đồng ứng dụng vào thiết kế, xây dựng thử nghiệm hệ thống phát câu tương đồng tiếng Việt Nội dung luận văn gồm phần sau: Chương 1: Giới thiệu tổng quan độ tương đồng ngữ nghĩa cơng trình có liên quan Chương 2: Trình bày sở lý thuyết độ đo tương đồng 3.3.5 Tính độ tương đồng câu Hệ thống đề xuất sử dụng độ đo tương đông Simmat tác giả Hoang Quoc Nguyen Son [4] để đo độ tương đồng hai câu văn tiếng Việt Công thức đo độ Simmat: Simmat = Relmat * (1 – p) Độ đo Relmat thiết lập dựa việc tính tốn cụm từ trùng lắp bước cặp từ tương đồng kết hợp bước Cơng thức tính độ tương đồng Relmat hai câu tiếng Việt: RelMat(w1, w2) = 𝑀−1 𝛼 𝛼 #𝑁𝑝+ ∑𝑁−1 𝑖=0 𝑙𝑒𝑛(𝑝𝑖) + ∑𝑗=0 𝑝𝑎𝑡ℎ(𝑤𝑗) 𝑀−1 𝛼′ 𝛼 #𝑁𝑝+#𝑁𝑤+ ∑𝑁−1 𝑖=0 𝑙𝑒𝑛(𝑝𝑖) + ∑𝑗=0 Trong đó:  #Np tổng số từ cụm từ chung có bước  #Nw số cặp từ cặp tương đồng có bước  N M số dương tương ứng cụm từ chung cặp tương đồng  pi cụm từ trùng khớp lần thứ i bước  len(pi) số lượng từ cụm pi  path(wj) độ đo khoảng cách (path metric) từ trùng chung lần thứ j bước Phương trình ln đảm bảo

Ngày đăng: 23/12/2018, 06:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN