1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ

80 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 469,07 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - Đỗ Thị Thanh Nga TÍNH TỐN ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ LUẬN VĂN THẠC SĨ HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - Đỗ Thị Thanh Nga TÍNH TỐN ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ Ngƣời hƣớng dẫn khoa học: TS Nguyễn Phƣơng Thái HÀ NỘI - 2010 MỤC LỤC DANH MỤC CÁC BẢNG .1 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƢƠNG I KHÁI NIỆM ĐỘ TƢƠNG TỰ 1.1 Tổng quan độ tƣơng tự .5 1.2 Khái niệm độ tƣơng tự 1.2.1 Định nghĩa độ tƣơng tự (Definition of Similarity) 1.2.2 Độ tƣơng tự giá trị có thứ tự ƣu tiên (ordinal values) .8 1.2.3 Độ tƣơng tự chuỗi (String Similarity-A case study) 1.3 Độ tƣơng tự ngữ nghĩa 10 CHƢƠNG II ĐỘ TƢƠNG TỰ TỪ-TỪ 11 2.1 Khái niệm từ, thuật ngữ .11 2.1.1 Từ cấu trúc từ tiếng Việt 11 2.1.1.1 Định nghĩa từ 11 2.1.1.2 Cấu trúc từ tiếng Việt 11 2.1.2 Nghĩa từ 12 2.1.3 Thuật ngữ (terms) 12 2.2 Từ đồng nghĩa 12 2.3 Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa 14 2.3.1 Dựa trí tuệ nhân tạo (AI-based) .14 2.3.2 Dựa Cơ sở tri thức (Knowledge-based) 14 2.3.3 Dựa ngữ liệu (Corpus-based) 14 2.4 Độ tƣơng tự ngữ nghĩa từ-từ dựa sở tri thức (từ điển WordNet) 15 2.4.1 Khái quát từ điển WordNet 15 2.4.2 Độ tƣơng tự từ-từ dựa từ điển WordNet 16 2.5 Độ tƣơng tự ngữ nghĩa từ-từ dựa ngữ liệu 17 2.5.1 PMI (Pointwise Mutual Information) (Thông tin chung dựa điểm) 18 2.5.2 LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn) 18 2.5.3 Phƣơng pháp Dekang Lin 18 CHƢƠNG III ĐỘ TƢƠNG TỰ VĂN BẢN-VĂN BẢN .21 3.1 Xử lý văn tiếng Việt 21 3.1.1 Một số kết đạt đƣợc 21 3.1.2 Đặc trƣng cấu trúc ngữ pháp tiếng Việt 23 3.2 Tách từ văn tiếng Việt 23 3.3 Các hƣớng tiếp cận tách từ 24 3.3.1 Các hƣớng tiếp cận dựa “từ” 24 3.3.2 Các hƣớng tiếp cận dựa ký tự 25 3.4 Một số phƣơng pháp tách từ tiếng Việt 26 3.4.1 Phƣơng pháp Maximum Matching: Forward/Backward 26 3.4.2 Phƣơng pháp Transformation-based Learning (TBL) 27 3.4.3 Mơ hình tách từ WFST mạng Neural 27 3.4.3.1 Tầng WFST 27 3.4.3.2 Tầng mạng Neural 28 3.4.4 Phƣơng pháp tách tách từ tiếng Việt dựa thống kê từ Internet thuật giải di truyền 28 3.4.4.1 Online Extractor 28 3.4.4.2 GA Engine for Text Segmentation 29 3.4.5 Nhận xét 29 3.5 Độ tƣơng tự văn bản-văn 30 CHƢƠNG IV TÍNH ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ 33 3.1 Phát biểu toán 33 3.2 Giải toán .33 3.2.1 Chuẩn bị liệu 33 3.2.2 Tách từ: Tách văn thành từ ghép danh từ riêng 36 3.2.2.1 Tách từ ghép văn 36 3.2.2.2 Tách danh từ riêng văn 39 3.2.3 Tính tốn độ tƣơng tự văn .41 3.3 Xây dựng hệ thống 44 3.3.1 Nhập trực tiếp văn .45 3.3.2 Nhập văn từ file 46 3.3.3 Lấy nội dung văn từ URL 47 3.4 Kết thử nghiệm đánh giá 48 3.4.1 Một số ví dụ cụ thể 48 3.4.2 Kết thử nghiệm 54 3.4.2.1 Cách tiến hành 54 3.4.2.2 Kết thử nghiệm 54 3.4.3 Đánh giá 59 KẾT LUẬN 61 HƢỚNG PHÁT TRIỂN 62 TÀI LIỆU THAM KHẢO 63 DANH MỤC CÁC BẢNG Bảng Bảng Tần suất xuất độ dài từ tiếng Việt trang Vdict.com Bảng Mô tả ba từ “giàu” Bảng Các điểm khác biệt tiếng Việt tiếng Anh Bảng Địa 20 tin tức số trang Web Bảng Một số kết độ tƣơng tự hai file Bảng Kết đánh giá 20 tin tức ngƣời máy thực Bảng Địa 30 tin rao vặt tra Bảng Một số kết độ tƣơng tự hai ti Bảng Kết đánh giá 30 tin rao vặt ng DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Hình Ví dụ phân phối giá trị có thứ tự ƣu tiên Hình Một phần từ điển WordNet Hình Các hƣớng tiếp cận việc tách từ Hình Một phần từ điển Dict Hình Danh sách số file kho ngữ liệu xử lý Hình Một phần từ điển từ ghép Hình Một phần từ điển CompoundDict Hình Giao diện hệ thống Hình Giao diện cho phép nhập trực tiếp hai vă Hình 10 Giao diện kết độ tƣơng tự sau nhập hai văn Hình 11 Giao diện nhập hai văn từ f Hình 12 Giao diện kết sau nhập Hình 13 Giao diện tính độ tƣơng tự nội d MỞ ĐẦU Tính cấp thiết đề tài Trong thời đại công nghệ số nhƣ nay, nguồn tài liệu vô phong phú Việc “sao chép tài liệu” theo nghĩa tiêu cực nhƣ đạo văn, chép luận án, luận văn, đồ án trở nên phổ biến vấn nạn Ở qui mô rộng hơn, thƣ viện điện tử ngày nhiều, tài liệu đƣợc phát hành internet nhiều lần thƣ viện điện tử khác nhau, trang web khác Làm để phát chép tài liệu theo nghĩa tiêu cực? Làm ngăn chặn việc chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ đề đƣợc nghiên cứu từ khoảng 10 năm qua Hiện tại, có số giải pháp cho việc phát chép vài công cụ phần mềm cho phép phát tài liệu (gọi văn kiểm tra) có chép từ tập hợp tài liệu nguồn hay không Tập hợp tài liệu nguồn đóng- tức tài liệu tập hợp trƣớc thƣ viện điện tử- mở, chẳng hạn nhƣ tập tài liệu văn internet Đã có số nghiên cứu đề xuất phƣơng pháp khác để xác định xem đoạn văn tài liệu có nằm tài liệu khác hay không Các phƣơng pháp chủ yếu dựa tìm kiếm so khớp chuỗi Tuy nhiên, phƣơng pháp so khớp chuỗi có hiệu việc chép “nguyên văn” Do yêu cầu cấp bách đặt làm để phát việc chép có sửa đổi đơi chút nhƣ thay số từ từ đồng nghĩa hay thay đổi thứ tự câu văn Chính vậy, đề tài “Tính tốn độ tƣơng tự ngữ nghĩa văn dựa vào độ tƣơng tự từ với từ” đƣợc chọn làm đề tài luận văn tốt nghiệp Mục tiêu luận văn Vận dụng phƣơng pháp tính độ tƣơng tự từ với từ để tính độ tƣơng đồng ngữ nghĩa hai văn giúp phát văn có đƣợc chép từ văn hay không Đối tượng nhiệm vụ luận văn Đối tƣợng:  Tập văn liệu mẫu  Tập tài liệu Internet Nhiệm vụ: Luận văn tập trung vào tính độ tƣơng tự ngữ nghĩa văn dựa tập ngữ liệu có sẵn Trong có tận dụng tối đa đặc điểm kho ngữ liệu, đến độ tƣơng tự từ với từ tập từ đồng nghĩa 4.Phương pháp nội dung nghiên cứu  Nghiên cứu lý thuyết độ tƣơng tự, cách tính độ tƣơng tự từ với từ  Nghiên cứu kho ngữ liệu, tƣợng từ đồng nghĩa  Tìm hiều cách tách từ văn tiếng Việt  Nghiên cứu phƣơng pháp tính độ tƣơng tự ngữ nghĩa văn dựa độ tƣơng tự từ với từ 5.Kết cấu luận văn Nội dung luận văn gồm chƣơng:  Chƣơng I: Khái niệm độ tƣơng tự  Chƣơng II: Độ tƣơng tự từ-từ  Chƣơng III: Độ tƣơng tự văn bản-văn  Chƣơng IV: Tính độ tƣơng tự ngữ nghĩa văn dựa vào độ tƣơng tự từ với từ CHƢƠNG I KHÁI NIỆM ĐỘ TƢƠNG TỰ 1.1 Tổng quan độ tƣơng tự Nghiên cứu “sự tƣơng tự” (thƣờng dạng đối ngẫu “khoảng cách”) thuộc phạm vi toán học, chẳng hạn lý thuyết tôpô xấp xỉ; nhƣng khoa học máy tính ứng dụng máy tính có phần khác Trong khoa học máy tính, phép tính xấp xỉ thƣờng đƣợc sử dụng theo lối khơng có tính hệ thống (nonsystematic) không theo thể thức (ad-hoc) Trong ngữ cảnh này, khái niệm “sự tƣơng tự” xuất nhiều dạng, diễn xuất, nhiều ứng dụng Khái niệm “sự tƣơng tự” có nhiều dạng khác Bất chấp khác biệt, chúng có điểm chung: “sự tƣơng tự” đƣợc sử dụng để so sánh hai (hay nhiều) đối tƣợng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều ngun khác Ln có mục đích với phép so sánh nhƣ thế, hành động tiếp sau đƣợc thực cuối vấn đề phải đƣợc giải Vì lý đó, hai đối tƣợng đƣợc đem so sánh giữ vai trò khác Đối tƣợng thứ đƣợc xem xét đƣợc gọi vấn đề (problem) Đối tƣợng thứ hai biết lƣu; thƣờng đƣợc gọi mẫu (prototype) hay tình (case) “Sự tƣơng tự” đƣợc sử dụng cách gián tiếp trình giải vấn đề, bật phƣơng pháp dựa phép loại suy (Analogy), lập luận dựa theo tình (Case-Based Reasoning), nhận dạng mẫu (Pattern Recognition) Chúng có liên hệ với khơng có ranh giới rõ ràng phép loại suy phƣơng pháp khác Ở đây, chấp nhận quan điểm phép loại suy gắn với đối tƣợng thuộc nhiều lĩnh vực, CBR nhận dạng mẫu sử dụng độ tƣơng tự lĩnh vực Một khác biệt CBR phép loại suy CBR thƣờng (không phải luôn) xét đối tƣợng đƣợc mô tả theo ngôn ngữ mô tả thuật ngữ, phép loại suy xét lý thuyết hoàn toàn khác Dƣới số ngữ cảnh cần đến “sự tƣơng tự”:  Lập luận dựa theo tình (CBR) cách tổng quát để giải vấn đề cách sử dụng kinh nghiệm trƣớc Những kinh nghiệm đƣợc ghi lại sở liệu gọi kho tình Ý tƣởng bên dƣới nhằm tái sử dụng kinh nghiệm là: “Nếu hai vấn đề tƣơng tự chúng có giải pháp tƣơng tự” CBR có giả định tồn kinh nghiệm Với điều kiện này, CBR đƣợc áp dụng cho hầu hết dạng ứng dụng Thƣờng có nhiều kinh nghiệm đƣợc lƣu trữ khía cạnh thiết yếu nhanh chóng tìm kinh nghiệm hữu ích (bài toán thu hồi)  Trong sở liệu (Databases), “sự tƣơng tự” có liên quan với tìm kiếm, có quan hệ với CBR Đa phần sở liệu cần so trùng xác Các phép đo độ tƣơng tự giữ vai trò số sở liệu đặc biệt nhƣ sở liệu không gian (spatial database) hay sở liệu địa lý (geo-database)  Nhận dạng mẫu (Pattern Recognition) vấn đề tổng quát, nghiên cứu vận hành thiết kế hệ thống nhận dạng mẫu liệu Vì mẫu nhƣ lúc giống hệt nhau, khái niệm “sự tƣơng tự” thƣờng đóng vai trò định  Trong phân loại (Classification) phân tích cụm (Cluster Analysis), “sự tƣơng tự” đƣợc sử dụng để phân loại đối tƣợng: đối tƣợng tƣơng tự thuộc lớp/cụm, đối tƣợng không tƣơng tự thuộc lớp/cụm khác  Trong diễn xuất hình ảnh (Image Interpretation), hình ảnh đƣợc diễn xuất theo ý nghĩa chúng chúng đƣợc so sánh với Ví dụ, ảnh y khoa thực tế ảnh khơng có bệnh lý đƣợc so sánh với nhau; độ tƣơng tự ảnh đƣợc sử dụng biết ảnh thực có chứa bệnh lý hay khơng Xác minh hình ảnh (Image Identification) thuộc lĩnh vực  Trong tâm lý học nhận thức xã hội (Cognitive and Social Psychology), “sự tƣơng tự” chủ quan; ám thái độ, giá trị, sở thích, cá tính ngƣời tƣơng xứng mức độ Có nhiều dạng mơ hình tƣơng tự tâm lý học, bốn mơ hình bật hình học (geometric), đặc tính (featural), dựa canh lề (alignment-based), biến đổi (transformational)  Trong lĩnh vực an ninh, quốc phòng để xác định đối tƣợng ảnh muốn xác định vân tay, kiểm tra băng đĩa mang nội dung cần kiểm soát, … Độ đo tƣơng tự phƣơng pháp tốt để máy tính phân biệt đƣợc văn qua nội dung chúng Xét khía cạnh đó, độ tƣơng tự lớn, hai văn giống nhiều 1.2 Khái niệm độ tƣơng tự Độ tƣơng tự khái niệm quan trọng đƣợc sử dụng rộng rãi Các định nghĩa trƣớc độ tƣơng tự đƣợc trói buộc ứng dụng cụ thể dạng thể tri thức 54 Trong ví dụ này, hai văn khác hai cặp từ:  Cặp thứ nhất: Văn dùng từ “máy bay” văn dùng từ “phi cơ”  Cặp thứ hai: Văn dùng từ “ đón tiếp” cịn văn dùng từ “tiếp đón” Tuy nhiên, lại cặp từ đồng nghĩa tập từ đồng nghĩa “Same Meaning” Do độ tƣơng tự chúng 0.996660325250488 3.4.2 Kết thử nghiệm 3.4.2.1 Cách tiến hành Để đánh giá độ tƣơng tự tài liệu, sử dụng phƣơng pháp:  Phƣơng pháp 1: Con ngƣời đánh giá Tập tài liệu đƣợc giao cho nhóm gồm ngƣời địa điểm khác Họ có nhiệm vụ đọc nội dung đánh giá độ tƣơng tự hai tài liệu dựa cảm tính  Phƣơng pháp 2: Thực nghiệm máy 3.4.2.2 Kết thử nghiệm Chúng tiến hành thử nghiệm dựa hai tập liệu: tập văn tin tức Internet tập tin rao vặt Internet  Web: Tập liệu 1: Tập gồm 20 văn gồm tin tức số trang Địa tài liệu nhƣ sau: File 55 http://tintuc.xalo.vn/008 1341775005/ong_si_lien_tiep_khang_dinh_khong_nhan_hoi_lo _t u_pci.html 10 11 12 13 14 15 16 17 18 19 20 Chẳng hạn ta có kết đánh giá độ tƣơng tự ngữ nghĩa hai file tổng số tài liệu có địa đƣợc nêu nhƣ sau: File 13 13 1 56 13 10 10 15 15 16 13 11 Bảng 5: Một số kết độ tƣơng tự hai file Kết độ tƣơng tự 20 tin tức nhƣ sau: Độ tƣơng 0.0-0.3 0.3-0.5 0.5-0.7 0.7-0.8 0.8-1.0  Bảng 6: Kết đánh giá 20 tin tức ngƣời máy thực Tập gồm 30 tin rao vặt số trang web: File 30 31 32 33 34 35 57 36 37 38 39 40 41 42 43 44 45 46 47 48 49 31.2 31.3 31.4 phu-victoria-chung-cu-van-phu-victoria-can-ho-.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403717095-banmat-san-chung-cu-victoria-van-phu-gia-hop-ly-d.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403696872-banchcc-van-phu-toa-v1-gia-hap-dan.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403704630-canban-mot-so-can-ho-chung-cu-van-phu-gia-chi-19-.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403715227-can- ban-mot-so-can-ho-chung-cu-van-phu-victoria.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403675585-ban-casan-victoria-van-phu-pm-gap-de-co-xuat-vip.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403676457-ban-casan-victoria-van-phu-pm-gap-de-co-xuat-vip.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403686663-ban-casan-victoria-van-phu-pm-som-de-co-suat-vip.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403687192-ban- chung-cu-van-phu.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403703049-banchcc-the-van-phu-victoria-dt-95-112-114-116m2.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403708123-banchcc-the-van-phu-victoria-dt-95-112-114-116m2.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403706386-banchcc-the-van-phu-victoria-dt-95-112-114-116m2.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403713504-chccthe-van-phu-victoria-dt-95-112-114-116m2.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403672389-canban-chcc-cao-cap-van-phu-victoria.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403707123-ban- can-ho-toa-v1-tang-25-van-phu-victoria-gia-hap.html http://www.chophien.com/raovat/312/0347100034/ban-ca-sanchung-cu-victoria-van-phu-gia-hop-ly-de-dau-tu.html http://chutin.vn/rao-vat/raovat-296790/Ban-mat-san-chung-cuVictoria-Van-Phu-gia-hop-ly-de-dau-tu/ http://www.dathanoi.vn/rv-93353-Ban-mat-san-chung-cu- Victoria-Van-Phu-gia-hop-ly-de-dau-tu-.aspx 58 31.1 http://dothidiaoc.com/dang-tin-nhanh/chi-tiet-rao-vat/9322-banmat-san-chung-cu-victoria-van-phu-gia-dau-tu-hop-ly.html http://www.ketnoisunghiep.vn/ca-m-nang-ve-bat-dong- 45.2 31.5 san/426918-chung-cu-victoria-van-phu-ban-chung-cu-victoriavan-phu-gia-tan-goc.html http://nhadat24h.net/ban-mat-san-chung-cu-victoria-van-phu-giahop-ly-de-dau-tu_nhadat_453099.html http://www.vatgia.com/raovat/2589/2253589/ban-chung-cu-van- 45.4 phu-victoria-hop-dong-mua-ban-ky-truc-tiep-voi-chu-dau-tu-vanphu.html http://dothidiaoc.com/dang-tin-nhanh/chi-tiet-rao-vat/9258-ban- 31.6 34.2 45.5 can-ho-chung-cu-van-phu-victoria-mat-duong-le-trong-tan-hadong.html http://nhaxuong.info/Ban-chung-cu-Van-Phu-Victoria-Ha-NoiLH-0943212996_ct_315_329_49304.html http://www.olo.vn/phanphoi-truc-tiep-chcc-van-phu-victoria-ha- dong-ha-noi_239487.html Bảng : Địa 30 tin rao vặt trang Web Chẳng hạn, ta có kết đánh giá độ tƣơng tự ngữ nghĩa hai file tổng số tài liệu có địa đƣợc nêu nhƣ sau: File 30 30 32 31 32 35 33 35 31 31 31 31.2 34 31 59 31.4 31 45.2 45 31 31 31 47 46 31.2 31.3 41 40 40 45 Bảng 8: Một số kết độ tƣơng tự hai tin rao vặt Kết độ tƣơng tự 30 tin rao vặt nhƣ sau: Độ tƣơng 0.0-0.3 0.3-0.5 0.5-0.7 0.7-0.8 0.8-1.0 Bảng 9: Kết đánh giá 30 tin rao vặt ngƣời máy thực 3.4.3 Đánh giá Sau tiến hành thử nghiệm chƣơng trình số ví dụ cụ thể, chúng tơi có số nhận xét sau:  nhiều Trƣờng hợp 1: Độ tƣơng tự lớn, hai văn giống tƣơng đối  Trƣờng hợp 2: Độ tƣơng tự cực nhỏ, hai văn khác hoàn toàn  Trƣờng hợp 3: Hai văn có độ tƣơng tự tƣơng đối thấp, phần lớn khác  Trƣờng hợp 4: Độ tƣơng tự lớn hai văn khơng hồn tồn giống nhƣng có nhiều cặp từ tƣơng đồng với nghĩa 60 Chƣơng trình chạy có hiệu với cặp văn giống nhiều, khác nhiều Tuy nhiên, nhiều trƣờng hợp chƣơng trình cho kết khơng đƣợc xác, chẳng hạn:  Trƣờng hợp 1: Xét hai đoạn văn ngắn sau:  Văn 1(Text 1): Nó bảo cậu không đến?  Văn (Text 2): Nó đến cậu khơng bảo?  Kết quả: Sim(text1,text2) = 1.0 Hai văn có từ giống hoàn toàn nhƣng thứ tự từ bị đảo lộn Ở văn thứ nhất, động từ “bảo”, cịn văn thứ hai, động từ “đến” Xét mặt ý nghĩa ngôn ngữ tiếng Việt, hai văn khác nhƣng chƣơng trình cho độ tƣơng tự 1.0 Đây điều luận văn chƣa làm đƣợc Chƣơng trình tính đƣợc độ tƣơng tự hai văn bản, nhiên lại chƣa xét đến cấu trúc từ, câu, từ loại từ,…  Trƣờng hợp 2: Xét hai đoạn văn ngắn sau:  Văn 1(Text 1): Tôi sở hữu loài gia cầm  Văn (Text 2): Tơi có gà  Kết quả: Sim(text1, text2) = 0.1297 Hai văn có mối quan hệ với nhau, quan hệ cụ thể trừu tƣợng Xét mặt phƣơng pháp, chƣơng trình hồn tồn tính đƣợc độ tƣơng đồng hai văn dựa vào mối quan hệ từ “sở hữu” với từ “có”, từ “gia cầm” với từ “con gà” Tuy nhiên, kết thu đƣợc lại thấp: Sim(text1, text2) = 0.1297 Nguyên nhân cặp từ chƣa có tập từ đồng nghĩa “Same Meaning” 61 KẾT LUẬN Độ đo độ tƣơng tự văn tính xác độ đo tốt để xác minh việc chép tài liệu, cịn áp dụng cho hệ thống tìm kiếm thơng tin,…Lí nguồn tài liệu Internet nhiều, việc nội dung loại tin tức bị trùng lặp điều tránh khỏi Trong luận văn này, nghiên cứu, tìm hiều tốn cụ thể thực tế tính tốn độ tƣơng tự ngữ nghĩa văn dựa vào độ tƣơng tự từ với từ Luận văn đạt đƣợc yêu cầu ban đầu đề việc nghiên cứu, tìm hiều tốn Những nội dung cơng việc đạt đƣợc:  Tìm hiều khái niệm độ tƣơng tự, độ tƣơng tự mặt ngữ nghĩa  Nghiên cứu phƣơng pháp tách từ văn bản, cài đặt thành công việc tách từ dựa vào từ điển có sẵn  Tìm hiều cách tính độ tƣơng tự từ với từ (dựa sở tri thức dựa kho ngữ liệu)  Trên sở tính tốn độ tƣơng tự từ-từ, luận văn xây dựng đƣợc hệ thống tính độ tƣơng tự hai tệp văn nội dung hai trang web site VnExpress.net, Dantri.com Mặc dù ứng dụng đạt đƣợc yêu cầu tìm hiểu đƣợc vấn đề ban đầu đặt luận văn nhƣng thời gian có hạn nên hệ thống dừng lại việc tính độ tƣơng tự văn dựa độ tƣơng tự từ-từ đơn giản mà chƣa xét đến từ loại từ, thứ tự từ câu Hơn nữa, tập từ kho ngữ liệu hạn chế, số lƣợng từ đồng nghĩa cịn ít,… Hệ thống xây dựng đƣợc đƣợc sử dụng việc học tập, nghiên cứu cho sinh viên nhƣ giáo viên có nhu cầu 62 HƢỚNG PHÁT TRIỂN  Chƣơng trình đƣợc xây dựng vận hành tƣơng đối tốt nhƣng nhiều hạn chế, cần tiếp tục hiệu chỉnh để chƣơng trình chạy tốt  Tiếng Việt phong phú nên cần xây dựng kho ngữ liệu tập từ đồng nghĩa lớn  Một số vấn đề kỹ thuật phân tích cú pháp, gán nhãn từ loại hay thứ tự từ câu,… cần đƣợc nghiên cứu, hoàn thiện để nâng cao kết tính tốn 63 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Thanh Hùng, Hƣớng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet Trần Cao Đệ, Đo độ tƣơng tự ngữ nghĩa tiềm ẩn để phát việc chép tài liệu Đỗ Phúc, Đỗ Hoàng Cƣờng, Nguyễn Tri Tuấn, Huỳnh Thụy Bảo Trân, Nguyễn Văn Khiết, Nguyễn Việt Hoàng, Nguyễn Việt Thành, Phạm Phú Hội, Dƣơng Ngọc Long Nam, Nguyễn Phƣớc Thanh Hải, Phát triển hệ thống S.E hỗ trợ tìm kiếm thơng tin, thuộc lãnh vực CNTT Internet qua từ khóa tiếng Việt Tiếng Anh Rada Mihalcea, Courtey Corley, Carlo Strapparava, Corpus-based and Knowledge-based Measures of Text Semantic Similarity, in Proceedings of the American Association for Artificial Intelligence (AAAI 2006), Boston, July 2006 Michael Mohler and Rada Mihalcea, Text-to-text Semantic Similarity for Automatic Short Answer Grading, in Proceedings of the European Chapter of the Association for Computational Linguistics (EACL 2009), Athens, Greece, March 2009 Rada Mihalcea, Word Sense Disambiguation, Encyclopedia of Machine Learning, Springer, 2007 Ravi Sinha and Rada Mihalcea, Unsupervised Graph-based Word Sense Disambiguation Using Measures of Word Semantic Similarity, in Proceedings of the IEEE Internation Conference on Semantic Computing (ICSC 2007), Irvine, CA, September 2007 Courtney Corley, Andras Csomai and Rada Mihalcea, A knowledge-based Approach to Text-to-Text Similarity, book chapter in Current Issues in Linguistic Theory: Recent Advances in Natural Language Processing, Editors Nicolas Nicoloev and Ruslan Mitkov, John Benjamins Publishers, 2006 Courtney Corley and Rada Mihalcea, Measures of Text Semantic Similarity, in Proceedings of the ACL workshop on Empirical Modeling of Semantic Equivalence, An Arbor, MI, June 2005 10 in Lei Shi and Rada Mihalcea, An Algorithm for Open Text Semantic Parsing, Proceedings of the ROMAND 2004 workshop on “Robust Methods in Analysis of Natural language Data”, Geneva, Switzerland, August 2004 64 11 Dekang Lin, An Information-Theoretic Definition of Similarity 12 Peter D.Turney, Mining The Web for Synonyms: PMI-IR versus LSA on TOEFL Internet 13 http://www.java.sun.com 14 http://www.sinhvienit.net 15 http://www.codeprovn.com 16 http://www.ngonngu.net 17 http://vi.wikipedia.org 18 http://www.wapedia.mobi 19 http://www.pcworld.com.vn 20 http://www.cse.unt.edu ... luận văn này, chƣa xét đến từ loại từ 33 CHƢƠNG IV TÍNH ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ 3.1 Phát biểu tốn Bài tốn: Tính tốn độ tƣơng tự ngữ nghĩa văn dựa vào độ. .. 29 3.5 Độ tƣơng tự văn bản -văn 30 CHƢƠNG IV TÍNH ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ 33 3.1 Phát biểu toán 33 3.2 Giải toán ... thuyết độ tƣơng tự, cách tính độ tƣơng tự từ với từ  Nghiên cứu kho ngữ liệu, tƣợng từ đồng nghĩa  Tìm hiều cách tách từ văn tiếng Việt  Nghiên cứu phƣơng pháp tính độ tƣơng tự ngữ nghĩa văn dựa

Ngày đăng: 11/11/2020, 22:27

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w