Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
1,09 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - Đỗ Thị Thanh Nga TÍNH TỐN ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ LUẬN VĂN THẠC SĨ HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - Đỗ Thị Thanh Nga TÍNH TỐN ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ Ngƣời hƣớng dẫn khoa học: TS Nguyễn Phƣơng Thái HÀ NỘI - 2010 MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƢƠNG I KHÁI NIỆM ĐỘ TƢƠNG TỰ 1.1 Tổng quan độ tƣơng tự 1.2 Khái niệm độ tƣơng tự 1.2.1 Định nghĩa độ tƣơng tự (Definition of Similarity) 1.2.2 Độ tƣơng tự giá trị có thứ tự ƣu tiên (ordinal values) 1.2.3 Độ tƣơng tự chuỗi (String Similarity-A case study) 1.3 Độ tƣơng tự ngữ nghĩa 10 CHƢƠNG II ĐỘ TƢƠNG TỰ TỪ-TỪ 11 2.1 Khái niệm từ, thuật ngữ 11 2.1.1 Từ cấu trúc từ tiếng Việt 11 2.1.1.1 Định nghĩa từ 11 2.1.1.2 Cấu trúc từ tiếng Việt 11 2.1.2 Nghĩa từ 12 2.1.3 Thuật ngữ (terms) 12 2.2 Từ đồng nghĩa 12 2.3 Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa 14 2.3.1 Dựa trí tuệ nhân tạo (AI-based) 14 2.3.2 Dựa Cơ sở tri thức (Knowledge-based) 14 2.3.3 Dựa ngữ liệu (Corpus-based) 14 2.4 Độ tƣơng tự ngữ nghĩa từ-từ dựa sở tri thức (từ điển WordNet) 15 2.4.1 Khái quát từ điển WordNet 15 2.4.2 Độ tƣơng tự từ-từ dựa từ điển WordNet 16 2.5 Độ tƣơng tự ngữ nghĩa từ-từ dựa ngữ liệu 17 2.5.1 PMI (Pointwise Mutual Information) (Thông tin chung dựa điểm) 18 2.5.2 LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn) 18 2.5.3 Phƣơng pháp Dekang Lin 18 CHƢƠNG III ĐỘ TƢƠNG TỰ VĂN BẢN-VĂN BẢN 21 3.1 Xử lý văn tiếng Việt 21 3.1.1 Một số kết đạt đƣợc 21 3.1.2 Đặc trƣng cấu trúc ngữ pháp tiếng Việt 23 3.2 Tách từ văn tiếng Việt 23 3.3 Các hƣớng tiếp cận tách từ 24 3.3.1 Các hƣớng tiếp cận dựa “từ” 24 3.3.2 Các hƣớng tiếp cận dựa ký tự 25 3.4 Một số phƣơng pháp tách từ tiếng Việt 26 3.4.1 Phƣơng pháp Maximum Matching: Forward/Backward 26 3.4.2 Phƣơng pháp Transformation-based Learning (TBL) 27 3.4.3 Mơ hình tách từ WFST mạng Neural 27 3.4.3.1 Tầng WFST 27 3.4.3.2 Tầng mạng Neural 28 3.4.4 Phƣơng pháp tách tách từ tiếng Việt dựa thống kê từ Internet thuật giải di truyền 28 3.4.4.1 Online Extractor 28 3.4.4.2 GA Engine for Text Segmentation 29 3.4.5 Nhận xét 29 3.5 Độ tƣơng tự văn bản-văn 30 CHƢƠNG IV TÍNH ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ 33 3.1 Phát biểu toán 33 3.2 Giải toán 33 3.2.1 Chuẩn bị liệu 33 3.2.2 Tách từ: Tách văn thành từ ghép danh từ riêng 36 3.2.2.1 Tách từ ghép văn 36 3.2.2.2 Tách danh từ riêng văn 39 3.2.3 Tính tốn độ tƣơng tự văn 41 3.3 Xây dựng hệ thống 44 3.3.1 Nhập trực tiếp văn 45 3.3.2 Nhập văn từ file 46 3.3.3 Lấy nội dung văn từ URL 47 3.4 Kết thử nghiệm đánh giá 48 3.4.1 Một số ví dụ cụ thể 48 3.4.2 Kết thử nghiệm 54 3.4.2.1 Cách tiến hành 54 3.4.2.2 Kết thử nghiệm 54 3.4.3 Đánh giá 59 KẾT LUẬN 61 HƢỚNG PHÁT TRIỂN 62 TÀI LIỆU THAM KHẢO 63 DANH MỤC CÁC BẢNG Bảng Trang Bảng Tần suất xuất độ dài từ tiếng Việt trang Vdict.com 11 Bảng Mô tả ba từ “giàu” 19 Bảng Các điểm khác biệt tiếng Việt tiếng Anh 24 Bảng Địa 20 tin tức số trang Web 54 Bảng Một số kết độ tƣơng tự hai file 55 Bảng Kết đánh giá 20 tin tức ngƣời máy thực 56 Bảng Địa 30 tin rao vặt trang Web 56 Bảng Một số kết độ tƣơng tự hai tin rao vặt 58 Bảng Kết đánh giá 30 tin rao vặt ngƣời máy thực 59 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Hình Ví dụ phân phối giá trị có thứ tự ƣu tiên Trang Hình Một phần từ điển WordNet 16 Hình Các hƣớng tiếp cận việc tách từ 24 Hình Một phần từ điển Dict 34 Hình Danh sách số file kho ngữ liệu xử lý 34 Hình Một phần từ điển từ ghép 35 Hình Một phần từ điển CompoundDict 35 Hình Giao diện hệ thống 45 Hình Giao diện cho phép nhập trực tiếp hai văn 45 Hình 10 Giao diện kết độ tƣơng tự sau nhập hai văn 46 Hình 11 Giao diện nhập hai văn từ file 46 Hình 12 Giao diện kết sau nhập hai văn từ file 47 Hình 13 Giao diện tính độ tƣơng tự nội dung hai trang Web 48 MỞ ĐẦU Tính cấp thiết đề tài Trong thời đại công nghệ số nhƣ nay, nguồn tài liệu vô phong phú Việc “sao chép tài liệu” theo nghĩa tiêu cực nhƣ đạo văn, chép luận án, luận văn, đồ án trở nên phổ biến vấn nạn Ở qui mô rộng hơn, thƣ viện điện tử ngày nhiều, tài liệu đƣợc phát hành internet nhiều lần thƣ viện điện tử khác nhau, trang web khác Làm để phát chép tài liệu theo nghĩa tiêu cực? Làm ngăn chặn việc chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ đề đƣợc nghiên cứu từ khoảng 10 năm qua Hiện tại, có số giải pháp cho việc phát chép vài công cụ phần mềm cho phép phát tài liệu (gọi văn kiểm tra) có chép từ tập hợp tài liệu nguồn hay khơng Tập hợp tài liệu nguồn đóng- tức tài liệu tập hợp trƣớc thƣ viện điện tử- mở, chẳng hạn nhƣ tập tài liệu văn internet Đã có số nghiên cứu đề xuất phƣơng pháp khác để xác định xem đoạn văn tài liệu có nằm tài liệu khác hay không Các phƣơng pháp chủ yếu dựa tìm kiếm so khớp chuỗi Tuy nhiên, phƣơng pháp so khớp chuỗi có hiệu việc chép “nguyên văn” Do yêu cầu cấp bách đặt làm để phát việc chép có sửa đổi đôi chút nhƣ thay số từ từ đồng nghĩa hay thay đổi thứ tự câu văn Chính vậy, đề tài “Tính tốn độ tƣơng tự ngữ nghĩa văn dựa vào độ tƣơng tự từ với từ” đƣợc chọn làm đề tài luận văn tốt nghiệp Mục tiêu luận văn Vận dụng phƣơng pháp tính độ tƣơng tự từ với từ để tính độ tƣơng đồng ngữ nghĩa hai văn giúp phát văn có đƣợc chép từ văn hay không Đối tượng nhiệm vụ luận văn Đối tƣợng: Tập văn liệu mẫu Tập tài liệu Internet Nhiệm vụ: Luận văn tập trung vào tính độ tƣơng tự ngữ nghĩa văn dựa tập ngữ liệu có sẵn Trong có tận dụng tối đa đặc điểm kho ngữ liệu, đến độ tƣơng tự từ với từ tập từ đồng nghĩa Phương pháp nội dung nghiên cứu Nghiên cứu lý thuyết độ tƣơng tự, cách tính độ tƣơng tự từ với từ Nghiên cứu kho ngữ liệu, tƣợng từ đồng nghĩa Tìm hiều cách tách từ văn tiếng Việt Nghiên cứu phƣơng pháp tính độ tƣơng tự ngữ nghĩa văn dựa độ tƣơng tự từ với từ Kết cấu luận văn Nội dung luận văn gồm chƣơng: Chƣơng I: Khái niệm độ tƣơng tự Chƣơng II: Độ tƣơng tự từ-từ Chƣơng III: Độ tƣơng tự văn bản-văn Chƣơng IV: Tính độ tƣơng tự ngữ nghĩa văn dựa vào độ tƣơng tự từ với từ CHƢƠNG I KHÁI NIỆM ĐỘ TƢƠNG TỰ 1.1 Tổng quan độ tƣơng tự Nghiên cứu “sự tƣơng tự” (thƣờng dạng đối ngẫu “khoảng cách”) thuộc phạm vi tốn học, chẳng hạn lý thuyết tơpơ xấp xỉ; nhƣng khoa học máy tính ứng dụng máy tính có phần khác Trong khoa học máy tính, phép tính xấp xỉ thƣờng đƣợc sử dụng theo lối khơng có tính hệ thống (non-systematic) không theo thể thức (ad-hoc) Trong ngữ cảnh này, khái niệm “sự tƣơng tự” xuất nhiều dạng, diễn xuất, nhiều ứng dụng Khái niệm “sự tƣơng tự” có nhiều dạng khác Bất chấp khác biệt, chúng có điểm chung: “sự tƣơng tự” đƣợc sử dụng để so sánh hai (hay nhiều) đối tƣợng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều nguyên khác Ln có mục đích với phép so sánh nhƣ thế, hành động tiếp sau đƣợc thực cuối vấn đề phải đƣợc giải Vì lý đó, hai đối tƣợng đƣợc đem so sánh giữ vai trò khác Đối tƣợng thứ đƣợc xem xét đƣợc gọi vấn đề (problem) Đối tƣợng thứ hai biết lƣu; thƣờng đƣợc gọi mẫu (prototype) hay tình (case) “Sự tƣơng tự” đƣợc sử dụng cách gián tiếp trình giải vấn đề, bật phƣơng pháp dựa phép loại suy (Analogy), lập luận dựa theo tình (Case-Based Reasoning), nhận dạng mẫu (Pattern Recognition) Chúng có liên hệ với khơng có ranh giới rõ ràng phép loại suy phƣơng pháp khác Ở đây, chấp nhận quan điểm phép loại suy gắn với đối tƣợng thuộc nhiều lĩnh vực, CBR nhận dạng mẫu sử dụng độ tƣơng tự lĩnh vực Một khác biệt CBR phép loại suy CBR thƣờng (không phải luôn) xét đối tƣợng đƣợc mô tả theo ngôn ngữ mô tả thuật ngữ, phép loại suy xét lý thuyết hoàn toàn khác Dƣới số ngữ cảnh cần đến “sự tƣơng tự”: Lập luận dựa theo tình (CBR) cách tổng quát để giải vấn đề cách sử dụng kinh nghiệm trƣớc Những kinh nghiệm đƣợc ghi lại sở liệu gọi kho tình Ý tƣởng bên dƣới nhằm tái sử dụng kinh nghiệm là: “Nếu hai vấn đề tƣơng tự chúng có giải pháp tƣơng tự” CBR có giả định ln tồn kinh nghiệm Với điều kiện này, CBR đƣợc áp dụng cho hầu hết dạng ứng dụng Thƣờng có nhiều kinh nghiệm đƣợc lƣu trữ khía cạnh thiết yếu nhanh chóng tìm kinh nghiệm hữu ích (bài tốn thu hồi) Trong sở liệu (Databases), “sự tƣơng tự” có liên quan với tìm kiếm, có quan hệ với CBR Đa phần sở liệu cần so trùng xác Các phép đo độ tƣơng tự giữ vai trò số sở liệu đặc biệt nhƣ sở liệu không gian (spatial database) hay sở liệu địa lý (geodatabase) Nhận dạng mẫu (Pattern Recognition) vấn đề tổng quát, nghiên cứu vận hành thiết kế hệ thống nhận dạng mẫu liệu Vì mẫu nhƣ lúc giống hệt nhau, khái niệm “sự tƣơng tự” thƣờng đóng vai trị định Trong phân loại (Classification) phân tích cụm (Cluster Analysis), “sự tƣơng tự” đƣợc sử dụng để phân loại đối tƣợng: đối tƣợng tƣơng tự thuộc lớp/cụm, đối tƣợng không tƣơng tự thuộc lớp/cụm khác Trong diễn xuất hình ảnh (Image Interpretation), hình ảnh đƣợc diễn xuất theo ý nghĩa chúng chúng đƣợc so sánh với Ví dụ, ảnh y khoa thực tế ảnh khơng có bệnh lý đƣợc so sánh với nhau; độ tƣơng tự ảnh đƣợc sử dụng biết ảnh thực có chứa bệnh lý hay khơng Xác minh hình ảnh (Image Identification) thuộc lĩnh vực Trong tâm lý học nhận thức xã hội (Cognitive and Social Psychology), “sự tƣơng tự” chủ quan; ám thái độ, giá trị, sở thích, cá tính ngƣời tƣơng xứng mức độ Có nhiều dạng mơ hình tƣơng tự tâm lý học, bốn mơ hình bật hình học (geometric), đặc tính (featural), dựa canh lề (alignment-based), biến đổi (transformational) Trong lĩnh vực an ninh, quốc phòng để xác định đối tƣợng ảnh muốn xác định vân tay, kiểm tra băng đĩa mang nội dung cần kiểm soát,… Độ đo tƣơng tự phƣơng pháp tốt để máy tính phân biệt đƣợc văn qua nội dung chúng Xét khía cạnh đó, độ tƣơng tự lớn, hai văn giống nhiều 1.2 Khái niệm độ tƣơng tự Độ tƣơng tự khái niệm quan trọng đƣợc sử dụng rộng rãi Các định nghĩa trƣớc độ tƣơng tự đƣợc trói buộc ứng dụng cụ thể dạng thể tri thức Nhiều độ đo độ tƣơng tự đƣợc đƣa ra, chẳng hạn nhƣ nội dung thông tin (Resnik, 1995b), độ đo thông tin chung (mutual information – Hindle, 1990), độ đo 50 quan chức PCI , đủ sở kết luận ông Sĩ nhận 262.000 USD làm theo yêu cầu ngƣời đƣa hối lộ Vị công tố đề nghị tù chung thân bị cáo Sĩ Hai văn mặt nội dung khơng hồn tồn giống nhƣng có số từ bị lặp lại hai văn (các từ in đậm) Theo thực nghiệm máy ta có độ tƣơng tự hai văn bản: Sim(Text1, Text2) = 0.36826248198851375 Ví dụ 3: Văn 1: Huỳnh Ngọc Sĩ: “Cáo trạng hồn tồn khơng đúng” Ra trƣớc vành móng ngựa, bị cáo Huỳnh Ngọc Sĩ phản đối toàn nội dung cáo trạng Viện Kiểm sát nhân dân tối cao truy tố bị cáo nhận hối lộ Bƣớc vào phần thẩm vấn, Chủ tọa phiên tòa vừa hỏi Huỳnh Ngọc Sĩ, cáo trạng truy tố hay sai? Bị cáo Sĩ phản ứng gay gắt: "Tơi phản bác hồn tồn nội dung cáo trạng truy tố nhận hối lộ Việc đƣa nhận hối lộ lời khai cá nhân PCI; khơng có nhân chứng, chứng trực tiếp” Bị cáo Sĩ khẳng định: “Bốn vấn đề mà cáo trạng nêu tơi làm lợi cho PCI hồn tồn khơng đúng, quy kết tội cho tôi” Văn 2: Huỳnh Ngọc Sĩ: “Tơi khơng nhận hối lộ” (Dân trí) - “Việc PCI rút tiền từ ngân hàng Tokyo chi nhánh TPHCM, đem tiền từ Nhật qua trả lƣơng… không đồng nghĩa tiền hối lộ Tơi hồn tồn khơng nhận tiền hối hộ”, bị cáo Huỳnh Ngọc Sĩ liên tục “phản pháo” HĐXX Huỳnh Ngọc Sĩ nói: “Lời khai nhƣ không Tôi không tiếp phòng làm việc riêng hay thƣơng lƣợng với khách sạn cả” Suốt phiên tòa, bị cáo Sĩ khơng thừa nhận nhận “bơi trơn” số tiền 262.000 USD Sĩ khai khơng biết đến ơng Takasu Kunio, nguyên giám đốc điều hành PCI (ngƣời đƣợc xác định đƣa tiền hối lộ cho ông Sĩ) Bị cáo Sĩ giữ ngun quan điểm: “Khơng xác Không thật Không nhận…” Để làm rõ việc, quan điều tra cho quan chức PCI nhận dạng họ nhận hình vẽ sơ đồ phịng làm việc ơng Sĩ Bị cáo Sĩ quyết: “Việc PCI rút tiền từ ngân hàng Tokyo chi nhánh TPHCM, đem tiền từ Nhật qua trả lƣơng… không đồng nghĩa tiền hối lộ Tơi hồn tồn khơng nhận tiền hối hộ” Độ tƣơng tự hai văn bản: Sim(Text1, Text2) = 0.5206761702244165 51 Hai văn có số từ ngữ bị lặp lại không nhiều nhƣng mặt ý nghĩa chúng có điểm tƣơng đồng Độ tƣơng tự chúng 0.5206761702244165 phản ánh đƣợc phần nội dung Ví dụ Văn (Text 1): Bán chung cƣ Văn Phú Victoria-Hà Nội LH: 0943212996 Dự án nằm khu đô thị Văn Phú, quận Hà Đông, TP.Hà Nội, đƣợc tƣ vấn thiết kế giám sát công ty Nhật Bản với phong cách độc đáo, đại Khu vực: Q Hà Đông, Hà Nội Tổng diện tích: 94,1 Khởi cơng: 2009 Dự kiến hoàn thành: 2012 Trạng thái dự án: Đang thi công Chủ đầu tƣ: Công ty cổ phần đầu tƣ Văn Phú-invest + Căn hộ 95,3m2: 01 Phòng khách, 01 bếp, 01 Phòng ăn, 02 Phòng ngủ, 02 phòng WC + Căn hộ 116,2 m2: 01 Phòng khách, 01 Phòng bếp, 01 Phòng ăn, 02 Phòng ngủ, 02 Phòng WC + Căn hộ 117m2: 01 Phòng khách, 01 bếp, 01 Phòng ăn 03 Phòng ngủ, 02 Phòng WC Hiện tơi có tầng 23, 24 với đủ loại S Giá bán hợp lí Văn (Text 2): Bán hộ chung cƣ dự án văn phú victoria- diện tích 95m2 giá 19.7tr DỰ ÁN VĂN PHÚ VICTORIA Dự án nằm khu đô thị Văn Phú, quận Hà Đông, TP.Hà Nội, đƣợc tƣ vấn thiết kế giám sát công ty Nhật Bản với phong cách độc đáo, đại Khu vực: Q Hà Đơng, Hà Nội Loại hình: Chung cƣ/Căn hộ cao cấp Tổng diện tích: 94,1 Khởi cơng: 2009 52 Dự kiến hồn thành: 2012 Trạng thái dự án: Đang thi công Chủ đầu tƣ: Công ty cổ phần đầu tƣ Văn Phú-invest + Căn hộ 95,3m2: 01 Phòng khách, 01 bếp, 01 Phòng ăn, 02 Phòng ngủ, 02 phòng WC + Căn hộ 116,2 m2: 01 Phòng khách, 01 Phòng bếp, 01 Phòng ăn, 02 Phòng ngủ, 02 Phòng WC + Căn hộ 117m2: 01 Phòng khách, 01 bếp, 01 Phòng ăn 03 Phòng ngủ, 02 Phòng WC Độ tƣơng tự hai văn bản: Sim(Text1, Text2) = 0.81338799771947 Hai văn có nhiều từ giống nhau, chúng khác số chỗ: dòng dòng cuối hai văn Các từ ngữ câu cuối văn (các từ in nghiêng) không xuất văn Và độ tƣơng tự tính đƣợc theo cơng thức 0.81338799771947 Tuy nhiên, ta cần ý đến trƣờng hợp văn tài liệu có cấu trúc, khn dạng định Chắc chắn chúng có nhiều từ giống nhƣng mặt nội dung lại khác nhau, chẳng hạn: Văn (Text 1): Khu vực: Đan Phƣợng, Hà Nội Tổng diện tích: 80 Khởi cơng: 2007 Dự kiến hồn thành: 2010 Trạng thái dự án: Đã thi công xong Chủ đầu tƣ: Công ty TNHH Sơn Hà + Căn hộ 70 m2: 01 Phòng khách, 01 bếp, 02 Phòng ngủ, 01 phòng WC + Căn hộ 80 m2: 01 Phòng khách, 01 Phòng bếp, 01 Phòng ăn, 02 Phòng ngủ, 01 Phòng WC Văn (Text 2): Khu vực: Hà Đông, Hà Nội Tổng diện tích: 99 Khởi cơng: 2010 53 Dự kiến hoàn thành: 2012 Trạng thái dự án: Đang thi công Chủ đầu tƣ: Công ty xây dựng Hà Nhung Căn hộ 100 m2: 01 Phòng khách, 01 Phòng bếp, 01 Phòng ăn, 02 Phòng ngủ, 02 Phòng WC Độ tƣơng tự hai văn bản: Sim(Text1, Text2) = 0.9442956354090183 Nhƣ độ đo chƣa đƣợc xác hai văn có nhiều từ giống nhƣng thực tế lại khác Ví dụ 5: Văn 1: Lúc 12h55 hơm (giờ Hà Nội), lễ khai mạc Đại hội Toán học giới tổ chức Hyderabad, Ấn Độ, bà Pratibha Patil - Tổng thống Ấn Độ trao huy chƣơng Fields - giải thƣởng cao quý lĩnh vực tốn học cho GS Ngơ Bảo Châu Văn 2: Tại Hyderabad, Ấn Độ, Tổng thống Ấn Độ, bà Pratibha Patil trao huy chƣơng Fields - giải thƣởng toán học cao quý giới – cho giáo sƣ Ngô Bảo Châu lúc 12:55 hôm (giờ Hà Nội) Hai văn giống nhau, chúng khác thứ tự xuất từ câu có số từ (in nghiêng) xuất văn mà khơng có văn Theo thực nghiệm máy: Độ tƣơng tự hai văn bản: Sim(Text1, Text2) = 0.9256739306748865 Ví dụ 6: Văn (Text 1): Sáng 28/8, máy bay chở giáo sƣ Ngô Bảo Châu, ngƣời vừa giành giải thƣởng Fields dự kiến hạ cánh xuống sân bay Nội Bài Các hoạt động chào mừng, đón tiếp trọng thị đƣợc Chính phủ gấp rút chuẩn bị Văn (Text 2): Sáng 28/8, phi chở giáo sƣ Ngô Bảo Châu, ngƣời vừa đoạt giải thƣởng Fields dự định hạ cánh xuống phi trƣờng Nội Bài Các hoạt động chào mừng, tiếp đón trọng thị đƣợc Chính phủ gấp rút chuẩn bị Độ tƣơng tự hai văn bản: Sim(Text1, Text2) = 0.996660325250488 54 Trong ví dụ này, hai văn khác hai cặp từ: Cặp thứ nhất: Văn dùng từ “máy bay” văn dùng từ “phi cơ” Cặp thứ hai: Văn dùng từ “ đón tiếp” cịn văn dùng từ “tiếp đón” Tuy nhiên, lại cặp từ đồng nghĩa tập từ đồng nghĩa “Same Meaning” Do độ tƣơng tự chúng 0.996660325250488 3.4.2 Kết thử nghiệm 3.4.2.1 Cách tiến hành Để đánh giá độ tƣơng tự tài liệu, sử dụng phƣơng pháp: Phƣơng pháp 1: Con ngƣời đánh giá Tập tài liệu đƣợc giao cho nhóm gồm ngƣời địa điểm khác Họ có nhiệm vụ đọc nội dung đánh giá độ tƣơng tự hai tài liệu dựa cảm tính Phƣơng pháp 2: Thực nghiệm máy 3.4.2.2 Kết thử nghiệm Chúng tiến hành thử nghiệm dựa hai tập liệu: tập văn tin tức Internet tập tin rao vặt Internet Tập liệu 1: Tập gồm 20 văn gồm tin tức số trang Web: Địa tài liệu nhƣ sau: Địa File http://vietbao.vn/An-ninh-Phap-luat/Huynh-Ngoc-Si-Toi-bi-vucao/11186417/218/ http://vnexpress.net/GL/Phap-luat/2010/10/3BA21A71/ http://dantri.com.vn/c20/s20-429715/huynh-ngoc-si-phan-bactoan-bo-noi-dung-cao-trang.htm http://cand.com.vn/vi-VN/phapluat/2010/10/138468.cand http://m.tuoitre.vn/news/detail?id=11318 http://www.tienphong.vn/Phap-Luat/515536/Xet-xu-ong-HuynhNgoc-Sy-nhan-hoi-lo-tien-ti.html http://www.baodatviet.vn/Home/phapluat/Huynh-Ngoc-Si-caotrang-hoan-toan-khong-dung/201010/115255.datviet 55 http://tintuc.xalo.vn/001341775005/ong_si_lien_tiep_khang_dinh_khong_nhan_hoi_lo_t u_pci.html http://dantri.com.vn/c20/s20-429799/huynh-ngoc-si-toi-khongnhan-hoi-lo.htm 10 http://dantri.com.vn/c20/s20-430246/huynh-ngoc-si-bi-ket-an-tuchung-than.htm 11 http://vnexpress.net/GL/Phap-luat/2010/10/3BA21B52/ 12 http://vnexpress.net/GL/Phap-luat/2010/10/3BA21AD7/ 13 http://vnexpress.net/GL/Phap-luat/2010/10/3BA21BEA/ 14 15 16 http://vietbao.vn/An-ninh-Phap-luat/Huynh-Ngoc-Si-Dung-suydien-de-ket-an-toi/11186642/218/ http://www.cand.com.vn/vi-VN/phapluat/2010/10/138538.cand http://nld.com.vn/20101016030227409P0C1019/ong-si-buc-xucvoi-de-nghi-tu-chung-than-cua-vks.htm 17 http://nld.com.vn/2010101609292553P0C1019/ong-huynh-ngocsi-bi-de-nghi-tu-chung-than.htm 18 http://nld.com.vn/20101017013426629P0C1019/de-nghi-ong-situ-chung-than.htm 19 http://nld.com.vn/2010101612063396P0C1019/ong-si-phan-baccao-trang.htm 20 http://vietbao.vn/An-ninh-Phap-luat/Nhan-an-chung-than-ong-Sicon-bi-dieu-tra-bo-tui-2-trieu-USD/11186794/218/ Bảng 4: Địa 20 tin tức số trang Web Chẳng hạn ta có kết đánh giá độ tƣơng tự ngữ nghĩa hai file tổng số tài liệu có địa đƣợc nêu nhƣ sau: File File Ngƣời đánh giá Thực nghiệm máy 13 15 0.4 0.21854826011617284 0.4 0.24008952428716562 13 17 0.3 0.29548872180126395 0.2 0.3297415587214319 0.4 0.364800386307795 0.5 0.39024157344076293 0.4 0.4247928748969288 0.5 0.4621222286840157 56 13 19 0.6 0.500689564972599 10 19 0.6 0.5501094543011812 10 15 0.7 0.5768032097459137 0.7 0.5912167395883572 15 16 0.7 0.6367496647525064 0.8 0.6504860662096876 15 18 0.6 0.6749330889903177 0.6 0.702918830317079 0.6 0.7650383060856087 16 18 0.9 0.863923370318344 0.9 0.9279451135471808 13 20 0.9 0.9523695076604557 11 14 1.0 0.9706441434356016 Bảng 5: Một số kết độ tƣơng tự hai file Kết độ tƣơng tự 20 tin tức nhƣ sau: Độ tƣơng tự Ngƣời đánh giá Thực nghiệm máy 0.0-0.3 7,1% 8% 0.3-0.5 50% 56% 0.5-0.7 32,5% 30% 0.7-0.8 4% 2% 0.8-1.0 6,4% 4% Bảng 6: Kết đánh giá 20 tin tức ngƣời máy thực Tập gồm 30 tin rao vặt số trang web: File 30 31 32 33 Đƣờng dẫn http://www.raovat.vn/mua-ban-nha-dat/raovat-403716128-ba-ncccc-du-a-n-van-phu-victoria.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403717095-banmat-san-chung-cu-victoria-van-phu-gia-hop-ly-d.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403713047-banchung-cu-van-phu-victoria-ha-dong.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403682192-bancan-ho-chung-cu-victoria-van-phu-du-an-van-phu.html 34 http://www.raovat.vn/mua-ban-nha-dat/raovat-403695330-bancan-ho-chung-cu-du-an-van-phu-victoria-dien-ti.html 35 http://www.raovat.vn/mua-ban-nha-dat/raovat-403701394-van- 57 phu-victoria-chung-cu-van-phu-victoria-can-ho-.html 36 http://www.raovat.vn/mua-ban-nha-dat/raovat-403717095-banmat-san-chung-cu-victoria-van-phu-gia-hop-ly-d.html 37 http://www.raovat.vn/mua-ban-nha-dat/raovat-403696872-banchcc-van-phu-toa-v1-gia-hap-dan.html 38 39 40 41 42 43 44 45 46 47 48 49 http://www.raovat.vn/mua-ban-nha-dat/raovat-403704630-canban-mot-so-can-ho-chung-cu-van-phu-gia-chi-19-.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403715227-canban-mot-so-can-ho-chung-cu-van-phu-victoria.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403675585-ban-casan-victoria-van-phu-pm-gap-de-co-xuat-vip.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403676457-ban-casan-victoria-van-phu-pm-gap-de-co-xuat-vip.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403686663-ban-casan-victoria-van-phu-pm-som-de-co-suat-vip.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403687192-banchung-cu-van-phu.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403703049-banchcc-the-van-phu-victoria-dt-95-112-114-116m2.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403708123-banchcc-the-van-phu-victoria-dt-95-112-114-116m2.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403706386-banchcc-the-van-phu-victoria-dt-95-112-114-116m2.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403713504-chccthe-van-phu-victoria-dt-95-112-114-116m2.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403672389-canban-chcc-cao-cap-van-phu-victoria.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403707123-bancan-ho-toa-v1-tang-25-van-phu-victoria-gia-hap.html 31.2 http://www.chophien.com/raovat/312/0347100034/ban-ca-sanchung-cu-victoria-van-phu-gia-hop-ly-de-dau-tu.html 31.3 http://chutin.vn/rao-vat/raovat-296790/Ban-mat-san-chung-cuVictoria-Van-Phu-gia-hop-ly-de-dau-tu/ 31.4 http://www.dathanoi.vn/rv-93353-Ban-mat-san-chung-cuVictoria-Van-Phu-gia-hop-ly-de-dau-tu-.aspx 58 31.1 http://dothidiaoc.com/dang-tin-nhanh/chi-tiet-rao-vat/9322-banmat-san-chung-cu-victoria-van-phu-gia-dau-tu-hop-ly.html http://www.ketnoisunghiep.vn/ca-m-nang-ve-bat-dong- 45.2 31.5 san/426918-chung-cu-victoria-van-phu-ban-chung-cu-victoriavan-phu-gia-tan-goc.html http://nhadat24h.net/ban-mat-san-chung-cu-victoria-van-phu-giahop-ly-de-dau-tu_nhadat_453099.html http://www.vatgia.com/raovat/2589/2253589/ban-chung-cu-van- 45.4 phu-victoria-hop-dong-mua-ban-ky-truc-tiep-voi-chu-dau-tu-vanphu.html http://dothidiaoc.com/dang-tin-nhanh/chi-tiet-rao-vat/9258-ban- 31.6 can-ho-chung-cu-van-phu-victoria-mat-duong-le-trong-tan-hadong.html 34.2 45.5 http://nhaxuong.info/Ban-chung-cu-Van-Phu-Victoria-Ha-NoiLH-0943212996_ct_315_329_49304.html http://www.olo.vn/phan-phoi-truc-tiep-chcc-van-phu-victoria-hadong-ha-noi_239487.html Bảng : Địa 30 tin rao vặt trang Web Chẳng hạn, ta có kết đánh giá độ tƣơng tự ngữ nghĩa hai file tổng số tài liệu có địa đƣợc nêu nhƣ sau: File File Ngƣời đánh giá Thực nghiệm máy 30 31 0.2 0.1803928043669246 30 32 0.3 0.22729548824950685 32 45 0.4 0.30131825570777804 31 35 0.5 0.39584680154364466 32 41 0.4 0.35723495843515396 35 40 0.5 0.41281163798540266 33 49 0.5 0.4068277476149962 35 44 0.5 0.46324307697851314 31 31.1 0.7 0.5434409876505986 31 32 0.7 0.5648842497068653 31 49 0.7 0.5986671401506345 31.2 31.4 0.8 0.7218152893172625 34 34.2 0.8 0.730738545382498 31 31.3 0.8 0.7524554191092057 59 31.4 31.5 0.7 0.7678131794193516 31 31.5 0.7 0.7709166198966455 45.2 45.5 0.9 0.816320701810267 45 45.5 0.8 0.8269217971769109 31 31.2 0.8 0.8363616108745437 31 36 0.9 0.8442095726950841 31 31.4 0.9 0.8820081596174592 47 48 0.9 0.9136847762796279 46 48 0.9 0.9305040433572069 31.2 31.5 0.9 0.9513246926537497 31.3 31.5 0.9 0.9763033925759392 41 42 0.9 0.9747493335469556 40 42 0.9 0.9747493335469556 40 41 1.0 1.0 45 46 1.0 1.0 Bảng 8: Một số kết độ tƣơng tự hai tin rao vặt Kết độ tƣơng tự 30 tin rao vặt nhƣ sau: Độ tƣơng tự Ngƣời đánh giá Thực nghiệm máy 0.0-0.3 52,3% 49,6% 0.3-0.5 30% 34,6% 0.5-0.7 4,4% 3,8% 0.7-0.8 3,1% 3,8% 0.8-1.0 10,2% 8,2% Bảng 9: Kết đánh giá 30 tin rao vặt ngƣời máy thực 3.4.3 Đánh giá Sau tiến hành thử nghiệm chƣơng trình số ví dụ cụ thể, chúng tơi có số nhận xét sau: Trƣờng hợp 1: Độ tƣơng tự lớn, hai văn giống tƣơng đối nhiều Trƣờng hợp 2: Độ tƣơng tự cực nhỏ, hai văn khác hoàn toàn Trƣờng hợp 3: Hai văn có độ tƣơng tự tƣơng đối thấp, phần lớn khác Trƣờng hợp 4: Độ tƣơng tự lớn hai văn khơng hồn tồn giống nhƣng có nhiều cặp từ tƣơng đồng với nghĩa 60 Chƣơng trình chạy có hiệu với cặp văn giống nhiều, khác nhiều Tuy nhiên, cịn nhiều trƣờng hợp chƣơng trình cho kết khơng đƣợc xác, chẳng hạn: Trƣờng hợp 1: Xét hai đoạn văn ngắn sau: Văn 1(Text 1): Nó bảo cậu khơng đến? Văn (Text 2): Nó đến cậu khơng bảo? Kết quả: Sim(text1,text2) = 1.0 Hai văn có từ giống hoàn toàn nhƣng thứ tự từ bị đảo lộn Ở văn thứ nhất, động từ “bảo”, văn thứ hai, động từ “đến” Xét mặt ý nghĩa ngơn ngữ tiếng Việt, hai văn khác nhƣng chƣơng trình cho độ tƣơng tự 1.0 Đây điều luận văn chƣa làm đƣợc Chƣơng trình tính đƣợc độ tƣơng tự hai văn bản, nhiên lại chƣa xét đến cấu trúc từ, câu, từ loại từ,… Trƣờng hợp 2: Xét hai đoạn văn ngắn sau: Văn 1(Text 1): Tôi sở hữu loài gia cầm Văn (Text 2): Tơi có gà Kết quả: Sim(text1, text2) = 0.1297 Hai văn có mối quan hệ với nhau, quan hệ cụ thể trừu tƣợng Xét mặt phƣơng pháp, chƣơng trình hồn tồn tính đƣợc độ tƣơng đồng hai văn dựa vào mối quan hệ từ “sở hữu” với từ “có”, từ “gia cầm” với từ “con gà” Tuy nhiên, kết thu đƣợc lại thấp: Sim(text1, text2) = 0.1297 Nguyên nhân cặp từ chƣa có tập từ đồng nghĩa “Same Meaning” 61 KẾT LUẬN Độ đo độ tƣơng tự văn tính xác độ đo tốt để xác minh việc chép tài liệu, cịn áp dụng cho hệ thống tìm kiếm thơng tin,…Lí nguồn tài liệu Internet nhiều, việc nội dung loại tin tức bị trùng lặp điều tránh khỏi Trong luận văn này, nghiên cứu, tìm hiều tốn cụ thể thực tế tính tốn độ tƣơng tự ngữ nghĩa văn dựa vào độ tƣơng tự từ với từ Luận văn đạt đƣợc yêu cầu ban đầu đề việc nghiên cứu, tìm hiều tốn Những nội dung cơng việc đạt đƣợc: Tìm hiều khái niệm độ tƣơng tự, độ tƣơng tự mặt ngữ nghĩa Nghiên cứu phƣơng pháp tách từ văn bản, cài đặt thành công việc tách từ dựa vào từ điển có sẵn Tìm hiều cách tính độ tƣơng tự từ với từ (dựa sở tri thức dựa kho ngữ liệu) Trên sở tính tốn độ tƣơng tự từ-từ, luận văn xây dựng đƣợc hệ thống tính độ tƣơng tự hai tệp văn nội dung hai trang web site VnExpress.net, Dantri.com Mặc dù ứng dụng đạt đƣợc yêu cầu tìm hiểu đƣợc vấn đề ban đầu đặt luận văn nhƣng thời gian có hạn nên hệ thống dừng lại việc tính độ tƣơng tự văn dựa độ tƣơng tự từ-từ đơn giản mà chƣa xét đến từ loại từ, thứ tự từ câu Hơn nữa, tập từ kho ngữ liệu hạn chế, số lƣợng từ đồng nghĩa ít,… Hệ thống xây dựng đƣợc đƣợc sử dụng việc học tập, nghiên cứu cho sinh viên nhƣ giáo viên có nhu cầu 62 HƢỚNG PHÁT TRIỂN Chƣơng trình đƣợc xây dựng vận hành tƣơng đối tốt nhƣng nhiều hạn chế, cần tiếp tục hiệu chỉnh để chƣơng trình chạy tốt Tiếng Việt phong phú nên cần xây dựng kho ngữ liệu tập từ đồng nghĩa lớn Một số vấn đề kỹ thuật phân tích cú pháp, gán nhãn từ loại hay thứ tự từ câu,… cần đƣợc nghiên cứu, hoàn thiện để nâng cao kết tính tốn 63 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Thanh Hùng, Hƣớng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet Trần Cao Đệ, Đo độ tƣơng tự ngữ nghĩa tiềm ẩn để phát việc chép tài liệu Đỗ Phúc, Đỗ Hoàng Cƣờng, Nguyễn Tri Tuấn, Huỳnh Thụy Bảo Trân, Nguyễn Văn Khiết, Nguyễn Việt Hoàng, Nguyễn Việt Thành, Phạm Phú Hội, Dƣơng Ngọc Long Nam, Nguyễn Phƣớc Thanh Hải, Phát triển hệ thống S.E hỗ trợ tìm kiếm thơng tin, thuộc lãnh vực CNTT Internet qua từ khóa tiếng Việt Tiếng Anh Rada Mihalcea, Courtey Corley, Carlo Strapparava, Corpus-based and Knowledgebased Measures of Text Semantic Similarity, in Proceedings of the American Association for Artificial Intelligence (AAAI 2006), Boston, July 2006 Michael Mohler and Rada Mihalcea, Text-to-text Semantic Similarity for Automatic Short Answer Grading, in Proceedings of the European Chapter of the Association for Computational Linguistics (EACL 2009), Athens, Greece, March 2009 Rada Mihalcea, Word Sense Disambiguation, Encyclopedia of Machine Learning, Springer, 2007 Ravi Sinha and Rada Mihalcea, Unsupervised Graph-based Word Sense Disambiguation Using Measures of Word Semantic Similarity, in Proceedings of the IEEE Internation Conference on Semantic Computing (ICSC 2007), Irvine, CA, September 2007 Courtney Corley, Andras Csomai and Rada Mihalcea, A knowledge-based Approach to Text-to-Text Similarity, book chapter in Current Issues in Linguistic Theory: Recent Advances in Natural Language Processing, Editors Nicolas Nicoloev and Ruslan Mitkov, John Benjamins Publishers, 2006 Courtney Corley and Rada Mihalcea, Measures of Text Semantic Similarity, in Proceedings of the ACL workshop on Empirical Modeling of Semantic Equivalence, An Arbor, MI, June 2005 10 Lei Shi and Rada Mihalcea, An Algorithm for Open Text Semantic Parsing, in Proceedings of the ROMAND 2004 workshop on “Robust Methods in Analysis of Natural language Data”, Geneva, Switzerland, August 2004 64 11 Dekang Lin, An Information-Theoretic Definition of Similarity 12 Peter D.Turney, Mining The Web for Synonyms: PMI-IR versus LSA on TOEFL Internet 13 http://www.java.sun.com 14 http://www.sinhvienit.net 15 http://www.codeprovn.com 16 http://www.ngonngu.net 17 http://vi.wikipedia.org 18 http://www.wapedia.mobi 19 http://www.pcworld.com.vn 20 http://www.cse.unt.edu