Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
1,31 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - Đỗ Thị Thanh Nga TÍNH TỐN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ LUẬN VĂN THẠC SĨ HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Trước tiên, xin bày tỏ trân trọng lòng biết ơn TS Nguyễn Phương Thái, giảng viên Bộ môn Khoa học máy tính - Khoa Cơng nghệ thơng tin Trường Đại học Công nghệ - ĐHQGHN Trong thời gian làm luận văn tốt nghiệp, thầy dành nhiều thời gian q báu tận tình bảo, hướng dẫn tơi việc nghiên cứu, thực luận văn Tôi xin cảm ơn GS, TS giảng dạy trình học tập làm luận văn Các thầy giúp hiểu thấu đáo lĩnh vực mà nghiên cứu để vận dụng kiến thức vào cơng tác Xin cảm ơn bạn bè, đồng nghiệp thành viên gia đình tạo điều kiện tốt nhất, động viên, cổ vũ suốt q trình học tập nghiên cứu để hồn thành tốt luận văn tốt nghiệp Tuy có cố gắng định thời gian trình độ có hạn nên chắn luận văn cịn nhiều thiếu sót hạn chế Kính mong nhận góp ý thầy bạn Hà Nội, ngày 20 tháng 09 năm 2010 Học viên Đỗ Thị Thanh Nga LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi xin cam đoan rằng, cơng trình nghiên cứu tơi có giúp đỡ lớn thầy hướng dẫn đồng nghiệp quan Các nội dung nghiên cứu kết đề tài hồn tồn trung thực Trong luận văn, tơi có tham khảo đến số tài liệu số tác giả liệt kê phần Tài liệu tham khảo cuối luận văn Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 20 tháng 09 năm 2010 Học viên Đỗ Thị Thanh Nga LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƯƠNG I KHÁI NIỆM ĐỘ TƯƠNG TỰ 1.1 Tổng quan độ tương tự 1.2 Khái niệm độ tương tự 1.2.1 Định nghĩa độ tương tự (Definition of Similarity) 1.2.2 Độ tương tự giá trị có thứ tự ưu tiên (ordinal values) 1.2.3 Độ tương tự chuỗi (String Similarity-A case study) 1.3 Độ tương tự ngữ nghĩa 10 CHƯƠNG II ĐỘ TƯƠNG TỰ TỪ-TỪ 11 2.1 Khái niệm từ, thuật ngữ 11 2.1.1 Từ cấu trúc từ tiếng Việt 11 2.1.1.1 Định nghĩa từ 11 2.1.1.2 Cấu trúc từ tiếng Việt 11 2.1.2 Nghĩa từ 12 2.1.3 Thuật ngữ (terms) 12 2.2 Từ đồng nghĩa 12 2.3 Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa 14 2.3.1 Dựa trí tuệ nhân tạo (AI-based) 14 2.3.2 Dựa Cơ sở tri thức (Knowledge-based) 14 2.3.3 Dựa ngữ liệu (Corpus-based) 14 2.4 Độ tương tự ngữ nghĩa từ-từ dựa sở tri thức (từ điển WordNet) 15 2.4.1 Khái quát từ điển WordNet 15 2.4.2 Độ tương tự từ-từ dựa từ điển WordNet 16 2.5 Độ tương tự ngữ nghĩa từ-từ dựa ngữ liệu 17 2.5.1 PMI (Pointwise Mutual Information) (Thông tin chung dựa điểm) 18 2.5.2 LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn) 18 2.5.3 Phương pháp Dekang Lin 18 CHƯƠNG III ĐỘ TƯƠNG TỰ VĂN BẢN-VĂN BẢN 21 3.1 Xử lý văn tiếng Việt 21 3.1.1 Một số kết đạt 21 3.1.2 Đặc trưng cấu trúc ngữ pháp tiếng Việt 23 3.2 Tách từ văn tiếng Việt 23 3.3 Các hướng tiếp cận tách từ 24 3.3.1 Các hướng tiếp cận dựa “từ” 24 3.3.2 Các hướng tiếp cận dựa ký tự 25 3.4 Một số phương pháp tách từ tiếng Việt 26 3.4.1 Phương pháp Maximum Matching: Forward/Backward 26 3.4.2 Phương pháp Transformation-based Learning (TBL) 27 3.4.3 Mơ hình tách từ WFST mạng Neural 27 3.4.3.1 Tầng WFST 27 3.4.3.2 Tầng mạng Neural 28 3.4.4 Phương pháp tách tách từ tiếng Việt dựa thống kê từ Internet thuật giải di truyền 28 3.4.4.1 Online Extractor 28 3.4.4.2 GA Engine for Text Segmentation 29 3.4.5 Nhận xét 29 3.5 Độ tương tự văn bản-văn 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG IV TÍNH ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ 33 3.1 Phát biểu toán 33 3.2 Giải toán 33 3.2.1 Chuẩn bị liệu 33 3.2.2 Tách từ: Tách văn thành từ ghép danh từ riêng 36 3.2.2.1 Tách từ ghép văn 36 3.2.2.2 Tách danh từ riêng văn 39 3.2.3 Tính tốn độ tương tự văn 41 3.3 Xây dựng hệ thống 44 3.3.1 Nhập trực tiếp văn 45 3.3.2 Nhập văn từ file 46 3.3.3 Lấy nội dung văn từ URL 47 3.4 Kết thử nghiệm đánh giá 48 3.4.1 Một số ví dụ cụ thể 48 3.4.2 Kết thử nghiệm 54 3.4.2.1 Cách tiến hành 54 3.4.2.2 Kết thử nghiệm 54 3.4.3 Đánh giá 59 KẾT LUẬN 61 HƯỚNG PHÁT TRIỂN 62 TÀI LIỆU THAM KHẢO 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC BẢNG Bảng Trang Bảng Tần suất xuất độ dài từ tiếng Việt trang Vdict.com 11 Bảng Mô tả ba từ “giàu” 19 Bảng Các điểm khác biệt tiếng Việt tiếng Anh 24 Bảng Địa 20 tin tức số trang Web 54 Bảng Một số kết độ tương tự hai file 55 Bảng Kết đánh giá 20 tin tức người máy thực 56 Bảng Địa 30 tin rao vặt trang Web 56 Bảng Một số kết độ tương tự hai tin rao vặt 58 Bảng Kết đánh giá 30 tin rao vặt người máy thực 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Hình Ví dụ phân phối giá trị có thứ tự ưu tiên Trang Hình Một phần từ điển WordNet 16 Hình Các hướng tiếp cận việc tách từ 24 Hình Một phần từ điển Dict 34 Hình Danh sách số file kho ngữ liệu xử lý 34 Hình Một phần từ điển từ ghép 35 Hình Một phần từ điển CompoundDict 35 Hình Giao diện hệ thống 45 Hình Giao diện cho phép nhập trực tiếp hai văn 45 Hình 10 Giao diện kết độ tương tự sau nhập hai văn 46 Hình 11 Giao diện nhập hai văn từ file 46 Hình 12 Giao diện kết sau nhập hai văn từ file 47 Hình 13 Giao diện tính độ tương tự nội dung hai trang Web 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Tính cấp thiết đề tài Trong thời đại công nghệ số nay, nguồn tài liệu vô phong phú Việc “sao chép tài liệu” theo nghĩa tiêu cực đạo văn, chép luận án, luận văn, đồ án trở nên phổ biến vấn nạn Ở qui mô rộng hơn, thư viện điện tử ngày nhiều, tài liệu phát hành internet nhiều lần thư viện điện tử khác nhau, trang web khác Làm để phát chép tài liệu theo nghĩa tiêu cực? Làm ngăn chặn việc chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ đề nghiên cứu từ khoảng 10 năm qua Hiện tại, có số giải pháp cho việc phát chép vài công cụ phần mềm cho phép phát tài liệu (gọi văn kiểm tra) có chép từ tập hợp tài liệu nguồn hay không Tập hợp tài liệu nguồn đóng- tức tài liệu tập hợp trước thư viện điện tử- mở, chẳng hạn tập tài liệu văn internet Đã có số nghiên cứu đề xuất phương pháp khác để xác định xem đoạn văn tài liệu có nằm tài liệu khác hay khơng Các phương pháp chủ yếu dựa tìm kiếm so khớp chuỗi Tuy nhiên, phương pháp so khớp chuỗi có hiệu việc chép “nguyên văn” Do yêu cầu cấp bách đặt làm để phát việc chép có sửa đổi đơi chút thay số từ từ đồng nghĩa hay thay đổi thứ tự câu văn Chính vậy, đề tài “Tính tốn độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ” chọn làm đề tài luận văn tốt nghiệp Mục tiêu luận văn Vận dụng phương pháp tính độ tương tự từ với từ để tính độ tương đồng ngữ nghĩa hai văn giúp phát văn có chép từ văn hay không Đối tượng nhiệm vụ luận văn Đối tượng: Tập văn liệu mẫu Tập tài liệu Internet LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nhiệm vụ: Luận văn tập trung vào tính độ tương tự ngữ nghĩa văn dựa tập ngữ liệu có sẵn Trong có tận dụng tối đa đặc điểm kho ngữ liệu, đến độ tương tự từ với từ tập từ đồng nghĩa Phương pháp nội dung nghiên cứu Nghiên cứu lý thuyết độ tương tự, cách tính độ tương tự từ với từ Nghiên cứu kho ngữ liệu, tượng từ đồng nghĩa Tìm hiều cách tách từ văn tiếng Việt Nghiên cứu phương pháp tính độ tương tự ngữ nghĩa văn dựa độ tương tự từ với từ Kết cấu luận văn Nội dung luận văn gồm chương: Chương I: Khái niệm độ tương tự Chương II: Độ tương tự từ-từ Chương III: Độ tương tự văn bản-văn Chương IV: Tính độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG I KHÁI NIỆM ĐỘ TƯƠNG TỰ 1.1 Tổng quan độ tương tự Nghiên cứu “sự tương tự” (thường dạng đối ngẫu “khoảng cách”) thuộc phạm vi toán học, chẳng hạn lý thuyết tơpơ xấp xỉ; khoa học máy tính ứng dụng máy tính có phần khác Trong khoa học máy tính, phép tính xấp xỉ thường sử dụng theo lối khơng có tính hệ thống (non-systematic) không theo thể thức (ad-hoc) Trong ngữ cảnh này, khái niệm “sự tương tự” xuất nhiều dạng, diễn xuất, nhiều ứng dụng Khái niệm “sự tương tự” có nhiều dạng khác Bất chấp khác biệt, chúng có điểm chung: “sự tương tự” sử dụng để so sánh hai (hay nhiều) đối tượng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều ngun khác Ln có mục đích với phép so sánh thế, hành động tiếp sau thực cuối vấn đề phải giải Vì lý đó, hai đối tượng đem so sánh giữ vai trò khác Đối tượng thứ xem xét gọi vấn đề (problem) Đối tượng thứ hai biết lưu; thường gọi mẫu (prototype) hay tình (case) “Sự tương tự” sử dụng cách gián tiếp trình giải vấn đề, bật phương pháp dựa phép loại suy (Analogy), lập luận dựa theo tình (Case-Based Reasoning), nhận dạng mẫu (Pattern Recognition) Chúng có liên hệ với khơng có ranh giới rõ ràng phép loại suy phương pháp khác Ở đây, chấp nhận quan điểm phép loại suy gắn với đối tượng thuộc nhiều lĩnh vực, CBR nhận dạng mẫu sử dụng độ tương tự lĩnh vực Một khác biệt CBR phép loại suy CBR thường (không phải luôn) xét đối tượng mô tả theo ngôn ngữ mô tả thuật ngữ, phép loại suy xét lý thuyết hoàn toàn khác Dưới số ngữ cảnh cần đến “sự tương tự”: Lập luận dựa theo tình (CBR) cách tổng quát để giải vấn đề cách sử dụng kinh nghiệm trước Những kinh nghiệm ghi lại sở liệu gọi kho tình Ý tưởng bên nhằm tái sử dụng kinh nghiệm là: “Nếu hai vấn đề tương tự chúng có giải pháp tương tự” CBR có giả định tồn kinh nghiệm Với điều kiện này, CBR áp dụng cho hầu hết dạng ứng dụng Thường có nhiều kinh nghiệm lưu trữ khía cạnh thiết yếu nhanh chóng tìm kinh nghiệm hữu ích (bài tốn thu hồi) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 50 quan chức PCI , đủ sở kết luận ông Sĩ nhận 262.000 USD làm theo yêu cầu người đưa hối lộ Vị công tố đề nghị tù chung thân bị cáo Sĩ Hai văn mặt nội dung khơng hồn tồn giống có số từ bị lặp lại hai văn (các từ in đậm) Theo thực nghiệm máy ta có độ tương tự hai văn bản: Sim(Text1, Text2) = 0.36826248198851375 Ví dụ 3: Văn 1: Huỳnh Ngọc Sĩ: “Cáo trạng hồn tồn khơng đúng” Ra trước vành móng ngựa, bị cáo Huỳnh Ngọc Sĩ phản đối toàn nội dung cáo trạng Viện Kiểm sát nhân dân tối cao truy tố bị cáo nhận hối lộ Bước vào phần thẩm vấn, Chủ tọa phiên tòa vừa hỏi Huỳnh Ngọc Sĩ, cáo trạng truy tố hay sai? Bị cáo Sĩ phản ứng gay gắt: "Tơi phản bác hồn tồn nội dung cáo trạng truy tố nhận hối lộ Việc đưa nhận hối lộ lời khai cá nhân PCI; khơng có nhân chứng, chứng trực tiếp” Bị cáo Sĩ khẳng định: “Bốn vấn đề mà cáo trạng nêu tơi làm lợi cho PCI hồn tồn khơng đúng, quy kết tội cho tôi” Văn 2: Huỳnh Ngọc Sĩ: “Tơi khơng nhận hối lộ” (Dân trí) - “Việc PCI rút tiền từ ngân hàng Tokyo chi nhánh TPHCM, đem tiền từ Nhật qua trả lương… không đồng nghĩa tiền hối lộ Tơi hồn tồn khơng nhận tiền hối hộ”, bị cáo Huỳnh Ngọc Sĩ liên tục “phản pháo” HĐXX Huỳnh Ngọc Sĩ nói: “Lời khai không Tôi không tiếp phòng làm việc riêng hay thương lượng với khách sạn cả” Suốt phiên tòa, bị cáo Sĩ khơng thừa nhận nhận “bơi trơn” số tiền 262.000 USD Sĩ khai khơng biết đến ơng Takasu Kunio, nguyên giám đốc điều hành PCI (người xác định đưa tiền hối lộ cho ông Sĩ) Bị cáo Sĩ giữ ngun quan điểm: “Khơng xác Không thật Không nhận…” Để làm rõ việc, quan điều tra cho quan chức PCI nhận dạng họ nhận hình vẽ sơ đồ phịng làm việc ơng Sĩ Bị cáo Sĩ quyết: “Việc PCI rút tiền từ ngân hàng Tokyo chi nhánh TPHCM, đem tiền từ Nhật qua trả lương… không đồng nghĩa tiền hối lộ Tơi hồn tồn khơng nhận tiền hối hộ” Độ tương tự hai văn bản: Sim(Text1, Text2) = 0.5206761702244165 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 51 Hai văn có số từ ngữ bị lặp lại khơng nhiều mặt ý nghĩa chúng có điểm tương đồng Độ tương tự chúng 0.5206761702244165 phản ánh phần nội dung Ví dụ Văn (Text 1): Bán chung cư Văn Phú Victoria-Hà Nội LH: 0943212996 Dự án nằm khu đô thị Văn Phú, quận Hà Đông, TP.Hà Nội, tư vấn thiết kế giám sát công ty Nhật Bản với phong cách độc đáo, đại Khu vực: Q Hà Đông, Hà Nội Tổng diện tích: 94,1 Khởi cơng: 2009 Dự kiến hồn thành: 2012 Trạng thái dự án: Đang thi cơng Chủ đầu tư: Công ty cổ phần đầu tư Văn Phú-invest + Căn hộ 95,3m2: 01 Phòng khách, 01 bếp, 01 Phòng ăn, 02 Phòng ngủ, 02 phòng WC + Căn hộ 116,2 m2: 01 Phòng khách, 01 Phòng bếp, 01 Phòng ăn, 02 Phòng ngủ, 02 Phòng WC + Căn hộ 117m2: 01 Phòng khách, 01 bếp, 01 Phòng ăn 03 Phịng ngủ, 02 Phịng WC Hiện tơi có tầng 23, 24 với đủ loại S Giá bán hợp lí Văn (Text 2): Bán hộ chung cư dự án văn phú victoria- diện tích 95m2 giá 19.7tr DỰ ÁN VĂN PHÚ VICTORIA Dự án nằm khu đô thị Văn Phú, quận Hà Đông, TP.Hà Nội, tư vấn thiết kế giám sát công ty Nhật Bản với phong cách độc đáo, đại Khu vực: Q Hà Đơng, Hà Nội Loại hình: Chung cư/Căn hộ cao cấp Tổng diện tích: 94,1 Khởi cơng: 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 52 Dự kiến hoàn thành: 2012 Trạng thái dự án: Đang thi công Chủ đầu tư: Công ty cổ phần đầu tư Văn Phú-invest + Căn hộ 95,3m2: 01 Phòng khách, 01 bếp, 01 Phòng ăn, 02 Phòng ngủ, 02 phòng WC + Căn hộ 116,2 m2: 01 Phòng khách, 01 Phòng bếp, 01 Phòng ăn, 02 Phòng ngủ, 02 Phòng WC + Căn hộ 117m2: 01 Phòng khách, 01 bếp, 01 Phòng ăn 03 Phòng ngủ, 02 Phòng WC Độ tương tự hai văn bản: Sim(Text1, Text2) = 0.81338799771947 Hai văn có nhiều từ giống nhau, chúng khác số chỗ: dòng dòng cuối hai văn Các từ ngữ câu cuối văn (các từ in nghiêng) không xuất văn Và độ tương tự tính theo cơng thức 0.81338799771947 Tuy nhiên, ta cần ý đến trường hợp văn tài liệu có cấu trúc, khn dạng định Chắc chắn chúng có nhiều từ giống mặt nội dung lại khác nhau, chẳng hạn: Văn (Text 1): Khu vực: Đan Phượng, Hà Nội Tổng diện tích: 80 Khởi cơng: 2007 Dự kiến hoàn thành: 2010 Trạng thái dự án: Đã thi công xong Chủ đầu tư: Công ty TNHH Sơn Hà + Căn hộ 70 m2: 01 Phòng khách, 01 bếp, 02 Phòng ngủ, 01 phòng WC + Căn hộ 80 m2: 01 Phòng khách, 01 Phòng bếp, 01 Phòng ăn, 02 Phòng ngủ, 01 Phòng WC Văn (Text 2): Khu vực: Hà Đông, Hà Nội Tổng diện tích: 99 Khởi cơng: 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 53 Dự kiến hoàn thành: 2012 Trạng thái dự án: Đang thi công Chủ đầu tư: Công ty xây dựng Hà Nhung Căn hộ 100 m2: 01 Phòng khách, 01 Phòng bếp, 01 Phòng ăn, 02 Phòng ngủ, 02 Phòng WC Độ tương tự hai văn bản: Sim(Text1, Text2) = 0.9442956354090183 Như độ đo chưa xác hai văn có nhiều từ giống thực tế lại khác Ví dụ 5: Văn 1: Lúc 12h55 hôm (giờ Hà Nội), lễ khai mạc Đại hội Toán học giới tổ chức Hyderabad, Ấn Độ, bà Pratibha Patil - Tổng thống Ấn Độ trao huy chương Fields - giải thưởng cao quý lĩnh vực toán học cho GS Ngô Bảo Châu Văn 2: Tại Hyderabad, Ấn Độ, Tổng thống Ấn Độ, bà Pratibha Patil trao huy chương Fields - giải thưởng toán học cao quý giới – cho giáo sư Ngô Bảo Châu lúc 12:55 hôm (giờ Hà Nội) Hai văn giống nhau, chúng khác thứ tự xuất từ câu có số từ (in nghiêng) xuất văn mà khơng có văn Theo thực nghiệm máy: Độ tương tự hai văn bản: Sim(Text1, Text2) = 0.9256739306748865 Ví dụ 6: Văn (Text 1): Sáng 28/8, máy bay chở giáo sư Ngô Bảo Châu, người vừa giành giải thưởng Fields dự kiến hạ cánh xuống sân bay Nội Bài Các hoạt động chào mừng, đón tiếp trọng thị Chính phủ gấp rút chuẩn bị Văn (Text 2): Sáng 28/8, phi chở giáo sư Ngô Bảo Châu, người vừa đoạt giải thưởng Fields dự định hạ cánh xuống phi trường Nội Bài Các hoạt động chào mừng, tiếp đón trọng thị Chính phủ gấp rút chuẩn bị Độ tương tự hai văn bản: Sim(Text1, Text2) = 0.996660325250488 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 54 Trong ví dụ này, hai văn khác hai cặp từ: Cặp thứ nhất: Văn dùng từ “máy bay” văn dùng từ “phi cơ” Cặp thứ hai: Văn dùng từ “ đón tiếp” cịn văn dùng từ “tiếp đón” Tuy nhiên, lại cặp từ đồng nghĩa tập từ đồng nghĩa “Same Meaning” Do độ tương tự chúng 0.996660325250488 3.4.2 Kết thử nghiệm 3.4.2.1 Cách tiến hành Để đánh giá độ tương tự tài liệu, sử dụng phương pháp: Phương pháp 1: Con người đánh giá Tập tài liệu giao cho nhóm gồm người địa điểm khác Họ có nhiệm vụ đọc nội dung đánh giá độ tương tự hai tài liệu dựa cảm tính Phương pháp 2: Thực nghiệm máy 3.4.2.2 Kết thử nghiệm Chúng tiến hành thử nghiệm dựa hai tập liệu: tập văn tin tức Internet tập tin rao vặt Internet Tập liệu 1: Tập gồm 20 văn gồm tin tức số trang Web: Địa tài liệu sau: File Địa http://vietbao.vn/An-ninh-Phap-luat/Huynh-Ngoc-Si-Toi-bi-vucao/11186417/218/ http://vnexpress.net/GL/Phap-luat/2010/10/3BA21A71/ http://dantri.com.vn/c20/s20-429715/huynh-ngoc-si-phan-bactoan-bo-noi-dung-cao-trang.htm http://cand.com.vn/vi-VN/phapluat/2010/10/138468.cand http://m.tuoitre.vn/news/detail?id=11318 http://www.tienphong.vn/Phap-Luat/515536/Xet-xu-ong-HuynhNgoc-Sy-nhan-hoi-lo-tien-ti.html http://www.baodatviet.vn/Home/phapluat/Huynh-Ngoc-Si-caotrang-hoan-toan-khong-dung/201010/115255.datviet LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 55 http://tintuc.xalo.vn/008 1341775005/ong_si_lien_tiep_khang_dinh_khong_nhan_hoi_lo_t u_pci.html http://dantri.com.vn/c20/s20-429799/huynh-ngoc-si-toi-khongnhan-hoi-lo.htm 10 http://dantri.com.vn/c20/s20-430246/huynh-ngoc-si-bi-ket-an-tuchung-than.htm 11 http://vnexpress.net/GL/Phap-luat/2010/10/3BA21B52/ 12 http://vnexpress.net/GL/Phap-luat/2010/10/3BA21AD7/ 13 http://vnexpress.net/GL/Phap-luat/2010/10/3BA21BEA/ 14 http://vietbao.vn/An-ninh-Phap-luat/Huynh-Ngoc-Si-Dung-suydien-de-ket-an-toi/11186642/218/ 15 http://www.cand.com.vn/vi-VN/phapluat/2010/10/138538.cand 16 http://nld.com.vn/20101016030227409P0C1019/ong-si-buc-xucvoi-de-nghi-tu-chung-than-cua-vks.htm 17 http://nld.com.vn/2010101609292553P0C1019/ong-huynh-ngocsi-bi-de-nghi-tu-chung-than.htm 18 http://nld.com.vn/20101017013426629P0C1019/de-nghi-ong-situ-chung-than.htm 19 http://nld.com.vn/2010101612063396P0C1019/ong-si-phan-baccao-trang.htm 20 http://vietbao.vn/An-ninh-Phap-luat/Nhan-an-chung-than-ong-Sicon-bi-dieu-tra-bo-tui-2-trieu-USD/11186794/218/ Bảng 4: Địa 20 tin tức số trang Web Chẳng hạn ta có kết đánh giá độ tương tự ngữ nghĩa hai file tổng số tài liệu có địa nêu sau: File File Người đánh giá Thực nghiệm máy 13 15 0.4 0.21854826011617284 0.4 0.24008952428716562 13 17 0.3 0.29548872180126395 0.2 0.3297415587214319 0.4 0.364800386307795 0.5 0.39024157344076293 0.4 0.4247928748969288 0.5 0.4621222286840157 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 56 13 19 0.6 0.500689564972599 10 19 0.6 0.5501094543011812 10 15 0.7 0.5768032097459137 0.7 0.5912167395883572 15 16 0.7 0.6367496647525064 0.8 0.6504860662096876 15 18 0.6 0.6749330889903177 0.6 0.702918830317079 0.6 0.7650383060856087 16 18 0.9 0.863923370318344 0.9 0.9279451135471808 13 20 0.9 0.9523695076604557 11 14 1.0 0.9706441434356016 Bảng 5: Một số kết độ tương tự hai file Kết độ tương tự 20 tin tức sau: Độ tương tự Người đánh giá Thực nghiệm máy 0.0-0.3 7,1% 8% 0.3-0.5 50% 56% 0.5-0.7 32,5% 30% 0.7-0.8 4% 2% 0.8-1.0 6,4% 4% Bảng 6: Kết đánh giá 20 tin tức người máy thực Tập gồm 30 tin rao vặt số trang web: File Đường dẫn 30 http://www.raovat.vn/mua-ban-nha-dat/raovat-403716128-ba-ncccc-du-a-n-van-phu-victoria.html 31 http://www.raovat.vn/mua-ban-nha-dat/raovat-403717095-banmat-san-chung-cu-victoria-van-phu-gia-hop-ly-d.html 32 http://www.raovat.vn/mua-ban-nha-dat/raovat-403713047-banchung-cu-van-phu-victoria-ha-dong.html 33 http://www.raovat.vn/mua-ban-nha-dat/raovat-403682192-bancan-ho-chung-cu-victoria-van-phu-du-an-van-phu.html 34 35 http://www.raovat.vn/mua-ban-nha-dat/raovat-403695330-bancan-ho-chung-cu-du-an-van-phu-victoria-dien-ti.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403701394-van- LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 57 phu-victoria-chung-cu-van-phu-victoria-can-ho-.html 36 http://www.raovat.vn/mua-ban-nha-dat/raovat-403717095-banmat-san-chung-cu-victoria-van-phu-gia-hop-ly-d.html 37 http://www.raovat.vn/mua-ban-nha-dat/raovat-403696872-banchcc-van-phu-toa-v1-gia-hap-dan.html 38 http://www.raovat.vn/mua-ban-nha-dat/raovat-403704630-canban-mot-so-can-ho-chung-cu-van-phu-gia-chi-19-.html 39 40 41 http://www.raovat.vn/mua-ban-nha-dat/raovat-403715227-canban-mot-so-can-ho-chung-cu-van-phu-victoria.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403675585-ban-casan-victoria-van-phu-pm-gap-de-co-xuat-vip.html http://www.raovat.vn/mua-ban-nha-dat/raovat-403676457-ban-casan-victoria-van-phu-pm-gap-de-co-xuat-vip.html 42 http://www.raovat.vn/mua-ban-nha-dat/raovat-403686663-ban-casan-victoria-van-phu-pm-som-de-co-suat-vip.html 43 http://www.raovat.vn/mua-ban-nha-dat/raovat-403687192-banchung-cu-van-phu.html 44 http://www.raovat.vn/mua-ban-nha-dat/raovat-403703049-banchcc-the-van-phu-victoria-dt-95-112-114-116m2.html 45 http://www.raovat.vn/mua-ban-nha-dat/raovat-403708123-banchcc-the-van-phu-victoria-dt-95-112-114-116m2.html 46 http://www.raovat.vn/mua-ban-nha-dat/raovat-403706386-banchcc-the-van-phu-victoria-dt-95-112-114-116m2.html 47 http://www.raovat.vn/mua-ban-nha-dat/raovat-403713504-chccthe-van-phu-victoria-dt-95-112-114-116m2.html 48 http://www.raovat.vn/mua-ban-nha-dat/raovat-403672389-canban-chcc-cao-cap-van-phu-victoria.html 49 http://www.raovat.vn/mua-ban-nha-dat/raovat-403707123-bancan-ho-toa-v1-tang-25-van-phu-victoria-gia-hap.html 31.2 http://www.chophien.com/raovat/312/0347100034/ban-ca-sanchung-cu-victoria-van-phu-gia-hop-ly-de-dau-tu.html 31.3 http://chutin.vn/rao-vat/raovat-296790/Ban-mat-san-chung-cuVictoria-Van-Phu-gia-hop-ly-de-dau-tu/ 31.4 http://www.dathanoi.vn/rv-93353-Ban-mat-san-chung-cuVictoria-Van-Phu-gia-hop-ly-de-dau-tu-.aspx LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 58 31.1 45.2 http://dothidiaoc.com/dang-tin-nhanh/chi-tiet-rao-vat/9322-banmat-san-chung-cu-victoria-van-phu-gia-dau-tu-hop-ly.html http://www.ketnoisunghiep.vn/ca-m-nang-ve-bat-dongsan/426918-chung-cu-victoria-van-phu-ban-chung-cu-victoriavan-phu-gia-tan-goc.html 31.5 http://nhadat24h.net/ban-mat-san-chung-cu-victoria-van-phu-giahop-ly-de-dau-tu_nhadat_453099.html http://www.vatgia.com/raovat/2589/2253589/ban-chung-cu-van- 45.4 phu-victoria-hop-dong-mua-ban-ky-truc-tiep-voi-chu-dau-tu-vanphu.html http://dothidiaoc.com/dang-tin-nhanh/chi-tiet-rao-vat/9258-ban- 31.6 can-ho-chung-cu-van-phu-victoria-mat-duong-le-trong-tan-hadong.html 34.2 http://nhaxuong.info/Ban-chung-cu-Van-Phu-Victoria-Ha-NoiLH-0943212996_ct_315_329_49304.html 45.5 http://www.olo.vn/phan-phoi-truc-tiep-chcc-van-phu-victoria-hadong-ha-noi_239487.html Bảng : Địa 30 tin rao vặt trang Web Chẳng hạn, ta có kết đánh giá độ tương tự ngữ nghĩa hai file tổng số tài liệu có địa nêu sau: File File Người đánh giá Thực nghiệm máy 30 31 0.2 0.1803928043669246 30 32 0.3 0.22729548824950685 32 45 0.4 0.30131825570777804 31 35 0.5 0.39584680154364466 32 41 0.4 0.35723495843515396 35 40 0.5 0.41281163798540266 33 49 0.5 0.4068277476149962 35 44 0.5 0.46324307697851314 31 31.1 0.7 0.5434409876505986 31 32 0.7 0.5648842497068653 31 49 0.7 0.5986671401506345 31.2 31.4 0.8 0.7218152893172625 34 34.2 0.8 0.730738545382498 31 31.3 0.8 0.7524554191092057 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 59 31.4 31.5 0.7 0.7678131794193516 31 31.5 0.7 0.7709166198966455 45.2 45.5 0.9 0.816320701810267 45 45.5 0.8 0.8269217971769109 31 31.2 0.8 0.8363616108745437 31 36 0.9 0.8442095726950841 31 31.4 0.9 0.8820081596174592 47 48 0.9 0.9136847762796279 46 48 0.9 0.9305040433572069 31.2 31.5 0.9 0.9513246926537497 31.3 31.5 0.9 0.9763033925759392 41 42 0.9 0.9747493335469556 40 42 0.9 0.9747493335469556 40 41 1.0 1.0 45 46 1.0 1.0 Bảng 8: Một số kết độ tương tự hai tin rao vặt Kết độ tương tự 30 tin rao vặt sau: Độ tương tự Người đánh giá Thực nghiệm máy 0.0-0.3 52,3% 49,6% 0.3-0.5 30% 34,6% 0.5-0.7 4,4% 3,8% 0.7-0.8 3,1% 3,8% 0.8-1.0 10,2% 8,2% Bảng 9: Kết đánh giá 30 tin rao vặt người máy thực 3.4.3 Đánh giá Sau tiến hành thử nghiệm chương trình số ví dụ cụ thể, chúng tơi có số nhận xét sau: Trường hợp 1: Độ tương tự lớn, hai văn giống tương đối nhiều Trường hợp 2: Độ tương tự cực nhỏ, hai văn khác hoàn toàn Trường hợp 3: Hai văn có độ tương tự tương đối thấp, phần lớn khác Trường hợp 4: Độ tương tự lớn hai văn khơng hồn tồn giống có nhiều cặp từ tương đồng với nghĩa LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 60 Chương trình chạy có hiệu với cặp văn giống nhiều, khác nhiều Tuy nhiên, nhiều trường hợp chương trình cho kết khơng xác, chẳng hạn: Trường hợp 1: Xét hai đoạn văn ngắn sau: Văn 1(Text 1): Nó bảo cậu không đến? Văn (Text 2): Nó đến cậu khơng bảo? Kết quả: Sim(text1,text2) = 1.0 Hai văn có từ giống hoàn toàn thứ tự từ bị đảo lộn Ở văn thứ nhất, động từ “bảo”, cịn văn thứ hai, động từ “đến” Xét mặt ý nghĩa ngôn ngữ tiếng Việt, hai văn khác chương trình cho độ tương tự 1.0 Đây điều luận văn chưa làm Chương trình tính độ tương tự hai văn bản, nhiên lại chưa xét đến cấu trúc từ, câu, từ loại từ,… Trường hợp 2: Xét hai đoạn văn ngắn sau: Văn 1(Text 1): Tôi sở hữu loài gia cầm Văn (Text 2): Tơi có gà Kết quả: Sim(text1, text2) = 0.1297 Hai văn có mối quan hệ với nhau, quan hệ cụ thể trừu tượng Xét mặt phương pháp, chương trình hồn tồn tính độ tương đồng hai văn dựa vào mối quan hệ từ “sở hữu” với từ “có”, từ “gia cầm” với từ “con gà” Tuy nhiên, kết thu lại thấp: Sim(text1, text2) = 0.1297 Nguyên nhân cặp từ chưa có tập từ đồng nghĩa “Same Meaning” LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 61 KẾT LUẬN Độ đo độ tương tự văn tính xác độ đo tốt để xác minh việc chép tài liệu, cịn áp dụng cho hệ thống tìm kiếm thơng tin,…Lí nguồn tài liệu Internet nhiều, việc nội dung loại tin tức bị trùng lặp điều tránh khỏi Trong luận văn này, tơi nghiên cứu, tìm hiều tốn cụ thể thực tế tính tốn độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ Luận văn đạt yêu cầu ban đầu đề việc nghiên cứu, tìm hiều tốn Những nội dung cơng việc đạt được: Tìm hiều khái niệm độ tương tự, độ tương tự mặt ngữ nghĩa Nghiên cứu phương pháp tách từ văn bản, cài đặt thành công việc tách từ dựa vào từ điển có sẵn Tìm hiều cách tính độ tương tự từ với từ (dựa sở tri thức dựa kho ngữ liệu) Trên sở tính tốn độ tương tự từ-từ, luận văn xây dựng hệ thống tính độ tương tự hai tệp văn nội dung hai trang web site VnExpress.net, Dantri.com Mặc dù ứng dụng đạt yêu cầu tìm hiểu vấn đề ban đầu đặt luận văn thời gian có hạn nên hệ thống dừng lại việc tính độ tương tự văn dựa độ tương tự từ-từ đơn giản mà chưa xét đến từ loại từ, thứ tự từ câu Hơn nữa, tập từ kho ngữ liệu hạn chế, số lượng từ đồng nghĩa cịn ít,… Hệ thống xây dựng sử dụng việc học tập, nghiên cứu cho sinh viên giáo viên có nhu cầu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 62 HƯỚNG PHÁT TRIỂN Chương trình xây dựng vận hành tương đối tốt nhiều hạn chế, cần tiếp tục hiệu chỉnh để chương trình chạy tốt Tiếng Việt phong phú nên cần xây dựng kho ngữ liệu tập từ đồng nghĩa lớn Một số vấn đề kỹ thuật phân tích cú pháp, gán nhãn từ loại hay thứ tự từ câu,… cần nghiên cứu, hồn thiện để nâng cao kết tính tốn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 63 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Thanh Hùng, Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet Trần Cao Đệ, Đo độ tương tự ngữ nghĩa tiềm ẩn để phát việc chép tài liệu Đỗ Phúc, Đỗ Hoàng Cường, Nguyễn Tri Tuấn, Huỳnh Thụy Bảo Trân, Nguyễn Văn Khiết, Nguyễn Việt Hoàng, Nguyễn Việt Thành, Phạm Phú Hội, Dương Ngọc Long Nam, Nguyễn Phước Thanh Hải, Phát triển hệ thống S.E hỗ trợ tìm kiếm thơng tin, thuộc lãnh vực CNTT Internet qua từ khóa tiếng Việt Tiếng Anh Rada Mihalcea, Courtey Corley, Carlo Strapparava, Corpus-based and Knowledgebased Measures of Text Semantic Similarity, in Proceedings of the American Association for Artificial Intelligence (AAAI 2006), Boston, July 2006 Michael Mohler and Rada Mihalcea, Text-to-text Semantic Similarity for Automatic Short Answer Grading, in Proceedings of the European Chapter of the Association for Computational Linguistics (EACL 2009), Athens, Greece, March 2009 Rada Mihalcea, Word Sense Disambiguation, Encyclopedia of Machine Learning, Springer, 2007 Ravi Sinha and Rada Mihalcea, Unsupervised Graph-based Word Sense Disambiguation Using Measures of Word Semantic Similarity, in Proceedings of the IEEE Internation Conference on Semantic Computing (ICSC 2007), Irvine, CA, September 2007 Courtney Corley, Andras Csomai and Rada Mihalcea, A knowledge-based Approach to Text-to-Text Similarity, book chapter in Current Issues in Linguistic Theory: Recent Advances in Natural Language Processing, Editors Nicolas Nicoloev and Ruslan Mitkov, John Benjamins Publishers, 2006 Courtney Corley and Rada Mihalcea, Measures of Text Semantic Similarity, in Proceedings of the ACL workshop on Empirical Modeling of Semantic Equivalence, An Arbor, MI, June 2005 10 Lei Shi and Rada Mihalcea, An Algorithm for Open Text Semantic Parsing, in Proceedings of the ROMAND 2004 workshop on “Robust Methods in Analysis of Natural language Data”, Geneva, Switzerland, August 2004 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 64 11 Dekang Lin, An Information-Theoretic Definition of Similarity 12 Peter D.Turney, Mining The Web for Synonyms: PMI-IR versus LSA on TOEFL Internet 13 http://www.java.sun.com 14 http://www.sinhvienit.net 15 http://www.codeprovn.com 16 http://www.ngonngu.net 17 http://vi.wikipedia.org 18 http://www.wapedia.mobi 19 http://www.pcworld.com.vn 20 http://www.cse.unt.edu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... IV TÍNH ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ 3.1 Phát biểu toán Bài tốn: Tính tốn độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ Input: văn URL từ VnExpress.net... độ tương tự ngữ nghĩa văn nên tính đến cấu trúc văn gác lại vấn đề thử mơ hình độ tương tự ngữ nghĩa văn hàm độ tương tự ngữ nghĩa từ thành phần Chúng ta làm cách kết hợp độ tương tự từ với từ. .. độ tương tự từ với từ Kết cấu luận văn Nội dung luận văn gồm chương: Chương I: Khái niệm độ tương tự Chương II: Độ tương tự từ- từ Chương III: Độ tương tự văn bản -văn Chương IV: Tính độ