Đồ án tốt nghiệp XÂY DỰNG ỨNG DỤNG TRÍCH rút THỜI GIAN, địa điểm từ dữ LIỆU TIN NHẮN

61 769 2
Đồ án tốt nghiệp XÂY DỰNG ỨNG DỤNG TRÍCH rút THỜI GIAN, địa điểm từ dữ LIỆU TIN NHẮN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Theo xu hướng phát triển của xã hội ngày nay, sự phát triển của công nghệ thông tin là vô cùng mạnh mẽ và nhanh chóng. Tuy nhiên vấn đề đặt ra là làm thế nào để máy tính có thể “hiểu” và xử lý một cách tự động. Các thiết bị thông minh ngày càng phát triển, đặc biệt là điện thoại cá nhân được tích hợp nhiều tiện ích và chức năng, dần thay thế các thế các thiết bị khác và trở thành một thiết bị quan trọng trong cuộc sống thường ngày. Kéo theo là nhu cầu sử dụng của con người ngày một tăng, các yêu cầu về tiện ích ngày càng lớn, điện thoại thông minh ra đời. Hàng loạt các ứng dụng, tiện ích được tạo ra nhằm phục vụ cho đời sống, công việc, giải trí...Việc trao đổi thông tin qua tin nhắn điện thoại và trích lọc thông tin từ những tin nhắn đó vẫn hoàn toàn thủ công. Với mong muốn tăng cường tiện ích, tạo ra các ứng dụng thông minh, có thể thay thế các thao tác thủ công của con người mà vẫn đảm bảo độ chính xác cao và hiệu quả, em quyết định thực hiện đề tài “Xây dựng ứng dụng trích rút thời gian, địa điểm từ dữ liệu tin nhắn”. Bởi đề tài rất thực tế, phù hợp với nhu cầu hiện nay. Mục đích của đề tài là nghiên cứu về lĩnh vực trích rút thông tin và áp dụng kiến thức để xây dựng một ứng dụng có thể “đọc hiểu” tin nhắn của người dùng, trích rút thông tin về thời gian và địa điểm một cách chính xác và hiệu quả. Đồ án có cấu trúc gồm 4 chương với nội dung như sau: Chương 1: Tổng quát về trích rút thông tin Chương này cung cấp cho người đọc những hiểu biết cơ bản về bài toán trích rút thông tin nói chung, các hướng tiếp cận, phương pháp trích rút, những nguồn dữ liệu, thư viện hỗ trợ, những khó khăn thường gặp và một số ứng dụng của trích rút thông tin. Chương 2: Một số phương pháp sử dụng trong bài toán trích rút thông tin Giới thiệu về bài toán trích rút thông tin thời gian, địa điểm từ dữ liệu tin nhắn, các kỹ thuật để giải quyết. Ngoài ra chương này có đề cập tới Trường ngẫu nhiên có điều kiện CRF, máy vectơ hỗ trợ SVM. Cách sử dụng các công cụ CRF++, LibSVM... Chương 3: Xây dựng hệ thống và thực nghiệm Chương này nói về quá trình thu thập, xây dựng dữ liệu huấn luyện, các thao tác kiểm nghiệm, kết quả và đánh giá khả năng trích rút thông qua độ tin cậy (R

1 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài: XÂY DỰNG ỨNG DỤNG TRÍCH RÚT THỜI GIAN, ĐỊA ĐIỂM TỪ DỮ LIỆU TIN NHẮN Giảng viên hướng dẫn Sinh viên thực Lớp Khóa Hệ : PGS.TS TỪ MINH PHƯƠNG : PHẠM VIỆT ANH : D11CNPM1 : 2011-2016 : ĐẠI HỌC CHÍNH QUY Hà Nội, tháng 11/2015 LỜI CẢM ƠN Để hoàn thành đồ án này, em xin chân thành cảm ơn thầy cô khoa Công nghệ thông tin – Học viện Công nghệ Bưu Viễn thông ân cần dạy dỗ em suốt bốn năm học vừa qua Em xin gửi lời cảm ơn chân thành tới thầy Từ Minh Phương, người trực tiếp hướng dẫn bảo tận tình em trình làm đồ án Cuối cùng, em xin cảm ơn gia đình em, bạn bè em, người bên cạnh, quan tâm, giúp đỡ, động viên em để em hoàn thành đồ án Em xin chân thành cảm ơn! Sinh viên Phạm Việt Anh MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG KÝ HIỆU VÀ CÁC CỤM TỪ VIẾT TẮT Ký hiệu IE NLP NER R P SVM POS Diễn giải Information Extraction Natural Language Processing Named Enitity Recognization Recall Precision Support Vector Machine Part Of Speech LỜI MỞ ĐẦU Theo xu hướng phát triển xã hội ngày nay, phát triển công nghệ thông tin vô mạnh mẽ nhanh chóng Tuy nhiên vấn đề đặt làm để máy tính “hiểu” xử lý cách tự động Các thiết bị thông minh ngày phát triển, đặc biệt điện thoại cá nhân tích hợp nhiều tiện ích chức năng, dần thay thế thiết bị khác trở thành thiết bị quan trọng sống thường ngày Kéo theo nhu cầu sử dụng người ngày tăng, yêu cầu tiện ích ngày lớn, điện thoại thông minh đời Hàng loạt ứng dụng, tiện ích tạo nhằm phục vụ cho đời sống, công việc, giải trí Việc trao đổi thông tin qua tin nhắn điện thoại trích lọc thông tin từ tin nhắn hoàn toàn thủ công Với mong muốn tăng cường tiện ích, tạo ứng dụng thông minh, thay thao tác thủ công người mà đảm bảo độ xác cao hiệu quả, em định thực đề tài “Xây dựng ứng dụng trích rút thời gian, địa điểm từ liệu tin nhắn” Bởi đề tài thực tế, phù hợp với nhu cầu Mục đích đề tài nghiên cứu lĩnh vực trích rút thông tin áp dụng kiến thức để xây dựng ứng dụng “đọc hiểu” tin nhắn người dùng, trích rút thông tin thời gian địa điểm cách xác hiệu Đồ án có cấu trúc gồm chương với nội dung sau: Chương 1: Tổng quát trích rút thông tin Chương cung cấp cho người đọc hiểu biết toán trích rút thông tin nói chung, hướng tiếp cận, phương pháp trích rút, nguồn liệu, thư viện hỗ trợ, khó khăn thường gặp số ứng dụng trích rút thông tin Chương 2: Một số phương pháp sử dụng toán trích rút thông tin Giới thiệu toán trích rút thông tin thời gian, địa điểm từ liệu tin nhắn, kỹ thuật để giải Ngoài chương có đề cập tới Trường ngẫu nhiên có điều kiện CRF, máy vectơ hỗ trợ SVM Cách sử dụng công cụ CRF++, LibSVM Chương 3: Xây dựng hệ thống thực nghiệm Chương nói trình thu thập, xây dựng liệu huấn luyện, thao tác kiểm nghiệm, kết đánh giá khả trích rút thông qua độ tin cậy (R - Recall), độ xác (P - Precision), độ đo F-measure ứng dụng áp dụng kết trích rút Chương 4: Kết luận hướng phát triển Tổng kết toán, kết đạt chưa đạt Từ đề xuất mục tiêu hướng tới hướng phát triển tương lai CHƯƠNG 1: BÀI TOÁN TRÍCH RÚT THỜI GIAN, ĐỊA ĐIỂM TỪ DỮ LIỆU TIN NHẮN VÀ TỔNG QUÁT VỀ TRÍCH RÚT THÔNG TIN Chương giới thiệu cách tổng quan toán trích rút thông tin, bao gồm định nghĩa, hướng tiếp cận, vài khó khăn thường gặp toán Đồng thời trình bày sơ lược vài thư viện, ứng dụng phát triển cho toán trích rút thời gian, địa điểm 1.1 Bài toán trích rút thời gian, địa điểm từ liệu tin nhắn Ngày nay, ta bắt gặp vô số ứng dụng, tính thông minh, tiện ích hữu dụng sản phẩm công nghệ cao, tiêu biểu dòng điện thoại di động thông minh, đó, sản phẩm ứng dụng Apple biết đến nhận tín nhiệm cao từ phần lớn người dùng tiện ích trải nghiệm tuyệt vời mà mang lại Trong đó, tính nhận diện thông tin văn điểm cộng nhận nhiều phản hồi tích cực từ phía người dùng: Hình 1.1 Người dùng touch vào dòng “lúc 18h10” Hình 1.2 Người “19001886” dùng touch vào 10 Tính nhận diện thông tin iPhone dựa vào định dạng phổ biến thời gian (hình 1.1) số điện thoại (hình 1.2) để nhận dạng đưa gợi ý hành động loại thông tin mà thiết bị nhận dạng Dựa ý tưởng tính ứng dụng cao tính trên, qua cân nhắc, em lựa chọn thực đề tài “Trích rút thời gian, địa điểm từ liệu tin nhắn” Mục đích đề tài thông qua việc trích rút thời gian địa điểm, xây dựng ứng dụng thông minh, “đọc hiểu” tin nhắn người dùng tự động đặt lịch hẹn thiết bị cách xác hiệu Hệ thống xây dựng dựa liệu tin nhắn thông tin trích rút được, đó, hệ thống gồm phần xử lý chính: • Nhận dạng hội thoại: nhận dạng hội thoại gần toàn lịch sử tin nhắn người - Đầu vào: Lịch sử tin nhắn người - Đầu ra: Hội thoại gần người • Trích rút thời gian, địa điểm: trích rút thông tin thời gian, địa điểm hội thoại gần - Đầu vào: Hội thoại gần người - Đầu ra: Thời gian, địa điểm trích rút Hình 1.3 Biểu đồ mô tả hệ thống trích rút thời gian, địa điểm từ liệu tin nhắn Bài toán trích rút thời gian, địa điểm trường hợp riêng toán trích rút thông tin thông thường ta làm rõ toán chương Trước tiên, ta cần nắm kiến thức trích rút thông tin nói chung, khái niệm, phương pháp trích rút phổ biến, ứng dụng thực tiễn mà toán trích rút thông tin nghiên cứu đưa vào sử dụng 1.2 Giới thiệu trích rút thông tin Nhận dạng, tìm kiếm thông tin từ văn phi cấu trúc công việc khó, thách thức giới nghiên cứu từ 20 năm Bắt nguồn từ vấn đề Xử lý ngôn ngữ tự nhiên (NLP), ngày vấn đề phát triển theo nhiều nhánh khác học máy, trích rút thông tin, sở liệu, web phân tích tài liệu Một vài định nghĩa trích rút thông tin sử dụng phổ biến internet: 47 Hình 3.4.Không gian đặc trưng Sau tìm không gian đặc trưng, công việc biểu diễn câu tập liệu nguyên thủy dạng vectơ để tạo file chứa liệu huấn luyện File liệu thu có định dạng: [label] [index1]:[value1] [index2]:[value2] [label] [index1]:[value1] [index2]:[value2] Trong đó: - [label] nhận giá trị +1 -1, tương ứng với nhãn phân loại cho trường hợp: “câu mở đầu hội thoại” “câu nằm hội thoại” [index] tính từ 1, tăng dần tới giá trị tối đa kích cỡ không gian đặc trưng [value] thứ index nhận giá trị so sánh với đặc trưng không gian đặc trưng: 48 Hình 3.5 Bộ liệu huấn luyện SVM Bước 2: Tạo mô hình huấn luyện Sau thu file huấn luyện, việc tạo tập tin lưu lại mô hình huấn luyện Để thực việc này, ta sử dụng lệnh công cụ LibSVM: svm-train SVM_train.txt model LibSVM sử dụng công cụ svm-train.exe đọc liệu từ file SVM_train.txt tạo mô hình miêu tả huấn luyện, từ ta sử dụng file model để kiểm nghiệm liệu đầu vào: Hình 3.6 Mô hình model tạo từ liệu huấn luyện 49 3.4 Xây dựng hệ thống Giai đoạn 1: Nhận dạng hội thoại - Đầu vào: Lịch sử tin nhắn gồm nhiều hội thoại Đầu ra: Hội thoại cần thao tác Bước 1: Tại bước tiền xử lý, tin nhắn lịch sử biểu diễn lại dạng vectơ Ban đầu, tin nhắn thể vectơ có n phần tử (n = kích thước không gian đặc trưng) Sau ta duyệt từ tin nhắn Nếu từ có xuất không gian đặc trưng, ta đánh trọng số phần tử tương ứng Ý tưởng phương pháp nhằm tìm có từ không gian đặc trưng có xuất tin nhắn Sau bước này, ta thu file “SVM_train_test.txt” chứa vectơ, vectơ đại diện cho câu, nằm dòng Bước 2: Với tập liệu gồm vectơ mô hình SVM xây dựng mục 3.3.2, ta sử dụng lệnh công cụ LibSVM để đánh nhãn: svm-predict SVM_train_test.txt model output Trong đó, “SVM_train_test.txt” file chứa tập vectơ cần đánh nhãn; “model” file chứa mô hình gán nhãn SVM; “ouput” file chứa kết gán nhãn Hình 3.7 File output chứa kết gán nhãn File output chứa kết gán nhãn, số dòng file output số dòng lịch sử hội thoại đưa vào Thứ tự nhãn tương ứng thú tự tin 50 nhắn hội thoại Tin nhắn nhận nhãn +1 tương ứng với “tin nhắn bắt đầu hội thoại”, ngược lại, nhãn -1 tương ứng với “tin nhắn nhằm hội thoại” Bước 3: Sau tìm nhãn cho tin nhắn lịch sử hội thoại, ta duyệt lịch sử hội thoại từ cuối lên lấy tất tin nhắn có nhãn -1 gặp tin nhắn có nhãn +1 Tất tin nhắn hội thoại mà ta cần thao tác trích rút thông tin thời gian, địa điểm giai đoạn Giai đoạn 2: Trích rút đối tượng thời gian, địa điểm - Đầu vào: Hội thoại gồm nhiều tin nhắn nhận dạng giai đoạn Đầu ra: Đối tượng thời gian, địa điểm Lần lượt tin nhắn hội thoại xử lý qua bước sau đây: Bước 1: Tập liệu đầu vào cần tiến hành bước tiền xử lý: tách từ, gán nhãn POS (Part Of Speech), gán nhãn tìm kiếm địa điểm, gán nhãn hình thái từ Bước tách từ gán nhãn POS có sử dụng tool vnTagger tác giả Lê Hồng Phương trang web http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTagger Đây phần mềm tách gán nhãn từ loại POS cho tiếng Việt có độ xác cao (khoảng 95%) Tiến hành gán nhãn tìm kiếm địa điểm dựa việc tìm kiếm danh sách xây dựng sẵn đưa vào cấu trúc liệu tiền tố, giúp lưa trữ tìm kiếm nhanh chóng Hình thái từ (chữ hoa, chữ thường) phần giúp xác định đối tượng địa điểm, tên riêng, địa danh, địa điểm Đây đặc trưng hiệu phổ biến văn tiếng Việt Bước 2: Sau tiền xử lý, ta thu file “processedMsg.txt” Tiếp theo, sử dụng lệnh công cụ CRF++ để tiến hành gán nhãn output class: crf_test –m model processedMsg.txt Trong đó, “model” file mô hình gán nhãn CRF; “processedMsg.txt” file cần gán nhãn 51 Hình 3.8 File processedMsg.txt sau gán nhãn File processedMsg.txt sau gán nhãn Các cột nhãn đặc trưng giai đoạn tiền xử lý Nhờ có đặc trưng này, mô hình CRF xác định đưa nhãn cho từ Ý nghĩa nhãn xem thêm mục 2.2.1 Ta thu từ liên quan tới đối tượng thời gian địa điểm dựa nhãn gán Sau phân tích tính toán, ta thu đối tượng thời gian, địa điểm sau: Giai đoạn 3: Xây dựng ứng dụng - Đầu vào: Đối tượng thời gian, địa điểm Đầu ra: Lịch nhắc nhở điện thoại Sau nhận đầu vào đối tượng thời gian, địa điểm, ta sử dụng API Android để khởi tạo lịch nhắc nhở cách gọi form thêm tự động điền liệu thời gian, địa điểm, liệu mặc định vào form Ngoài ra, người dùng sửa lại thông tin liên quan (nếu cần) hình 3.9 Sau ấn “Save”, nhắc nhở tạo thành công hiển thị lịch điện thoại (hình 3.10) 52 Hình 3.9 Form thêm lịch nhắc nhở Hình 3.10 Thêm nhắc nhở thành công 3.5 Thực nghiệm đánh giá 3.5.1 Phương pháp đánh giá Để đánh giá chất lượng phương pháp trích rút thông tin cho liệu, người ta thường sử dụng số độ đo độ tin cậy (Recall), độ xác (P - Precision) độ đo F1 (F-measure) Độ đo F1 số cân độ xác độ tin cậy Nếu độ xác độ tin cậy cao cân độ đo F1 lớn, độ xác độ tin cậy không cân độ đo F1 nhỏ Mục tiêu ta xây dựng mô hình có số F1 cao Giả sử sau sử dụng toán trích rút cho tập liệu gồm n tài liệu Kết trích rút m tài liệu Kết trích rút q tài liệu, đó, độ tin cậy R độ xác P tính theo công thức (1) (2), F-measure theo công thức (3): Ví dụ: 53 Nếu tập liệu cần trích rút 100 tài liệu Dữ liệu trích rút là: 97 (tài liệu) Dữ liệu trích rút là: 90 (tài liệu) Đối với toán gán nhãn sử dụng SVM, ta đánh giá theo độ xác (Accuracy), tức tính tỉ lệ câu gán nhãn tổng số câu cần gán nhãn Nếu tập liệu cần gán nhãn gồm n tài liệu, thuật toán áp dụng gán nhãn m tài liệu Ta có độ xác tính theo công thức: 3.5.2 Kết thực nghiệm Đánh giá độ xác phân lớp quan trọng, cho phép dự đoán độ xác kết phân lớp liệu tương lai Độ xác giúp so sánh mô hình phân lớp khác Ở đây, ta sử dụng phương pháp đánh giá chéo (cross validation), cụ thể K-fold cross-validation nhằm tránh việc trùng lặp tập kiểm thử (một số ví dụ xuất tập kiểm thử khác nhau) Tập toàn ví dụ D chia ngẫu nhiên thành k tập không giao (gọi “fold”) có kích thước xấp xỉ Mỗi lần (trong số k lần) lặp, tập sử dụng làm tập kiểm thử, (k1) tập lại dùng làm tập huấn luyện k giá trị lỗi (mỗi giá trị tương ứng với fold) tính trung bình cộng để thu giá trị lỗi tổng thể Thông thường k chọn 10 Mỗi tập (fold) lấy mẫu phân tầng (xấp xỉ phân bố lớp) trước áp dụng trình đánh giá Cross-validation Phương pháp phù hợp ta có tập ví dụ D vừa nhỏ 54 Hình 3.11 Hình minh họa với fold Ở đây, ta sử dụng k =10 Tập liệu huấn luyện 400 câu chia thành 10 phần ngẫu nhiên có kích thước liệu nhau, số lượng mẫu huấn luyện tương xứng, tập chứa 40 câu Sau đó, phần 10 phần trở thành tập liệu kiểm tra liệu phần lại dùng để huấn luyện Khi đó, độ xác phân loại tính giá trị trung bình qua 10 lần chạy Đánh giá trích rút sử dụng CRF++: Trong đồ án, CRF++ đóng vai trò chủ chốt sử dụng để trích rút đối tượng liệu thời gian, địa điểm nằm tin nhắn Ta tiến hành thử nghiệm với 2,3 đặc trưng Qua thấy cải thiện độ xác kết hợp sử dụng đặc trưng  Thử nghiệm CRFs với đặc trưng: Từ, từ loại: Thời gian Lần test Precision (%) Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần 10 Trung bình 89.36 84.96 91.35 90.10 85.71 97.12 86.60 84.09 85.85 84.07 87.92 Địa điểm Recall (%) 95.45 90.57 95.96 89.22 92.31 95.28 92.31 91.36 90.10 95.96 92.85 F-measure (%) 92.31 87.67 93.60 89.66 88.89 96.19 89.36 87.57 87.92 89.62 90.28 Precision (%) 85.00 88.33 91.67 85.25 87.10 86.67 86.67 94.83 77.61 88.33 87.14 Recall (%) 89.47 88.33 90.41 96.30 96.43 98.11 98.48 91.67 86.67 85.48 92.14 F-measure (%) 87.18 88.33 91.03 90.43 91.53 92.04 92.20 93.22 81.89 86.89 89.47 55 Bảng 3.1 Kết thử nghiệm CRF với đặc trưng  Thử nghiệm CRFs với đặc trưng: Từ, từ loại, Tìm kiếm địa điểm Thời gian Lần test Precision (%) Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần 10 Trung bình 92.55 88.50 91.35 92.08 87.76 97.12 89.69 85.23 85.85 82.30 89.24 Địa điểm Recall (%) 96.67 91.74 96.94 90.29 92.47 95.28 95.60 92.59 90.10 96.88 93.86 F-measure (%) 94.57 90.09 94.06 91.18 90.05 96.19 92.55 88.76 87.92 89.00 91.44 Precision (%) 85.00 86.67 91.67 85.25 87.10 86.67 88.00 94.83 77.61 88.33 87.11 Bảng 3.2 Kết thử nghiệm CRF với đặc trưng Recall (%) 89.47 88.14 89.19 96.30 96.43 98.11 100.00 91.67 86.67 85.48 92.15 F-measure (%) 87.18 87.39 90.41 90.43 91.53 92.04 93.62 93.22 81.89 86.89 89.46 56  Thử nghiệm CRFs với đặc trưng: Từ, từ loại, Tìm kiếm địa điểm, Hoa thường Thời gian Lần test Precision (%) Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần 10 Trung bình 92.55 90.27 93.27 91.09 87.76 97.12 88.66 86.36 85.85 83.19 89.61 Địa điểm Recall (%) 94.57 91.89 97.00 91.09 92.47 96.19 94.51 90.48 90.10 98.95 93.72 F-measure (%) 93.55 91.07 95.10 91.09 90.05 96.65 91.49 88.37 87.92 90.38 91.57 Precision (%) 91.67 93.33 91.67 90.16 87.10 86.67 89.33 91.38 77.61 88.33 88.73 Recall (%) 90.16 88.89 92.96 98.21 96.43 94.55 100.00 88.33 86.67 91.38 92.76 F-measure (%) 90.91 91.06 92.31 94.02 91.53 90.43 94.37 89.83 81.89 89.83 90.62 Bảng 3.3 Kết thử nghiệm CRF với đặc trưng Ta thấy, độ đo cải thiện kết hợp sử dụng đặc trưng Điều có nghĩa đặc trưng đặc trưng tốt có giá trị cao Biểu đồ 3.1 Kết thử nghiệm trích rút thời gian Biểu đồ 3.2 Kết thử nghiệm trích rút địa điểm Đánh giá gán nhãn sử dụng LibSVM: LibSVM sử dụng đồ án nhằm gán nhãn, tìm tin nhắn “tin nhắn mở đầu hội thoại” hay “tin nhắn thuộc hội thoại” 57 Lần test Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần 10 Trung bình Độ xác (%) 93.75 89.29 92.86 89.74 95.12 97.50 95.00 91.25 91.14 96.20 93.19 Độ xác việc gán nhãn câu chưa cao, liệu huấn luyện nhãn nhiều điểm chung, số lượng đặc trưng ít, liệu huấn luyện chưa hoàn toàn phân tách loại nhãn Mặt khác, nội dung tin nhắn trao đổi giống khó phân tách Để cải thiện độ xác, cần tìm đặc trưng tốt 3.6 Giao diện chương trình Ban đầu, ứng dụng dự định xây dựng với client chạy thiết bị di động Android hoàn thiện trường hợp sử dụng liệu đầu vào tin nhắn đơn, thay hội thoại Tuy nhiên, gặp số khó khăn việc truy cập, lấy lịch sử tin nhắn người dùng, thống kê thành hội thoại cặp “người gửi - người nhận”, em chuyển sang giải pháp thay nhập trực tiếp liệu đầu vào từ trang web hiển thị kết thực (phía server) Dưới giao diện mô trình thực trích rút phía Server sau nhận yêu cầu trích rút liệu từ phía Client gửi tới Giao diện website thiết kế đơn giản, trực quan, gồm phần chính: - Client Input: cửa sổ nhập liệu đầu vào Process: cửa sổ hiển thị trình xử lý 58 Hình 3.12 Giao diện mô hoạt động Server Người dùng nhập nội dung tin nhắn cần trích rút: “Tối mai uống cafe quán Cộng Cafe Thái Hà Lâu không gặp rồi.” vào cửa sổ “Client Input” nhấn “Get Information” Quá trình thực bắt đầu (hình 3.13) Hình 3.13 Giao diện Server thực trích rút Thanh progressbar xuất hiện, biểu diễn thực trình trích rút Ở cửa sổ Process, Server thực trích rút liệu đầu vào hiển thị toàn trình 59 Hình 3.14 Giao diện kết trích rút Kết thúc trình trích rút, progressbar biến mất, kết trích rút cuối hiển thị trường Location (Địa điểm) Time (Thời gian) cửa sổ Result Cuối cùng, Server trả đối tượng thời gian, địa điểm cho Client 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Sau thời gian tìm hiểu toán trích rút thông tin, phương pháp học máy bán giám sát dựa mô hình CRFs, học máy có giám sát dựa SVM đồ án đạt số kết sau: - - - Giới thiệu hiểu biết trích rút thông tin, phương pháp trích rút, vấn đề thường gặp tích rút giới thiệu vài công cụ, thư viện hỗ trợ trích rút Trích rút thông tin toán tiềm có nhiều ứng dụng thực tế, toán tìm kiếm hay khai thác liệu hay phân tích quan điểm Giới thiệu mô hình trường điều kiện ngẫu nhiên CRFs phương pháp học máy bán giám sát CRFs mô hình dựa xác suất điều kiện, tích hợp thuộc tính đa dạng chuỗi liệu quan sát nhằm hỗ trợ cho trình phân lớp CRFs có nhiều ưu điểm mô hình xác suất khác, đồng thời khắc phục nhược điểm mà mô hình xác suất khác gặp phải tiêu biểu vấn đề “label bias” Phương pháp học máy bán giám sát kết hợp phương pháp truyền thống - học máy có giám sát học máy giám sát, cách học sử dụng thông tin chứa liệu chưa gán nhãn tập liệu gán nhãn nhằm mở rộng tập liệu gán nhãn ban đầu Trong trình học thế, phương pháp tận dụng thông tin phong phú liệu chưa gán nhãn, mà yêu cầu số lượng nhỏ liệu gán nhãn Tìm hiểu thử nghiệm phương pháp học máy SVM sử dụng công cụ LibSVM để gán nhãn liệu với toán phân loại đơn giản Để có hiệu cao cần có tập huấn luyện lớn tốt, đòi hỏi nhiều thời gian công sức Trong thời gian có hạn, em xây dựng tập liệu huấn luyện vừa phải Với tập liệu này, kết thu hạn chế Mặt khác, đặc điểm riêng biệt ngôn ngữ tiếng Việt nên đồ án tránh khỏi thiếu sót hạn chế định Em mong nhận ý kiến nhận xét để đồ án hoàn thiện Trích rút thông tin toán phức tạp Hiện có nhiều công cụ, thư viện hỗ trợ xử lý ngôn ngữ tự nhiên, trích rút thông tin, song hầu hết chúng áp dụng cho tiếng Anh Các đặc thù ngôn ngữ khác nhau, nên việc chuyển đổi ngôn ngữ gặp nhiều khó khăn, đặc biệt ngôn ngữ phong phú đa dạng tiếng Việt Trong thời gian tới, em tập trung xây dựng hoàn thiện liệu huấn luyện nhằm cài thiện độ xác mô hình 61 TÀI LIỆU THAM KHẢO Tài liệu, báo: [1] [2] [3] [4] [5] [6] [7] Line Eikvil Information Extraction from World Wide Web – A Survey Norwegian Computing Center, PB, Citeseer July 1999 Jim Cowie and Yorick Wilk Information Extraction, 1996 Alexander Yates Information Extraction from the Web: Techniques and Applications Phd thesis, University of Washington, 2007 Kamal Nigam, Google Pittsburg Machine Learning for Information Extraction: An Overview, 2007 (Slides) Dr Diana Maynard, Computer Science Department, University of Sheffield http://gate.ac.uk/g8/page/print/2/demos/talks/maynard_diana_01.wmv (Slides&video) Hammersley, J., & Clifford P Markov fields on finite graphs and lattices Unpublished manuscript, 1971 Sunita Sarawagi, Indian Institute of Technology Information Extraction, 2008 Website tham khảo: [8] [9] [10] [11] [12] Wikipedia, Information Extraction: https://en.wikipedia.org/wiki/Information_extraction Wikipedia, Trie: https://en.wikipedia.org/wiki/Trie Trie data structure: https://www.classle.net/book/trie-data-structure CRF++: https://taku910.github.io/crfpp/ Hướng dẫn sử dụng LibVM: http://tusach.thuvienkhoahoc.com/wiki/Hướng_dẫn_sử_dụng_LIBSVM [...]... lịch sử nhắn tin nhưng nội dung không liên quan tới nhau - Do đó, SVM sẽ được sử dụng để gán nhãn các câu trong hội thoại, từ đó tìm ra hội thoại mà ta quan tâm Trích rút thông tin thời gian, địa điểm: Sử dụng các đối tượng thu được ở phần xác định hội thoại, áp dụng trích rút và đưa ra đối tượng thời gian và địa điểm cuối cùng Công cụ CRF++ sẽ được sử dụng để hỗ trợ gán nhãn thời gian, địa điểm • Đối... được thông tin về thời gian và địa điểm từ dữ liệu tin nhắn Tuy nhiên, số lượng dữ liệu tin nhắn đầu vào giữa 2 người dùng là rất lớn và không phải tin nhắn nào cũng liên quan tới nhau Do đó, công việc của ta không chỉ dừng lại ở trích rút thông tin thời gian, địa điểm, mà còn cả tìm kiếm và phân loại nhằm xác định chuỗi tin nhắn cần thao tác Vậy nên, hướng thực hiện đồ án được chia thành 3 phần chính... nguồn dữ liệu động: Những mô hình trích rút mất thời gian khá lâu để xây dựng và điều chỉnh các nguồn dữ liệu phi cấu trúc Khi các nguồn dữ liệu có sự thay đổi, kéo theo các hệ thống phải xác định và tìm ra sự thay đổi đó là gì, từ đó tinh chỉnh lại các mô hình một cách tự động Sự tích hợp dữ liệu: Các nguồn dữ liệu cho bài toán trích rút thông tin thường được xây dựng dựa trên sự tích hợp cả những bộ dữ. .. như với tin nhắn đơn P1: Tối mai đi uống cafe ở quán Cộng nhé! → “Tối mai”, “quán Cộng” P2: OK, tầm 8h tôi qua → “8h” P1: Muộn thế, 7 rưỡi đi → “7 rưỡi” P2: Cũng được → Kết quả cần thu được: “7 rưỡi tối mai” và “quán Cộng” - Xây dựng ứng dụng: Dựa vào kết quả trích rút thời gian, địa điểm, áp dụng để xây dựng một ứng dụng thực tế Với ba phần rõ ràng cùng các kiến thức cơ bản về kiểu cấu trúc dữ liệu, ... nhiều các kho dữ liệu cấu trúc và phi cấu trúc cho văn bản, các công cụ, thư viện và ứng dụng phục vụ trích rút thông tin, phân tích và khai thác thông tin Dưới đây là một vài dữ liệu đầu vào, thư viện đã được phát triển sẵn hỗ trợ tiền xử lý các dữ liệu phi cấu trích cho bài toán trích rút dữ liệu: các cơ sở dữ liệu có cấu trúc (Structured Databases), các văn bản phi cấu trúc đã được đánh nhãn (Labeled... hệ thống có thể được mô tả bởi các sơ đồ sau: 24 Hình 2.1 Sơ đồ hoạt động của hệ thống Tóm lại, đồ án sẽ tập trung vào giải quyết 2 bài toán xử lý chính: - Nhận dạng hội thoại: sử dụng SVM - Trích rút thông tin thời gian, địa điểm: sử dụng CRF 2.1.2 Giới hạn phạm vi • Giới hạn về vị trí địa lý: 25 Kết quả trích rút sẽ tốt nhất đối với các đối tượng địa điểm trên địa bàn thành phố Hà Nội • Giới hạn định... câu bị sai đi ý nghĩa ban đầu, và khiến quá trình trích rút không chính xác • 2.1.4 Các vấn đề liên quan và đề xuất giải pháp Đối với đề tài Trích rút thời gian, địa điểm từ dữ liệu tin nhắn , số lượng dữ liệu đầu vào là khá nhiều các tin nhắn, và không phải tất cả những tin nhắn đó đều có 26 mối liên hệ với nhau Ở đây, ta quy ước tất cả những tin nhắn liên quan tới nhau, cùng trao đổi về một chủ... sát (toàn bộ dữ liệu đều được gán nhãn) Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn khi được sử dụng kết hợp với một chút 15 dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác Để gán nhãn dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có kĩ năng để phân loại bằng tay dữ liệu huấn luyện và chi phí cho quy trình này không hề nhỏ, trong khi dữ liệu không gán nhãn thường... danh từ, động từ, tính từ, trạng từ, giới từ, • Có tồn tại trong danh sách địa điểm đã được xây dựng? Như đã nhắc tới trong chương 2, ta trực tiếp xây dựng một cây cấu trúc dữ liệu chứa danh sách các địa điểm, quán ăn, khách sạn nhằm hỗ trợ lưu trữ và tìm kiếm một cách nhanh • 27 chóng, bỏ qua các xử lý thừa về sau, tiết kiệm thời gian nhận dạng đối tượng địa điểm trong câu • Hình thái của từ (viết... kết quả từ search engine 22 Chương 2: CÁC VẤN ĐỀ GẶP PHẢI VÀ HƯỚNG GIẢI QUYẾT Chương này sẽ nói về bài toán trích rút thông tin thời gian, địa điểm, kèm theo là trình bày một cách chi tiết về các phương pháp, các thư viện, công cụ sẽ được áp dụng để giải quyết bài toán trong đồ án 2.1 Mô tả bài toán và các vấn đề cần giải quyết 2.1.1 Bài toán Nhiệm vụ của hệ thống là trích rút được thông tin về thời gian ... khăn thường gặp toán Đồng thời trình bày sơ lược vài thư viện, ứng dụng phát triển cho toán trích rút thời gian, địa điểm 1.1 Bài toán trích rút thời gian, địa điểm từ liệu tin nhắn Ngày nay, ta... rút thời gian, địa điểm từ liệu tin nhắn Bài toán trích rút thời gian, địa điểm trường hợp riêng toán trích rút thông tin thông thường ta làm rõ toán chương Trước tiên, ta cần nắm kiến thức trích. .. • Trích rút thời gian, địa điểm: trích rút thông tin thời gian, địa điểm hội thoại gần - Đầu vào: Hội thoại gần người - Đầu ra: Thời gian, địa điểm trích rút Hình 1.3 Biểu đồ mô tả hệ thống trích

Ngày đăng: 10/12/2015, 10:52

Từ khóa liên quan

Mục lục

  • LỜI CẢM ƠN

  • DANH MỤC CÁC HÌNH VẼ

  • DANH MỤC CÁC BẢNG

  • KÝ HIỆU VÀ CÁC CỤM TỪ VIẾT TẮT

  • LỜI MỞ ĐẦU

  • CHƯƠNG 1: BÀI TOÁN TRÍCH RÚT THỜI GIAN, ĐỊA ĐIỂM TỪ DỮ LIỆU TIN NHẮN VÀ TỔNG QUÁT VỀ TRÍCH RÚT THÔNG TIN

    • 1.1. Bài toán trích rút thời gian, địa điểm từ dữ liệu tin nhắn

    • 1.2. Giới thiệu về trích rút thông tin

    • 1.3. Hướng tiếp cận

    • 1.4. Phương pháp trích rút thông tin

    • 1.5. Các phương pháp học máy

      • 1.5.1. Học có giám sát (supervised learning)

      • 1.5.2. Học không giám sát (unsupervised learning)

      • 1.5.3. Học bán giám sát

      • 1.6. Một số dữ liệu, thư viện hỗ trợ

      • 1.7. Khó khăn của bài toán trích rút thông tin

        • 1.7.1. Tính đúng đắn

        • 1.7.2. Một số vấn đề hệ thống

        • 1.8. Một vài ứng dụng của bài toán trích rút thông tin

        • Chương 2: CÁC VẤN ĐỀ GẶP PHẢI VÀ HƯỚNG GIẢI QUYẾT

          • 2.1. Mô tả bài toán và các vấn đề cần giải quyết

            • 2.1.1. Bài toán

            • 2.1.2. Giới hạn phạm vi

            • 2.1.3. Khó khăn đối với xử lý ngôn ngữ Tiếng Việt

            • 2.1.4. Các vấn đề liên quan và đề xuất giải pháp

Tài liệu cùng người dùng

Tài liệu liên quan