Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
791,94 KB
Nội dung
B GIÁO DO ĐẠI HỌC ĐÀ NẴNG BÙI THANH PHÚ XÂYDỰNGHỆTHỐNGTRỢGIÚPNGƯỜICƠTUHỌCTINHỌCVĂNPHÒNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Công trình c hoàn thành ti ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS. PHAN HUY KHÁNH Phản biện 1: TS. HUỲNH CÔNG PHÁP Phản biện 2: TS. NGUYỄN MẬU HÂN Lun vn c bo v trc Hi ng chm Lun vn tt nghip th thut hp ti i hc à Nng vào ngày 18 tháng 5 nm 2013. Có thể tìm hiểu luận văn tại: - Trung tâm Thôngtin - Hc liu, i Hc à Nng 1 MỞ ĐẦU 1. Lý do chọn đề tài ng c vit c t trong nhng b phn cu thành to nên mt Nam m n sc dân t Ti mai mt và mc bit, th h tr ngày nay nhip cn ni t nh nên không bit ting m t truyn ch vit ca rt cp thit, rt cn mt gii pháp nhm bo tn ch vit cng bào. n Trung t chc dy hc ni trú cho con ng bào có nhiu kinh nghim v phát trin kinh tc kho, bo tn và phát huy các giá tr c sc ca các dân tc, gi vng an ninh biên gii . Quá trình dy ci vi hp nhiu p hng có s m th các em hng thi vì tr ngi v mt ngôn ng nên các em hg vic tip thu kin thc, t bit là các môn t c. T các thc t xu tài: “Xây dựnghệthốngtrợgiúphọc sinh người Cơtu họctinhọcvăn phòng”. 2 2. Mục tiêu của đề tài u các v v x lý ngôn ting Vi thut tách t ting Vit, kho ng vng song ng, xây dng h thng hi- ng. Xây dng kho ng vu trúc m và d k th phc v lý ngôn ng t nhiên (Vit- khác. Khai thác kho ng v xây dng h hi- ng Vit- cnh hn ch h tr cho hc tin h 3. Đối tượng và phạm vi nghiên cứu Tìm hiểu lý thuyết Tìm hi pháp ca ting Vit, ti him khác nhau gia ting Vit và ti Tìm hiu lý thuyt v h thng hi- ng, k thut tách t ting Vi d li, cách t chc kho ng vng song ng bng XML. Phân tích cu trúc các câu hng g cu trúc câu Vit-ng cho các câu. Cập nhật kho ngữ vựng Cơtu Thu thp d liu t các mu câu, trích rút t vng t các mu xây dng kho ng vng Vit-c v cho h thng hi- ng. Xâydựng ứng dụngXây dng h thng hi- ng Vit- h tr hc c tin hc v 3 4. Giả thiết nghiên cứu H thng s phát huy ht tác dng n vt cht và ngun nhân lc v công ngh thôngtin t hoàn thin. Vic ng dng ca tin hc vào cuc sc chính quyo u ki phát tring bào nhing ng và s dng các h th tìm hiu v nc sng. 5. Phương pháp nghiên cứu Thu thp d liu t các hc sinh trong quá trình hc. Phân tích t vng và mu câu Vit-ng. Xây dng kho ng vng có ci d ta có th miêu t d dàng ni dung ca tài li t, m rng, chuynh dng d liu. Tìm hiu các công c phù h phc v cho công vic lp trình, Khai thác kho ng v xây dng ng dng hi- ng. Kim th t qu. 6. Ý nghĩa khoa học và thực tiễn của đề tài: Ý nghĩa khoa học: Nm bc các v n trong x lý ting Vit, ti cho các bài toán x lý ngôn ng t nhiên cho ngôn ng ca các dân tc thiu s i- ng, t Ý nghĩa thực tiễn: Phc v cho công tác dy và hc ca thy ng THPT Phm Phú Th nhm to thun li cho hc sinh trong vic tip thu kin thc khoa hc, góp phn nâng cao dân trí cho 7. Cấu trúc luận văn 4 Chương 1. Nghiên cứu tổng quan: tng quan v h thng hi-áp t h câu hi và tìm kim câu tr li trong h thng hi- ng. Các quy tc son thn. Chương 2. Tìm hiểu ngôn ngữ : u v các m ca hai ngôn ng ting Vit và ti ging và khác nhau ca hai ngôn ng. Chương 3. Xâydựnghệthống hỏi-đáp tự động Việt-Cơtu nhằm hỗ trợhọc sinh người Cơtu họctinhọcvăn phòng: xut gii pháp rút trích t khóa, gom cm và tìm kim câu tr li. 5 CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 1.1 HỆTHỐNG HỎI-ĐÁP TỰ ĐỘNG Nhng th m ca ngi dùng di d truy vn s c tìm ki và t v mt cách ngn g là nhng gì mà hmong mun. ó chính là mc tiêu ca h tng i- áp ng. này s trình bày 1.1.1 Giới thiệu hệthống hỏi-đáp tự động và lịch sử phát triển a) Giới thiệu hệthống hỏi-đáp tự động hng i-áp ng liên quan 3 nh c ln là lý ngôn ng Language Processing), tìm ki thôngtin (Information Retrieval) và rút trích thôngtin (Information Extraction). Có hai lo h thng i-áp: tng hi-p nh c h tng hi-áp nh vc rng b) Sơ lược lịch sử phát triển 1.1.2. Kiến trúc hệthống hỏi-đáp tự động Mô hình c bn ca h thng IR có k trúc nh sau: Hình 1.2 - Hệthống tìm kiếm thôngtin 6 Các h thng IR thng không giúp c ngi s dng tìm ra chính xác thôngtin mà ngi dùng nó ch có t tng hp các thôngtin n trong hng và tìm các v b có liên quan n yêu ca ngi s dng. Tính nng này là mt bc g hn dng mt h thng hi-áp. trúc chung ca các thng i-áp th có dng nh sau: Hình 1.3- Kiến trúc hệthống hỏi-đáp a) Giao diện ngườidùng (User Interface) b) Phân tích câu hỏi (Question Analyzer) c) Tìm kiếm dữ liệu (Data Retrieval) d) Rút trích câu trả lời (Answer Extraction) e) Chiến lược xếp hạng (Ranking) f) Xác minh câu trả lời (Answer Verification) 1.1.3 Một số vấn đề quan tâm khi xâydựnghệthống hỏi- đáp tự động Loi câu hi X lý câu hi Ng cnh và h thng h Ngun d liu cho h thng h 7 Trích xut câu tr li 1.2 CÁC PHƯƠNG PHÁP PHÂN TÍCH CÂU HỎI VÀ TÌM KIẾM CÂU TRẢ LỜI Ba bc quan trng trong thng hi-áp là: phân tích câu hi, tìm k tài liu có cha câu tr li và rút trích câu li tài Do mc tiêu ca lu vn là hng n mt h tng hi-áp cho mt m c th là v các thù trình bày trong m không có nhu u rút trích thôngtin câu tr li tài l nên chúng tôi trình bày trong cng này hai i dung chính là các ph phân tích câu hi và các ph tìm ki. 1.2.1 Phương pháp phân tích câu hỏi - Có hai ph pháp phân tích câu hi, cng c xem nh hai phng pháp ca h thng i-áp . ó là ph pháp nông và ph pháp sâu. a) Phương pháp nông (Shallow Method) b) Phương pháp sâu (Deep Method) 1.2.2 Tìm kiếm thôngtin tìm km thôngtincó qu các tài liu thc chuyn i thành các cách bi di tài li thích hp. Có nhiu ph pháp khác nhau c u c tng hp nh sau: Các mô hình lý thuyt tp hp i s Các mô hình xác sut Mô hình không gian vector 8 1.2.3 Phương pháp gom cụm dữ liệu a) Thuật toán K-Means Input: K, và d v n m ca m s Output: K cm sao cho cc tiu v tng bình ph sai. Thuật toán: c 1: Chn ngu nhiên K mu vào K cm. Coi tâm ca cm chính là mu có trong cm. c 2: Tìm tâm mi ca cm. c 3: Gán (gán li) các mu vào tng cm sao cho khong cách t m n tâm ca c nht. c 4: Nu các cm không có s i nào sau khi thc hic 3 thì chuyc li chuyn c 2. Bc 5: Dng thut toán. b) Thuật toán HAC HAC (Hierarchical Agglomerative Clustering) là phân cm không giám sát (không c bi c s c vào) nhng ph c dng. Thu toán HAC có th tóm n nh sau: s có N ph và ma ng cách N*N c 1: Bu cho mi phn t vào mt phân vùng ca nó. Nu có N phn t thì có N phân vùng khi to c 2: Tìm cp phân vùng có khong cách nh nht và hp li thành mt phân vùng. Lúc này s t c 3: Tính khong cách gia phân vùng mi vi các phân vùng còn li c 4: Lp lc 2, n khi ch còn li mt phân vùng hoc tha mu kin d