Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
0,94 MB
Nội dung
Đại học Quốc gia Hà Nội
Khoa Công nghệ thông tin
BÁO CÁOĐỀ TÀI
SINH NGÔNNGỮTỰ NHIÊN
GVHD: tiến sĩ Lê Anh Cường
BÁO CÁO
SINH NGÔNNGỮTỰ NHIÊN
Nhóm 8:
Nguyễn Trung Hiếu
Trương Quý Quỳnh
Hoàng Đình Tiến
Giảng viên: Lê Anh Cường
LỜI MỞ ĐẦU
Trong những năm gần đây, công nghệ thông tin phát triển như vũ bão, đóng vai trò
ngày càng quan trọng trong đời sống xã hội.Trí tuệ nhân tạo và đặc biệt là xử lý
ngôn ngữtựnhiên được nghiên cứu rộng rãi mang lại nhiều ứng dụng quan trọng
trong đời sống. Trong đó sinhngônngữtựnhiên là một lĩnh vực nổi bật có khả
năng tạo ra những hệ thống đáp ứng người sử dụng như chính ngônngữ con người
nó ra. Chính vì những lợi ích to lớn mà nó mang lại, trong bài tập lớn môn xử lý
ngôn ngữtự nhiên, nhóm 8 đã chọn chủ đề này nhằm làm rõ những kiến thức cơ
bản để xây dựng một hệ thống sinhngônngữtựnhiên và sử dụng những kiến thức
đã đạt được để xây dựng một chương trình sinhngônngữtựnhiên về tổng kết và
đánh giá của những người sử dụng điện thoại.
Nhóm 8 xin gửi lời cảm ơn chân thành nhất tới thầy giáo – tiến sĩ Lê Anh Cường,
thầy là giảng viên môn Xử lý ngônngữtựnhiên , Khoa Công nghệ thông tin – Đại
học Công nghệ - Đại học Quốc gia Hà Nội. Trong suốt quá trình thực hiện bài tập
lớn này, thầy đã có những chỉ dẫn tận tình, hết lòng chỉ bảođể cả nhóm có thể
hoàn thành được bài tập lớn này.
MỤC LỤC
Chương I: Tổng quan về sinhngônngữtự nhiên
1. Bài toán sinhngônngữtự nhiên
1.1. Khái niệm
1.2. Ứng dụng
Chương II: Cấu trúc hệ thống sinhngônngữtự nhiên
2. Cấu trúc hệ thống sinhngônngữtự nhiên
2.1. Document planning
2.1.1. Cấu trúc của document planning
2.1.1.1. Cấu trúc của document planning
2.1.1.2. Nhiệm vụ của document planning
2.1.1.3. Input và Output của document planning
2.1.2. Biểu diễn thông tin
2.1.2.1. Mô hình biểu diễn thông tin
2.1.2.2. Định nghĩa các thông điệp
2.1.2.3. Phương pháp mô hình hóa thông tin và định nghĩa các thông điệp
2.1.2.4. Quyết định nội dung (Content Determination)
2.1.2.5. Thu thập các luật để quyết định nội dung
2.1.3. Cấu trúc văn bản từ các thông điệp
2.1.3.1. Quan hệ diễn ngôn (Discourse Relation)
2.1.3.2. Tiếp cận giản đồ (Schema)
2.2. Micro Planning
2.2.1. Từ vựng hóa (Lexicalisation)
2.2.2. Ghép câu (Sentence Aggregation)
2.3. Trình bày văn bản (Surface Realisation)
Chương III: Thử nghiệm xây dựng hệ thống sinhngônngữtự nhiên
Chương I: Tổng quan về sinhngônngữtự nhiên
1. Bài toán sinhngônngữtự nhiên
1.1. Khái niệm
Sinh ngônngữtựnhiên (Natural Language Generation – viết tắt là NLG) là
một lĩnh vực con của trí tuệ nhân tạo và ngônngữ học máy tính liên quan tới việc
xây dựng một hệ thống máy tính có thể sản sinh ra văn bản bằng tiếng Anh hoặc
những ngônngữ loài người khác từ những biểu diễn phi ngữ nghĩa của thông tin.
Mục tiêu của hệ thống sinh ngôn ngữtựnhiên là tạo ra các văn bản có thể
hiểu được bằng ngônngữ loài người bởi vậy, nó cần nguồn tri thức từ loại ngôn
ngữ mà hệ thống sử dụng cũng như những kiến thức thuộc lĩnh vực mà hệ thống sẽ
sản sinh. Đầu vào của hệ thống sinh ngôn ngữtựnhiên là các dạng phi ngữ nghĩa
của thông tin: mẩu tin, bảng biểu, số liệu. Đầu ra là những câu, văn bản có ý nghĩa
nhất định bằng ngônngữ con người, chứa thông tin ở đầu vào.
1.2. Ứng dụng
Sinh ngôn ngữtựnhiên cần thiết trong các hệ thống tương tác người máy, một vài
ứng dụng quan trọng có thể kể đến:
- Ứng dụng sinh ra tài liệu tự động. Ví dụ: dự báo thời tiết, báocáo mô phỏng,
thư tín,
- Ứng dụng biểu diễn thông tin tới người dùng bằng cách có thể hiểu được. Ví
dụ: bản ghi y khoa, lập luận hệ thống chuyên gia….
- Ứng dụng giảng dạy. Ví dụ: hệ thống cung cấp thông tin cho sinh viên.
- Ứng dụng giải trí. Ví dụ: truyện cười, thơ văn,…
Chương II: Cấu trúc hệ thống sinhngônngữ tự
nhiên
2. Cấu trúc của một hệ thống sinhngônngữtự nhiên
Mô hình cấu trúc của một hệ thống sinhngônngữtự nhiên
Ba giai đoạn cần tiến hành trong hệ thống sinhngônngữtựnhiên là “Document
Plan”, “Micro plan” và “Surface realisation”.
- Quyết định nội dung
- Cấu trúc văn bản
- Tập hợp câu
- Từ vựng hóa
- Sinh từ/cụm từ quy chiếu
- Thể hiện ngôn ngữ.
Document Plan
Micro Plan
Surface Realisation
2.1. Document planning
2.1.1. Cấu trúc của document planning
2.1.1.1. Cấu trúc của document planning
Cấu trúc của phần “Document Planning” bao gồm 3 công việc là:
- Mô hình hóa miền phục vụ (Domain Modeling).
- Quyết định nội dung (Content Determination).
- Cấu trúc tài liệu (Document Structuring).
2.1.1.2. Nhiệm vụ của document planning
“Document planning” hay còn gọi là “Text planning” là bước đầu tiên trong hệ
thống sinhngônngữtự nhiên, nó có nhiệu vụ tạo ra tổng thể chung cho cả văn bản.
hiện thực hóa bằng tập các message có quan hệ nhất định và có thứ tự xác định.
“Document planning” là giai đoạn quan trọng nhất trong các giai đoạn được tiến
hành trong một hệ thống sinh văn bản. Giai đoạn này bao gồm hai quá trình con
sau đây:
- Quyết định nội dung (Content Determination): Quá trình này bao gồm việc
tạo thành các thông điệp (Message), mỗi message có một ý nghĩa xác định
nào đó. Một câu có thể là một thông điệp hoặc do nhiều thông điệp ghép lại,
trong trường hợp nhiều thông điệp, ta gọi đó là một “Document Plan”
Domain Modeling
Document Planning
Content Determination
Document Structuring
- Cấu trúc tài liệu (Document Structuring): Quá trình này gồm có các công
việc sau:
+ Nhóm các thông điệp với nhau.
+ Xác định thứ tự các thông điệp (Ordering).
+ Xác định mối liên hệ (Discourse Relation) giữa các thông điệp.
2.1.1.3. Input và Output của document planning
- Input:
Bao gồm 4 thành phần chính cho đầu vào của một hệ thống sinh văn bản
như sau:
+ Nguồn tri thức: Có thể là cơ sở dữ liệu trong phạm vi đang nghiên cứu hoặc
cơ sở tri thức.
+ Mục tiêu xác định: Cần chỉ rõ mục đích của những văn bản được sinh ra.
Mục tiêu có thể rất đa dạng ví dụ như: Tổng hợp, so sánh, bổ sung, …
+ Mô hình người dùng: Cần phải xác định rõ đối tượng nào sẽ đọc văn bản
được sinh ra bởi hệ thống. Mỗi kiểu người dùng với những khác biệt về kiến
thức, trình độ, học vấn, nghề nghiệp sẽ có những cách tiếp thu khác nhau.
+ Lịch sử diễn ngôn: Hệ thống cần thông tin về tương tác với người dùng ở
thời điểm trước đó. Sử dụng ở Referring expression của giai đoạn “Micro
Planning”.
- Output:
Giai đoạn “Document Planning” tạo ra các “Document Plan” được biểu diễn
dưới dạng cây nhị phân với các nút lá biểu diễn các thông điệpvà giữa hai lá
là thông tin biểu diễn mối quan hệ giữa hai nút lá tức là chỉ rõ rằng hai thông
điệp bên trái và bên phải được liên kết với nhau như thế nào. Thông tin biểu
diễn mối quan hệ này được gọi là quan hệ diễn ngôn (Discourse Relation).
Ví dụ cây biểu diễn cấu trúc diễn ngôn:
2.1.2. Biểu diễn thông tin
2.1.2.1. Mô hình biểu diễn thông tin
Mô hình gồm có 4 thành phần sau:
- Thực thể (Entities)
- Thuộc tính (Attributes):
- Quan hệ (Relationships):
- Lớp (Classes):
2.1.2.2. Định nghĩa các thông điệp
Công việc ở đây là cần xây dựng nên những thông điệp từ những dữ liệu thô ban
đầu. Trước tiên là công việc quyết định xem cần phải có những loại thông điệp
nào, mỗi loại thông điệp cần có những thông tin gì, quan hệ giữa chúng ra sao.
Một ví dụ về lớp TemperatureSpellMsg trong hệ thống dự báo thời tiết:
- Từ bảng nhiệt độ
[...]... thống sinh ngôn ngữtựnhiên 3.1 Đặt vấn đề: - Bài toán đặt ra là sinh các câu cho module tổng hợp ý kiến đánh giá của người dùng dựa về các thiết bị di động Input và output: + Input: Dữ liệu tổng hợp được từ các module sumarization trước đó + Output: Hệ thống sinh ra từng câu riêng biệt, phù hợp với thông tin nhận được từ module sumarization 3.2 Phân tích hệ thống: - - - Mục đích của hệ thống là sinh. .. đánh giá cao về màn hình với tỷ lệ bình luận tích cực 75% 3.7: Kết quả thực nghiệm: Kết quả một số câu sinh ra như sau: TÀI LIỆU THAM KHẢO http://en.wikipedia.org/wiki/Natural_language_generation Building Applied Natural Language Generation Systems (Ehud Reiter, Robert Dale, 1997) Sinh ngôn ngữtựnhiên - KLTN ĐH Công nghệ – Nguyễn Hoàng Nam 2012 ... quan hệ diễn ngôn giữa các thông điệp hoặc nhóm thông điệp 2.1.3.1 Quan hệ diễn ngôn (Discourse Relation) Quan hệ diễn ngôn xác định mối quan hệ liên kết giữa các thông điệp hoặc nhóm thông điệp với nhau Chung quy trong các văn bản, có 4 kiểu quan hệ diễn ngôn chính là : - Cụ thể hóa vấn đề (Elaboration) Dẫn chứng vấn đề (Exemlification) Đối lập (Contrast): Chuỗi tường thuật (Narrative Sequence) 2.1.3.2... câu Output: Các câu được hoàn chỉnh Nhiệm vụ: Sinh ra một câu hoàn chỉnh từ tập các message đã tạo ra + Khởi tạo môi trường, tập các từ đồng nghĩa phục vụ việc sinhtừngữ + Từ các object kiểu Message, gọi các template thích hợp để tạo ra các đặc tả cụm, từ đó sinh ra câu hoàn chỉnh 3.4.3 PPSAbstracSyntax Template - Nhiệm vụ: Chứa những template PPS phục vụ sinh câu Các class nằm trong package PPSTemplate... user interface - Nhiệm vụ: hiển thị kết quả ra màn hình dưới dạng giao diện người dùng Input: Các câu sinh ra từ hệ thống sinhngônngữ Output: + Window Hiển thị trực quan cho người dùng, có các chức năng generate ( tạo tiếp câu ), backward ( xem câu tạo trước đó), forward (xem câu kế tiếp) + Các câu sinh ra được ghi vào mảng để tiện theo dõi 3.5 Luồng điều khiển của hệ thống: XML Read Input PPS Template... trường hợp của các tiếp cận này là cách sử dụng các mệnh đề quan hệ trong tiếng Anh + 2.2.3 Quy chiếu từ/cụm từ - - - Là quá trình chọn các từ hoặc cụm từđể thay thế cho các thực thể (entity) Mô hình diễn ngôn (discourse model): chứa thông tin liên quan đến ngữ cảnh: + Physical context: là ngữ cảnh có tính đến các yếu tố bên ngoài + Discourse context: ngữ cảnh của đoạn văn mà ta đang xử lí + Các hệ thống... Plan”, ánh xạ các thông điệp thành các từngữ có ý nghĩa với người sử dụng Như đã nói ở trên, ta sẽ sử dụng các template dựng sẵn cho mỗi đặc tả cụm nguyên thủy rồi áp thông tin từ các thông điệp vào mẫu này Ví dụ về một đặc tả cụm nguyên thủy được tạo ra từ template: Một vấn đề với công đoạn này đó là lựa chọn từngữ thế nào cho phù hợp Một số cơ chế để lựa chọn từngữbao gồm cây quyết định (decision... hình diễn ngôn đơn giản nhất đó là một danh sách các thực thể đã được đề cập từ trước đó, bên cạnh đó có thể có thêm một số các đặc điểm khác để phân biệt giữa các thực thể Tham chiếu khởi tạo : dùng để giới thiệu thực thể, cùng với một số thông tin khác như hoàn cảnh, điều kiện, đểdễ dàng phân biệt với các thực thể khác Tham chiếu kéo theo : dùng dể tham chiếu tới những thực thể đã được đề cập trước... được với các thực thể khác nằm trong mô hình diễn ngôn 2.3 Trình bày văn bản (Surface Realisation) : - - - Khi nói tới quá trình xử lý “text specification” thì người ta thường nghĩ tới 2 hướng xử lý không liên quan tới nhau Thứ nhất được gọi là “Structure Realisation” Thứ hai được gọi là “Linguistic Realisation” “Structure Realisation” sẽ thể hiện ngônngữ trong các kiểu được quy định nào đó để còn thông... bước từ 1 đến 5 với tập văn bản được lấy ra lớn hơn 2.1.2.4 Quyết định nội dung (Content Determination) “Content determination” là thuật ngữđể chỉ công việc quyết định những “message” nào sẽ được sử dụng trong văn bản sinh ra Điều này phụ thuộc vào mục tiêu mà văn bản sinh ra cũng như lĩnh vực sẽ sử dụng Các công việc trong quá trình quyết định nội dung: - - Chọn lựa dữ liệu: Chọn ra một tập các dữ liệu . hệ thống sinh ngôn ngữ tự nhiên
Chương I: Tổng quan về sinh ngôn ngữ tự nhiên
1. Bài toán sinh ngôn ngữ tự nhiên
1.1. Khái niệm
Sinh ngôn ngữ tự nhiên (Natural. Nội
Khoa Công nghệ thông tin
BÁO CÁO ĐỀ TÀI
SINH NGÔN NGỮ TỰ NHIÊN
GVHD: tiến sĩ Lê Anh Cường
BÁO CÁO
SINH NGÔN NGỮ TỰ NHIÊN
Nhóm 8:
Nguyễn Trung Hiếu
Trương