slike thuyết trình báo cáo tách tên riêng trong bài báo tiếng việt

Xử lý ngôn ngữ tự nhiên Đề tài: nhận diện tên người trong văn bản tiếng việt Giáo viên hướng dẫn : PGS TS Lê Thanh Hương Sinh viên thực hiện: Nguyễn Hoàng Long - 20081590 Bùi Hữu Linh -20081512 Nguyễn Công Chiến-20080255 Vũ Minh Duẩn-20080433 1. Giới thiệu đề tài 2. Bài toán trích chọn thực thể 3. Các cách giải quyết bài toán trích chọn thực thể 4. Chương trình Mục lục  Công nghệ thông tin phát triển, trợ giúp con người ở nhiều lĩnh vực , do đó máy tính phải hiêu được con người , điều đó đưa đến việc xử lý ngôn ngữ tự nhiên trong máy tính.  Một bài toán cơ sở của việc xử lý ngôn ngữ tự nhiên đó là nhận diện loại thực thể để trích chọn ra các thông tin có ý nghĩa .  Đề tài này em đề cập đến vấn đề chú thích tên người trong văn bản tiếng việt sử dụng bài toán nhận diện thực thể qua đó hỗ trợ xây dựng một Web ngữ nghĩa. 1. giới thiệu đề tài  Các thông tin trong văn bản là rất lớn , việc hiểu nội dung thông tin trong văn bản đòi hỏi phải biết được trong văn bản đó có những loại thực thể nào. Một ví dụ 2. Bài toán trích chọn thực thể  Bài toán nhận diện thực thể để chú thích thông tin là bươc cơ sở trong số các bài toán trích chọn thông tin, cho phép chúng ta lấy ra được các thuộc tính của thực thể ( tên , tuổi, ngày sinh….)  Việc xác định tên người trong văn bản tiếng việt là khó khăn nhất, rất dễ nhập nhằng.  Chúng ta sẽ xét một số bài toán giải quyết các vấn đề này trong phần sau 2. Bài toán trích chọn thực thể 3.1 Hướng thủ công 3.2 Mô hình Markov ẩn (HMM) 3.3 Mô hình Markov cực đại hóa entropy (MEMM) 3.4 Mô hình Condinional Random Fields(CRF) 3. Các cách giải quyết bài toán nhận dạng thực thể  Phương pháp thủ công hay được dùng nhất đó là dùng luật , rất nhiều nhiệm vụ trích chọn được thực hiện thông qua các luật  Luật thường được dùng với việc trích chọn các thông tin đặc trưng( ví dụ: số điện thoai, email,…)  Cấu trúc một luật Giả thiết kết luận  Giả thiết chứa các mẫu hay ngữ cảnh chúng xuất hiện , đó là các đặc trưng trong văn bản( ví dụ : huyện Yên Dũng, tỉnh bắc Giang)  Phần kết luận là loại nhãn gán cho thực thể.  Tuy nhiên việc xây dựng nó tốn rất nhiều công sức. 3.1 Hướng thủ công  HMM là mô hình máy trạng thái hữu hạn với các tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu trại mỗi một trạng thái.  Các trạng thái được xem là ẩn đi bên dưới dữ liệu quan sát sinh ra trong mô hình . Ở đây thành phần quan sát được sẽ được sinh ra trước khi chuyển trạng thái tiếp theo  Trong bài toán gán nhán thực thể các nhãn là các trạng thái bị ẩn đi còn dữ liệu quan sát được là các từ trong câu.  Vấn đề trong mô hình này là việc liệt kê các trạng thái quan sát được là không thể, để giải quyết vấn đề này đưa ra một giả thiết về sự đọc lập giữa cá dữ liệu quan sát. 3.2 Mô hình Markov ẩn(HMM)  Ta có công thức  P(O) có thể tính nhờ thuật toán forward-backward, việc tìm chuỗi S* làm cực đại hóa xác suất P(S|O) tương đương với việc tìm S* làm cực đại P(S,O). 3.2 Mô hình Markov ẩn (HMM)  Ta có thể tính xác suất P(S,O) theo công thức sau:  Ví dụ : Alice và Bod 3.2 Mô hình Markov ẩn [...]... ra không có nhập nhằng thì hàm độ tương tự trong CRF là hàm lồi 3.4.1 công cụ FlexCRF L-BFGs là một phương pháp quasi-Newton với bộ nhớ có giới hạn để tối ưu ∗ hóa hàm lồi Giả sử là chuỗi trạng thái của chuỗi huấn luyện trong tập D khí đó thành phần gradient của hệ số là: Trong đó (y|x) là số lượng đặc trưng đặc điểm tương ứng với từ y và x( đặc điểm hay trong công thức (3) Hai thành phần đầu tiên... Fields( CRF) Bài toán đặt ra là xác định các tham số θ=(,…) từ tập dữ liệu ∗ D=(,), với xác suất thực nghiệm (x|y) để tối đa hóa hàm mục tiêu giống nhau(log-likelohood)  Một số hàm ước lượng tham số được sử dụng là : IIS,GIS, L-BFGs… 3.4.1 công cụ FlexCRF Là công cụ gán nhãn dữ liệu dựa trên mô hình CRF do hai tác giả Phan Xuân Hiếu, Nguyễn Lê Minh xây dựng để xử lý văn bản tiếng việt FlexCRF được... thị trong đó Y=(, do đó Y được xác định dựa trên các đỉnh của G Khi đó (X,Y) là một CRF trong trường hợp , khi với điều kiện trên X, các biến ngẫu nhiên tuân theo thuộc tính Markov đối với đồ thị G như sau: P(|X, ,w≠v) = P(|X, ,w~v) 3.4 Mô hình Condinional Random Fields( CRF) Nếu X có các thông tin có quan hệ lẫn nhau thì X có cấu trúc dạng cây , thể ∗ hiện dưới dạng X=(,,….) và Y=(,,….) Theo lý thuyết. .. Thành phần cuối cùng là độ lệch Gauss đạo hàm bậc nhất 4 Chương trình Các chức năng hệ thống • Tạo file model • Nguồn dữ liệu đầu vào có thể là file văn bản hoặc một link web • Xử lý văn bản đầu vào ra file đặc trưng chưa được gán nhãn sau đó xử lý qua CRF để thu được một file đã gán nhãn Các chức năng sẽ được minh họa trong chương trình dưới đây Quesion ... nhược điểm trên MEMM thay thế các xác suất trong HMM bởi hàm xác suất duy nhất P(|,) có nghĩa quan sát hiện tại không chỉ phụ thuộc vào trạng thái hiện tại mà còn phụ thuộc vào trạng thái trước nó 3.3 Mô hình Markov cực đại hóa Entropy(MEMM) Ta có công thưc Markov thứ nhất Để gán nhãn cho dữ liệu , MEMM xác định chuỗi trạng thái S làm cực đại hóa P(S,O) trong công thưc trên Tuy nhiên điều này nảy... cây , thể ∗ hiện dưới dạng X=(,,….) và Y=(,,….) Theo lý thuyết trường ngẫu nhiên của Hammersley& Clifford x là chuỗi dữ liệu , y là chuỗi nhãn y|s là tập các thành phần y có mối quan hệ với các đỉnh trong s , là các hệ số tỉ lệ đối với các đặc điểm tương ứng là điểm cạnh trên chuỗi quan sát x và hai nhãn , là đặc điểm trạng thái trên chuỗi quan sát x,và nhãn 3.4 Mô hình Condinional Random Fields( . cơ sở trong số các bài toán trích chọn thông tin, cho phép chúng ta lấy ra được các thuộc tính của thực thể ( tên , tuổi, ngày sinh….)  Việc xác định tên người trong văn bản tiếng việt là. vấn đề chú thích tên người trong văn bản tiếng việt sử dụng bài toán nhận diện thực thể qua đó hỗ trợ xây dựng một Web ngữ nghĩa. 1. giới thiệu đề tài  Các thông tin trong văn bản là rất lớn. , việc hiểu nội dung thông tin trong văn bản đòi hỏi phải biết được trong văn bản đó có những loại thực thể nào. Một ví dụ 2. Bài toán trích chọn thực thể  Bài toán nhận diện thực thể để chú

Định dạng
Số trang	20
Dung lượng	1,01 MB