Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Tài liệu tham khảo công nghệ thông tin Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Trang 1

TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Loan

TÌM HIỂU MÔ HÌNH CRF

VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THÔNG TINTRONG TIẾNG VIỆT

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn : Tiến Sĩ Nguyễn Trí Thành

Trang 3

Mình xin cảm ơn tập thể sinh viên K50C Trường Đại học Công Nghệ đã ủng hộ vàkhuyến khích tôi trong quá trình nghiên cứu và thực hiện khóa luận này.

Cuối cùng, con xin cảm ơn chân thành và biết ơn vô hạn tới gia đình, những ngườicó công sinh thành, nuôi dưỡng, những người luôn kịp thời động viên và giúp đỡ vượt quanhững khó khăn trong cuộc sống.

Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưngchắc chắn sẽ không tránh khỏi những thiếu sót Chúng em kính mong nhận được sự thôngcảm của quý Thầy Cô và các bạn

Hà Nội, ngày 12 tháng 5 năm 2009 Sinh viên

Trang 4

TÓM TẮT

Nội dung của khóa luận là tìm hiểu mô hình CRF, và ứng dụng của mô hình nàytrong trích chọn thông tin trong tiếng Việt Trước hết khóa luận trình bày những kháiniệm chung về trích chọn thông thông tin Đồng thời nêu đến hai hướng tiếp cận để xâydựng một hệ thống trích chọn thông tin cũng như ưu nhược điểm của từng hướng tiếp cận,Đồng thời cũng nêu ra được ứng dụng của trích chọn thông tin trong tiếng Việt như thếnào Cụ thể ở đây là bài toán trích chọn thông tin nhà đất.

Để ứng dụng trích chọn trong tiếng Việt luận văn đã nêu ra được ba mô hình họcmáy trong đó tập trung chủ yếu vào mô hình Conditional Random Field –CRF Bất kỳ môhình nào cũng có ưu nhược điểm trong luận văn này trình bày hai vấn đề lớn của mô hìnhCRF đó là vấn đề gán nhãn và ước lượng tham số Đồng thời cũng trình bày về công cụhữu ích CRF++.

Luận văn cũng trình bày được việc ứng dụng mô hình CRF làm nền tảng lý thuyếtvà cơ sở thực hành là công cụ CRF vào bài toán trích chọn thông tin nhà đất Một bài toánnhỏ trong bài toán xử lý ngôn ngữ tự nhiên.

Trang 5

1.2 CÁC CÁCH TIẾP CẬN TRÍCH CHỌN THÔNG TIN 5

1.2.1 Hướng tiếp cận dựa trên tri thức 5

1.2.2 Hướng tiếp cận xây dựng các mô hình học máy 5

1.3 KIẾN TRÚC HỆ THỐNG IE 7

1.4 BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 8

1.5 Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 9

1.6 TỔNG KẾT CHƯƠNG 10

Chương 2 CONDITIONAL RANDOM FIELDS 11

2.1 MÔ HÌNH MARKOV ẨN- HMM 11

2.2 MÔ HÌNH CỰC ĐẠI HÓA ENTROPY-MEMM 13

2.3 MÔ HÌNH CONDITIONAL RANDOM FIELDS 15

2.3.1.Việc gán nhãn cho dữ liệu tuần tự 15

2.3.2 Định nghĩa CRF 16

2.3.3 Nguyên lý cực đại hóa Entropy 18

2.3.3.1 Độ đo Entropy điều kiện 18

2.3.3.2 Các ràng buộc đối với phân phối mô hình 19

2.3.3.3 Nguyên lý cực đại hóa Entropy 20

2.3.4 Hàm tiềm năng của các mô hình CRF 20

2.3.5 Conditional Random Fields 21

Trang 6

3.2 XÁC SUẤT CRF ĐƯỢC TÍNH NHƯ MỘT MA TRẬN 25

3.3 ƯỚC LƯỢNG THAM SỐ CHO MÔ HÌNH CRF 26

4.1 MÔ HÌNH HÓA BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT 37

4.1.1 Xử lý dữ liệu đầu vào 38

4.2 MÔI TRƯỜNG THỰC NGHIỆM 39

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1 Một hệ thống trích chọn thông tin 4

Hình 2 Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức 5

Hình 3 Mô hình xây dựng IE theo mô hình học máy 6

Hình 4 Modules chính của hệ thống IE 7

Hình 5 HMM 12

Hình 6 Đồ thị vô hướng HMM 12

Hình 7 Đồ thị có hướng mô tả cho mô hinh MEMM 13

Hình 8 Label alias 14

Hình 9 Một trường ngẫu nhiên 17

Hình 10 Đồ thị vô hướng mô tả cho CRF 17

Hình 11 Mô tả các hàm tiềm năng 18

Hình 12 Tỷ lệ lỗi của CRF so với các mô hình học máy khác 23

Hình 13 Mô hình hoạt động của CRF++ 31

Hình 14 Mô hình xử lý dữ liệu của bài toán trích chọn nhà đất 38

Hình 15 Biểu đồ thể hiện sự tương quan giữa hai lần kiểm tra 44

Trang 10

LỜI MỞ ĐẦU

Trong thời đại bùng nổ công nghệ thông tin như hiện nay thì việc ứng dụng côngnghệ thông tin trong các lĩnh vực của đời sống ngày càng đa dạng và phong phú Toànbộ các ứng dụng đều thực hiện trên các thông tin đầu vào từ dạng đơn giản đến phứctạp Từ dạng văn bản dạng ký tự thông thường cho đến những thông tin đầu vào phứctạp như hình ảnh, âm thanh.

Việc ứng dụng công nghệ xử lý ngôn ngữ cũng hết sức phong phú Có thể kể tớitrong những năm gần đây có một số công nghệ rất nổi tiếng như [1]: HãngSAMSUNG đưa ra thị trường điện thoại di động P207 có thể nhận biết được các câunói đơn giản ví dụ “tôi sẽ gọi lại” rồi chuyển chúng về dạng tin nhắn Bên cạnh đó córất nhiều những công nghệ dịch tự động trên web như Language Tool dịch nhiều thứtiếng trong google Có thể phân loại các bài toán như xử lý tiếng nói hay xử lý hìnhảnh (speech and image processing), xử lý văn bản (text processing), khai phá văn bảnhoặc web (text and web mining) Tất cả các bài toán đều được thực hiện bằng máy, tuynhiên vấn đề đặt ra là làm thế là để máy có thể xử lý một cách tự động lại là một bàitoán khó Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của con người.

Đối với tiếng Việt đã có một số các sản phẩm liên quan đến tiếng Việt như: Bộgõ chữ tiếng Việt, chương trình nhận dạng chữ tiếng Việt như VnDOCR của việnCông Nghệ Thông Tin, các phần mềm như EVTRAN, gần đây tiêu biểu là kết quả củaviệc Việt hóa Windows và Office.

Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, việc hiểu các công nghệngôn ngữ là rất cần thiết Trong luận văn này đề cập tới ứng dụng của CNTT trongviệc trích chọn thông tin trong tiếng Việt Có rất nhiều phương pháp, trong luận vănnày giới thiệu mô hình Conditional Random Field là cơ sở lý thuyết để thực hiện côngviệc và công cụ CRF++ để thực hành trích chọn thông tin trong tiếng Việt và cụ thể làbài toán trích chọn thông tin nhà đất.

Trong khuôn khổ của khóa luận tốt nghiệp với đề tài “Tìm hiểu mô hình CRF vàứng dụng trong trích chọn thông tin trong tiếng Việt” em xin trình bày một công nghệứng dụng trong việc xử lý ngôn ngữ tiếng Việt Nội dung khóa luận gồm 4 chương:

 Chương 1: Tổng quan: Giới thiệu tổng quan về trích chọn thông tin, và

các cách tiếp cận để xây dựng hệ thống trích chọn thông tin những ứngdụng của trích chọn thông tin, và ứng dụng trong xử lý tiếng Việt, đồng

Trang 11

thời cũng mô hình hóa và nêu được ý nghĩa của bài toán trích chọn thôngtin nhà đất.

 Chương 2: Conditional Random Fields: Chương này giới thiệu một số

mô hình học máy như HMM, MEMM và tập trung vào mô hìnhConditional Random Field – CRF Đưa ra được khái niệm trường ngẫunhiên, trường ngẫu nhiên có điều kiện Đồng thời cũng chỉ ra được rằngmô hình CRF hiệu quả hơn so với các mô hình học máy khác

 Chương 3: Thuật toán gán nhãn và ước lượng tham số cho mô hình

CRF và công cụ CRF++: Chương này đưa ra hai vấn đề cơ bản của mô

hình CRF và hướng giải quyết hiệu quả nhất Ở đây thuật toán gán nhãn sửdụng thuật toán Viterbi một thuật toán trong quy hoạch động Và hai thuậttoán T và thuật toán S giải quyết vấn đề ước lượng tham số cho mô hìnhCRF Đồng thời cũng giới thiệu được công cụ CRF++ toolkit, một công cụcài đặt mô hình CRF được sử dụng trong bài toán trích chọn thông tin nhàđất.

 Chương 4: Ứng dụng CRF vào bài toán trích chọn thông tin nhà đất:

Chương này nói về việc ứng dụng của mô hình CRF đã nói ở các chươngtrước vào bài toán trích chọn thông tin nhà đất Một hướng đi mới trongbài toán xử lý ngôn ngữ tự nhiên.

Trang 12

Chương 1

TỔNG QUAN

Chủ đề chính của khóa luận là tìm hiểu mô hình Conditional Random Field vàứng dụng trong trích chọn thông tin trong tiếng Việt Chương này sẽ giới thiệu tổngquan về trích chọn thông tin và các hướng tiếp cận trích chọn thông tin Đồng thờicũng nêu được ý nghĩa của việc trích chọn thông tin trong tiếng Việt.

1.1 TRÍCH CHỌN THÔNG TIN

Khi tìm kiếm một thư mục có chứa rất nhiều thư mục con hoặc rất nhiều file vớinhiều định dạng khác nhau Thực chất là chúng ta đang làm việc với các ký tự [10][11] Do vậy có rất nhiều hướng để xử lý như:

 Lọc, đếm từ: Tập tin như một chuỗi các ký tự ASCII Ví dụ trong Linux có thể

tìm kiếm file hoặc các ký tự bằng lệnh grep với điều kiện là đưa ra một chuỗi

Không giống như việc hiểu toàn văn bản (tất cả các câu chữ đều liên quan đếnnhau), các hệ thống trích chọn thông tin chỉ cố gắng nhận biết một số nội dung thôngtin đáng quan tâm Có thể kể tới các mức độ trích chọn thông tin từ văn bản sau: Tríchchọn các thực thể (Entity Extraction), trích chọn quan hệ giữa các thực thể (RelationExtraction), xác định đồng tham chiếu (Co-reference Resolution) Cũng phải lưu ýrằng trích chọn không đơn thuần là trích chọn trong một văn bản với các ký tự ASCIIhoặc Unicode Trích chọn ở đây có thể là trích chọn âm thanh, trích chọn hình ảnh.Tuy nhiên trong luận văn này chỉ tập chung giới thiệu trích chọn thông tin liên quantới văn bản.

Trang 13

Các kỹ thuật sử dụng trong trích chọn thông tin gồm: Phân đoạn, phân lớp, kếthợp và phân cụm.

Hình 1 Một hệ thống trích chọn thông tin

Trích chọn thông tin như một nhiệm vụ lấp đầy các trường (slots) trong cơ sở dữliệu bằng những đoạn text nhỏ hơn (hay nói cách khác kết quả của một hệ thống tríchchọn thông tin thường là các mẫu chứa một số lượng xác định các trường đã được điềnthông tin) Ví dụ như ở hình 1 ta có một hệ thống trích chọn những tên riêng xuất hiệntrong văn bản, trích chọn các tổ chức liên quan, tìm các sự liên kết giữa các tổ chức vàtên người, vị trí của người đó trong tổ chức và cuối cùng là đưa vào trong cơ sở dữliệu.

October 14, 2002, 4:00 a.m PT

For years, Microsoft CorporationCEOBill Gatesrailed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation.Today, Microsoftclaims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers Gateshimself says Microsoftwill gladly disclose its crown jewels the coveted code behind the Windows operating system to select customers.

"We can be open source We love the concept of shared source," said Bill Veghte, a MicrosoftVP "That's a super-important shift for us in terms of code access.“

Richard Stallman, founderof the Free Software Foundation, countered saying…

Microsoft Corporation

CEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoft

Richard Stallmanfounder

Free Software Foundation NM

Trang 14

1.2 CÁC CÁCH TIẾP CẬN TRÍCH CHỌN THÔNG TIN

1.2.1 Hướng tiếp cận dựa trên tri thức

Đặc điểm của việc xây dựng hệ thống trích chọn thông tin theo hướng này là hệthống luật được xây dựng bằng tay hoàn toàn phụ thuộc vào kinh nghiệm riêng củatừng người trong từng lĩnh vực của IE, các mẫu hay các luật được tạo ra và được kiểmduyệt một cách kỹ lưỡng có quy mô bởi các “knowlegde engineer” [10] Những quytắc luôn được kiểm định nhiều lần Có thể mô hình hóa việc xây dựng này theo hình 2như sau:

Hình 2 Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức

Với cách tiếp cận này thì hệ thống hoạt động theo một chu trình Để xây dựngmột hệ thống hoạt động tốt phải luôn luôn có sự tương tác giữa người viết luật và hệthống cùng với kho ngữ liệu huấn luyện (hình 2) và tập luật luôn luôn được cập nhậtđể cho hệ thống có thể hoạt động tốt nhất.

1.2.2 Hướng tiếp cận xây dựng các mô hình học máy

Với hệ thống IE được xây dựng theo hướng tiếp cận dựa trên tri thức thì chutrình kiểm tra và sửa lỗi gặp rất nhiều khó khăn và phụ thuộc vào nhiều yếu tố như:Loại ngôn ngữ, thời gian và khả năng viết luật Chỉ một vài thay đổi trong đặc tả cũnggây khó khăn trong sự điều chỉnh

Câu trả lời cho các giới hạn này là phải xây dựng một mô hình bằng cách nào đócó thể “tự học” Điều này sẽ giúp làm giảm bớt sự tham gia của các chuyên gia ngônngữ và làm tăng tính linh hoạt cho hệ thống Có rất nhiều phương pháp học máy nhưmô hình markov ẩn (Hidden Markov Models-HMM), các mô hình Markov cực đại hóaEntropy (Maximum Markov Models – MEMM) và mô hình các trường ngẫu nhiên có

Kho tài liệu

Sửa chữaLuật mới

Cập nhật knowlegde engineer

Trang 15

điều kiện ( Conditional Random Fields – CRF)… Các mô hình này sẽ được đề cập chitiết trong chương sau.

Các đặc điểm phải kể đến của việc xây dựng hệ thống IE theo hướng hệ thống cóthể tự đào tạo (automatic training approach) là không cần một người nào đó hiểu biếtvề cách hoạt động của hệ thống IE và viết luật cho nó như thế nào [10] Điều cần thiếtở đây là một người nào đó biết được miền ứng dụng của nó và hiểu được những thôngtin cần rút trích Một khi dữ liệu huấn luyện được chú thích, thuật toán huấn luyệnchạy và sinh ra những thông tin học được hay còn gọi là model để phục vụ cho quátrình trích chọn tự động sau này Mô hình với hướng tiếp cận này được mô tả qua hình3 như sau: Các thuật học sẽ dựa trên dữ liệu để tự học và thu được một model, dựa trênmodel này nó sẽ trích chọn các thông tin trên dữ liệu mới.

Hình 3 Mô hình xây dựng IE theo mô hình học máy

Khi xây dựng hệ thống IE theo hướng này phải tập trung vào việc tạo ra dữ liệuhuấn luyện Hệ thống có thể tự học mà không cần sự can thiệp của bất kỳ các chuyênviên nào Tuy vậy việc xây dựng và lưu trữ tập dữ liệu huấn luyện rất khó và đắt vì đểhệ thống có thể thực hiện tốt thì yêu cầu dữ liệu phải nhiều đó cũng là hệ quả dẫn đếnviệc khó sửa đổi Vì chỉ cần thêm hoặc xóa các thuộc tính thì cần phải thay đổi trêntoàn tập huấn luyện của nó.

Tùy vào công việc và những điều kiện đã có mà ta có thể xây dựng hệ thống IEtheo hướng các mô hình học máy hoặc theo hướng tiếp cận dựa tri thức Ví dụ như khinguồn văn bản và người viết luật đáp ứng được yêu cầu thì nên xây dựng hệ thống IEtheo hướng tiếp cận dựa tri thức, hoặc khi các mô tả về thông tin trích chọn luôn có sựthay đổi thì cũng lên làm theo hướng thứ nhất Còn với dữ liệu lớn thì nên xây dựng hệthống IE theo mô hình học máy.

Dữ liệuHuấn luyện

Thuật toán học

Model file

Trang 16

1.3 KIẾN TRÚC HỆ THỐNG IE

Mặc dù hệ thống IE được xây dựng theo các ứng dụng và công việc khác nhau,theo những cách khác nhau Nhưng về cơ bản thì một hệ thống IE nói chung có nhữngphần tử chính được mô tả trong hình sau:

Hình 4 Modules chính của hệ thống IE

Với mô hình trên thì tùy thuộc vào từng ngôn ngữ mà có các bài toán cụ thể vàcó những phương pháp xử lý cho phù hợp Với rất nhiều ngôn ngữ đa dạng do vậy hệthống từ tố của mỗi quốc gia sẽ khác nhau: Ví dụ như ngôn ngữ Trung Quốc và NhậtBản khác hẳn so với chuẩn ngôn ngữ European Nhưng chúng ta quan tâm là đối vớitiếng Việt thì có những khó khăn gì trong quá trình xử lý Về mặt ngữ pháp và ngữnghĩa gặp rất nhiều khó khăn Vì các công cụ để xử lý trong các bước trên là hầu nhưchưa có sẵn, hơn nữa đối với tiếng Việt là một ngôn ngữ đơn âm và đa âm phức tạp dovậy việc xử lý cũng gặp khó khăn.

Phân đoạn từ

Gán nhãn từ loại

Phân tích cú pháp hoàn chỉnh

Đồng tham chiếu

Trộn các kết quảPhân tích từ tố

Xử lý hình thái, và từ vựng

Phân tích cú pháp

Phân tích miền

Trang 17

1.4 BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT

Các bài toán điển hình trong xử lý tiếng Việt đó là: nhận biết các loại thực thể,phân nhóm các cụm từ tiếng Việt, phân loại văn bản tiếng Việt Đây là những bài toáncơ bản nhưng đóng vai trò quan trọng để giúp xử lý các bài toàn phức tạp trong lĩnhvực này Trong luận văn này trình bày bài toán trích chọn thông tin nhà đất.

Ở đây chúng ta phải phân biệt rõ giữa tìm kiếm thông tin (Information Retrival IR) và trích chọn thông tin (Information Extraction -IE) IR có thể hiểu đơn giản là từmột nguồn rất nhiều tệp văn bản hay tiếng nói tìm ra những tệp có nội dung liên quanđến một câu hỏi hay một điều cần biết Điển hình của công nghệ này là Google, một hệtìm kiếm trên web Cần nói thêm rằng mặc dù rất hữu hiệu, nhưng google chỉ chochúng ta tìm theo những từ khóa và đôi khi tìm những kết quả không hề liên quan,hoặc tìm ra những văn bản vốn đã tồn tại trên Web.

-Với Information Extraction từ một nguồn rất nhiều tệp văn bản hay lời nói tìm ranhững đoạn bên trong một số tệp liên quan đến một vấn đề cần quan tâm Ví dụ xétmột bản tin nhà đất sau:

“Cần bán chung cư TT9 Văn Phú mặt đường Lê Trọng Tốn, diện tích 90m2, mặttiền 4,5m Giá bán: 1 tỷ Liên hệ: 0988830999”

Với bản tin nhà đất trên ta chỉ cần quan tâm đến địa chỉ, diện tích, giá bán, loạinhà và điện thoại liên hệ Do vậy không nhất thiết phải hiểu toàn văn bản, mục đíchcủa bài toán trích chọn thông tin nhà đất là làm sao đưa ra được các thông tin liên quanđến địa chỉ, diện tích, giá bán, loại nhà… từ một khối dữ liệu rất lớn Với mục đích đóvăn bản trên có thể được mô phỏng bằng cách gán nhãn như sau:

Cần bán chung<B-LN> cư<I-LN> TT9<B-DC> Văn <I-DC> Phú<I-DC> mặtđường Lê <B-DC> Trọng <I-DC>Tốn <I-DC>, diện tích 90m2<I-DT>, mặt tiền 4,5m.Giá bán: 1<B-GB> tỷ <I-GB> Liên hệ: 0988830999 <B-DD>.

Với các quy ước các nhãn cho các từ tố trong đoạn tin trên như sau:

 DC: Địa chỉ trong đó B-DC là từ bắt đầu của địa chỉ và I-DC là các từtiếp theo của địa chỉ

 GB: Giá bán trong đó B-GB là từ bắt đầu của giá bán và I-GB là các từtiếp theo của giá bán

 DT: Diện tích trong đó B-DT là từ bắt đầu của diện tích và I-DT từ tiếptheo của diện tích

Trang 18

 DD:Di động trong đó B-DD là từ bắt đầu của số di động và I-DD là các từtiếp theo của số di động

 LN: loại nhà có thể là chung cư hoặc căn hộ, trong đó B-LN là từ bắt đầuloại nhà, I-LN là từ tiếp theo của loại nhà.

Cũng như các bài toán trích chọn khác như: trích chọn thực thể, nhận dạng tên,trích chọn thông tin nhà đất cũng có các hướng tiếp cận khác nhau, trong luận văn nàytập trung vào bài toán trích chọn thông tin nhà đất theo phương pháp học máy bằngcách sử dụng mô hình CRF Một mô hình được đánh giá là có chất lượng cao đối vớibài toán trích chọn thông tin.

1.5 Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT

Trong bất cứ một ngôn ngữ nào thì việc thì việc tìm ra những thông tin liên quanlà điều rất quan trọng mà không cần phải đọc hiểu toàn bộ văn bản Chính vì vậy việctrích chọn thông tin có một nghĩa rất lớn trong việc xử lý ngôn ngữ tự nhiên.

 Tiết kiệm thời gian Như chúng ta đã biết thì mỗi một bản tin đăng trên những website khác nhau thì có những định dạng rất khác nhau: Có thể là định dạng văn bản thông thường, cũng có thể là dạng bảng biểu, hoặc các đường liên kết… Với những cách thể hiện văn bản như vậy thì việc tìm ra những thông tin như diện tích của ngôi nhà, địa chỉ… Là một việc tương đối khó khăn Với bài toán trích chọn thông tin nhà đất thì sẽ tiết kiệm thời gian rất nhiều cho người bán và người mua.

 Có thể tìm kiếm thông tin chính xác hơn rất nhiều Vấn đề ở đây là trong một bản tin có sự nhập nhằng giữa thông tin địa chỉ của mảnh đất và địa chỉ của người chủ Việc trích chọn có thể giảm bớt sự nhập nhằng trong thông tin này.Nói rộng hơn nữa bài toán trích chọn thông tin nhà đất chỉ là bài toán nhỏ Từ bàitoán này ta cũng thấy được ý nghĩa của việc trích chọn thông tin trong tiếng Việt.

 Giúp cho việc tóm tắt văn bản chính xác nếu như chủ đề của văn bản được chỉ rõ

 Tự tạo ra các trường liên quan một cách tự động trong cơ sở dữ liệu được lấy từ văn bản

 Một số ứng dụng điển hình của trích chọn thông tin: sử dụng trích chọn thông tin trong thư viện số- DL (Digital Libraries) - thư viện số có thể hiểu là các văn

Trang 19

bản hoặc hình ảnh… Rút trích thông tin từ thư điện tử Trích chọn tiểu sử người (có thể là chân dung, vị trí, email, địa chỉ, số điện thoại, số fax…)

1.6 TỔNG KẾT CHƯƠNG

Chương này giới thiệu tổng quan về trích chọn thông tin Với hai hướng tiếp cậncủa xây dựng hệ thống trích chọn thông tin theo hướng máy tri thức và theo hướng hệthống tự đào tạo giúp mọi người có thể hình dung ra được các cách tiếp cận với tríchchọn thông tin Đồng thời cũng nêu ra được nhiệm vụ của khóa luận.

Trang 20

Chương 2

CONDITIONAL RANDOM FIELDS

Như giới thiệu trong chương trước, chương này giới thiệu vào một số mô hìnhhọc máy, trong đó tập trung vào mô hình Conditional Random Fields (CRF) [11] [13][8] [17], phần đầu nêu lên hai mô hình học máy HMM, và MEMM và những vấn đềgặp phải từ đó nêu lên mô hình học máy CRF có thể giải quyết được các vấn đề đónhư thế nào Đồng thời cũng giới thiệu được chi tiết về mô hình CRF như: Đưa rađược định nghĩa CRF, xác định các hàm tiềm năng của CRF thông qua nguyên lý cựcđại hóa Entropy, xác định được các ràng buộc của mô hình.

Một số qui ước ký hiệu:

 Chữ viết hoa X, Y, Z kí hiệu cho các biến ngẫu nhiên.

 Chữ đậm x ví dụ: x = (x1, ,xn), y, t ký hiệu các vector vector

biểu diễn chuỗi dữ liệu quan sát , vector biểu diễn chuỗi các nhãn. xi , yi biểu diễn các thành phần trong một vector.

 chữ viết thường x, y, z… là ký hiệu cho một giá trị đơn như một

dữ liệu quan sát hay một trạng thái. S là tập các hữu hạn trạng thái.

 O là tập dữ liệu quan sát được.

2.1 MÔ HÌNH MARKOV ẨN- HMM

Mô hình Markov được giới thiệu vào cuối những năm 1960 [12] Cho đến hiệnnay nó có một ứng dụng khá rộng như trong nhận dạng giọng nói, tính toán sinh học(Computational Biology ), và xử lý ngôn ngữ tự nhiên.

HMM là mô hình máy hữu hạn trạng thái với các tham số biểu diễn xác suấtchuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái.

Mô hình Markov ẩn là mô hình thống kê trong đó hệ thống được mô hình hóađược cho là một quá trình Markov với các tham số không biết trước, nhiệm vụ là xácđịnh các tham số ẩn từ các tham số quan sát được Các tham số của mô hình được rútra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp Trong bài toán trích chọnthông tin nhà đất thì các tham số quan sát được đó chính là các từ trong câu, còn cáctrạng thái chính là các nhãn B-DC, I-DC, B-DT, I-DT

Trang 21

Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởingười quan sát [21], và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duynhất (hình 5 có thể mô tả rõ cho điều này).

Hình 5 HMM

- xi — Các trạng thái trong mô hình Markov

- aij — Các xác suất chuyển tiếp

- bij — Các xác suất đầu ra

- yi — Các dữ liệu quan sát

Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bố trêncác biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởiHMM không trực tiếp chỉ ra dãy các trạng thái Ta có tìm ra được chuỗi các trạng tháimô tả tốt nhất cho chuỗi dữ liệu quan sát được bằng cách tính.

P(Y |X)P(Y|X)/P(X) (2.1)

Hình 6 Đồ thị vô hướng HMM

Ở đó Yn là trạng thái tại thời điểm thứ t=n trong chuỗi trạng thái Y, Xn là dữ liệu

quan sát được tại thời điểm thứ t=n trong chuỗi X Do trạng thái hiện tại chỉ phụ thuộc

vào trạng thái ngay trước đó với giả thiết rằng dữ liệu quan sát được tại thời điểm t chỉphụ thuộc và trạng thái t Ta có thể tính P(Y, X)

1) ( | ) ( | )* ( | )(

),

Trang 22

Một số hạn chế của mô hình Markov để tính được xác suất P(Y,X) thông thườngta phải liệt kê hết các trường hợp có thể của chuỗi Y và chuỗi X Thực tế thì chuỗi Y làhữu hạn có thể liệt kê được, còn X (các dữ liệu quan sát) là rất phong phú Để giải

quyết các vấn đề này HMM đưa ra giả thiết về sự độc lập giữa các dữ liệu quan sát:

Dữ liệu quan sát được tại thời điểm t chỉ phụ thuộc vào trạng thái tại thời điểm đó.

Hạn chế thứ hai gặp phải là việc sử dụng xác suất đồng thời P(Y, X) đôi khi khôngchính xác vì với một số bài toán thì việc sử dụng xác suất điều kiện P(Y | X) cho kết

quả tốt hơn rất nhiều.

2.2 MÔ HÌNH CỰC ĐẠI HÓA ENTROPY-MEMM

Mô hình MEMM [4] thay thế các xác suất chuyển trạng thái và các xác suất

sinh quan sát trong HMM bởi một hàm xác suất duy nhất P(Si | Si-1, Oi) (xác suất dịch

chuyển từ trạng thái hiện tại là Si-1 tới trạng thái trước đó là Si với dữ liệu quan sát

hiện tại là Oi) thay vì sử dụng P(Si | Si-1) và P(Oi | Si) Mô hình MEMM quan niệm rằngcác quan sát đã được cho trước và chúng ta không cần quan tâm đến xác suất sinh rachúng mà chỉ quan tâm vào xác suất chuyển trạng thái.

Dưới đây là đồ thị có hướng mô tả cho mô hình MEMM

Hình 7 Đồ thị có hướng mô tả cho mô hinh MEMM

Qua đồ thị ta nhận thấy rằng quan sát hiện tại không chỉ phụ thuộc vào trạng tháihiện tại mà còn có thể phụ thuộc vào trạng thái trước đó.

Xác suất P(S | O) có thể tính như sau:

1, )|

MEMM coi dữ liệu quan sát là các điều kiện cho trước thay vì coi chúng là cácthành phần được sinh bởi mô hình như trong HMM vì thế xác suất chuyển trạng tháicó thể phụ thuộc vào các thuộc tính đa dạng của chuỗi dữ liệu quan sát.

Trang 23

Với mô hình này ta chia P(St |St1,Ot) thành các hàm dịch chuyển được huấn

luyện một cách riêng biệt trong |S| - tập hợp trạng thái Như sau:

Ở đây a là các tham số cần được huấn luyện; Z(Ot, St) là thừa số chuẩn hóa để

tổng xác suất chuyển từ trạng St-1 sang St kề với nó đều bằng 1; fa(Ot, St) là hàm thuộctính tại vị trí thứ i trong chuỗi dữ liệu quan sát và trong chuỗi trạng thái Ở đây ta định

nghĩa mỗi một thuộc tính fa có hai đối số: Dữ liệu quan sát hiện tại và trạng thái hiện

tại McCallum cũng đinh nghĩa a=<b, St> trong đó b chỉ phụ thuộc vào dữ liệu quan sáthiện tại.

1 nếu dữ liệu quan sát hiện tại là “1tỷ”

0 nếu ngược lại

Hàm thuộc tính fa xác định nếu b(Ot) nhận một giá trị xác định:

1 nếu b(Ot)=1 và St=St-1

Vấn đề “label alias” gặp phải trong mô hình MEMM

Vấn đề gặp phải ở mô hình MEMM [14] “lable alias” Xét một ví dụ đơn giảnsau:

Hình 8 label alias

Trang 24

Giả sử ta cần xác định chuỗi trạng thái khi xuất hiện chuỗi quan sát là “rob” dovậy chuỗi trạng thái đúng là 0345 vì vậy ta mong đợi xác suất.

P( 0345|rob ) > P( 0125|rob)

Lại có P(0125|rob) = P(0)*P(1|0, r)*P(2|1,o )*P(5|2, b).

Do xác suất chuyển trạng thái của 2 trạng thái kề nhau là l Do vậy:

Trên đây là những vấn đề hạn chế của HMM và MEMM từ đó cho thấy nhu cầucần thiết của mô hình CRF có thể giải quyết những hạn chế trên.

2.3 MÔ HÌNH CONDITIONAL RANDOM FIELDS

CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp [14][11] CRF là mô hình dựa trên xác xuất điều kiện, thường được sử dụng trong gánnhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên Khác với mô hìnhMEMM, CRF là mô hình đồ thị vô hướng Điều này cho phép CRF có thể định nghĩaphân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát chotrước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó vàquan sát hiện tại như trong mô hình MEMM Chính những tính chất này của CRF màmô hình này giải quyết được vấn đề “label bias”.

2.3.1 Việc gán nhãn cho dữ liệu tuần tự

Nhiệm vụ của gán nhãn tuần tự [13] để thiết lập chuỗi quan sát được xuất hiệntrong nhiều trường Một trong những phương thức phổ biến để thực hiện gán nhãn và

Trang 25

phân đoạn là sử dụng quy tắc HMM hoặc mô hình máy hữu hạn trạng thái để địnhnghĩa chuỗi các nhãn có thể xảy ra nhất cho những từ của bất cứ câu nào.

Theo những nghiên cứu về mô hình Markov ẩn và mô hình cực đại hóa Entropyở trên Thì CRF đã giải quyết được toàn bộ những vấn đề mà hai mô hình trên mắcphải như “ label alias ”[11].

Conditional random fields là một probabilistic framework (theo xác suất) choviệc gán nhãn và phân đoạn dữ liệu tuần tự Thay vì sử dụng xác suất độc lập trên

chuỗi nhãn và chuỗi quan sát, ta sử dụng xác suất có điều kiện P(Y | X) trên toàn bộchuỗi nhãn được đưa bởi chuỗi mỗi chuỗi quan sát X CRF là một mô hình đồ thị vô

hướng định nghĩa một phân bố tuyến tính đơn trên các chuỗi nhãn (trình tự nhãn) đượcđưa ra bởi các chuỗi quan sát được CRFs thuận lợi hơn các mô hình Markov vàMEMM Nó làm tốt hơn cả của MEMM và HMM trên số lượng chuỗi gán nhãn lớn.Vídụ: xét ngôn ngữ tự nhiên, việc gán nhãn cho các từ trong câu sẽ tương ứng với loại từvựng Ở đây các câu sẽ là dữ liệu tuần tự còn nhãn cần gán chính là các từ loại

[NP He ] [VP reckons ] [NP the current account deficit ] [VP will narrow ] [PP to] [NP only # 1.8 billion ] [PP in ] [NP September ]

Trong đó ý nghĩa của các nhãn là: NP: nounse phrase, VP: verb phrase…

Trong bài toán trích chọn thông tin nhà đất của mình thì dữ liệu tuần tự ở đâychính là các bản tin nhà đất, còn các nhãn cần gán đó là các thông tin về địa chỉ (B-DC, I-DC) hoặc diện tích (B-DT,I-DT)…

P  thì V gọi là trường ngẫu nhiên (2.5)

Trang 26

Hình 9 Một trường ngẫu nhiên

P(Y5| Yi)=P(Y5|Y4,Y6) Vậy Y={Y5, Y4,Y6} là trường ngẫu nhiên.

Tiếp đến chúng ta định nghĩa trường ngẫu nhiên có điều kiện như sau: X là biếnngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn.Y là biến ngẫu nhiên nhậngiá trị là chuỗi nhãn tương ứng Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhậngiá trị trong tập hữu hạn các trạng thái S Các đỉnh V biểu diễn các thành phần củabiến ngẫu nhiên Y sao cho tồn tại ánh xạ một – một giữa các đỉnh và một thành phần

Yv của Y Ta nói:

CRF được định nghĩa: (Y | X) là một trường ngẫu nhiên điều kiện (Conditional

Random Field) với điều kiện X khi ta chỉ tính được xác xuất có điệu kiện P(Yi | Xi) với

YiY và Xi X và với mỗi Xi ta chọn được argmaxYiP(Yi | Xi).

Trong bài toán dữ liệu dạng chuỗi, G có thể được biểu diễn như sau: G = ( V={1,2,3,…m}, E={i,i+1}i=1…m-1).

Kí hiệu X=(X1, X2…Xn), Y=(Y1, Y2,…Yn) Ta có mô hình đồ thị vô hướng của CRFcó dạng sau:

Hình 10 Đồ thị vô hướng mô tả cho CRF

Y6

Trang 27

Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G (đồ thị biểu diễn cấutrúc của một CRF) Theo kết quả của Hammerly-Clifford cho các trường Markov, ta

thừa số hóa được p(y | x) – xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ liệu

quan sát – thành tích các hàm tiềm năng:

Có thể mô phỏng như hình sau:

Hình 11 Mô tả các hàm tiềm năng

Tính chất của trường ngẫu nhiên có điệu kiện là:

 Mô hình phân biệt (discriminative models) Mô hình chuỗi (sequential models)

 Mô hình đồ thị vô hướng (Undirected graphical models)

2.3.3 Nguyên lý cực đại hóa Entropy

Laferty xác định các hàm tiềm năng cho các mô hình CRF dựa trên nguyên lýcực đại hóa Entropy [7] Nguyên lý này cho phép đánh giá các phân phối xác suất từmột tập các dữ liệu huấn luyện.

2.3.3.1 Độ đo Entropy điều kiện

Entropy là độ đo tính đồng đều hay tính không chắc chắn của một phân phối xácsuất [7] Độ đo Entropy điều kiện của một phân phối mô hình trên “một chuỗi trạng

thái với điều kiện biết chuỗi dữ liệu quan sát ” p(y | x) có dạng sau:

H(y | x) = - x,yp(x, y)*log p(y| x)

(2.7) = - x,yp^(x)*p(y | x)*log p(y| x)

Yt+2Y t

Ψ3

Trang 28

2.3.3.2 Các ràng buộc đối với phân phối mô hình

Vấn đề chính là phải tìm ra chuỗi p*(y|x) sao cho thỏa mãn hàm mục tiêu sau:

Tập các thuộc tính là tập hợp các thông tin quan trọng trong dữ liệu huấn luyện.

Ký hiệu kì vọng của thuộc tính f theo phân phối xác suất thực nghiệm :f

Ở đây p^(x,y) là phân phối thực nghiệm trong dữ liệu huấn luyện Dữ liệu huấnluyện gồm N cặp, mỗi cặp gồm một chuỗi dữ liệu quan sát và một chuỗi nhãnD={(xi,yi)}, khi đó phân phối thực nghiệm trong dữ liệu huấn luyện được tính như sau:

p = 1/N * số lần xuất hiện đồng thời của x,y trong tập huấn luyện

Kỳ vọng của thuộc tính f theo phân phối xác suất trong mô hình

Ep[f] =x,yp(x) *p(y|x)*fi(x,y) (2.10)Phân phối mô hình thống nhất với phân phối thực nghiệm chỉ khi kỳ vọng củamọi thuộc tính theo phân phối xác suất phải xấp xỉ bằng kì vọng của thuộc tính đó theophân phối mô hình :

Ep(x,y)[f]Ep[f] (2.11)Từ công thức (2.11) có thể thấy rõ các ràng buộc của mô hình.

2.3.3.3 Nguyên lý cực đại hóa Entropy

Tiêu đề	Tìm Hiểu Mô Hình CRF Và Ứng Dụng Trong Trích Chọn Thông Tin Trong Tiếng Việt
Tác giả	Nguyễn Thị Loan
Người hướng dẫn	Tiến Sĩ Nguyễn Trí Thành
Trường học	Trường Đại Học Quốc Gia Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Khóa Luận Tốt Nghiệp
Năm xuất bản	2009
Thành phố	Hà Nội

Định dạng
Số trang	57
Dung lượng	800,5 KB

Tìm hiểu mô hình crf và ứng dụng trong trích chọn thông tin trong tiếng việt

Việc gán nhãn cho dữ liệu tuần tự

File định dạng huấn luyện và test