Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
1,09 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRƯƠNG THỊ PHƯƠNG THẢO
PHƯƠNG PHÁPHỌCBÁNGIÁMSÁTCHO
BÀI TOÁNTRÍCHCHỌNTHÔNGTINVÀ
ỨNG DỤNG
TRÍCH CHỌNTHỰCTHỂTÊNMÁYẢNHSỐ
Ngành: Công nghệ thôngtin
Chuyên ngành: Hệ thốngthôngtin
Mã số: 60.48.05
LUẬN VĂN THẠC SĨ
Cán bộ hướng dẫn khoa học: TS. Nguyễn Trí Thành
Hà Nội - 2011
2
Lời cam đoan
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên
cứu, tìm hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận
văn, những điều được trình bày hoặc là của cá nhân tôi hoặc là được
tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có
xuất xứ rõ ràng và được trích dẫn hợp pháp.
Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan của mình.
Học viên
Trương Thị Phương Thảo
3
Mục lục
Lời cam đoan 2
Mục lục 3
Danh mục các ký hiệu, các chữ viết tắt 4
Danh mục các bảng 5
Danh mục các hình vẽ, đồ thị 6
Mở đầu 7
CHƯƠNG 1. GIỚI THIỆU 8
CHƯƠNG 2. HỆ THỐNGTRÍCHCHỌNTHÔNGTIN 14
2.1. Xây dựng hệ thốngtríchchọnthôngtin 14
2.1.1. Công nghệ tri thức 14
2.1.2. Huấn luyện tự động 14
2.2. Các phươngpháptríchchọn 15
2.2.1. Học có giámsáttríchchọn quan hệ 16
2.2.2. Học không giámsáttríchchọn quan hệ 18
2.2.3. Họcbángiámsáttríchchọn quan hệ 21
2.2.3.1. DIPRE: Dual Iterative Pattern Relation Extraction 22
2.2.3.2. Hệ thống SNOWBALL 26
2.3. Nhận xét 32
CHƯƠNG 3. MÔ HÌNH HỌCBÁNGIÁMSÁTTRÍCHCHỌNTHỰCTHỂ
VÀ ỨNGDỤNG 33
3.1. Mô tả bàitoán 33
3.2. Mô hình giải quyết bàitoán 33
3.3. Mô hình hệ thống 35
3.3.1. Pha tiền xử lí 36
3.3.2. Pha sinh các mẫu 43
3.3.3. Pha sinh các bộ quan hệ mới 48
CHƯƠNG 4. THỰC NGHIỆM 50
4.1. Môi trường thực nghiệm 50
4.2. Dữ liệu thực nghiệm 50
4.3. Đánh giá hệ thống 51
4.4. Thực nghiệm 51
Kết luận và hướng phát triển tương lai 61
Tài liệu tham khảo 62
Phụ lục. Mối quan hệ ngữ nghĩa trong WordNet 64
4
Danh mục các ký hiệu, các chữ viết tắt
IE Information Extraction
NE Named Entity
MUC Message Understanding Conferences
NER Named Entity Recognition
IR Information Retrieval
DIPRE Dual Iterative Pattern Relation Extraction
5
Danh mục các bảng
Bảng 1: Các luật của AutoSlog 18
Bảng 2: Năm bộ quan hệ hạt giống của hệ thống DIPRE 24
Bảng 3: Ví dụ các sự kiện được mô tả dưới dạng bộ - 7 24
Bảng 4: Ví dụ về việc sinh các mẫu DIPRE 26
Bảng 5: Năm bộ quan hệ hạt giống của hệ thống Snowball 27
Bảng 6: Một số lớp thường dùng trong WordNet 45
Bảng 7: Cấu hình của máy PC dùng trong thực nghiệm 50
Bảng 8: Các công cụ sử dụng trong thực nghiệm 50
Bảng 9: Các thư viện sử dụng trong thực nghiệm 50
Bảng 10: Dữ liệu kiểm thử và dữ liệu huấn luyện 51
Bảng 11: Tập các quan hệ hạt giống ban đầu 51
Bảng 12: Một số cặp <camera, producer> ở lần lặp đầu tiên 52
Bảng 13: Giá trị Precision, Recall và F1 sau các vòng lặp 52
Bảng 14: Giá trị Precision, Recall, F1 của hệ thống theo giá trị sup 54
Bảng 15: Giá trị của Precision, Recall, F1 thực nghiệm trên tập 5000 55
Bảng 16: Kết quả so sánh giữa thực nghiệm 1 và 2 55
Bảng 17: Kết quả tríchchọn khi áp dụng giải thuật DIPRE trên Tập 1200 56
Bảng 18: Kết quả tríchchọn khi áp dụng giải thuật DIPRE trên Tập 5000 56
Bảng 19: Bảng thống kê kết quả tríchchọn khi áp dụng giải thuật DIPRE cho
bài toántríchchọntênmáyảnhsố 56
Bảng 20: Kết quả thực nghiệm 5 với số lượng các cặp tìm được 58
Bảng 21: Kết quả thực nghiệm 5 - Một số mẫu có độ chính xác cao và xuất hiện
nhiều 58
Bảng 22: Kết quả thực nghiệm 5 - Thống kê các loại máyảnh phổ biến nhất 59
Bảng 23: Kết quả thực nghiệm 5 - Thống kê số lượng máyảnh theo hãng sản
xuất 60
Bảng 24: Các quan hệ ngữ nghĩa trong WordNet 64
6
Danh mục các hình vẽ, đồ thị
Hình 1: Minh họa về một hệ thốngtríchchọnthôngtin 8
Hình 2: Ví dụ về khai phá quan điểm 10
Hình 3: Sơ đồ hoạt động của hệ thống AutoSlog 17
Hình 4: Sơ đồ hoạt động của hệ thống AutoSlog – TS 19
Hình 5: Ví dụ về AutoSlog - TS 21
Hình 6: Mô hình hoạt động của hệ thống DIPRE 22
Hình 7: Mô hình hoạt động của hệ thống Snowball 27
Hình 8: Các sự kiện tìm được dựa vào bộ quan hệ hạt giống 28
Hình 9: Mô hình hệ thốngtríchchọntênmáyảnhsố 35
Hình 10: Mô hình của pha tiền xử lí 36
Hình 11: Mô hình thuật toán sinh mẫu từ một bộ quan hệ 43
Hình 12: Giá trị của Precision, Recall, F1 thực nghiệm trên tập 1200 53
Hình 13: Giá trị Precision, Recall, F1 của hệ thống theo giá trị sup 54
Hình 14: Kết quả thực nghiệm 3 (a) vàthực nghiệm 4 (b) đối với giá trị F1 57
7
Mở đầu
Trích chọnthựcthể là bàitoán cơ bản nhất trong các bàitoántríchchọn
thông tin nhưng lại đóng vai trò khá quan trọng. Thựcthểtên ngày càng được
ứng dụng trong nhiều bàitoán trong khai phá dữ liệu web cũng như nhiều các
bài toán trong xử lý ngôn ngữ tự nhiên. Do đó việc xây dựng các giải thuật trích
chọn các thựcthểtên này từ web là bàitoán có ý nghĩa quan trọng. Luận văn tập
trung vào tìm hiểu việc xây dựng một mô hình tríchchọnthựcthểtênvàứng
dụng vào tríchchọnthựcthểtênmáyảnh trên web.
Cấu trúc luận văn gồm 4 chương:
Chương 1: Giới thiệu một cách khái quát nhất bàitoántríchchọnthông tin,
tính ứngdụngthực tiễn của bài toán.
Chương 2: Trình bày một số các khái niệm liên quan đến bàitoántrích
chọn thông tin, các phươngpháptríchchọnthông tin. Với mỗi phươngpháp
trình bày một mô hình minh họa. Đây là cơ sở luận quan trọng để luận văn đề
xuất một mô hình áp dụng với bàitoántríchchọnthực thể. Cụ thể luận văn lựa
chọn hướng tiếp cận họcbángiám sát.
Chương 3: Ứngdụngphươngpháphọcbángiámsát vào hệ thốngtrích
chọn tênmáyảnh kĩ thuật số.
Chương 4: Kết quả thực nghiệm của luận văn, đánh giá phươngphápvà kết
quả đạt được.
Phần kết luận: Tóm lược những nội dung chính đạt được của luận văn đồng
thời cũng chỉ ra những điểm cần khắc phục và đưa ra những định hướng nghiên
cứu trong tương lai.
8
CHƯƠNG 1. GIỚI THIỆU
Với sự bùng nổ của Internet và các phương tiện lưu trữ đã tạo ra một lượng
thông tin khổng lồ. Bên cạnh đó nhu cầu về tốc độ xử lý thôngtin cũng như tính
chính xác ngày càng tăng. Hiện nay, các máy tìm kiếm (search engine) thực hiện
việc tìm những trang web phù hợp với yêu cầu câu hỏi người dùng.
Mặc dù chất lượng của các máy tìm kiếm đã được cải thiện nhưng kết quả
trả về chỉ là những tài liệu có liên quan, chúng không dễ dàng gì rút ra được các
mối quan hệ tiềm ẩn và tạo được các câu trả lời cho các truy vấn phức tạp, chẳng
hạn như “danh sách các công ty liên doanh” hoặc “danh sách các nhà lãnh đạo
quốc tế trên toànthế giới”. Người ta phân loại câu trả lời các truy vấn ở dạng: có
phân tích các tài liệu liên quan để tập hợp những thôngtin cần thiết. Nếu nhiều
mối quan hệ như “Công ty A liên doanh với công ty B” được lưu trong các tài
liệu thì nó tự động tổng hợp và cấu trúc hóa, điều này rất tốt không chỉ cho các
hệ thống truy vấn thôngtin mà còn cho các hệ thống hỏi đáp tự động và tóm tắt
văn bản. Do đó khai thác được những tri thức đó sẽ mang lại nhiều thôngtin bổ
ích. Đó là lĩnh vực mà “trích chọnthông tin” nghiên cứu.
Trích chọnthôngtin (Information Extraction - IE) là công việc trích ra các
thông tin có cấu trúc từ các văn bản không có cấu trúc. Nói cách khác, một hệ
thống tríchchọnthôngtin rút ra những thôngtin đã được định nghĩa trước về
các thựcthểvà mối quan hệ giữa các thựcthể từ một văn bản dưới dạng ngôn
ngữ tự nhiên và điền những thôngtin này vào một văn bản ghi dữ liệu có cấu
trúc hoặc một dạng mẫu được định nghĩa trước đó. Không giống như hiểu toàn
bộ văn bản, các hệ thốngtríchchọnthôngtin chỉ cố gắng nhận biết một sốthông
tin đáng quan tâm ở một lĩnh vực nào đó. Ví dụ hệ thốngtríchchọn các bộ quan
hệ <tên máy ảnh, hãng sản xuất> từ các tài liệu web, bổ sung chúng vào cơ sở
dữ liệu.
Canon has posted a firmware update for
its EOS 7D digital SLR.
Pentax has announced the Optio RS1500
compact camera with interchangeable,
user designable covers.
Casio and Ricoh have released firmware
updates for the Exilim EX-H20G and
G700SE digital cameras respectively
Hình 1: Minh họa về một hệ thốngtríchchọnthôngtin
Producer
Cam
era
Canon EOS 7D
Pentax Optio RS1500
Casio Exilim EX-H20G
Ricoh
G700SE
9
Có rất nhiều mức độ cũng như nội dung công việc tríchchọnthôngtin khác
nhau. Một sốbàitoántríchchọn có thể liệt kê như sau:
Tríchchọn là thựcthểtên (Named Entity –NE). Một thựcthểtên là một
thực thể được đặt một tên riêng, ví dụ như “Barack Obama” là một thực
thể tên người, “Microsoft Corporation” là thựcthểtên công ty/ tổ chức
[7, 17].
Tríchchọnthôngtin là đi tìm những quan hệ giữa các đối tượng có tên
được chỉ định trước. Ví dụ: từ một câu “Bill Gates là chủ tịch của
Microsoft”, chúng ta muốn hệ thống có thể đưa ra được kết quả: Bill
Gates là một tên người, Microsoft là tên một tổ chức và Bill Gates ông
chủ của Microsoft. Một số quan hệ khác có thể là: quan hệ sát nhập
(affiliation); quan hệ vai trò (role); quan hệ về vị trí, địa điểm (location);
quan hệ toàn thể-bộ phận (part-whole); quan hệ nhân quả (cause-effect);
các mối quan hệ xã hội … giữa các cặp thực thể. Ví dụ, câu “George
Bush được bầu làm tổng thống của Mỹ.” Thì quan hệ, “George Bush”
(Person) là “tổng thống” của “Mỹ”, có thể được rút ra. [5]
Tríchchọn sự kiện cho miền dữ liệu tin tức dưới dạng khung mẫu
(template). Mỗi khung mẫu bao gồm tập hợp các slot cần được lấp đầy
bởi một hoặc nhiều giá trị. Những giá trị này có thể bao gồm văn bản
thuần túy, các con trỏ trỏ tới các đối tượng khung mẫu khác [4, 9]. Ví
dụ: “4 Apr. Dallas - Early last evening, a tornado swept through northwest
Dallas. The twister occurred without warning at about 7:15 pm and destroyed
two mobile homes. The Texaco station at 102 Main St. was also severely
damaged, but no injuries were reported.” Đoạn văn bản tóm tắt câu chuyện
về thảm họa tự nhiên lốc xoáy, tríchchọn các thôngtin về ngày và thời
gian xảy ra, và thiệt hại tài sản hay thương tích về con người do sự kiện
gây ra. Hệ thống có thểtríchchọn ra khung mẫu sau:
Event: tornado
Date: 4/3/97
Time: 19:15
Location: “northwest Dallas”: Texas: USA
Damage: “mobile homes” (đối tượng bị thiệt hại – Damaged
Object)
“Texaco station” (đối tượng bị thiệt hại)
Khai phá quan điểm (opinion mining): trong lĩnh vực này ta cần trích
chọn ra các nhận định của người dùng về một đối tượng nào đó [14].
Hình 2 chỉ ra một trong các quan điểm mà ta có thểtrích ra là thôngtin
10
người dùng nhận thấy “the colors of pictures” được chụp bởi sản phẩm
Powershot là “great”.
Hình 2: Ví dụ về khai phá quan điểm
Ngoài ra tùy vào từng ứngdụng cụ thể mà ta có thể cần tríchchọn các
đối tượng khác trong văn bản, chẳng hạn tríchchọn các nguyên nhân
dẫn đến một loại bệnh nào đó [10], …
Con người, thời gian, địa điểm, các con số, là những đối tượng cơ bản
trong một văn bản dù ở bất kì ngôn ngữ nào. Do đó thựcthểtên là một đối
tượng được quan tâm rất nhiều và ngày càng trở nên quan trọng, nó đang được
khai thác vàứngdụng trong nhiều bàitoán trong lĩnh vực xử lý ngôn ngữ tự
nhiên (Natural Language Processing) cũng như khai phá văn bảnvà khai phá
web (Web Mining).
Mục đích chính của bàitoán nhận biết các loại thựcthể là xác định những
đối tượng này từ đó phần nào giúp cho chúng ta trong việc hiểu văn bản. Rõ
ràng trước khi có thể xác định được các mối quan hệ giữa các thựcthể ta phải
xác định được đâu là các thựcthể tham gia vào mối quan hệ đó. Ví dụ về một số
ứng dụng của thựcthểtên trong lĩnh vực xử lý ngôn ngữ tự nhiên và khai phá dữ
liệu văn bản, web là:
Dịch máy (Machine Translation): khi chúng ta phát hiện ra được một
thực thểtên trong một văn bản thì khi dịch sang ngôn ngữ mới ta
thường để nguyên thựcthểtên đó chứ không dịch [12].
I just bought a Powershot a
few days ago. I took some
pictures using the camera.
Here are my feelings:
(1) colors are so great even
when flash is used
(2) easy to grip since the body
has a grip handle
Opinion holder (writer)
Suject <Powershot>
Part <picture>
Attribute <colors>
Evaluation <great>
Condition <flash is used>
Opinion unit 1
Opinion holder (writer)
Suject <Powershot>
Part < >
Attribute < >
Evaluation <easy to grip>
Condition <body has a grip
handle>
Opinion unit 2
[...]... hình học lại phức tạp hơn học có giámsát Trong khi đó, họcbángiámsát được xem như là một phươngpháp tối ưu để giảm thiểu chi phí cũng như tài nguyên xây dựngPhươngpháp này kết hợp được ưu điểm, giảm bớt những nhược điểm của phương pháphọc có giámsátvàhọc không giámsát 33 CHƯƠNG 3 MÔ HÌNH HỌCBÁNGIÁMSÁTTRÍCHCHỌNTHỰCTHỂVÀỨNGDỤNG Trên cơ sở phân tích ưu và nhược điểm của các phương pháp. .. các phươngpháptríchchọn quan hệ, luận văn đã lựa chọn phương pháphọc bán giámsáttríchchọnthựcthểtên Trong chương này luận văn đề xuất một mô hình tríchchọnthựcthể mới sau đó áp vào tríchchọntênmáyảnh kĩ thuật số Cụ thể luận văn sẽ đề xuất một mô hình mới dựa trên thuật toántríchchọn quan hệ DIPRE 3.1 Mô tả bàitoánCho một tập tài liệu là các văn bản dạng thô, tríchchọn ra các cặp... vấn thông tin, hệ thống hỏi đáp, phân loại văn bản… … Muốn khai thác được thựcthểtên vào các bàitoán cụ thể thì công việc đầu tiên là phải nhận dạng ra được các thựcthểtên có trong văn bản Do đó bàitoán nhận dạng thựcthểtên (Named Entity Recognition – NER) ngày càng trở nên bàitoán mang tính chất rất quan trọng và rất cần làm tăng chất lượng của nó Luận văn tập trung vào bàitoántrích chọn. .. dạng và không có sự phân loại, người dùng dễ bị ngột thở bởi rất nhiều các luồng thôngtinvà các dạng thông tin, việc lấy ra các thôngtin cần thiết cho nhu cầu sử dụng của mình là rất khó khăn Một nhu cầu đơn giản của người dùng là xác định tênmáyảnh này do hãng nào sản xuất từ hàng nghìn các thôngtin trên mạng Internet Một ứngdụng khác của việc tríchchọntên các máyảnhsố là tìm thêm các thông. .. Các phươngpháptríchchọn Vì các giải thuật dựa trên luật đòi hỏi tri thức của các chuyên gia và khả năng thích ứng với các miền dữ liệu mới là hạn chế, nên luận văn sẽ tập trung 16 vào các giải thuật họcmáy Phần này sẽ giới thiệu một số giải thuật họcmáy trong tríchchọnthôngtin 2.2.1 Học có giámsáttríchchọn quan hệ a Giới thiệu: Một hướng tiếp cận thường sử dụng trong nhiều hệ thốngtrích chọn. .. sát, có giámsátvàbángiámsát đều thể hiện được những ưu và nhược điểm riêng của mình Đối với học có giám sát, chất lượng tríchchọn của hệ thống trên những miền dữ liệu cụ thể là rất tốt, tuy nhiên chi phí đối với việc xây dựng tập dữ liệu là rất tốn kém, do đó khả năng mở rộng miền ứngdụng là khó khăn Đối với phương pháphọc không giámsátcho khả năng học với lượng dữ liệu lớn hơn và tốc độ nhanh... ẩn dưới các thựcthểtên đó Ở đây luận văn tập trung vào việc tríchchọntênmáyảnh kĩ thuật số có sử dụng giải thuật họcbángiámsát Thị trường máyảnh kỹ thuật số hiện có không dưới 10 nhãn hiệu nổi tiếng trên thế giới như Sony, Canon, Fujifilm, Olympus đến Konica, Nikon, Samsung, Pentax Nhiều nhà sản xuất chuyên về công nghệ thôngtin cũng tham gia vào thị trường này như Epson, HP cho thấy đây... loại máyảnh thường ở dạng kí tự in hoa, có thể bao gồm cả chữ và số; tập các hãng sản xuất máyảnh là hữu hạn, ta có thể liệt kê một cách dễ dàng Trong bàitoántríchchọntênmáyảnh số: Bộ quan hệ: cặp Một mẫu là bộ - 4: (order, tag1, middle, tag2); trong đó tag1 và tag2 là thựcthểvà Order là thứ tự xuất hiện của tag 1và tag2 trong câu Middle là ngữ cảnh... các thựcthểtên được mở rộng hơn như tên các loại bệnh, tên các loại protin, tiêu đề bài báo, tên các cuộc hành trình… WWW chứa đựng một nguồn thôngtin khổng lồ, và cực kỳ phân tán, từ cơ sở dữ liệu DNA đến danh sách các nhà hàng ưu thích Tuy nhiên dữ liệu rải rác trong hàng ngàn nguồn thôngtin với nhiều định dạng khác nhau Nếu các mẩu thôngtin này có thể được tríchchọn từ WWW và tích hợp vào... việc tạo ra một số các mẫu không mong muốn Do đó con người phải xem xét lại các mẫu được sinh ra, quyết định xem mẫu nào sẽ được giữ lại để phục vụ cho quá trình tríchchọn sau này 2.2.2 Học không giámsáttríchchọn quan hệ a Giới thiệu: Với số lượng gần như vô hạn của văn bản không có nhãn có thể truy cập vào các trang web và các nguồn khác, các phương pháphọc không giámsát có thể khai thác văn . áp dụng với bài toán trích chọn thực thể. Cụ thể luận văn lựa
chọn hướng tiếp cận học bán giám sát.
Chương 3: Ứng dụng phương pháp học bán giám sát vào. pháp trích chọn 15
2.2.1. Học có giám sát trích chọn quan hệ 16
2.2.2. Học không giám sát trích chọn quan hệ 18
2.2.3. Học bán giám sát trích chọn quan