Chương 5 phân tích văn bản và web

CHƯƠNG : PHÂN TÍCH VĂN BẢN VÀ WEB Mục tiêu học tập : - Mơ tả phân tích văn hiểu nhu cầu khai thác văn - Phân biệt phân tích văn bản, khai thác văn khai thác liệu - Hiểu lĩnh vực ứng dụng khác để khai thác văn - Biết quy trình thực dự án khai thác văn - Đánh giá cao phương pháp khác để giới thiệu cấu trúc cho liệu dựa văn - Mơ tả phân tích tình cảm - Phát triển quen thuộc với ứng dụng phổ biến phân tích tình cảm - Tìm hiểu phương pháp phổ biến để phân tích tình cảm - Làm quen với phân tích lời nói liên quan đến phân tích tình cảm Chương cung cấp tổng quan tồn diện phân tích văn / khai thác phân tích / khai thác web với lĩnh vực ứng dụng phổ biến cơng cụ tìm kiếm, phân tích tình cảm phân tích mạng xã hội / phương tiện truyền thơng Như có chứng kiến năm gần đây, liệu phi cấu trúc tạo Internet vạn vật (Web, mạng cảm biến, Các hệ thống chuỗi cung ứng có hỗ trợ RFID, mạng lưới giám sát, v.v.) gia tăng với tốc độ theo cấp số nhân khơng có dấu hiệu chậm lại Bản chất thay đổi liệu buộc tổ chức thực phân tích văn web phần quan trọng sở hạ tầng phân tích / thơng minh kinh doanh họ 5.1 Mở đầu Vignette: Machine Versus Men on Jeopardy!: Câu chuyện Watson 202 5.2 Phân tích văn Tổng quan khai thác văn 205 5.3 Xử lý ngôn ngữ tự nhiên 209 5.4 Ứng dụng khai thác văn 213 5.5 Quy trình khai thác văn 220 5.6 Phân tích tình cảm 229 5.7 Tổng quan khai thác web 238 5.8 Cơng cụ tìm kiếm 243 5.9 Khai thác sử dụng web (Phân tích trang web) 250 10.5.10 Phân tích xã hội 257 5.1 Họa tiết mở đầu: Máy so sánh đàn ông gặp nguy hiểm! Câu chuyện Watson Máy đánh bại người giỏi người đàn ông cho giỏi nhất? Rõ ràng có, tên máy Watson Watson hệ thống máy tính phi thường (sự kết hợp lạ phần cứng phần mềm tiên tiến) thiết kế để trả lời câu hỏi đặt ngơn ngữ tự nhiên người Nó phát triển vào năm 2010 nhóm nghiên cứu IBM phần dự án DeepQA đặt theo tên chủ tịch IBM, Thomas J Watson Lý lịch Khoảng năm trước, IBM Research tìm kiếm thách thức nghiên cứu lớn để cạnh tranh với mối quan tâm khoa học phổ biến Deep Blue, nhà vô địch chơi cờ vi tính, có liên quan rõ ràng đến lợi ích kinh doanh IBM Mục tiêu thúc đẩy khoa học máy tính cách khám phá cách để cơng nghệ máy tính ảnh hưởng đến khoa học, kinh doanh, xã hội Theo đó, IBM Research thực thách thức để xây dựng hệ thống máy tính cạnh tranh cấp độ vô địch người thời gian thực chương trình đố vui truyền hình Mỹ, Jeopardy! Phạm vi thử thách bao gồm bảo vệ thí sinh tự động thời gian thực chương trình, có khả lắng nghe, thấu hiểu phản hồi lại khơng tập phịng thí nghiệm Cạnh tranh tốt Năm 2011, để kiểm tra khả mình, Watson tham gia chương trình đố vui Jeopardy!, Đây lần trận đấu người máy cho chương trình Trong trận đấu hai điểm, kết hợp điểm (phát ba Jeopardy! Các tập ngày 14 tháng 21616), Watson đánh bại Brad Rutter, người chiến thắng nhiều tiền thời đại Jeopardy!, Ken Jennings, người giữ kỷ lục cho chuỗi vô địch dài (75 ngày) Trong tập phim này, Watson liên tục vượt trội so với đối thủ người thiết bị báo hiệu trị chơi, gặp khó khăn phản hồi vài loại, đáng ý người có manh mối ngắn chứa vài từ Watson truy cập tới 200 triệu trang có cấu trúc nội dung phi cấu trúc tiêu thụ bốn terabyte dung lượng đĩa Trong trị chơi, Watson khơng kết nối với Internet Gặp nguy hiểm! Thách thức đòi hỏi phải tiến kết hợp nhiều công nghệ QA (khai thác văn xử lý ngôn ngữ tự nhiên) bao gồm phân tích cú pháp, phân loại câu hỏi, phân tách câu hỏi, nguồn tự động thu nhận đánh giá, phát thực thể quan hệ, tạo biểu mẫu logic biểu diễn tri thức lý luận Chiến thắng Nguy hiểm! yêu cầu tự tin tính tốn xác câu trả lời bạn Các câu hỏi nội dung mơ hồ ồn khơng có thuật tốn riêng lẻ hồn hảo Do đó, thành phần phải tạo niềm tin vào đầu tâm thành phần riêng lẻ phải kết hợp để tính tốn độ tin cậy tổng thể câu trả lời cuối Độ tin cậy cuối sử dụng để xác định xem hệ thống máy tính có nên mạo hiểm chọn trả lời không tất Trong Nguy hiểm! Theo cách nói này, tự tin sử dụng để xác định xem máy tính rung chng tiếng chuông hay tiếng chuông tiếng Anh cho câu hỏi Độ tin cậy phải tính tốn thời gian câu hỏi đọc trước có hội để tham gia Đây khoảng từ đến giây với trung bình khoảng giây Watson làm điều nào? Hệ thống đằng sau Watson, gọi DeepQA, hệ thống khai thác văn song song, tập trung vào xác suất, xác suất kiến trúc tính tốn dựa chứng Vì nguy hiểm! Thách thức, Watson sử dụng 100 khác kỹ thuật phân tích ngơn ngữ tự nhiên, xác định nguồn, tìm tạo giả thuyết, tìm cho điểm chứng, sáp nhập xếp hạng giả thuyết Điều quan trọng nhiều so với kỹ thuật cụ thể mà họ sử dụng cách họ kết hợp chúng DeepQA cho cách tiếp cận chồng chéo mang lại sức mạnh họ góp phần cải thiện độ xác, tự tin tốc độ DeepQA kiến trúc với phương pháp kèm, không dành riêng cho Nguy cơ! thử thách Các nguyên tắc bao trùm DeepQA song song lớn, nhiều chuyên gia, ước tính niềm tin lan tỏa, tích hợp phân tích văn lớn + Song song lớn: Khai thác song song lớn việc xem xét nhiều cách hiểu giả thuyết + Nhiều chuyên gia: Tạo điều kiện cho việc tích hợp, ứng dụng đánh giá theo ngữ cảnh loạt lỏng lẻo kết hợp câu hỏi xác suất phân tích nội dung + Ước tính độ tin cậy lan tỏa: Khơng có thành phần cam kết trả lời; tất thành phần sản xuất tính tâm liên quan, chấm điểm câu hỏi nội dung khác Một sở chất xử lý tự tin học cách xếp chồng kết hợp điểm số + Tích hợp kiến thức nơng sâu: Cân việc sử dụng ngữ nghĩa nghiêm ngặt ngữ nghĩa nơng, tận dụng nhiều ontology hình thành lỏng lẻo Hình 5.1 Minh họa kiến trúc DeepQA mức cao Thêm chi tiết kỹ thuật kiến trúc khác thành phần vai trò khả cụ thể chúng tìm thấy Ferrucci et al (2010) Phần kết luận Nguy hiểm! thách thức giúp IBM giải yêu cầu dẫn đến việc thiết kế kiến trúc DeepQA thực Watson Sau năm nghiên cứu phát triển mạnh mẽ đội ngũ nòng cốt gồm khoảng 20 nhà nghiên cứu, Watson trình diễn cấp độ chuyên gia người độ xác, tự tin tốc độ Nguy hiểm! chương trình đố vui IBM tuyên bố phát triển nhiều thuật tốn tính tốn ngơn ngữ để giải loại vấn đề khác yêu cầu QA Mặc dù nội thuật tốn khơng biết đến, điều bắt buộc chúng phải tận dụng tối đa khỏi phân tích văn khai thác văn Bây IBM nghiên cứu phiên Watson để xử lý vấn đề vượt qua chăm sóc sức khỏe y học (Feldman et al., 2012) Hình 5.1 Một mô tả cấp cao kiến trúc DeepQA Câu hỏi cho họa tiết mở Watson gì? Những đặc biệt nó? Những công nghệ sử dụng để xây dựng Watson (cả phần cứng phần mềm)? Những đặc điểm sáng tạo kiến trúc DeepQA khiến Watson vượt trội gì? Tại IBM dành tồn thời gian tiền bạc để xây dựng Watson? ROI đâu? Những học từ họa tiết Có thể nói cơng nghệ máy tính, mặt trận phần cứng phần mềm, tiến nhanh điều khác 50 năm qua Những điều lớn, phức tạp, giải nằm tầm tay công nghệ thông tin Một cơng nghệ cho phép có lẽ phân tích văn / khai thác văn Chúng tạo sở liệu để cấu trúc liệu để xử lý máy tính Mặt khác, văn ln có ý nghĩa người để xử lý Máy móc làm việc địi hỏi sáng tạo trí thơng minh người không thiết kế ban đầu cho máy móc? Rõ ràng có! Watson ví dụ tuyệt vời khoảng cách mà việc giải Không thể Máy tính đủ thơng minh để đảm nhận đàn ơng nghĩ đàn ông giỏi Hiểu câu hỏi đặt ngơn ngữ người, xử lý tiêu hóa nó, tìm kiếm câu trả lời, trả lời vịng vài giây điều mà khơng thể tưởng tượng trước Watson thực làm điều Trong chương này, bạn tìm hiểu cơng cụ kỹ thuật nhúng Watson nhiều máy móc thơng minh khác để tạo phép lạ việc giải vấn đề cho giải Nguồn: D Ferrucci, E Brown, J Chu-Carroll, J Fan, D Gondek, A A Kalyanpur, A Lally, J W Murdock, E Nyberg, J.Prager, N Schlaefer, and C Welty, “Building Watson: An Overview of the DeepQA Project,” AI Magazine, Vol 31 No 3,2010; DeepQA, DeepQA Project: FAQ, IBM Corporation, 2011, research.ibm.com/deepqa/ faq.shtml (accessed January 2013); and S Feldman, J Hanover, C Burghard, and D Schubmehl, “Unlocking the Power of Unstructured Data,” IBM white paper, 2012, www-01.ibm.com/software/ebusiness/jstart/downloads/unlockingUnstructuredData.p df (accessed February 2013) 5.2 Phân tích văn tổng quan khai thác văn Thời đại thông tin mà sống đặc trưng tăng trưởng nhanh chóng số lượng liệu thơng tin thu thập, lưu trữ có sẵn định dạng điện tử Phần lớn liệu kinh doanh lưu trữ tài liệu văn mà khơng có cấu trúc Theo nghiên cứu Merrill Lynch Gartner, 85% tất liệu công ty bị bắt lưu trữ số dạng khơng có cấu trúc (McKnight, 2005) Nghiên cứu tương tự cho biết liệu phi cấu trúc tăng gấp đơi kích thước sau 18 tháng Bởi kiến thức sức mạnh giới kinh doanh ngày nay, kiến thức bắt nguồn từ liệu thông tin, doanh nghiệp khai thác hiệu hiệu nguồn liệu văn họ có kiến thức cần thiết để đưa định tốt hơn, dẫn đến lợi cạnh tranh so với doanh nghiệp mà tụt lại phía sau Đây nơi mà nhu cầu phân tích văn khai thác văn phù hợp với tranh lớn doanh nghiệp Hình 5.2 Phân tích văn bản, lĩnh vực ứng dụng liên quan kích hoạt quy tắc Mặc dù mục tiêu bao trùm cho phân tích văn khai thác văn biến liệu văn phi cấu trúc thành hành động thông tin thông qua ứng dụng xử lý ngơn ngữ tự nhiên (NLP) phân tích, định nghĩa chúng có phần khác nhau, với số chuyên gia lĩnh vực Theo họ, phân tích văn khái niệm rộng bao gồm truy xuất thơng tin (ví dụ: tìm kiếm xác định tài liệu có liên quan cho tập hợp thuật ngữ định) khai thác thông tin, khai thác liệu khai thác Web, khai thác văn chủ yếu tập trung vào khám phá kiến thức hữu ích từ nguồn liệu văn Hình 5.2 minh họa mối quan hệ phân tích văn văn khai thác với lĩnh vực ứng dụng liên quan khác Phần hình 5.2 liệt kê nguyên tắc (nền tảng nhà) đóng vai trị quan trọng phát triển lĩnh vực ứng dụng ngày phổ biến Dựa vào định nghĩa phân tích văn khai thác văn bản, người ta cần hình thành khác biệt hai loại sau: Phân tích văn = Truy xuất thông tin + Khai thác thông tin + Khai thác liệu + Khai thác web Hoặc đơn giản là: Phân tích liệu = Truy xuất thơng tin + Khai thác văn So với khai thác văn bản, phân tích văn thuật ngữ tương đối Với nhấn mạnh gần phân tích, trường hợp nhiều lĩnh vực ứng dụng kỹ thuật liên quan khác (ví dụ: phân tích người tiêu dùng, phân tích đầy đủ, phân tích trực quan, phân tích xã hội, v.v.), lĩnh vực văn muốn có bandwagon phân tích Trong thuật ngữ phân tích văn sử dụng phổ biến bối cảnh ứng dụng kinh doanh, khai thác văn thường sử dụng giới nghiên cứu học thuật Cũng chúng định nghĩa khác nhau, phân tích văn khai thác văn thường sử dụng đồng nghĩa, (tác giả sách này) đồng tình với điều Khai thác văn (còn gọi khai thác liệu văn khám phá kiến thức sở liệu văn bản) trình bán tự động trích xuất mẫu (thơng tin kiến thức hữu ích) từ lượng lớn nguồn liệu phi cấu trúc Nhớ lại khai thác liệu trình xác định mẫu hợp lệ, lạ, có khả hữu ích cuối hiểu liệu lưu trữ sở liệu có cấu trúc, liệu xếp ghi cấu trúc theo phân loại, thứ tự liên tục biến Khai thác văn giống khai thác liệu chỗ có mục đích sử dụng quy trình, với khai thác văn đầu vào quy trình tập hợp tệp liệu khơng có cấu trúc (hoặc cấu trúc) tài liệu Word, tệp PDF, đoạn trích văn bản, tệp XML, v.v Về chất, khai thác văn coi q trình (với hai bước) bắt đầu việc áp đặt cấu trúc nguồn liệu dựa văn bản, sau trích xuất thơng tin liên quan kiến thức từ liệu dựa văn có cấu trúc cách sử dụng kỹ thuật cơng cụ khai thác liệu Lợi ích việc khai thác văn rõ ràng lĩnh vực nơi tạo lượng lớn liệu văn bản, luật (lệnh tòa án), nghiên cứu học thuật (bài báo nghiên cứu), tài (báo cáo hàng quý), y học (tóm tắt xả thải), sinh học (tương tác phân tử), công nghệ (tệp sáng chế) tiếp thị (ý kiến khách hàng) Ví dụ: tương tác dựa văn dạng tự với khách hàng hình thức khiếu nại (hoặc khen ngợi) yêu cầu bảo hành sử dụng để xác định cách khách quan đặc tính sản phẩm dịch vụ coi hồn hảo sử dụng làm đầu vào để phát triển sản phẩm phân bổ dịch vụ tốt Tương tự vậy, chương trình tiếp cận thị trường nhóm tập trung tạo số lượng lớn liệu Bằng cách không giới hạn phản hồi sản phẩm dịch vụ hình thức mã hóa, khách hàng trình bày, từ riêng, họ nghĩ sản phẩm dịch vụ công ty Một khu vực khác, nơi xử lý tự động văn phi cấu trúc có nhiều tác động truyền thông điện tử e-mail Khai thác văn khơng sử dụng để phân loại lọc e-mail rác, sử dụng để tự động ưu tiên e-mail dựa mức độ quan trọng tạo phản hồi tự động (Weng Liu, 2004) Sau lĩnh vực ứng dụng phổ biến văn khai thác mỏ: + Khai thác thơng tin Xác định cụm từ mối quan hệ văn cách tìm kiếm xác định trước đối tượng trình tự văn cách khớp mẫu + Theo dõi chủ đề Dựa hồ sơ người dùng tài liệu mà người dùng xem, khai thác văn dự đoán khác tài liệu quan tâm đến người dùng + Tóm tắt Tóm tắt tài liệu để tiết kiệm thời gian phía người đọc + Phân loại Xác định chủ đề tài liệu sau đặt tài liệu vào định nghĩa trước tập hợp danh mục dựa chủ đề + Phân cụm Nhóm tài liệu tương tự mà khơng có danh mục xác định trước + Liên kết khái niệm Kết nối tài liệu liên quan cách xác định khái niệm chia sẻ chúng và, cách đó, giúp Người dùng tìm thấy thơng tin mà có lẽ họ khơng tìm thấy phương pháp tìm kiếm truyền thống + Trả lời câu hỏi Tìm câu trả lời tốt cho câu hỏi định thông qua việc khớp mẫu theo kiến thức Xem phần Thơng tin cơng nghệ 5.1 để biết giải thích số thuật ngữ khái niệm sử dụng khai thác văn Trường hợp ứng dụng 5.1 mô tả việc sử dụng khai thác văn phân tích sáng chế Hiểu biết cơng nghệ 5.1 Khai thác văn Lingo Danh sách sau mô tả số thuật ngữ khai thác văn thường sử dụng: + Dữ liệu phi cấu trúc (so với liệu có cấu trúc) Dữ liệu có cấu trúc có định dạng xác định trước Nó thường tổ chức thành ghi với giá trị liệu đơn giản (các biến phân loại, thứ tự liên tục) lưu trữ sở liệu Ngược lại, liệu phi cấu trúc khơng có định dạng xác định trước lưu trữ hình thức tài liệu văn Về chất, liệu có cấu trúc để máy tính xử lý liệu phi cấu trúc để người xử lý hiểu + Corpus Trong ngôn ngữ học, kho văn (số nhiều) tập hợp lớn văn (bây thường lưu trữ xử lý điện tử) chuẩn bị cho mục đích tiến hành khám phá kiến thức + Điều khoản Một thuật ngữ từ đơn cụm từ đa từ trích xuất trực tiếp từ kho văn từ cụ thể miền phương pháp xử lý ngôn ngữ tự nhiên (NLP) + Khái niệm Các khái niệm tính tạo từ sưu tập tài liệu phương tiện thủ công, phương pháp phân loại thống kê, dựa quy tắc lai So với điều khoản, khái niệm kết mức độ trừu tượng cao + Thân Từ gốc trình giảm từ bị viêm sang dạng gốc (hoặc gốc gốc) chúng Dành cho ví dụ, thân cây, thân cây, thân dựa thân rễ + Dừng từ Các từ dừng (hoặc từ tiếng ồn) từ lọc trước sau xử lý liệu ngôn ngữ tự nhiên (tức là, văn bản) Mặc dù khơng có danh sách từ dừng chấp nhận rộng rãi, hầu hết công cụ xử lý ngôn ngữ tự nhiên sử dụng danh sách bao gồm viết (a, am, the, of, v.v.), động từ phụ (is, là, was, was, v.v.) từ cụ thể theo ngữ cảnh coi khơng có giá trị khác biệt + Từ đồng nghĩa đa thức Từ đồng nghĩa từ cú pháp khác (nghĩa đánh vần khác nhau) với ý nghĩa giống hệt tương tự (ví dụ: phim, phim hình ảnh chuyển động) Ngược lại, polyseme, cịn gọi từ đồng âm, từ giống hệt mặt cú pháp (nghĩa đánh vần giống hệt nhau) với ý nghĩa khác (ví dụ: cung có nghĩa hướng tới uốn cong phía trước, phạm lỗi phía trước tàu, chế độ vũ khí bắn mũi tên, hay loại ruy băng buộc) + Mã thông báo Mã thông báo khối văn phân loại câu Khối văn tương ứng với mã thông báo phân loại theo chức mà thực Việc gán nghĩa cho khối văn gọi mã thông báo Một mã thông báo trơng giống điều gì; cần phần hữu ích cấu trúc văn + Từ điển hạn Một tập hợp thuật ngữ dành riêng cho lĩnh vực hẹp sử dụng để hạn chế trích xuất điều khoản kho văn + Tần số từ Số lần từ tìm thấy tài liệu cụ thể + Gắn thẻ phần phát biểu Quá trình đánh dấu từ văn tương ứng với cụ thể phần lời nói (chẳng hạn danh từ, động từ, tính từ, trạng từ, v.v.) dựa định nghĩa từ Từ bối cảnh sử dụng 10 ... tranh lớn doanh nghiệp Hình 5. 2 Phân tích văn bản, lĩnh vực ứng dụng liên quan kích hoạt quy tắc Mặc dù mục tiêu bao trùm cho phân tích văn khai thác văn biến liệu văn phi cấu trúc thành hành... sau: Phân tích văn = Truy xuất thơng tin + Khai thác thông tin + Khai thác liệu + Khai thác web Hoặc đơn giản là: Phân tích liệu = Truy xuất thông tin + Khai thác văn So với khai thác văn bản, phân. .. bản, phân tích văn thuật ngữ tương đối Với nhấn mạnh gần phân tích, trường hợp nhiều lĩnh vực ứng dụng kỹ thuật liên quan khác (ví dụ: phân tích người tiêu dùng, phân tích đầy đủ, phân tích trực

Định dạng
Số trang	101
Dung lượng	1,95 MB