Bài viết này sẽ giới thiệu một hướng nghiên cứu mà trong đó ngữ nghĩa của từ được biểu diễn bằng véc-tơ, từ đó tạo nền tảng cho việc xây dụng một hệ thống hoàn chỉnh có thể tự động giao tiếp với con người. Mời các bạn tham khảo!
BIỂU DIỄN NGHĨA CỦA TỪ BẰNG VÉC-TƠ Lê Phong (Đại học Amsterdam, Hà Lan) Tuy thời điểm tạo cỗ máy có trí tuệ người chắn không đến mai, việc làm cho máy tính hiểu nói đạt số đột phá định Bài viết giới thiệu hướng nghiên cứu mà ngữ nghĩa từ biểu diễn véc-tơ, từ tạo tảng cho việc xây dụng hệ thống hồn chỉnh tự động giao tiếp với người Máy hiểu Tiếng người Con người chế tạo cỗ máy thám hiểm Sao Hoả, lặn xuống nơi sâu đại dương, hay có khả tính tốn siêu việt Thế việc xây dựng trí tuệ nhân tạo thơng minh người tồn phim ảnh, tiểu thuyết Nói khơng có nghĩa điều khơng thể: máy tính chế tạo ngày mạnh mẽ hơn, thông minh Một số nhà tương lai học, bật Ray Kurzweil, tin thời điểm đời trí tuệ nhân tạo đến gần [5] Tuy nhiên, làm để biết cỗ máy có trí tuệ chúng ta? Đây câu hỏi mang tính triết học khoa học kỹ thuật Alan Turing, cha đẻ ngành khoa học máy tính, đề xuất kiểm tra [9] (vì mang tên Turing test) dựa trò chơi “bắt chước” (imitation game)1 Bài kiểm tra mơ tả nơm na sau: có máy tính A hai người B, C Người C khơng nhìn thấy khơng biết A, B Người C giao tiếp với A B thơng qua gõ bàn phím Sau giao tiếp xong mà C phân biệt đâu máy tính, đâu người máy tính A coi có trí tuệ người Điều lẽ dĩ nhiên có nhiều người khơng đồng tình với kiểm tra Một lý tâm lý người bị đánh lừa mánh khoé đơn giản cố tình đưa từ sai tả Điều đáng nói là, nhìn theo khía cạnh khoa học, cỗ máy có trí tuệ nhân tạo phải hiểu người nói sinh lời đối đáp thích hợp Chế tạo cỗ máy mục đích tối thượng ngành Xử lý ngơn ngữ tự nhiên (Natural language processing) Một ngôn ngữ (viết) tập hợp chuỗi ký hiệu, cấu thành việc kết nối từ tập từ vựng thông qua nguyên tắc ghép từ, gọi ngữ pháp Do đó, để làm cho máy tính hiểu ngơn ngữ, điều nghĩ đến cho máy tính hiểu nghĩa từ Ví dụ hiểu “chó” “mèo” tên hai lồi động vật có bốn chân, có hành vi tương đồng ăn, ngủ, chạy, nhảy Về mặt lý thuyết, mơ tả nghĩa từ cho máy tính hiểu việc liệt kê “Imitation game” tên phim kể đời Alan Turing Ông giúp quân Đồng Minh giải mã thông điệp quân Đức Thế chiến thứ hai Nhờ mà chiến tranh kết thúc sớm, giúp cứu sống nhiều sinh mệnh 37 Tạp chí Epsilon, Số 04, 08/2015 đặc tính kể Về mặt thức tế, cơng việc địi hỏi phải có chun gia ngơn ngữ học, khiến cho tốn nhiều thời gian tiền bạc Một hướng giải thông dụng tận dụng lượng đồ sộ văn có sẵn Internet để tự động xây dựng nghĩa cho từ Bài viết giới thiệu hướng nghiên cứu vậy, gọi Distributional semantics2 Bạn đọc thấy rằng, với vài công cụ toán đơn giản, lý thuyết ngữ nghĩa học hợp lý, lượng lớn văn bản, làm thứ hữu dụng Distributional semantics Câu hỏi trước tiên cần phải giải đáp là: định nghĩa từ? John Rupert Firth năm 1957 đề xuất quan điểm mà trở thành “phương châm” để giải vấn đề tự động học nghĩa từ: You shall know a word by the company it keeps [4] nghĩa là: nghĩa từ nhận biết từ kèm với Để hiểu ý Firth, hình dung tình sau: giả sử đọc sách tiếng Anh gặp từ lạ “bardiwac” lặp lặp lại nhiều lần: He handed her her glass of bardiwac Beef dishes are made to complement the bardiwac Nigel staggered to his feet, face flushed from too much bardiwac Malbec, one of the lesser-known bardiwac grapes, responds well to Australia’s sunshine I dined off bread and cheese and this excellent bardiwac The drinks were delicious: blood-red bardiwac as well as light, sweet Rhenish Điều đáng nói hồn tồn đốn nghĩa từ cách suy đoán dựa ngữ cảnh Từ câu đầu tiên, đoán “bardiwac” thứ chất lỏng Câu thứ hai gợi ý từ thứ dùng kèm ăn thịt bò Với câu thứ ba, từ dường có nghĩa thứ khiến ta say, vân vân Và tổng hợp lại, đốn xác “bardiwac” loại rượu đỏ làm từ nho Tất nhiên, có trí tuệ nên dễ dàng đốn nghĩa từ lạ thơng qua ngữ cảnh Cịn máy tính sao? Làm cách nói với dùng ngữ cảnh để học nghĩa từ? Trong hai mục sau, hai phương pháp thơng dụng Đếm Đốn trình bày Có thể dịnh “Ngữ nghĩa có tính phân bố” 38 Tạp chí Epsilon, Số 04, 08/2015 Hình 3.1: Xây dựng véc-tơ nghĩa từ “bathtub” phương pháp đếm (hình lấy từ [3]) Phương pháp 1: Đếm Trước tiên, cần phải làm rõ khái niệm “ngữ cảnh” cho máy tính hiểu Nơm na mà nói, ngữ cảnh tất xuất xung quanh đối tượng cần quan tâm Ở đây, giới hạn “ngữ cảnh” tập hợp từ nằm câu với đối tượng, từ nằm trước đối tượng nằm sau đối tượng khơng q k vị trí Gọi V tập từ vựng Cách đơn giản, cổ điển, thống kê từ u V xuất kèm theo từ w V mà ta quan tâm Điều tương đương với việc ước lượng phân bố xác suất có điệu kiện P U D ujW D w/ thể khả từ u thuộc ngữ cảnh từ w Để làm vậy, với từ u, ta đếm xem u xuất lần kèm theo từ w (vì phương pháp có tên gọi co-occurrence count3 ) Ví dụ minh họa cho Hình 3.1 Có ba bước để biểu diễn nghĩa từ w véc-to Trước hết, thu thập câu có chứa từ w Sau đó, với từ u ta đếm xem thuộc ngữ cảnh từ w lần Và cuối cùng, trích véc-tơ cho từ w Ước lượng xác suất trở nên đơn giản P U D ujW D w/ D số lần u thuộc ngữ cảnh w số lần w xuất toàn liệu (3.1) Tuy nhiên, để thu véc-tơ tốt, có nhiều điều cần phải xem xét Thứ nhất, u nên từ Rõ ràng từ chức (functional words) (như “a”, “an”, “the”, “how”, “whom”) (trong tiếng Việt có “ai”, “rằng”, “thì”, “là”, “mà”) có tần suất xuất Có thể dịch “đếm từ đồng xuất hiện” 39 Tạp chí Epsilon, Số 04, 08/2015 cao lại mang thông tin cú pháp ngữ nghĩa Vì thế, u khơng nên từ Kế tiếp, với cách đếm này, xem từ u có vai trị bình đẳng Thực tế ngược lại có từ xuất mang thơng tin quan trọng (ví dụ động từ thường quan trọng trợ động từ) Để khắc phục điểm này, thông thường người ta áp dụng thêm bước gọi đánh trọng số (weighting scheme) Một cách đánh trọng số phổ biến Pointwise mutual information PMI.u; w/ D P U D ujW D w/ P V D u/ (3.2) P V D u/ xác suất xuất từ u tồn liệu Nói nơm na từ u nên tăng trọng số lên Điều hợp lý từ với tần suất xuất thấp có khả gây nhiễu cực thấp Vì khả mang thơng tin để mô tả từ cần quan tâm lớn Thực tế véc-tơ thu có số chiều lớn (2000 hơn) thưa (vì mong muốn dùng từ u để tăng thêm thông tin ngữ nghĩa) Vì vậy, phương pháp giảm số chiều (tương tự PCA) áp dụng Phương pháp 2: Đoán Ý tưởng phương pháp Đoán thật giống trả lời câu hỏi chọn từ điền vào chỗ trống thi TOEFL hay IELTS: is the study of numbers, equations, functions, and geometric shapes and their relationships a physics b mathematics c geography d theology Nếu đạt kết tốt kiểm tra (tức tỉ lệ phần trăm cao nhiều so với chọn ngẫu nhiên 25%), người kiểm tra cho hiểu nghĩa từ cần chọn lẫn từ có mặt ngữ cảnh Tương tự, với phương pháp Đốn, véc-tơ từ giúp làm tốt câu hỏi trên, véc-tơ cho thể nghĩa từ mà chúng biểu diễn Bây giả sử từ v V biểu diễn véc-tơ d -chiều v, có cách để tính xác suất P W D wjU D u1 ; u2 ; :::; ul // thể khả từ w xuất ngữ cảnh u1 ; u2 ; :::; ul / Điều cần làm tìm véc-tơ v cho từ v cho xác suất cao với từ w ngữ cảnh u1 ; u2 ; :::; ul / Có nhiều phương pháp đề xuất để tính P W jU/, đây, phương pháp [2]4 trình bày Trước tiên, kết hợp véc-tơ từ u1 ; :::; ul thuộc ngữ cảnh vào véc-tơ x sau: x D tanh.b C V1 u1 C ::: C Vl ul / (4.1) Phương pháp liên quan tới mạng nơ-ron nhân tạo Để tránh phải giới thiệu thêm khái niệm mới, có dạng cơng thức tốn trình bày 40 Tạp chí Epsilon, Số 04, 08/2015 Vi ma-trận n d b véc-tơ n-chiều; hàm hyperbolic áp dụng cho phần tử véc-tơ đối số 1 y1 tanh.y1 / By2 C B C C D Btanh.y2 /C B (4.2) @ ::: A @ A ::: yn tanh.yn / Tiếp theo, chiếu x lên không gian véc-tơ có số chiều jVj, số lượng từ có tập từ vựng: a D c C Wx (4.3) Cuối cùng, dùng hàm sof tmax, tính xác suất để wk , từ thứ k tập từ vựng V, xuất ngữ cảnh u1 ; :::; ul / e ak P W D wk jU D u1 ; u2 ; :::; ul // D sof tmax.k; a/ D PjVj i D1 e (4.4) Bây giờ, gọi  D hw1 ; :::; wjVj ; V1 ; :::; Vl ; b; W; ci Bởi mục đích cuối dự đốn từ biết ngữ cảnh, tìm  cho có log-likelihood (log độ tương đồng) lớn X L.Â/ D log P W D wjU D u1 ; :::; ul // (4.5) w;.c1 ;:::;cl / tổng tính tất ngữ cảnh từ xuất ngữ cảnh tìm văn liệu Đến có tốn tìm cực trị hàm đa biến quen thuộc Tính chất Ứng dụng Liệu nhìn vào véc-tơ này, máy tính biết “chó” “mèo” có bốn chân, “chó” sủa gâu gâu “mèo” kêu meo meo? Câu trả lời có lẽ “Khơng!”, khó để biết Tuy nhiên, điều khơng có nghĩa véc-tơ từ vô dụng Ngược lại, người ta nhận thấy rằng, véc-tơ cho biết thông tin quan trọng gọi “mức độ tương đồng nghĩa” (semantic similarity) Điều xuất phát từ Giả thuyết phân bố (Distributional Hypothesis) [6] sau đây: Độ tương đồng nghĩa hai biểu thức ngôn ngữ A B hàm độ tương đồng ngữ cảnh ngôn ngữ mà A B xuất Về mặt lý thuyết, sử dụng độ đo khoảng cách hai véc-tơ Trong thực tế, người ta thấy cosine thường cho kết tốt (xem Hình 3.2) Khi chiếu véc-tơ nghĩa từ lên mặt phẳng 2D dùng phương pháp giảm số chiều (như PCA), thường thấy từ có nghĩa tuơng đồng gom cụm gần (như Hình 3.3) Do đó, máy tính khơng biết chó có bốn chân, mèo kêu meo meo, mà biết chó mèo nằm nhóm động vật có tính chất tương đồng bị, cọp, heo Gần đây, [7] dùng phương pháp tuơng tự Đoán, cho véc-tơ mà số mối quan hệ nghĩa thể thơng qua phép tính véc-tơ, bật là: ! ki ng ! queen ! man 41 ! woman (5.1) Tạp chí Epsilon, Số 04, 08/2015 Hình 3.2: Dùng hàm cosine để đo góc hai véc-tơ Kết thu thể tương đồng nghĩa từ (hình lấy từ [3]) Hình 3.3: Các từ có nghĩa tương đồng thường nằm co cụm gần 42 Tạp chí Epsilon, Số 04, 08/2015 5.0.0.1 Ứng dụng Distributional semantics có nhiều ứng dụng chủ yếu xuất phát từ tính chất kể Một số liệt kê đây: xây dựng từ điển đồng nghĩa cách tự động (điều đặc biệt có ý nghĩa ngôn ngữ chưa nghiên cứu kỹ, ngôn ngữ dân tộc thiểu số), mở rộng từ khóa tìm kiếm (ví dụ Google bên cạnh tìm kiếm xác từ khóa người dùng nhập vào, mở rộng tìm kiếm cách thay từ khóa từ gần nghĩa), Đặc biệt, với xu ngày mở rộng của deep learning5 (dùng mạng nơ-ron nhân tạo có nhiều lớp), việc dùng véc-tơ nghĩa từ xuất phát điểm trở nên vô quan trọng nhiều ứng dụng phân tích cú pháp (syntactic parsing), phân loại văn (document classification), phân tích cảm nghĩ (sentiment analysis), dịch máy (machine translation) Bàn luận Ở phần trình bày hai phương pháp Đếm Đốn Một nhẩm tính bình thường thấy Đếm đơn giản nhiều so với Đốn Vì mà Đốn gần đây, sức mạnh máy tính tăng lên đáng kể, trở nên phổ biến Đoán thường cho véc-tơ với số chiều (khoảng 25-500), Đếm khoảng 2000 Về chất lượng véc-tơ, [1] đưa số chứng thực nghiệm cho thấy Đoán cho véc-tơ tốt Đếm Tuy nhiên, sau đó, [8] Đếm kết hợp với phương pháp đánh trọng số thông minh giảm số chiều hợp lý cho véc-tơ tốt Bài viết trình bày điều Distributional semantics Độc giả có “mắt đại bàng” thấy cịn nhiều thứ mở rộng nhiều việc phải làm để tiếp cận hệ ngữ nghĩa hoàn chỉnh Thứ nhất, đề cập đến nghĩa từ ngầm hiểu từ có nghĩa (được biểu diễn véc-tơ) Tuy nhiên, thực tế ta thường bắt gặp từ có nhiều nghĩa Các nghĩa khác (đồng âm khác nghĩa), tương đồng (đồng âm gần nghĩa) Việc xây dựng véc-tơ khác cho nghĩa khác cách tự động gọi Word sense induction Thứ hai, khái niệm tương đồng nghĩa nên hiểu tương đồng nghĩa ngữ cảnh sử dụng Nhìn vào Hình 3.3 thấy từ trái nghĩa lại gần (như “more” / “less”, “high” / “low”) Điều từ trái nghĩa thường đặt ngữ cảnh giống Những từ ám vật “water” “H2 0” có véc-tơ khác nhau, “water” thường sử dụng ngữ cảnh đời thường, “H2 0” dùng ngữ cảnh khoa học Thứ ba, distributional semantics mặt lý thuyết mở rộng cho đối tượng ngôn ngữ (như cụm từ, câu), thực tế khơng thể áp dụng cho cụm từ lớn câu (xem ví dụ Hình 3.4) Để giải vấn đề nghĩa cho cụm từ câu, lớn đoạn văn bản, người ta thường phải dựa vào Nguyên lý Kết hợp (principle of compositionality) Và việc tìm hàm kết hợp (composition function) nhiệm vụ hướng nghiên cứu Distributional Composition semantics Xem giới thiệu deep learning https://en.wikipedia.org/wiki/Deep_learning, deep learning cho xử lý ngôn ngữ tự nhiên http://nlp.stanford.edu/courses/NAACL2013/ NAACL2013-Socher-Manning-DeepLearning.pdf 43 Tạp chí Epsilon, Số 04, 08/2015 Hình 3.4: Với cụm từ lớn câu, khơng có đủ ngữ cảnh để xây dựng véc-tơ Ngay với kho liệu khổng lồ lớn Google, câu “Bún bị Huế ăn Việt Nam” có ngữ cảnh tìm thấy Lời cảm ơn Tác giả chân thành cảm ơn TS Nguyễn Thị Hồng Nhung (Manchester) sửa lỗi góp ý cho thảo Tài liệu tham khảo [1] Baroni, M., Dinu, G., and Kruszewski, G (2014) Don’t count, predict! a systematic comparison of context-counting vs context-predicting semantic vectors In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, volume 1, pages 238–247 [2] Bengio, Y., Ducharme, R., Vincent, P., and Janvin, C (2003) A neural probabilistic language model The Journal of Machine Learning Research, 3:1137–1155 [3] Erk, K (2012) Vector space models of word meaning and phrase meaning: A survey Language and Linguistics Compass, 6(10):635–653 [4] Firth, J R (1957) Papers in Linguistics Oxford Univeristy Press [5] Kurzweil, R (2005) The singularity is near: When humans transcend biology Penguin [6] Lenci, A (2008) Distributional semantics in linguistic and cognitive research From context to meaning: Distributional models of the lexicon in linguistics and cognitive science, special issue of the Italian Journal of Linguistics, 20(1):1–31 [7] Mikolov, T., Yih, W.-t., and Zweig, G (2013) Linguistic regularities in continuous space word representations In HLT-NAACL, pages 746–751 44 Tạp chí Epsilon, Số 04, 08/2015 [8] Pennington, J., Socher, R., and Manning, C D (2014) Glove: Global vectors for word representation Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), 12:1532–1543 [9] Turing, A M (1950) Computing machinery and intelligence Mind, pages 433–460 45 Tạp chí Epsilon, Số 04, 08/2015 46 ... hiểu nghĩa từ cần chọn lẫn từ có mặt ngữ cảnh Tương tự, với phương pháp Đoán, véc-tơ từ giúp làm tốt câu hỏi trên, véc-tơ cho thể nghĩa từ mà chúng biểu diễn Bây giả sử từ v V biểu diễn véc-tơ. .. nghĩa từ ngầm hiểu từ có nghĩa (được biểu diễn véc-tơ) Tuy nhiên, thực tế ta thường bắt gặp từ có nhiều nghĩa Các nghĩa khác (đồng âm khác nghĩa) , tương đồng (đồng âm gần nghĩa) Việc xây dựng véc-tơ. .. định nghĩa từ? John Rupert Firth năm 1957 đề xuất quan điểm mà trở thành “phương châm” để giải vấn đề tự động học nghĩa từ: You shall know a word by the company it keeps [4] nghĩa là: nghĩa từ