ĐỒ án lập TRÌNH WEB NÂNG CAO đề TÀI xây dựng chương trình qa của một cuộc hội thoại chatbot tiếng việt sử dụng BERT

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN LẬP TRÌNH WEB NÂNG CAO ĐỀ TÀI: Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT Sinh viên thực : NGUYỄN VĂN ANH Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : CƠNG NGHỆ PHẦN MỀM Lớp : D14CNPM4 Khóa : 2019-2023 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: STT Họ tên Nguyễn Văn Anh Mã SV: 19810310265 Chữ ký Nhiệm vụ LỜI MỞ ĐẦU Lý chọn đề tài Từ lâu người có suy nghĩ muốn tạo cỗ máy tự suy nghĩ hành động Chính thế, trí tuệ nhân tạo (AI) trở thành một lĩnh vực thời đại công nghệ thông tin ngày Các ngành nghề xã hội có xu hướng xử dụng AI để khiến máy móc thơng minh Trong giải trí, y tế, hay giáo dục, nhiều robot thơng minh tạo thay người dạy học, giúp đỡ người già, thực cơng đoạn cơng nghiệp, Vì ứng dụng hữu ích nó, em xin trình bày đề tài” Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT.”.Mong muốn thơng qua đề tài này, em có nhìn cụ thể AI, từ mở rộng để nghiên cứu phát triển thêm Mục tiêu nhiệm vụ -Mục tiêu: +Tìm hiểu định nghĩa, lịch sử phát triển trí tuệ nhân tạo +Tìm hiểu cấu trúc, thuật toán cách hoạt động AI -Nhiệm vụ: +Ứng dụng nghiên cứu để lập trình Q&A hội thoại chatbot tiếng việt sử dụng BERT Đối tượng phạm vi nghiêm cứu - Đối tượng nghiên cứu: Lĩnh vực AI -Phạm vi nghiên cứu: hội thoại người máy Phương pháp nghiên cứu -Nghiên cứu dựa trên: +Tài liệu +Tham khảo từ giáo viên hướng dẫn +Thực hành viết mã máy tính python Dự kiến kết Đạt mục tiêu nêu ra, lập trình thành cơng Q&A hội thoại chatbot tiếng việt sử dụng BERT Dự kiến hoàn thành khoảng tháng Do kiến thức còn hạn chế nên bài báo cáo không tránh khỏi những sai sót, kính mong thầy cô dạy bộ môn đưa những nhận xét và góp ý để bài báo cáo được hoàn chỉnh Em xin chân thành cảm ơn! CHƯƠNG I: GIỚI THIỆU VỀ AI 1.1 GIỚI THIỆU VỀ AI 1.1.1 Tìm hiểu khái niệm Cơng nghệ AI (viết tắt Artifical Intelligence) trí thơng minh nhân tạo cơng nghệ mơ q trình suy nghĩ học tập người cho máy móc, đặc biệt hệ thống máy tính Các q trình bao gồm việc học tập (thu thập thông tin quy tắc sử dụng thông tin), lập luận (sử dụng quy tắc để đạt kết luận gần xác định), tự sửa lỗi Các ứng dụng đặc biệt AI bao gồm hệ thống chuyên gia, nhận dạng tiếng nói thị giác máy tính (nhận diện khuôn mặt, vật thể chữ viết) Định nghĩa trí tuệ nhân tạo: (AI: Artificial Intelligence) định nghĩa ngành khoa học máy tính liên quan đến việc tự động hóa hành vi thông minh AI phận khoa học máy tính phải đặt nguyên lý lý thuyết vững chắc, có khả ứng dụng lĩnh vực Khái niệm công nghệ AI xuất John McCarthy, nhà khoa học máy tính Mỹ, vào năm 1956 Hội nghị The Dartmouth Ngày nay, công nghệ AI thuật ngữ bao gồm tất thứ từ q trình tự động hố robot đến người máy thực tế Công nghệ AI gần trở nên tiếng, nhận quan tâm nhiều người nhờ Dữ liệu lớn (Big Data), mối quan tâm doanh nghiệp tầm quan trọng liệu với công nghệ phần cứng phát triển mạnh mẽ hơn, cho phép xử lý công nghệ AI với tốc độ nhanh hết Ở thời điểm tại, Thuật ngữ thường dùng để nói đến MÁY TÍNH có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo Tức loại trí tuệ nhân tạo dừng lại mức độ máy tính siêu máy tính dùng để xử lý loại cơng việc điều khiển ngơi nhà, nghiên cứu nhận diện hình ảnh, xử lý liệu bệnh nhân để đưa phác đồ điều trị, xử lý liệu để tự học hỏi, khả trả lời câu hỏi chẩn đoán bệnh, trả lời khách hàng sản phẩm công ty, AI phận khoa học máy tính phải đặt nguyên lý lý thuyết vững Nói nơm na cho dễ hiểu: trí tuệ máy móc tạo người Trí tuệ tư duy, suy nghĩ, học hỏi, trí tuệ người Xử lý liệu mức rộng lớn hơn, quy mô hơn, hệ thống, khoa học nhanh so với người Trí tuệ nhân tạo mang lại nhiều giá trị cho sống loài người, tiềm ẩn nguy Rất nhiều chuyên gia lo lắng trí tuệ nhân tạo đạt tới ngưỡng tiến hóa thời điểm loài người bị tận diệt Rất nhiều phim khai thác đề tài với nhiều góc nhìn, qua muốn cảnh báo lồi người mối nguy đặc biệt 1.1.2 Lịch sử phát triển Thực nguồn gốc đời trí tuệ nhân tạo AI khơng sớm nói, thành tất yếu phát triển khoa học công nghệ, giải pháp giải tốn khó phát triển lồi người tương lai Dưới điểm lại cột mốc lịch sử phát triển trí tuệ nhân tạo AI Ngày nay, việc tiếp tục nghiên cứu cải tiến trí tuệ nhân tạo AI cơng nghệ tảng thể rõ kỹ tự động hóa lý luận tích hợp điện thoại, máy tính máy móc… Trí tuệ nhân tạo AI theo cách trở thành thực tế tảng giới Nghiên cứu lịch sử trí tuệ nhân tạo AI sớm vào năm thập niên 60 khám phá vấn đề mà cơng nghệ giải Vào năm 1960, Bộ Quốc phòng Hoa Kỳ quan tâm đến loại công việc bắt đầu đào tạo máy tính để bắt chước lý luận người Ví dụ, Cơ quan Dự án Nghiên cứu Quốc phịng Tiên tiến (DARPA) hồn thành dự án lập đồ đường phố vào năm 1970 Và DARPA sản xuất trợ lý cá nhân thông minh vào năm 2003… Công việc ban đầu mở đường cho tự động hóa lý luận thức mà thấy máy tính ngày nay, bao gồm hệ thống hỗ trợ định hệ thống tìm kiếm thơng minh thiết kế để bổ sung tăng cường khả người 1943  Warren McCullough Walter Pitts xuất “A Logical Calculus of Ideas Immanent in Nervous Activity”, dịch “Một tính toán logic ý tưởng tiềm ẩn hoạt động thần kinh”. Bài viết đề xuất mơ hình tốn học để xây dựng mạng lưới thần kinh 1949  1950 Trong sách “The Organization of Behavior: A Neuropsychological Theory”- Tổ chức hành vi: Một lý thuyết thần kinh học,Donald Hebb đề xuất lý thuyết hệ thống đường thần kinh tạo từ kết nối tế bào thần kinh trở nên mạnh mẽ  Alan Turing xuất “Computing Machinery and Intelligence” – Máy tính trí thơng minh, đề xuất Thử nghiệm Turing, phương pháp để xác định xem máy tính có thơng minh hay khơng Alan Turing Phép thử Turing (1950)    Đại học Harvard Marvin Minsky Dean Edmonds xây dựng SNARC, máy tính mạng thần kinh Claude Shannon xuất báo “Lập trình máy tính để chơi cờ” Isaac Asimov xuất “Ba định luật robot” 1952  Arthur Samuel phát triển chương trình tự học để chơi cờ 1954  Thí nghiệm dịch máy Georgetown-IBM tự động dịch 60 câu tiếng Nga chọn cẩn thận sang tiếng Anh 1956  Cụm từ trí tuệ nhân tạo lần nói đến “Dự án nghiên cứu mùa hè trí tuệ nhân tạo”. Với dẫn đầu John McCarthy, hội nghị, xác định phạm vi mục tiêu AI, coi đời trí tuệ nhân tạo biết ngày Hội nghị Dartmouth với dẫn đầu John McCarthy  Allen Newell Herbert Simon trình diễn Nhà lý luận logic (LT), chương trình lý luận 1958  John McCarthy phát triển ngơn ngữ lập trình AI Lisp xuất báo “Programs with Common Sense”. Bài viết đề xuất nhà tư vấn giả thuyết, hệ thống AI hoàn chỉnh với khả học hỏi kinh nghiệm hiệu người 1959     Allen Newell, Herbert Simon JC Shaw giải vấn đề chung (GPS), chương trình thiết kế để bắt chước giải vấn đề người Herbert Gelernter phát triển chương trình Định lý hình học Arthur Samuel đồng xu với thuật ngữ học máy IBM John McCarthy Marvin Minsky tìm thấy Dự án Trí tuệ nhân tạo MIT 1963  John McCarthy bắt đầu Phịng thí nghiệm AI Stanford 1966  Báo cáo Ủy ban Tư vấn xử lý ngôn ngữ tự động (ALPAC) phủ Hoa Kỳ nêu chi tiết thiếu tiến nghiên cứu dịch máy, sáng kiến lớn chiến tranh lạnh với lời hứa dịch tự động tiếng Nga. Báo cáo ALPAC dẫn đến việc hủy bỏ tất dự án MT phủ tài trợ 1969  Các hệ thống chuyên gia thành công phát triển DENDRAL, chương trình XX MYCIN, thiết kế để chẩn đoán nhiễm trùng máu, tạo Stanford Năm 1972  Ngơn ngữ lập trình logic PRITAL tạo Năm 1973  “Báo cáo Lighthill”, nêu chi tiết thất bại nghiên cứu AI, phủ Anh cơng bố, từ dẫn đến việc cắt giảm nghiêm trọng tài trợ cho dự án trí tuệ nhân tạo 1974-1980  Liên tiếp thất vọng với phát triển AI dẫn đến cắt giảm DARPA lớn khoản trợ cấp học thuật. Kết hợp với báo cáo ALPAC trước “Báo cáo Lighthill” năm trước, tài trợ trí tuệ nhân tạo làm khô quầy nghiên cứu. Thời kỳ gọi “Mùa đông AI đầu tiên.” 1980  Tập đoàn thiết bị kỹ thuật số phát triển R1 (còn gọi XCON), hệ thống chuyên gia thương mại thành công đầu tiên. Được thiết kế để định cấu hình đơn đặt hàng cho hệ thống máy tính mới, R1 khởi đầu bùng nổ đầu tư vào hệ thống chuyên gia tồn phần lớn thập kỷ, kết thúc hiệu “Mùa đông AI” 1982  Bộ Thương mại Quốc tế Công nghiệp Nhật Bản khởi động dự án Hệ thống máy tính hệ thứ năm đầy tham vọng. Mục tiêu FGCS phát triển hiệu giống siêu máy tính tảng để phát triển trí tuệ nhân tạo AI 1983  Đáp lại FGCS Nhật Bản, phủ Hoa Kỳ khởi động Sáng kiến điện toán chiến lược để cung cấp nghiên cứu tài trợ DARPA điện toán tiên tiến trí tuệ nhân tạo 1985  Các cơng ty chi tỷ đô la năm cho hệ thống chuyên gia toàn ngành công nghiệp gọi thị trường máy Lisp mọc lên để hỗ trợ họ. Các công ty Symbolics Lisp Machines Inc xây dựng máy tính chuyên dụng để chạy ngơn ngữ lập trình AI Lisp 1987-1993   Khi cơng nghệ điện tốn đám mây cải thiện, có nhiều lựa chọn thay rẻ xuất thị trường máy Lisp sụp đổ vào năm 1987, mở “Mùa đông AI thứ hai”. Các chuyên gia AI chật vật không ủng hộ giai đoạn DARPA kết thúc Sáng kiến Điện toán Chiến lược vào năm 1993 sau chi gần tỷ đô la không đạt kỳ vọng tính tốn 1991  Lực lượng Hoa Kỳ triển khai DART, công cụ lập kế hoạch lập kế hoạch hậu cần tự động, Chiến tranh vùng Vịnh 2005   STANLEY, xe tự lái, chiến thắng DARPA Grand Challenge Quân đội Hoa Kỳ bắt đầu đầu tư vào robot tự hành “Big Dog” Boston Dynamic “PackBot” iRobot 2008  Google tạo bước đột phá nhận dạng giọng nói giới thiệu tính ứng dụng iPhone 2011  2012 Watson IBM tuyên bố cạnh tranh về Jeopardy!.  Andrew Ng, người sáng lập dự án Google Brain Deep Learning, cung cấp mạng lưới thần kinh cách sử dụng thuật toán 10 triệu video YouTube dạng tập huấn luyện. Mạng lưới thần kinh học cách nhận mèo mà khơng cho biết mèo 2014  Google tạo xe tự lái để vượt qua kiểm tra lái xe nhà nước 2016  AlphaGo Google DeepMind đánh bại nhà vô địch giới cờ vây Lee Sedol. Sự phức tạp trò chơi Trung Quốc cổ đại coi trở ngại lớn để giải tỏa AI 1.1.3 Ứng dụng AI AI chăm sóc sức khỏe – Ứng dụng bật trí tuệ nhân tạo AI cải thiện sức khỏe người giảm chi phí Các bệnh viện áp dụng máy để chẩn đoán tốt nhanh người Một biết công nghệ tốt chăm sóc sức khỏe là IBM Watson Nó hiểu ngơn ngữ tự nhiên có khả trả lời câu hỏi Hệ thống khai thác liệu bệnh nhân nguồn liệu có sẵn khác để tạo thành giả thuyết, sau đưa lược đồ chấm điểm tin cậy – Các ứng dụng AI khác bao gồm chatbot , chương trình máy tính sử dụng trực tuyến để trả lời câu hỏi hỗ trợ khách hàng, giúp xếp hẹn theo dõi hỗ trợ bệnh nhân thông qua quy trình tốn trợ lý sức khỏe ảo cung cấp phản hồi y tế AI kinh doanh – Tự động hóa q trình robot áp dụng cho cơng việc có tính chất lặp lặp lại – Các thuật tốn tích hợp vào tảng phân tích CRM để khám phá thông tin cách phục vụ khách hàng tốt – Chatbots kết hợp vào trang web để cung cấp dịch vụ cho khách hàng AI giáo dục AI tự động hóa việc chấm điểm, giúp giáo viên có thêm thời gian AI đánh giá lực quản lý sinh viên Gia sư AI cung cấp hỗ trợ cho sinh viên, đảm bảo họ hồn thành theo giáo trình từ trước Thậm AI thay số giáo viên AI tài AI ứng dụng lĩnh vực tài chính, ứng dụng thu thập liệu cá nhân cung cấp tư vấn tài AI pháp luật Q trình khám phá, sàng lọc thông tin tài liệu pháp luật thường công việc dành cho người Tuy nhiên tự động hóa q trình giúp người sử dụng thời gian hiệu AI sản xuất Đây lĩnh vực đầu việc kết hợp robot vào quy trình làm việc Robot công nghiệp sử dụng để thực nhiệm vụ đơn lẻ giải phóng sức lao động người 1.1.4 Các lĩnh vực nghiên cứu AI Trí tuệ người (Human Intelligence): Cho đến có hai khái niệm trí tuệ người chấp nhận sử dụng nhiều nhất, là:  Khái niệm trí tuệ theo quan điểm Turing “Trí tuệ đánh giá thông qua trắc nghiệm thông minh”  Khái niệm trí tuệ đưa tụ điển bách khoa tồn thư: “Trí tuệ khả năng: Phản ứng cách thích hợp tình thơng qua hiệu chỉnh hành vi cách thích đáng Hiểu rõ mối liên hệ qua lại kiện giới bên nhằm đưa hành động phù hợp đạt tới mục đích Những nghiên cứu chuyên gia tâm lý học nhận thức q trình hoạt động trí tuệ người bao gồm thao tác bản: 1- Xác định tập đích (goals) 2- Thu thập kiện (facts) luật suy diễn (inference rules) để đạt đích đặt 3- Thu gọn (pruning) trình suy luận nhằm xác định tập suy diễn sử dụng 4- Áp dụng chế suy diễn cụ thể (inference mechanisms) để đưa kiện ban đầu đến đích Trí tuệ máy: khơng có định nghĩa tổng quat, nêu đặc trưng chính: 1- Khả học 2- Khả mô hành vi người 3- Khả trừu tượng hoá, tổng quát hoá suy diễn 4- Khả tự giải thích hành vi 5- Khả thích nghi tình kể thu nạp tri thức liệu 6- Khả xử lý biểu diễn hình thức ký hiệu tượng trưng 7- Khả sử dụng tri thức heuristic 8- Khả xử lý thông tin khơng đầy đủ, khơng xác 1.2 NHỮNG VẤN ĐỀ CHƯA ĐƯỢC GIẢI QUYẾT CỦA TRÍ TUỆ NHÂN TẠO Những thành tựu nghiên cứu ứng dụng kỹ thuật Trí tuệ nhân tạo khẳng định tính thực tiễn dự án xây dựng máy tính có khả suy nghĩ Tuy số phạm vi, máy tính cịn thua xa so với hoạt động hệ thần kinh người: Sự khác hoạt động máy tính não người, điều thể ưu máy tính so với não người khả tính tốn lớn (nhất chương trình xử lý liệu lớn) Xử lý song song: công nghệ điện tử đại cho phép xây dựng đa xử lý, song máy tính khơng thể hoạt động song song não người Khả diễn giải: người xem xét vấn đề theo phương pháp khác nhau, từ diễn giải theo cách dễ hiểu Ngược lại, linh hoạt mô hệ thống Trí tuệ nhân tạo Lơgic rời rạc tính liên tục: thách đố lớn với hệ thống Trí tuệ nhân tạo khả kết hợp phương pháp xử lý thông tin môi trường liên tục với thao tác xử lý thông tin rời rạc Khả học: máy tính có nhiều tính cao khơng thể mơ hồn tồn khả học giống não người Khả tự tổ chức: nay, người ta chưa thể tạo lập hệ thống Trí tuệ nhân tạo có khả tự tổ chức, tự điều khiển hoạt động để thích nghi với môi trường 1.3 NHỮNG ƯU ĐIỂM VÀ RỦI RO 1.3.1 Ưu điểm Công nghệ Ai nghiên cứu phát triển sâu rộng Đặc biệt nước phát triển, điều thực nhiều Trí tuệ nhân tạo xử lý khối lượng lớn công việc Với liệu lớn hơn, rắc rối cơng nghệ Ai đưa dự đốn xác người Điều ưu điểm lớn cơng nghệ Ai Thông thường xử lý lượng liệu lớn, người khó xác hồn tồn Tuy nhiên điều thực cơng nghệ trí tuệ nhân tạo Ngay nhà khoa học cảm thấy khó khăn giải số lượng liệu lớn AI sử dụng học máy để lấy liệu nhanh chóng biến thành thơng tin thực Đây lời giải đáp cho ưu điểm của cơng nghệ AI gì? 1.3.2 Rủi ro Rủi ro tự động hóa thất nghiệp Trong thành công gần lĩnh vực máy học (Machine Learning) robot, dường vấn đề thời gian công việc phức tạp địi hỏi trí thơng minh cao tiếp quản tồn diện máy móc Những người hưởng lợi nhiều từ công nghệ tiến người dân quốc gia hiểu tận dụng hội công nghệ ảnh hưởng liệu lớn mạng Trong ngành cơng nghiệp giải trí có hội quan trọng để phát triển giáo dục tốt thông qua cá nhân hóa dạy học AI ứng dụng hóa tài liệu học tập, đồng thời làm tăng nguy tỷ lệ người trẻ tuổi gặp khó khăn việc hoàn thành giáo dục họ nghiện bệnh lý trò chơi video và/hoặc internet Tiến công nghệ làm tăng suất xã hội, nâng mức sống trung bình Nếu cơng việc thực máy móc nhiều hơn, thời gian rảnh rỗi người dành cho giải trí tự phát triển cho người tang lên (một ưu điểm sử dụng AI) Tuy nhiên, nhược điểm cơng nghệ AI tăng tự động hóa gia tăng suất dẫn tới bất bình đẳng xã hội ngày tăng gia tăng mức sống trung bình khơng có trùng hợp với gia tăng chất lượng trung bình sống Các chuyên gia kinh tế học MIT giáo sư Erik Brynjolfsson chí lo lắng cơng nghệ tiến đe dọa làm cho sống đa số người tồi tệ Rủi ro tình báo và siêu trí tuệ nói chung Trí thơng minh chung khả đạt mục tiêu chung mơi trường khác Trí thơng minh gây rủi ro (thảm khốc) mục tiêu máy móc khơng phù hợp với người Nếu trí thơng minh chung đạt đến mức độ siêu phàm, trở thành siêu trí tuệ; là, thuật tốn vượt trội so với trí thông minh người cách, kể sáng tạo khoa học, phổ biến, cảm giác, lực xã hội Lưu ý định nghĩa để ngỏ câu hỏi việc có hay khơng siêu trí tuệ có ý thức Trong trường hợp tốt nhất, siêu trí tuệ giải vơ số vấn đề cho nhân loại, giúp vượt qua đạt thành tựu khoa học, đạo đức, sinh thái kinh tế trước thách thức tương lai Tuy nhiên, mục tiêu siêu trí tuệ khơng tương thích với sở thích người sinh vật khác, AI mang tới mối đe dọa tồn chưa có, có khả gây hậu nhiều so với kiện trước vũ trụ Rủi ro y thức nhân tạo Hai câu hỏi liên quan phải phân biệt thực sự: Thứ nhất, liệu máy móc phát triển ý thức khả đau đớn; thứ hai, câu trả lời cho câu hỏi có, loại máy (sẽ) có ý thức Nhìn lướt qua tình trạng nghiên cứu cho thấy câu hỏi dễ trả lời thứ hai Hiện có đồng thuận đáng kể, khơng phải tồn số chuyên gia máy móc ngun tắc có ý thức, thần kinh máy tính Những cân nhắc có hậu đạo đức sâu rộng Nếu máy móc có ý thức, mặt đạo đức vô lương tâm khai thác chúng lực lượng lao động sử dụng chúng cho công việc rủi ro gỡ rối mìn xử lý chất nguy hiểm Triển vọng đặc biệt đáng lo ngại hình dung AI tạo số khổng lồ trường hợp xấu nhất, số nạn nhân thiên văn, đơng thảm họa biết đến khứ Hiện nay, chứng kiến lan rộng công nghệ AI với tiềm đáng ngạc nhiên Công nghệ AI đứng sau xe không người lái, y tế hỗ trợ Watson chẩn đốn, máy bay khơng người lái qn đội Hoa Kỳ trở thành sản phẩm thực tiễn tương lai gần Điều cốt yếu khung pháp lý xây dựng cẩn thận diễn trước điều xảy ra, để nhận tiềm công nghệ theo cách giảm thiểu rủi ro cách an toàn phát triển tổng thể tiêu cực Càng tiến lĩnh vực công nghệ AI, nhấn mạnh cách tiếp cận hợp lý, tầm nhìn xa thách thức liên quan trở thành Bởi trị tiến pháp lý có xu hướng tụt hậu so với phát triển cơng nghệ, có trách nhiệm đặc biệt lớn dựa nhà nghiên cứu nhà phát triển cá nhân trực tiếp tham gia vào tiến trình thực Tuy nhiên, cần khuyến khích kinh tế mạnh mẽ cho phát triển công nghệ diễn nhanh mà khơng làm lãng phí thời gian phân tích rủi ro CHƯƠNG II: CHƯƠNG TRÌNH Q&A CỦA MỘT CUỘC HỘI THOẠI CHATBOT TIẾNG VIỆT SỬ DỤNG BERT 2.1 GIỚI THIỆU VỀ BERT 2.1.1 Khái niệm BERT BERT viết tắt của “Bidirectional Encoder Representations from Transformers”, kiến trúc cho lớp toán Language Representation đươc Google công bố vào đầu tháng 11 vừa qua Không giống mơ hình trước đó, BERT thiết kế để đào tạo vector đại diện cho ngôn ngữ văn thông qua ngữ cảnh chiều (trái phải) chúng Kết là, vector đại diện sinh từ mơ hình BERT tính chỉnh với lớp đầu bổ sung tạo nhiều kiến trúc cải tiến đáng kể cho nhiệm vụ xử lý ngôn ngữ tự nhiên Question Answering, Language Inference, mà không cần thay đổi nhiều từ kiến trúc cũ BERT khái niệm đơn giản lại mang lại hiệu cực lớn thực tế Nó thu kết tối ưu cho 11 nhiệm vụ xử lý ngôn ngữ tự nhiên, bao gồm việc đẩy kết nhiệm vụ GLUE benchmark lên 80.4%(cải tiến thêm 7.6%) SQuAD v.1.1 với F1 score tập test đạt 93.2%(cải tiến thêm 1.5%), tốt người 2% Lớp toán Representation cho mơ hình ngơn ngữ cho thấy hiệu việc cải thiện nhiều nhiệm vụ lĩnh vực xử lí ngơn ngữ tự nhiên Những nhiệm vụ nhiệm vụ cấp câu Natural language inference, Paraphrasing nhằm dự đoán mối quan hệ câu cách phân tích tổng thể chúng nhiệm vụ cấp từ nhận dạng thực thể có tên(NER), Question Answering với yêu cầu trả kết xác cho câu hỏi dạng từ, Có chiến lược để sử dụng biểu diễn ngôn ngữ huấn luyện trước cho nhiệm vụ sau, gồm feature-based fine-tuning Tuy nhiên, kỹ thuật bị hạn chế nhiều việc thể khả mơ hình vector đại diện, đặc biệt hướng tiếp cận finetuning Hạn chế mơ hình ngơn ngữ xây dựng dựa ngữ cảnh chiều gây nên hạn chế việc lựa chọn mơ hình kiến trúc sử dụng q trình sử dụng pre-training Ví dụ OpenAI GPT, tác giả sử dụng kiến trúc left-to-right, nghĩa tokens phụ thuộc vào token trước Trong kiến trúc này, cung cấp hướng tiếp cận dựa fine-tuning khắc phục hạn chế đó, gọi là “Bidirectional Encoder Representations from Transformers” 2.1.2 Sự đời BERT Các nhà nghiên cứu làm việc Google AI tái khẳng định, thiếu hụt liệu đào tạo thách thức lớn lĩnh vực xử lý ngôn ngữ tự nhiên Đây lĩnh vực rộng lớn đa dạng với nhiều nhiệm vụ riêng biệt, hầu hết tập liệu đặc thù cho nhiệm vụ Để thực tốt nhiệm vụ ta cần liệu lớn chứa hàng triệu chí hàng tỷ ví dụ mẫu Tuy nhiên, thực tế hầu hết tập liệu chứa vài nghìn vài trăm nghìn mẫu đánh nhãn tay người(các chuyên gia ngôn ngữ học) Sự thiếu hụt liệu có nhãn chất lượng cao để đào tạo mơ hình gây cản trở lớn cho phát triển NLP nói chung Để giải thách thức này, mơ hình xử lý ngơn ngữ tự nhiên sử dụng chế tiền xử lý liệu huấn luyện việc transfer từ mơ hình chung đào tạo từ lượng lớn liệu không gán nhãn Ví dụ số mơ hình nghiên cứu trước để thực nhiệm vụ Word2vec, Glove hay FastText Việc nghiên cứu mô hình giúp thu hẹp khoảng cách tập liệu chuyên biệt cho đào tạo việc xây dựng mơ hình tìm đại diện chung ngôn ngữ sử dụng số lượng lớn văn chưa gán nhãn lấy từ trang web Các pre-train model tinh chỉnh lại nhiệm vụ khác với liệu nhỏ Question Answering, Sentiment Analysis, dẫn đến cải thiện đáng kể độ xác cho so với mơ hình huấn luyện trước với liệu Tuy nhiên, mơ hình kể có yếu điểm riêng nó, đặc biệt đại diện theo ngữ cảnh cụ thể từ lĩnh vực hay văn cảnh cụ thể Tiếp nối thành công định mơ hình trước đó, Google cơng bố thêm kỹ thuật gọi Bidirectional Encoder Representations from Transformers(BERT) Với lần công bố này(kèm mã nguồn dự án), Google khẳng định giới đào tạo hệ thống hỏi đáp(Question Answering) cải tiến cho riêng nhiều mơ hình NLP khác vài GPU khoảng 30p TPU(có thể bạn chưa biết, Google cho phép bạn sử dụng TPU họ cách miễn phí tại Google Colab) Một số trích dẫn từ nhà nghiên cứu Google AI cho bạn nhìn khái quát hơn: "BERT is the first deeply bidirectional, unsupervised language representation, pre-trained using only a plain text corpus (in this case, Wikipedia)" "Integrating a bidirectional model supports access to context from both past, future and unsupervised directions of data – it can consume data that has not yet been categorized." Hiện tại, BERT có sẵn Github hỗ trợ tiếng Anh mục tiêu Google phát hành mơ hình đào tạo nhiều ngôn ngữ khác tương lai 2.1.3 Kết mà BERT đạt Để đánh giá hiệu mà BERT đem lại, kỹ sư thuộc Google AI so sánh BERT với mơ hình tốt NLP trước Điều quan trọng việc sử dụng BERT thay cho pre-train model trước mà không cần thực thay đổi kiến trúc mạng neural sâu Kết là, SQUAD v1.1, BERT đạt kết F1_score = 93.2%, vượt kết tốt trước 91.6% hiệu mà người đạt 91.2% Trên SQUAD v2.0, Top kết tốt toàn BERT BERT cải thiện hiệu tốt thách thức GLUE benchmark, nhiệm vụ Natural Language Understanding (NLU) BERT gần chiếm top tất nhiệm vụ xử lý ngôn ngữ tự nhiên từ trước đến lần khẳng định lại sức mạnh Đây coi bước nhảy vượt bậc Google lĩnh vực xử lý ngơn ngữ tự nhiên tự hỏi phải cú hích lớn để cải tiến tốn xử lí ngơn ngữ tự nhiên cho tiếng Việt 2.2 Áp dụng vào toán Khi mơ hình nhận input đầu vào thực trích xuất dựa theo câu hỏi data có sẵn cách encode câu hỏi đoạn văn tính độ tương đồng, sau lấy tập câu trả lời có độ tương đồng với câu hỏi cao Tiếp đến đưa qua mơ hình rerank để đánh giá lại khả đoạn văn câu trả lời cho câu hỏi, tính xác suất xếp theo điểm số Câu trả lời đưa câu có điểm số cao 2.3 Kết Quả 2.4 Rủi ro Do data còn hạn chế nên sẽ xảy trường hợp kết quả in bị lệch với câu hỏi ... người già, thực cơng đoạn cơng nghiệp, Vì ứng dụng hữu ích nó, em xin trình bày đề tài” Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT. ”.Mong muốn thông qua đề tài này, em có... nghĩa, lịch sử phát triển trí tuệ nhân tạo +Tìm hiểu cấu trúc, thuật toán cách hoạt động AI -Nhiệm vụ: +Ứng dụng nghiên cứu để lập trình Q&A hội thoại chatbot tiếng việt sử dụng BERT Đối tượng... CHƯƠNG II: CHƯƠNG TRÌNH Q&A CỦA MỘT CUỘC HỘI THOẠI CHATBOT TIẾNG VIỆT SỬ DỤNG BERT 2.1 GIỚI THIỆU VỀ BERT 2.1.1 Khái niệm BERT BERT viết tắt của? ?“Bidirectional Encoder Representations from Transformers”,

Định dạng
Số trang	23
Dung lượng	0,99 MB