ĐỒ án lập TRÌNH WEB NÂNG CAO đề tài xây dựng chương trình qa của một cuộc hội thoại chatbot tiếng việt sử dụng BERT

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN LẬP TRÌNH WEB NÂNG CAO ĐỀ TÀI: Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT Sinh viên thực Ngành Chuyên ngành Lớp Khóa TIEU LUAN MOI download : skknchat123@gmail.com PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: STT Họ Nguyễn Văn Anh Mã SV: 19810310265 TIEU LUAN MOI download : skknchat123@gmail.com LỜI MỞ ĐẦU Lý chọn đề tài Từ lâu người có suy nghĩ muốn tạo cỗ máy tự suy nghĩ hành động Chính thế, trí tuệ nhân tạo (AI) trở thành một lĩnh vực thời đại công nghệ thông tin ngày Các ngành nghề xã hội có xu hướng xử dụng AI để khiến máy móc thơng minh Trong giải trí, y tế, hay giáo dục, nhiều robot thơng minh tạo thay người dạy học, giúp đỡ người già, thực cơng đoạn cơng nghiệp, Vì ứng dụng hữu ích nó, em xin trình bày đề tài” Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT.”.Mong muốn thông qua đề tài này, em có nhìn cụ thể AI, từ mở rộng để nghiên cứu phát triển thêm Mục tiêu nhiệm vụ -Mục tiêu: +Tìm hiểu định nghĩa, lịch sử phát triển trí tuệ nhân tạo +Tìm hiểu cấu trúc, thuật toán cách hoạt động AI -Nhiệm vụ: +Ứng dụng nghiên cứu để lập trình Q&A hội thoại chatbot tiếng việt sử dụng BERT Đối tượng phạm vi nghiêm cứu - Đối tượng nghiên cứu: Lĩnh vực AI -Phạm vi nghiên cứu: hội thoại người máy Phương pháp nghiên cứu -Nghiên cứu dựa trên: +Tài liệu +Tham khảo từ giáo viên hướng dẫn +Thực hành viết mã máy tính python Dự kiến kết Đạt mục tiêu nêu ra, lập trình thành công Q&A hội thoại chatbot tiếng việt sử dụng BERT Dự kiến hoàn thành khoảng tháng Do kiên thưc còn han chê nên bai bao cao không tranh khỏi sai sot, kinh mong thầy cô day bô môn đưa nhân xét va gop y đê bai bao cao đươc hoan chỉnh Em xin chân cam ơn! CHƯƠNG I: GIỚI THIỆU VỀỀ̀ AI TIEU LUAN MOI download : skknchat123@gmail.com 1.1 GIỚI THIỆU VỀỀ̀ AI 1.1.1 Tìm hiểu khái niệm Cơng nghệ AI (viết tắt Artifical Intelligence) trí thơng minh nhân tạo cơng nghệ mơ phỏỏ̉ng q trình suy nghĩ học tập người cho máy móc, đặc biệt hệ thống máy tính Các trình bao gồm việc học tập (thu thập thông tin quy tắc sử dụng thông tin), lập luận (sử dụng quy tắc để đạt kết luận gầầ̀n xác định), tự sửa lỗi Các ứng dụng đặc biệt AI bao gồm hệ thống chuyên gia, nhận dạng tiếng nói thị giác máy tính (nhận diện khn mặt, vật thể chữ viết) Định nghĩa trí tuệ nhân tạo: (AI: Artificial Intelligence) định nghĩa ngành khoa học máy tính liên quan đến việc tự động hóa hành vi thơng minh AI phận khoa học máy tính phải đặt nguyên lý lý thuyết vững chắc, có khả ứng dụng lĩnh vực Khái niệm công nghệ AI xuất đầầ̀u tiên John McCarthy, nhà khoa học máy tính Mỹ, vào năm 1956 Hội nghị The Dartmouth Ngày nay, công nghệ AI thuật ngữ bao gồm tất thứ từ trình tự động hố robot đến người máy thực tế Cơng nghệ AI gầầ̀n trở nên tiếng, nhận quan tâm nhiều người nhờ Dữ liệu lớn (Big Data), mối quan tâm doanh nghiệp tầầ̀m quan trọng liệu với công nghệ phầầ̀n cứng phát triển mạnh mẽ hơn, cho phéé́p xử lý công nghệ AI với tốc độ nhanh hết thời điểm tại, Thuật ngữ thường dùng để nói đến MÁY TÍNH có mục đích không định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo Tức loại trí tuệ nhân tạo dừng lại mức độ máy tính siêu máy tính dùng để xử lý loại cơng việc điều khiển ngơi nhà, nghiên cứu nhận diện hình ảnh, xử lý liệu bệnh nhân để đưa phác đồ điều trị, xử lý liệu để tự học hỏỏ̉i, khả trả lời câu hỏỏ̉i chẩn đoán bệnh, trả lời khách hàng sản phẩm công ty, Ở AI phận khoa học máy tính phải đặt ngun lý lý thuyết vững Nói nơm na cho dễ hiểu: trí tuệ máy móc tạo người Trí tuệ tư duy, suy nghĩ, học hỏỏ̉i, trí tuệ người Xử lý liệu mức rộng lớn hơn, quy mô hơn, hệ thống, khoa học nhanh so với người Trí tuệ nhân tạo mang lại nhiều giá trị cho sống loài người, tiềm ẩn nguy Rất nhiều chuyên gia lo lắng trí tuệ nhân tạo TIEU LUAN MOI download : skknchat123@gmail.com đạt tới ngưỡng tiến hóa thời điểm loài người bị tận diệt Rất nhiều phim khai thác đề tài với nhiều góc nhìn, qua muốn cảnh báo lồi người mối nguy đặc biệt 1.1.2 Lịch sử phát triển Thực nguồn gốc đời trí tuệ nhân tạo AI khơng sớm nói, thành tất yếu phát triển khoa học công nghệ, giải pháp giải tốn khó phát triển lồi người tương lai Dưới điểm lại cột mốc lịch sử phát triển trí tuệ nhân tạo AI Ngày nay, việc tiếp tục nghiên cứu cải tiến trí tuệ nhân tạo AI cơng nghệ tảng thể rõ kỹ tự động hóa lý luận tích hợp điện thoại, máy tính máy móc… Trí tuệ nhân tạo AI theo cách trở thành thực tế tảng giới Nghiên cứu lịch sử trí tuệ nhân tạo AI sớm vào năm thập niên 60 khám phá vấn đề mà cơng nghệ giải Vào năm 1960, Bộ Quốc phòầ̀ng Hoa Kỳ quan tâm đến loại công việc bắt đầầ̀u đào tạo máy tính để bắt chước lý luận người Ví dụ, Cơ quan Dự án Nghiên cứu Quốc phòầ̀ng Tiên tiến (DARPA) hoàn thành dự án lập đồ đường phố vào năm 1970 Và DARPA sản xuất trợ lý cá nhân thông minh vào năm 2003… Công việc ban đầầ̀u mở đường cho tự động hóa lý luận thức mà thấy máy tính ngày nay, bao gồm hệ thống hỗ trợ định hệ thống tìm kiếm thơng minh thiết kế để bổ sung tăng cường khả người 1943 Warren McCullough Walter Pitts xuất “A Logical Calculus of Ideas Immanent in Nervous Activity”, dịch “Một tính tốn logic ý tưởng tiềm ẩn hoạt động thầầ̀n kinh” Bài viết đề xuất mơ hình tốn học đầầ̀u tiên để xây dựng mạng lưới thầầ̀n kinh 1949 Trong sách “The Organization of Behavior: A Neuropsychological Theory”- Tổ chức hành vi: Một lý thuyết thần kinh học,Donald Hebb đề xuất lý thuyết hệ thống đường thầầ̀n kinh tạo từ kết nối tế bào thầầ̀n kinh trở nên mạnh mẽ 1950 TIEU LUAN MOI download : skknchat123@gmail.com Alan Turing xuất “Computing Machinery and Intelligence” – Máy tính trí thơng minh, đề xuất Thử nghiệm Turing, phương pháp để xác định xem máy tính có thông minh hay không Alan Turing Phéé́p thử Turing (1950) Đại học Harvard Marvin Minsky Dean Edmonds xây dựng SNARC, máy tính mạng thầầ̀n kinh đầầ̀u tiên Claude Shannon xuất báo “Lập trình máy tính để chơi cờ” Isaac Asimov xuất “Ba định luật robot” TIEU LUAN MOI download : skknchat123@gmail.com 1952 Arthur Samuel phát triển chương trình tự học để chơi cờ 1954 Thí nghiệm dịch máy Georgetown-IBM tự động dịch 60 câu tiếng Nga chọn cẩn thận sang tiếng Anh 1956 Cụm từ trí tuệ nhân tạo lầầ̀n đầầ̀u tiên nói đến “Dự án nghiên cứu mùa hè trí tuệ nhân tạo” Với dẫn đầầ̀u John McCarthy, hội nghị, xác định phạm vi mục tiêu AI, coi đời trí tuệ nhân tạo biết ngày TIEU LUAN MOI download : skknchat123@gmail.com Hội nghị Dartmouth với dẫn đầầ̀u John McCarthy Allen Newell Herbert Simon trình diễn Nhà lý luận logic (LT), chương trình lý luận đầầ̀u tiên 1958 John McCarthy phát triển ngơn ngữ lập trình AI Lisp xuất báo “Programs with Common Sense” Bài viết đề xuất nhà tư vấn giả thuyết, hệ thống AI hoàn chỉỏ̉nh với khả học hỏỏ̉i kinh nghiệm hiệu người 1959 Allen Newell, Herbert Simon JC Shaw giải vấn đề chung (GPS), chương trình thiết kế để bắt chước giải vấn đề người Herbert Gelernter phát triển chương trình Định lý hình học Arthur Samuel đồng xu với thuật ngữ học máy còầ̀n IBM John McCarthy Marvin Minsky tìm thấy Dự án Trí tuệ nhân tạo MIT 1963 John McCarthy bắt đầầ̀u Phòầ̀ng thí nghiệm AI Stanford TIEU LUAN MOI download : skknchat123@gmail.com 1966 Báo cáo Ủy ban Tư vấn xử lý ngôn ngữ tự động (ALPAC) phủ Hoa Kỳ nêu chi tiết thiếu tiến nghiên cứu dịch máy, sáng kiến lớn chiến tranh lạnh với lời hứa dịch tự động tiếng Nga Báo cáo ALPAC dẫn đến việc hủy bỏỏ̉ tất dự án MT phủ tài trợ 1969 Các hệ thống chuyên gia thành công đầầ̀u tiên phát triển DENDRAL, chương trình XX MYCIN, thiết kế để chẩn đoán nhiễm trùng máu, tạo Stanford Năm 1972 Ngơn ngữ lập trình logic PRITAL tạo Năm 1973 “Báo cáo Lighthill”, nêu chi tiết thất bại nghiên cứu AI, phủ Anh cơng bố, từ dẫn đến việc cắt giảm nghiêm trọng tài trợ cho dự án trí tuệ nhân tạo 1974-1980 Liên tiếp thất vọng với phát triển AI dẫn đến cắt giảm DARPA lớn khoản trợ cấp học thuật Kết hợp với báo cáo ALPAC trước “Báo cáo Lighthill” năm trước, tài trợ trí tuệ nhân tạo làm khô quầầ̀y nghiên cứu Thời kỳ gọi “Mùa đông AI đầầ̀u tiên.” 1980 Tập đoàn thiết bị kỹ thuật số phát triển R1 (còầ̀n gọi XCON), hệ thống chuyên gia thương mại thành công đầầ̀u tiên Được thiết kế để định cấu hình đơn đặt hàng cho hệ thống máy tính mới, R1 khởi đầầ̀u bùng nổ đầầ̀u tư vào hệ thống chuyên gia tồn phầầ̀n lớn thập kỷ, kết thúc hiệu “Mùa đông AI” đầầ̀u tiên 1982 Bộ Thương mại Quốc tế Công nghiệp Nhật Bản khởi động dự án Hệ thống máy tính hệ thứ năm đầầ̀y tham vọng Mục tiêu FGCS TIEU LUAN MOI download : skknchat123@gmail.com phát triển hiệu giống siêu máy tính tảng để phát triển trí tuệ nhân tạo AI 1983 Đáp lại FGCS Nhật Bản, phủ Hoa Kỳ khởi động Sáng kiến điện toán chiến lược để cung cấp nghiên cứu tài trợ DARPA điện tốn tiên tiến trí tuệ nhân tạo 1985 Các công ty chi tỷ đô la năm cho hệ thống chuyên gia tồn ngành cơng nghiệp gọi thị trường máy Lisp mọc lên để hỗ trợ họ Các công ty Symbolics Lisp Machines Inc xây dựng máy tính chun dụng để chạy ngơn ngữ lập trình AI Lisp 1987-1993 Khi cơng nghệ điện tốn đám mây cải thiện, có nhiều lựa chọn thay rẻ xuất thị trường máy Lisp sụp đổ vào năm 1987, mở “Mùa đông AI thứ hai” Các chuyên gia AI chật vật không ủng hộ giai đoạn DARPA kết thúc Sáng kiến Điện toán Chiến lược vào năm 1993 sau chi gầầ̀n tỷ đô la khơng đạt kỳ vọng tính tốn TIEU LUAN MOI download : skknchat123@gmail.com 1991 Lực lượng Hoa Kỳ triển khai DART, công cụ lập kế hoạch lập kế hoạch hậu cầầ̀n tự động, Chiến tranh vùng Vịnh 2005 STANLEY, xe tự lái, chiến thắng DARPA Grand Challenge Quân đội Hoa Kỳ bắt đầầ̀u đầầ̀u tư vào robot tự hành “Big Dog” Boston Dynamic “PackBot” iRobot 2008 Google tạo bước đột phá nhận dạng giọng nói giới thiệu tính ứng dụng iPhone 2011 Watson IBM tuyên bố cạnh tranh Jeopardy! 2012 TIEU LUAN MOI download : skknchat123@gmail.com Andrew Ng, người sáng lập dự án Google Brain Deep Learning, cung cấp mạng lưới thầầ̀n kinh cách sử dụng thuật toán 10 triệu video YouTube dạng tập huấn luyện Mạng lưới thầầ̀n kinh học cách nhận mèo mà không cho biết mèo 2014 Google tạo xe tự lái đầầ̀u tiên để vượt qua kiểm tra lái xe nhà nước 2016 AlphaGo Google DeepMind đánh bại nhà vô địch giới cờ vây Lee Sedol Sự phức tạp tròầ̀ chơi Trung Quốc cổ đại coi trở ngại lớn để giải tỏỏ̉a AI 1.1.3 Ứng dụng AI AI chăm sóc sức khỏe – Ứng dụng bật trí tuệ nhân tạo AI cải thiện sức khỏỏ̉e người giảm chi phí Các bệnh viện áp dụng máy để chẩn đoán tốt nhanh người Một biết công nghệ tốt chăm sóc sức khỏỏ̉e IBM Watson Nó hiểu ngơn ngữ tự nhiên có khả trả lời câu hỏỏ̉i Hệ thống khai thác liệu bệnh nhân nguồn liệu có sẵn khác để tạo thành giả thuyết, sau đưa lược đồ chấm điểm tin cậy – Các ứng dụng AI khác bao gồm chatbot , chương trình máy tính sử dụng trực tuyến để trả lời câu hỏỏ̉i hỗ trợ khách hàng, giúp xếp hẹn theo dõi hỗ trợ bệnh nhân thơng qua quy trình tốn trợ lý sức khỏỏ̉e ảo cung cấp phản hồi y tế AI kinh doanh – Tự động hóa trình robot áp dụng cho cơng việc có tính chất lặp lặp lại – Các thuật tốn tích hợp vào tảng phân tích CRM để khám phá thông tin cách phục vụ khách hàng tốt – Chatbots kết hợp vào trang web để cung cấp dịch vụ cho khách hàng AI giáo dục TIEU LUAN MOI download : skknchat123@gmail.com AI tự động hóa việc chấm điểm, giúp giáo viên có thêm thời gian AI đánh giá lực quản lý sinh viên Gia sư AI cung cấp hỗ trợ cho sinh viên, đảm bảo họ hồn thành theo giáo trình từ trước Thậm AI thay số giáo viên AI tài AI ứng dụng lĩnh vực tài chính, ứng dụng thu thập liệu cá nhân cung cấp tư vấn tài AI pháp luật Quá trình khám phá, sàng lọc thông tin tài liệu pháp luật thường công việc dành cho người Tuy nhiên tự động hóa q trình giúp người sử dụng thời gian hiệu AI sản xuất Đây lĩnh vực đầầ̀u việc kết hợp robot vào quy trình làm việc Robot công nghiệp sử dụng để thực nhiệm vụ đơn lẻ giải phóng sức lao động người 1.1.4 Các lĩnh vực nghiên cứu AI Trí tuệ người (Human Intelligence): Cho đến có hai khái niệm trí tuệ người chấp nhận sử dụng nhiều nhất, là: Khái niệm trí tuệ theo quan điểm Turing “Trí tuệ đánh giá thơng qua trắc nghiệm thơng minh” Khái niệm trí tuệ đưa tụ điển bách khoa tồn thư: “Trí tuệ khả năng: Phản ứng cách thích hợp tình thông qua hiệu chỉỏ̉nh hành vi cách thích đáng Hiểu rõ mối liên hệ qua lại kiện giới bên nhằm đưa hành động phù hợp đạt tới mục đích Những nghiên cứu chun gia tâm lý học nhận thức chỉỏ̉ trình hoạt động trí tuệ người bao gồm thao tác bản: TIEU LUAN MOI download : skknchat123@gmail.com 1- Xác định tập đích (goals) 2- Thu thập kiện (facts) luật suy diễn (inference rules) để đạt đích đặt 3- Thu gọn (pruning) trình suy luận nhằm xác định tập suy diễn sử dụng 4- Áp dụng chế suy diễn cụ thể (inference mechanisms) để đưa kiện ban đầầ̀u đến đích Trí tuệ máy: khơng có định nghĩa tổng quat, nêu đặc trưng chính: 1- Khả học 2- Khả mô phỏỏ̉ng hành vi người 3- Khả trừu tượng hoá, tổng quát hoá suy diễn 4- Khả tự giải thích hành vi 5- Khả thích nghi tình kể thu nạp tri thức liệu 6- Khả xử lý biểu diễn hình thức ký hiệu tượng trưng 7- Khả sử dụng tri thức heuristic 8- Khả xử lý thơng tin khơng đầầ̀y đủ, khơng xác 1.2 NHỮNG VẤN ĐỀỀ̀ CHƯA ĐƯỢC GIẢI QUYẾT CỦA TRÍ TUỆ NHÂN TẠO Những thành tựu nghiên cứu ứng dụng kỹ thuật Trí tuệ nhân tạo khẳng định tính thực tiễn dự án xây dựng máy tính có khả suy nghĩ Tuy số phạm vi, máy tính cịn thua xa so với hoạt động hệ thần kinh người: Sự khác hoạt động máy tính não người, điều thể ưu máy tính so với não người khả tính tốn lớn (nhất chương trình xử lý liệu lớn) TIEU LUAN MOI download : skknchat123@gmail.com Xử lý song song: công nghệ điện tử đại cho phéé́p xây dựng đa xử lý, song máy tính khơng thể hoạt động song song não người Khả diễn giải: người xem xéé́t vấn đề theo phương pháp khác nhau, từ diễn giải theo cách dễ hiểu Ngược lại, linh hoạt khơng thể mơ phỏỏ̉ng hệ thống Trí tuệ nhân tạo Lơgic rời rạc tính liên tục: thách đố lớn với hệ thống Trí tuệ nhân tạo khả kết hợp phương pháp xử lý thông tin môi trường liên tục với thao tác xử lý thông tin rời rạc Khả học: máy tính có nhiều tính cao khơng thể mơ phỏỏ̉ng hoàn toàn khả học giống não người Khả tự tổ chức: nay, người ta chưa thể tạo lập hệ thống Trí tuệ nhân tạo có khả tự tổ chức, tự điều khiển hoạt động để thích nghi với mơi trường 1.3 NHỮNG ƯU ĐIỂM VÀỀ̀ RỦI RO 1.3.1 Ưu điểm Công nghệ Ai nghiên cứu phát triển sâu rộng Đặc biệt nước phát triển, điều thực nhiều Trí tuệ nhân tạo xử lý khối lượng lớn cơng việc Với liệu lớn hơn, rắc rối cơng nghệ Ai đưa dự đốn xác người Điều ưu điểm lớn công nghệ Ai Thông thường xử lý lượng liệu lớn, người khó xác hồn tồn Tuy nhiên điều thực cơng nghệ trí tuệ nhân tạo Ngay nhà khoa học cảm thấy khó khăn giải số lượng liệu lớn AI sử dụng học máy để lấy liệu nhanh chóng biến thành thơng tin thực Đây lời giải đáp cho ưu điểm cơng nghệ AI gì? 1.3.2 Rủi ro TIEU LUAN MOI download : skknchat123@gmail.com Rủi ro tự động hóa thất nghiệp Trong thành cơng gầầ̀n lĩnh vực máy học (Machine Learning) robot, dường chỉỏ̉ còầ̀n vấn đề thời gian cơng việc phức tạp đòầ̀i hỏỏ̉i trí thơng minh cao tiếp quản tồn diện máy móc Những người hưởng lợi nhiều từ công nghệ tiến người dân quốc gia hiểu tận dụng hội công nghệ ảnh hưởng liệu lớn mạng Trong ngành cơng nghiệp giải trí có hội quan trọng để phát triển giáo dục tốt thơng qua cá nhân hóa dạy học AI ứng dụng hóa tài liệu học tập, đồng thời làm tăng nguy tỷ lệ người trẻ tuổi gặp khó khăn việc hồn thành giáo dục họ nghiện bệnh lý tròầ̀ chơi video và/hoặc internet Tiến công nghệ làm tăng suất xã hội, lầầ̀n lượt nâng mức sống trung bình Nếu cơng việc thực máy móc nhiều hơn, thời gian rảnh rỗi người dành cho giải trí tự phát triển cho người tang lên (một ưu điểm sử dụng AI) Tuy nhiên, nhược điểm công nghệ AI tăng tự động hóa gia tăng suất dẫn tới bất bình đẳng xã hội ngày tăng gia tăng mức sống trung bình khơng có trùng hợp với gia tăng chất lượng trung bình sống Các chuyên gia kinh tế học MIT giáo sư Erik Brynjolfsson chí lo lắng công nghệ tiến đe dọa làm cho sống đa số người tồi tệ Rủi ro tình báo siêu trí tuệ nói chung Trí thơng minh chung khả đạt mục tiêu chung môi trường khác Trí thơng minh gây rủi ro (thảm khốc) mục tiêu máy móc khơng phù hợp với người Nếu trí thơng minh chung đạt đến mức độ siêu phàm, trở thành siêu trí tuệ; là, thuật tốn vượt trội so với trí thơng minh người cách, kể sáng tạo khoa học, phổ biến, cảm giác, lực xã hội Lưu ý định nghĩa để ngỏỏ̉ câu hỏỏ̉i việc có hay khơng siêu trí tuệ có ý thức Trong trường hợp tốt nhất, siêu trí tuệ giải vơ số vấn đề cho nhân loại, giúp vượt qua đạt thành tựu khoa học, đạo đức, sinh thái kinh tế trước thách thức tương lai Tuy nhiên, mục tiêu siêu trí tuệ khơng tương thích với sở thích người sinh vật khác, AI mang tới mối đe dọa tồn chưa có, có khả gây hậu nhiều so với kiện trước vũ trụ TIEU LUAN MOI download : skknchat123@gmail.com Rủi ro y thức nhân tạo Hai câu hỏỏ̉i liên quan phải phân biệt thực sự: Thứ nhất, liệu máy móc phát triển ý thức khả đau đớn; thứ hai, câu trả lời cho câu hỏỏ̉i đầầ̀u tiên có, loại máy (sẽ) có ý thức Nhìn lướt qua tình trạng nghiên cứu cho thấy câu hỏỏ̉i đầầ̀u tiên dễ trả lời thứ hai Hiện có đồng thuận đáng kể, khơng phải toàn số chuyên gia máy móc nguyên tắc có ý thức, thầầ̀n kinh máy tính Những cân nhắc có hậu đạo đức sâu rộng Nếu máy móc có ý thức, mặt đạo đức vơ lương tâm khai thác chúng lực lượng lao động sử dụng chúng cho công việc rủi ro gỡ rối mìn xử lý chất nguy hiểm Triển vọng đặc biệt đáng lo ngại hình dung AI tạo số khổng lồ trường hợp xấu nhất, số nạn nhân thiên văn, đông thảm họa biết đến khứ Hiện nay, chứng kiến lan rộng công nghệ AI với tiềm đáng ngạc nhiên Công nghệ AI đứng sau xe không người lái, y tế hỗ trợ Watson chẩn đốn, máy bay khơng người lái quân đội Hoa Kỳ dầầ̀n dầầ̀n trở thành sản phẩm thực tiễn tương lai gầầ̀n Điều cốt yếu khung pháp lý xây dựng cẩn thận diễn trước điều xảy ra, để nhận tiềm công nghệ theo cách giảm thiểu rủi ro cách an toàn phát triển tổng thể tiêu cực Càng tiến lĩnh vực công nghệ AI, nhấn mạnh cách tiếp cận hợp lý, tầầ̀m nhìn xa thách thức liên quan trở thành Bởi trị tiến pháp lý có xu hướng tụt hậu so với phát triển cơng nghệ, có trách nhiệm đặc biệt lớn dựa nhà nghiên cứu nhà phát triển cá nhân trực tiếp tham gia vào tiến trình thực Tuy nhiên, cầầ̀n khuyến khích kinh tế mạnh mẽ cho phát triển công nghệ diễn nhanh mà khơng làm lãng phí thời gian phân tích rủi ro TIEU LUAN MOI download : skknchat123@gmail.com CHƯƠNG II: CHƯƠNG TRÌNH Q&A CỦA MỘT CUỘC HỘI THOẠI CHATBOT TIẾNG VIỆT SỬ DỤNG BERT 2.1 GIỚI THIỆU VỀỀ̀ BERT 2.1.1 Khái niệm BERT BERT viết tắt “Bidirectional Encoder Representations from Transformers ”, kiến trúc cho lớp toán Language Representation đươc Google công bố vào đầầ̀u tháng 11 vừa qua Không giống mơ hình trước đó, BERT thiết kế để đào tạo vector đại diện cho ngôn ngữ văn thông qua ngữ cảnh chiều (trái phải) chúng Kết là, vector đại diện sinh từ mơ hình BERT tính chỉỏ̉nh với lớp đầầ̀u bổ sung tạo nhiều kiến trúc cải tiến đáng kể cho nhiệm vụ xử lý ngôn ngữ tự nhiên Question Answering, Language Inference, mà không cầầ̀n thay đổi nhiều từ kiến trúc cũ BERT khái niệm đơn giản lại mang lại hiệu cực lớn thực tế Nó thu kết tối ưu cho 11 nhiệm vụ xử lý ngôn ngữ tự nhiên, bao gồm việc đẩy kết nhiệm vụ GLUE benchmark lên 80.4%(cải tiến thêm 7.6%) SQuAD v.1.1 với F1 score tập test đạt 93.2%(cải tiến thêm 1.5%), tốt người 2% Lớp tốn Representation cho mơ hình ngơn ngữ cho thấy hiệu việc cải thiện nhiều nhiệm vụ lĩnh vực xử lí ngơn ngữ tự nhiên Những nhiệm vụ nhiệm vụ cấp câu Natural language inference, Paraphrasing nhằm dự đoán mối quan hệ câu cách phân tích tổng thể chúng nhiệm vụ cấp từ nhận dạng thực thể có tên(NER), Question Answering với yêu cầầ̀u trả kết xác cho câu hỏỏ̉i dạng từ, Có chiến lược để sử dụng biểu diễn ngôn ngữ huấn luyện trước cho nhiệm vụ sau, gồm feature-based fine-tuning Tuy nhiên, kỹ thuật bị hạn chế nhiều việc thể khả mơ hình vector đại diện, đặc biệt hướng tiếp cận finetuning Hạn chế mơ hình ngơn ngữ xây dựng dựa ngữ cảnh chiều gây nên hạn chế việc lựa chọn mơ hình kiến trúc sử dụng q trình sử dụng pre-training Ví dụ OpenAI GPT, tác giả sử dụng kiến trúc left-to-right, nghĩa tokens chỉỏ̉ phụ thuộc vào token trước Trong kiến trúc này, cung cấp hướng tiếp cận dựa fine-tuning khắc phục hạn chế đó, gọi “Bidirectional Encoder Representations from Transformers” TIEU LUAN MOI download : skknchat123@gmail.com 2.1.2 Sự đời BERT Các nhà nghiên cứu làm việc Google AI tái khẳng định, thiếu hụt liệu đào tạo thách thức lớn lĩnh vực xử lý ngôn ngữ tự nhiên Đây lĩnh vực rộng lớn đa dạng với nhiều nhiệm vụ riêng biệt, hầầ̀u hết tập liệu chỉỏ̉ đặc thù cho nhiệm vụ Để thực tốt nhiệm vụ ta cầầ̀n liệu lớn chứa hàng triệu chí hàng tỷ ví dụ mẫu Tuy nhiên, thực tế hầầ̀u hết tập liệu chỉỏ̉ chứa vài nghìn vài trăm nghìn mẫu đánh nhãn tay người(các chuyên gia ngôn ngữ học) Sự thiếu hụt liệu có nhãn chất lượng cao để đào tạo mơ hình gây cản trở lớn cho phát triển NLP nói chung Để giải thách thức này, mơ hình xử lý ngơn ngữ tự nhiên sử dụng chế tiền xử lý liệu huấn luyện việc transfer từ mơ hình chung đào tạo từ lượng lớn liệu khơng gán nhãn Ví dụ số mơ hình nghiên cứu trước để thực nhiệm vụ Word2vec, Glove hay FastText Việc nghiên cứu mơ hình giúp thu hẹp khoảng cách tập liệu chuyên biệt cho đào tạo việc xây dựng mơ hình tìm đại diện chung ngôn ngữ sử dụng số lượng lớn văn chưa gán nhãn lấy từ trang web Các pre-train model tinh chỉỏ̉nh lại nhiệm vụ khác với liệu nhỏỏ̉ Question Answering, Sentiment Analysis, dẫn đến cải thiện đáng kể độ xác cho so với mơ hình huấn luyện trước với liệu Tuy nhiên, mơ hình kể có yếu điểm riêng nó, đặc biệt đại diện theo ngữ cảnh cụ thể từ lĩnh vực hay văn cảnh cụ thể Tiếp nối thành công định mơ hình trước đó, Google công bố thêm kỹ thuật gọi Bidirectional Encoder Representations from Transformers(BERT) Với lầầ̀n công bố này(kèm mã nguồn dự án), Google khẳng định giới đào tạo hệ thống hỏỏ̉i đáp(Question Answering) cải tiến cho riêng nhiều mơ hình NLP khác chỉỏ̉ vài GPU chỉỏ̉ khoảng 30p TPU(có thể bạn chưa biết, Google cho phéé́p bạn sử dụng TPU họ cách miễn phí Google Colab) Một số trích dẫn từ nhà nghiên cứu Google AI cho bạn nhìn khái quát hơn: TIEU LUAN MOI download : skknchat123@gmail.com "BERT is the first deeply bidirectional, unsupervised language representation, pre-trained using only a plain text corpus (in this case, Wikipedia)" "Integrating a bidirectional model supports access to context from both past, future and unsupervised directions of data – it can consume data that has not yet been categorized." Hiện tại, BERT có sẵn Github chỉỏ̉ hỗ trợ tiếng Anh mục tiêu Google phát hành mơ hình đào tạo nhiều ngôn ngữ khác tương lai 2.1.3 Kết mà BERT đạt Để đánh giá hiệu mà BERT đem lại, kỹ sư thuộc Google AI so sánh BERT với mơ hình tốt NLP trước Điều quan trọng chỉỏ̉ việc sử dụng BERT thay cho pre-train model trước mà không cầầ̀n thực thay đổi kiến trúc mạng neural sâu Kết là, SQUAD v1.1, BERT đạt kết F1_score = 93.2%, vượt kết tốt trước 91.6% hiệu mà người đạt 91.2% Trên SQUAD v2.0, Top kết tốt toàn BERT TIEU LUAN MOI download : skknchat123@gmail.com BERT cải thiện hiệu tốt thách thức GLUE benchmark, nhiệm vụ Natural Language Understanding (NLU) BERT gầầ̀n chiếm top tất nhiệm vụ xử lý ngôn ngữ tự nhiên từ trước đến lầầ̀n khẳng định lại sức mạnh Đây coi bước nhảy vượt bậc Google lĩnh vực xử lý ngôn ngữ tự nhiên tự hỏỏ̉i phải cú hích lớn để cải tiến tốn xử lí ngơn ngữ tự nhiên cho tiếng Việt TIEU LUAN MOI download : skknchat123@gmail.com 2.2 Áp dụng vào tốn Khi mơ hình nhận input đầầ̀u vào thực trích xuất dựa theo câu hỏỏ̉i data có sẵn cách encode câu hỏỏ̉i đoạn văn tính độ tương đồng, sau lấy tập câu trả lời có độ tương đồng với câu hỏỏ̉i cao Tiếp đến đưa qua mơ hình rerank để đánh giá lại khả đoạn văn câu trả lời cho câu hỏỏ̉i, tính xác suất xếp theo điểm số Câu trả lời đưa câu có điểm số cao TIEU LUAN MOI download : skknchat123@gmail.com 2.3 Kêt Qua 2.4 Rui ro Do data còn han chê nên se xay trương hơp kêt qua in bi lêch vơi câu hỏi TIEU LUAN MOI download : skknchat123@gmail.com ... nghiệp, Vì ứng dụng hữu ích nó, em xin trình bày đề tài? ?? Xây dựng chương trình Q&A hội thoại Chatbot tiếng việt sử dụng BERT. ”.Mong muốn thông qua đề tài này, em có nhìn cụ thể AI, từ mở rộng... download : skknchat123@gmail.com CHƯƠNG II: CHƯƠNG TRÌNH Q&A CỦA MỘT CUỘC HỘI THOẠI CHATBOT TIẾNG VIỆT SỬ DỤNG BERT 2.1 GIỚI THIỆU VỀỀ̀ BERT 2.1.1 Khái niệm BERT BERT viết tắt “Bidirectional Encoder... định nghĩa, lịch sử phát triển trí tuệ nhân tạo +Tìm hiểu cấu trúc, thuật tốn cách hoạt động AI -Nhiệm vụ: +Ứng dụng nghiên cứu để lập trình Q&A hội thoại chatbot tiếng việt sử dụng BERT Đối tượng

Định dạng
Số trang	24
Dung lượng	1,14 MB