Trí tuệ nhân tạo tạo sinh

Trí tuệ nhân tạo tạo sinh hoặc AI tạo sinh^{[ghi chú 1]} là một loại hệ thống AI có khả năng tạo ra văn bản, hình ảnh hoặc các phương tiện truyền thông khác dựa trên các lệnh nhắc (prompt).^[4]^[5] Các mô hình AI tạo sinh học các mô hình và cấu trúc của dữ liệu đầu vào của chúng bằng cách áp dụng các kỹ thuật học máy mạng nơ-ron, sau đó tạo ra dữ liệu mới có các đặc điểm tương tự.^[6]^[7]

Các hệ thống AI tạo sinh đáng chú ý bao gồm ChatGPT (và biến thể của nó là Bing Chat), một chatbot được xây dựng bởi OpenAI sử dụng các mô hình ngôn ngữ lớn nền tảng GPT-3 và GPT-4 của họ,^[8] và Bard (chatbot), một chatbot được xây dựng bởi Google sử dụng mô hình nền tảng LaMDA.^[9] Các mô hình AI tạo sinh khác bao gồm các hệ thống nghệ thuật AI như Stable Diffusion, Midjourney và DALL-E.^[10]

AI tạo sinh có tiềm năng ứng dụng trong nhiều ngành công nghiệp, bao gồm nghệ thuật, viết lách, phát triển phần mềm, thiết kế sản phẩm, chăm sóc sức khỏe, tài chính, trò chơi, tiếp thị và thời trang.^[11]^[12]^[13] Đầu tư vào AI tạo sinh đã tăng vọt trong những năm đầu của thập kỷ 2020, với các công ty lớn như Microsoft, Google và Baidu cũng như nhiều công ty nhỏ hơn đang phát triển các mô hình trí tuệ nhân tạo tạo sinh.^[4]^[14]^[15] Tuy nhiên, cũng có những lo ngại về việc sử dụng sai mục đích của AI tạo sinh, chẳng hạn như tạo tin giả hoặc deepfake, có thể được sử dụng để lừa dối hoặc thao túng con người.^[16]

Lịch sử

Kể từ khi thành lập, lĩnh vực học máy (machine learning) đã sử dụng các mô hình thống kê, bao gồm cả mô hình tạo sinh, để mô hình hóa và dự đoán dữ liệu. Bắt đầu từ cuối những năm 2000, sự xuất hiện của học sâu (deep learning) đã thúc đẩy tiến bộ và nghiên cứu trong xử lý ảnh và video, phân tích văn bản, nhận dạng giọng nói và các tác vụ khác. Tuy nhiên, hầu hết các mạng thần kinh sâu được đào tạo như các mô hình phân biệt thực hiện các tác vụ phân loại như phân loại hình ảnh dựa trên mạng thần kinh tích chập.

Năm 2014, những tiến bộ như autoencoder biến đổi (VAE) và mạng đối nghịch tạo sinh đã tạo ra các mạng thần kinh sâu thực tế đầu tiên có khả năng học các mô hình tạo sinh, thay vì phân biệt, của dữ liệu phức tạp như hình ảnh. Các mô hình tạo sinh sâu này là những mô hình đầu tiên có thể xuất ra không chỉ tạo nhãn (label) cho hình ảnh, mà còn có thể xuất ra toàn bộ hình ảnh.^[17]

Năm 2017, mạng Transformer đã cho phép phát triển các mô hình tạo sinh, dẫn đến Generative pre-trained transformer (GPT) đầu tiên vào năm 2018.^[18] Tiếp theo là GPT-2 vào năm 2019, đã chứng minh khả năng tạo sinh không giám sát cho nhiều tác vụ khác nhau như một mô hình nền tảng (Foundation model).^[19]

Năm 2021, sự ra mắt của DALL-E, một mô hình tạo sinh pixel dựa trên transformer, tiếp theo là Midjourney và Stable Diffusion đã đánh dấu sự xuất hiện của nghệ thuật trí tuệ nhân tạo chất lượng cao thực tế từ các lời nhắc hoặc gợi ý (prompt).

Vào tháng 1 năm 2023, Futurism.com đã đưa tin rằng CNET đã sử dụng một công cụ AI nội bộ không được tiết lộ để viết ít nhất 77 câu chuyện của mình; sau khi tin tức được công bố, CNET đã đăng các bản sửa lỗi cho 41 câu chuyện.^[20]

Vào tháng 3 năm 2023, GPT-4 đã được phát hành. Một nhóm từ Microsoft Research lập luận rằng "nó có thể được xem một cách hợp lý như một phiên bản ban đầu (nhưng vẫn chưa hoàn chỉnh) của hệ thống trí tuệ tổng quát nhân tạo (AGI)".^[21]

Thể thức

Hệ thống AI tạo sinh được xây dựng bằng cách áp dụng học máy không giám sát hoặc tự giám sát cho một tập dữ liệu. Khả năng của hệ thống AI tạo sinh phụ thuộc vào mô-đun hoặc loại của tập dữ liệu được sử dụng.

AI tạo sinh có thể là đơn mô-đun/phương thức (uni-modal) hoặc đa mô-đun/phương thức (multi-modal); hệ thống đơn mô-đun/phương thức chỉ nhận một loại đầu vào, trong khi hệ thống đa mô-đun/phương thức có thể nhận nhiều hơn một loại đầu vào.^[22] Ví dụ, GPT-4 của OpenAI chấp nhận cả đầu vào văn bản và hình ảnh.^[23]

Văn bản: Các hệ thống AI tạo sinh được đào tạo trên các từ hoặc ký tự đại diện cho từ bao gồm GPT-3, LaMDA, LLaMA, BLOOM, GPT-4, v.v. Chúng có khả năng xử lý ngôn ngữ tự nhiên, dịch tự động và tạo ngôn ngữ tự nhiên và có thể được sử dụng làm mô hình nền tảng cho các tác vụ khác.^[24] Các tập dữ liệu bao gồm BookCorpus, Wikipedia, v.v.
Mã: Ngoài văn bản ngôn ngữ tự nhiên, các mô hình ngôn ngữ lớn có thể được đào tạo trên văn bản ngôn ngữ lập trình, cho phép chúng tạo mã nguồn cho các chương trình máy tính mới.^[25] Ví dụ bao gồm OpenAI Codex.
Hình ảnh: Các hệ thống AI tạo sinh được đào tạo trên các tập hình ảnh có chú thích văn bản bao gồm Imagen, DALL-E, Midjourney, Adobe Firefly, Stable Diffusion và các hệ thống khác. Chúng thường được sử dụng để tạo hình ảnh từ văn bản và chuyển đổi phong cách hình ảnh.^[26] Các tập dữ liệu bao gồm LAION-5B và các tập dữ liệu khác.
Phân tử: Các hệ thống AI tạo sinh có thể được đào tạo trên các chuỗi axit amin hoặc các biểu diễn phân tử như SMILES đại diện cho DNA hoặc protein. Các hệ thống này, như AlphaFold, được sử dụng để dự đoán cấu trúc protein và tìm kiếm thuốc.^[27] Các tập dữ liệu bao gồm các tập dữ liệu sinh học khác nhau.
Âm nhạc: Các hệ thống AI tạo sinh như MusicLM có thể được đào tạo trên các dạng sóng âm thanh của âm nhạc được ghi lại cùng với chú thích văn bản, để tạo ra các mẫu âm nhạc mới dựa trên các mô tả văn bản như một giai điệu violin êm dịu được hỗ trợ bởi một đoạn riff guitar méo mó.^[28]
Video: AI được đào tạo trên video có chú thích có thể tạo ra các clip video có tính nhất quán về mặt thời gian. Ví dụ bao gồm Gen1 và Gen2 của RunwayML^[29] và Make-A-Video của Meta Platforms.^[30]
Hành động của robot: AI được đào tạo trên chuyển động của một hệ thống robot có thể tạo ra các quỹ đạo mới cho hoạch định chuyển động. Ví dụ, UniPi của Google Research sử dụng các lời nhắc như "nhặt bát màu xanh lam" hoặc "lau đĩa bằng miếng bọt biển màu vàng" để điều khiển chuyển động của cánh tay robot.^[31]

Ghi chú

[G 1]
Một số tờ báo ở Việt Nam gọi là trí tuệ nhân tạo sáng tạo hay AI sáng tạo^[1]^[2]^[3]

Tham khảo

[1]
Loan Chi (21 tháng 8 năm 2023). “40% lực lượng lao động phải đào tạo lại kỹ năng vì AI”. Thanh Niên.
[2]
Hải Nguyễn (20 tháng 8 năm 2023). “AI không phải là mối nguy hiểm thực sự đối với nhân loại”. Lao Động.
[3]
H.Thủy (20 tháng 7 năm 2023). “Apple phát triển các công cụ AI sáng tạo để cạnh tranh với ChatGPT”. VietnamPlus. Thông tấn xã Việt Nam.
[4]
Griffith, Erin; Metz, Cade (27 tháng 1 năm 2023). “Anthropic Said to Be Closing In on $300 Million in New A.I. Funding”. The New York Times. Truy cập ngày 14 tháng 3 năm 2023.
[5]
Lanxon, Nate; Bass, Dina; Davalos, Jackie (10 tháng 3 năm 2023). “A Cheat Sheet to AI Buzzwords and Their Meanings”. Bloomberg News. Truy cập ngày 14 tháng 3 năm 2023.
[6]
Pasick, Adam (27 tháng 3 năm 2023). “Artificial Intelligence Glossary: Neural Networks and Other Terms Explained”. The New York Times (bằng tiếng Anh). ISSN 0362-4331. Truy cập ngày 22 tháng 4 năm 2023.
[7]
Andrej Karpathy; Pieter Abbeel; Greg Brockman; Peter Chen; Vicki Cheung; Yan Duan; Ian Goodfellow; Durk Kingma; Jonathan Ho; Rein Houthooft; Tim Salimans; John Schulman; Ilya Sutskever; Wojciech Zaremba (16 tháng 6 năm 2016). “Generative models”. OpenAI.
[8]
[Metz, Cade. "OpenAI Plans to Up the Ante in Tech's A.I. Race." The New York Times, 14 Mar. 2023, https://www.nytimes.com/2023/03/14/technology/openai-gpt4-chatgpt.html.]
[9]
Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; Baker, Leslie (January 20, 2022). "LaMDA: Language Models for Dialog Applications". arΧiv:2201.08239 [cs.CL].
[10]
[Roose, Kevin. "A Coming-Out Party for Generative A.I., Silicon Valley's New Craze." The New York Times, 21 Oct. 2022, https://www.nytimes.com/2022/10/21/technology/generative-ai.html.]
[11]
“Don't fear an AI-induced jobs apocalypse just yet”. The Economist. 6 tháng 3 năm 2023. Truy cập ngày 14 tháng 3 năm 2023.
[12]
Harreis, H.; Koullias, T.; Roberts, Roger. “Generative AI: Unlocking the future of fashion”.
[13]
“How Generative AI Can Augment Human Creativity”. Harvard Business Review. 16 tháng 6 năm 2023. ISSN 0017-8012. Truy cập ngày 20 tháng 6 năm 2023.
[14]
“The race of the AI labs heats up”. The Economist. 30 tháng 1 năm 2023. Truy cập ngày 14 tháng 3 năm 2023.
[15]
Yang, June; Gokturk, Burak (14 tháng 3 năm 2023). “Google Cloud brings generative AI to developers, businesses, and governments”.
[16]
Justin Hendrix (16 tháng 5 năm 2023). “Transcript: Senate Judiciary Subcommittee Hearing on Oversight of AI”. techpolicy.press. Truy cập ngày 19 tháng 5 năm 2023.
[17]
Tomczak, Jakub (2022). Deep Generative Modeling. Cham: Springer. tr. 197. doi:10.1007/978-3-030-93158-2. ISBN 978-3-030-93157-5. S2CID 246946335.
[18]
“finetune-transformer-lm”. GitHub. Truy cập ngày 19 tháng 5 năm 2023.
[19]
Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya; others (2019). “Language models are unsupervised multitask learners”. OpenAI Blog. 1 (8): 9.Quản lý CS1: nhiều tên: danh sách tác giả (liên kết)
[20]
Roth, Emma (25 tháng 1 năm 2023). “CNET found errors in more than half of its AI-written stories”. The Verge. Truy cập ngày 17 tháng 6 năm 2023.
[21]
Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi (March 22, 2023). "Sparks of Artificial General Intelligence: Early experiments with GPT-4". arΧiv:2303.12712 [cs.CL].
[22]
“A History of Generative AI: From GAN to GPT-4”. 21 tháng 3 năm 2023.
[23]
“Explainer: What is Generative AI, the technology behind OpenAI's ChatGPT?”. Reuters. 17 tháng 3 năm 2023. Truy cập ngày 17 tháng 3 năm 2023.
[24]
Bommasani, R; Hudson, DA; Adeli, E; Altman, R; Arora, S; von Arx, S; Bernstein, MS; Bohg, J; Bosselut, A (2021-08-16). "On the opportunities and risks of foundation models". arΧiv:2108.07258 [cs.LG].
[25]
Chen, Ming; Tworek, Jakub; Jun, Hongyu; Yuan, Qinyuan; Pinto, Hanyu Philippe De Oliveira; Kaplan, Jerry; Edwards, Haley; Burda, Yannick; Joseph, Nicholas (2021-07-06). "Evaluating Large Language Models Trained on Code". arΧiv:2107.03374 [cs.LG].
[26]
Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (2021). “Zero-shot text-to-image generation”. International Conference on Machine Learning. PMLR. tr. 8821–8831.
[27]
Heaven, Will Douglas (15 tháng 2 năm 2023). “AI is dreaming up drugs that no one has ever seen. Now we've got to see if they work”. MIT Technology Review. Massachusetts Institute of Technology. Truy cập ngày 15 tháng 3 năm 2023.
[28]
Agostinelli, Andrea; Denk, Timo I.; Borsos, Zalán; Engel, Jesse; Verzetti, Mauro; Caillon, Antoine; Huang, Qingqing; Jansen, Aren; Roberts, Adam (26 January 2023). "MusicLM: Generating Music From Text". arΧiv:2301.11325 [cs.SD].
[29]
Metz, Cade (4 tháng 4 năm 2023). “Instant Videos Could Represent the Next Leap in A.I. Technology”. The New York Times (bằng tiếng Anh).
[30]
Queenie Wong (29 tháng 9 năm 2022). “Facebook Parent Meta's AI Tool Can Create Artsy Videos From Text”. cnet.com. Truy cập ngày 4 tháng 4 năm 2023.
[31]
Sherry Yang, Yilun Du (12 tháng 4 năm 2023). “UniPi: Learning universal policies via text-guided video generation”. Google Research, Brain Team. Google AI Blog.

Liên kết ngoài

Generative AI tại Encyclopædia Britannica (tiếng Anh)

Wikiwand - on

Seamless Wikipedia browsing. On steroids.