Saltar al contenido principal

Videos de transformers

Videos etiquetados con "transformers"

Stanford que Ensina Mais sobre LLMs do que a Maioria dos Profissionais de IA
1:44:18

Stanford que Ensina Mais sobre LLMs do que a Maioria dos Profissionais de IA

#llm #stanford #chatgpt #inteligenciaartificial #ia Em vez de assistir a uma hora de Netflix, assista a esta palestra de 2 horas da Stanford que vai te ensinar mais sobre como LLMs como ChatGPT e Claude são construídos do que a maioria das pessoas trabalhando em empresas de IA de ponta aprende em suas carreiras inteiras.Essa é uma das aulas mais valiosas que você vai encontrar sobre o funcionamento real dos grandes modelos de linguagem. Direto, profundo e sem enrolação.Se você quer entender de verdade como essas tecnologias são feitas por dentro, essa palestra é ouro puro. Pare o que está fazendo e invista essas 2 horas. Vale muito mais do que parece.Comente: você prefere usar IA ou entender como ela realmente funciona?

hace 4 semanas 53
Como o "cérebro" da IA funciona? #inteligenciaartificial #chatgpt #openai
3:00

Como o "cérebro" da IA funciona? #inteligenciaartificial #chatgpt #openai

Como a IA moderna funciona? Uma rede neural artificial é um modelo matemático inspirado no funcionamento do cérebro humano. Essa é uma das bases tecnológicas de sistemas modernos de IA, incluindo LLMs como o ChatGPT. #largelanguagemodels #ia #neuralnetworks

hace 4 semanas 1,586
Why Modern LLMs Use GQA | Multi Query and Grouped Query Attention Visually Explained
19:54

Why Modern LLMs Use GQA | Multi Query and Grouped Query Attention Visually Explained

Why do modern LLMs like Llama, Qwen, Gemma and Gemini use Grouped-Query Attention (GQA) instead of standard Multi-Head Attention (MHA)? In this video we build a complete intuition for Multi-Query Attention (MQA) and Grouped-Query Attention (GQA), two important transformer attention optimizations used in modern large language models. We understand how KV cache memory and memory bandwidth become major bottlenecks during autoregressive decoding and LLM inference, and why transformer architectures moved toward MQA and GQA attention mechanisms for faster inference and reduced KV cache size. We visually explain Multi-Query Attention, Grouped-Query Attention and the spectrum between MHA, MQA and GQA, including how shared key and value projections work across attention heads. We also compare MQA vs GQA performance, KV cache memory consumption, decoding latency and inference efficiency. The second half of the video focuses on implementation in PyTorch, where we start from a baseline Multi-Head Attention implementation and modify it step-by-step into Multi-Query Attention and Grouped-Query Attention. At the end of the video we go through GQA uptraining techniques proposed for converting existing transformer multi head checkpoints into MQA/GQA models. ⏱️ Timestamps: 00:00 Intro - KV Cache Memory & Bandwidth Bottleneck 02:46 Multi-Query Attention (MQA) Explained 03:57 Intuition for what MQA attention heads learn 06:18 Spectrum of MHA, MQA and GQA 07:48 Grouped-Query Attention (GQA) Explained 09:54 KV Cache Size Comparisons 11:04 MQA vs GQA vs MHA Performance Comparisons 11:51 Baseline Multi-Head Attention (MHA) Implementation 13:40 MQA Implementation in PyTorch 15:51 GQA Implementation in PyTorch 17:54 Uptraining MQA/GQA Models 📖 Resources: MQA Paper - https://arxiv.org/pdf/1911.02150 GQA Paper - https://arxiv.org/pdf/2305.13245 🔔 Subscribe: https://tinyurl.com/exai-channel-link Email - explainingai.official@gmail.com

hace 1 mes 267
Você NÃO entende de IA: vou te mostrar por quê
15:08

Você NÃO entende de IA: vou te mostrar por quê

O que é a inteligência artificial? ChatGPT, Claude, Gemini? Neste vídeo, eu mostro o que essas ferramentas de IA conseguem fazer atualmente na geração de vídeos, músicas, softwares e muito mais. Em seguida, mergulho em um conceito base da IA atual: redes neurais artificiais. Por fim, explico a mecânica de funcionamento de um “large language model” (LLM), ou modelo de linguagem, que é a tecnologia por trás de todos os sistemas modernos de inteligência artificial. Sei que o assunto tá super hypado (ou até saturado), mas acho que hoje é impossível não falar de IA na área de tecnologia. Para o bem e para o mal, essa tecnologia está aí. Tentando entender a fundo como a IA funciona, tive uma sensação de “quebrar a magia”, mas senti também que isso me trouxe tranquilidade no meio de tanto FOMO e medo do desconhecido que esse tema traz junto. 🔗 Plugin para Claude Code citado no vídeo: https://github.com/oprogramadorreal/optimus-claude ⏱️ Capítulos: Eu tô cansado do sensacionalismo! (RANT) - 0:00 O Fim dos Programadores - 1:01 Por que (ainda) precisamos de programadores? - 2:21 O que a IA já consegue fazer - 3:42 O que eu realmente sinto - 4:23 Redes neurais artificiais - 5:54 Large Language Models - 9:05 Próximos passos - 13:12 AI bloopers - 14:32 #InteligenciaArtificial #RedesNeurais #LLM

hace 1 mes 5,903
¿Cómo funciona ChatGPT? La revolución de la Inteligencia Artificial
50:45

¿Cómo funciona ChatGPT? La revolución de la Inteligencia Artificial

¡REGISTRATE A LA GTC Y ASISTE A UNA SESIÓN PARA GANAR UNA GPU! 👉 https://www.nvidia.com/gtc/?ncid=ref-inpa-208868 ¡Atención! Es importante asistir a una sesión para participar en el sorteo 0:00 Intro 3:18 Sponsor 4:34 ¿Qué es ChatGPT? 8:37 ¿Cómo interactúa ChatGPT? 10:45 Redes Neuronales 11:53 Aprendizaje automático (MACHINE LEARNING) 13:17 Problemas del lenguaje natural 14:49 ¿Cómo se entrena una red neuronal? 16:15 Tokenización 19:18 Embedding 20:34 ¿Cómo utiliza ChatGPT el Embedding? 22:52 Lematización 23:24 ¿De dónde saca las respuestas ChatGPT? 24:11 ¿Cómo transforma o reconstruye ChatGPT los Tokens en frases únicas? 25:55 Sampling 26:36 *Check point* (repaso de los puntos que se han mencionado hasta ahora) 28:14 Fases de las redes neuronales 28:44 Problemas de “memoria” (entrenamiento en secuencia) 31:59 Long Short- Term Memory 32:52 Transformers (capa de atención) 35:03 Paralelizar (entrenamiento en paralelo) 35:53 Bert 36:44 OpenAI 39:40 GitHub Copilot 40:18 ¿Cómo se convierte GPT3 en ChatGPT? 41:27 RLFHF (aprendizaje reforzado de feedback humano) 43:14 ¿Qué hardware se utilizó para entrenar a ChatGPT? 43:49 Microsoft apuesta por OpenAI 44:02 El buscador Bing humilla a Google en AI 45:32 ¿Por qué Google no tiene servicio de Chat como ChatGPT? 46:33 ¿Microsoft va a por Google? 47:27 Los divagues de ChatGPT 48:48 Bard mete la pata y Google lo paga 49:12 Conclusión 50:11 Despedida Aprende todo sobre TECNOLOGÍA: 👨‍🎓 MASTERMIND ➞ https://mastermind.ac Series de este canal: 🖥️ Montaje PCs ➞ https://bit.ly/30OCj3M 💾 Divulgación Informática ➞ https://bit.ly/3nx4Ch2 ⚙️ Videos de Hardware ➞ https://bit.ly/3nxTGzE 🧰 PC Modding ➞ https://bit.ly/34DeY6o ⌨️ Guías Teclados Mecánicos ➞ https://bit.ly/2Gxz7Tz 🖱️ Guías Mouse de Gaming ➞ https://bit.ly/3nGFRzh 💻 Portátiles ➞ https://bit.ly/3jFUxvX 🎧 Auriculares para jugar ➞ https://bit.ly/3iL1jzg 👁️‍🗨️ Retro PC ➞ https://bit.ly/2GFq1Ec ⚗️ Nate Labs ➞ https://bit.ly/30P6Grc Redes Sociales: 📷 Instagram ➞ https://instagram.com/nategentile7 🐦 Twitter ➞ https://twitter.com/nategentile7 🔴 Twitch ➞ https://twitch.tv/nategentile7

hace 3 años 6,248,742