Лекция Andrej Karpathy о разработке токенизатора для GPT


Let’s build the GPT Tokenizer — интересная лекция от  Andrej Karpathy о том как разработать и обучить собственный токенизатор для GPT (minbpe).

Токенизатор — это программа, предназначенная для разделения текста на токены (числа, которые и подаются на вход языковых моделей).

Результаты работы различных токенизаторов можно оценить в веб-приложении Tiktokenizer.

В основе популярных токенизаторов лежит Byte Pair Encoding (BPE).

Многие проблемы и нюансы работы больших языковых моделей (например, проблемы с представлением чисел) объясняются тем как токенизатор представляет исходный текст в виде отдельных токенов.

Если вам проще и быстрее читать, то инженеры Anthropic продемонстрировали возможности своей новой модели Сlaude 3 по суммаризации текста на примере данной лекции. Они взяли автоматический транскрипт текста с YouTube, сделали скриншоты видео (каждые 5 секунд) и сформировали инструкцию (prompt, промпт, промт) по изготовлению блог-поста. Результат можно оценить самостоятельно — LLM Tokenization.

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Arduino Bluetooth CraftDuino DIY Google IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение