Let’s build the GPT Tokenizer — интересная лекция от Andrej Karpathy о том как разработать и обучить собственный токенизатор для GPT (minbpe).
Токенизатор — это программа, предназначенная для разделения текста на токены (числа, которые и подаются на вход языковых моделей).
Результаты работы различных токенизаторов можно оценить в веб-приложении Tiktokenizer.
В основе популярных токенизаторов лежит Byte Pair Encoding (BPE).
Многие проблемы и нюансы работы больших языковых моделей (например, проблемы с представлением чисел) объясняются тем как токенизатор представляет исходный текст в виде отдельных токенов.
Если вам проще и быстрее читать, то инженеры Anthropic продемонстрировали возможности своей новой модели Сlaude 3 по суммаризации текста на примере данной лекции. Они взяли автоматический транскрипт текста с YouTube, сделали скриншоты видео (каждые 5 секунд) и сформировали инструкцию (prompt, промпт, промт) по изготовлению блог-поста. Результат можно оценить самостоятельно — LLM Tokenization.
Ссылки
- https://github.com/karpathy/minbpe
- https://tiktokenizer.vercel.app
- https://github.com/openai/tiktoken
- https://github.com/google/sentencepiece
- Integer tokenization is insane
- SolidGoldMagikarp (plus, prompt generation)
- LLM Tokenization
По теме