Перейти к основному содержимому

Связанные ресурсы из интернета

Люди создают отличные инструменты и пишут статьи для улучшения результатов от GPT. Вот несколько интересных, которые мы нашли:

Библиотеки и инструменты для prompt-инжиниринга (в алфавитном порядке)

  • Arthur Shield: Платный продукт для обнаружения токсичности, галлюцинаций, внедрения промптов и др.
  • Baserun: Платный продукт для тестирования, отладки и мониторинга приложений на основе LLM.
  • Chainlit: Библиотека на Python для создания интерфейсов чат-ботов.
  • ElatoAI: Платформа для запуска OpenAI Realtime API Speech на ESP32 в Arduino с использованием Deno Edge Runtime и Supabase.
  • Embedchain: Библиотека на Python для управления и синхронизации неструктурированных данных с LLM.
  • FLAML (A Fast Library for Automated Machine Learning & Tuning): Библиотека на Python для автоматизации выбора моделей, гиперпараметров и других настраиваемых параметров.
  • Guidance: Удобная библиотека на Python от Microsoft, использующая шаблоны Handlebars для интеграции генерации, подсказок и логического управления.
  • Haystack: Открытая платформа для оркестрации LLM на Python, позволяющая создавать настраиваемые, готовые к продакшену приложения.
  • HoneyHive: Корпоративная платформа для оценки, отладки и мониторинга LLM-приложений.
  • LangChain: Популярная библиотека на Python/JavaScript для цепочек последовательных подсказок для языковых моделей.
  • LiteLLM: Минималистичная библиотека на Python для вызова API LLM с унифицированным форматом.
  • LlamaIndex: Библиотека на Python для расширения возможностей LLM приложений посредством данных.
  • LLMOps Database: База данных о том, как компании в действительности разворачивают LLM в продуктиве.
  • LMQL: Язык программирования для взаимодействия с LLM с поддержкой типизированных подсказок, управляющей логики, ограничений и инструментов.
  • OpenAI Evals: Открытая библиотека для оценки результативности языковых моделей и подсказок.
  • Outlines: Библиотека на Python, предоставляющая предметно-ориентированный язык для упрощения подсказок и ограничения генерации.
  • Parea AI: Платформа для отладки, тестирования и мониторинга LLM-приложений.
  • Portkey: Платформа для наблюдаемости, управления моделями, оценки и безопасности LLM-приложений.
  • Promptify: Небольшая библиотека на Python для использования языковых моделей для выполнения НЛП задач.
  • PromptPerfect: Платный продукт для тестирования и улучшения подсказок.
  • Prompttools: Открытые инструменты на Python для тестирования и оценки моделей, векторных баз данных и подсказок.
  • Scale Spellbook: Платный продукт для создания, сравнения и выпуска приложений на основе языковых моделей.
  • Semantic Kernel: Библиотека на Python/C#/Java от Microsoft, поддерживающая шаблонизацию подсказок, цепочки функций, векторную память и интеллектуальное планирование.
  • Vellum: Платная платформа разработки AI-продуктов для экспериментов, оценки и выпуска продвинутых LLM-приложений.
  • Weights & Biases: Платный продукт для отслеживания обучения моделей и экспериментов с настройкой подсказок.
  • YiVal: Открытый инструмент GenAI-Ops для настройки и оценки подсказок, конфигураций поиска и параметров моделей с использованием настраиваемых наборов данных, методов оценки и эволюционных стратегий.

Руководства по prompt-инжинирингу

Видеокурсы

Статьи по продвинутому prompt-инжинирингу для улучшения рассуждений

  • Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022): Использование few-shot подсказок, заставляющих модели мыслить поэтапно, улучшает их рассуждения. Результат PaLM по задачам на математические текстовые задачи (GSM8K) повышается с 18% до 57%.
  • Self-Consistency Improves Chain of Thought Reasoning in Language Models (2022): Голосование по нескольким результатам дополнительно повышает точность. Голосование среди 40 выводов улучшает результат PaLM с 57% до 74%, и code-davinci-002 — с 60% до 78%.
  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (2023): Поиск по дереву последовательных рассуждений работает лучше голосования по цепочкам мыслей. Это повышает результаты GPT-4 в творческом письме и кроссвордах.
  • Language Models are Zero-Shot Reasoners (2022): Инструктирование моделей, следующих командам, мысленно рассуждать поэтапно улучшает их выводы. Это увеличивает результат text-davinci-002 по математическим задачам (GSM8K) с 13% до 41%.
  • Large Language Models Are Human-Level Prompt Engineers (2023): Автоматический поиск возможных подсказок нашёл инструкцию, которая повышает результаты по математическим задачам (GSM8K) до 43%, на 2 процентных пункта выше подсказки, написанной человеком, из Language Models are Zero-Shot Reasoners.
  • Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling (2023): Автоматический поиск по цепочкам мысли улучшил результаты ChatGPT по ряду тестов на 0–20 процентных пунктов.
  • Faithful Reasoning Using Large Language Models (2022): Рассуждения можно улучшить системой, сочетающей: цепочки мысли, созданные альтернативными селекционными и выводными подсказками; модель-остановщик, выбирающую момент завершения циклов выбора и вывода; функцию ценности для поиска по нескольким путям рассуждений; и маркировку предложений, предотвращающую галлюцинации.
  • STaR: Bootstrapping Reasoning With Reasoning (2022): Рассуждения в цепочке мысли можно встроить в модели через дообучение. Для задач с эталонными ответами языковые модели могут генерировать примерные цепочки мыслей.
  • ReAct: Synergizing Reasoning and Acting in Language Models (2023): Для задач с инструментами или окружением цепочка мыслей работает лучше, если чередовать шаги Reasoning (обдумывание действий) и Acting (получение информации из инструмента или среды).
  • Reflexion: an autonomous agent with dynamic memory and self-reflection (2023): Повторение задач с учётом памяти о предыдущих ошибках улучшает последующую производительность.
  • Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP (2023): Модели с доступом к знаниям через стратегию «получить-then-прочесть» можно улучшить многошаговым поиском.
  • Improving Factuality and Reasoning in Language Models through Multiagent Debate (2023): Генерация дебатов между несколькими агентами ChatGPT в несколько раундов улучшает результаты по различным тестам. Результат по задачам на математические текстовые задачи повышается с 77% до 85%.