Этические правила генерации контента ИИ - что обязательно в правилах команды

Вопрос: какие правила введите, чтобы минимизировать риски от генерации недостоверного или вредного контента?

Наша команда обсуждала обязательный набор правил. Вот что уже предлагаем - проверка фактов человеком, прозрачность использования ИИ, список запрещённых тем, журналирование выводов модели и процедура отката. Что ещё добавить?

1 лайк

Технически важно: логировать входные промпты и ответы модели, сохранять версии промптов и модели, чтобы при споре можно было воспроизвести генерацию. Обязательно хранить почему модель дала тот или иной ответ - метаинформация о промпте и температурах.

5 лайков

Добавьте правило прозрачности к пользователю: если текст создан ИИ, дайте короткую пометку. Это повышает доверие. Кроме того, если сделан вывод о человеке или организации, требуйте подтверждающие ссылки и возможность опровержения.

1 лайк

для публичного контента используйте двухэтапную проверку: генерация + редакторская проверка, для внутренних заметок допускайте больше вольностей, но с ясной пометкой.

Реализация: 1) SOP для генерации контента; 2) checklist в 5 пунктов для проверки фактов; 3) обучающие сессии для редакторов по работе с ИИ; 4) контакт юриста для спорных случаев. Без процессов ИИ создаёт больше проблем, чем пользы.

2 лайка

Внедрите тест на «галлюцинации» модели: список контрольных фактов, которые модель должна подтвердить

Свод рекомендаций: журнал промптов, human-in-the-loop для критичных тем, прозрачность, список запретов и процедура эскалации

Лично сталкивался с такой проблемой, нужно было создать 6 тысяч описаний в заданном формате, корректными были только 4200±. Но после расширения контрольного списка и добавления пункта об обязательной достоверности и повторного прогона - результат был практически полноценным с небольшими допущениями, которые были исправлены уже в ручную. Интересно, что 1800± в первом потоке, которые являлись некорректными - имели в себе всегда одни и те же шаблонные ошибки, по которым и были выявлены недостоверные описания.

2 лайка