Эволюция лингвистические модели больших размеров открыло новые горизонты в области коммуникации и искусственного интеллекта, но принесло с собой серьезные проблемы и этические вопросы. Недавнее исследование, проведенное Наньянский технологический университет Сингапура исследует новый алгоритм, Отмычка, предназначенный для «джейлбрейка» или преодоления ограничений, налагаемых на другие нейронные сети, такие как ChatGPT e Google Bard, поднимая важные вопросы о безопасности и этике при использовании технологий искусственного интеллекта.
Инновационный и простой подход Masterkey к исследованию безопасности чат-ботов, таких как ChatGPT и Bard.
В недавнем исследовании, проведенном Наньянским технологическим университетом в Сингапуре, был предложен инновационный подход для устранения этих ограничений. Их алгоритм, известный как Masterkey, предназначен для обойти ограничения, наложенные на другие нейронные сети, с помощью сложных методов взлома (термин, используемый в экосистеме Apple). Это не только выявляет потенциальные уязвимости существующих языковых моделей, но и открывает путь к новым методам повышения их безопасности и эффективности.
Мастер-ключ действует через конкретные текстовые запросы, что может подтолкнуть такие модели, как ChatGPT, к неожиданному поведению, например к неэтичному общению или обходу фильтров безопасности. Эти методы взлома, хотя они и могут показаться полезными для тестирования и усиления моделей, также представляют собой обоюдоострый меч, поскольку они могут быть использованы в злонамеренных целях.
Исследовательская группа он проанализировал в частности, уязвимости безопасности языковых моделей при столкновении с многоязычной когнитивной нагрузкой, завуалированными выражениями и причинно-следственными рассуждениями. Эти атаки, определяется как «когнитивная перегрузка», особенно коварны, поскольку не требуют глубокого знания архитектуры модели или доступа к ее весам, что делает их эффективными атаками «черного ящика».
См. также: Как повысить качество ответов в ChatGPT: надежный метод
В частности, исследовательская группа приняла стратегию обратный инжиниринг полностью понять защиту систем искусственного интеллекта и разработать инновационные методы их преодоления. Результатом такого подхода стал «Мастерключ», модель, своего рода структура, предназначенная для автоматически генерировать запросы в обход механизмов безопасности.
Результаты были значительными: подсказки, генерируемые Мастер-ключом, показали скорость средний успех 21,58%, намного выше, чем 7,33% предыдущих методов. Пример их техники включает добавление дополнительные пробелы между символами для обхода систем обнаружения ключевых слов на ChatGPT и Барде. Поистине «глупая» стратегия, если задуматься о сложности большой лингвистической модели.
Столкнувшись с этими выводами, крайне важно рассмотреть не только то, как можно улучшить языковые модели, чтобы противостоять таким атакам, но и важность этическое регулирование при использовании искусственного интеллекта. Исследование подчеркивает необходимость разработки более надежных оборонных стратегий и постоянного диалога между разработчиками, исследователями и политиками, чтобы гарантировать, что технологический прогресс не опережает способность общества управлять его последствиями.