Искусственный интеллект на службе пользователя: как выбрать лучшую нейросеть

22 августа 2023

В университете Калифорнии в Беркли была создана платформа "Chatbot Arena", где каждый может сравнить ответы от различных моделей генеративного искусственного интеллекта, таких как ChatGPT, Google Bard и других, не зная, какая модель отвечает. Это позволяет объективно оценить качество работы нейросетей.

Для тестирования чат-ботов была основана организация Large Model Systems Organization (LMSYS Org), включающая студентов и преподавателей в области искусственного интеллекта и информатики. Они разработали собственную модель AI, Vicuna, и стремятся улучшать её, оценивая предпочтения пользователей.

Система оценки основана на методе Elo, широко используемом в шахматах и других играх. По результатам голосования 40 000 участников, на первом месте рейтинга находится модель GPT-4 от OpenAI с рейтингом Elo 1,225, доступная по подписке ChatGPT Plus. За ней следуют две версии Claude от Anthropic. Четвертое место занимает бесплатная версия ChatGPT с моделью GPT-3.5, рекомендуемой для большинства повседневных задач.

Модель, лежащая в основе Google Bard, PaLM 2, занимает шестое место. Команда исследователей сравнила версию модели из "Chatbot Arena" с Google Bard и подтвердила, что она по крайней мере очень близка к доступной в Bard.

Среди проблем, связанных с широким внедрением нейронных сетей, исследователи выделяют вопросы конфиденциальности данных и необходимость поддержания высокого качества данных, которые питают модели. Если нейросети смогут генерировать собственный контент, используя доступную в сети информацию, возникает вопрос о стимулах для людей создавать новый, качественный контент.

Это исследование подчеркивает важность выбора подходящей нейросети для решения задач и в то же время указывает на необходимость регулирования в сфере искусственного интеллекта для обеспечения безопасности и конфиденциальности данных.