OpenAI пояснює, чому ChatGPT став занадто улесливим

Компанія OpenAI опублікувала звіт про нещодавні проблеми з підлабузництвом у стандартній моделі штучного інтелекту, що лежить в основі ChatGPT, GPT-4o, – проблеми, які змусили компанію відкотити оновлення моделі, випущене минулого тижня.

На вихідних, після оновлення моделі GPT-4o, користувачі соціальних мереж відзначили, що ChatGPT почав реагувати в надмірно валідуючій і прийнятній манері. Це швидко стало мемом. Користувачі викладали скріншоти ChatGPT, що вітають всілякі проблемні, небезпечні рішення та ідеї.

У повідомленні на X у неділю генеральний директор Сем Альтман визнав наявність проблеми і сказав, що OpenAI працюватиме над виправленнями якомога швидше. Два дні потому Альтман оголосив, що оновлення GPT-4o відкочується і що OpenAI працює над «додатковими виправленнями» індивідуальності моделі.

За даними OpenAI, оновлення, покликане зробити стандартну індивідуальність моделі «інтуїтивно зрозумілішою та ефективнішою», було надто ґрунтувалося на «короткостроковому зворотному зв’язку» і «не повністю враховувало, як взаємодія користувачів із ChatGPT змінюється з плином часу».

«У результаті GPT-4o перекосився в бік відповідей, які були надмірно підтримувальними, але нещирими», – написав OpenAI в повідомленні в блозі. «Улеслива взаємодія може бути незручною, тривожною і викликати стрес. Ми не виправдали очікувань і працюємо над тим, щоб виправити це».

OpenAI заявляє, що впроваджує кілька виправлень, включно з удосконаленням основних методів навчання моделей і системних підказок, щоб явно відвести GPT-4o від підлабузництва. (Системні підказки – це початкові інструкції, які спрямовують загальну поведінку моделі та тон у взаємодіях). Компанія також створює більше захисних огороджень, щоб «підвищити чесність і прозорість моделі», і продовжує розширювати свої оцінки, щоб «допомогти виявити проблеми, що виходять за рамки підлабузництва», – йдеться в ній. OpenAI також заявляє, що експериментує зі способами, що дають змогу користувачам давати «зворотний зв’язок у реальному часі», щоб «безпосередньо впливати на свою взаємодію» з ChatGPT і обирати з кількох особистостей ChatGPT.

«Ми вивчаємо нові способи включення ширшого, демократичнішого зворотного зв’язку в поведінку ChatGPT за замовчуванням», – написала компанія у своєму повідомленні в блозі. «Ми сподіваємося, що зворотний зв’язок допоможе нам краще відображати різноманітні культурні цінності по всьому світу і зрозуміти, як ви хотіли б, щоб ChatGPT розвивався. Ми також вважаємо, що користувачі повинні мати більше контролю над поведінкою ChatGPT і, тією мірою, якою це безпечно і здійсненно, вносити корективи, якщо вони не згодні з поведінкою за замовчуванням».

Популярні Пости