Все новости права

Защита персональных данных при работе с большими языковыми моделями (часть 1)

новости права
20 / 06 / 2024
В последнее время бизнес все больше стремится использовать генеративный нейронные сети (в частности, большие языковые модели или large language models (LLM)) в своей деятельности. Помимо моделей, которые были выпущены крупными российскими технологическими компаниями (например, YandexGPT, GigaChat и т. д.), сейчас существует также большой выбор моделей, распространяемых на условиях open source (Llama, Vicuna, Falcon, Open LM и т. д.).

Использование больших языковых моделей может принести существенную пользу бизнесу, однако при использовании таких моделей неизбежно встает вопрос о соблюдении законодательства о персональных данных, и рано или поздно данные вопросы будут рассматриваться регулятором при проведении проверок. Если взять в качестве примера европейскую практику, то деятельность компании OpenAI и использование ее продукта ChatGPT уже привлекла большое внимание национальных регуляторов, и в настоящий момент ведется ряд расследований на предмет потенциального нарушения норм General Data Protection Regulation (GDPR). Таким образом, целесообразно заранее очертить хотя бы примерный круг проблем и вопросов, связанных с обеспечением законодательства о персональных данных.

В серии, которую открывает настоящий материал, мы постарались осветить основные проблемные зоны. Конечно, с развитием технологии и правоприменительной практики будет возникать еще больше вопросов, но ряд проблем, как представляется, виден невооруженным взглядом уже сейчас.

Правовые основания для обработки данных


С точки зрения использования больших языковых моделей традиционно выделяют ряд стадий использования таких моделей, на каждой из которых необходимо соблюдать требование о наличии законного правового основания для обработки (см., например, анализ, проведенный European Data Protection Board, а также анализ использования генеративного искусственного интеллекта, подготовленный European Data Protection Supervisor). Если кратко, то можно выделить следующие основные стадии: (1) сбор данных для обучения модели; (2) предпроцессинг данных и подготовка их к «скармливанию» модели; (3) обучение модели; (4) написание запросов (промптов) и получение ответов от модели, а также пост-обучение модели через обращения к ней через интерфейс (промпты).

Первые три стадии представляют собой наибольшую опасность с точки зрения прав и законных субъектов персональных данных. Если компания сама занимается обучением или дообучением моделей, то неизбежно возникнет вопрос относительно необходимости использования значительного объема данных. Зачастую для обучения компании берут данные в открытом доступе, а также собственные накопленные данные.

В первом случае ситуация с использованием данных в открытом доступе (помимо прочих вопросов, связанных с правомерностью использования соответствующего ресурса, где были размещены данные) усложняется тем, что в текущей редакции ФЗ «О персональных данных» полностью удалена категория персональных данных, сделанных общедоступными субъектом данных или от его имени (прошлая редакция п. 10 ч. 1 ст. 6 ФЗ «О защите персональных данных»), и заменена категорией «персональные данные, разрешенные субъектом персональных данных для распространения» (статья 10.1 ФЗ «О персональных данных»). В результате, по умолчанию требуется анализировать историю и контекст любых фактически общедоступных персональных данных для потенциальной дальнейшей обработки, включая цели обучения больших языковых моделей.

В европейской практике сбор открытых данных для обучения моделей также весьма неоднозначен. Как отметил европейский орган, осуществляющий надзор за исполнением GDPR институтами ЕС (European Data Protection Supervisor, EDPS), использование, например, скраппинга для сбора данных, находящихся в открытом доступе в сети «Интернет» (web-scrapping) может не соответствовать европейскому регулированию, в частности принципам минимизации использования данных (data minimization), а также принципу достоверности использования данных (accuracy) в той степени, в которой отсутствует контроль над достоверностью источника (стр. 7 First EDPS Orientations for ensuring data protection compliance when using Generative AI systems).

Важно помнить, что российские компании также формально могут быть обязаны соблюдать требования GDPR, если они при работе с языковыми моделями используют персональные данные, которые охраняются в соответствии с нормами GDPR. Дело в том, что в европейской практике принят принцип, в соответствии с которым защита персональных данных, следует за такими данными. Это означает, что даже если персональные данные покинули физически территорию ЕС, то на них все равно, вероятнее всего, распространяется защита, предоставляемая GDPR. Например, речь может идти о случаях, когда российская компания при подготовке датасэта для обучения или для других целей при работе с языковой моделью использует данные, полученные с помощью скраппинга ресурсов, которые очевидно содержат данные резидентов ЕС, или используют персональные данные, полученные от иностранных контрагентов из ЕС (другие компании группы, исследовательские компании, иные лица).

В случае, когда компания использует свои собственные данные, необходимо понимать, что накопленные массивы данных самой компании, скорее всего, будут содержать персональные данные. Следовательно, в зависимости от того, данные каких субъектов собираются, необходимо обеспечить наличие правового основания. В большинстве случаев это будет согласие, которое должно быть конкретным и информированным, то есть в нем должны быть указаны такие цели обработки как обучение модели, возможный предпроцессинг и разметка данных, а также дообучение модели в процессе использования.
подписаться на рассылку