За обучением больших моделей ИИ формируется цепочка индустрии данных

Автор: Го Сяоцзин, Tencent Technology

Источник изображения: сгенерировано Unbounded AI

«Творить чудеса» и «жестокая эстетика» — эти два слова всегда фигурировали в обсуждениях ChatGPT. Что касается «энергичных» и «буйных», то помимо «огромной вычислительной мощности» есть еще и массивные объемы данных. Марк Андриссен, основатель a16z, также отметил на конференции Data+AI, что массивные данные, накопленные Интернетом за последние два десятилетия, являются важной причиной подъема этой новой волны ИИ, поскольку первый обеспечивает второй. с данными, которые можно использовать для обучения.

Согласно OpenAI, GPT-3.5 имеет текстовый корпус объемом до 45 ТБ, что эквивалентно 4,72 миллиона наборов четырех основных классических произведений Китая, в то время как GPT-4 добавляет мультимодальные данные к наборам обучающих данных GPT-3 и GPT-3.5. . 18 июля Meta, материнская компания Facebook, выпустила Llama2, первую коммерчески доступную крупноязыковую модель с открытым исходным кодом, предварительная подготовка которой, как ожидается, достигнет 2 триллионов токенов.

Возможность получать огромные объемы высококачественных данных считается одним из основных факторов конкурентоспособности будущих крупных модельных компаний, а также необходимостью для крупных гигантов в гонке вооружений ИИ. Данные также рассматриваются как ключевой фактор производства, определяющий будущее развитие. Согласно статистике «Доклада о развитии цифрового Китая (2022 г.)», потенциал цифровой экономики, раскрываемый элементами данных, будет чрезвычайно огромен. Вывод данных в моей стране достигнет 8,1 ZB в 2022 г., что составляет 10,5% мирового объема, занимает второе место в мире Цифровая экономика Развитие на первом плане.

Однако данные как совершенно новый фактор производства также порождают ряд проблем, которые необходимо срочно решить: как понимать данные? Как подтвердить права на данные? Как добывать значение данных? Можно ли его продавать и распространять? Действительно ли данные могут быть включены в финансовую отчетность предприятия в качестве актива? Как осуществляется управление безопасностью? С этой целью мы поговорили с профессором Цзэн Сюэюнь, заместителем декана Института науки и технологий Пекинского университета почты и телекоммуникаций**, и попросили ее подробно ответить на актуальные вопросы.

Ниже приводится стенограмма разговора:

**Tencent Technology: Обычные люди могут быть обеспокоены, откуда берутся данные для обучения больших моделей? Есть ли какое-либо использование моих личных данных, и не будет ли проблем с правами на эти данные? **

**Профессор Цзэн Сюэюн: Данные, рассчитанные по **большой модели, являются персональными данными. По сравнению с корпоративными данными личные данные имеют проблему прав собственности. ** В принципе, я хозяин своих данных. **Например, данные, сгенерированные в социальном программном обеспечении, в принципе, компания, которой принадлежит социальное программное обеспечение, не может использовать мои личные данные.Хотя эти компании фактически контролировали данные через авторизацию по умолчанию, как использовать конкретные данные. регулируется «Законом о защите персональных данных».

Итак, если его нужно использовать для расчетов больших моделей, как его использовать? С точки зрения технологии необходимо осуществлять обработку обезличивания, а с точки зрения эксплуатации также необходим субъект рынка, который должен **предоставить определенной компании законное право оперировать этими данными. , другими словами, дайте эти данные найти субъекту рынка. ** Когда ориентированный на рынок субъект получает данные, ему необходимо вкладывать рабочую силу, время, интеллект и капитал для производства данных, что мы все можем назвать затратами труда. После трудозатрат информация о данных, принадлежащая физическому лицу, преобразуется в своего рода регенеративные данные компании или вторичные данные. Затем вторичные данные генерируют процедурные данные, а затем продукты данных и услуги данных. В настоящее время исходные индивидуальные данные с отдельными лицами в качестве владельцев данных преобразуются в информационные продукты и услуги для предприятий. Это процесс производства.

**Tencent Technology: Можно ли понять, что интернет-компании получают персональные данные через авторизацию, и после того, как эти компании обработают процесс, они могут стать некими информационными активами компании? **

Профессор Цзэн Сюэюн: Также можно понять, что мы лично генерируем большое количество данных в Интернете, как и различные природные ресурсы в природе. Например, на земле может расти много цветов и деревьев, и может расти много ресурсов. Этот вид ресурсов является своего рода общественным ресурсом, который можно развивать и использовать, но нельзя купить или продать напрямую. То, что образуется после утилизации и обработки, является активами предприятия, это разрешено, и мы также должны таким образом поощрять развитие факторов производства данных.

**Tencent Technology: с индивидуальной точки зрения, как защитить наши личные данные и позволить им передаваться так, как мы хотим? **

**Профессор Цзэн Сюэюнь: **В эпоху искусственного интеллекта частную жизнь людей становится все труднее защитить. Поскольку записывается все поведение людей, записываются перемещения по географическому положению, жизнь, работа, диета и повседневная жизнь. После записи информация, которая изначально принадлежала нам, больше не может контролироваться преступником. Поэтому в настоящее время риск утечки конфиденциальной информации очень высок, задача защиты данных также очень тяжела, а защита данных также очень сложна.

Как люди защищают свои права на данные? На самом деле, в разных странах также есть некоторые коммерческие методы. Первый тип, как и Япония, использует банк данных, то есть каждый может хранить данные в банке данных так же, как вносить депозиты в банк. Банк данных является хранителем данных, он также может служить исходным разработчиком ценности данных, а отдельные лица также могут получать определенные преимущества. Это означает, что он позволяет некоторым людям, которые готовы раскрывать и использовать свои собственные данные в определенной степени, иметь бизнес-модель для решения проблем защиты данных по собственному выбору. Другими словами, построение моделей оборота правовых данных, разработки и использования правовых данных — это штука.

**Другая часть заключается в том, что лично я этого не хочу, поэтому я не уполномочиваю владельца данных. ** При отсутствии авторизации страна должна усилить защиту данных. Если кто-то хочет незаконно разработать эту часть данных, он должен быть наказан и подвергнут юридическому надзору.Технология блокчейна может использоваться для отслеживания такого поведения. Например, утекли ли наши данные и где они утекли, чтобы отследить поток данных. Также можно отслеживать и анализировать родство данных, и теперь есть технология родства данных. Грубо говоря, **Откуда берутся данные и куда они уходят? Анализ происхождения данных на самом деле является своего рода анализом корреляции данных и прослеживаемостью данных.**Использование слова «происхождение» является очень ярким описанием входов и выходов данных. . Все записывается, поэтому записи данных и технологий других людей также могут быть записаны, обнародованы и взломаны.

«Гражданский кодекс» моей страны содержит специальные положения о защите личной информации в главе о правах личности. Статья 127 «Гражданского кодекса» сопоставляет данные с сетевым виртуальным имуществом, выделяя имущественный признак данных. В местном законодательстве положения статьи 12 «Шанхайских муниципальных правил данных» прямо отражают модель распределения прав «двух подразделений человеческих ресурсов и богатства». В этой статье указано: «Настоящий город защищает права личности и интересы физических лиц в отношении их персональных данных в соответствии с законом». экономика».

20 августа 2021 года 30-е заседание Постоянного комитета Всекитайского собрания народных представителей тринадцатого созыва проголосовало за принятие «Закона Китайской Народной Республики о защите личной информации», который вступит в силу 1 ноября 2021 года. Подробности можно найти в Интернете. Судебный характер персональных данных в «Законе о персональных данных» также является защитой личных прав и интересов, что почти не затрагивает имущественных прав и интересов персональных данных.

**Tencent Technology: Какие высококачественные данные важны для обучения больших моделей? **

**Профессор Цзэн Сююнь: **Данные должны представлять собой все записи экономической, социальной, производственной, управленческой, коммерческой и даже военной деятельности человека. Такая запись производится в различных отраслях, областях и аспектах. Что касается необработанных данных, то они бывают высокого и низкого качества. Например, финансовая отчетность и финансовые данные компаний, котирующихся на бирже **, представляют собой высококачественные и структурированные данные. **Поскольку такого рода финансовые отчеты и финансовая информация были проверены обществом и проверены сертифицированными бухгалтерами, а Комиссия по регулированию ценных бумаг Китая контролирует раскрытие информации, поэтому это высококачественные данные. Другой пример: бумажные данные в **CNKI также являются данными высокого качества. **Однако данные, генерируемые в Интернете, являются неструктурированными и нестандартизированными данными. Такие данные представляют собой исходные, беспорядочные и нерегламентированные данные, требующие тщательной очистки перед расчетом, поэтому качественные данные обычно имеют переход от неструктурированного к структурированному процессу обработки. **

**Технология Tencent: поскольку высококачественные данные могут производиться непрерывно, почему существует такая поговорка, что «высококачественные данные почти израсходованы»? **

Профессор Цзэн Сюэюн: Я думаю, что способность производить и обрабатывать данные не может удовлетворить спрос людей на данные, а производительность всей цепочки создания стоимости для производства и обработки данных все еще относительно низка. Потому что мы знаем, что данные постоянно взрываются, а качественные данные заканчиваются, это просто означает, что в процессе от данных к качественным данным нам не хватает какой-то продуктивности и способности к интеграции. В настоящее время необходимы поставщики данных.Многие из наших нынешних поставщиков данных только напрямую используют данные, но для производства и обработки данных, а также как производить высококачественные данные, возможности этой области или дизайн бизнес-моделей по-прежнему недостаточно.

На самом деле GPT-4 OpenAI использует для обучения большое количество данных, созданных моделью предыдущего поколения GPT-3.5. Основатель OpenAI также сказал в недавнем интервью: «Синтетические данные — это эффективный способ решить проблему нехватки данных больших моделей. Суть в том, что существует целая система, позволяющая различать, какие данные, сгенерированные ИИ, доступны, а какие нет. , И продолжайте давать обратную связь, основываясь на эффекте обученной модели». Эта компания не просто способна собирать деньги, она может контролировать большое количество вычислительной мощности таким простым образом, а технологические возможности продукта данных также являются одним из основных конкурентных преимуществ этой компании.

**Tencent Technology: Какие связи в промышленном дизайне необходимы для повышения производительности высококачественных данных? **

Профессор Цзэн Сюэюн: Что касается этого вопроса, мы должны сначала понять, что такое данные? Какие данные у нас есть? И что делать с данными? Иными словами, производство высококачественных данных не означает наличия производственных мощностей для получения высококачественных данных и не означает готовности производить высококачественные данные. Он должен понимать данные из источника Какие проблемы в обществе должны решаться с помощью данных? Где рыночный спрос на данные? Затем, от исходных данных до стороны спроса, как мы должны производить посередине? Этот ряд проблем требует промышленного дизайна, а текущего общего мышления недостаточно.

**Tencent Technology: Незрелость отрасли — это один из аспектов.Означает ли это также, что отрасль по-прежнему представляет собой голубой океан? **

**Профессор Цзэн Сююнь: **Очень ранний голубой океан. В первые дни было несколько случаев незаконной прямой торговли данными. Позже национальное законодательство больше не могло напрямую покупать и продавать сами данные, а также торговать необработанными данными. Данные нельзя использовать для исходных транзакций. Они должны быть результатом инвестиций в собственное производство для совершения транзакций, а не говорить, что у меня есть некоторые данные, и я продаю данные напрямую. Это не разрешено.

В 2022 г. (декабрь) были обнародованы «Двадцать статей данных». выгодные права Распределение, в котором упоминалось, что данные должны управляться в этой иерархической категории. Это схема управления данными верхнего уровня и общий план. Можно также сказать, что это начало стандартизированного развития индустрии данных будущего. В это время люди осознают, что данные не являются целым, и им необходимо понять, какие права и интересы у данных есть, Это также продвижение первоначального исследования, основанного на законе, к исследованию, основанному на экономике. ** Чтобы создать рынок данных, рынок должен быть экономическим поведением. Такое экономическое поведение требует использования многих экономических инструментов и экономических теорий, поэтому теперь от исследований в области науки о данных, управления данными государством до исследований данных в академических кругах и контроля над данными. в отрасли Утилизация — это голубой океан, и это состояние только начинается. **

**Tencent Technology: с этой точки зрения данные могут существовать как определенный актив предприятия.Какому виду актива принадлежат данные? **

**Профессор Цзэн Сююнь:**Классификация данных — очень горячая тема в научных кругах. В большинстве случаев люди думают, что данные неосязаемы, невидимы и нематериальны, и это называется нематериальными активами. Но на самом деле, по классификации МСЭ, данные ближе к инвентарным активам, потому что данные также включают в себя процесс производства и обработки. А сами данные — это электронный материальный актив, почему именно электронный материальный актив? Данные будут занимать физическое пространство, и многие данные сами по себе имеют физическую форму, которая является физической формой на стороне сети. Изображение — вы можете видеть это электронное изображение, звук — вы можете слышать этот звук, а портрет — вы можете видеть этот портрет, так что ** данные — это цифровой материальный актив. **

Мы знаем, что активы данных — это особый класс активов. Некоторые предполагают, что данные можно сравнить с нематериальной природой для амортизации или по аналогии с основными средствами для амортизации. Фактически, вы должны сначала классифицировать данные иерархически, чтобы увидеть, к какой категории они принадлежат. **Для определенных типов данных он также имеет расширяемость и возможность объединения. Например, если все данные о звонках China Unicom можно интегрировать с данными о личных банковских депозитах и инвестициях, портрет этого человека может быть создан с использованием дополнительной информации от инвестиций и финансирования до его общения и карьеры. В это время будет иметь место накопительный эффект ценности данных, генерируемый слиянием данных и данных. В это время данные будут объединены и могут расти. Есть также часть данных, которые действительно чувствительны ко времени, и их ценность со временем будет снижаться. Следовательно, нам все еще необходимо более конкретно проанализировать характеристики самих данных, чтобы узнать их учетную стоимость, а учет стоимости данных имеет большую изменчивость и неопределенность, в отличие от основных средств, фиксированной стоимости активов на момент времени. формирования актива является определенным, и с течением времени стоимость постепенно уменьшается, но данные не обязательно уменьшаются со временем, и данные имеют более сложную форму актива.

**Tencent Technology: являются ли данные о будущем одним из основных факторов конкурентоспособности компаний, занимающихся искусственным интеллектом? Можно ли количественно оценить активы данных и отразить их в оценке компании? **

**Профессор Цзэн Сююнь: **Для компании, занимающейся искусственным интеллектом, **данные — это ее основная конкурентоспособность. **Для компании, занимающейся искусственным интеллектом, качество продукта определяет ценность компании для бизнеса, а возможности данных определяют качество продукта. **Для страны данные — это ключ к конкурентоспособности в будущем, а также золото будущего, так же как нефть — золото индустриальной эпохи, а **данные — золото эпохи интернет-экономики. **

Но в настоящее время страны мира фактически сталкиваются с трудностями в управлении данными, и ни одна страна не взяла на себя инициативу в совершении прорывов.Как найти баланс между безопасностью данных, управлением данными и разработкой и использованием данных. **

В связи с этим Китай прекрасно осознает важность данных. Все страны также осознают, что данные - это новая производительность, но для того, чтобы использовать данные, требуются участники рынка, интеллектуальные технологии и национальное регулирование, Таким образом, это не простая проблема, которую можно решить, это системные вопросы сложности.

Национальное управление Китая представляет собой относительно централизованное устройство от центра к местному, поэтому у нас, естественно, есть преимущество в интеграции больших данных по всей стране, но это преимущество еще не отражено, и оно заключается в оценке ** данных. проблемы с оценкой и оценкой, а проблема ввода данных в бухгалтерскую отчетность не решена. ** В мире нет хорошего решения этой проблемы.

** Если данные могут быть перенесены из внебалансовых активов в балансовые активы, то учет стоимости управления данными и управление стоимостью данных могут быть решены хорошо, и операции с данными будут иметь объективную основу. **Сейчас наши корпоративные данные — это в основном забалансовые активы, без оценки, без измерения и отчетности на балансе, поэтому неясно, сколько данных у компании, так что экономика данных тоже затруднительна вести статистику стоимости. Если данные не внесены в таблицу, то их транзакция будет лишена разумного основания, **поэтому ввод данных в таблицу является ключевым вопросом. **Для статистики объема данных, учета цен на данные и ценообразования транзакций с данными, от статистики объема до учета цен и основы транзакций необходимо ввести баланс и отчет о прибылях и убытках с данными и введите Учет для финансовой отчетности является базовым средством. Этот базовый объект еще не решен.

**Tencent Technology: Каковы международные прецеденты законодательства о правах собственности на данные? **

**Профессор Цзэн Сююнь: **Исследование законодательства о правах собственности на данные. В настоящее время в основных странах мира действуют базовые законы о защите данных, и они все более четко позиционируются для продвижения защиты прав личности в правах собственности на данные. Однако законы и положения об использовании данных в основном отсутствуют. Япония имеет определенную степень продвижения в этом отношении моя страна Значительный упор делается на содействие обороту элементов данных, но без поддержки, регулирования и руководства законов и правил, он в основном опирается на административные документы, которые все еще имеют много законодательных недостатков. В настоящее время существует острая необходимость инновационно возглавить новое направление глобального правового строительства в плане ускорения регулирования прав собственности на данные и оборота элементов данных. Ситуация в стране и за границей следующая:

Международные аспекты: Общий регламент по защите данных (GDPR), принятый Европейским союзом в 2016 году, в настоящее время является наиболее всеобъемлющим и влиятельным законом о конфиденциальности данных. «Регламент» развивается в двух направлениях: усиление прав субъектов данных, обеспечение контроля за использованием персональных данных, а также учет безопасности данных и свободного обращения данных. На основе подтверждения и улучшения существующих прав физических лиц GDPR предусматривает право на удаление (статья 17) и право на переносимость (статья 20) и т. д., чтобы добиться более эффективного контроля субъектов данных над своими персональными данными. , но в положениях нет разъяснений по передаче персональных данных в собственность и распределению имущественных прав.

Хотя в США система и теоретическая проработка правовой защиты прав собственности на данные началась раньше, большинство соответствующих норм разбросаны по разным законопроектам. Законодательство каждого штата несовместимо, но охватывает широкий спектр областей и обладает некоторой гибкостью в реальном разрешении споров, чтобы стимулировать использование данных. Например, «Закон штата Калифорния о конфиденциальности потребителей от 2018 г.», изданный в 2018 г., и «Закон штата Калифорния о конфиденциальности от 2020 г.», изданный в 2020 г., расширили определение прав на данные, включая право на доступ, право на удаление, право на информацию и т. д. Права потребителей на неприкосновенность частной жизни усиливают защиту прав и интересов субъектов данных при передаче данных, что также отражает со стороны США разрешение на использование данных экономической ценности. В 2017 году Япония сформулировала «Руководящие принципы для договоров о правах на использование данных». В этих руководящих принципах полностью учитывались такие факторы, как вклад договоров о данных в создание данных, стоимость хранения и управления, а также стандартизированные договоры о транзакциях данных для продвижения транзакций с данными. это большой прогресс, но до сих пор нет четкого определения прав собственности на данные.

В Европе Хартия основных прав ЕС и Общий регламент по защите данных рассматривают право на защиту персональных данных как особое право, которым пользуются субъекты данных, которое не включает никаких прав собственности. Хотя законы ЕС, такие как Общий регламент по защите данных, не прямо предусматривают, что контролеры данных обладают правами собственности на данные в качестве объекта, их права собственности на данные и их интересы могут быть защищены с помощью защиты базы данных, защиты закона об авторском праве, защиты коммерческой тайны, защиты договорного права. , защита закона о конкуренции и т. д. защищены. Кроме того, документ «Построение европейской экономики данных», изданный Европейской комиссией, направлен на введение «прав производителей данных», которые наделяют контролеров данных универсальными правами собственности на неперсональные данные и обезличенные персональные данные, позволяя им исключительное использование. данных, включая право выдавать другим лицам лицензию на использование таких данных. В Соединенных Штатах, хотя некоторые ученые-правоведы считают, что отдельным лицам должны быть предоставлены права собственности на личную информацию, суды обычно не признают такие права собственности. В некоторых случаях суды США постановляли, что компании имеют право собственности на данные, которыми они владеют. Отечественный и зарубежный юридический опыт в отношении собственности на данные показывает, что «разделение человеческих ресурсов и богатства» должно стать основным теоретическим положением для построения системы прав собственности на данные в моей стране.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить