Yao Qian: Büyük Ölçekli Modellerin Ekolojik Yapısı Üzerine Bazı Düşünceler

Yazar|Yao Qian "Çin Menkul Kıymetler Düzenleme Komisyonu Teknoloji Denetleme Bürosu Direktörü"

Kaynak| "China Finance" Sayı 13, 2023

Görsel kaynağı: Unbounded AI‌ tarafından oluşturuldu

2023'e girerken, ChatGPT, GPT4 ve Midjourney gibi içerik oluşturma odaklı yapay zeka uygulamaları, yenilik dalgalarını tetikledi. Hatta bazı insanlar, büyük modelin yinelemeli olarak gün birimlerinde geliştiğini düşünüyor. Yeni bir üretim faktörü olarak, büyük model eğitim verilerinin iyi huylu ve sürdürülebilir gelişimi, büyük model ve yapay zeka endüstrilerinin gelişimi için çok önemlidir. Büyük veri ve yapay zeka uygulamalarının önemli bir alanı olan finans sektörü, büyük model eğitimi ile ilgili teknolojilerdeki son gelişmeleri yakından takip etmelidir. Bu makale ilk önce büyük modellerin evrimini ve yükseltme yolunu analiz eder ve ardından büyük modeller ile küçük ve orta ölçekli modeller arasındaki olası etkileşim yöntemlerini tartışır ve büyük modellerin veri ekolojisini ve model ekolojik yapısını açıklar. ekoloji ilgili fikirler sağlar.

Büyük modellerin yükseltme ve evrim yolu analizi

Uzun vadeli bir perspektiften bakıldığında, büyük modellerin evriminin birçok dalı vardır. Son zamanlarda, büyük modellerin yineleme hızı sadece hızlanmakla kalmadı, aynı zamanda temelde tüm büyük teknoloji şirketlerini kapsayan daha fazla katılımcı ve başlangıçta ekolojinin çeşitliliği ve karmaşıklığı ortaya çıktı.

Şu anda, büyük modeli yükseltmenin yinelemeli sürecinde temel algoritma çerçevesinde temel bir değişiklik yoktur.Bilgisayar gücü girdisi ve eğitim verilerinin bolluğu, hızlı evriminin anahtarı olmaya devam etmektedir, ancak en son GPT4 bazı yeni özellikler sunmaktadır. özellikler.

**Birincisi, algoritmanın belirli aşağı akış görevleri için daha uygun olmasıdır. **GPT3 ve GPT3.5, 175 milyar parametreye sahip büyük modellerdir. GPT4 şu anda belirli parametreleri açıklamadı, ancak bazı insanlar parametrelerinin trilyonlarca seviyeye ulaşacağını ve ayrıca pekiştirmeli öğrenmede ve belirli görevleri çözmede önemli gelişmeler sağlayacağını düşünüyor.Daha popüler olan terim "hizalama" dır. GPT3 serisi modeller, yapay zekanın tek bir modelde birden fazla görevi yapabileceğini herkese kanıtlıyorsa, GPT4 birçok görevde insan seviyelerine ulaşmış, hatta geçmiştir.

**İkincisi, daha standartlaştırılmış eğitim veri yönetişimi yeteneklerine sahip olmak ve çoklu modaliteyi desteklemektir. **GPT4, "insan beyniyle karşılaştırılabilir" çok modlu bir yeteneğe sahiptir; bu, birçok güncel makalede açıklanan çok modlu mekanizmadan pek farklı değildir, ancak metin modelinin birkaç örnek işleme yeteneğini düşünce zinciri (Düşünce Zinciri), CoT) birleştirildi. GPT4 eğitim verilerinin yönetişimi ve tedariki, veri etiketleme, veri yönetimi ve değerlendirmesi, veri otomasyonu ve veri sentezinden ayrılamaz.

Üçüncüsü, daha fazla eğitim veri setini ve daha büyük girdi parametrelerini karşılamak için daha güçlü bir bilgi işlem güç kümesi oluşturmaktır. ** Örneğin Microsoft, bulut kaynaklarının yarısından fazlasını büyük model eğitimine ve yapay zeka tarafından oluşturulan içerik (AIGC) uygulamalarına ayırmıştır. Hatta Nvidia, yeni bir bilgi işlem platformu ve daha güçlü GPU oluşturmak için TSMC, ASML ve Synopsys ile güçlerini birleştirdi.

Çeşitli modellerin birbirine bağlı olduğu bir ekosistem oluşturun

GPT benzeri büyük modeller güçlüdür ve gelecekte internet, finans ve tıp alanları gibi birçok sektörde önemli altyapılardan biri haline gelecektir. Örneğin, finans alanında, ilgili profesyonel verilerle eğitimden sonra, büyük model finansal iş bilgisini anlama yeteneğine sahip olabilir ve belirli senaryolar için çözümler sunarak finansal kurumları pazarlama otomasyonu, müşteri ilişkileri madenciliği, akıllı risk belirleme, akıllı Müşteri hizmetleri, akıllı yatırım araştırması vb.

Ancak, belirli uygulamaları uygulama sürecinde, GPT benzeri büyük modeller bir dizi zorlukla karşılaşacaktır. Biri, eğitim verilerinin nicelik ve kalitesinin nasıl sağlanacağıdır. Genel olarak konuşursak, büyük modellerin eğitim külliyatı birden fazla alandan genel amaçlı külliyatken, profesyonel külliyatın toplanması genellikle zaman alıcı ve zahmetlidir ve ayrıca mahremiyet sorunları da vardır. Sonuç olarak, büyük modeller spesifik olarak profesyonel görünebilir. bireysel uygulama alanları cinsel yetersizlik. İkincisi, büyük modellerin işletme ve bakım maliyetlerinin nasıl azaltılacağıdır. Büyük modeller, devasa bilgi işlem gücü desteği ve katı veri yönetişimi gerektirir.Sıradan kurumların ve uygulama departmanlarının büyük modellerin çalışmasını ve yinelemeli yükseltmesini desteklemesi genellikle zordur. Bu amaçla, büyük modellere bağlı yapay zeka endüstrisinin çeşitli uygulama alanlarında başarılı bir şekilde uygulanabilmesini sağlamak için çeşitli modellerin sağlıklı etkileşimi ve birlikte evrimi ekolojisinin oluşturulması gerekmektedir.

Teknik açıdan, büyük modellerin evrimi, insan geri bildirimi ile pekiştirmeli öğrenmeye dayanır (İnsan Geri Bildiriminden Takviyeli Öğrenme, RLHF).Kullandığı veri etiketleme, düşük maliyetli işçilikle yapılan basit veri etiketleme işinden farklıdır. Çok profesyonel kişiler girişler yazacak ve ilgili soru ve yönergeler için insan mantığına ve ifadesine uygun yüksek kaliteli yanıtlar verecektir. Bununla birlikte, insan ve makine etkileşimi arasındaki boşluk nedeniyle, ideal mod, modeller arasındaki etkileşim yoluyla pekiştirmeli öğrenmeyi, yani model geri bildirimine dayanan pekiştirmeli öğrenmeyi gerçekleştirmektir (Model Geri Bildiriminden Takviyeli Öğrenme, RLMF). Çeşitli modellerin etkileşimine dayalı olarak, tüm büyük modelin verileri ve model ekolojisi bir çerçevede birleştirilebilir.

Geçmişte, merkezi olmayan model geliştirme modeli altında, tek bir yapay zeka uygulama senaryosundaki birden çok görevin birden çok model tarafından desteklenmesi gerekiyordu ve her model inşasının algoritma geliştirme, veri işleme, model eğitimi ve ayarlama sürecinden geçmesi gerekiyordu. Önceden eğitilmiş büyük model, yapay zekanın çok yönlülüğünü ve genellemesini geliştirir.Büyük modele dayalı olarak, sıfır örnekle veya küçük örnekle ince ayar yapmak, çeşitli görevlerde daha iyi sonuçlar elde edebilir. Büyük model "ön eğitim + ince ayar" modeli, yapay zeka araştırma ve geliştirmeye yeni bir standartlaştırılmış paradigma getirerek yapay zeka modellerinin daha birleşik ve özlü bir şekilde büyük ölçekli üretim gerçekleştirmesini sağladı. Teknolojik yenilik ve uygulama uygulamasına odaklanan büyük modellerin verileri ve endüstriyel ekolojisi, altyapı (genel korpus ve bilgi işlem gücü platformları dahil), temel büyük modeller ve büyük model hizmetleri (sentetik veriler, model tedariki ve uygulama fişi dahil) olarak ayrılabilir. -ins). Aşağı akış uygulamalarında kullanıcılar, büyük modelin çeşitli hizmetleri aracılığıyla performansı artırmak için kendi küçük modellerini dağıtabilir ve aynı zamanda büyük modeli yinelemeli olarak geliştirmeye yardımcı olmak için büyük modele karşılık gelen geri bildirim hizmetlerini ters yönde sağlayabilir (bkz. Şekil 1).

Temel büyük model, büyük model endüstriyel ekolojinin temel motorudur.Avantajları, basitliği ve çok yönlülüğünde yatmaktadır.Doğal dil işleme, bilgisayar görüşü ve modlar arası görevler gibi tipik görevlere yöneliktir.Ayrıca görev özelliklerini birleştirir. , model algoritmalarını optimize eder ve ilgili Verileri ve bilgileri öğrenir, böylece büyük modeller daha iyi sonuçlar gösterebilir ve hatta sıfır örnekle doğrudan uygulanabilir.

Küçük model, küçük boyut (genellikle on milyarlarca parametre düzeyinde), kolay eğitim ve bakım özelliklerine sahiptir, bu nedenle çeşitli dikey alanlar ve dahili geliştirme ve çeşitli endüstrilerde kullanım için uygundur. Genel olarak, küçük modellerin eğitilmesi daha ucuzdur, ancak büyük modellerden çok daha az performans gösterir. Büyük ve küçük modellerin etkileşimli uygulaması sayesinde küçük model, büyük modelin yeteneklerinin bir kısmını elde edebilir veya bazı işlevleri gerçekleştirebilir, böylece küçük modelin performansı işletme ve bakım maliyetlerini artırmadan büyük ölçüde geliştirilebilir ve belirli gereksinimleri karşılayabilir. Uygulama Gereksinimleri. Büyük ve küçük model etkileşiminin yolları üç kategoriye ayrılabilir: veri etkileşimi, model etkileşimi ve uygulama etkileşimi (bkz. Şekil 2).

* Veri etkileşimi

Veri etkileşimi, büyük ve küçük modellerin birbirlerinin eğitim veya muhakeme sürecine doğrudan katılmadığı, ancak birbirleri tarafından üretilen veriler aracılığıyla dolaylı olarak etkileşime girdiği anlamına gelir. Büyük modellerin eğitimi genellikle büyük ölçekli genel amaçlı külliyat gerektirir.Örneğin, GPT3'ün eğitim külliyatı 753 GB'a ulaşır ve bu Wikipedia gibi birden fazla veri kaynağından gelir. Genel amaçlı derlem, birden çok alanı kapsayan derlem anlamına gelir ve bazı belirli alanlarda bilgi kapsamı yetersiz olabilir. Büyük modelin eğitimi tamamlandıktan sonra, talimatlar yoluyla bazı alana özgü sentetik derlem üretilebilir ve ardından yerel dağıtım yoluyla küçük model, alanın ayrılmış derlemi veya endüstrinin özel derlemiyle birlikte eğitilebilir. Küçük model eğitim külliyatı alanı nispeten yoğunlaşmıştır, bu nedenle bu alandaki bilgi sistematik olarak hakim olabilir, böylece modelin çıktısı daha profesyonel, daha ayrıntılı ve daha doğru olur. Büyük modelin bu süreçteki rolü, küçük modelin eğitiminin daha yeterli olabilmesi için büyük ölçekli yüksek kaliteli sentetik korpus oluşturmak ve özel korpusun küçük boyutundan dolayı modelin fazla takılmasını önlemektir. veya özel kurum. Tersine, küçük model tarafından oluşturulan profesyonel derlem, büyük modelin farklı alanlardaki profesyonel yeteneklerini geliştirmek için büyük modelin eğitim derlemine ek olarak kullanılabilir, böylece büyük model yinelemeli olarak gelişmeye devam edebilir.

Büyük ve küçük modeller arasında veri etkileşimi elde etmek için, veri kaynağı yönetim organizasyonuna güvenmenin yanı sıra, büyük ve küçük modellerin eğitim verilerinin kontrol edilebilmesi için bir veri saklama ve ticaret organizasyonunun kurulmasını düşünmek de gereklidir. ve düzenli bir şekilde aktı ve tüm taraflar için karşılık gelen tahsis makul haklar ve menfaatler.

  • Model Etkileşimi

Dolaylı veri etkileşimine ek olarak, büyük ve küçük modeller de model düzeyinde etkileşime girebilir.Birbirlerinin eğitim sürecine katılarak, her iki taraf da birbirinden yararlanabilir ve büyük modellerin iterasyon verimliliğini artırabilir. Bir yandan, büyük modeller küçük modellerin eğitimine rehberlik edebilir ve yaygın olarak kullanılan yöntem bilgi damıtmadır. Damıtma öğrenme modunda, eğitimli büyük model öğretmen modeli olarak kullanılabilir ve eğitilecek küçük model öğrenci modeli olarak kullanılabilir.Aynı eğitim verisi grubu için, makul bir kayıp fonksiyonu tasarlayarak, yumuşak büyük model tarafından oluşturulan etiketler ve eğitim verilerinin kendisi Sabit etiketler, küçük modellerin eğitimine ortaklaşa rehberlik eder. Benzer şekilde, küçük model de büyük model üzerinde ters damıtma gerçekleştirebilir ve büyük modelin yakınsamayı hızlandırmasına yardımcı olmak için örnek değer yargıları yapmak için küçük modeli kullanabilir; değer yargı modeli elde edilir.

  • Uygulama Etkileşimi

Büyük ve küçük modellerin uygulama düzeyinde etkileşime girmesinin tipik yolu, model tarafından oluşturulan uygulamayı diğer modellerin çağırabileceği bir eklenti hizmetine sığdıran eklenti modudur. Eklenti modunun iki avantajı vardır: biri uygun ve verimlidir ve modelin yeniden eğitilmesi gerekmez; diğeri ise model ayrıntılarının sızmasını önleyebilen ve böylece model eğitmenlerinin haklarını ve çıkarlarını daha iyi koruyan iyi bir izolasyondur. ve kullanıcılar.

Bir yandan, büyük model temel olarak ön eğitim yöntemini benimser ve gerçek zamanlı performans yüksek değildir. Küçük model uygulama eklentisini çağırarak, büyük model uygulama yalnızca çıktı sonuçlarının gerçek zamanlı performansını iyileştirmekle kalmaz, aynı zamanda belirli alanlardaki bilgi eksikliğini de artırır. Öte yandan, küçük modellerle oluşturulan uygulamalar, GPT benzeri büyük modellerin sağladığı eklentileri çağırarak büyük modellerin güçlü üretim ve muhakeme yeteneklerini doğrudan elde edebilir. Bu uygulama etkileşim yöntemi, küçük modelleri genel bilgi eğitim sürecinden kurtarabilir ve daha düşük maliyetle belirli alanlarda içerik üretimine odaklanabilir.Kullanıcılar ayrıca çeşitli modellerin birbirine bağlanmasıyla üretilen "kimyasal" reaksiyonu hissedebilirler.

Open AI (Open AI) tarafından yakın zamanda piyasaya sürülen yeni ürün ChatGPT eklentileri, uygulama eklentileri aracılığıyla ChatGPT ile üçüncü taraf uygulamaları birbirine bağlayabilir. Bu üçüncü taraf uygulamaları, tek bir etki alanının küçük modellerinden oluşturulabilir. Bu şekilde, küçük model ChatGPT benzeri büyük modelde gerçek zamanlı bilgileri veya bilgi tabanı bilgilerini almak ve kullanıcıları gerçek dünyanın "akıllı zamanlaması" ile değiştirmek gibi çeşitli genişletilmiş işlevleri tamamlayabilir.

Büyük model eğitim verilerinin ve model araç zincirinin standardizasyonu ve güvenlik kontrolü

Büyük bir modelin performansı, eğitim verilerinin kalitesine bağlıdır.Aynı zamanda, farklı iniş senaryolarında modelin gerektirdiği temel teknik özellikler de farklıdır. Bu nedenle, büyük modellerin sürdürülebilir gelişimi ve sağlıklı etkileşimi ile iyi bir endüstriyel ekoloji oluşturmak için, büyük model eğitim verilerinin ve temel teknolojilerin standardizasyonunu teşvik etmek ve modellerin yinelemesini ve uygulamasını hızlandırmak gerekir.

Bir yandan, büyük modelin kendisinin eğitim veri seti ve tanımlı veri hizmeti arayüzü (API) endüstrinin fiili standardı haline gelecek ve büyük modele erişen çeşitli uygulamaların bu standardı takip etmesi gerekiyor. Şu anda, "ön eğitim + ince ayar" modeli, endüstride birleşik bir standart süreç ve paradigma haline geldi. Bu temelde, belirli uygulama senaryoları ve profesyonel verilerle birleştirilen çeşitli alanlarda ve endüstrilerdeki küçük modeller daha fazla özelleştirilebilir ve optimize edilebilir. Bir dereceye kadar, büyük model eğitim verileri ve veri hizmeti arayüz standartları, yeni nesil uluslararası standartların çekirdeklerinden biri haline gelecektir.

Öte yandan, büyük model eğitim verilerini işlemek için altta yatan teknolojinin gerektirdiği araç zincirinin de ürünleştirilmesi ve standartlaştırılması gerekir. Standartlaştırılmış teknik servislerin güçlü desteği ile büyük model, donanım uyarlaması, model damıtma ve sıkıştırma, model dağıtılmış eğitim ve hızlandırma, vektör veritabanı, grafik veritabanı ve model ara bağlantısı, doğal dil işleme, bilgisayar görüşü gibi teknik çözümler üretebilir. Modaliteler arası ve bilgi grafikleri gibi çeşitli yetenekler, daha fazla şirketin ve geliştiricinin kendi işletmelerine büyük modeller uygulamasına ve düşük eşikli endüstri dikey modelleri oluşturmasına olanak tanıyarak yapay zekanın çeşitli alanlarda yaygın olarak uygulanmasını teşvik eder.

Büyük modellerin geliştirilmesi ve uygulanması, endüstriyel ve ekonomik kalkınmaya büyük faydalar sağlasa da, uygun şekilde kontrol edilmezse, ulusal ve endüstriyel güvenlik için de riskler getirecektir. Biri veri sızıntısı riskidir. Büyük modellerin eğitimi ve uygulanması, endüstri veya kişisel hassas bilgiler dahil olmak üzere büyük miktarda veri ile desteklenmelidir. Makul bir veri duyarsızlaştırma ve veri saklama mekanizması yoksa, veri sızıntısına neden olabilir ve sektöre ve bireylere zarar verebilir. İkincisi, model güvenlik riskidir. Örneğin, eklentilere zararlı içerik yerleştirilebilir ve sosyal ve endüstriyel güvenliği tehlikeye atarak suçlular tarafından dolandırıcılık ve "zehirleme" için bir araç haline gelebilir.

İlgili öneriler

**Başlangıç noktası olarak büyük model eğitim verileri kullanıldığında, standart formülasyon ve veri yönetişimi iki yönlüdür. ** Model uygulama spesifikasyonlarını formüle ederek ve arayüz standartlarını birleştirerek endüstrinin standartlaştırılmış gelişimini teşvik edin. Denetimi güçlendirmek ve veri içeriğinin uyumluluğunu, açık hak ve menfaatleri ve sorunsuz dolaşımı sağlamak için modelin sentetik verilerini barındırması düşünülebilir. Aynı zamanda, kanunları ve yönetmelikleri iyileştirin, politikaları ve sistemleri optimize edin, çeşitli yol ve yöntemlerle ortak bir düzenleyici güç oluşturun ve modellere kötü niyetli müdahaleyi ve zararlı verilerin sızmasını kesinlikle önleyin.

**Büyük bir model eğitim veri öğesi pazarı oluşturun. ** Eğitim verilerinin toplanması ve işlenmesi, sentetik veri hizmetleri, büyük ve küçük modeller arasındaki ara bağlantı ve uygulama API'leri arasındaki endüstriyel zinciri açıklığa kavuşturun. Veri unsuru piyasasının inşasını hızlandırın, eğitim verileri için piyasa odaklı fiyatlandırma sağlayın ve hak ve menfaatlerin dağıtımını ve teşviklerini kolaylaştırın.

**Simbiyotik gelişim için iyi bir ekoloji ve büyük ve küçük modellerin karşılıklı tanıtımı oluşturun. **Genel olarak, yurt içi ve yurt dışındaki ana akım büyük modellerin algoritma düzeyinde kuşaklar arası bir fark yoktur, ancak bilgi işlem gücü ve verilerde bir boşluk vardır. Genel alanda yerli lider teknoloji şirketlerinin bağımsız ve kontrol edilebilir yerli büyük ölçekli modeller geliştirmeleri için güçlü bir şekilde desteklenmesi ve aynı zamanda tüm dikey alanların standartlaştırılmış ve kontrol edilebilir bağımsız araç zincirleri oluşturmak için açık kaynak araçlarını kullanmaya teşvik edilmesi önerilir. Temel büyük model ile profesyonel küçük model arasında iyi bir etkileşimli ortakyaşam ekolojisi ve yinelemeli evrim oluşturmak için "büyük ve güçlü"yü keşfetmek amacıyla büyük modellerden oluşan bir "küçük ve güzel" dikey endüstri modeli de geliştirir.

(Sorumlu editör Zhang Lin)

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)