Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
"MIT Technology Review" bir keresinde resmi web sitesinde, ChatGPT gibi büyük modellerin popülaritesinin devam etmesiyle eğitim verilerine olan talebin arttığını söyleyen bir makale yayınladı. Büyük bir model, sürekli olarak emilen bir "siber kara delik" gibidir ve bu da sonunda eğitim için yeterli veriye sahip olmamaya yol açar.
Tanınmış bir yapay zeka araştırma kurumu olan Epochai, doğrudan veri eğitimi sorunu üzerine bir makale yayınladı ve 2026 yılına kadar büyük modellerin yüksek kaliteli veri tüketeceğine ve 2030-2050 yılına kadar tüm düşük kaliteli verilerin tüketileceğine dikkat çekti.
2030-2060 yılına kadar tüm görüntü eğitimi verileri tükenecek. (Buradaki veriler, herhangi bir şekilde etiketlenmemiş veya kirlenmemiş yerel verileri ifade eder.)
Adres:
Aslında, eğitim verileriyle ilgili sorun zaten ortaya çıktı. OpenAI, yüksek kaliteli eğitim verilerinin eksikliğinin GPT-5'in geliştirilmesindeki önemli zorluklardan biri olacağını söyledi. Bu, insanlarda okula gitmek gibidir, bilgi seviyeniz doktora seviyesine ulaştığında, o zaman size ortaokul bilgisini göstermek öğrenmeye yardımcı olmaz.
Bu nedenle, GPT-5'in öğrenme, akıl yürütme ve AGI genel yeteneklerini geliştirmek için OpenAI, geniş bir alanda özel, ultra uzun metin, video, ses ve diğer verileri toplamayı umarak bir "veri ittifakı" kurmuştur, böylece model insan düşüncesini ve çalışma yöntemlerini derinlemesine simüle edebilir ve öğrenebilir**.
Şu anda İzlanda, Free Law Project ve diğer kuruluşlar, OpenAI'ye model geliştirmeyi hızlandırmasına yardımcı olacak çeşitli veriler sağlamak için ittifaka katıldı.
Ayrıca ChatGPT, Midjourney, Gen-2 ve diğer modeller tarafından üretilen yapay zeka içeriği genel ağa girdikçe, bu durum insanlar tarafından oluşturulan genel veri havuzunu ciddi şekilde kirletecek ve homojenlik ve tek mantık gibi özellikler ortaya çıkarak yüksek kaliteli veri tüketimi sürecini hızlandıracaktır.
Büyük model geliştirme için yüksek kaliteli eğitim verileri çok önemlidir
Teknik açıdan bakıldığında, büyük dil modelleri, büyük miktarda metin verisinden öğrenen, kelimeler arasında ilişki kalıpları oluşturan ve daha sonra bu kalıpları metnin bir sonraki kelimesini veya cümlesini tahmin etmek için kullanan "dil tahmin makineleri" olarak düşünülebilir.
Transformer, en iyi bilinen ve yaygın olarak kullanılan mimarilerden biridir ve ChatGPT ve diğerleri bu teknolojiden ödünç almıştır.
Basitçe söylemek gerekirse, büyük bir dil modeli bir "kabak ve kepçe" dir ve insanlar istediklerini söyleyebilirler. Dolayısıyla, metin oluşturmak için ChatGPT gibi bir model kullandığınızda, bu metin içeriklerinin anlatı modelini nerede görmüşsünüz gibi geliyor.
Bu nedenle, eğitim verilerinin kalitesi, büyük model öğreniminin yapısının doğru olup olmadığını doğrudan belirler. Veriler çok fazla dilbilgisi hatası, zayıf ifade, yanlış cümle sonları, yanlış içerik vb. içeriyorsa, model tarafından tahmin edilen içerik doğal olarak bu sorunları içerecektir.
Örneğin, bir çeviri modeli eğitilmişse, ancak kullanılan verilerin tümü uydurma ve kalitesiz içerikse, yapay zeka tarafından çevrilen içerik doğal olarak çok zayıf olacaktır.
Bu, genellikle küçük parametrelere sahip ancak yüksek parametrelerden daha iyi performans ve çıktıya sahip birçok model görmemizin ana nedenlerinden biridir ve ana nedenlerden biri, yüksek kaliteli eğitim verilerinin kullanılmasıdır.
Büyük modeller çağında, veri kraldır
Verilerin önemi nedeniyle, yüksek kaliteli eğitim verileri OpenAI, Baidu, Anthropic, Cohere ve diğer satıcılar için değerli bir kaynak haline geldi ve büyük modeller çağında "petrol" haline geldi.
Bu yılın Mart ayı gibi erken bir tarihte, Çin hala büyük modeller üzerinde çılgınca simya araştırması yaparken, Baidu, ChatGPT ile kıyaslanan üretken bir yapay zeka ürünü olan Wenxin Yiyansheng'in piyasaya sürülmesinde başı çekmişti.
Güçlü Ar-Ge yeteneklerine ek olarak, Baidu'nun 20 yılı aşkın bir süredir arama motorları aracılığıyla biriktirdiği devasa Çin derlem verileri çok yardımcı oldu ve diğer yerli üreticilerin çok ilerisinde Wenxin Yiyan'ın çoklu yinelemelerinde önemli bir rol oynadı.
Yüksek kaliteli veriler genellikle yayınlanmış kitapları, edebi eserleri, akademik makaleleri, okul ders kitaplarını, yetkili medyadan, Wikipedia'dan, Baidu Ansiklopedisi'nden vb. haberleri, metin, video, ses ve zaman ve insanlar tarafından doğrulanmış diğer verileri içerir.
Ancak araştırma enstitüleri, bu tür yüksek kaliteli verilerin büyümesinin çok yavaş olduğunu bulmuşlardır. Örneğin, kitap yayınlamanın pazar araştırması, ilk taslak oluşturma, düzenleme ve yeniden gözden geçirme gibi hantal süreçlerden geçmesi gerekir ve bir kitabın yayınlanması aylar hatta yıllar alır, bu da büyük model eğitim verilerine olan talebin artmasının çok gerisindedir.
Son dört yılda büyük dil modellerinin gelişme eğilimine bakılırsa, yıllık eğitim veri hacminin büyüme oranı %50'yi aştı. Başka bir deyişle, her 1 yılda bir, performans ve işlev iyileştirmeleri elde etmek için modeli eğitmek için gereken veri miktarının iki katına çıkarılması gerekir**.
Bir yandan, kullanıcıların gizliliğini üçüncü taraf kuruluşlar tarafından toplanmaktan korumak içindir ve hırsızlık ve kötüye kullanım vardır;
Öte yandan, önemli verilerin az sayıda kurum tarafından tekelleştirilmesini ve istiflenmesini önlemek için, teknoloji araştırma ve geliştirme sırasında herhangi bir veri mevcut değildir.
2026 yılına kadar yüksek kaliteli eğitim verilerimiz tükenebilir
Epochai'nin araştırmacıları, eğitim verisi tüketimi sorununu araştırmak için 2022'den 2100'e kadar yıllık dil ve görüntü verisi üretimini simüle etti ve ardından bu verilerin toplam miktarını hesapladı.
Ayrıca ChatGPT gibi büyük modellerin veri tüketim oranını da simüle eder. Son olarak, veri büyüme hızı ile tüketim oranı karşılaştırılmış ve aşağıdaki önemli sonuçlar çıkarılmıştır:
Büyük modellerin mevcut hızlı gelişme eğilimi altında, tüm düşük kaliteli veriler 2030-2050 yılına kadar tükenecek ve yüksek kaliteli veriler büyük olasılıkla 2026 yılına kadar tüketilecektir.
2030-2060 yılına kadar tüm görüntü eğitimi verileri tüketilecek ve 2040 yılına kadar büyük modellerin işlevsel yinelemesi, eğitim verilerinin eksikliği nedeniyle yavaşlama belirtileri gösterebilir.
Araştırmacılar hesaplamak için iki model kullandılar: Birincisi, büyük dil ve görüntü modellerinin her iki alanında da kullanılan veri setlerini kullanarak ve ne zaman zirveye çıkacaklarını ve ortalama tüketimi tahmin etmek için bunları tarihsel istatistiklerden tahmin ederek.
İkinci model, gelecekte her yıl küresel olarak ne kadar yeni veri üretileceğini tahmin ediyor. Model, küresel nüfus sayısı, internet penetrasyonu ve İnternet kullanıcısı başına yıllık olarak üretilen ortalama veri olmak üzere üç değişkene dayanmaktadır.
Aynı zamanda, araştırmacılar Birleşmiş Milletler verilerini bir nüfus artış eğrisine, İnternet kullanımına uyacak şekilde S şeklinde bir fonksiyona uyacak şekilde kullandılar ve kişi başına düşen yıllık çıktı verilerinin temelde aynı olduğu ve her yıl dünyadaki yeni veri miktarını tahmin etmek için üçü ile çarpıldığı basit bir varsayımda bulundular.
Model, Reddit'in (iyi bilinen bir forum) aylık çıktısını doğru bir şekilde tahmin etmiştir, bu nedenle doğruluk oranı yüksektir**.
Son olarak, araştırmacılar yukarıdaki sonuçlara ulaşmak için iki modeli birleştirdiler.
Araştırmacılar, bu verilerin simüle edilmesine ve tahmin edilmesine rağmen, belirli bir belirsizlik derecesi olduğunu söyledi. Ancak bu, büyük model topluluğu için bir uyandırma çağrısıdır ve eğitim verileri yakında yapay zeka modellerinin genişletilmesini ve uygulanmasını kısıtlayan önemli bir darboğaz haline gelebilir.
Yapay zeka satıcılarının, büyük modeller geliştirme sürecinde uçurum benzeri bir veri eksikliğini önlemek için veri rejenerasyonu ve sentezi için önceden etkili yöntemler belirlemesi gerekir
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
ChatGPT gibi modeller: 2026 yılına kadar yüksek kaliteli eğitim verileri tükenecek
Orijinal kaynak: AIGC Açık Topluluğu
"MIT Technology Review" bir keresinde resmi web sitesinde, ChatGPT gibi büyük modellerin popülaritesinin devam etmesiyle eğitim verilerine olan talebin arttığını söyleyen bir makale yayınladı. Büyük bir model, sürekli olarak emilen bir "siber kara delik" gibidir ve bu da sonunda eğitim için yeterli veriye sahip olmamaya yol açar.
Tanınmış bir yapay zeka araştırma kurumu olan Epochai, doğrudan veri eğitimi sorunu üzerine bir makale yayınladı ve 2026 yılına kadar büyük modellerin yüksek kaliteli veri tüketeceğine ve 2030-2050 yılına kadar tüm düşük kaliteli verilerin tüketileceğine dikkat çekti.
2030-2060 yılına kadar tüm görüntü eğitimi verileri tükenecek. (Buradaki veriler, herhangi bir şekilde etiketlenmemiş veya kirlenmemiş yerel verileri ifade eder.)
Adres:
Bu nedenle, GPT-5'in öğrenme, akıl yürütme ve AGI genel yeteneklerini geliştirmek için OpenAI, geniş bir alanda özel, ultra uzun metin, video, ses ve diğer verileri toplamayı umarak bir "veri ittifakı" kurmuştur, böylece model insan düşüncesini ve çalışma yöntemlerini derinlemesine simüle edebilir ve öğrenebilir**.
Şu anda İzlanda, Free Law Project ve diğer kuruluşlar, OpenAI'ye model geliştirmeyi hızlandırmasına yardımcı olacak çeşitli veriler sağlamak için ittifaka katıldı.
Ayrıca ChatGPT, Midjourney, Gen-2 ve diğer modeller tarafından üretilen yapay zeka içeriği genel ağa girdikçe, bu durum insanlar tarafından oluşturulan genel veri havuzunu ciddi şekilde kirletecek ve homojenlik ve tek mantık gibi özellikler ortaya çıkarak yüksek kaliteli veri tüketimi sürecini hızlandıracaktır.
Büyük model geliştirme için yüksek kaliteli eğitim verileri çok önemlidir
Teknik açıdan bakıldığında, büyük dil modelleri, büyük miktarda metin verisinden öğrenen, kelimeler arasında ilişki kalıpları oluşturan ve daha sonra bu kalıpları metnin bir sonraki kelimesini veya cümlesini tahmin etmek için kullanan "dil tahmin makineleri" olarak düşünülebilir.
Transformer, en iyi bilinen ve yaygın olarak kullanılan mimarilerden biridir ve ChatGPT ve diğerleri bu teknolojiden ödünç almıştır.
Basitçe söylemek gerekirse, büyük bir dil modeli bir "kabak ve kepçe" dir ve insanlar istediklerini söyleyebilirler. Dolayısıyla, metin oluşturmak için ChatGPT gibi bir model kullandığınızda, bu metin içeriklerinin anlatı modelini nerede görmüşsünüz gibi geliyor.
Örneğin, bir çeviri modeli eğitilmişse, ancak kullanılan verilerin tümü uydurma ve kalitesiz içerikse, yapay zeka tarafından çevrilen içerik doğal olarak çok zayıf olacaktır.
Bu, genellikle küçük parametrelere sahip ancak yüksek parametrelerden daha iyi performans ve çıktıya sahip birçok model görmemizin ana nedenlerinden biridir ve ana nedenlerden biri, yüksek kaliteli eğitim verilerinin kullanılmasıdır.
Büyük modeller çağında, veri kraldır
Verilerin önemi nedeniyle, yüksek kaliteli eğitim verileri OpenAI, Baidu, Anthropic, Cohere ve diğer satıcılar için değerli bir kaynak haline geldi ve büyük modeller çağında "petrol" haline geldi.
Bu yılın Mart ayı gibi erken bir tarihte, Çin hala büyük modeller üzerinde çılgınca simya araştırması yaparken, Baidu, ChatGPT ile kıyaslanan üretken bir yapay zeka ürünü olan Wenxin Yiyansheng'in piyasaya sürülmesinde başı çekmişti.
Güçlü Ar-Ge yeteneklerine ek olarak, Baidu'nun 20 yılı aşkın bir süredir arama motorları aracılığıyla biriktirdiği devasa Çin derlem verileri çok yardımcı oldu ve diğer yerli üreticilerin çok ilerisinde Wenxin Yiyan'ın çoklu yinelemelerinde önemli bir rol oynadı.
Yüksek kaliteli veriler genellikle yayınlanmış kitapları, edebi eserleri, akademik makaleleri, okul ders kitaplarını, yetkili medyadan, Wikipedia'dan, Baidu Ansiklopedisi'nden vb. haberleri, metin, video, ses ve zaman ve insanlar tarafından doğrulanmış diğer verileri içerir.
Ancak araştırma enstitüleri, bu tür yüksek kaliteli verilerin büyümesinin çok yavaş olduğunu bulmuşlardır. Örneğin, kitap yayınlamanın pazar araştırması, ilk taslak oluşturma, düzenleme ve yeniden gözden geçirme gibi hantal süreçlerden geçmesi gerekir ve bir kitabın yayınlanması aylar hatta yıllar alır, bu da büyük model eğitim verilerine olan talebin artmasının çok gerisindedir.
Son dört yılda büyük dil modellerinin gelişme eğilimine bakılırsa, yıllık eğitim veri hacminin büyüme oranı %50'yi aştı. Başka bir deyişle, her 1 yılda bir, performans ve işlev iyileştirmeleri elde etmek için modeli eğitmek için gereken veri miktarının iki katına çıkarılması gerekir**.
Bir yandan, kullanıcıların gizliliğini üçüncü taraf kuruluşlar tarafından toplanmaktan korumak içindir ve hırsızlık ve kötüye kullanım vardır;
Öte yandan, önemli verilerin az sayıda kurum tarafından tekelleştirilmesini ve istiflenmesini önlemek için, teknoloji araştırma ve geliştirme sırasında herhangi bir veri mevcut değildir.
2026 yılına kadar yüksek kaliteli eğitim verilerimiz tükenebilir
Epochai'nin araştırmacıları, eğitim verisi tüketimi sorununu araştırmak için 2022'den 2100'e kadar yıllık dil ve görüntü verisi üretimini simüle etti ve ardından bu verilerin toplam miktarını hesapladı.
Ayrıca ChatGPT gibi büyük modellerin veri tüketim oranını da simüle eder. Son olarak, veri büyüme hızı ile tüketim oranı karşılaştırılmış ve aşağıdaki önemli sonuçlar çıkarılmıştır:
Büyük modellerin mevcut hızlı gelişme eğilimi altında, tüm düşük kaliteli veriler 2030-2050 yılına kadar tükenecek ve yüksek kaliteli veriler büyük olasılıkla 2026 yılına kadar tüketilecektir.
İkinci model, gelecekte her yıl küresel olarak ne kadar yeni veri üretileceğini tahmin ediyor. Model, küresel nüfus sayısı, internet penetrasyonu ve İnternet kullanıcısı başına yıllık olarak üretilen ortalama veri olmak üzere üç değişkene dayanmaktadır.
Aynı zamanda, araştırmacılar Birleşmiş Milletler verilerini bir nüfus artış eğrisine, İnternet kullanımına uyacak şekilde S şeklinde bir fonksiyona uyacak şekilde kullandılar ve kişi başına düşen yıllık çıktı verilerinin temelde aynı olduğu ve her yıl dünyadaki yeni veri miktarını tahmin etmek için üçü ile çarpıldığı basit bir varsayımda bulundular.
Model, Reddit'in (iyi bilinen bir forum) aylık çıktısını doğru bir şekilde tahmin etmiştir, bu nedenle doğruluk oranı yüksektir**.
Son olarak, araştırmacılar yukarıdaki sonuçlara ulaşmak için iki modeli birleştirdiler.
Araştırmacılar, bu verilerin simüle edilmesine ve tahmin edilmesine rağmen, belirli bir belirsizlik derecesi olduğunu söyledi. Ancak bu, büyük model topluluğu için bir uyandırma çağrısıdır ve eğitim verileri yakında yapay zeka modellerinin genişletilmesini ve uygulanmasını kısıtlayan önemli bir darboğaz haline gelebilir.
Yapay zeka satıcılarının, büyük modeller geliştirme sürecinde uçurum benzeri bir veri eksikliğini önlemek için veri rejenerasyonu ve sentezi için önceden etkili yöntemler belirlemesi gerekir